Qualche osservazione sui limiti dell'uso dei Big Data
Pubblchiamo il contributo di Angel Vulpiani sui limiti dell'utilizzo dei Big Data. Ringraziamo l'autore e il blog divulgativo sulla Matematica applicata Math is in the air - da dove è tratto il contributo - per averci permesso di pubblicare questo articolo.
La cosa più pratica è una teoria che funzioni (Ludwig Boltzmann)
È un fatto innegabile che viviamo in mondo globalizzato con un'enorme produzione di dati (circa 300 miliardi di e-mail ogni giorno tanto per dare un'idea). Sicuramente avere a disposizione una grande mole di informazioni può essere utile, ed i Big Data sono una risorsa importante in diversi ambiti, ad esempio per la sicurezza, per le assicurazioni o per aumentare l'efficienza della aziende.
Secondo alcuni saremmo addirittura di fronte ad una nuova rivoluzione scientifica; la possibilità di estrarre conoscenza attraverso l'analisi di grandi moli di dati avrebbe creato un quarto paradigma, una nuova metodologia scientifica che si aggiungerebbe alle tre già esistenti: il metodo sperimentale, l’approccio matematico e quello computazione (simulazioni numeriche).
Il guru informatico Chris Anderson è arrivato a sostenere che ormai la grande quantità di dati a disposizione rende il metodo scientifico obsoleto... i petabyte ci consentono di dire "la correlazione è sufficiente", possiamo smettere di cercare modelli: non è più necessario studiare teorie generali, prendiamo i dati da Internet, cuciniamoli al computer (magari con software scaricato dalla rete) ed avremo tutto quello che ci serve.
Immagine tratta dall'articolo di Anderson su Wired.com
A prima vista potrebbe sembrare che, con la possibilità di avere a disposizione un'enorme mole di dati, si possa realizzare il progetto induttivistica di Francis Bacon in cui la scienza dovrebbe partire solo dall'analisi dei dati su cui costruire le teorie. Questo modo di vedere le cose è concettualmente molto primitivo. A mio avviso, è opportuno non esagerare l'importanza dei Big Data, che, almeno nell'ambito della ricerca, non sembrano aver avuto finora un impatto sostanziale.
Ci sono molti esempi che mostrano (se ce ne fosse bisogno) come la correlazione non sia affatto sufficiente; eccone due decisamente divertenti: la correlazione tra il numero di pirati e la temperatura media sulla terra, la correlazione tra il consumo di cioccolata pro capite ed il numero di premi Nobel in un dato paese!
Russell mise in ridicolo l'induttivismo ingenuo con la storiella del tacchino induttivista. Un tacchino, appassionato di epistemologia e seguace di F. Bacon, decise di formarsi una visione del mondo scientificamente basandosi solo sulle osservazioni: il primo giorno osservò che gli veniva portato il cibo alle 9 di mattina. Notò poi che questo si ripeteva indipendetemente dal tempo meteorologico e dal giorno della settimana. Dopo molte osservazione concluse che una legge della Natura è che i tacchini vengano nutriti tutti i giorni alle 9 di mattina; l'inferenza induttiva si rivelò falsa alla vigilia di Natale...
Il problema del "Tacchino induttivista"
In termini meno ironici possiamo citare una famosa frase (ovviamente non nota al tacchino) di Poincaré che non ha bisogno di particolari commenti "La scienza è fatta di dati come una casa è fatta di pietre. Ma i dati non sono scienza più di quanto un mucchio di pietre sia una casa".
L'idea di usare la conoscenza del passato per capire il futuro nasce dall'osservazione della regolarità di molti fenomeni; lo dice anche la Bibbia: "Ciò che è stato sarà e ciò che si è fatto si rifarà; non c’è niente di nuovo sotto il sole" (Ecclesiaste).