Twitter è la piattaforma social che nel corso degli anni ha dimostrato di poter essere un veicolo privilegiato dell’opinione pubblica e del sentiment più diffuso in merito a un numero enorme di argomenti.
La brevità dei tweet e la rapidità con cui gli utenti sono in grado di crearli fanno sì che Twitter possa essere considerato una fotografia in tempo reale di ciò che il mondo pensa, fa, condivide.
Per tutta questa serie di motivi i ricercatori hanno individuato in Twitter una fonte preziosissima e inesauribile di dati GIS, ovvero di dati che, se adeguatamente scremati e organizzati secondo parametri geospaziali, possono fornire un’enorme serie di informazioni su eventi di interesse generale.
Per fare un esempio dolorosamente attuale, è emerso che grazie a Twitter sia possibile monitorare e addirittura prevedere lo sviluppo di focolai influenzali in determinate aree geografiche, con un’ottima approssimazione.
Naturalmente le problematiche che è stato necessario individuare, affrontare e risolvere sono state diverse, ma i risultati ottenuti dai ricercatori statunitensi tra il 2013 e il 2014 hanno aperto prospettive interessanti e lasciano immaginare la possibilità di applicare la stessa metodologia ad altre aree di indagine.
L’esperienza statunitense tra il 2013 e il 2014: il metodo
Tra il 2013 e il 2014 un gruppo di scienziati statunitensi ha deciso di utilizzare Twitter come fonte di data mining per monitorare in tempo reale la diffusione di focolai di influenza nelle aree di 31 tra le maggiori città degli Stati Uniti.
Secondo i ricercatori Twitter avrebbe fornito alla sanità pubblica uno strumento di sorveglianza per la diffusione dell’influenza migliore di quelli che erano stati utilizzati fino a quel momento, e che si basavano essenzialmente su segnalazioni dirette da parte dei cittadini (spesso molto irregolari o addirittura dalla frequenza del tutto casuale) oppure su sistemi di raccolta dati estremamente costosi, soprattutto per l’utilità dei dati che permettevano di acquisire.
I ricercatori hanno messo a punto un sistema di raccolta, analisi e organizzazione dei Tweet generati dagli utenti della piattaforma che sfrutta metodi tipici del GIS come filtraggio spaziale, normalizzazione della popolazione e analisi multi scala.
Inoltre, al fine di riuscire a dividere efficacemente i dati pertinenti da quelli non pertinenti, i ricercatori hanno sfruttato le enormi potenzialità dell’apprendimento automatico. Software sempre più sofisticati hanno progressivamente imparato a distinguere sempre meglio i tweet che parlavano di effettivi casi di influenza dai tweet che facevano riferimento a uno stato influenzale in maniera generica e non pertinente.
Per fare qualche esempio concreto:
“L’antinfluenzale comincia a fare effetto … È ora di mettermi a dormire” => Rilevante
“Devo superare quest’influenza!” => Rilevante
“Oggi mi faccio il vaccino anti influenzale” => Non rilevante
“Chi prende l’influenza intestinale il giorno prima dell’esame?” => Non rilevante
Gli ultimi due tweet non potevano essere considerati rilevanti ai fini della ricerca poiché uno di essi si riferiva a un’influenza intestinale, quindi una malattia differente rispetto a quella su cui i ricercatori stavano lavorando, mentre l’altro faceva riferimento a un rimedio preventivo dell’influenza.
I tecnici addetti all’ “addestramento” degli algoritmi di apprendimento automatico inseriscono manualmente questo tipo di informazioni nei sistemi di machine learning, che in breve tempo pervengono a un ottimo livello qualitativo di filtraggio dei dati raccolti attraverso la piattaforma di Twitter.
Un vantaggio estremamente interessante offerto da questa procedura è che, qualora si volessero utilizzare le stesse tecniche GIS per monitorare la diffusione di altre malattie, si dovrebbe soltanto fornire agli algoritmi di apprendimento un “addestramento” differente per renderli egualmente efficaci su un qualsiasi altro campo di analisi.
I dati selezionati attraverso la scrematura così effettuata sono stati aggregati su base cittadina e regionale attraverso sistemi di visualizzazione tipiche del GIS.
Risultati effettivi delle procedure GIS applicate ai dati Twitter
I risultati ottenuti dai ricercatori statunitensi hanno dimostrato che il metodo GIS – Twitter offre ai ricercatori ma soprattutto alle autorità una serie di grandi vantaggi rispetto alla raccolta e all’analisi tradizionale dei dati.
Innanzitutto è stato necessario correlare i risultati ottenuti attraverso l’analisi dei dati Twitter con i dati ILI, cioè relativi alla Sorveglianza Epidemiologica dell’Influenza effettuata con metodi tradizionali.
Anche se in determinati casi ci sono state forti discrepanze tra i dati raccolti attraverso i due diversi approcci metodologici, in linea generale si è dimostrato che i dati fossero per lo più in armonia, ottenendo risultati eccellenti su base regionale.
Le differenze che comunque vennero rilevate furono attribuite o a un’inaffidabilità dei dati ILI in una determinata area oppure alla necessità di affinare il metodo di selezione dati da parte dei ricercatori.Una discrepanza evidente si verificò nelle aree a scarsa urbanizzazione, dal momento che i dati Twitter erano stati selezionati a partire dai Tweet condivisi da cittadini residenti nelle grandi città. Non vi erano quindi dati affidabili relativi alle zone rurali o a più scarsa densità abitativa e i ricercatori si aspettavano questo tipo di risultato.