I conflitti cyber visti dai media

Questo post è il primo di una serie che vuole esplorare il progetto GDELT (“Global Database of Events, Language and Tone”) e in particolare il Global Knowledge Graph. Questi progetti mettono a disposizione dei ricercatori dati strutturati sugli eventi riportati dai media mondiali a partire dal 1979 e permette l’applicazione dei “Big Data” alle scienze sociali. Nelle parole dei suoi creatori GDELT è:

[…] un’iniziativa che ha l’obiettivo di costruire un catalogo del comportamento sociale umano e delle opinioni su scala globale negli ultimi due secoli, fino al livello della singola città. Inoltre tutti i dati sono liberamente disponibili per la ricerca; sono forniti aggiornamenti quotidiani per creare il primo “osservatorio sociale in tempo reale del pianeta” […]

Questo immenso progetto è stato inizialmente creato da Kalev Leetaru (Georgetown Un.),  Patrick Brandt (UTD), Philip Schrodt e John Beieler (Penn State) e incredibilmente è liberamente  disponibile per tutti gli usi. Alla fine del 2013 è stato rilasciato il Global Knowledge Graph (GKG), un secondo dataset – aggiornato ogni giorno- che descrive un grande grafo fatto di persone, eventi, luoghi, emozioni (espresse dal “tono” delle notizie considerate). Al momento il GKG inizia da aprile 2013 ma l’obiettivo dichiarato è quello di estenderlo almeno indietro fino al 1979, come il dataset principale.

Conflitti Cyber

Il mio interesse di ricerca sono i cyber conflitti (o “conflitti cibernetici” come si è cominciato a definirli in italiano) e la cyberwar. Il dataset originale di GDELT non si prestava ad uno studio del genere, principalmente a cause della codificazione degli eventi usata, basata su  CAMEO, uno standard de fact nel mondo delle scienze sociali quantitative. Gli eventi “cyber” però sono poco rappresentati nel sistema CAMEO: solo due codici sono presenti – 155 e 176 – e nessuno dei due è presente nel dataset. Fortunatamente il GKG ha introdotto una innovazione molto interessante – i “temi” – che permette facilmente di creare sottoinsiemi del dataset a seconda dell’area di interesse. Attualmente sono codificati più di 150 temi, da  “ARMEDCONFLICT” ad “ASSASSINATION”, da “MANMADE_DISASTER” a “WHISTLEBLOWER”. Da parte mia l’analisi si concentra sul tema “CYBER_ATTACK” che, a dispetto del nome, include tutti gli eventi riferibili ai conflitti cibernetici.

L’analisi

Il formato dei dati che fanno parte del Global Knowledge Graph è organizzato attorno ai  “nameset“, collezioni di oggetti connessi in una o più sorgenti di notizie. Un nameset collega tra loro individui, organizzazioni, localizzazioni geografiche (a vari livelli), variabili quantitative (se applicabili), tono (positivo o negativo) e temi. Ogni nameset forma una riga di quella grande tabella che è il dataset completo, fornita in formato testuale (.csv) con i campi separati da tabulazioni. In questo primo approccio a questa grande massa di dati, ho mappato i riferimenti geografici ai conflitti cyber (a livello nazionale) in una carta “termica” del mondo, dove i colori più accesi rappresentano i paesi più coinvolti. Sono state generate mappe per i mesi di ottobre, novembre e dicembre 2013 e i dati includono tutti i nameset (eventi) datati in quel mese. Dal sottoinsieme del GKG pertinente al tema scelto ho estratto tutti i riferimenti geografici, raggruppandoli per nazione. Le mappe finali sono state create su una scala logaritmica, soprattutto perché l’enorme numero di riferimenti agli Stati Uniti deforma molto la distribuzione. In queste prime mappe ho considerato solo i riferimenti a livello nazionale,  ma il GKG include anche dove possibile riferimenti più fini, a livello di suddivisioni di primo livello (stati, regioni) e di città/luogo (la georeferenziazione è stata condotta con questo metodo, anch’esso di K. Leetaru). Ovviamente includendo anche questi si ottiene una rappresentazione migliore e più significativa.

Ottobre 2013

Ottobre 2013

Novembre 2013

Novembre 2013

december2013

Dicembre 2013

Possibili sviluppi

Questo è solo un primo contatto con il GKG. Il percorso più ovvio è quello di affinare le rappresentazioni geografiche includendo i riferimenti subnazionali. I dati inoltre hanno probabilmente bisogno di un lavoro di normalizzazione (c’è un fortissimo bias verso gli Stati Uniti per esempio, probabilmente a causa delle fonti di notizie usate, per lo più di lingua inglese). I riferimenti geografici poi sono solo una piccola parte delle informazioni disponibili: dopotutto il GKG è prima di tutto un grafo e gli strumenti dell’analisi delle reti (network analysis) forniranno sicuramente risultati interessanti sulle connessioni tra individui ed organizzazioni (sia governative che non-governative). L’obiettivo ultimo dell’analisi dei dataset è ovviamente la predizione, in questo caso di quello che potrebbe accadere nel campo della sicurezza delle informazioni. I modelli predittivi utilizzeranno probabilmente uso del “tono” associato ad ogni evento o nameset.

Il codice

Gli script sviluppati per questa analisi dono disponibili su GitHub:

https://github.com/Gentry17/gkg

Per il momento sono disponibili un semplice script per l’estrazione di sottoinsiemi del GKG basati sui temi e uno script per l’estrazione da essi delle informazioni geografiche. Altri saranno resi disponibili man mano che l’analisi procede. Tenete inoltre a menti che il GKG è definito al momento come “Alpha experimental” e che quindi il formato potrebbe cambiare in futuro.

AGGIORNAMENTO  1/2/2014

Nel gennaio 2014 GDELT, o più precisamente le sue sorgenti, è divenuto il centro di una polemica che ha portato molti dei membri originali a lasciare il progetto, lasciandolo in pratica nelle mani del solo Leetaru. Kalev ha realizzato un nuovo sito per il progetto (il link sopra è stato aggiornato). GDELT e il GKG è realizzato processando un grande insieme di notizie da varie fonti e al momento la legittimità di questo lavoro sembra in discussione, addirittura da molti sono rifiutati articoli basati sull’analisi di questi dataset. Auspicabilmente tutto sarà chiarito a breve e la credibilità del progetto ristabilita. Anche questo piccolo progetto non accademico per il momento è in standby…

Aggiungi ai preferiti : Permalink.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *