Big data e digital forensics

Informatica forense

Questa è la migliore, anche se non del tutto soddisfacente, traduzione della dizione originale “digital forensics”. Ma cosa si intende di preciso per informatica forense? Una delle definizioni più utili è ancora oggi quella formulata nel 2001 nel corso del primo Digital Forensics Research Workshop:

[…]L’uso di metodi convalidati e sviluppati scientificamente, per la raccolta, validazione, identificazione, analisi, interpretazione, documentazione e conservazione delle prove (meglio, “fonti di prova” nel contesto italiano) derivate da supporti o sorgenti digitali allo scopo di facilitare o promuovere la ricostruzione di eventi criminali, o aiutare a prevenire comportamenti non autorizzati che possano disturbare le normali operazioni.

isseproceedingsIl testo è importante perché sottolinea per prima cosa la natura scientifica dei metodi dell’informatica forense, in un periodo in cui la disciplina era ancora in transizione tra l'”arte” e l’essere un settore di ricerca riconosciuto e parte a pieno titolo delle scienze forensi (negli Stati Uniti, perché in Italia il concetto di metodo scientifico deve ancora attecchire…). Nel 2001 la disciplina era ancora in fase di crescita e i metodi si stavano ancora solidificando, unendo i contributi provenienti dai vari ambiti separati in cui era praticata: investigazioni, difesa nei processi, indagini aziendali, compliance organizzativa.

Applicare metodi scientifici implica che vengano rispettati in tutte la attività che hanno a che fare con la prova digitale alcuni importanti principi, fra cui:

– Validazione di strumenti e procedure. Sia gli strumenti (tool) utilizzati sia le procedure dovrebbero essere validati sperimentalmente prima della loro applicazione su casi reali.

– Affidabilità. I processi dovrebbero fornire risultati coerenti nel tempo e i tool dovrebbero anch’essi funzionare coerentemente ogni volta che sono utilizzati.

– Ripetibilità. I processi dovrebbero generare gli stessi risultati ogni volta che siano utilizzati sugli stessi input oggetto di analisi. (Il concetto di ripetibilità “tecnica” non è del tutto sovrapponibile al concetto di “ripetibile” nel senso legale dell’ordinamento italiano).

– Documentazione. Tutte le attività parte di un indagine devono essere ben documentate, dall’inizio alla fine del ciclo di vita delle prove. Da una parte devono essere implementate procedure per assicurare la continuità della catena di custodia e l’integrità dei reperti, dall’altra parte una documentazione completa è necessaria per assicurare la ripetibilità e la verifica delle procedure da parte di altri analisti (ad esempio la controparte in un processo).

– Conservazione dell’integrità delle prove. La prova digitale è per sua natura “deperibile” e facilmente manipolabile: la sua integrità deve essere garantita in ogni momento, fin dalle prime fasi delle operazioni di raccolta, in modo da evitare degradazioni e manipolazioni. Per raggiungere questo obiettivo servono sia misure strettamente tecniche come il calcolo degli hash sia organizzative, ad esempio la responsabilità e l’identificazione degli operatori.

I principi elencati brevemente qui sono ancora fondamentali però sono messi in crisi dalle innovazioni tecnologiche e legali con cui gli analisti forensi devono confrontarsi. In questo articolo non si approfondisce il lato legale, che comunque deve essere sempre considerato in questa attività.

Data Science

La cosiddetta “Scienza dei dati” (Data Science) è una disciplina emergente che si colloca all’intersezione tra le tecniche statistiche e l’apprendimento automatico (machine learning), completandoli però con competenze legate allo specifico dominio di applicazione. La scienza dei dati è alimentata dalla crescente disponibilità di grandi basi di dati, strutturati o meno. Una definizione concisa di questo nuovo campo è:

[…] l’abilità di acquisire dati, capirli, elaborarli, estrarne valore, visualizzarli e comunicarli.

Questa definizione riassume in poche parole l’intero ciclo della gestione dei dati e possiamo capire che in generale la data science si occupa della preparazione, analisi e visualizzazione di grossi insiemi di informazioni. I paralleli tra il tipico flusso di lavoro dell’informatica forense e quelli della gestione dei dati sono evidenti, anche se l’attività di visualizzazione merito un piccolo approfondimento. L’utilizzo di rappresentazioni grafiche non è ancora molto diffuso nell’informatica forense, né nella pratica né nelle più diffuse linee guida o norme ma, mano a mano che gli oggetti di analisi si spostano verso quello che viene definito “Big Data”, diventerà necessariamente un utilissimo strumento nella cassetta degli attrezzi di ogni analista forense, ad esempio nelle prime fasi quando si tratta di stabilire delle priorità per la successiva analisi o nella comunicazione dei risultati delle analisi.

La scienza dei dati ha bisogno della sua materia prima e la buzzword per antonomasia qui è “Big Data”. Ma cosa è considerato “Big Data”? Dopotutto il concetto è relativo e soprattutto può cambiare nel tempo. Una definizione comoda è “ogni insieme di dati che è difficile da gestire con strumenti convenzionali, come ad esempio i gestori di basi di dati relazionali”. Dal punto di vista della data science le sfide nel gestire ed elaborare grandi dataset sono riassunte nelle cosiddetta “Tre V”: Volume, ovviamente; Velocità (della crescita dei dati a disposizione ma anche della elaborazione); Varietà (Le fonti dei dati sono variegate, sia strutturate che non). Nel prossimo paragrafo vedremo come queste sfide si declinano nel contesto dell’informativa forense.

Le sfide

La cosiddetta “età dell’oro” per l’informatica forense comprende grosso modo il periodo che va dagli anni 90 all’inizio di questo secolo. In questo periodo il panorama tecnologico era dominato dall’architettura PC – in particolare dalla piattaforma Intel x86 – e dal sistema operativo Windows, di Microsoft. I dischi fissi costituivano la maggior parte delle sorgenti di prova digitale al punto che la definizione più diffusa della disciplina era semplicemente “Computer Forensics”. Inoltre la dimensione media dei dispositivi permetteva l’acquisizione bit per bit senza eccessive perdite di tempo. La relativa uniformità tecnologica di quel periodo ha facilitato lo sviluppo dei principi e delle procedure viste sopra, poi formalizzate in numerose linee guida e infine nello standard ISO/IEC 27037. Inevitabilmente però queste rimangono indietro rispetto agli sviluppi tecnologici e di mercato: gli ultimi anni hanno generato molte sfide al “modello standard” dell’informatica forense, prima fra tutte l’esplosione nella dimensione media delle fonti di prova per ogni caso motivata tra l’altro da:

– Il crollo del costo unitario per i dispositivi di storage (stimati nel 2013 a circa 80 Dollari per Terabyte) e di conseguenza l’incremento delle dimensioni per ogni singolo PC o altro dispositivo;
– L’aumento sostanziale della densità nei dispositivi di storage magnetici e la diffusione di dispositivi di memorizzazione allo stato solido (USB, memory card, SSD) in una vasta gamma di gadget (smartphone, fotocamere, ricevitori GPS e una miriade di altri);
– L’enorme penetrazione dei dispositivi mobili in tutto il mondo, compresi i paesi in transizione di Asia e Africa dove costituiscono in molti casi il principale mezzo di comunicazione e di accesso alla rete;
– L’introduzione e la crescente diffusione dei servizi cloud sia per gli utenti individuali che per le imprese, rese possibili in parte dalla virtualizzazione resa possibile di moderni processori multi-core;
– Dati generati dal traffico di rete fanno parte ormai dele fonti di prova in molti casi e la loro dimensione -di nuovo- è aumentata moltissimo negli ultimi anni, sia su Internet che sulle reti cellulari 3G/4G.
– La connettività sta rapidamente diventando onnipresente e si prevede l’avvento del cosiddetto “Internet delle cose”, dove molte classi di dispositivi e sensori saranno online (e genereranno dati). Se introdotto, il protocollo IP versione 6 sarà la tecnologia abilitante.

Citare qualche esempio quantitativo di queste tendenze può essere utili, a partire dal report “FBI Regional Computer Forensics Laboratories (RCFLs) Annual Report” del 2008 (pubblicato dai laboratori forensi regionali dell’FBI) che quantifica nel 27% l’aumento annuale della quantità di dati (evidenze) lavorati. Lo stesso rapporto, nel 2010, rileva una dimensione media per il singolo caso di 0,4 Terabyte. Secondo un sondaggio informale condotto dal sito inglese Forensic Focus, una community di professionisti, metà dei casi trattati nel 2013 coinvolge più di un TB di evidenze, con uno su cinque che supera i 5 TB.

La semplice quantità di dati associati ad un caso però non è certo l’unica misura della sua complessità e questa non è la sola sfida che la digital forensics sta affrontando: le evidenze stanno diventando sempre più eterogenee nella loro natura e origine, seguendo le tendenze del mondo digitale in generale. L’analisi è certamente la fase del flusso di lavoro di un laboratorio forense che è più influenzata da questo aspetto: anche quando sono applicate adeguate procedure di prioritizzazione, è comunque necessario farsi strada tra diverse categorie e sorgenti di prova che si presentano sia in forma strutturata che non strutturata. Le stesse sorgenti di dati sono molto più differenziate che in passato ed è comune ora per un caso coinvolgere fonti di prova provenienti da personal computer, server, servizi cloud, telefoni e altri dispositivi mobili, fotocamere e perfino sistemi embedded e sistemi di controllo industriale.

Ripensare la Digital Forensics

Per affrontare le molte sfide, ma anche per poter sfruttare le opportunità, l’informatica forense come disciplina scientifica deve ripensare in qualche modo principi dati per scontati e riorganizzare modalità di lavoro consolidate; inoltre si dovranno includere nel suo arsenale strumenti che in passato non erano considerati adatti alla pratica forense, ad esempio sistemi basati sugli algoritmi di apprendimento automatico (machine learning). L’altro importante elemento è quello umano: anche le abilità e le conoscenze degli analisti forensi dovranno essere ampliate sotto molti aspetti, per poter applicare adeguatamente i nuovi strumenti, integrarli nelle linee guida esistenti e validarli. La diffusione delle conoscenze e abilità relative alla gestione dei “Big data” dovrà avvenire per tutti i profili coinvolti nel ciclo di vita delle evidenze digitali, a partire dai “Primi risponditori” (Digital Evidence First Responders, DEFR), dato che l’identificazione e la prioritizzazione diventano ogni giorno più importanti e operatori formati sono necessari fin dai primi passi dell’investigazione.

Principi

Vediamo come i principi di base elencati prima possono essere adattati e ripensati per adattarsi alle sfide dei “Big Data”.

La validazione e l’affidabilità degli strumenti diventano ancora più importanti in uno scenario dominato da grandi quantità di dati a causa della dimensione e della varietà dei dataset unite all’utilizzo di algoritmi avanzati provenienti dal settore dell’Intelligenza Artificiale. La validazione di strumenti simili deve includere esperimenti ripetuti e statisticamente significativi usando dataset di test e validazione.

La ripetibilità totale di tutte le fasi di acquisizione ed analisi è stata sempre un cardine dell’informatica forense, ma quasi sicuramente dovrà essere abbandonata presto, almeno nel suo significato più rigido, per una buona parte dell’acquisizione e analisi delle evidenze. Già ora nel campo della mobile forensics la ripetibilità strictu sensu è praticamente impossibile da rispettare e la stessa cosa vale per l’analisi forense delle applicazioni clous. Quando gli algoritmi di apprendimento automatico diventeranno di uso comune si dovrà fare più affidamento sulla loro validazione scientifica preliminare più che sulla ripetibilità rigida e totale dell’analisi. Come nota a margine, questi sviluppi sottolineano ancora l’importanza di utilizzare dove è possibile metodi e strumenti aperti che possano essere validati e verificati indipendentemente, evitando l’uso di strumenti chiusi (black box) oppure -ancora peggio- disponibili solo ad alcune categorie come le forze dell’ordine.

L’importanza della documentazione di ogni attività e risultato per una solida investigazione è ancora una volta importantissima, data l’introduzione di operazioni non-ripetibili e analisi “live” come parti fondamentali del processo investigativo. Informazioni pubblicate in articoli scientifici sulla validazione dei metodi usati dovrebbero far parte integrante dei rapporti finali, così come le giustificazioni per le procedure non ripetibili adottate.

Flusso di lavoro

Tenendo presente come i principi di base debbano evolvere, ripercorriamo in breve il tipico flusso di lavoro di un indagine digitale ed esaminiamo come ogni faso possa modificarsi e adattarsi ad uno scenario “Big Data”. La norma ISO/IEC 27037 descrive le fasi di identificazione, raccolta, acquisizione e conservazione delle evidenze digitali (“potenziali” evidenze secondo il testo…). Le fasi di analisi e quelle successive sono descritte in altri standard collegati di prossima pubblicazione (ISO/IEC 27041 e soprattutto ISO/IEC 27042).

Identificazione e raccolta

La sfida principale in queste fasi e di selezionare in tempo utile le evidenze, già a partire dal primo intervento sulla scena. Dovranno essere ulteriormente sviluppate linee guida per la prioritizzazione, abbandonando il paradigma che prevede l’acquisizione di tutte le fonti possibili per una successiva analisi. Questo implica ovviamente un certo grado di accesso alle evidenze prima dell’acquisizione al fine di selezionare le fonti di prova, quindi in una certa misura modificandole. Diventa critica la preparazione dei primi risponditori, molto più che in passato, e nell’ambito aziendale anche la presenza di appropriate procedure pre-incidente.

Acquisizione

L’introduzione e la diffusione della prioritizzazione delle evidenze potrebbe in molti casi far superare il principio della copia completa di tutti i supporti raccolti sulla scena e quello dell’integrità in senso stretto. Ovviamente però dall’acquisizione in poi l’integrità deve essere comunque garantita, anche se la fonte originale è stata modificata in qualche modo durante le fasi precedenti, anche se solo per selezionare cosa acquisire. Dal punto di vista più strettamente tecnico, il crescent volume delle evidenze comporta la necessità di strumenti adatti, fra cui hardware dedicato, sia nel caso delle memorie di massa che del traffico di rete. In un non lontano passato era possibile realizzare una stazione di acquisizione usando hardare “off-the-shelf”, non differente da quello dei normali PC.

Conservazione

Anche qui il volume di evidenze impone un aumento delle risorse e degli investimenti, per conservare adeguatamente, in sicurezza e rispettando le legislazione, le evidenze relative a tutti i casi trattati da un laboratorio forense.

Analisi

Integrating methods and tools from data science implies surpassing the “sausage factory” forensics still widespread today, where under-skilled operators rely heavily on point and click all-in-one tools to perform the analysis. Analysts shall need to include a plurality of tools in their panoply and not only that, but understand and evaluate the algorithms and implementations they are based upon. The absolute need for highly skilled analysts and operators is clear, and suitable professional qualifications will develop to certify this.

Diffusione e comunicazione dei risultati (reporting)

Le relazioni finali che contengono i risultati delle investigazioni dovranno contenere accurati riferimenti alla validazione degli strumenti e delle procedure, soprattutto quelli che si basano su algoritmi di apprendimento automatico, facendo riferimento quando possibile alla letteratura scientifica.

Strumenti utili per rispondere alla sfida

Anche in uno scenario in cui l’arsenale usato nella scienza dei dati, sia per quanto riguarda gli algoritmi che i software, è in rapida evoluzione, vale la pena presentare alcuni degli strumenti più significativi che potranno essere adattati all’uso nelle indagini digitali.

Il modello Map-Reduce è un modo di gestire compiti di calcolo che possono essere effettuati in parallelo, cioè suddivisi tra molti o moltissimi processori. La parallelizzazione funziona bene però quando i dati da analizzare non presentano livello elevato di correlazione al loro interno. In generale questo non avviene per le tipiche attività in ambito forense, ma ci sono alcune eccezioni, ad esempio la classificazione di frammenti di file. Il problema è l’attribuzione di frammenti di dati -rinvenuti ad esempio da spazio non allocato su disco oppure da file cancellati- ad uno specifico tipo di file, ed è un problema tipico della disciplina. Algoritmi di classificazione basati sull’apprendimento automatico -ad esempio regressione logistica e support vector machine- possono essere utilmente adattati al modello M-R se l’analista rinuncia alle possibili correlazioni tra singoli frammenti.

Alberi (e “foreste”) di decisione possono essere utilizzati per esempio nei sistemi di individuazione delle frodi, dove si tratta di estrarre da vaste quantità di dati le anomalie statistiche – in questo caso transazioni anomale o comportamenti anomali dei visitatori di un sito.

Nel campo dell’analisi forense dei file multimediali tecniche di apprendimento automatico non supervisionato che vanno sotto il nome generico di “blind signal separation” hanno fornito buoni risultati dove si tratta di separare il segnale (voce) dal rumore di sottofondo, ed anche singoli parlanti tra loro. Questi sistemi fanno in generale affidamento su varie metodologie matematiche per trovare, nell’insieme di possibili soluzioni, quelle che presentano la minore correlazione tra loro.

Nel campo dell’analisi delle immagini (“image forensics”) di nuovo le tecniche di classificazione sono applicate al problema di analizzare rapidamente grossi insiemi di immagini per separare gli esemplari “sospetti” dagli altri.

Le reti neurali sono eminentemente adatte per il riconoscimento di strutture complesse (pattern recognition) ad esempio nell’analisi di traffico di rete -con risultati ancora non molto accurati-, nell’analisi dei file di log o del comportamento di un sistema. Può essere usato un approccio supervisionato, composto da una fase di apprendimento il sistema è “allenato” a distinguere tra la situazione normale e quella anomala e da una fase di utilizzo reale su dati non visti prima, ad esempio una immagine forense di un disco fisso.

Tecniche di elaborazione del linguaggio naturale che comprendono per esempio classificatori Bayesiani e algoritmi di clustering sono utilizzate con successo per la verifica della paternità di testi o per la classificazione di grandi dataset testuali, ad esempio messaggi di posta elettronica.

Articolo Originale presentato a ISSE 2013

Slide della presentazione (pdf)

Aggiungi ai preferiti : Permalink.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *