Nella società di oggi, i dati vengono generati ogni giorno un volume di 2,5 anni x 1018 byte, approssimativamente. Questi dati sono di natura complessa e possono combinare diversi aspetti contemporaneamente, tra gli altri: essere multidimensionale, andare collegato a restrizioni spaziale-temporali e longitudinali (che si evolvono nel tempo), anche multimodale (combinando diverse fonti e origini), pure Come proveniente dall’esecuzione di più processi paralleli e / o modelli. La visualizzazione dei dati include la gestione di tutta questa complessità per convertirli in informazioni, ovvero ottenere risposte alle domande o agli obiettivi della visualizzazione. L’analisi visiva non sostituisce le statistiche classiche o la costruzione di modelli di data mining, ma fornisce una prospettiva diversa basata sulle funzionalità del sistema visivo umano. La visualizzazione dei dati come strumento di analisi mira a combattere contro la “sindrome delle caselle nere”, già presentata in questo blog prima.
Pertanto, l’obiettivo di una visualizzazione dei dati è mostrare la natura dello stesso, facilitando il loro comprensione e successiva esplorazione. È quindi un’analisi visiva preliminare per rilevare gli aspetti chiave presenti nei dati: distribuzioni di ciascuna variabile, valori estremi, relazioni tra variabili, tendenze, modelli, valori anomali, ecc. Per questo, è necessario avere Un ambiente grafico che consente di visualizzare i dati utilizzando diverse proiezioni, combinando strumenti statistici con i modelli generati dai dati, dai descrittori statistici al risultato di un algoritmo di classificazione non supervisionato, ad esempio, variando i parametri da esso.
In questo senso, l’evoluzione della visualizzazione dei dati non si è concentrata solo sulla capacità Per generare grafica complessa con una maggiore risoluzione in un breve periodo di tempo, ma ha incorporato elementi interattivi nella visualizzazione stessa, sotto forma di operazioni di base (selezione, filtraggio, ecc.). Secondo il lavoro di (Keim et al., 2008), l’analisi dei dati visivi si basa su un mantra che è una versione modificata della proposta da (Shneiderman, 1996):
“Analizza prima –
mostra l’IMPORTANTE –
Zoom, filtro e analizzano ulteriormente –
Dettagli su richiesta “
Pertanto, il processo di analisi visiva è costituito da un ciclo continuo che inizia nei dati e le sue possibili trasformazioni e ciò è biforcato in due approcci complementari, visualizzazione e costruzione di modelli, tra i quali vi è un dialogo con l’obiettivo di estrarre la conoscenza che può essere utilizzata per iterare il processo di analisi visiva con un livello superiore di dettaglio e / o complessità, come mostrato in Figura 1. La capacità di interazione deve consentire all’utente della visualizzazione di eseguire, almeno, le operazioni di base definite da Ben Shneiderman (Panoramica, Zoom, filtro e selezione).
Da una prospettiva di analisi visiva, i primi due passaggi definiti nella figura 1 sono la trasformazione (o adattamento) dei dati e della sua visualizzazione , inclusa l’interazione. Pertanto, una volta stabilita il bersaglio dell’analisi visiva dei dati, si tratta di selezionare un tipo di display interattivo che consente una tale scansione preliminare.
al momento, per raggiungere questo compito. Un nuovo alleato, che Elimina la necessità di creare applicazioni specifiche e fornisce un’interfaccia visiva coerente. Si tratta di browser Web, che visualizzano pagine che contengono il codice sorgente che si basano (via rendering) quando viene accessibile e caricata la pagina. Riepilogo, una pagina Web è una combinazione di CSS (fogli di stile che determinano l’aspetto degli elementi di pagina), il contenuto HTML stesso e il codice JavaScript che consente di manipolare il DOM (dal modello di oggetto documento inglese, cioè la struttura delle visualizzazioni del sito web se stesso come un documento strutturato gerarchicamente), generando nuovi contenuti incorporati dinamicamente, incluso il codice HTML e la grafica vettoriale (SVG o grafica vettoriale scalabile). Il grafico (o meglio, come costruirlo) fa parte della pagina e viene visualizzato quando il browser esegue gli ordini necessari per mostrare il contenuto della pagina.
In questo modo, generando un display interattivo dei dati può essere visto come la creazione di una pagina Web costruita dinamicamente che visualizza questi dati in base a una configurazione prestabilita. In questo senso, D3 (o anche D3.JS) è un bookstore JavaScript che consente di manipolare i dati in diversi formati (tabelle, CSV o JSON, tra gli altri) e generano la grafica vettoriale dinamicamente che può essere incorporata sulla pagina web per la sua gestione, Compresi elementi di interattività, sia per quanto riguarda l’interfaccia utente che l’uso delle transizioni che forniscono il dinamismo alla visualizzazione (Murray, 2013).
Data la sua flessibilità, D3 può essere utilizzato per creare qualsiasi tipo di visualizzazione interattiva, generando Elementi grafici da dati che alimentano la visualizzazione, dai grafici a barre a display complessi combinando diversi elementi grafici. Uno degli aspetti più interessanti della D3 è l’incorporazione dell’interazione come parte della visualizzazione stessa, in modo che diventi l’interfaccia di accesso ai dati, consentendo la sua manipolazione in base alle operazioni di base definite da (Shneiderman, 1996).
Questo esempio, basato sul lavoro di Jason Davies, consente di verificare come può essere utilizzata l’analisi visiva per rilevare le relazioni tra le variabili, in questo caso categorico. Il grafico interattivo consente di riprodurre la tabella di contingenza tra le diverse variabili del set di dati, è possibile rilevare associazioni all’occhio nudo, attraversando, ad esempio, il sesso variabile con la variabile di sopravvivenza, mediante spostamento verticale. I valori di ciascuna variabile categorica, mostrati orizzontalmente, possono anche essere ordinati. Sebbene l’analisi visiva non fornisca il livello di dettaglio fornito da un’analisi statistica classica (in questo caso, il coefficiente di chi-quadrato o il V di cramer), consente di verificare rapidamente quali combinazioni di variabili meritano di essere esplorate.
Julià Menguillón è professore di studi di computer, multimediali e telecomunicazioni di UOC. Le sue aree di conoscenza sono l’apprendimento virtuale (e-learning) e le risorse educative aperte. È un ricercatore del Gruppo Laika (Analytics di apprendimento per l’innovazione e la domanda di conoscenza nell’istruzione superiore) ed è stato responsabile per l’area di ricerca applicata del centro elecelan.
Riferimenti
Keim, D., Andrienko, G., Fekete, JD, Görg, C., Kohlhammer, J., & MELANÇON, G. (2008). Visual Analytics: definizione, processo e sfide. Nella visualizzazione delle informazioni (PP. 154-175). Springer Berlin Heidelberg.
Shneiderman, B. (1996, settembre). Gli occhi lo hanno: un compito per tassonomia del tipo di dati per le visualizzazioni delle informazioni. In lingue visive, 1996. Procedimenti, Simposio IEEE su (PP. 336-343). IEEE.
Murray, S. (2013). Visualizzazione dati interattiva per ilWeb. O’reillymedia, inc.