En la societat actual, cada dia es generen dades per un volum de 2,5 x 1018 bytes, aproximadament. Aquestes dades són de naturalesa complexa i poden combinar diferents aspectes a el mateix temps, entre d’altres: ser multidimensionals, anar lligats a restriccions espaciotemporals, longitudinals (que evolucionen en el temps), multimodals (combinant diferents fonts i orígens), així com provenir de l’execució de múltiples processos paral·lels i / o models. Visualitzar dades inclou gestionar tota aquesta complexitat per convertir-los en informació, és a dir, obtenir respostes a les preguntes o objectius de la visualització. L’anàlisi visual no substitueix a l’estadística clàssica o la construcció de models de mineria de dades, sinó que aporta una perspectiva diferent basada en les capacitats de sistema visual humà. La visualització de dades com a eina d’anàlisi pretén lluitar contra la “síndrome de les caixes negres”, ja presentat en aquest blog amb anterioritat.
Així, l’objectiu d’una visualització de dades és mostrar la naturalesa dels mateixos, facilitant la seva comprensió i posterior exploració. Es tracta, doncs, de realitzar una anàlisi visual preliminar per detectar els aspectes clau presents en les dades: distribucions de cada variable, valors extrems, relacions entre variables, tendències, patrons, outliers, etc. per a això és necessari poder disposar d’un entorn gràfic que permeti visualitzar dades usant diferents projeccions, combinant eines estadístiques amb models generats a partir de les dades, des de descriptors estadístics fins el resultat d’un algoritme de classificació no supervisat, per exemple, variant els paràmetres de la mateixa.
en aquest sentit, l’evolució de la visualització de dades no s’ha centrat només en la capacitat de generar gràfics complexos amb major resolució en un breu lapse de temps, sinó que ha anat incorporant elements interactius en la pròpia visualització, en forma d’operacions bàsiques (selecció, filtrat, etc.). D’acord a la feina de (Keim et al., 2008), l’anàlisi visual de dades es fonamenta en un mantra que és una versió modificada de l’proposat per (Shneiderman, 1996):
“Analyse First –
Show the Important –
Zoom, Filter and Analyse Further –
Details on Demand “
Així, el procés d’anàlisi visual consisteix en un cicle continu que s’inicia en les dades i les seves possibles transformacions , i que es bifurca en dues aproximacions complementàries, la visualització i la construcció de models, entre les quals hi ha un diàleg amb l’objectiu d’extreure coneixement que pugui ser usat per a iterar el procés d’anàlisi visual amb un major nivell de detall i / o complexitat, tal com mostra la figura 1. la capacitat d’interacció ha de permetre a l’usuari de la visualització realitzar, al menys, les operacions bàsiques definides per Ben Shneiderman (vista general, zoom, filtre i selecció).
Des d’una perspectiva d’anàlisi visual, les dues primeres etapes definides a la figura 1 són la transformació (o adaptació) de les dades i seva visualització, incloent-hi la interacció. Per tant, un cop establert l’objectiu de l’anàlisi visual de les dades, es tracta de seleccionar un tipus de visualització interactiva que permeti realitzar aquesta exploració preliminar.
En l’actualitat, per aconseguir aquesta comesa es compta amb un nou aliat, el qual elimina la necessitat de crear aplicacions específiques i proporciona una interfície visual coherent. Es tracta dels navegadors web, que visualitzen pàgines que contenen codi font que construeix (mitjançant el render) la visualització quan la pàgina és accedida i carregada. De forma resumida, una pàgina web és una combinació de CSS (fulls d’estil que determinen l’aspecte dels elements de la pàgina), contingut HTML pròpiament dit i codi JavaScript que permet manipular el DOM (de l’anglès Document Object Model, és a dir, l’estructura de la pròpia pàgina web vista com un document estructurat jeràrquicament), generant nous continguts que s’incrusten dinàmicament, incloent codi HTML i gràfics vectorials (SVG, o Scalable Vector Graphics). El gràfic (o millor dit, la forma de construir-) és part de la pàgina, i és visualitzat quan el navegador executa les ordres necessàries per mostrar el contingut de la pàgina.
D’aquesta manera, generar una visualització de dades interactiva es pot veure com la creació d’una pàgina web construïda dinàmicament que visualitza aquestes dades d’acord a una configuració preestablerta. En aquest sentit, D3 (o també D3.js) és una llibreria JavaScript que permet manipular dades en diferents formats (taules, CSV o JSON, entre d’altres) i generar gràfics vectorials de forma dinàmica que poden ser incrustats a la pàgina web per a la seva manipulació, incloent elements d’interactivitat, tant pel que fa a la interfície d’usuari com a l’ús de transicions que aporten dinamisme a la visualització (Murray, 2013).
Donada la seva flexibilitat, D3 pot utilitzar-se per crear qualsevol tipus de visualització interactiva, generant els elements gràfics a partir de les dades que alimenten la visualització, des gràfics de barres fins a complexes visualitzacions combinant diferents elements gràfics. Un dels aspectes més interessants de D3 és la incorporació de la interacció com a part de la pròpia visualització, de manera que aquesta esdevé la interfície d’accés a les dades, permetent la seva manipulació d’acord a les operacions bàsiques definides per (Shneiderman, 1996) .
aquest exemple, basat en el treball de Jason Davies, permet comprovar com es pot fer servir l’anàlisi visual per detectar relacions entre variables, en aquest cas categòriques. El gràfic interactiu permet reproduir la taula de contingència entre les diferents variables del conjunt de dades, sent possible detectar associacions a simple vista, creuant, per exemple, la variable sexe amb la variable supervivència, mitjançant el desplaçament vertical de les mateixes. Els valors de cada variable categòrica, mostrats horitzontalment, poden ser també ordenats. Encara que l’anàlisi visual no proporciona el nivell de detall que aporta una anàlisi estadística clàssic (en aquest cas, el coeficient txi-quadrat o la V de Cramér), permet constatar ràpidament quines combinacions de variables mereixen ser explorades.
Julià Minguillón és professor dels Estudis d’Informàtica, Multimèdia i Telecomunicació de la UOC. Els seus àmbits de coneixement són l’aprenentatge virtual (e-learning) i els recursos educatius oberts. És investigador de el grup LAIKA (analítiques d’aprenentatge for Innovation and Knowledge Application in Higher Education) i va ser responsable de l’àrea d’Investigació Aplicada de l’eLearn Center.
Referències
Keim, D., Andrienko, G., Fekete, JD, Görg, C., Kohlhammer, J., & Melancon, G. (2008). Visual analytics: Definition, process, and challenges. In Information visualization (pp. 154-175). Springer Berlin Heidelberg.
Shneiderman, B. (1996, September). The eyes have it: A task by data type taxonomy for information visualizations. In Visual Languages, 1996. Proceedings., IEEE Symposium on (pp. 336-343). IEEE.
Murray, S. (2013). Interactive data visualization for theWeb. O’ReillyMedia, Inc.