Big Data: una petita introducció

Ja fa un quant temps recopilant informació sobre Big data i introduint nocions sobre el tema en alguns dels meus cursos, però avui mentre preparava una conferència m’he adonat que era un tema que encara no havíem esmentat a la pàgina, tot i ser una de les tendències més assenyalades actualment a la indústria.

Per Big data ens referim exactament al que el seu propi nom indica: a el tractament i anàlisi d’enormes repositoris de dades, tan desproporcionadament grans que resulta impossible tractar-los amb les eines de bases de dades i analítiques convencionals. La tendència s’enquadra en un entorn que no ens sona per res estrany: la proliferació de pàgines web, aplicacions d’imatge i vídeo, xarxes socials, dispositius mòbils, apps, sensors, internet de les coses, etc. capaços de generar, segons IBM, més de 2.5 quintillons de bytes a el dia, fins al punt que el 90% de les dades de l’món han estat creats durant els darrers dos anys. Parlem d’un entorn absolutament rellevant per a molts aspectes, des de l’anàlisi de fenòmens naturals com el clima o de dades sismogràfics, fins a entorns com salut, seguretat o, per descomptat, l’àmbit empresarial. I és precisament en aquest àmbit on les empreses desenvolupen la seva activitat on està sorgint un interès que converteix Big data en alguna cosa així com “the next buzzword”, la paraula que sens dubte escoltarem venint de tot arreu: venedors de tecnologia, d’eines, consultors, etc. En un moment en què la majoria dels directius mai s’han assegut davant d’una simple pàgina de Google Analytics i es sorprenen poderosament quan veuen el que és capaç de fer, arriba un panorama d’eines dissenyades perquè coses immensament més grans i complexes puguin tenir sentit. Tingues-li por, molta por.

Què hi ha exactament darrere de l’buzzword? Bàsicament, l’evidència que les eines d’anàlisi no arriben per poder convertir en informació útil per a la gestió empresarial les dades generades. Si la teva empresa no té un problema amb l’analítica de dades, és simplement perquè no està on ha d’estar o no sap com obtenir informació de l’entorn: quant vam unir a l’operativa tradicional ia les transaccions qüestions com una cada vegada més intensa interacció bidireccional amb els clients i el moviment d’analítica web que generen les xarxes socials de tot tipus, ens trobem un panorama en el qual no estar suposa de partida un desavantatge important respecte als que sí hi són. Es tracta, simplement, que operar en l’entorn amb major capacitat de generació de dades de la història comporta l’adaptació d’eines i processos. Bases de dades no estructurades, no convencionals, que poden arribar a petabytes, exabytes o zetabytes, i que requereixen tractaments específics per les seves necessitats tant d’emmagatzematge com de processament o visualització.

Big data va ser, per exemple, la estrella en l’últim Oracle OpenWorld: el posicionament adoptat és el d’oferir màquines enormes amb capacitats descomunals, processament multiparalelo, anàlisi visual sense límits, tractament de dades heterogenis, etc. Desenvolupaments com Exadata i adquisicions com Endeca suporten una oferta basada en el pensar en gran, que alguns no han dubtat a discutir: enfront d’aquesta aproximació, la realitat és que algunes de les companyies més centrades en el tema, com Google, Yahoo! o Facebook o la pràctica totalitat de les startups no utilitzen eines d’Oracle i opten, al seu lloc, per una aproximació basada en el distribuït, en el núvol i en el codi obert. De codi obert són Hadoop, un framework summament popular en aquest camp que permet a les aplicacions treballar amb enormes repositoris de dades i milers de nodes, creat originalment per Doug Cutting (que li va donar el mateix nom que tenia l’elefant de joguina del seu fill ) i inspirat en eines de Google com MapReduce o Google File System, o NoSQL, sistemes de bases de dades no relacionals necessaris per a albergar i processar l’enorme complexitat de dades de tot tipus generats, i que en molts casos no segueixen la lògica de garanties ACID (atomicity, consistency, isolation, durability) característica de les bases de dades convencionals.

En el futur: un panorama d’adopció cada vegada més gran, i molts, molts interrogants. Implicacions de cara als usuaris i la seva privacitat, o a les empreses i la fiabilitat o potencialitat real dels resultats obtinguts: com diu el MIT Technology Review, grans responsabilitats. De moment, una cosa és segura en Big data: prepara les teves orelles per escoltar el terme.

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *