que estiven recollendo información sobre grandes datos e introducindo nocións sobre o tema nalgúns dos meus cursos, pero hoxe Mentres estaba preparando unha conferencia, deime conta de que era un tema que aínda non mencionamos na páxina, a pesar de ser unha das tendencias máis indicadas na industria.
por grandes datos referimos exactamente o que o seu O nome propio indica: o tratamento e análise de enormes repositorios de datos, tan desproporcionadamente grande que é imposible tratalos con ferramentas e analíticas de base de datos convencionais. A tendencia está enmarcada nun ambiente que soa como nada estraño: a proliferación de páxinas web, aplicacións de imaxe e vídeo, redes sociais, dispositivos móbiles, aplicacións, sensores, internet de cousas, etc. Capaz de xerar, de acordo con IBM, máis de 2,5 quintillones de bytes por día, ata o punto de que o 90% dos datos do mundo foron creados durante os últimos dous anos. Falamos dun ambiente absolutamente relevante para moitos aspectos, desde a análise de fenómenos naturais como o clima ou os datos sísmicos, a ambientes como a saúde, a seguridade ou, por suposto, o ambiente empresarial. E é precisamente nesa área onde as empresas desenvolven a súa actividade onde un interese que fai que os grandes datos estean emerxendo en algo así como “The NextwordWord”, a palabra definitivamente escribiremos de todo: Vendedores tecnolóxicos, ferramentas, consultores, etc. Nun momento no que a maioría dos xestores nunca se sentaban diante dunha simple páxina de Google Analytics e quedan moi sorprendidos cando ven o que é capaz de facer, chega un panorama de ferramentas deseñadas para que as cousas inmensamente máis grandes e complexas poidan ter sentido. Teña medo, moito medo.
Que exactamente detrás da palabra? Basicamente, a evidencia de que as ferramentas de análise non chegan a converter en información útil para a xestión empresarial dos datos xerados. Se a súa empresa non ten un problema coa análise de datos, é simplemente porque non é onde ten que ser ou non sabe como obter información do medio ambiente: axiña que unirnos os problemas tradicionais de operación e transaccións como un Interacción bidireccional cada vez máis intensa con clientes e movemento de análise web que xeran redes sociais de todo tipo, atopámonos un panorama no que non é unha importante desvantaxe respecto de aqueles que son. É simplemente que operar no medio ambiente con maior capacidade de xeración de datos na historia leva a adaptación de ferramentas e procesos. Bases de datos non estruturadas e non convencionais, que poden alcanzar petabytes, exabytes ou zetabytes, e requiren tratamentos específicos para o seu almacenamento e procesamento ou necesidades de visualización.
Big Data foi, por exemplo, a estrela do falecido Oracle OpenWorld: o O posicionamento adoptado é ofrecer enormes máquinas con enormes capacidades, procesamento multiparaleloe, análise visual ilimitada, procesamento de datos heteroxéneos, etc. Os desenvolvementos como a exadata e as adquisicións como endeca apoian unha oferta baseada no pensamento grande, que algúns non dubidaron en discutir: Fronte a ese enfoque, a realidade é que algunhas das empresas máis centradas no tema, como Google, Yahoo! O Facebook ou a totalidade das startups non usan ferramentas de Oracle e optan, en vez diso, por unha aproximación baseada na distribución, na nube e na fonte aberta. Open Source está Hadoop, un marco moi popular neste campo que permite que as solicitudes traballen con enormes repositorios de datos e miles de nós, orixinalmente creados por Doug Cutting (o que lle deu o mesmo nome que o seu fillo de xoguetes e inspirado en Google Ferramentas como MapReduce ou Google File System, ou NOSQL, sistemas de base de datos non relacionados necesarios para albergar e procesar a enorme complexidade de datos de todos os tipos xerados e que, en moitos casos, a lóxica das garantías non segue ácido (atomicidade, consistencia, illamento, durabilidade) ) Característica das bases de datos convencionais.
No futuro: un panorama de adopción crecente e moitas, moitas preguntas. Implicacións para os usuarios ea súa privacidade, ou as empresas e a fiabilidade ou potencial real dos resultados obtidos: como a revisión tecnolóxica do MIT, grandes responsabilidades. Polo momento, unha cousa é segura en grandes datos: preparar os seus oídos para escoitar o termo.