Microsoft Word - Cuaderno Verde BigData
BIG DATA... ¿Y ESTO QUÉ ES?
Hoy en día hay mucha confusión y demasiado populismo con este nuevo término llamado BIG DATA. A cualquier proyecto de análisis de datos se le está poniendo la etiqueta de BigData simplemente por que se tratan muchos datos. Entre los consultores BI está siempre la conversación y la gran mayoría, por no decir todos, creen que se está sustituyendo BI por BigData.
Surgen muchos Masters, cursos y charlas que en su contenido el 70%-80% es teoría de BI y el otro 20% es cómo usar tecnologías Big Data... Desde este documento, se busca dar un punto de vista de qué es BigData y cómo se asocia al Business Intelligence de forma natural.
Desde antaño, las empresas vienen sufriendo transformaciones debido a la tecnología. Los ejecutivos empezaron a gestionar sus empresas sin guardar datos pues no existía ningún medio para ello, después surgió la tecnología y comenzaron a usar BD con pocos datos que se fueron transformando y creciendo hasta un punto de tener que surgir nuevas formas de "análisis" y "digestión" de esa información.
Es ahí que surgieron las tecnologías y procesos de Business Intelligence que buscaban analizar esos datos que no podían analizar a simple vista. Pero ahora, con la evolución de la tecnología han surgido nuevos tipos de datos que no hay como tratar con las tecnologías de siempre y también se generan millones de datos en muy poco tiempo que no se pueden almacenar pero sí se quiere analizar.
Es por ello que surgen estas tecnologías y procesos BigData que buscan proveer a aplicaciones empresariales de las carencias que las actuales no consiguen proveer. Veamos un poco los retos y qué propuestas hay actualmente en el ecosistema BigData y BI.
BIG DATA... ¿Y ESTO QUÉ ES?
Actualmente las empresas están viendo cómo el mundo de la tecnología está creciendo y transformándose. Surgen nuevos tipos de datos y necesidades que actualmente los sistemas no son suficientemente buenos o adecuados para poder atacar estos problemas pues las empresas son más exigentes y buscan exprimir al máximo sus recursos para obtener el mayor beneficio.
Sería semejante a escuderías de F1 que buscan superar al rival buscando la diferencia hasta en los grados de regulación de un alerón, analizando y optimizando al mayor detalle.
A continuación, se expondrán algunos de los muchos problemas, pero estos que se destacan quizás son unos de los principales motivos que ha hecho que surja todo ese ecosistema de procesos y herramientas "BigData".
LOS PROBLEMAS ACTUALES
La teoría que nos enseñan en la carrera de informática es que el modelo tradicional de BD es el relacional que con ello podemos hacer todo. Hasta hace relativamente poco, inclusos los hay que aún solventan cualquier problema con relacionales. Actualmente hay una serie de problemáticas con este tipo de BD que se resumen en estos 3 puntos:
Tipos de datos. Variedad. Han surgido nuevos tipos de datos que se quieren almacenar: datos no estructurados. Las BD Relacionales no pueden almacenar este tipo de datos.
Tipos de datos. Variedad. Han surgido nuevos tipos de datos que se quieren almacenar: datos no estructurados. Las BD Relacionales no pueden almacenar este tipo de datos.
Escalabilidad. En búsqueda de la rapidez y rendimiento en consultas o procesamiento de datos se busca escalar siempre en horizontal. Es decir, si necesitamos más rendimiento añadimos una CPU a nuestro conjunto de trabajo para poder aumentar nuestras prestaciones en conjunto y aumentar el rendimiento reduciendo el tiempo de búsqueda o almacenamiento.
El problema es que actualmente las BD Relacionales no pueden estar distribuidas en nodos diferentes de forma sencilla transparente al usuario. Por ello la única forma de conseguir estos dos objetivos en las BD Relacionales es añadiendo CPU y Memoria, haciendo escalabilidad vertical.
Pero esto no es suficiente, buscamos escalabilidad horizontal para tener todos los servidores que queramos trabajando en paralelo y no tener un límite como es el caso del escalado vertical.
Modelo relacional. El modelo relacional no da soporte para todos los problemas. No podemos atacar todos los problemas con el mismo enfoque, queremos optimizar al 100% nuestro sistema y no podemos ajustar nuestros sistemas a estas BD. Por ejemplo, en el modelo relacional no podemos tener herencia de objetos o no podemos tener columnas variables según las filas...
Jesús
Comentarios
Publicar un comentario