Big data que es y como funciona
Knime
Bernard MarrBernard Marr es un futurista de renombre mundial, influenciador y líder de pensamiento en los campos de los negocios y la tecnología, con una pasión por el uso de la tecnología para el bien de la humanidad. Es un autor de 20 libros de gran éxito, escribe una columna periódica para Forbes y asesora y entrena a muchas de las organizaciones más conocidas del mundo. Tiene más de dos millones de seguidores en las redes sociales, un millón de suscriptores a su boletín de noticias y ha sido clasificado por LinkedIn como una de las cinco personas más influyentes en el mundo de los negocios y la número uno en el Reino Unido.
Puede que el término “Big Data” esté presente desde hace algún tiempo, pero todavía hay bastante confusión sobre lo que realmente significa. En realidad, el concepto evoluciona y se replantea continuamente, ya que sigue siendo la fuerza motriz de muchas olas de transformación digital en curso, como la inteligencia artificial, la ciencia de los datos y el Internet de las cosas. Pero, ¿qué es exactamente el Big Data y cómo está cambiando nuestro mundo?
Todo comienza con la explosión de la cantidad de datos que hemos generado desde los albores de la era digital. Esto se debe en gran medida al auge de los ordenadores, de Internet y de la tecnología capaz de capturar datos del mundo en el que vivimos. Los datos en sí mismos no son un invento nuevo. Antes de que existieran los ordenadores y las bases de datos, teníamos registros de transacciones en papel, registros de clientes y archivos, todos ellos datos. Los ordenadores, y en particular las hojas de cálculo y las bases de datos, nos proporcionaron una forma de almacenar y organizar los datos a gran escala, de forma fácilmente accesible. De repente, la información estaba disponible a golpe de ratón.
Apache hadoop
En pocas palabras, los big data son conjuntos de datos más grandes y complejos, especialmente los procedentes de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software de procesamiento de datos tradicional no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse para resolver problemas empresariales que antes no habrían podido abordarse.
La velocidad es la rapidez con la que se reciben los datos y (quizás) se actúa sobre ellos. Normalmente, la mayor velocidad de los datos se transmite directamente a la memoria en lugar de escribirse en el disco. Algunos productos inteligentes con acceso a Internet funcionan en tiempo real o casi en tiempo real y requieren una evaluación y acción en tiempo real.
Ver más
La recopilación de datos es diferente para cada organización. Con la tecnología actual, las organizaciones pueden recopilar datos estructurados y no estructurados de diversas fuentes, desde el almacenamiento en la nube hasta las aplicaciones móviles, pasando por los sensores de IoT en las tiendas y más allá. Algunos datos se almacenarán en almacenes de datos donde las herramientas y soluciones de inteligencia empresarial pueden acceder a ellos fácilmente. A los datos crudos o no estructurados que son demasiado diversos o complejos para un almacén se les pueden asignar metadatos y almacenarlos en un lago de datos.
Una vez recogidos y almacenados los datos, deben organizarse adecuadamente para obtener resultados precisos en las consultas analíticas, especialmente cuando son grandes y no están estructurados. Los datos disponibles crecen exponencialmente, lo que convierte el procesamiento de datos en un reto para las organizaciones. Una opción de procesamiento es el procesamiento por lotes, que examina grandes bloques de datos a lo largo del tiempo. El procesamiento por lotes es útil cuando hay un tiempo más largo entre la recogida y el análisis de los datos. El procesamiento de flujos examina pequeños lotes de datos a la vez, acortando el tiempo de espera entre la recogida y el análisis para una toma de decisiones más rápida. El procesamiento de flujos es más complejo y a menudo más caro.
Sigma mu sigma
Hasta hace poco, la mayor parte de la información producida y gestionada por las personas que trabajan en organizaciones de todo el mundo tenía una estructura específica, que normalmente podía representarse mediante las filas y columnas de una hoja de cálculo o una base de datos relacional. Pero a medida que la tecnología y el alcance de la actividad humana se han ido ampliando, gran parte de la información con la que tenemos que tratar adopta una forma semiestructurada o no estructurada. Cosas como flujos de audio, vídeo, texto, fotografías o intercambios en redes sociales entran en estas categorías.
Cómo funcionan los Big Data: ¡entendiendo lo que son! Big data es un término general que designa los conjuntos de información dinámicos, a menudo extremadamente grandes, generados por personas, máquinas y herramientas. Las fuentes de big data abarcan la información procedente de las redes sociales, los datos de las máquinas, los teléfonos inteligentes, las tabletas, los vídeos, las grabaciones de voz y la conservación y el registro de datos estructurados y no estructurados.
Más recientemente, los analistas han añadido otras características a esta lista, especialmente la veracidad (una medida de la fiabilidad y la exactitud de la información) y el valor (que habla de los beneficios de los big data para las empresas y la sociedad).