Big data la revolución de los datos masivos

Mapreduce

Una de las grandes ironías de la revolución de los “grandes datos” es la forma en que gran parte de los conocimientos que extraemos de estos conjuntos de datos masivos proceden en realidad de pequeñas muestras no mucho más grandes que los conjuntos de datos que siempre hemos utilizado. Un análisis de las redes sociales puede comenzar con un billón de tuits, utilizar una búsqueda de palabras clave para reducir ese número a cien millones de tuits y, a continuación, utilizar una muestra aleatoria de sólo 1.000 tuits para generar el resultado final que se presenta al usuario. A medida que nuestros conjuntos de datos se hacen más grandes, los algoritmos y los entornos informáticos que utilizamos para analizarlos no han crecido en consonancia, lo que hace que nuestros resultados sean cada vez menos representativos aunque tengamos cada vez más datos a nuestro alcance. ¿Qué significa esto para el futuro del “big data”?
Dejando de lado toda la exageración y la hipérbole, hay una gran verdad en la afirmación de que vivimos en una era en la que los datos se valoran lo suficiente como para creer que merece la pena dedicar tiempo y dinero a recopilarlos, almacenarlos y analizarlos a escalas que superan significativamente las del pasado.

Tecnología splunk

Los modelos de madurez de big data (BDMM) son los artefactos utilizados para medir la madurez de big data[1]. Estos modelos ayudan a las organizaciones a crear una estructura en torno a sus capacidades de big data y a identificar por dónde empezar[2]. Proporcionan herramientas que ayudan a las organizaciones a definir objetivos en torno a su programa de big data y a comunicar su visión de big data a toda la organización. Los BDMM también proporcionan una metodología para medir y supervisar el estado de la capacidad de big data de una empresa, el esfuerzo necesario para completar su etapa actual o fase de madurez y para progresar a la siguiente etapa. Además, los BDMM miden y gestionan la velocidad tanto del progreso como de la adopción de los programas de big data en la organización[1].
Las áreas clave de la organización se refieren a “personas, procesos y tecnología” y los subcomponentes incluyen[3] alineación, arquitectura, datos, gobierno de los datos, entrega, desarrollo, medición, gobierno del programa, alcance, habilidades, patrocinio, modelado estadístico, tecnología, valor y visualización.

Leer más  Ideas para negocios online

Ver más

La ética de los grandes datos, también conocida simplemente como ética de los datos, se refiere a la sistematización, la defensa y la recomendación de los conceptos de conducta correcta e incorrecta en relación con los datos, en particular los datos personales[1] Desde los albores de Internet, la cantidad y la calidad de los datos ha aumentado de forma espectacular y sigue haciéndolo exponencialmente. Los big data describen esta gran cantidad de datos que son tan voluminosos y complejos que los programas tradicionales de aplicación de procesamiento de datos son inadecuados para tratarlos. Las recientes innovaciones en la investigación médica y la asistencia sanitaria, como la secuenciación genómica de alto rendimiento, la obtención de imágenes de alta resolución, los historiales médicos electrónicos de los pacientes y una plétora de dispositivos sanitarios conectados a Internet, han desencadenado un diluvio de datos que alcanzará el rango de los exabytes en un futuro próximo. La ética de los datos es cada vez más importante a medida que aumenta la cantidad de datos debido a la escala del impacto.
La ética de los big data es diferente de la ética de la información porque el enfoque de la ética de la información se centra más en las cuestiones de propiedad intelectual y en las preocupaciones relacionadas con los bibliotecarios, los archiveros y los profesionales de la información, mientras que la ética de los big data se ocupa más de los recolectores y difusores de datos estructurados o no estructurados, como los corredores de datos, los gobiernos y las grandes empresas.

Apache hadoop

Big data es una combinación de tecnología y datos que integra, informa y accede a todos los datos disponibles filtrando, informando y correlacionando los conocimientos que se pueden conseguir con las tecnologías de datos anteriores. Explica el procesamiento de datos que supera la escala humana.
Con el aumento exponencial de la cantidad de datos recopilados y de la información publicada, actualmente se prevé que el 90% del total de los datos que existen hoy en día en todo el mundo se ha creado solo en los últimos dos años. Se presume que esta enorme cantidad de datos aumentará el universo digital de datos recopilados de un billón de gigabytes en el pasado a 44 zettabytes a finales de 2024. El fenómeno del IoT, impulsado por la incorporación de sensores en red en los electrodomésticos, la recopilación de datos a través de sensores fijados en los teléfonos inteligentes y el abaratamiento de las tecnologías satelitales, contribuyen a estimular aún más la recopilación de fuentes de datos alternativas modernas.
Se ha dado a conocer el propósito de la computación paralela o distribuida y la mejora de la capacidad de almacenamiento mediante el acceso remoto y distribuido a los activos. Este avance también se especifica como computación en nube. Actualmente se espera que para el año 2020, más de 1/3 de los datos disponibles existan o se trasladen a la nube. Se dice que incluso una búsqueda en la web en el motor de búsqueda se responde sobre la coordinación a través de 1000 ordenadores.