Menú
Está libre
registro
hogar  /  SOBRE/ ¿Qué es Big Data? Big data en el mundo moderno Sistemas de análisis de Big Data.

¿Qué es Big Data? Big data en el mundo moderno Sistemas de análisis de Big Data.

Volkova Julia Sergeevna, estudiante de cuarto año de la Universidad Financiera del Gobierno de la Federación de Rusia, sucursal de Kaluga, Kaluga [correo electrónico protegido]

Big data en el mundo moderno

Resumen: El artículo está dedicado a la implementación de tecnologías Big Data en nuestra sociedad moderna. Se investigan las principales características del Big Data, se consideran las principales áreas de aplicación, como la banca, el retail, el sector público y privado, e incluso la vida cotidiana. El estudio reveló las desventajas de utilizar tecnologías de Big Data. Se indica la necesidad de desarrollar una regulación normativa del uso de Big Data Palabras clave: Big Data, bancos, banca, retail, sector privado, sector público.

A medida que aumenta el grado de integración de las tecnologías de la información en diversas áreas de la sociedad moderna, también aumentan los requisitos para su adaptabilidad para resolver nuevos problemas que involucran grandes cantidades de datos. Hay volúmenes de información que no se pueden procesar de manera tradicional, incluidos datos estructurados, datos de medios y objetos aleatorios. Y si el análisis de las primeras tecnologías que existen hoy en día es más difícil de afrontar, entonces el análisis de la segunda y la tercera es un trabajo prácticamente abrumador. Los estudios muestran que el volumen de datos de los medios, como la videovigilancia, la fotografía aérea, la información de salud digital y los objetos aleatorios almacenados en numerosos archivos y nubes, aumenta año tras año. El enorme volumen de datos se ha convertido en un proceso global y se denomina Big Data. . Los trabajos de científicos extranjeros y rusos están dedicados al estudio de Big Data: James Manyika, Michael Chui, VV Toporkov, VI Budzko. Grandes empresas globales como McKinsey & Company, СNews Analytics, SAP, Oracle, IBM, Microsoft, Teradata y muchas otras hacen una contribución significativa al estudio de esta tecnología. Procesan y analizan datos y crean sistemas de software y hardware basados ​​en Big Data. Según un informe del McKinsey Institute, "Big Data es un conjunto de datos cuyo tamaño supera las capacidades de las bases de datos típicas de herramientas de software para capturar, almacenar, administrar y analizar datos ". En esencia, el concepto de big data significa trabajar con información de gran volumen y variedad, constantemente actualizada y ubicada en diferentes fuentes para aumentar la eficiencia, crear nuevos productos y aumentar la competitividad. La consultora Forrester ofrece una formulación breve y bastante comprensible: "Big Data combina técnicas y tecnologías que extraen significado de los datos en el límite extremo de la practicidad". Hoy, la esfera de Big Data se caracteriza por las siguientes características: Volumen - volumen, lo acumulado La base de datos es una gran cantidad de información .Velocidad: velocidad, este signo indica una tasa creciente de acumulación de datos (el 90% de la información se ha recopilado en los últimos 2 años) .Variedad: variedad, es decir. la posibilidad de procesamiento simultáneo de información multiformato estructurada y no estructurada. A los expertos en marketing les encanta agregar sus V aquí. Algunos también hablan de veracidad, otros añaden que las tecnologías de big data ciertamente deben aportar valor al negocio. Se espera que para 2020 el volumen acumulado de información en el planeta se duplique cada dos años. La abundancia de datos hace que desee utilizarlos para análisis y pronósticos. Los colosales volúmenes requieren tecnologías adecuadas. Las empresas hoy en día tienen que procesar una enorme cantidad de datos en volúmenes difíciles de imaginar, esto lleva a que las bases de datos tradicionales no puedan hacer frente a esta tarea, y esto lleva a la necesidad de implementar tecnologías Big Data. La tabla presenta una característica comparativa de Big Data y bases de datos tradicionales. La base para la formación de esta tabla fue la investigación de V. I. Budzko y la Bolsa de Moscú. Tabla 1 Características comparativas de macrodatos y datos tradicionales

Bases de datos tradicionales Aplicaciones de Big Data

Una o más áreas de aplicación El alcance de las tecnologías de Big Data es amplio. Desde la identificación de las preferencias del cliente hasta el análisis de riesgos Características de los datos Solo datos estructurados Grandes cantidades de información con una estructura compleja heterogénea y / o indefinida Método de almacenamiento de datos Centralizado Descentralizado Modelo de procesamiento y almacenamiento de datos Modelo vertical Modelo horizontal Número de información a procesar Desde gigabytes (109 bytes) a terabytes (1015 bytes) a terabytes ( 1015 bytes) (1015 bytes) Por ejemplo, el alcance de las bases de datos tradicionales cubre solo una o varias, mientras que dichas áreas deben contener solo datos estructurados. En cuanto a Big Data, el alcance de su aplicación es extenso con grandes cantidades de información con una estructura compleja. Según los resultados de la investigación de СNews Analytics, presentada en la Figura 1, el mercado ruso está llegando a un fenómeno como Big Data , lo que muestra un incremento en el nivel de madurez de las empresas. Muchas empresas están cambiando a tecnologías de Big Data debido al volumen de sus datos procesados, ya más del 44% generan alrededor de 100 terabytes, y para el 13% estos volúmenes de datos superan los 500 terabytes.

Figura 1. Volúmenes de información procesados ​​en empresas

Dichos volúmenes no pueden procesarse con bases de datos tradicionales, por lo tanto, estas empresas ven la solución para la transición a Big Data no solo como procesar grandes volúmenes, sino también como aumentar la competitividad, aumentar la lealtad de los clientes a su producto y atraer nuevos. Los clientes más activos de este tipo de soluciones son los bancos, las telecomunicaciones y el comercio minorista, su porcentaje se muestra en la Figura 2. Menos notable es el número de empresas que utilizan o están dispuestas a utilizar big data en los sectores de transporte y energía, industria. Los primeros ejemplos del uso de big data aparecieron en el sector público.

Figura 2. Estructura industrial del uso de Big Data

En cuanto al gobierno occidental, se estima que la economía digital representa entre el 3% y el 21% del PIB de los países del G20. El sector público ruso aún no ha logrado resultados significativos en el trabajo con big data. Hoy en Rusia, estas tecnologías están interesadas principalmente en empresas comerciales: cadenas minoristas, bancos, empresas de telecomunicaciones Según la Asociación Rusa de Comunicaciones Electrónicas, el volumen de la economía digital en la Federación de Rusia es de solo 1 billón. frotar. -aproximadamente el 1,5% del PIB. Sin embargo, la URF tiene un enorme potencial para el crecimiento de la economía digital.A pesar de la corta vida del sector de Big Data, ya existen estimaciones del uso efectivo de estas tecnologías basadas en ejemplos de la vida real. Los bancos de hoy, en promedio, procesan alrededor de 3.8 petobytes de datos, utilizan tecnologías de Big Data para lograr ciertas tareas:  recopilar datos sobre el uso de tarjetas de crédito;  recopilar datos sobre garantías;  recopilar datos sobre préstamos; 44% 16% 13 % 7% 20% Bancos Telecom Minorista Sector público Otro • Recopilación de datos de perfil de cliente • Recopilación de datos sobre ahorros de clientes Los bancos afirman que desde que comenzaron a utilizar tecnologías de Big Data, han podido atraer nuevos clientes e interactuar mejor con clientes nuevos y antiguos y mantener su lealtad. En 2015, CNews Analytics realizó una encuesta entre los treinta bancos rusos más grandes por activos totales para averiguar qué tecnologías de big data utilizan y con qué fines. En comparación con la encuesta de 2014, aumentó el número de bancos entre los 30 principales que informaron sobre el uso de tecnologías de big data, pero es más probable que este cambio se deba a un cambio en la composición de los 30 principales. La Figura 3 muestra una comparación de la encuesta de 2015 con la de 2014 basada en la encuesta de A. Kiryanova.

Arroz. 3. Uso de macrodatos por parte de los 30 principales bancos rusos

Según estimaciones de IBS, el 80% de los bancos que respondieron positivamente están implementando Big Data Appliance: sistemas de software y hardware para almacenar y procesar datos. Estas soluciones suelen actuar como almacenamiento analítico o transaccional, cuya principal ventaja es el alto rendimiento cuando se trabaja con grandes cantidades de datos, sin embargo, la práctica de utilizar big data en los bancos rusos está en pañales. La razón de una adaptación tan lenta en Rusia se manifiesta en la actitud cautelosa de los especialistas en TI de los clientes hacia las nuevas tecnologías. No confían en que las tecnologías de big data ayuden a resolver los problemas por completo, pero para el mercado estadounidense, los bancos ya han acumulado 1 exabyte de datos, que se puede comparar con 275 mil millones de registros mp3. La cantidad de fuentes de donde proviene la información es enorme, de las cuales se pueden distinguir las clásicas:  visitas de clientes a oficinas bancarias;  registros de llamadas telefónicas;  comportamiento de los clientes en redes sociales;  información sobre transacciones con tarjetas de crédito  y otras. El comercio minorista en línea utiliza big data para analizar el comportamiento del cliente, diseñar rutas a través del área de ventas, organizar los bienes correctamente, planificar compras y, en última instancia, aumentar las ventas. En el comercio minorista en línea, el mecanismo de venta en sí se basa en big data: a los usuarios se les ofrecen productos basados ​​en compras anteriores y sus preferencias personales, información sobre la cual se recopila, por ejemplo, en las redes sociales. En ambos casos, el análisis de big data ayuda a reducir costos, aumentar la lealtad de los clientes y llegar a una gran audiencia. A medida que se desarrolla el potencial comercial de las empresas, la base de datos tradicional deja de cumplir con los crecientes requisitos comerciales, por lo que el sistema no puede proporcionar la granularidad adecuada. de la contabilidad de gestión. Pasando a big data, las nuevas tecnologías permiten optimizar la gestión del movimiento de mercancías, lograr la relevancia de los datos y la eficiencia de su procesamiento para evaluar las consecuencias de las decisiones de gestión, y generar rápidamente informes de gestión. La cantidad total de datos acumulados es de más de 100 exabytes, mientras que solo Walmart usa big data para procesar 2.5 Petabytes de datos por hora. Además, el uso de tecnologías Big Data aumenta la rentabilidad operativa en un 60% y, según las estadísticas de Hadoop, después de la implementación de Big Data, el rendimiento analítico aumenta hasta el procesamiento de 120 algoritmos y las ganancias aumentan en un 710%. cobra impulso ya que la brecha en el procesamiento de la información es muy diferente. Por ejemplo, los minoristas en línea son 18 veces menos que en China, y la rotación total de datos que se produce en un minorista en línea es 4,5 veces menor que una tienda de Amazon. Al mismo tiempo, la cantidad de tiendas en línea en Rusia que usan Big Data es menos de 40 mil, mientras que en Europa, la cantidad de tales tiendas es más de 550 mil. Lo que caracteriza al mercado minorista ruso como aún en desarrollo y no completamente formado. En cuanto a nuestra vida diaria, aquí también se utilizan tecnologías de Big Data, en las que ni siquiera pensamos. 15 millones de canciones cada día, lo que equivale a 1,5 ~ 2 petabytes, procesa shazam, un servicio de música, en todo el mundo, y basado en luego, los productores de música predicen la popularidad del artista. Los macrodatos también se utilizan para procesar información de tarjetas de crédito, como mastercard y visa. Por lo tanto, mastercard procesa 65 mil millones de transacciones por año utilizando 1,9 mil millones de tarjetas en 32 millones de comerciantes para predecir las tendencias comerciales. Todos los días, personas de todo el mundo publican en redes sociales como Twitter y Facebook por 19 terabytes de datos. Cargan y procesan fotos, escriben, reenvían mensajes, etc. La infraestructura también se beneficia de las tecnologías de Big Data, desde trolebuses hasta aviones y cohetes. Así, en el metro de Londres, todos los días, los torniquetes registran alrededor de 20 millones de pases, como resultado de un análisis realizado sobre la base de las tecnologías Big Data, se identificaron 10 epicentros diversos, que también se tienen en cuenta en el desarrollo posterior de el metro. Sin lugar a dudas, la variedad y el volumen de datos que surgen de todo tipo de interacciones es una base poderosa para que una empresa construya y refine pronósticos, identifique patrones, evalúe la eficiencia, etc. Sin embargo, todo tiene sus inconvenientes, que también hay que tener debidamente en cuenta, que a pesar de las evidentes y potenciales ventajas del uso de Big Data, su uso tiene sus inconvenientes, que se asocian principalmente a grandes cantidades de información, diferentes métodos de acceso a la misma y con funciones de seguridad de la información de provisión de recursos a menudo insuficientes en las organizaciones. Los problemas asociados con el uso de tecnologías Big Data se presentan en la Figura 4.

Arroz. 4. Problemas de uso de Big Data

Todos estos problemas llevan a que muchas empresas sean cautelosas con la introducción de tecnologías de big data, porque al trabajar con terceros ellas mismas se enfrentan al problema de revelar información privilegiada que la empresa no podría revelar utilizando solo sus propios recursos. Implementación total de tecnologías basadas en big data, debe existir precisamente el aspecto legislativo. Ahora ya existen leyes que restringen la recopilación, uso y almacenamiento de ciertos tipos de datos personales, pero no restringen por completo el big data, por lo que deberían existir normas legislativas especiales para ellos. Para cumplir con las leyes nuevas y que cambian rápidamente, las empresas deben realizar un inventario inicial de los actos legales reglamentarios pertinentes y actualizar periódicamente esta lista. Sin embargo, a pesar de todas las deficiencias mencionadas anteriormente, como muestra la experiencia de los representantes occidentales, Big Data Las tecnologías ayudan a resolver con éxito, tanto las tareas empresariales modernas como el aumento de la competitividad, y las tareas relacionadas directamente con la vida de las personas. Las empresas rusas ya están en el camino de introducir tecnologías Big Data tanto en el ámbito de la producción como en el ámbito público, ya que la cantidad de información casi se duplica cada año. Con el tiempo, muchas áreas de nuestras vidas sufrirán cambios bajo la influencia de Big Data.

Referencias a fuentes 1. BudzkoV. I. Sistemas de alta disponibilidad y Big Data // Big data en la economía nacional 2013. P. 1619.2. Korotkova T. "EMC Data Lake 2.0 - un medio de transición a la analítica de big data y la economía digital" http: // bigdata. .ru / articles / infografika_bolshie_dannye_prishli_v_rossiyu.5.CNews Infografía: cómo el comercio minorista utiliza Big Data para disfrazarse con el fin de preservar las fuentes de datos originales Las empresas deben asegurarse de que todos los requisitos de seguridad en relación con los datos sean monitoreados y respaldados, la implementación de Big Data las soluciones pueden conducir a la creación o descubrimiento de información previamente confidencial Gestión de datos Mantener los requisitos de seguridad de los datos Normas legislativas Reidentificación de riesgos 6.CNews "Infografía: Tecnologías BigData" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka. 7.C Bancos de noticias " http://bigdata.cnews.ru/articles/infografika_chto_mogut_bolshie_dannye. 8. Moscow Exchange "Revisión analítica del mercado de BigData" http://habrahabr.ru/company/moex/blog/256747/9.Big Data (BigData). http://www.tadviser.ru/index.php/Article: Big_data_ (Big_Data) .10.BigData– electricidad del siglo XXI http://bit.samag.ru/archive/article/1463.11.McKinsey Global institute “ Bigdata: La próxima frontera para la innovación, la competencia y la productividad ”(junio de 2011).

Prefacio

“Big data” es un término de moda que aparece en casi todas las conferencias profesionales dedicadas al análisis de datos, análisis predictivo, minería de datos, CRM. El término se utiliza en áreas donde el trabajo con cantidades de datos cualitativamente grandes es relevante, donde la velocidad del flujo de datos en el proceso organizacional aumenta constantemente: economía, banca, manufactura, marketing, telecomunicaciones, analítica web, medicina, etc.

Junto con la rápida acumulación de información, las tecnologías para el análisis de datos también se están desarrollando rápidamente. Si hace unos años era posible, digamos, solo segmentar a los clientes en grupos con preferencias similares, ahora es posible construir modelos para cada cliente en tiempo real, analizando, por ejemplo, su movimiento en Internet para buscar un determinado producto. Se pueden analizar los intereses del consumidor y, de acuerdo con el modelo construido, se muestra un anuncio adecuado u ofertas específicas. El modelo también se puede ajustar y reconstruir en tiempo real, lo que era impensable hace unos años.

En el campo de las telecomunicaciones, por ejemplo, se han desarrollado tecnologías para determinar la ubicación física de los teléfonos celulares y sus propietarios, y parece que la idea descrita en la película de ciencia ficción Minority Report, 2002, que muestra información publicitaria en los centros comerciales, pronto se convertirá en una realidad teniendo en cuenta los intereses de determinadas personas que transitan.

Al mismo tiempo, hay situaciones en las que la pasión por las nuevas tecnologías puede llevar a la decepción. Por ejemplo, a veces datos escasos ( Datos escasos), que proporcionan una comprensión importante de la realidad, son mucho más valiosos que Big data(Big Data) que describe montañas, a menudo de información no esencial.

El propósito de este artículo es aclarar y reflexionar sobre las nuevas posibilidades del Big Data e ilustrar cómo una plataforma analítica ESTADISTICA by StatSoft puede ayudar en el uso eficaz de Big Data para optimizar los procesos y la resolución de problemas.

¿Qué tan grande es Big Data?

Por supuesto, la respuesta correcta a esta pregunta debería ser: "depende ..."

En las discusiones modernas, Big Data se describe como datos de volumen en órdenes de terabytes.

En la práctica (cuando se trata de gigabytes o terabytes), estos datos son fáciles de almacenar y administrar utilizando bases de datos "tradicionales" y hardware estándar (servidor de bases de datos).

Software ESTADISTICA utiliza tecnología de subprocesos múltiples para algoritmos de acceso a datos (lectura), transformación y construcción de modelos predictivos (y de puntuación), por lo que dichas muestras de datos se pueden analizar fácilmente y no requieren herramientas especializadas.

En algunos proyectos actuales de StatSoft, se procesan muestras del orden de 9-12 millones de filas. Los multiplicamos por 1000 parámetros (variables) recopilados y organizados en un data warehouse para construir modelos de riesgo o predictivos. Este tipo de archivo tendrá "sólo" unos 100 gigabytes de tamaño. Por supuesto, no es un pequeño almacén de datos, pero su tamaño no excede las capacidades de la tecnología de base de datos estándar.

Línea de producto ESTADISTICA para análisis de lotes y modelos de puntuación de construcción ( ESTADÍSTICA Empresa), soluciones en tiempo real ( STATISTICA Live Score) y herramientas analíticas para la creación y gestión de modelos ( STATISTICA Data Miner, Decisiones) escale fácilmente a varios servidores con procesadores de varios núcleos.

En la práctica, esto significa que casi siempre se puede lograr una velocidad suficiente de los modelos analíticos (por ejemplo, pronósticos sobre riesgo crediticio, probabilidad de fraude, confiabilidad de nodos de equipos, etc.), que permita tomar decisiones operativas utilizando herramientas estándar. ESTADISTICA.

De Big Data a Big Data

Por lo general, la discusión sobre Big Data se centra en los almacenes de datos (y la realización de análisis basados ​​en dichos almacenes) que son mucho más grandes que unos pocos terabytes.

En particular, algunos almacenes de datos pueden crecer hasta miles de terabytes, es decir, hasta petabytes (1000 terabytes = 1 petabyte).

Fuera de los petabytes, la acumulación de datos se puede medir en exabytes, por ejemplo, en el sector manufacturero de todo el mundo en 2010, se estima que se ha acumulado un total de 2 exabytes de nueva información (Manyika et al., 2011).

Hay industrias donde los datos se recopilan y acumulan de manera muy intensiva.

Por ejemplo, en un entorno de fabricación como las plantas de energía, a veces se genera un flujo continuo de datos para decenas de miles de parámetros cada minuto o incluso cada segundo.

Además, en los últimos años, se han introducido las denominadas tecnologías de “redes inteligentes”, que permiten a las empresas de servicios públicos medir el consumo de electricidad de los hogares individuales cada minuto o cada segundo.

Para este tipo de aplicaciones, en las que los datos deben almacenarse durante años, los datos acumulados se clasifican como Extremely Big Data.

La cantidad de aplicaciones de Big Data entre los sectores comerciales y gubernamentales también está creciendo, donde la cantidad de datos almacenados puede ser de cientos de terabytes o petabytes.

La tecnología moderna permite "rastrear" a las personas y su comportamiento de diversas formas. Por ejemplo, cuando usamos Internet, compramos en tiendas en línea o grandes cadenas de tiendas como Walmart (según Wikipedia, el almacén de datos de Walmart se valora en más de 2 petabytes), o cuando nos movemos con nuestros teléfonos móviles encendidos, dejamos un rastro de nuestras acciones que conduce a la acumulación de nueva información.

Diferentes formas de comunicación, desde simples llamadas telefónicas hasta subir información a través de sitios de redes sociales como Facebook (según Wikipedia, el intercambio de información es de 30 mil millones de unidades cada mes), o compartir videos en sitios como YouTube (Youtube afirma que descarga 24 horas de video cada minuto; ver Wikipedia) generan cantidades masivas de datos nuevos todos los días.

Asimismo, las tecnologías médicas modernas generan grandes cantidades de datos relacionados con la prestación de servicios de salud (imágenes, video, monitoreo en tiempo real).

Entonces, la clasificación de los volúmenes de datos se puede representar de la siguiente manera:

Grandes conjuntos de datos: desde 1000 megabytes (1 gigabyte) hasta cientos de gigabytes

Grandes conjuntos de datos: desde 1000 gigabytes (1 terabyte) hasta varios terabytes

Big Data: desde unos pocos terabytes hasta cientos de terabytes

Datos extremadamente grandes: 1,000 a 10,000 terabytes = 1 a 10 petabytes

Tareas de Big Data

Hay tres tipos de tareas relacionadas con Big Data:

1. Almacenamiento y gestión

Cientos de terabytes o petabytes de datos dificultan el almacenamiento y la administración con bases de datos relacionales tradicionales.

2. Información no estructurada

La mayor parte de Big Data no está estructurado. Aquellos. ¿Cómo puedes organizar texto, video, imágenes, etc.?

3. Análisis de Big Data

¿Cómo analizar información no estructurada? ¿Cómo crear informes simples basados ​​en Big Data, construir e implementar modelos predictivos en profundidad?

Almacenamiento y gestión de Big Data

Los macrodatos generalmente se almacenan y organizan en sistemas de archivos distribuidos.

En términos generales, la información se almacena en varios (a veces miles) discos duros en computadoras estándar.

Un llamado "mapa" realiza un seguimiento de dónde (en qué computadora y / o disco) se almacena una determinada información.

Para garantizar la tolerancia a fallos y la fiabilidad, cada dato se almacena normalmente varias veces, por ejemplo, tres veces.

Entonces, por ejemplo, suponga que ha recopilado transacciones individuales de una gran cadena de tiendas minoristas. Los detalles de cada transacción se almacenarán en diferentes servidores y discos duros, y un mapa indexa exactamente dónde se almacena la transacción.

Con hardware estándar y herramientas de software de código abierto para administrar este sistema de archivos distribuido (por ejemplo, Hadoop), es relativamente fácil implementar almacenes de datos confiables a escala de petabytes.

Información no estructurada

La mayor parte de la información recopilada en un sistema de archivos distribuido consiste en datos no estructurados como texto, imágenes, fotografías o videos.

Esto tiene sus ventajas y desventajas.

La ventaja es que la capacidad de almacenar big data le permite almacenar "todos los datos" sin preocuparse por la cantidad de datos que son relevantes para el análisis y la toma de decisiones posteriores.

La desventaja es que, en tales casos, se requiere el posprocesamiento de estas enormes cantidades de datos para extraer información útil.

Si bien algunas de estas operaciones pueden ser simples (por ejemplo, cálculos simples, etc.), otras requieren algoritmos más complejos que deben diseñarse especialmente para funcionar de manera eficiente en un sistema de archivos distribuido.

Un alto ejecutivo le dijo una vez a StatSoft que "gastó una fortuna en TI y almacenamiento de datos, pero aún no ha comenzado a ganar dinero" porque no ha pensado en la mejor manera de utilizar esos datos para mejorar su negocio principal.

Entonces, si bien la cantidad de datos puede crecer exponencialmente, la capacidad de extraer información y actuar sobre esa información es limitada y alcanzará un límite asintóticamente.

Es importante que los métodos y procedimientos para crear, actualizar modelos y automatizar la toma de decisiones se desarrollen junto con los sistemas de almacenamiento para garantizar que dichos sistemas sean útiles y beneficiosos para la empresa.

Análisis de big data

Este es un gran problema al analizar Big Data no estructurado: cómo analizarlo de manera rentable. Se ha escrito mucho menos sobre este tema que sobre el almacenamiento de datos y las tecnologías de gestión de Big Data.

Hay una serie de cuestiones a considerar.

Mapa reducido

Al analizar cientos de terabytes o petabytes de datos, no es posible extraer los datos a otro lugar para su análisis (por ejemplo, en STATISTICA Enterprise Analysis Server).

El proceso de transferencia de datos a través de canales a un servidor o servidores separados (para procesamiento paralelo) llevará demasiado tiempo y requiere demasiado tráfico.

En cambio, los cálculos analíticos deben realizarse físicamente cerca de donde se almacenan los datos.

El algoritmo Map-Reduce es un modelo de computación distribuida. El principio de su funcionamiento es el siguiente: los datos de entrada se distribuyen a los nodos de trabajo (nodos individuales) del sistema de archivos distribuido para el preprocesamiento (mapa-paso) y, luego, la convolución (fusión) de los datos ya preprocesados ​​(reducir- paso).

Entonces, digamos, para calcular el total general, el algoritmo calculará paralelamente los subtotales en cada uno de los nodos del sistema de archivos distribuido y luego agregará esos subtotales.

Existe una gran cantidad de información en Internet sobre cómo puede realizar varios cálculos utilizando el modelo de reducción de mapa, incluso para análisis predictivos.

Estadísticas simples, inteligencia empresarial (BI)

Para informes de BI simples, existen muchos productos de código abierto que le permiten calcular sumas, promedios, proporciones y más. usando map-reduce.

Por lo tanto, es muy fácil obtener recuentos precisos y otras estadísticas simples para los informes.

Modelado predictivo, estadísticas detalladas

A primera vista, podría parecer que crear modelos predictivos en un sistema de archivos distribuido es más difícil, pero no es así en absoluto. Consideremos las etapas preliminares del análisis de datos.

Preparación de datos. Hace algún tiempo, StatSoft ejecutó una serie de proyectos grandes y exitosos que involucraban conjuntos de datos muy grandes que describían las métricas minuto a minuto de la operación de una planta de energía. El propósito de este análisis fue mejorar la eficiencia de la planta y reducir las emisiones (Electric Power Research Institute, 2009).

Es importante que, aunque los conjuntos de datos pueden ser muy grandes, la información que contienen es mucho más pequeña.

Por ejemplo, si bien los datos se acumulan cada segundo o cada minuto, muchos parámetros (temperatura de gases y hornos, flujos, posición de las compuertas, etc.) permanecen estables durante largos intervalos de tiempo. En otras palabras, los datos registrados cada segundo son básicamente una repetición de la misma información.

Así, es necesario realizar agregaciones de datos “inteligentes”, obteniendo datos para modelado y optimización, que contienen solo la información necesaria sobre los cambios dinámicos que afectan la eficiencia de la central y la cantidad de emisiones.

Clasificación de textos y preprocesamiento de datos. Ilustremos de nuevo cómo grandes conjuntos de datos pueden contener información mucho menos útil.

Por ejemplo, StatSoft ha estado involucrado en proyectos de minería de texto a partir de tweets que reflejan la satisfacción de los pasajeros con las aerolíneas y sus servicios.

A pesar de que se recuperaron una gran cantidad de tweets relevantes cada hora y diariamente, el sentimiento expresado en ellos fue bastante simple y monótono. La mayoría de los mensajes son quejas y mensajes cortos de una frase de “mala experiencia”. Además, el número y la “fuerza” de estos sentimientos son relativamente estables a lo largo del tiempo y en cuestiones específicas (por ejemplo, pérdida de equipaje, mala alimentación, vuelos cancelados).

Por lo tanto, reducir los tweets reales a una puntuación de sentimiento utilizando técnicas de minería de texto (como las implementadas en STATISTICA Text Miner), da como resultado muchos menos datos, que luego pueden correlacionarse fácilmente con los datos estructurados existentes (ventas reales de boletos o información de viajero frecuente). El análisis le permite dividir a los clientes en grupos y examinar sus quejas típicas.

Existen muchas herramientas para realizar esta agregación de datos (por ejemplo, tasas de opinión) en un sistema de archivos distribuido, lo que facilita este proceso analítico.

La construcción de modelos

A menudo, el desafío consiste en crear rápidamente modelos precisos para los datos almacenados en un sistema de archivos distribuido.

Existen implementaciones de reducción de mapas para varios algoritmos de análisis predictivo / minería de datos adecuados para el procesamiento paralelo a gran escala de datos en un sistema de archivos distribuido (que puede ser compatible con la plataforma ESTADÍSTICA StatSoft).

Sin embargo, precisamente porque ha procesado una gran cantidad de datos, ¿está seguro de que el modelo final es realmente más preciso?

De hecho, es probable que sea más conveniente crear modelos para pequeños segmentos de datos en un sistema de archivos distribuido.

Como dice un informe reciente de Forrester, "dos más dos es igual a 3,9 suele ser suficiente" (Hopkins y Evelson, 2011).

La precisión estadística y matemática radica en el hecho de que un modelo de regresión lineal, que incluye, por ejemplo, 10 predictores basados ​​en una muestra probabilística de 100.000 observaciones será tan preciso como un modelo construido con 100 millones de observaciones.

Big Data- Inglés. "Big data". El término apareció como una alternativa al DBMS y se convirtió en una de las principales tendencias en infraestructura de TI, cuando la mayoría de los gigantes de la industria, IBM, Microsoft, HP, Oracle y otros, comenzaron a utilizar este concepto en sus estrategias. Big Data se entiende como una enorme matriz de datos (cientos de terabytes) que no se puede procesar con métodos tradicionales; a veces, las herramientas y métodos para procesar estos datos.

Ejemplos de fuentes de Big Data: eventos RFID, mensajes en redes sociales, estadísticas meteorológicas, información sobre la ubicación de suscriptores de redes celulares móviles y datos de dispositivos de grabación de audio / video. Por lo tanto, "big data" se usa ampliamente en la industria manufacturera, la atención médica, el gobierno, los negocios de Internet, en particular, cuando se analiza la audiencia objetivo.

Característica

Los signos de Big Data se definen como "tres V": Volumen - volumen (realmente grande); variedad - diversidad, muchas; velocidad - velocidad (se necesita un procesamiento muy rápido).

Los macrodatos a menudo no están estructurados y requieren algoritmos especiales para procesarlos. Los métodos de análisis de big data incluyen:

  • ("Minería de datos"): un conjunto de enfoques para descubrir conocimientos útiles ocultos que no pueden obtenerse mediante métodos estándar;
  • Crowdsourcing (crowd - "crowd", sourcing - utilizar como fuente) - resolver problemas importantes mediante los esfuerzos conjuntos de voluntarios que no tienen un contrato de trabajo y relaciones obligatorios, coordinando actividades utilizando herramientas de TI;
  • Fusión e integración de datos ("mezclar e incrustar datos"): un conjunto de métodos para conectar múltiples fuentes en el marco de un análisis profundo;
  • Aprendizaje automático ("aprendizaje automático"): subsección de la investigación en inteligencia artificial, que estudia métodos para utilizar el análisis de estadísticas y obtener pronósticos basados ​​en modelos básicos;
  • reconocimiento de patrones (por ejemplo, reconocimiento facial en el visor de una cámara o videocámara);
  • análisis espacial: el uso de topología, geometría y geografía para construir datos;
  • visualización de datos: la salida de información analítica en forma de ilustraciones y diagramas que utilizan herramientas interactivas y animaciones para realizar un seguimiento de los resultados y sentar las bases para un mayor seguimiento.

El almacenamiento y análisis de la información se lleva a cabo en una gran cantidad de servidores de alto rendimiento. La tecnología clave es Hadoop, de código abierto.

Dado que la cantidad de información solo aumentará con el tiempo, la dificultad no está en obtener los datos, sino en cómo procesarlos con el máximo beneficio. En general, el proceso de trabajar con Big Data incluye: recopilar información, estructurarla, crear insights y contextos, desarrollar recomendaciones para la acción. Incluso antes de la primera etapa, es importante definir claramente el propósito del trabajo: para qué son exactamente los datos, por ejemplo, para definir el público objetivo del producto. De lo contrario, existe el riesgo de obtener mucha información sin comprender exactamente cómo se puede utilizar.

Se predijo que el volumen global total de datos creados y replicados en 2011 podría ser de aproximadamente 1,8 zettabytes (1,8 billones de gigabytes), aproximadamente 9 veces más de lo que se creó en 2006.

Definición más compleja

Sin embargo, ` big data`implican algo más que analizar grandes cantidades de información. El problema no es que las organizaciones creen grandes cantidades de datos, sino que la mayoría se presenta en un formato que no se corresponde bien con el formato de base de datos estructurado tradicional, como weblogs, videos, documentos de texto, código máquina o, por ejemplo, , datos geoespaciales. ... Todo esto se almacena en muchos repositorios diferentes, a veces incluso fuera de la organización. Como resultado, las corporaciones pueden tener acceso a una gran cantidad de sus datos y carecer de las herramientas necesarias para establecer relaciones entre esos datos y sacar conclusiones significativas de ellos. Si a esto se suma el hecho de que los datos se actualizan cada vez con mayor frecuencia, se llega a una situación en la que los métodos tradicionales de análisis de la información no pueden mantenerse al día con los enormes volúmenes de datos que se actualizan constantemente, lo que finalmente abre el camino a la tecnología. big data.

La mejor definición

En esencia, el concepto big data implica trabajar con información de gran volumen y diversa composición, muy a menudo actualizada y ubicada en diferentes fuentes con el fin de aumentar la eficiencia del trabajo, crear nuevos productos y aumentar la competitividad. La consultora Forrester resume: ` Big data combinan técnicas y tecnologías que dan sentido a los datos en el límite extremo de la usabilidad '.

¿Qué tan grande es la diferencia entre inteligencia empresarial y big data?

Craig Batey, director de marketing y director de tecnología de Fujitsu Australia, señaló que el análisis empresarial es un proceso descriptivo de analizar los resultados obtenidos por una empresa durante un período de tiempo, mientras se procesa la velocidad big data le permite hacer el análisis predictivo, capaz de ofrecer recomendaciones comerciales para el futuro. Los macrodatos también le permiten analizar más tipos de datos que las herramientas de inteligencia empresarial, lo que le permite centrarse en algo más que el almacenamiento estructurado.

Matt Slocum de O "Reilly Radar cree que aunque big data y la inteligencia empresarial tienen el mismo propósito (encontrar respuestas a una pregunta), se diferencian entre sí en tres aspectos.

  • El Big Data está diseñado para manejar más información que la inteligencia empresarial y esto, por supuesto, está en línea con la definición tradicional de Big Data.
  • Big Data está diseñado para procesar la información que se recibe y cambia más rápidamente, lo que significa una exploración e interactividad profundas. En algunos casos, los resultados se generan más rápido de lo que se carga la página web.
  • Big data está diseñado para manejar datos no estructurados, cuyas formas solo comenzamos a explorar después de haber sido capaces de recopilarlos y almacenarlos, y necesitamos algoritmos y la capacidad de diálogo para facilitar la búsqueda de tendencias contenidas dentro de estos arreglos.

De acuerdo con el documento técnico Oracle Information Architecture: An Architect's Guide to Big Data publicado por Oracle, abordamos la información de manera diferente cuando trabajamos con big data que cuando hacemos análisis de negocios.

Trabajar con big data no es como el proceso de inteligencia empresarial habitual, donde la simple adición de valores conocidos produce resultados: por ejemplo, la suma de los datos de las facturas pagadas se convierte en las ventas anuales. Al trabajar con big data, el resultado se obtiene en el proceso de limpieza a través de un modelado secuencial: primero, se plantea una hipótesis, se construye un modelo estadístico, visual o semántico, a partir del cual la corrección de la hipótesis planteada se comprueba, y luego se presenta el siguiente. Este proceso requiere que el investigador interprete valores visuales o redacte consultas interactivas basadas en el conocimiento, o desarrolle algoritmos de aprendizaje automático adaptables capaces de obtener el resultado deseado. Además, la vida útil de dicho algoritmo puede ser bastante corta.

Técnicas de análisis de big data

Existen muchos métodos diferentes para analizar conjuntos de datos, que se basan en herramientas tomadas de la estadística y la informática (por ejemplo, el aprendizaje automático). La lista no pretende ser completa, pero refleja los enfoques más populares en varias industrias. Al mismo tiempo, debe entenderse que los investigadores continúan trabajando en la creación de nuevas técnicas y la mejora de las existentes. Además, algunos de los métodos enumerados anteriormente no son necesariamente aplicables exclusivamente a big data y pueden usarse con éxito para arreglos más pequeños (por ejemplo, pruebas A / B, análisis de regresión). Por supuesto, cuanto más voluminosa y diversificada se analiza la matriz, más datos precisos y relevantes se pueden obtener en la salida.

Pruebas A / B... Técnica en la que una muestra de control se compara una a una con otras. Así, es posible identificar la combinación óptima de indicadores para lograr, por ejemplo, la mejor respuesta del consumidor a una propuesta de marketing. Big data le permiten realizar una gran cantidad de iteraciones y así obtener un resultado estadísticamente confiable.

Aprendizaje de reglas de asociación... Un conjunto de técnicas para identificar relaciones, es decir reglas de asociación, entre variables en grandes conjuntos de datos. Utilizada en procesamiento de datos.

Clasificación... Un conjunto de técnicas que le permite predecir el comportamiento del consumidor en un segmento de mercado en particular (tomar decisiones sobre compras, salidas, consumos, etc.). Utilizada en procesamiento de datos.

Análisis de conglomerados... Un método estadístico para clasificar objetos en grupos identificando características comunes previamente desconocidas. Utilizada en procesamiento de datos.

Crowdsourcing... Metodología para recopilar datos de una gran cantidad de fuentes.

Fusión e integración de datos... Un conjunto de técnicas que permite analizar los comentarios de los usuarios de las redes sociales y compararlos con los resultados de ventas en tiempo real.

Procesamiento de datos... Conjunto de métodos que le permite determinar las categorías de consumidores más receptivas al producto o servicio que se promociona, identificar las características de los empleados más exitosos y predecir el modelo de comportamiento de los consumidores.

Aprendizaje conjunto... Este método utiliza una variedad de modelos predictivos, mejorando así la calidad de las predicciones.

Algoritmos genéticos... En esta técnica, las posibles soluciones se presentan en forma de 'cromosomas', que pueden combinarse y mutar. Como en el proceso de evolución natural, el más apto sobrevive.

Aprendizaje automático... La dirección en informática (históricamente se le asignó el nombre de 'inteligencia artificial'), que tiene como objetivo crear algoritmos de autoaprendizaje basados ​​en el análisis de datos empíricos.

Procesamiento natural del lenguaje (PNL). Conjunto de técnicas para reconocer el lenguaje natural de una persona tomadas de la informática y la lingüística.

Análisis de red... Conjunto de técnicas para analizar conexiones entre nodos en redes. Aplicado a las redes sociales, permite analizar la relación entre usuarios individuales, empresas, comunidades, etc.

Mejoramiento... Un conjunto de métodos numéricos para rediseñar sistemas y procesos complejos para mejorar una o más métricas. Asiste en la toma de decisiones estratégicas, por ejemplo, la composición de la línea de productos introducida al mercado, la realización de análisis de inversión, etc.

Reconocimiento de patrones... Conjunto de técnicas con elementos de autoaprendizaje para predecir patrones de comportamiento del consumidor.

Modelado predictivo... Conjunto de técnicas que le permiten crear un modelo matemático de un escenario probable predeterminado para el desarrollo de eventos. Por ejemplo, analizar la base de datos de un sistema CRM en busca de posibles condiciones que empujarán a los suscriptores a cambiar de proveedor.

Regresión... Conjunto de métodos estadísticos para identificar patrones entre un cambio en una variable dependiente y una o más variables independientes. A menudo se usa para pronósticos y predicciones. Utilizado en minería de datos.

Análisis de los sentimientos... Los métodos para evaluar el sentimiento del consumidor se basan en tecnologías para reconocer el lenguaje natural de una persona. Le permiten aislar del flujo de información general los mensajes relacionados con el tema de interés (por ejemplo, un producto de consumo). A continuación, evalúe la polaridad del juicio (positivo o negativo), el grado de emocionalidad, etc.

Procesamiento de la señal... Un conjunto de técnicas tomadas de la ingeniería de radio, que persigue el objetivo de reconocer una señal en un contexto de ruido y su posterior análisis.

Análisis espacial... Un conjunto de métodos para analizar datos espaciales, parcialmente tomados de las estadísticas: topología del terreno, coordenadas geográficas, geometría de objetos. Fuente big data en este caso, se suelen utilizar sistemas de información geográfica (SIG).

  • Revolution Analytics (basado en el lenguaje R para estadísticas matemáticas).

De particular interés en esta lista es Apache Hadoop, un software de código abierto que ha sido probado como analizador de datos por la mayoría de los rastreadores de acciones durante los últimos cinco años. Tan pronto como Yahoo abrió el código Hadoop a la comunidad de código abierto, surgió inmediatamente una nueva línea de productos Hadoop en la industria de TI. Casi todas las herramientas de análisis modernas big data proporcionar herramientas para la integración con Hadoop. Sus desarrolladores son tanto nuevas empresas como empresas globales reconocidas.

Mercados de soluciones de gestión de big data

Plataformas de Big Data (BDP, Big Data Platform) como medio para combatir el chording digital

La capacidad de analizar big data, coloquialmente llamado Big Data, se percibe como una bendición y sin ambigüedades. Pero, ¿es realmente así? ¿A qué puede conducir la desenfrenada acumulación de datos? Muy probablemente a lo que los psicólogos domésticos denominan acaparamiento patológico de una persona, silogomanía o, en sentido figurado, "síndrome de Plyushkin". En inglés, la pasión viciosa por coleccionar todo se llama hording (del tesoro en inglés - "stock"). Según la clasificación de enfermedades mentales, Hording se clasifica como un trastorno mental. En la era digital, lo digital (Digital Hoarding) se suma al acorde material tradicional, tanto individuos como empresas y organizaciones enteras pueden sufrirlo ().

Mercado mundial y ruso

Panorama de macrodatos: principales proveedores

Interés por las herramientas de recopilación, procesamiento, gestión y análisis big data mostró casi todas las empresas líderes de TI, lo cual es bastante natural. En primer lugar, se enfrentan directamente a este fenómeno en su propio negocio, y en segundo lugar, big data abren excelentes oportunidades para desarrollar nuevos nichos de mercado y atraer nuevos clientes.

Han aparecido en el mercado muchas startups que hacen negocios procesando grandes cantidades de datos. Algunos de ellos utilizan una infraestructura en la nube lista para usar proporcionada por los principales actores como Amazon.

Teoría y práctica de Big Data en las industrias

La historia del desarrollo

2017

Pronóstico de TmaxSoft: la próxima "ola" de Big Data requerirá la modernización del DBMS

Las empresas saben que sus grandes cantidades de datos contienen información importante sobre su negocio y sus clientes. Si una empresa puede aplicar con éxito esta información, tendrá una ventaja significativa sobre la competencia y podrá ofrecer mejores productos y servicios que los suyos. Sin embargo, muchas organizaciones aún no pueden utilizar de forma eficaz big data debido a que su infraestructura de TI heredada es incapaz de brindar la capacidad de almacenamiento necesaria, procesos de intercambio de datos, utilidades y aplicaciones necesarias para procesar y analizar grandes cantidades de datos no estructurados para extraer información valiosa de ellos, indica TmaxSoft.

Además, la mayor potencia de procesamiento requerida para analizar cantidades cada vez mayores de datos puede requerir una inversión significativa en la infraestructura de TI heredada de una organización, así como recursos de mantenimiento adicionales que podrían usarse para desarrollar nuevas aplicaciones y servicios.

El 5 de febrero de 2015, la Casa Blanca publicó un informe que analizaba cómo las empresas están utilizando " big data"Establecer precios diferentes para diferentes compradores, una práctica conocida como" discriminación de precios "o" precios diferenciados "(precios personalizados). El informe describe los beneficios del "big data" tanto para los vendedores como para los compradores, y sus autores concluyen que muchos de los problemas que han surgido en relación con la aparición del big data y la fijación de precios diferenciales pueden resolverse en el marco de las políticas anti- leyes y leyes contra la discriminación que protegen los derechos del consumidor.

En este momento, el informe señala que hay poca evidencia de cómo las empresas están utilizando big data en el contexto del marketing personalizado y precios diferenciados. Esta información muestra que los vendedores utilizan métodos de fijación de precios que se pueden dividir en tres categorías:

  • estudio de la curva de demanda;
  • Dirección y precios diferenciados basados ​​en datos demográficos; y
  • segmentación por comportamiento y precios individualizados.

Examinando la curva de demanda: Los especialistas en marketing a menudo experimentan con la demanda y el comportamiento del consumidor asignando clientes al azar a uno de los dos niveles de precios posibles. "Técnicamente, estos experimentos son una forma de fijación de precios diferencial porque dan como resultado precios diferentes para los clientes, incluso si son 'no discriminatorios' en el sentido de que todos los clientes tienen la misma probabilidad de 'alcanzar' un precio más alto".

Direccion: Es la práctica de presentar productos a los consumidores en función de su grupo demográfico. Por ejemplo, el sitio web de una empresa de computadoras puede ofrecer la misma computadora portátil a diferentes tipos de compradores a diferentes precios en función de la información que brindan sobre sí mismos (por ejemplo, dependiendo de si el usuario es un representante de agencias gubernamentales, instituciones científicas o comerciales, o un individuo) o desde su ubicación geográfica (por ejemplo, determinada por la dirección IP de una computadora).

Marketing conductual dirigido y precios personalizados: En estos casos, los datos personales de los compradores se utilizan para publicidad dirigida y precios personalizados de ciertos productos. Por ejemplo, los anunciantes en línea utilizan los datos recopilados por las redes publicitarias y a través de cookies de terceros para dirigirse a los usuarios en Internet con el fin de enviar anuncios dirigidos. Este enfoque, por un lado, permite a los consumidores recibir anuncios de bienes y servicios que les interesan; sin embargo, puede ser motivo de preocupación para aquellos consumidores que no desean ciertos tipos de sus datos personales (como información sobre visitas a sitios web conectados con problemas médicos y financieros) se reunieron sin su consentimiento.

Si bien el marketing conductual dirigido está muy extendido, hay relativamente poca evidencia de precios personalizados en el entorno en línea. El informe sugiere que esto puede deberse al hecho de que todavía se están desarrollando métodos apropiados, o al hecho de que las empresas no tienen prisa por utilizar precios individuales (o prefieren guardar silencio al respecto), tal vez por temor a una reacción negativa de los consumidores. .

Los autores del informe creen que "para el consumidor individual, el uso de macrodatos está indudablemente asociado con posibles rendimientos y riesgos". Si bien reconoce que existen problemas de transparencia y discriminación en el uso de macrodatos, el informe sostiene que las leyes existentes contra la discriminación y protección del consumidor son suficientes para abordarlos. Sin embargo, el informe también enfatiza la necesidad de un “monitoreo continuo” cuando las empresas utilizan información confidencial de manera opaca o de formas que no están cubiertas por el marco regulatorio existente.

Este informe es una extensión de los esfuerzos de la Casa Blanca para examinar el uso de big data y precios discriminatorios en Internet, y sus implicaciones para los consumidores estadounidenses. Anteriormente se informó que el grupo de trabajo de la Casa Blanca sobre macrodatos publicó su informe sobre este tema en mayo de 2014. La Comisión Federal de Comercio (FTC) también abordó estos temas durante su seminario de septiembre de 2014 sobre discriminación en relación con el uso de macrodatos.

2014

Gartner disipa los mitos de Big Data

El Policy Brief de Gartner de otoño de 2014 enumera una serie de mitos comunes sobre Big Data entre los CIO y los refuta.

  • Todo el mundo está implementando sistemas de procesamiento de Big Data más rápido que nosotros

El interés en las tecnologías de Big Data está en un nivel récord: el 73% de las organizaciones encuestadas por los analistas de Gartner este año ya están invirtiendo en proyectos relacionados o van a hacerlo. Pero la mayoría de estas iniciativas aún se encuentran en sus primeras etapas, y solo el 13% de los encuestados ya ha implementado tales soluciones. La parte más difícil es descubrir cómo generar ingresos a partir de Big Data, decidir por dónde empezar. Muchas organizaciones se quedan estancadas en la fase piloto porque no pueden vincular la nueva tecnología a procesos comerciales específicos.

  • Tenemos tantos datos que no hay necesidad de preocuparse por pequeños errores en ellos.

Algunos CIO creen que las pequeñas lagunas de datos no afectan los resultados generales de grandes volúmenes de análisis. Cuando hay muchos datos, cada error individual realmente afecta menos el resultado, dicen los analistas, pero los errores en sí se vuelven más numerosos. Además, la mayoría de los datos analizados son externos, de estructura u origen desconocido, por lo que aumenta la probabilidad de errores. Por lo tanto, en el mundo de Big Data, la calidad es mucho más importante.

  • Las tecnologías de big data eliminarán la necesidad de integración de datos

Big Data promete la capacidad de procesar datos en formato nativo con generación automática de esquemas a medida que se leen. Se cree que esto permitirá el análisis de información de las mismas fuentes utilizando múltiples modelos de datos. Muchos creen que esto también permitirá a los usuarios finales interpretar cualquier conjunto de datos como mejor les parezca. En realidad, la mayoría de los usuarios a menudo necesitan un enfoque tradicional basado en esquemas en el que los datos tengan el formato adecuado y existan acuerdos sobre el nivel de integridad de la información y cómo debe relacionarse con el caso de uso.

  • No tiene sentido utilizar almacenes de datos para análisis complejos

Muchos administradores de sistemas de gestión de la información creen que no tiene sentido perder el tiempo construyendo un almacén de datos, dado que los sistemas analíticos sofisticados utilizan nuevos tipos de datos. De hecho, muchos sistemas de análisis complejos utilizan información de un almacén de datos. En otros casos, es necesario preparar adicionalmente nuevos tipos de datos para su análisis en sistemas de procesamiento de Big Data; debe tomar decisiones sobre la idoneidad de los datos, los principios de agregación y el nivel de calidad requerido; dicha preparación puede tener lugar fuera del almacén.

  • Los lagos de datos reemplazarán a los almacenes de datos

En realidad, los proveedores están engañando a los clientes al posicionar los lagos de datos como reemplazos de almacenamiento o como infraestructura analítica crítica. Las tecnologías de lago de datos subyacentes carecen de la madurez y la amplitud de la funcionalidad inherente al almacenamiento. Por lo tanto, los líderes de gestión de datos deben esperar hasta que los lagos alcancen el mismo nivel de desarrollo, según Gartner.

Accenture: el 92% de los que implementaron sistemas de big data están contentos con el resultado

Entre los principales beneficios del big data, los encuestados mencionaron:

  • "Búsqueda de nuevas fuentes de ingresos" (56%),
  • "Mejorar la experiencia del cliente" (51%),
  • "Nuevos productos y servicios" (50%) y
  • “La afluencia de nuevos clientes y la fidelización de los antiguos” (47%).

Muchas empresas se han enfrentado a desafíos tradicionales al introducir nuevas tecnologías. Para el 51%, la seguridad se convirtió en un obstáculo, para el 47% - presupuesto, para el 41% - falta de personal necesario y para el 35% - dificultades para integrarse con el sistema existente. Casi todas las empresas encuestadas (alrededor del 91%) planean resolver pronto el problema con escasez de personal y contratar especialistas en big data.

Las empresas son optimistas sobre el futuro de la tecnología de big data. El 89% cree que cambiarán el negocio tanto como Internet. El 79% de los encuestados señaló que las empresas que no hacen big data perderán su ventaja competitiva.

Sin embargo, los encuestados no estuvieron de acuerdo sobre qué debería considerarse exactamente como big data. El 65% de los encuestados cree que se trata de "archivos de big data", el 60% cree que se trata de "análisis y análisis avanzados" y el 50% cree que se trata de "datos de herramientas de visualización".

Madrid invierte 14,7 millones de euros en gestión de big data

En julio de 2014 se conoció que Madrid utilizaría tecnologías de big data para gestionar la infraestructura urbana. El costo del proyecto - 14,7 millones de euros, la base de las soluciones implementadas serán las tecnologías para el análisis y la gestión de big data. Con su ayuda, la administración de la ciudad gestionará el trabajo con cada proveedor de servicios y pagará en consecuencia, según el nivel de los servicios.

Estamos hablando de contratistas de la administración, que monitorean el estado de las calles, alumbrado, riego, espacios verdes, limpian el territorio y retiran, además de reciclar los residuos. Durante el proyecto, se desarrollaron 300 indicadores clave de desempeño de los servicios de la ciudad para inspectores especialmente designados, sobre la base de los cuales se realizarán diariamente 1,5 mil controles y mediciones diferentes. Además, la ciudad comenzará a utilizar una plataforma tecnológica innovadora denominada Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Expertos: Big Data Peak Fashion

Sin excepción, todos los proveedores del mercado de la gestión de datos están desarrollando tecnologías para la gestión de Big Data en este momento. Esta nueva tendencia tecnológica también es discutida activamente por la comunidad profesional, tanto desarrolladores como analistas de la industria y consumidores potenciales de tales soluciones.

Como averiguó Datashift, en enero de 2013, hubo una ola de debate sobre " big data"Ha superado todas las dimensiones imaginables. Tras analizar la cantidad de menciones de Big Data en las redes sociales, Datashift calculó que en 2012 este término se utilizó alrededor de 2 mil millones de veces en publicaciones creadas por cerca de 1 millón de autores diferentes en todo el mundo. Esto equivale a 260 publicaciones por hora, con un pico de 3070 menciones por hora.

Gartner: cada segundo CIO está listo para gastar dinero en Big Data

Después de varios años de experimentar con tecnologías de Big Data y las primeras implementaciones en 2013, la adaptación de tales soluciones aumentará significativamente, predice Gartner. Los investigadores encuestaron a los líderes de TI de todo el mundo y encontraron que el 42% de los encuestados ya han invertido en tecnologías de Big Data o planean realizar dichas inversiones durante el próximo año (datos a marzo de 2013).

Las empresas se ven obligadas a gastar dinero en tecnologías de procesamiento big data Dado que el panorama de la información está cambiando rápidamente, necesito nuevos enfoques para el procesamiento de la información. Muchas empresas ya se han dado cuenta de que el big data es fundamental y trabajar con él le permite obtener beneficios que no están disponibles utilizando fuentes de información tradicionales y métodos de procesamiento. Además, la constante exageración del tema del "big data" en los medios de comunicación está alimentando el interés por tecnologías relevantes.

Frank Buytendijk, vicepresidente de Gartner, incluso instó a las empresas a moderar su fervor, ya que a algunas les preocupa que se estén quedando atrás de sus competidores en la adquisición de Big Data.

“No hay que preocuparse, las posibilidades de implementar ideas basadas en tecnologías de big data son prácticamente infinitas”, dijo.

Gartner predice que para 2015, el 20% de las empresas Global 1000 tendrán un enfoque estratégico en la "infraestructura de la información".

Anticipándose a las nuevas oportunidades que traerán las tecnologías de procesamiento de Big Data, muchas organizaciones ya están organizando el proceso de recopilación y almacenamiento de diversos tipos de información.

Para las organizaciones educativas y gubernamentales, así como para las empresas del sector, el mayor potencial de transformación empresarial radica en la combinación de datos acumulados con los denominados datos oscuros (literalmente "datos oscuros"), estos últimos incluyen correos electrónicos, multimedia y otros similares. contenido. Según Gartner, quienes aprendan a manejar una amplia variedad de fuentes de información ganarán la carrera de los datos.

Encuesta de Cisco: Big Data ayudará a aumentar los presupuestos de TI

En una encuesta de primavera de 2013, Cisco Connected World Technology Report, realizado en 18 países por la firma de análisis independiente InsightExpress, se encuestó a 1.800 estudiantes universitarios y un número similar de jóvenes profesionales de entre 18 y 30 años. La encuesta se realizó para conocer el nivel de preparación de los departamentos de TI para implementar proyectos. Big Data y conocer los desafíos asociados, las brechas tecnológicas y el valor estratégico de dichos proyectos.

La mayoría de las empresas recopilan, registran y analizan datos. No obstante, dice el informe, muchas empresas se enfrentan a una serie de complejos desafíos empresariales y de tecnología de la información en relación con Big Data. Por ejemplo, el 60 por ciento de los encuestados admite que las soluciones de Big Data pueden mejorar los procesos de toma de decisiones y aumentar la competitividad, pero solo el 28 por ciento dijo que ya recibe beneficios estratégicos reales de la información acumulada.

Más de la mitad de los ejecutivos de TI encuestados creen que los proyectos de Big Data ayudarán a aumentar los presupuestos de TI en sus organizaciones, ya que habrá mayores requisitos de tecnología, personal y habilidades profesionales. Al mismo tiempo, más de la mitad de los encuestados esperan que dichos proyectos aumenten los presupuestos de TI en sus empresas a partir de 2012. El 57 por ciento confía en que Big Data aumentará sus presupuestos durante los próximos tres años.

El 81 por ciento de los encuestados dijo que todos (o al menos algunos) proyectos de Big Data requerirán computación en la nube. Por lo tanto, la expansión de las tecnologías en la nube puede afectar la velocidad de distribución de las soluciones de Big Data y el valor de estas soluciones para el negocio.

Las empresas recopilan y utilizan datos de una amplia variedad de tipos, tanto estructurados como no estructurados. Estas son las fuentes de las que los participantes de la encuesta obtienen sus datos (Informe de tecnología mundial conectada de Cisco):

Casi la mitad (48 por ciento) de los CIOs predicen que la carga en sus redes se duplicará en los próximos dos años. (Esto es especialmente cierto en China, donde el 68 por ciento de los encuestados tiene esta opinión, y en Alemania, el 60 por ciento). El 23 por ciento de los encuestados espera que la carga de la red se triplique en los próximos dos años. Al mismo tiempo, solo el 40 por ciento de los encuestados declaró estar preparado para un crecimiento explosivo en el volumen de tráfico de la red.

El 27 por ciento de los encuestados admitió que necesita mejores políticas de TI y medidas de seguridad de la información.

El 21 por ciento necesita más ancho de banda.

Big Data abre nuevas oportunidades para que los departamentos de TI generen valor y establezcan relaciones sólidas con las unidades de negocio, lo que les permite aumentar los ingresos y fortalecer la posición financiera de la empresa. Los proyectos de Big Data convierten a los departamentos de TI en socios estratégicos de las unidades de negocio.

Según el 73 por ciento de los encuestados, es el departamento de TI el que se convertirá en la principal fuerza impulsora detrás de la estrategia de Big Data. Al mismo tiempo, los encuestados creen que otros departamentos también estarán involucrados en la implementación de esta estrategia. En primer lugar, esto concierne a los departamentos de finanzas (fue nombrado por el 24 por ciento de los encuestados), investigación y desarrollo (20 por ciento), operaciones (20 por ciento), ingeniería (19 por ciento), así como marketing (15 por ciento) y ventas. (14 por ciento).

Gartner: Se necesitan millones de nuevos trabajos para gestionar Big Data

El gasto mundial en TI alcanzará los 3.700 millones de dólares en 2013, un 3,8% más que el gasto en tecnología de la información en 2012 (la previsión para fin de año es de 3.600 millones de dólares). Segmento big data(big data) crecerá a un ritmo mucho más rápido, según un informe de Gartner.

Para 2015, se crearán 4,4 millones de puestos de trabajo en el campo de la tecnología de la información para atender a big data, de los cuales 1,9 millones de puestos de trabajo en. Además, cada uno de estos trabajos implicará la creación de tres puestos de trabajo adicionales fuera del sector de la tecnología de la información, de modo que solo en los Estados Unidos en los próximos cuatro años, 6 millones de personas trabajarán para apoyar la economía de la información.

Según los expertos de Gartner, el principal problema es que no hay suficiente talento en la industria para esto: tanto el sistema educativo público como el privado, por ejemplo, en Estados Unidos, no son capaces de abastecer a la industria con un número suficiente de personas calificadas. personal. Entonces, de los nuevos trabajos mencionados en TI, solo uno de los tres contará con personal.

Los analistas creen que el papel de cultivar personal de TI calificado debe ser asumido directamente por las empresas que lo necesitan con urgencia, ya que dichos empleados se convertirán en una puerta de entrada a la nueva economía de la información del futuro.

2012

Primer escepticismo sobre Big Data

Los analistas de Ovum y Gartner sugieren que para un tema de moda de 2012 big data puede que sea el momento de liberar la ilusión.

El término "Big Data" en este momento generalmente se refiere al volumen cada vez mayor de información que proviene de las redes sociales, de las redes de sensores y otras fuentes, así como a la creciente gama de herramientas que se utilizan para procesar datos e identificar negocios importantes. tendencias.

“Debido a la exageración (oa pesar de ella) sobre la idea de big data, los fabricantes en 2012 miraron esta tendencia con gran esperanza”, dijo Tony Bayer, analista de Ovum.

Bayer dijo que DataSift ha realizado un análisis retrospectivo de menciones de big data en

Big data es un término amplio para las estrategias y tecnologías no convencionales necesarias para recopilar, organizar y procesar información de grandes conjuntos de datos. Si bien el problema de tratar con datos que exceden la potencia de procesamiento o la capacidad de almacenamiento de una sola computadora no es nuevo, la escala y el valor de este tipo de computación se ha expandido significativamente en los últimos años.

En este artículo, encontrará los conceptos básicos que puede encontrar al explorar Big Data. También se analizan algunos de los procesos y tecnologías que se utilizan actualmente en esta área.

¿Qué es Big Data?

Una definición precisa de Big Data es difícil de articular porque los proyectos, los proveedores, los profesionales y los profesionales de negocios la utilizan de formas muy diferentes. Teniendo esto en cuenta, los macrodatos se pueden definir como:

  • Grandes conjuntos de datos.
  • Una categoría de estrategias y tecnologías computacionales que se utilizan para procesar grandes conjuntos de datos.

En este contexto, "gran conjunto de datos" significa un conjunto de datos que es demasiado grande para ser procesado o almacenado con herramientas tradicionales o en una sola computadora. Esto significa que la escala general de grandes conjuntos de datos cambia constantemente y puede variar significativamente de un caso a otro.

Sistemas de Big Data

Los requisitos básicos para trabajar con big data son los mismos que para cualquier otro conjunto de datos. Sin embargo, la escala masiva, la velocidad de procesamiento y las características de los datos que se encuentran en cada etapa del proceso presentan nuevos desafíos importantes en el diseño de herramientas. El objetivo de la mayoría de los sistemas de big data es comprender y relacionarse con grandes cantidades de datos heterogéneos, lo que no sería posible con los métodos convencionales.

En 2001, Doug Laney de Gartner introdujo las "Tres V de Big Data" para describir algunas de las características que diferencian el procesamiento de Big Data de otros tipos de procesamiento de datos:

  1. Volumen (volumen de datos).
  2. Velocidad (velocidad de acumulación y procesamiento de datos).
  3. Variedad (variedad de tipos de datos procesados).

Volumen de datos

La gran escala de la información procesada ayuda a definir los sistemas de big data. Estos conjuntos de datos pueden ser órdenes de magnitud más grandes que los conjuntos de datos tradicionales, lo que requiere más atención en cada etapa de procesamiento y almacenamiento.

Debido a que los requisitos superan las capacidades de una sola computadora, a menudo es difícil combinar, asignar y coordinar recursos de grupos de computadoras. El control de clústeres y los algoritmos capaces de dividir las tareas en partes más pequeñas son cada vez más importantes en esta área.

Velocidad de acumulación y procesamiento

La segunda característica que distingue significativamente a los macrodatos de otros sistemas de datos es la velocidad a la que la información se mueve a través del sistema. Los datos a menudo ingresan al sistema desde múltiples fuentes y deben procesarse en tiempo real para actualizar el estado actual del sistema.

Este énfasis en la retroalimentación instantánea ha llevado a muchos profesionales a abandonar el enfoque orientado por lotes a favor de un sistema de transmisión en tiempo real. Los datos se agregan, procesan y analizan constantemente para mantenerse al día con la afluencia de nueva información y obtener datos valiosos en una etapa temprana, cuando es más relevante. Esto requiere sistemas confiables con componentes de alta disponibilidad para proteger contra fallas a lo largo de la canalización de datos.

Variedad de tipos de datos procesados

Existen muchos desafíos únicos en big data relacionados con la amplia gama de fuentes procesadas y su calidad relativa.

Los datos pueden provenir de sistemas internos, como registros de aplicaciones y servidores, feeds de redes sociales y otras API externas, sensores de dispositivos físicos y otras fuentes. El propósito de los sistemas de big data es procesar datos potencialmente útiles, independientemente de su origen, combinando toda la información en un solo sistema.

Los formatos y tipos de medios también pueden variar considerablemente. Los archivos multimedia (imágenes, video y audio) se combinan con archivos de texto, registros estructurados, etc. Los sistemas de procesamiento de datos más tradicionales esperan que los datos ingresen a la canalización ya etiquetados, formateados y organizados, pero los sistemas de big data generalmente aceptan y almacenan datos intentando mantener su estado original. Idealmente, cualquier transformación o cambio en los datos sin procesar ocurrirá en la memoria durante el procesamiento.

Otras características

Con el tiempo, los expertos y las organizaciones han propuesto expandir las Tres V originales, aunque estas innovaciones tienden a describir los problemas en lugar de las características del big data.

  • Veracidad: la variedad de fuentes y la complejidad del procesamiento pueden generar problemas al evaluar la calidad de los datos (y, por lo tanto, la calidad del análisis resultante).
  • Variabilidad: el cambio de datos da como resultado grandes cambios en la calidad. La identificación, el procesamiento o el filtrado de datos de baja calidad pueden requerir recursos adicionales que pueden mejorar la calidad de los datos.
  • Valor: el objetivo final de Big Data es el valor. A veces, los sistemas y procesos son muy complejos, lo que dificulta el uso de los datos y la extracción de los valores reales.

Ciclo de vida de Big Data

Entonces, ¿cómo se procesan realmente los macrodatos? Hay varios enfoques diferentes para la implementación, pero hay similitudes en las estrategias y el software.

  • Ingresando datos en el sistema
  • Guardar datos en el almacenamiento
  • Cálculo y análisis de datos
  • Visualización de resultados

Antes de sumergirnos en estas cuatro categorías de flujos de trabajo, hablemos de la computación en clúster, una estrategia importante utilizada por muchas herramientas de big data. La configuración de un clúster de cómputo es la columna vertebral de la tecnología utilizada en cada etapa del ciclo de vida.

Computación en clúster

Debido a la calidad de los macrodatos, las computadoras individuales no son adecuadas para procesar datos. Los clústeres son más adecuados para esto, ya que pueden hacer frente a las necesidades de almacenamiento y computacionales de big data.

El software de agrupación de big data agrega los recursos de muchas máquinas pequeñas, con el objetivo de proporcionar una serie de beneficios:

  • Agrupación de recursos: el procesamiento de grandes conjuntos de datos requiere una gran cantidad de recursos de memoria y procesador, así como una gran cantidad de espacio de almacenamiento disponible.
  • Alta disponibilidad: los clústeres pueden proporcionar distintos niveles de tolerancia a fallas y disponibilidad para que las fallas de hardware o software no afecten el acceso y el procesamiento de los datos. Esto es especialmente importante para la analítica en tiempo real.
  • Escalabilidad: los clústeres admiten el escalado horizontal rápido (agregando nuevas máquinas al clúster).

Trabajar en un clúster requiere herramientas para administrar la membresía del clúster, coordinar la asignación de recursos y programar el trabajo con nodos individuales. La membresía del clúster y la asignación de recursos se pueden manejar mediante programas como Hadoop YARN (Yet Another Resource Negotiator) o Apache Mesos.

Un clúster de cómputo prefabricado a menudo actúa como la columna vertebral con la que otro software interactúa para procesar los datos. Las máquinas que participan en un clúster de cómputo también suelen estar asociadas con la gestión de un sistema de almacenamiento distribuido.

Recuperando datos

Recibir datos es el proceso de agregar datos sin procesar al sistema. La complejidad de esta operación depende en gran medida del formato y la calidad de las fuentes de datos y de qué tan bien los datos cumplen con los requisitos para su procesamiento.

Puede agregar big data al sistema utilizando herramientas especiales. Tecnologías como Apache Sqoop pueden tomar datos existentes de bases de datos relacionales y agregarlos a un sistema de big data. También puede utilizar Apache Flume y Apache Chukwa, proyectos para agregar e importar registros de aplicaciones y servidores. Los intermediarios de mensajes como Apache Kafka se pueden utilizar como interfaz entre varios generadores de datos y el sistema de big data. Los marcos como Gobblin pueden combinar y optimizar la salida de todas las herramientas al final de la tubería.

El análisis, la clasificación y el etiquetado se suelen realizar durante la recopilación de datos. Este proceso a veces se llama ETL (extraer, transformar, cargar), que significa extraer, transformar y cargar. Si bien el término generalmente se refiere a procesos de almacenamiento heredados, a veces también se aplica a sistemas de big data. Las operaciones típicas incluyen la modificación de datos entrantes para formatear, categorizar y etiquetar, filtrar o validar datos para cumplimiento.

Idealmente, los datos entrantes pasan por un formato mínimo.

Almacenamiento de datos

Una vez recibidos, los datos se transmiten a los componentes que gestionan la tienda.

Los sistemas de archivos distribuidos se utilizan normalmente para almacenar datos sin procesar. Las soluciones como HDFS de Apache Hadoop permiten escribir grandes cantidades de datos en varios nodos de un clúster. Este sistema proporciona recursos computacionales con acceso a datos, puede cargar datos en la RAM del clúster para operaciones de memoria y manejar fallas de componentes. Se pueden utilizar otros sistemas de archivos distribuidos en lugar de HDFS, incluidos Ceph y GlusterFS.

Los datos también se pueden importar a otros sistemas distribuidos para un acceso más estructurado. Las bases de datos distribuidas, especialmente las bases de datos NoSQL, son adecuadas para esta función, ya que pueden manejar datos heterogéneos. Hay muchos tipos diferentes de bases de datos distribuidas, la elección depende de cómo desee organizar y presentar sus datos.

Cálculo y análisis de datos

Una vez que los datos están disponibles, el sistema puede comenzar a procesar. La capa computacional es quizás la parte más libre del sistema, ya que los requisitos y enfoques aquí pueden diferir significativamente según el tipo de información. Los datos a menudo se reprocesan, ya sea con una sola herramienta o con una variedad de herramientas para procesar diferentes tipos de datos.

El procesamiento por lotes es un método para calcular grandes conjuntos de datos. Este proceso implica dividir los datos en partes más pequeñas, programar el procesamiento de cada pieza en una máquina separada, reorganizar los datos en función de resultados intermedios y luego calcular y recopilar el resultado final. MapReduce de Apache Hadoop utiliza esta estrategia. El procesamiento por lotes es más útil cuando se trabaja con conjuntos de datos muy grandes que requieren muchos cálculos.

Otras cargas de trabajo requieren procesamiento en tiempo real. En este caso, la información debe procesarse y prepararse de inmediato, y el sistema debe responder de manera oportuna a medida que se disponga de nueva información. Una forma de implementar el procesamiento en tiempo real es procesar un flujo continuo de datos de elementos discretos. Otra característica común de los procesadores en tiempo real es el cálculo de datos en la memoria del clúster, lo que evita la necesidad de escribir en el disco.

Apache Storm, Apache Flink y Apache Spark ofrecen diferentes formas de implementar el procesamiento en tiempo real. Estas tecnologías flexibles le permiten elegir el mejor enfoque para cada problema específico. En general, el procesamiento en tiempo real es más adecuado para analizar pequeños fragmentos de datos que cambian o se agregan rápidamente al sistema.

Todos estos programas son marcos. Sin embargo, hay muchas otras formas de calcular o analizar datos en un sistema de big data. Estas herramientas a menudo se conectan a los marcos anteriores y proporcionan interfaces adicionales para interactuar con las capas subyacentes. Por ejemplo, Apache Hive proporciona una interfaz de almacén de datos para Hadoop, Apache Pig proporciona una interfaz de consulta y las interacciones con datos SQL se proporcionan mediante Apache Drill, Apache Impala, Apache Spark SQL y Presto. El aprendizaje automático utiliza Apache SystemML, Apache Mahout y MLlib de Apache Spark. Para la programación analítica directa, que es ampliamente compatible con el ecosistema de datos, se utilizan R y Python.

Visualización de resultados

El reconocimiento de tendencias o cambios en los datos a lo largo del tiempo suele ser más importante que los valores obtenidos. La visualización de datos es una de las formas más útiles de identificar tendencias y organizar una gran cantidad de puntos de datos.

El procesamiento en tiempo real se utiliza para visualizar las métricas de la aplicación y el servidor. Los datos cambian con frecuencia y las grandes diferencias en las métricas suelen indicar un impacto significativo en la salud de los sistemas u organizaciones. Los proyectos como Prometheus se pueden utilizar para procesar y visualizar flujos de datos y series de tiempo.

Una de las formas populares de visualizar datos es la pila elástica, anteriormente conocida como pila ELK. Logstash se utiliza para recopilar datos, Elasticsearch para indexar datos y Kibana para visualizar. La pila elástica puede trabajar con big data, visualizar los resultados de los cálculos o interactuar con métricas sin procesar. Se puede obtener una pila similar combinando Apache Solr para indexar con una bifurcación de Kibana llamada Banana para renderizar. Esta pila se llama Silk.

Otra tecnología de visualización para el trabajo de datos interactivos son los documentos. Dichos proyectos permiten la exploración y visualización interactivas de datos en un formato que es fácil de compartir y presentar datos. Ejemplos populares de este tipo de interfaz son Jupyter Notebook y Apache Zeppelin.

Glosario de Big Data

  • Big data es un término amplio para los conjuntos de datos que no pueden ser procesados ​​correctamente por computadoras o herramientas convencionales debido a su tamaño, velocidad de llegada y variedad. El término también se aplica comúnmente a tecnologías y estrategias para trabajar con dichos datos.
  • El procesamiento por lotes es una estrategia computacional que implica procesar datos en grandes conjuntos de datos. Normalmente, este método es ideal para tratar datos que no son urgentes.
  • La computación en clúster es la práctica de agrupar los recursos de varias máquinas y administrar sus capacidades compartidas para completar tareas. Esto requiere una capa de administración de clústeres que maneje la comunicación entre nodos individuales.
  • Un lago de datos es un gran depósito de datos recopilados en un estado relativamente sin procesar. Este término se utiliza a menudo para referirse a macrodatos no estructurados y que cambian con frecuencia.
  • La minería de datos es un término amplio para las diferentes prácticas de búsqueda de patrones en grandes conjuntos de datos. Este es un intento de organizar una gran cantidad de datos en un conjunto de información más comprensible y coherente.
  • Un almacén de datos es un almacenamiento grande y ordenado para análisis e informes. A diferencia de un lago de datos, un almacén consta de datos formateados y bien ordenados que se integran con otras fuentes. A menudo se hace referencia a los almacenes de datos en relación con los macrodatos, pero a menudo son componentes de los sistemas de procesamiento de datos convencionales.
  • ETL (extraer, transformar y cargar): extracción, transformación y carga de datos. Así es como se ve el proceso de obtención y preparación de datos sin procesar para su uso. Tiene que ver con los almacenes de datos, pero las características de este proceso también se encuentran en los pipelines de los sistemas de big data.
  • Hadoop es un proyecto Apache de código abierto para big data. Consiste en un sistema de archivos distribuido llamado HDFS y un programador de recursos y clúster llamado YARN. Las capacidades de procesamiento por lotes las proporciona el motor de cálculo MapReduce. Otros sistemas informáticos y analíticos pueden ejecutarse con MapReduce en implementaciones modernas de Hadoop.
  • El cálculo en memoria es una estrategia que implica mover todos los conjuntos de datos de trabajo a la memoria del clúster. Los cálculos intermedios no se escriben en el disco, sino que se almacenan en la memoria. Esto le da a los sistemas una gran ventaja de velocidad sobre los sistemas relacionados con E / S.
  • El aprendizaje automático es el estudio y la práctica de diseñar sistemas que puedan aprender, modificar y mejorar en función de los datos que se le transmiten. Por lo general, esto significa la implementación de algoritmos predictivos y estadísticos.
  • Map reduce (que no debe confundirse con MapReduce de Hadoop) es un algoritmo para programar un clúster de cómputo. El proceso incluye dividir la tarea entre nodos y obtener resultados intermedios, barajar y luego generar un valor único para cada conjunto.
  • NoSQL es un término amplio para bases de datos desarrolladas fuera del modelo relacional tradicional. Las bases de datos NoSQL son adecuadas para big data debido a su flexibilidad y arquitectura distribuida.
  • La transmisión es la práctica de calcular elementos individuales de datos a medida que se mueven por el sistema. Esto permite el análisis de datos en tiempo real y es adecuado para manejar transacciones urgentes utilizando métricas de alta velocidad.
Etiquetas :,