Menú
Gratis
Registro
hogar  /  Navegantes/ Procesamiento analítico de datos para soporte de decisiones. Procesamiento analítico de la información.

Procesamiento analítico de datos para soporte de decisiones. Procesamiento analítico de la información.

4. Clasificación de productos OLAP.

5. Principios de funcionamiento de los clientes OLAP.

7. Ámbitos de aplicación de las tecnologías OLAP.

8. Un ejemplo de uso de tecnologías OLAP para análisis en el campo de las ventas.

1. El lugar de OLAP en la estructura de información de la empresa.

El término "OLAP" está indisolublemente ligado al término "almacén de datos" (Data Warehouse).

Los datos almacenados provienen de sistemas operativos(sistemas OLTP), que están diseñados para automatizar los procesos comerciales. Además, el repositorio se puede reponer desde fuentes externas, como informes estadísticos.

La tarea del repositorio es proporcionar la "materia prima" para el análisis en un solo lugar y en una estructura simple y comprensible.

Hay otra razón que justifica la aparición de un almacenamiento separado: las consultas analíticas complejas de información operativa ralentizan el trabajo actual de la empresa, bloquean las tablas durante mucho tiempo y aprovechan los recursos del servidor.

Debajo del almacenamiento se puede entender no necesariamente una acumulación gigante de datos; lo principal es que sea conveniente para el análisis.

La centralización y la estructuración conveniente están lejos de todo lo que necesita un analista. Después de todo, todavía necesita una herramienta para ver, visualizar información. Los informes tradicionales, incluso creados sobre la base de un único repositorio, carecen de una cosa: flexibilidad. No se pueden "torcer", "expandir" o "contraer" para obtener la vista deseada de los datos. ¡Ojalá tuviera una herramienta que le permitiera expandir y contraer datos de manera simple y conveniente! OLAP es una de esas herramientas.

Aunque OLAP no es un atributo necesario de un almacén de datos, se utiliza cada vez más para analizar la información acumulada en este almacén de datos.

El lugar de OLAP estructura de información empresas (Fig. 1).

Foto 1. LugarOLAP en la estructura de información de la empresa

Los datos operativos se recopilan de varias fuentes, se limpian, se integran y se colocan en un almacén relacional. Al mismo tiempo, ya están disponibles para su análisis utilizando varias herramientas de informes. Luego, los datos (en su totalidad o en parte) se preparan para el análisis OLAP. Pueden cargarse en una base de datos OLAP especial o dejarse en un almacén relacional. Su elemento más importante son los metadatos, es decir, información sobre la estructura, ubicación y transformación de los datos. Gracias a ellos, se garantiza la interacción efectiva de varios componentes de almacenamiento.

Resumiendo, podemos definir OLAP como un conjunto de herramientas para el análisis multidimensional de los datos acumulados en un almacén.

2. Tratamiento analítico de datos operativos.

El concepto de OLAP se basa en el principio de representación de datos multidimensionales. En 1993, E. F. Codd consideró las deficiencias modelo relacional, en primer lugar, señalando la imposibilidad de "combinar, visualizar y analizar datos desde el punto de vista de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos", y definió requisitos generales para los sistemas OLAP que amplían la funcionalidad de SGBD relacionales e incluyen el análisis multidimensional como una de sus características.

Según Codd, una visión conceptual multidimensional es una perspectiva múltiple que consta de varias dimensiones independientes a lo largo de las cuales se pueden analizar ciertos conjuntos de datos.

El análisis simultáneo en múltiples dimensiones se define como análisis multivariante. Cada dimensión incluye direcciones de consolidación de datos, que consisten en una serie de niveles sucesivos de generalización, donde cada nivel superior corresponde a un mayor grado de agregación de datos para la dimensión correspondiente.

Así, la dimensión Contratista puede ser determinada por la dirección de consolidación, que consta de niveles de generalización "empresa - subdivisión - departamento - empleado". La dimensión Tiempo puede incluso incluir dos direcciones de consolidación: "año - trimestre - mes - día" y "semana - día", ya que la cuenta del tiempo por meses y por semanas no es compatible. En este caso, se hace posible seleccionar arbitrariamente el nivel de detalle de información deseado para cada una de las mediciones.

La operación de descenso (drilling down) corresponde al movimiento desde los niveles superiores de consolidación hacia los inferiores; por el contrario, la operación de levantar (enrollar) significa pasar de niveles inferiores a niveles superiores (Fig. 2).


Figura 2.Dimensiones y direcciones de la consolidación de datos

3. Requisitos para los medios de procesamiento analítico operativo.

El enfoque multidimensional surgió casi simultáneamente y en paralelo con el relacional. Sin embargo, recién a partir de mediados de los noventa, o más bien desde
1993, interés en MDBMS comenzó a generalizarse. Fue en este año que apareció un nuevo artículo de política de uno de los fundadores del enfoque relacional. E. Codda, en el que formuló 12 requisitos básicos para los medios de implementación OLAP(Tabla 1).

Tabla 1.

Vista de datos multidimensionales

Las herramientas deben admitir una vista multidimensional de los datos a nivel conceptual.

Transparencia

El usuario no necesita saber qué medios específicos se utilizan para almacenar y procesar datos, cómo se organizan los datos y de dónde provienen.

Disponibilidad

Las propias herramientas deben elegir y asociarse con la mejor fuente de datos para formar una respuesta a una solicitud determinada. Las herramientas deben proporcionar una visualización automática de su propia diagrama de lógica a varias fuentes de datos heterogéneas.

Rendimiento consistente

El rendimiento debe ser prácticamente independiente del número de Dimensiones en la consulta.

Soporte para arquitectura cliente-servidor

Las herramientas deben trabajar en una arquitectura cliente-servidor.

Igualdad de todas las dimensiones.

Ninguna de las dimensiones debe ser básica, todas deben ser iguales (simétricas).

Manejo dinámico de matrices dispersas

Los valores nulos deben almacenarse y manejarse de la manera más eficiente.

Soporte para el modo multiusuario de trabajar con datos

Las herramientas deben permitir trabajar a más de un usuario.

Soporte para operaciones basadas en varias medidas.

Todas las operaciones multidimensionales (p. ej., Agregación) deben aplicarse de manera uniforme y consistente a cualquier número de dimensiones.

Facilidad de manipulación de datos

Las herramientas deben tener la interfaz de usuario más conveniente, natural y cómoda.

Herramientas avanzadas de presentación de datos

Las herramientas deben admitir varias formas de visualización (representación) de datos.

Número ilimitado de dimensiones y niveles de agregación de datos

No debería haber un límite para el número de dimensiones admitidas.

Reglas para evaluar productos de software de clase OLAP

El conjunto de estos requisitos que sirvieron como la definición de facto de OLAP debe considerarse como recomendaciones, y los productos individuales deben juzgarse por el grado de aproximación para cumplir idealmente con todos los requisitos.

Más tarde, la definición de Codd se transformó en la llamada prueba FASMI, que requiere que una aplicación OLAP brinde la capacidad de analizar rápidamente información multidimensional compartida.

Recordar las 12 Reglas de Codd es demasiado pesado para la mayoría de las personas. Resultó que puede resumir la definición de OLAP con solo cinco palabras clave: Quick Analysis of Shared Multidimensional Information - o, abreviadamente - FASMI (traducido del inglés:F rápido A análisis de S compartido METRO ultradimensional I información).

Esta definición se formuló por primera vez a principios de 1995 y no ha necesitado revisión desde entonces.

Rápido rápido)- significa que el sistema debe proporcionar la mayoría de las respuestas a los usuarios en aproximadamente cinco segundos. Al mismo tiempo, lo más solicitudes simples se procesan en un segundo y muy pocos, más de 20 segundos. La investigación ha demostrado que los usuarios finales perciben que un proceso falla si no se reciben los resultados después de 30 segundos.

A primera vista, puede parecer sorprendente que al recibir un informe en un minuto, lo que no hace mucho tardaba días, el usuario se aburre muy rápidamente en la espera, y el proyecto resulta mucho menos exitoso que en el caso de un respuesta instantánea, incluso a costa de un análisis menos detallado.

ANÁLISIS (Análisis)significa que el sistema puede manejar cualquier análisis lógico y estadístico específico para esta aplicación, y asegura su conservación en forma accesible para el usuario final.

No es tan importante si este análisis se realiza en las propias herramientas del proveedor o en un producto de software externo relacionado, como una hoja de cálculo, es simplemente que toda la funcionalidad de análisis requerida debe proporcionarse de manera intuitiva para los usuarios finales. Las herramientas de análisis podrían incluir procedimientos específicos como el análisis de series temporales, la asignación de costos, las transferencias de divisas, la búsqueda de objetivos, el cambio de estructuras multidimensionales, el modelado no procedimental, la detección de excepciones, la extracción de datos y otras operaciones dependientes de la aplicación. Dichas capacidades varían ampliamente entre productos, dependiendo de la orientación del objetivo.

COMPARTIDO (Compartido) significa que el sistema hace cumplir todos los requisitos de protección de confidencialidad (quizás hasta el nivel de celda) y, si se requiere acceso de escritura múltiple, hace cumplir el bloqueo de modificación en el nivel apropiado. No todas las aplicaciones necesitan reescribir datos. Sin embargo, el número de tales aplicaciones está creciendo y el sistema debe ser capaz de manejar múltiples modificaciones de manera oportuna y segura.

MULTIDIMENSIONAL - este es un requisito clave. Si tuviéramos que definir OLAP en una palabra, la elegiríamos. El sistema debe proporcionar una representación conceptual multidimensional de los datos, incluido el soporte completo para jerarquías y jerarquías múltiples, ya que esta es definitivamente la forma más lógica de analizar empresas y organizaciones. No hay un número mínimo de dimensiones que se deban procesar porque también depende de la aplicación, y la mayoría de los productos OLAP tienen dimensiones suficientes para los mercados a los que se dirigen.

INFORMACIÓN - esto es todo. La información necesaria debe obtenerse donde se necesite. Sin embargo, mucho depende de la aplicación. El poder de varios productos se mide en términos de cuánta entrada pueden manejar, no cuántos gigabytes pueden almacenar. El poder de los productos varía mucho: los productos OLAP más grandes pueden manejar al menos mil veces más datos que los más pequeños. Hay muchos factores a considerar en este sentido, incluida la duplicación de datos, la memoria RAM requerida, el uso del espacio en disco, el rendimiento, la integración con los almacenes de información, etc.

La prueba FASMI es una definición razonable y comprensible de los objetivos en los que se centra OLAP.

4. ClasificaciónOLAP- productos.

Entonces, la esencia de OLAP radica en el hecho de que la información inicial para el análisis se presenta en forma de cubo multidimensional, y es posible manipularla arbitrariamente y obtener las secciones de información necesarias: informes. Al mismo tiempo, el usuario final ve el cubo como una tabla dinámica multidimensional que resume automáticamente los datos (hechos) en varias secciones (dimensiones) y le permite administrar de forma interactiva los cálculos y la forma del informe. Estas operaciones se realizan OLAP máquina (o máquina computación OLAP).

Hasta la fecha, se han desarrollado muchos productos en el mundo que implementan OLAP. -tecnologías. Para facilitar la navegación entre ellos, utilice clasificaciones OLAP -productos: a modo de almacenamiento de datos para análisis y por ubicación OLAP -carros. Echemos un vistazo más de cerca a cada categoría. productos OLAP.

Clasificación por método de almacenamiento de datos

Los cubos multidimensionales se construyen sobre la base de datos de origen y agregados. Tanto los datos de origen como los agregados para cubos se pueden almacenar en bases de datos tanto relacionales como multidimensionales. Por lo tanto, actualmente se utilizan tres métodos de almacenamiento de datos: MOLAP (OLAP multidimensional), ROLAP (OLAP relacional) y HOLAP (OLAP híbrido). ). Respectivamente, OLAP -los productos según el método de almacenamiento de datos se dividen en tres categorías similares:

1. En caso de MOLAP , los datos de origen y agregados se almacenan en una base de datos multidimensional o en un cubo local multidimensional.

2. En ROLAP -productos, los datos de origen se almacenan en bases de datos relacionales o en tablas locales planas en el servidor de archivos. Los datos agregados se pueden colocar en tablas de servicio en la misma base de datos. La conversión de datos de una base de datos relacional a cubos multidimensionales se realiza a pedido Herramientas OLAP.

3. En caso de utilizar HOLAP arquitectura, los datos de origen permanecen en la base de datos relacional, mientras que los agregados se colocan en la multidimensional. Edificio OLAP -cubo realizado bajo pedido OLAP -herramientas basadas en datos relacionales y multidimensionales.

Clasificación de ubicación OLAP-carros.

Según esta función, OLAP -Los productos se dividen en Servidores OLAP y clientes OLAP:

· En servidor OLAP -los medios de cálculo y almacenamiento de datos agregados se realizan mediante un proceso separado: el servidor. La aplicación cliente solo recibe los resultados de consultas contra cubos multidimensionales que se almacenan en el servidor. Alguno OLAP -los servidores admiten el almacenamiento de datos solo en bases de datos relacionales, algunos, solo en multidimensionales. Muchos modernos OLAP -los servidores admiten las tres formas de almacenar datos: MOLAP, ROLAP y HOLAP.

MOLAP.

MOLAP es Procesamiento analítico en línea multidimensional, es decir, OLAP multidimensional. Esto significa que el servidor utiliza una base de datos multidimensional (MBD) para almacenar datos. El significado de usar MDB es obvio. Puede almacenar de manera eficiente datos de naturaleza multidimensional, proporcionando un medio para atender rápidamente las consultas de la base de datos. Los datos se transfieren desde el origen de datos a la base de datos multidimensional y luego se agrega la base de datos. El cálculo previo es lo que acelera las consultas OLAP porque los datos de resumen ya se calcularon. El tiempo de consulta se convierte en una función únicamente del tiempo requerido para acceder a un dato en particular y realizar un cálculo. Este método respalda el concepto de que el trabajo se realiza una vez y los resultados se utilizan una y otra vez. Las bases de datos multidimensionales son una tecnología relativamente nueva. El uso de MDB tiene los mismos inconvenientes que la mayoría de las nuevas tecnologías. Es decir, no son tan estables como las bases de datos relacionales (RDB) y no están optimizadas en la misma medida. Otro punto débil del MDB es la incapacidad de utilizar la mayoría de las bases de datos multidimensionales en el proceso de agregación de datos, por lo que lleva tiempo que la nueva información esté disponible para el análisis.

ROLAP.

ROLAP es Procesamiento Analítico Relacional en Línea, es decir, OLAP relacional. El término ROLAP significa que el servidor OLAP se basa en una base de datos relacional. Los datos de origen se ingresan en una base de datos relacional, generalmente en un esquema de estrella o copo de nieve, para ayudar a reducir los tiempos de recuperación. El servidor proporciona un modelo de datos multidimensional utilizando consultas SQL optimizadas.

Hay una serie de razones para elegir una base de datos relacional en lugar de una base de datos multidimensional. RDB es una tecnología bien establecida con muchas oportunidades de optimización. El uso en el mundo real resultó en un producto más maduro. Además, los RDB admiten mayores cantidades de datos que los MDB. Simplemente están diseñados para tales volúmenes. El principal argumento en contra de las RDB es la complejidad de las consultas necesarias para recuperar información de una gran base de datos mediante SQL. Un programador de SQL sin experiencia podría sobrecargar fácilmente los valiosos recursos del sistema al intentar ejecutar alguna consulta de este tipo, que es mucho más fácil de realizar en un MDB.

Datos agregados/preagregados.

La implementación rápida de consultas es un imperativo para OLAP. Este es uno de los principios básicos de OLAP: la capacidad de manipular datos de manera intuitiva requiere una recuperación rápida de la información. En general, cuantos más cálculos se necesiten hacer para obtener una información, más lenta será la respuesta. Por lo tanto, para ahorrar un pequeño tiempo de implementación de consultas, se agregan previamente fragmentos de información a los que generalmente se accede con más frecuencia, pero que requieren cálculo. Es decir, se cuentan y luego se almacenan en la base de datos como datos nuevos. Un ejemplo del tipo de datos que se pueden precalcular son los datos de resumen, como las cifras de ventas mensuales, trimestrales o anuales, para las cuales los datos reales ingresados ​​son cifras diarias.

Los diferentes proveedores tienen diferentes métodos para seleccionar parámetros, lo que requiere agregación previa y una cantidad de valores calculados previamente. El enfoque de la agregación afecta tanto a la base de datos como al tiempo de ejecución de las consultas. Si se calculan más valores, aumenta la probabilidad de que el usuario solicite el valor ya calculado, y por tanto se reducirá el tiempo de respuesta, ya que no será necesario solicitar el valor inicial para el cálculo. Sin embargo, si calcula todos los valores posibles, esta no es la mejor solución, en este caso, el tamaño de la base de datos aumentará significativamente, lo que la hará inmanejable y el tiempo de agregación será demasiado largo. Además, cuando se agregan valores numéricos a la base de datos, o si se modifican, esta información debe reflejarse en valores precalculados que dependen de los nuevos datos. Por lo tanto, la actualización de la base de datos también puede llevar mucho tiempo en el caso de una gran cantidad de valores precalculados. Dado que la base de datos normalmente funciona fuera de línea durante la agregación, es deseable que el tiempo de agregación no sea demasiado largo.

OLAP El cliente está configurado de manera diferente. Construcción de un cubo multidimensional y OLAP -Los cálculos se realizan en la memoria del ordenador cliente.OLAP -Los clientes también se dividen en ROLAP y MOLAP.Y algunos pueden admitir ambas opciones de acceso a datos.

Cada uno de estos enfoques tiene sus pros y sus contras. Contrariamente a la creencia popular sobre las ventajas de las herramientas de servidor sobre las de cliente, en varios casos, el uso de OLAP -el cliente para los usuarios puede ser más eficiente y rentable de usar servidores OLAP.

El desarrollo de aplicaciones analíticas utilizando herramientas OLAP del cliente es un proceso rápido y no requiere una formación especial del ejecutante. Un usuario que conoce la implementación física de la base de datos puede desarrollar una aplicación analítica por su cuenta, sin la participación de un especialista en TI.

Cuando usa un servidor OLAP, necesita aprender 2 sistemas diferentes, a veces de diferentes proveedores, para crear cubos en el servidor y desarrollar una aplicación de cliente.

El cliente OLAP proporciona una única interfaz visual para describir cubos y personalizar las interfaces de usuario para ellos.

Entonces, ¿en qué casos puede ser más eficiente y beneficioso el uso de un cliente OLAP para los usuarios que el uso de un servidor OLAP?

· Viabilidad económica de la aplicación. OLAP - servidor se produce cuando la cantidad de datos es muy grande e insoportable para OLAP -cliente, de lo contrario el uso de este último está más justificado. En este caso OLAP -Cliente combina características de alto rendimiento y bajo costo.

· Las potentes PC de análisis son otro argumento a favor de OLAP -clientela. cuando se aplica OLAP -servidor estas capacidades no se utilizan.

Otros beneficios de los clientes OLAP incluyen:

· Costos de implementación y mantenimiento OLAP -el cliente es significativamente más bajo que el costo de servidor OLAP.

· Usando OLAP -La transferencia de datos del cliente con la máquina incorporada a través de la red se realiza una vez. Haciendo OLAP -Las operaciones no generan nuevos flujos de datos.

5. Principios de funcionamiento OLAP-clientela.

Considere el proceso de creación de una aplicación OLAP utilizando la herramienta de cliente (Fig. 1).

Foto 1.Cree una aplicación OLAP utilizando la herramienta de cliente ROLAP

El principio de funcionamiento de los clientes ROLAP es una descripción preliminar de la capa semántica, detrás de la cual se oculta la estructura física de los datos de origen. En este caso, las fuentes de datos pueden ser: tablas locales, RDBMS. La lista de fuentes de datos admitidas está determinada por el producto de software específico. Después de eso, el usuario puede manipular de forma independiente los objetos que entiende en términos del área temática para crear cubos e interfaces analíticas.

El principio de funcionamiento del cliente del servidor OLAP es diferente. En el servidor OLAP, al crear cubos, el usuario manipula las descripciones físicas de la base de datos. Esto crea descripciones personalizadas en el propio cubo. El cliente del servidor OLAP está configurado solo para cubos.

Al crear una capa semántica, las fuentes de datos, las tablas Ventas y Acuerdos, se describen en términos comprensibles para el usuario final y se convierten en "Productos" y "Ofertas". El campo "ID" de la tabla "Productos" se renombra a "Código", y "Nombre" a "Producto", etc.

Luego se crea un objeto comercial de Ventas. Un objeto comercial es una mesa plana sobre la base de la cual se forma un cubo multidimensional. Al crear un objeto comercial, las tablas "Productos" y "Ofertas" se combinan con el campo "Código" del producto. Dado que no se requerirá que todos los campos de las tablas se muestren en el informe, el objeto comercial usa solo los campos "Artículo", "Fecha" y "Cantidad".

En nuestro ejemplo, basado en el objeto comercial "Ventas", se creó un informe sobre las ventas de bienes por meses.

Al trabajar con un informe interactivo, el usuario puede establecer condiciones de filtrado y agrupación con los mismos simples movimientos del mouse. En este punto, el cliente ROLAP accede a los datos en el caché. El cliente del servidor OLAP genera una nueva consulta a la base de datos multidimensional. Por ejemplo, al aplicar un filtro de producto en el informe de ventas, puede obtener un informe sobre las ventas de los productos que nos interesan.

Todas las configuraciones para una aplicación OLAP se pueden almacenar en un depósito de metadatos dedicado, en una aplicación o en un depósito de sistema de base de datos multidimensional. La implementación depende del producto de software específico.

Todo lo que se incluye en estas aplicaciones es una vista estándar de la interfaz, funciones y estructura predefinidas y arreglos rápidos para situaciones más o menos estándar. Por ejemplo, los paquetes financieros son populares. Las aplicaciones financieras prediseñadas permitirán a los profesionales utilizar instrumentos financieros familiares sin tener que diseñar una estructura de base de datos o formularios e informes comunes.

internet es nueva forma cliente. Además, lleva el sello de las nuevas tecnologías; un montón de soluciones de internet difieren significativamente en sus capacidades en general y en la calidad de una solución OLAP en particular. Hay muchas ventajas en la generación de informes OLAP a través de Internet. El más significativo es la ausencia de la necesidad de software especializado para acceder a la información. Esto ahorra a la empresa mucho tiempo y dinero.

6. Elección de la arquitectura de la aplicación OLAP.

Al implementar un sistema analítico de información, es importante no cometer un error al elegir la arquitectura de una aplicación OLAP. La traducción literal del término Proceso analítico en línea - "procesamiento analítico en línea" - a menudo se toma literalmente en el sentido de que los datos que ingresan al sistema se analizan rápidamente. Esto es una ilusión: la eficiencia del análisis no está relacionada de ninguna manera con el tiempo real de actualización de los datos en el sistema. Esta característica se refiere al tiempo de respuesta del sistema OLAP a las solicitudes de los usuarios. Al mismo tiempo, los datos analizados suelen ser una instantánea de la información "de ayer", si, por ejemplo, los datos en los almacenamientos se actualizan una vez al día.

En este contexto, la traducción de OLAP como "procesamiento analítico interactivo" es más precisa. Es la capacidad de analizar datos en un modo interactivo lo que distingue a los sistemas OLAP de los sistemas para preparar informes regulados.

Otra característica del procesamiento interactivo en la formulación del antepasado de OLAP, E. Codd, es la capacidad de "combinar, ver y analizar datos en términos de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos". Para el propio Codd, el término OLAP denota una forma extremadamente específica de presentar datos a nivel conceptual: multidimensional. A nivel físico, los datos se pueden almacenar en bases de datos relacionales, pero en realidad, las herramientas OLAP tienden a trabajar con bases de datos multidimensionales en las que los datos se organizan en forma de hipercubo (Figura 1).

Foto 1. OLAP- cubo (hipercubo, metacubo)

Al mismo tiempo, la relevancia de estos datos está determinada por el momento en que el hipercubo se llena con nuevos datos.

Es obvio que el tiempo de formación de una base de datos multidimensional depende significativamente de la cantidad de datos cargados en ella, por lo que es razonable limitar esta cantidad. Pero, ¿cómo no acotar las posibilidades de análisis y privar al usuario del acceso a toda la información de interés? Hay dos caminos alternativos: Analizar y luego consultar ("Analizar primero, luego solicitar información adicional") y Consultar y luego analizar ("Primero consultar los datos, luego analizar").

Los seguidores del primer camino sugieren cargar información generalizada en una base de datos multidimensional, por ejemplo, resultados mensuales, trimestrales o anuales de los departamentos. Y si es necesario refinar los datos, se solicita al usuario que genere un informe en una base de datos relacional que contenga la selección requerida, por ejemplo, por días para un departamento determinado o por meses y empleados de un departamento seleccionado.

Los defensores de la segunda forma, por el contrario, sugieren que el usuario, en primer lugar, decida los datos que va a analizar y los cargue en un microcubo, una pequeña base de datos multidimensional. Ambos enfoques difieren a nivel conceptual y tienen sus ventajas y desventajas.

Las ventajas del segundo enfoque incluyen la "frescura" de la información que el usuario recibe en forma de un informe multidimensional: "microcubo". El microcubo se forma en base a la información recién solicitada de la base de datos relacional real. El trabajo con un microcubo se lleva a cabo de forma interactiva: la obtención de fragmentos de información y su detalle en el marco de un microcubo se realiza instantáneamente. Otro punto positivo es que el diseño de la estructura y el llenado del microcubo lo realiza el usuario "sobre la marcha", sin la participación de un administrador de base de datos. Sin embargo, el enfoque también adolece de serias deficiencias. El usuario no ve el panorama general y debe decidir de antemano la dirección de su investigación. De lo contrario, el microcubo solicitado puede ser demasiado pequeño y no contener todos los datos de interés, y el usuario tendrá que solicitar un nuevo microcubo, luego uno nuevo, luego otro y otro. El enfoque Consultar luego analizar implementa la herramienta BusinessObjects de la misma empresa y herramientas plataforma Kontur empresa Intersoft Lab.

Con el enfoque Analizar y luego consultar, la cantidad de datos cargados en una base de datos multidimensional puede ser bastante grande, el llenado debe realizarse de acuerdo con las reglas y puede llevar mucho tiempo. Sin embargo, todas estas deficiencias se compensan más tarde, cuando el usuario tiene acceso a casi todos los datos necesarios en cualquier combinación. La referencia a los datos originales en la base de datos relacional se realiza solo como último recurso, cuando se necesita información detallada, por ejemplo, en una factura específica.

El funcionamiento de una única base de datos multidimensional prácticamente no se ve afectado por el número de usuarios que acceden a ella. Solo leen los datos disponibles allí, a diferencia del enfoque Consultar y luego analizar, en el que la cantidad de microcubos en el caso límite puede crecer al mismo ritmo que la cantidad de usuarios.

Con este enfoque aumenta la carga de los servicios TI que, además de los relacionales, también se ven obligados a atender bases de datos multidimensionales. Son estos servicios los responsables de la actualización automática oportuna de datos en bases de datos multidimensionales.

Los representantes más destacados del enfoque "Analizar y luego consultar" son las herramientas PowerPlay e Impromptu de Cognos.

La elección tanto del enfoque como de la herramienta que lo implementa depende principalmente del objetivo perseguido: siempre hay que equilibrar entre ahorrar el presupuesto y mejorar la calidad del servicio al usuario final. Al mismo tiempo, se debe tener en cuenta que, en el plan estratégico, la creación de sistemas de información y análisis persigue el objetivo de lograr una ventaja competitiva, y no evitar el costo de la automatización. Por ejemplo, un sistema de información y análisis corporativo puede proporcionar la información necesaria, oportuna y confiable sobre una empresa, cuya publicación para los inversores potenciales garantizará la transparencia y previsibilidad de esta empresa, lo que inevitablemente se convertirá en una condición para su atractivo de inversión.

7. Ámbitos de aplicación de las tecnologías OLAP.

OLAP es aplicable dondequiera que haya una tarea de análisis de datos multifactoriales. En general, si tiene una tabla con datos que tiene al menos una columna descriptiva (dimensión) y una columna con números (medidas o hechos), una herramienta OLAP suele ser una herramienta eficaz para analizar y generar informes.

Considere algunas áreas de aplicación de las tecnologías OLAP tomadas de la vida real.

1. Ventas.

A partir del análisis de la estructura de ventas, se resuelven las cuestiones necesarias para la toma de decisiones gerenciales: cambio de gama de productos, precios, cierre y apertura de tiendas, sucursales, terminación y firma de contratos con distribuidores, realización o terminación de campañas publicitarias, etc.

2. Compras.

La tarea es lo opuesto al análisis de ventas. Muchas empresas compran componentes y materiales a proveedores. Los comerciantes compran bienes para revenderlos. Hay muchas tareas posibles en el análisis de adquisiciones, desde la planificación Dinero basado en la experiencia pasada, control sobre los gerentes elegir proveedores.

3. Precios.

El análisis de las compras se fusiona con el análisis de los precios de mercado. El propósito de este análisis es optimizar costos, seleccionar las ofertas más ventajosas.

4. Comercialización.

Por análisis de marketing entendemos únicamente el área de análisis de compradores o clientes-consumidores de servicios. La tarea de este análisis es el posicionamiento correcto de los productos, la identificación de grupos de compradores para publicidad dirigida y la optimización del surtido. La tarea de OLAP en este caso es brindarle al usuario una herramienta para obtener rápidamente, a la velocidad del pensamiento, respuestas a las preguntas que surgen intuitivamente en el curso del análisis de datos.

5. Almacén.

El análisis de la estructura de los saldos de existencias en el almacén por tipos de bienes, almacenes, el análisis de la vida útil de los bienes, el análisis del envío por destinatarios y muchos otros tipos de análisis importantes para la empresa son posibles si la organización tiene contabilidad de almacén.

6. Flujo de caja.

Esta es toda un área de análisis que tiene muchas escuelas y métodos. La tecnología OLAP puede servir como una herramienta para implementar o mejorar estas técnicas, pero no como un reemplazo para ellas. Los flujos de efectivo de los fondos no efectivos y efectivos se analizan en el contexto de las operaciones comerciales, las contrapartes, las monedas y el tiempo con el fin de optimizar los flujos, asegurar la liquidez, etc. La composición de las mediciones depende en gran medida de las características del negocio, la industria y la metodología.

7. Presupuesto.

Una de las áreas más fértiles de aplicación de las tecnologías OLAP. No en vano, ningún sistema presupuestario moderno se considera completo sin la presencia de un conjunto de herramientas OLAP para el análisis presupuestario en su composición. La mayoría de los informes presupuestarios se construyen fácilmente sobre la base de los sistemas OLAP. Al mismo tiempo, los informes responden a una gama muy amplia de preguntas: análisis de la estructura de gastos e ingresos, comparación de gastos para ciertos artículos en diferentes departamentos, análisis de la dinámica y tendencias de gastos para ciertos artículos, análisis de costo y ganancia.

8. Cuentas contables.

Un balance clásico que consiste en un número de cuenta y que contiene saldos entrantes, movimientos y saldos salientes puede analizarse perfectamente en un sistema OLAP. Además, el sistema OLAP puede calcular de forma automática y muy rápida los saldos consolidados de una organización con múltiples sucursales, saldos mensuales, trimestrales y anuales, saldos agregados por jerarquía de cuenta, saldos analíticos basados ​​en características analíticas.

9. Información financiera.

Un sistema de informes construido tecnológicamente no es más que un conjunto de indicadores con nombre con valores para la fecha que es necesario agrupar y resumir en varias secciones para obtener informes específicos. Cuando este es el caso, la visualización e impresión de informes se implementa de manera más fácil y económica en los sistemas OLAP. En cualquier caso, el sistema de informes internos de la empresa no es tan conservador y se puede rediseñar para ahorrar dinero en el trabajo técnico de crear informes y obtener capacidades de análisis operativo multidimensional.

10. Tráfico del sitio.

El archivo de registro del servidor de Internet es de naturaleza multidimensional y, por lo tanto, adecuado para el análisis OLAP. Los hechos son: el número de visitas, el número de visitas, el tiempo de permanencia en la página y otra información disponible en el registro.

11. Volúmenes de producción.

Este es otro ejemplo de análisis estadístico. Por lo tanto, es posible analizar los volúmenes de papas cultivadas, acero fundido, productos manufacturados.

12. Consumo de consumibles.

Imagine una planta compuesta por decenas de talleres que consumen refrigeración, liquidos de enjuague, aceites, trapos, papel de lija: cientos de artículos consumibles. La planificación precisa y la optimización de costos requieren un análisis exhaustivo del consumo real de consumibles.

13. Uso de locales.

Otro tipo de análisis estadístico. Ejemplos: análisis de la carga de trabajo de las aulas, edificios y locales alquilados, uso de salas de conferencias, etc.

14. Rotación de personal en la empresa.

Análisis de la rotación de personal en la empresa en el contexto de sucursales, departamentos, profesiones, nivel de educación, género, edad, tiempo.

15. Transporte de pasajeros.

Análisis del número de billetes vendidos e importes por temporada, destino, tipos de vagones (clases), tipos de trenes (aviones).

Esta lista no se limita al alcance de OLAP - tecnologías. Por ejemplo, considere la tecnología OLAP - Análisis de ventas.

8. Ejemplo de uso OLAP -Tecnologías de análisis en el campo de las ventas.

Diseño de vista de datos multidimensionales para OLAP -el analisis comienza con la formacion de un mapa de medidas. Por ejemplo, al analizar las ventas, puede ser útil identificar segmentos de mercado individuales (clientes en desarrollo, estables, grandes y pequeños, la probabilidad de nuevos clientes, etc.) y evaluar los volúmenes de ventas por productos, territorios, clientes, segmentos de mercado, distribución. canales y tamaños de pedidos. Estas direcciones forman la cuadrícula de coordenadas de la representación multidimensional de las ventas: la estructura de sus dimensiones.

Dado que la actividad de cualquier empresa avanza en el tiempo, la primera pregunta que surge en el análisis es la cuestión de la dinámica del desarrollo empresarial. La correcta organización del eje temporal dará una respuesta cualitativa a esta pregunta. Por lo general, el eje del tiempo se divide en años, trimestres y meses. Quizás incluso más dividido en semanas y días. La estructura de la dimensión temporal se forma teniendo en cuenta la frecuencia de recepción de datos; también puede ser determinada por la frecuencia de solicitud de información.

La dimensión “grupo de bienes” está diseñada para reflejar la estructura de los productos vendidos tanto como sea posible. Al mismo tiempo, es importante mantener un cierto equilibrio para, por un lado, evitar el exceso de detalle (el número de grupos debe ser visible) y, por otro lado, para no perder un segmento de mercado significativo.

La dimensión "Clientes" refleja la estructura de ventas por área geográfica. Cada dimensión puede tener sus propias jerarquías, por ejemplo, en esta dimensión puede ser una estructura: Países - Regiones - Ciudades - Clientes.

Para analizar el rendimiento de los departamentos, debe crear su propia dimensión. Por ejemplo, se pueden distinguir dos niveles de jerarquía: departamentos y departamentos incluidos en ellos, lo que debe reflejarse en la dimensión “Subdivisiones”.

De hecho, las dimensiones "Tiempo", "Productos", "Clientes" definen completamente el espacio del área temática.

Además, es útil dividir este espacio en áreas condicionales, tomando como base características calculadas, por ejemplo, rangos de volumen de transacciones en términos de valor. Entonces, todo el negocio se puede dividir en una serie de rangos de costos en los que se lleva a cabo. En este ejemplo, puede limitarse a los siguientes indicadores: la cantidad de ventas de bienes, la cantidad de bienes vendidos, la cantidad de ingresos, la cantidad de transacciones, la cantidad de clientes, el volumen de compras de los fabricantes.

OLAP: el cubo para el análisis se verá así (Fig. 2):


Figura 2.OLAP– un cubo para analizar el volumen de ventas

Es precisamente una matriz tridimensional de este tipo en términos de OLAP la que se denomina cubo. De hecho, desde el punto de vista de las matemáticas estrictas, dicha matriz no siempre será un cubo: para un cubo real, el número de elementos en todas las dimensiones debe ser el mismo, mientras que los cubos OLAP no tienen esa limitación. Un cubo OLAP no tiene que ser 3D en absoluto. Puede ser tanto bidimensional como multidimensional, según el problema que se resuelva. Los productos OLAP serios están diseñados para unas 20 dimensiones, mientras que las aplicaciones de escritorio más sencillas admiten unas 6 dimensiones.

Lejos de completarse todos los elementos del cubo: si no hay información sobre las ventas del Producto 2 al Cliente 3 en el tercer trimestre, el valor en la celda correspondiente simplemente no se determinará.

Sin embargo, el cubo en sí no es adecuado para el análisis. Si todavía es posible representar o representar adecuadamente un cubo tridimensional, entonces de seis o diecinueve dimensiones las cosas son mucho peores. Por lo tanto, las tablas bidimensionales ordinarias se extraen de un cubo multidimensional antes de su uso. Esta operación se llama "cortar" el cubo. El analista, por así decirlo, toma y "corta" las dimensiones del cubo de acuerdo con las marcas que le interesan. De esta forma, el analista recibe una porción bidimensional del cubo (informe) y trabaja con ella. La estructura del informe se muestra en la Figura 3.

figura 3Estructura del informe analítico

Cortemos nuestro cubo OLAP y obtengamos un informe de ventas para el tercer trimestre, se verá así (Fig. 4).

Figura 4Informe de ventas del tercer trimestre

Puede cortar el cubo a lo largo del otro eje y obtener un informe sobre las ventas del grupo de productos 2 durante el año (Fig. 5).

Figura 5Informe trimestral de ventas de productos 2

De igual forma se puede analizar la relación con el cliente 4, cortando el cubo según la etiqueta Clientes(figura 6)

Figura 6Informe sobre el suministro de bienes al cliente 4

Puede detallar el informe por mes o hablar del suministro de mercancías a una sucursal específica del cliente.

Durante muchos años, la tecnología de la información se ha concentrado en construir sistemas para soportar el procesamiento de transacciones corporativas. Dichos sistemas deben ser visualmente tolerantes a fallas y proporcionar una respuesta rápida. Solución efectiva Se proporcionó OLTP, que se centró en un entorno de base de datos relacional distribuido.

Un avance más reciente en esta área ha sido la adición de una arquitectura cliente-servidor. Se han publicado muchas herramientas para desarrollar aplicaciones OLTP.

El acceso a los datos suele ser necesario tanto para las aplicaciones OLTP como para los sistemas de información de soporte de decisiones. Desafortunadamente, tratar de atender ambos tipos de solicitudes puede ser problemático. Por lo tanto, algunas empresas han elegido el camino de dividir la base de datos en tipo OLTP y tipo OLAP.

OLAP (Procesamiento analítico en línea - procesamiento analítico en línea) es un proceso de información que permite al usuario consultar el sistema, realizar análisis, etc. en línea (en línea). Los resultados se generan en segundos.

Por otro lado, en un sistema OLTP, se procesan enormes cantidades de datos tan pronto como se ingresan.

Para proporcionar OLAP, debe trabajar con un almacén de datos (o almacenamiento multidimensional), así como con un conjunto de herramientas, generalmente capacidades multidimensionales. Estas herramientas pueden ser herramientas de consulta, hojas de cálculo, herramientas de minería de datos, herramientas de visualización de datos, etc.

En un gran número de publicaciones, la abreviatura OLAP denota no solo una vista multidimensional de los datos, sino también el almacenamiento de los propios datos en una base de datos multidimensional. En general, esto no es cierto, ya que el propio Codd señala que las bases de datos relacionales han sido, son y seguirán siendo la tecnología más adecuada para el almacenamiento de datos corporativos. No se necesita una nueva tecnología de base de datos, sino herramientas de análisis que complementen la funcionalidad de los DBMS existentes y que sean lo suficientemente flexibles para anticipar y automatizar diferentes tipos análisis intelectual, inherente a OLAP.

Según Codd, una representación conceptual multidimensional es una perspectiva múltiple que consta de varias dimensiones independientes a lo largo de las cuales se pueden analizar ciertos conjuntos de datos. El análisis simultáneo en múltiples dimensiones se define como análisis multivariante. Cada dimensión incluye direcciones de consolidación de datos, que consisten en una serie de niveles sucesivos de generalización, donde cada nivel superior corresponde a un mayor grado de agregación de datos para la dimensión correspondiente. Entonces la dimensión del Contratista puede ser determinada por la dirección de consolidación, consistente en los niveles de generalización "empresa - división - departamento - empleado". La dimensión Tiempo puede incluso incluir dos direcciones de consolidación - "año - trimestre - mes - día" y "semana - día", ya que la cuenta del tiempo por meses y por semanas es incompatible. En este caso, se hace posible seleccionar arbitrariamente el nivel de detalle de información deseado para cada una de las mediciones. La operación de descenso corresponde al movimiento de los niveles superiores de consolidación a los inferiores; por el contrario, la operación de elevación significa pasar de los niveles inferiores a los superiores.

Codd definió 12 reglas que debe cumplir un producto de software de clase OLAP. Estas reglas:

2. Transparencia.

3. Disponibilidad.

6. Igualdad de medidas.

Procesamiento de datos.

La minería de datos (DIA), o Data Mining, es un término que se utiliza para describir el descubrimiento de conocimiento en bases de datos, extracción de conocimiento, minería de datos, minería de datos, procesamiento de muestras de datos, limpieza de datos y recopilación de datos; aquí nos referimos al software relacionado. Todas estas acciones se llevan a cabo automáticamente y permiten que incluso los no programadores obtengan resultados rápidos.

La solicitud la realiza el usuario final, posiblemente en lenguaje natural. La consulta se convierte a formato SQL. La consulta SQL pasa por la red al DBMS que administra la base de datos o el almacén de datos. El DBMS encuentra la respuesta a la solicitud y la devuelve. Luego, el usuario puede diseñar la presentación o el informe de acuerdo con sus requisitos.

Muchas decisiones importantes en casi cualquier ámbito empresarial y social se basan en el análisis de grandes y complejas bases de datos. IAD puede ser muy útil en estos casos.

Los métodos de minería de datos están estrechamente relacionados con las tecnologías OLAP y las tecnologías de almacenamiento de datos. Es por eso la mejor opción es un enfoque integrado para su implementación.

Para que los almacenes de datos existentes contribuyan a las decisiones de gestión, la información debe presentarse al analista en la forma correcta, es decir, debe haber desarrollado herramientas para acceder y procesar datos del almacén.

Muy a menudo, los sistemas analíticos de información creados para uso directo de los tomadores de decisiones resultan extremadamente fáciles de usar, pero con una funcionalidad severamente limitada. Tales sistemas estáticos se denominan Sistemas de Información Ejecutiva. Contienen conjuntos predefinidos de consultas y, si bien son suficientes para una descripción general del día a día, no pueden responder todas las preguntas sobre los datos disponibles que pueden surgir en la toma de decisiones. Los resultados del trabajo de dicho sistema, por regla general, son informes de varias páginas, después de un estudio exhaustivo del cual el analista tiene una nueva serie de preguntas. Sin embargo, cada nueva solicitud, no prevista al diseñar dicho sistema, primero debe ser formalmente descrita, codificada por el programador y solo luego ejecutada. El tiempo de espera en este caso puede ser de horas y días, lo que no siempre es aceptable. Por lo tanto, la simplicidad externa de los SI de apoyo a las decisiones estadísticas, por la que luchan activamente la mayoría de los clientes de sistemas analíticos y de información, se convierte en una pérdida de flexibilidad.

Los IS de soporte de decisiones dinámicas, por otro lado, se centran en el procesamiento de solicitudes de datos ad hoc de los analistas. El trabajo de los analistas con estos sistemas consiste en una secuencia interactiva de generación de solicitudes y estudio de sus resultados.

Pero los IS de soporte de decisiones dinámicas pueden operar no solo en el campo del procesamiento analítico en línea (OLAP). El apoyo a las decisiones de gestión basado en datos acumulados se puede realizar en tres áreas básicas.

1. Esfera de datos detallados. Este es el alcance de la mayoría de los sistemas de recuperación de información. En la mayoría de los casos, los DBMS relacionales hacen un gran trabajo al manejar los desafíos que surgen aquí. El estándar generalmente aceptado para el lenguaje de manipulación de datos relacionales es SQL. Los sistemas de recuperación de información que proporcionan una interfaz de usuario final en las tareas de búsqueda de información detallada se pueden usar como complementos tanto en bases de datos separadas de sistemas transaccionales como en un almacén de datos común.

2. El alcance de los indicadores agregados. Una visión integral de la información recopilada en el almacén de datos, su generalización y agregación y el análisis multidimensional son las tareas de los sistemas OLAP. Aquí puede centrarse en un DBMS multidimensional especial o mantenerse dentro del marco de las tecnologías relacionales. En el segundo caso, los datos agregados previamente se pueden recopilar en una base de datos en forma de estrella, o la información se puede agregar en el proceso de escaneo de tablas detalladas de una base de datos relacional.

3. Ámbito de las leyes. El procesamiento intelectual se lleva a cabo mediante métodos de minería de datos, cuyas tareas principales son buscar patrones funcionales y lógicos en la información acumulada, construir modelos y reglas que expliquen las anomalías encontradas y/o predecir el desarrollo de ciertos procesos.

La estructura completa del sistema analítico de información construido sobre la base del almacén de datos se muestra en la fig. 3.2. En implementaciones específicas, a menudo faltan componentes individuales de este circuito.

Figura 3.2. La estructura de la información corporativa - sistema analítico.

La estructura de la base de datos del almacén suele diseñarse de forma que facilite al máximo el análisis de la información. Los datos deben estar convenientemente "dispuestos" en diferentes direcciones (llamadas medidas). Por ejemplo, hoy un usuario quiere ver un resumen de los envíos de piezas por proveedor para comparar su desempeño. Mañana, el mismo usuario necesitará una imagen de los cambios en el volumen de entregas de piezas por meses para poder seguir la dinámica de las entregas. La estructura de la base de datos debe soportar este tipo de análisis, permitiendo la extracción de datos relevantes para conjunto dado mediciones.

El procesamiento de datos analíticos operativos se basa en el principio de organizar la información en un modelo hipercúbico. El cubo de datos tridimensional más simple para el suministro de piezas para la base de datos de prueba considerada anteriormente se muestra en la fig. 3.11. Cada una de sus celdas corresponde a un "hecho", por ejemplo, el alcance de la entrega de una parte. A lo largo de un lado del cubo (una dimensión) están los meses durante los cuales se realizaron las entregas reflejadas por el cubo. La segunda dimensión son los tipos de piezas y la tercera dimensión corresponde a los proveedores. Cada celda contiene la cantidad de entrega para la combinación de valores correspondiente en las tres dimensiones. Cabe señalar que al llenar el cubo se realizó la agregación de los valores para las entregas de cada mes de la base de datos de prueba.


3.11. Variante de hipercubo simplificado para análisis de suministro de piezas

Los sistemas de clases OLAP difieren en la forma en que se presentan los datos.

OLAP multidimensional (MOLAP) – estos sistemas se basan en una estructura de datos multidimensional basada en arreglos dinámicos con métodos de acceso apropiados. MOLAP se implementa sobre tecnologías patentadas para organizar DBMS multidimensionales. La ventaja de este enfoque es la conveniencia de realizar cálculos en celdas de hipercubo, ya que en todas las combinaciones de medidas, se ingresan las celdas correspondientes (como en una hoja de cálculo). Los representantes clásicos de tales sistemas incluyen Oracle Express, SAS Institute MDDB.

OLAP relacional (ROLAP)– admite modelos analíticos multidimensionales sobre bases de datos relacionales. Esta clase de sistemas incluye Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

OLAP de escritorio (OLAP de escritorio)– herramientas para generar consultas e informes multidimensionales para locales sistemas de información(hojas de cálculo, archivos planos). Puede ser distinguido los siguientes sistemas– Objetos de negocio, Cognos Power Play.

E. F. Codd definió doce reglas que debe satisfacer un producto de clase OLAP, incluida la representación conceptual multidimensional de datos, transparencia, accesibilidad, rendimiento robusto, arquitectura cliente-servidor, igualdad de dimensiones, procesamiento dinámico de matriz dispersa, soporte multiusuario, soporte ilimitado para interdimensional. operaciones, manipulación de datos intuitiva, mecanismo de informes flexible, número ilimitado de dimensiones y niveles de agregación.




Los sistemas de clases más comunes ROLAP. Te permiten organizar modelo de información sobre un almacenamiento relacional completo de cualquier estructura o sobre un data mart especial.

Arroz. 3.12. Diagrama de estrella de Analytical Mart de suministro de piezas

Para la mayoría de los almacenes de datos, la forma más eficiente de modelar un cubo de N dimensiones es una "estrella". En la fig. La figura 3.11 muestra un modelo de hipercubo para el análisis del suministro de piezas, en el que la información se consolida en cuatro dimensiones (proveedor, pieza, mes, año). El esquema en estrella se basa en una tabla de hechos. La tabla de hechos contiene una columna que especifica el alcance de la entrega, así como columnas que especifican claves foráneas para todas las tablas de dimensiones. Cada dimensión de cubo está representada por una tabla de valores que es una referencia a la tabla de hechos. Para organizar los niveles de generalización de la información por encima de los libros de referencia de mediciones, se organizan entradas categóricas (por ejemplo, "material-detalle", "ciudad-proveedor").

La razón por la cual el circuito de la Fig. 3.12 se llama "estrella", es bastante obvio. Los extremos de la "estrella" están formados por tablas de dimensiones, y sus enlaces a la tabla de hechos ubicada en el centro forman rayos. Con este diseño de base de datos, la mayoría de las consultas de análisis empresarial unen una tabla de hechos central con una o más tablas de dimensiones. Por ejemplo, una consulta para obtener envíos de todas las piezas en 2004 por mes, desglosados ​​por proveedor, se vería así:

SELECCIONE SUMA(VALOR), PROVEEDOR.NOMBRE_PROVEEDOR, HECHO.ID_MES

DE HECHO, PROVEEDOR

DONDE HECHO.YEAR_ID=2004

Y HECHO.CODIGO_PROVEEDOR=PROVEEDOR.CODIGO_PROVEEDOR

GRUPO_POR CÓDIGO_DE_PROVEEDOR, MONTH_ID

PEDIDO_POR CÓDIGO_DE_PROVEEDOR, ID_MES.

En la fig. 3.13 muestra un fragmento del informe generado como resultado de una consulta dada.

3.4 Métodos de procesamiento de datos analíticos

Para que los almacenes de datos existentes contribuyan a la adopción de decisiones de gestión, la información debe ser presentada al analista en la forma adecuada, es decir, debe haber desarrollado herramientas para acceder y procesar datos del almacén.

Muy a menudo, los sistemas analíticos y de información creados con la expectativa de uso directo por parte de los tomadores de decisiones resultan ser extremadamente fáciles de usar, pero con una funcionalidad severamente limitada. Dichos sistemas estáticos se denominan Sistemas de Información Ejecutiva (ISS) o Sistemas de Información Ejecutiva (EIS). Contienen muchas solicitudes y, si bien son suficientes para una revisión del día a día, no pueden responder a todas las preguntas que pueden surgir al tomar decisiones. El resultado de la operación de tal sistema, por regla general, son informes de varias páginas, después de un estudio cuidadoso, que el analista tiene una nueva serie de preguntas. Sin embargo, cada nueva solicitud, no prevista al diseñar dicho sistema, primero debe ser formalmente descrita, codificada por el programador y solo luego ejecutada. El tiempo de espera en este caso puede ser de horas y días, lo que no siempre es aceptable.

Procesamiento analítico en línea. O procesamiento analítico en línea, OLAP es un componente clave de la organización de almacenes de datos. El concepto de OLAP fue descrito en 1993 por Edgar Codd y tiene los siguientes requisitos para aplicaciones de análisis multidimensional:

– representación conceptual multidimensional de datos, incluyendo apoyo total para jerarquías y jerarquías múltiples (clave Requisito OLAP);

– proporcionar al usuario los resultados del análisis en un tiempo aceptable (normalmente no más de 5 s), incluso a costa de un análisis menos detallado;

– la capacidad de realizar cualquier análisis lógico y estadístico específico de una aplicación determinada y guardarlo en un formato accesible para el usuario final;

– acceso multiusuario a los datos con soporte para mecanismos de bloqueo apropiados y herramientas de acceso autorizado;

- la capacidad de acceder a cualquier información necesaria, independientemente de su volumen y ubicación de almacenamiento.

Un sistema OLAP consta de muchos componentes. En el nivel de presentación más alto, el sistema incluye una fuente de datos, una base de datos multidimensional (MDB) que brinda la capacidad de implementar un motor de generación de informes OLAP, un servidor OLAP y un cliente. El sistema se basa en el principio cliente-servidor y proporciona acceso remoto y multiusuario al servidor MDB.

Considere los componentes de un sistema OLAP.

Fuentes. La fuente en los sistemas OLAP es el servidor que proporciona los datos para el análisis. Según el área de uso del producto OLAP, la fuente puede ser un almacén de datos, una base de datos heredada que contiene datos generales, un conjunto

tablas que combinan datos financieros o cualquier combinación de los anteriores.

Almacén de datos. Los datos iniciales se recopilan y colocan en un almacén diseñado de acuerdo con los principios de construcción de almacenes de datos. CD es una base de datos relacional (RDB). La tabla de datos principal (tabla de hechos) contiene los valores numéricos de los indicadores para los cuales se recopila información estadística.

Base de datos multidimensional El almacén de datos sirve como proveedor de información para una base de datos multidimensional, que es una colección de objetos. Las principales clases de estos objetos son las dimensiones y las medidas. Las dimensiones incluyen conjuntos de valores (parámetros) por los cuales se indexan los datos, por ejemplo, tiempo, regiones, tipo de institución, etc. Cada dimensión se llena con valores de las tablas de dimensiones correspondientes del almacén de datos. El conjunto de medidas determina el espacio del proceso en estudio. Las métricas son cubos de datos multidimensionales (hipercubos). El hipercubo contiene los datos en sí, así como las sumas agregadas de las dimensiones que componen el indicador. Los indicadores constituyen el contenido principal del MDB y se completan de acuerdo con la tabla de hechos. A lo largo de cada eje del hipercubo, los datos se pueden organizar en una jerarquía que representa diferentes niveles de detalle. Esto le permite crear dimensiones jerárquicas, según las cuales, durante el análisis de datos posterior, se llevará a cabo la agregación o el refinamiento de la presentación de datos. Un ejemplo típico de una dimensión jerárquica es una lista de objetos territoriales agrupados por distritos, regiones, distritos.

Servidor. La parte de la aplicación del sistema OLAP es el servidor OLAP. Este componente hace todo el trabajo (según el modelo del sistema) y almacena toda la información a la que se accede activamente. La arquitectura del servidor se rige por diferentes conceptos. En particular, la principal característica funcional de los productos OLAP es el uso de MDB o RDB para el almacenamiento de datos.

aplicación cliente.Los datos estructurados adecuadamente y almacenados en la MDB están disponibles para su análisis utilizando la aplicación cliente. El usuario tiene la oportunidad acceso remoto a los datos, formulando consultas complejas, generando informes, obteniendo subconjuntos arbitrarios de datos. Obtener un informe se reduce a elegir valores de medición específicos y construir una sección de un hipercubo. La sección transversal está determinada por los valores de medición seleccionados. Los datos para el resto de las mediciones se resumen.

OLAPen el cliente y en el servidor. El análisis de datos multidimensionales se puede llevar a cabo utilizando varias herramientas, que se pueden dividir condicionalmente en herramientas OLAP de cliente y servidor.

Las herramientas OLAP del lado del cliente (como las tablas dinámicas de Microsoft en Excel 2000 o ProClarity de Knosys) son aplicaciones que calculan datos agregados y los muestran. Al mismo tiempo, los propios datos agregados están contenidos en la memoria caché dentro del espacio de direcciones de dicha herramienta OLAP.

Si los datos de origen están contenidos en un DBMS de escritorio, el cálculo de los datos agregados lo realiza la propia herramienta OLAP. Si la fuente de los datos iniciales es un servidor DBMS, muchas de las herramientas OLAP del cliente envían consultas SQL al servidor y, como resultado, reciben datos agregados calculados en el servidor.

Por regla general, la funcionalidad OLAP se implementa en herramientas de procesamiento de datos estadísticos y en algunas hojas de cálculo.

Muchas herramientas de desarrollo contienen bibliotecas de clases o componentes que le permiten crear aplicaciones que implementan la funcionalidad OLAP más simple (como los componentes Decision Cube en Borland Delphi y Borland C++ Builder). Además, muchas empresas ofrecen controles ActiveX y otras bibliotecas que brindan una funcionalidad similar.

Las herramientas OLAP de cliente se utilizan, por regla general, con una pequeña cantidad de dimensiones (generalmente no más de seis) y una pequeña variedad de valores de estos parámetros, ya que los datos agregados resultantes deben caber en el espacio de direcciones de tales una herramienta, y su número crece exponencialmente con un aumento en el número de dimensiones.

Muchas herramientas de cliente OLAP le permiten guardar el contenido de la memoria caché de datos agregados como un archivo para que no sea necesario volver a calcularlos. Sin embargo, esta oportunidad se utiliza a menudo para enajenar datos agregados con el fin de transferirlos a otras organizaciones o para su publicación.

La idea de guardar un caché con datos agregados en un archivo tuvo su mayor desarrollo en herramientas OLAP del lado del servidor (como Oracle Express Server o Microsoft OLAP Services), en las que el almacenamiento y la modificación de datos agregados, así como el mantenimiento del almacenamiento que los contiene, se llevan a cabo mediante una aplicación o proceso independiente denominado servidor OLAP. Las aplicaciones cliente pueden solicitar este tipo de almacenamiento multidimensional y recibir algunos datos en respuesta. Algunas aplicaciones cliente también pueden crear dichos almacenes o actualizarlos de acuerdo con los datos de origen modificados.

Las ventajas de usar herramientas OLAP de servidor en comparación con las herramientas OLAP de cliente son similares a las ventajas de usar DBMS de servidor en comparación con las de escritorio: en el caso de usar herramientas de servidor, el cálculo y almacenamiento de datos agregados ocurre en el servidor y la aplicación cliente recibe solo los resultados de las consultas a ellos, lo que permite reducir el tráfico de red en general, el tiempo de ejecución de la solicitud y los requisitos de recursos consumidos por la aplicación cliente.

3.5 Aspectos técnicos del almacenamiento de datos multidimensionales

La multidimensionalidad en las aplicaciones OLAP se puede dividir en tres niveles:

1. Vista de datos multidimensionales– herramientas de usuario final que proporcionan visualización multidimensional y manipulación de datos; la capa de representación multidimensional se abstrae de la estructura física de los datos y los trata como multidimensionales.

    Procesamiento multidimensional- una herramienta (lenguaje) para formular consultas multidimensionales (el lenguaje SQL relacional tradicional no es adecuado aquí) y un procesador que pueda procesar y ejecutar dicha consulta.

    Almacenamiento multidimensional– medios de organización física de datos que aseguran la ejecución eficiente de consultas multidimensionales.

Los dos primeros niveles son obligatorios en todas las herramientas OLAP. El tercer nivel, aunque se usa ampliamente, no es necesario, ya que los datos para la representación multidimensional también se pueden recuperar de estructuras relacionales ordinarias. El procesador de consultas multidimensionales, en este caso, traduce consultas multidimensionales en consultas SQL que son ejecutadas por un DBMS relacional.

En cualquier almacén de datos, tanto convencional como multidimensional, junto con los datos detallados extraídos de los sistemas operativos, también se almacenan indicadores agregados (indicadores totales), como las sumas de los volúmenes de ventas por meses, por categorías de productos, etc. Agregados almacenados explícitamente para el único propósito de acelerar la ejecución de consultas. Después de todo, por un lado, por regla general, se acumula una gran cantidad de datos en el almacenamiento y, por otro lado, los analistas en la mayoría de los casos no están interesados ​​​​en indicadores detallados, sino generalizados. Y si se tuvieran que sumar millones de ventas individuales cada vez para calcular la cantidad de ventas del año, lo más probable es que la velocidad sea inaceptable. Por lo tanto, al cargar datos en una base de datos multidimensional, se calculan y guardan todos los indicadores totales o parte de ellos.

Sin embargo, el uso de datos agregados está plagado de desventajas. Las principales desventajas son el aumento de la cantidad de información almacenada (cuando se añaden nuevas dimensiones, la cantidad de datos que componen el cubo crece exponencialmente) y el tiempo que se tarda en cargarlas. Además, el volumen de información puede aumentar en decenas e incluso cientos de veces. Por ejemplo, en una de las pruebas estándar publicadas, el recuento de agregación total para 10 MB de datos sin procesar requirió 2,4 GB, es decir, ¡los datos crecieron en un factor de 240!

El grado de aumento en la cantidad de datos al calcular agregados depende de la cantidad de dimensiones del cubo y la estructura de estas dimensiones, es decir, la proporción de la cantidad de "principales" e "secundarios" en diferentes niveles de la dimensión. Para resolver el problema del almacenamiento de áridos, esquemas complejos, que permiten, al calcular lejos de todos los agregados posibles, lograr un aumento significativo en el rendimiento de ejecución de consultas.

Tanto los datos brutos como los agregados se pueden almacenar en

relacional, o en estructuras multidimensionales. En este sentido, actualmente se utilizan tres métodos de almacenamiento de datos multidimensionales:

MOLAP (OLAP multidimensional): los datos de origen y agregados se almacenan en una base de datos multidimensional. El almacenamiento de datos en estructuras multidimensionales le permite manipular los datos como una matriz multidimensional, de modo que la velocidad de cálculo de los valores agregados sea la misma para cualquiera de las dimensiones. Sin embargo, en este caso, la base de datos multidimensional es redundante, ya que los datos multidimensionales contienen completamente los datos relacionales originales.

Estos sistemas proporcionan un ciclo completo de procesamiento OLAP. Incluyen, además del componente de servidor, su propia interfaz de cliente integrada, o utilizan programas de hojas de cálculo externos para comunicarse con el usuario.

ROLAP (OLAP relacional): los datos originales permanecen en la misma base de datos relacional donde se ubicaron originalmente. Los datos agregados se colocan en tablas de servicio especialmente creadas para su almacenamiento en la misma base de datos.

HOLAP (OLAP híbrido): los datos originales permanecen en la misma base de datos relacional donde residía originalmente, mientras que los datos agregados se almacenan en una base de datos multidimensional.

Algunas herramientas OLAP admiten el almacenamiento de datos solo en estructuras relacionales, otras solo en estructuras multidimensionales. Sin embargo, la mayoría de las herramientas de servidor OLAP modernas admiten los tres métodos de almacenamiento de datos. La elección del método de almacenamiento depende del volumen y la estructura de los datos de origen, los requisitos de velocidad de ejecución de consultas y la frecuencia de actualización de los cubos OLAP.

3.6 Minería de datos (DatosMinería)

El término Minería de Datos denota el proceso de búsqueda de correlaciones, tendencias y relaciones a través de diversos algoritmos matemáticos y estadísticos: agrupamiento, análisis de regresión y correlación, etc. para sistemas de apoyo a la decisión. Al mismo tiempo, la información acumulada se generaliza automáticamente a información que se puede caracterizar como conocimiento.

La base de la tecnología moderna de minería de datos es el concepto de patrones que reflejan los patrones inherentes a las submuestras de datos y que constituyen el llamado conocimiento oculto.

Los patrones se buscan mediante métodos que no utilizan supuestos a priori sobre estas submuestras. Una característica importante de la minería de datos es que los patrones que se buscan no son estándar ni obvios. En otras palabras, las herramientas de minería de datos se diferencian de las herramientas de procesamiento de datos estadísticos y las herramientas OLAP en que, en lugar de verificar las relaciones que los usuarios presuponen

entre los datos, en función de los datos disponibles, pueden encontrar tales relaciones de forma independiente, así como construir hipótesis sobre su naturaleza.

En general, el proceso de minería de datos (Data Mining) consta de tres etapas

    identificación de patrones (búsqueda libre);

    usar los patrones revelados para predecir valores desconocidos (modelado predictivo);

    análisis de excepciones, diseñado para identificar e interpretar anomalías en los patrones encontrados.

En ocasiones, se señala explícitamente una etapa intermedia de comprobación de la fiabilidad de los patrones encontrados entre su descubrimiento y uso (etapa de validación).

Hay cinco tipos estándar de patrones identificados por los métodos de minería de datos:

1.Asociación le permite seleccionar grupos estables de objetos entre los cuales hay vínculos definidos implícitamente. La frecuencia de ocurrencia de un solo ítem o grupo de ítems, expresada como porcentaje, se denomina prevalencia. La baja tasa de prevalencia (menos de una milésima parte de un por ciento) sugiere que tal asociación no es significativa. Las asociaciones se escriben como reglas: A=> B, Dónde A - paquete, EN - consecuencia. Para determinar la importancia de cada regla de asociación resultante, es necesario calcular un valor llamado confianza A A EN(o relación A y B). La confianza muestra con qué frecuencia cuando A aparece EN. Por ejemplo, si lenguado)\u003d 20%, esto significa que al comprar un producto A en cada quinto caso, también se compra un producto EN.

Un ejemplo típico de la aplicación de la asociación es el análisis de la estructura de compras. Por ejemplo, al realizar una encuesta en un supermercado, se puede encontrar que el 65% de los que compraron papas fritas también toman Coca-Cola, y si hay descuento por tal conjunto, compran cola en el 85% de los casos. Tales resultados son valiosos en la formación de estrategias de marketing.

2. Consistencia - es un método para identificar asociaciones a lo largo del tiempo. En este caso, se definen reglas que describen la ocurrencia secuencial de ciertos grupos de eventos. Tales reglas son necesarias para construir escenarios. Además, se pueden utilizar, por ejemplo, para formar un conjunto típico de ventas anteriores que pueden conducir a ventas posteriores de un producto en particular.

3. Clasificación - herramienta de generalización. Le permite pasar de considerar objetos únicos a conceptos generalizados que caracterizan algunas colecciones de objetos y son suficientes para reconocer objetos pertenecientes a estas colecciones (clases). La esencia del proceso de formación de conceptos es encontrar patrones inherentes a las clases. Se utilizan muchas características diferentes (atributos) para describir objetos. El problema de la formación de conceptos según descripciones indicativas fue formulado por M.M. Bongart. Su solución se basa en la aplicación de dos procedimientos principales: formación y verificación. En los procedimientos de entrenamiento se construye una regla de clasificación basada en el procesamiento del conjunto de objetos de entrenamiento. El procedimiento de verificación (examen) consiste en utilizar la regla de clasificación obtenida para reconocer objetos de una nueva muestra (examen). Si los resultados de la prueba son satisfactorios, el proceso de aprendizaje finaliza; de lo contrario, la regla de clasificación se refina en el proceso de aprendizaje repetido.

4. Agrupación - esta es la distribución de información (registros) de la base de datos en grupos (clusters) o segmentos con la definición simultánea de estos grupos. En contraste con la clasificación, el análisis aquí no requiere clases preespecificadas.

5. Pronóstico de series de tiempo es una herramienta para determinar tendencias en los atributos de los objetos bajo consideración a lo largo del tiempo. El análisis del comportamiento de las series temporales permite predecir los valores de las características estudiadas.

Para resolver tales problemas, se utilizan varios métodos y algoritmos de minería de datos. En vista del hecho de que la Minería de Datos se ha desarrollado y se está desarrollando en la intersección de disciplinas como la estadística, la teoría de la información, el aprendizaje automático, la teoría de bases de datos, es bastante natural que la mayoría de los algoritmos y métodos de la Minería de Datos se hayan desarrollado en base a varios métodos. desde estas disciplinas.

De la variedad de métodos de minería de datos existentes, se pueden distinguir los siguientes:

    análisis de regresión, dispersión y correlación(implementado en la mayoría de los paquetes estadísticos modernos, en particular, en los productos de SAS Institute, StatSoft, etc.);

    métodos de análisis en un área temática específica, basada en modelos empíricos (usados ​​a menudo, por ejemplo, en herramientas económicas de análisis financiero);

    algoritmos de redes neuronales- un método de imitación de procesos y fenómenos que le permite reproducir dependencias complejas. El método se basa en el uso de un modelo simplificado del cerebro biológico y radica en que los parámetros iniciales se consideran como señales que se transforman de acuerdo con las conexiones existentes entre las "neuronas", y la respuesta de toda la red. a los datos iniciales se considera como la respuesta resultante del análisis. Los enlaces en este caso se crean utilizando el llamado aprendizaje en red a través de una gran muestra que contiene tanto los datos originales como las respuestas correctas. Las redes neuronales se utilizan ampliamente para resolver problemas de clasificación;

    lógica difusa se utiliza para procesar datos con valores de verdad difusos que pueden ser representados por una variedad de variables lingüísticas. La representación de conocimiento difuso se usa ampliamente para resolver problemas de clasificación y predicción, por ejemplo, en el sistema XpertRule Miner (Attar Software Ltd., Reino Unido), así como en AIS, NeuFuz, etc.;

    inferencias inductivas le permiten obtener generalizaciones de los hechos almacenados en la base de datos. En el proceso de aprendizaje inductivo puede participar un especialista que suministre hipótesis. Este método se llama aprendizaje supervisado. La búsqueda de reglas de generalización se puede realizar sin profesor mediante la generación automática de hipótesis. en moderno herramientas de software, por regla general, ambos métodos se combinan y los métodos estadísticos se utilizan para probar hipótesis. Un ejemplo de un sistema que utiliza cables inductivos es el XpertRule Miner desarrollado por Attar Software Ltd. (Gran Bretaña);

    razonamiento basado en casos similares(método del "vecino más cercano") (Razonamiento basado en casos - CBR) se basan en una búsqueda en la base de datos de situaciones cuyas descripciones son similares en una serie de características a una situación dada. El principio de analogía sugiere que los resultados de situaciones similares también estarán cerca unos de otros. La desventaja de este enfoque es que no crea ningún modelo o regla que generalice la experiencia previa. Además, la fiabilidad de los resultados inferidos depende de la integridad de la descripción de las situaciones, como en los procesos de inferencia inductiva. Ejemplos de sistemas que utilizan CBR son: KATE Tools (Acknosoft, Francia), Pattern Recognition Workbench (Unica, EE. UU.);

    árboles de decisión- un método de estructuración de un problema en forma de gráfico de árbol, cuyos vértices corresponden a reglas de producción que permiten clasificar datos o analizar las consecuencias de las decisiones. Este método da una representación visual del sistema de clasificación de reglas, si no hay muchas de ellas. Las tareas simples se resuelven usando este método mucho más rápido que usando redes neuronales. Para problemas complejos y para algunos tipos de datos, los árboles de decisión pueden no ser apropiados. Además, este método se caracteriza por el problema de la significancia. Una de las consecuencias del agrupamiento jerárquico de datos es la falta de una gran cantidad de ejemplos de entrenamiento para muchos casos especiales y, por lo tanto, la clasificación no puede considerarse confiable. Los métodos de árboles de decisión se implementan en muchas herramientas de software, a saber: C5.0 (RuleQuest, Australia), Clementine (Integral Solutions, Reino Unido), SIPINA (Universidad de Lyon, Francia), IDIS (Information Discovery, EE. UU.);

    programación evolutiva– búsqueda y generación de un algoritmo que exprese la interdependencia de los datos, a partir del algoritmo especificado inicialmente, modificado en el proceso de búsqueda; a veces, la búsqueda de interdependencias se realiza entre ciertos tipos de funciones (por ejemplo, polinomios);

algoritmos de búsqueda limitados, calculando combinaciones de eventos lógicos simples en subgrupos de datos.

3.7 IntegraciónOLAPYDatosMinería

El procesamiento analítico en línea (OLAP) y la minería de datos (Data Mining) son dos componentes del proceso de soporte de decisiones. Sin embargo, hoy en día, la mayoría de los sistemas OLAP solo se enfocan en brindar acceso a datos multidimensionales, y la mayoría de las herramientas de minería de datos que funcionan en el ámbito de los patrones tratan con perspectivas de datos unidimensionales. Para aumentar la eficiencia del procesamiento de datos para los sistemas de soporte de decisiones, se deben combinar estos dos tipos de análisis.

El término compuesto "Minería de datos OLAP" (minería de datos multidimensional) ahora está surgiendo para referirse a dicha combinación.

Hay tres formas principales de formar "Minería de datos OLAP":

    Cubicación y luego minería. La capacidad de realizar un análisis intelectual debe darse sobre cualquier resultado de una consulta a una representación conceptual multidimensional, es decir, sobre cualquier fragmento de cualquier proyección del hipercubo de indicadores.

    Minería y luego cubicación. Al igual que los datos recuperados de un almacén, los resultados de la minería deben presentarse en formato hipercúbico para su posterior análisis multidimensional.

    Cubing durante la minería. Este método de integración flexible permite activar automáticamente el mismo tipo de mecanismos de procesamiento intelectual sobre el resultado de cada paso de un análisis multidimensional (transición) entre niveles de generalización, extracción de un nuevo fragmento de hipercubo, etc.).

    Grado 11 [Texto... a ellos Cómo Parte todo sistemas ... profesor asistente ... Cheboksary, 2009. Nº 10. S. 44 -49 ... . Autores- compiladores: N... resúmenesconferencias, ...

  • Ayuda para enseñar

    ... conferencias. Preparación conferencias matemáticas. Escribiendo abstractoconferencias conferencias. Uso informacióntecnologías ...

  • I k kondaurova s ​​v lebedev actividades de investigación del futuro profesor de matemáticas tareas creativas en matemáticas elementales y métodos de enseñanza.

    Ayuda para enseñar

    ... conferencias. Preparación conferencias matemáticas. Escribiendo abstractoconferencias. Elaboración de ayudas visuales. Técnica de lectura conferencias. Uso informacióntecnologías ...

  • MEDIOS DE SEGUIMIENTO Modernización de la formación profesional Marzo - Agosto 2011

    Resumen

    ... 11 .08.2011 "Dead Souls-2" EN RNIMU a ellos ... 3,11 -3,44 . ... público conferencias líderes... Cheboksary... y garabatos resúmenes audiencia - ... informativosistemas Y tecnologías. ... sistema educación, dice profesor asistente ... compiladores ... partes real contenido ...

OLAP (Online Analytical Processing - procesamiento analítico en línea) es un proceso de información que permite al usuario consultar el sistema, realizar análisis, etc. en línea (en línea). Los resultados se generan en segundos.

Los sistemas OLAP están hechos para usuarios finales, mientras que los sistemas OLTP están hechos para usuarios profesionales ES. OLAP proporciona actividades como la generación de consultas, la consulta de informes ad hoc, la realización de análisis estadísticos y la creación de aplicaciones multimedia.

Para proporcionar OLAP, debe trabajar con un almacén de datos (o almacenamiento multidimensional), así como con un conjunto de herramientas, generalmente con capacidades multidimensionales. Estas herramientas pueden ser herramientas de consulta, hojas de cálculo, herramientas de minería de datos, herramientas de visualización de datos, etc.

El concepto de OLAP se basa en el principio de representación de datos multidimensionales. E. Codd consideró las deficiencias del modelo relacional, en primer lugar, señaló la imposibilidad de combinar, visualizar y analizar datos desde el punto de vista de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos, y determinó la requisitos generales de los sistemas OLAP que amplían la funcionalidad de los DBMS relacionales e incluyen el análisis multidimensional como una de sus características.

12 reglas que debe cumplir un producto de software de clase OLAP. Estas reglas:

1. Representación conceptual multidimensional de datos.

2. Transparencia.

3. Disponibilidad.

4. Rendimiento constante.

5. Arquitectura cliente - servidor.

6. Igualdad de medidas.

7. Procesamiento dinámico de matrices dispersas.

8. Admite el modo multijugador.

9. Soporte ilimitado para operaciones interdimensionales.

10. Manipulación intuitiva de datos.

11. Mecanismo de reporte flexible.

12. Número ilimitado de mediciones y niveles de agregación.

El conjunto de estos requisitos, que sirvió como definición real de OLAP, debe considerarse como una recomendación, y los productos individuales deben evaluarse por el grado de aproximación para cumplir idealmente con todos los requisitos.


Minería de datos (Data Mining) y conocimiento (Knowledge Mining). Gestión y análisis de grandes volúmenes de datos ( grandes datos). Sistemas de inteligencia empresarial (Business Intelligence, BI).

La minería de datos (DMA) es un término general para el análisis de datos con el uso activo de métodos y algoritmos matemáticos (métodos de optimización, algoritmos genéticos, reconocimiento de patrones, métodos estadísticos, minería de datos, etc.) que utilizan los resultados de la aplicación de métodos de visualización de datos.

En general, el proceso de DIA consta de tres etapas:

1) identificación de patrones (búsqueda libre);

2) usar los patrones revelados para predecir valores desconocidos (pronóstico);

3) análisis de excepciones para identificar e interpretar anomalías en los patrones encontrados.

A veces hay una etapa intermedia de verificación de la confiabilidad de los patrones encontrados (etapa de validación) entre su hallazgo y uso.

Todos los métodos IAD, según el principio de trabajar con datos iniciales, se dividen en dos grupos:

Métodos de razonamiento de casos de uso: los datos sin procesar se pueden almacenar en forma granular explícita y se pueden usar directamente para predicción y/o análisis de excepciones. La desventaja de este grupo de métodos es la complejidad de su uso en grandes cantidades de datos.

Métodos para identificar y usar patrones formalizados que requieren extraer información de datos primarios y convertirla en algunas construcciones formales, cuya forma depende de un método particular.

La minería de datos (DM) es una tecnología para descubrir conocimiento no trivial, prácticamente útil y accesible previamente desconocido en datos sin procesar, que es necesario para la toma de decisiones en diversas áreas de la actividad humana. Los algoritmos utilizados en Minería de Datos requieren una gran cantidad de cálculos, lo que anteriormente era un factor limitante en la amplia aplicación práctica de estos métodos, pero el aumento en el rendimiento de los procesadores modernos ha eliminado la gravedad de este problema.

El mercado de Business Intelligence consta de 5 sectores:

1. Productos OLAP;

2. Herramientas de minería de datos;

3. Herramientas para construir data warehouses y data marts (Data Warehousing);

4. Sistemas y aplicaciones de información gerencial;

5. Herramientas de usuario final para consultas e informes.

Actualmente, entre los líderes de las plataformas de BI corporativas se encuentran MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute y otros (el Apéndice B proporciona un análisis comparativo de algunos funcionalidad sistemas de BI).

El moderno nivel de desarrollo de hardware y software ha hecho posible desde hace algún tiempo mantener bases de datos de información operativa en varios niveles de gestión. En el curso de sus actividades, las empresas industriales, las corporaciones, las estructuras departamentales, las autoridades públicas y las administraciones han acumulado una gran cantidad de datos. Contienen un gran potencial para extraer información analítica útil, sobre la base de la cual puede identificar tendencias ocultas, construir una estrategia de desarrollo y encontrar nuevas soluciones.

En los últimos años, han tomado forma en el mundo una serie de nuevos conceptos para almacenar y analizar datos corporativos:

1) Almacenes de datos, o Almacenes de datos (Data Warehouse)

2) Procesamiento analítico en línea (On-Line Analytical Processing, OLAP)

3) Minería de datos - IAD (Minería de datos)

Los sistemas de procesamiento de datos analíticos OLAP son sistemas de apoyo a la decisión enfocados a la ejecución de consultas más complejas que requieren procesamiento estadístico de datos históricos acumulados durante un período de tiempo determinado. Sirven para preparar informes comerciales sobre ventas, marketing con fines de gestión, el llamado Data Mining - minería de datos, es decir. una forma de analizar información en una base de datos para encontrar anomalías y tendencias sin averiguar el significado semántico de los registros.

Los sistemas analíticos construidos sobre la base de OLAP incluyen herramientas de procesamiento de información basadas en métodos de inteligencia artificial y medios de presentación gráfica de datos. Estos sistemas están determinados por una gran cantidad de datos históricos, lo que le permite extraer información significativa de ellos, es decir. obtener conocimiento de los datos.

La eficiencia del procesamiento se logra mediante el uso de una potente tecnología multiprocesador, métodos complejos de análisis y almacenamiento de datos especializados.

Las bases de datos relacionales almacenan entidades en tablas separadas, que normalmente están bien normalizadas. Esta estructura es útil para bases de operaciones datos (sistema OLTP), pero las consultas complejas de varias tablas son relativamente lentas. Un mejor modelo para consultar en lugar de modificar es una base de datos espacial.

Un sistema OLAP toma una instantánea de una base de datos relacional y la estructura en un modelo espacial para consultas. El tiempo de procesamiento reclamado para consultas en OLAP es aproximadamente el 0,1 % de consultas similares en una base de datos relacional.

Una estructura OLAP creada a partir de datos de producción se denomina cubo OLAP. Un cubo se crea a partir de la unión de tablas mediante un esquema en estrella. En el centro de la "estrella" hay una tabla de hechos que contiene los hechos clave sobre los que se realizan las consultas. Varias tablas con dimensiones se adjuntan a una tabla de hechos. Estas tablas muestran cómo se pueden analizar los datos relacionales agregados. El número de agregaciones posibles está determinado por el número de formas en que los datos originales pueden mostrarse jerárquicamente.

Las clases de sistemas dadas (OLAP y OLTP) se basan en el uso de un DBMS, pero los tipos de consultas son muy diferentes. El mecanismo OLAP es uno de los métodos de análisis de datos más populares en la actualidad. Hay dos enfoques principales para resolver este problema. El primero de ellos se llama OLAP multidimensional (MOLAP), la implementación del mecanismo utilizando una base de datos multidimensional en el lado del servidor, y el segundo OLAP relacional (ROLAP), construyendo cubos sobre la marcha basados ​​​​en consultas SQL a un DBMS relacional. Cada uno de estos enfoques tiene sus propias ventajas y desventajas. El esquema general del sistema OLAP de escritorio se puede representar en la Fig.

El algoritmo de trabajo es el siguiente:

1) obtener datos en forma de tabla plana o el resultado de ejecutar una consulta SQL;

2) almacenar datos en caché y convertirlos en un cubo multidimensional;

3) mostrar el cubo construido usando una tabulación cruzada o un gráfico, etc.

En general, se puede conectar un número arbitrario de asignaciones a un cubo. Las pantallas que se utilizan en los sistemas OLAP suelen ser de dos tipos: tablas cruzadas y gráficos.

Diagrama de estrellas. Su idea es que haya tablas para cada dimensión, y todos los hechos se coloquen en una tabla, indexada por una clave múltiple formada por las claves de las dimensiones individuales. Cada rayo del diagrama estelar establece, en la terminología de Codd, la dirección de consolidación de datos a lo largo de la dimensión correspondiente.

En tareas complejas con mediciones multinivel, tiene sentido referirse a las extensiones del esquema de estrella: el esquema de constelación (esquema de constelación de hechos) y el esquema de copo de nieve (esquema de copo de nieve). En estos casos, se crean tablas de hechos separadas para posibles combinaciones de niveles de resumen de diferentes dimensiones. Esto permite un mejor rendimiento, pero a menudo genera datos redundantes y una complejidad significativa en la estructura de la base de datos, que contiene una gran cantidad de tablas de hechos.

diagrama de constelación

3.4 Métodos de procesamiento de datos analíticos

Para que los almacenes de datos existentes contribuyan a la adopción de decisiones de gestión, la información debe ser presentada al analista en la forma adecuada, es decir, debe haber desarrollado herramientas para acceder y procesar datos del almacén.

Muy a menudo, los sistemas analíticos y de información creados con la expectativa de uso directo por parte de los tomadores de decisiones resultan ser extremadamente fáciles de usar, pero con una funcionalidad severamente limitada. Dichos sistemas estáticos se denominan Sistemas de Información Ejecutiva (ISS) o Sistemas de Información Ejecutiva (EIS). Contienen muchas solicitudes y, si bien son suficientes para una revisión del día a día, no pueden responder a todas las preguntas que pueden surgir al tomar decisiones. El resultado de la operación de tal sistema, por regla general, son informes de varias páginas, después de un estudio cuidadoso, que el analista tiene una nueva serie de preguntas. Sin embargo, cada nueva solicitud, no prevista al diseñar dicho sistema, primero debe ser formalmente descrita, codificada por el programador y solo luego ejecutada. El tiempo de espera en este caso puede ser de horas y días, lo que no siempre es aceptable.

Procesamiento analítico en línea. O procesamiento analítico en línea, OLAP es un componente clave de la organización de almacenes de datos. El concepto de OLAP fue descrito en 1993 por Edgar Codd y tiene los siguientes requisitos para aplicaciones de análisis multidimensional:

– representación conceptual multidimensional de datos, incluido soporte completo para jerarquías y múltiples jerarquías (requisito clave de OLAP);

– proporcionar al usuario los resultados del análisis en un tiempo aceptable (normalmente no más de 5 s), incluso a costa de un análisis menos detallado;

– la capacidad de realizar cualquier análisis lógico y estadístico específico de una aplicación determinada y guardarlo en un formato accesible para el usuario final;

– acceso multiusuario a los datos con soporte para mecanismos de bloqueo apropiados y herramientas de acceso autorizado;

- la capacidad de acceder a cualquier información necesaria, independientemente de su volumen y ubicación de almacenamiento.

Un sistema OLAP consta de muchos componentes. En el nivel de presentación más alto, el sistema incluye una fuente de datos, una base de datos multidimensional (MDB) que brinda la capacidad de implementar un motor de generación de informes OLAP, un servidor OLAP y un cliente. El sistema se basa en el principio cliente-servidor y proporciona acceso remoto y multiusuario al servidor MDB.

Considere los componentes de un sistema OLAP.

Fuentes. La fuente en los sistemas OLAP es el servidor que proporciona los datos para el análisis. Según el área de uso del producto OLAP, la fuente puede ser un almacén de datos, una base de datos heredada que contiene datos generales, un conjunto

tablas que combinan datos financieros o cualquier combinación de los anteriores.

Almacén de datos. Los datos iniciales se recopilan y colocan en un almacén diseñado de acuerdo con los principios de construcción de almacenes de datos. CD es una base de datos relacional (RDB). La tabla de datos principal (tabla de hechos) contiene los valores numéricos de los indicadores para los cuales se recopila información estadística.

Base de datos multidimensional El almacén de datos sirve como proveedor de información para una base de datos multidimensional, que es una colección de objetos. Las principales clases de estos objetos son las dimensiones y las medidas. Las dimensiones incluyen conjuntos de valores (parámetros) por los cuales se indexan los datos, por ejemplo, tiempo, regiones, tipo de institución, etc. Cada dimensión se llena con valores de las tablas de dimensiones correspondientes del almacén de datos. El conjunto de medidas determina el espacio del proceso en estudio. Las métricas son cubos de datos multidimensionales (hipercubos). El hipercubo contiene los datos en sí, así como las sumas agregadas de las dimensiones que componen el indicador. Los indicadores constituyen el contenido principal del MDB y se completan de acuerdo con la tabla de hechos. A lo largo de cada eje del hipercubo, los datos se pueden organizar en una jerarquía que representa diferentes niveles de detalle. Esto le permite crear dimensiones jerárquicas, según las cuales, durante el análisis de datos posterior, se llevará a cabo la agregación o el refinamiento de la presentación de datos. Un ejemplo típico de una dimensión jerárquica es una lista de objetos territoriales agrupados por distritos, regiones, distritos.

Servidor. La parte de la aplicación del sistema OLAP es el servidor OLAP. Este componente hace todo el trabajo (según el modelo del sistema) y almacena toda la información a la que se accede activamente. La arquitectura del servidor se rige por diferentes conceptos. En particular, la principal característica funcional de los productos OLAP es el uso de MDB o RDB para el almacenamiento de datos.

aplicación cliente.Los datos estructurados adecuadamente y almacenados en la MDB están disponibles para su análisis utilizando la aplicación cliente. El usuario tiene la capacidad de acceder de forma remota a los datos, formular consultas complejas, generar informes y obtener subconjuntos de datos arbitrarios. Obtener un informe se reduce a elegir valores de medición específicos y construir una sección de un hipercubo. La sección transversal está determinada por los valores de medición seleccionados. Los datos para el resto de las mediciones se resumen.

OLAPen el cliente y en el servidor. El análisis de datos multidimensionales se puede llevar a cabo utilizando varias herramientas, que se pueden dividir condicionalmente en herramientas OLAP de cliente y servidor.

Las herramientas OLAP del lado del cliente (como las tablas dinámicas de Microsoft en Excel 2000 o ProClarity de Knosys) son aplicaciones que calculan datos agregados y los muestran. Al mismo tiempo, los propios datos agregados están contenidos en la memoria caché dentro del espacio de direcciones de dicha herramienta OLAP.

Si los datos de origen están contenidos en un DBMS de escritorio, el cálculo de los datos agregados lo realiza la propia herramienta OLAP. Si la fuente de los datos iniciales es un servidor DBMS, muchas de las herramientas OLAP del cliente envían consultas SQL al servidor y, como resultado, reciben datos agregados calculados en el servidor.

Por regla general, la funcionalidad OLAP se implementa en herramientas de procesamiento de datos estadísticos y en algunas hojas de cálculo.

Muchas herramientas de desarrollo contienen bibliotecas de clases o componentes que le permiten crear aplicaciones que implementan la funcionalidad OLAP más simple (como los componentes Decision Cube en Borland Delphi y Borland C++ Builder). Además, muchas empresas ofrecen controles ActiveX y otras bibliotecas que brindan una funcionalidad similar.

Las herramientas OLAP de cliente se utilizan, por regla general, con una pequeña cantidad de dimensiones (generalmente no más de seis) y una pequeña variedad de valores de estos parámetros, ya que los datos agregados resultantes deben caber en el espacio de direcciones de tales una herramienta, y su número crece exponencialmente con un aumento en el número de dimensiones.

Muchas herramientas de cliente OLAP le permiten guardar el contenido de la memoria caché de datos agregados como un archivo para que no sea necesario volver a calcularlos. Sin embargo, esta oportunidad se utiliza a menudo para enajenar datos agregados con el fin de transferirlos a otras organizaciones o para su publicación.

La idea de almacenar un caché con datos agregados en un archivo se ha desarrollado aún más en las herramientas OLAP del lado del servidor (por ejemplo, Oracle Express Server o Microsoft OLAP Services), en las que guardar y modificar datos agregados, así como mantener la el almacenamiento que los contiene lo lleva a cabo una aplicación o proceso independiente denominado servidor OLAP. Las aplicaciones cliente pueden solicitar este tipo de almacenamiento multidimensional y recibir algunos datos en respuesta. Algunas aplicaciones cliente también pueden crear dichos almacenes o actualizarlos de acuerdo con los datos de origen modificados.

Las ventajas de usar herramientas OLAP de servidor en comparación con las herramientas OLAP de cliente son similares a las ventajas de usar DBMS de servidor en comparación con las de escritorio: en el caso de usar herramientas de servidor, el cálculo y almacenamiento de datos agregados ocurre en el servidor y la aplicación cliente recibe solo los resultados de las consultas a ellos, lo que permite reducir el tráfico de red en general, el tiempo de ejecución de la solicitud y los requisitos de recursos consumidos por la aplicación cliente.

3.5 Aspectos técnicos del almacenamiento de datos multidimensionales

La multidimensionalidad en las aplicaciones OLAP se puede dividir en tres niveles:

1. Vista de datos multidimensionales– herramientas de usuario final que proporcionan visualización multidimensional y manipulación de datos; la capa de representación multidimensional se abstrae de la estructura física de los datos y los trata como multidimensionales.

    Procesamiento multidimensional- una herramienta (lenguaje) para formular consultas multidimensionales (el lenguaje SQL relacional tradicional no es adecuado aquí) y un procesador que pueda procesar y ejecutar dicha consulta.

    Almacenamiento multidimensional– medios de organización física de datos que aseguran la ejecución eficiente de consultas multidimensionales.

Los dos primeros niveles son obligatorios en todas las herramientas OLAP. El tercer nivel, aunque se usa ampliamente, no es necesario, ya que los datos para la representación multidimensional también se pueden recuperar de estructuras relacionales ordinarias. El procesador de consultas multidimensionales, en este caso, traduce consultas multidimensionales en consultas SQL que son ejecutadas por un DBMS relacional.

En cualquier almacén de datos, tanto convencional como multidimensional, junto con los datos detallados extraídos de los sistemas operativos, también se almacenan indicadores agregados (indicadores totales), como las sumas de los volúmenes de ventas por meses, por categorías de productos, etc. Agregados almacenados explícitamente para el único propósito de acelerar la ejecución de consultas. Después de todo, por un lado, por regla general, se acumula una gran cantidad de datos en el almacenamiento y, por otro lado, los analistas en la mayoría de los casos no están interesados ​​​​en indicadores detallados, sino generalizados. Y si se tuvieran que sumar millones de ventas individuales cada vez para calcular la cantidad de ventas del año, lo más probable es que la velocidad sea inaceptable. Por lo tanto, al cargar datos en una base de datos multidimensional, se calculan y guardan todos los indicadores totales o parte de ellos.

Sin embargo, el uso de datos agregados está plagado de desventajas. Las principales desventajas son el aumento de la cantidad de información almacenada (cuando se añaden nuevas dimensiones, la cantidad de datos que componen el cubo crece exponencialmente) y el tiempo que se tarda en cargarlas. Además, el volumen de información puede aumentar en decenas e incluso cientos de veces. Por ejemplo, en una de las pruebas estándar publicadas, el recuento de agregación total para 10 MB de datos sin procesar requirió 2,4 GB, es decir, ¡los datos crecieron en un factor de 240!

El grado de aumento en la cantidad de datos al calcular agregados depende de la cantidad de dimensiones del cubo y la estructura de estas dimensiones, es decir, la proporción de la cantidad de "principales" e "secundarios" en diferentes niveles de la dimensión. Para resolver el problema del almacenamiento de agregados, se utilizan esquemas complejos que permiten, al calcular lejos de todos los agregados posibles, lograr un aumento significativo en el rendimiento de la ejecución de consultas.

Tanto los datos brutos como los agregados se pueden almacenar en

relacional, o en estructuras multidimensionales. En este sentido, actualmente se utilizan tres métodos de almacenamiento de datos multidimensionales:

MOLAP (OLAP multidimensional): los datos de origen y agregados se almacenan en una base de datos multidimensional. El almacenamiento de datos en estructuras multidimensionales le permite manipular los datos como una matriz multidimensional, de modo que la velocidad de cálculo de los valores agregados sea la misma para cualquiera de las dimensiones. Sin embargo, en este caso, la base de datos multidimensional es redundante, ya que los datos multidimensionales contienen completamente los datos relacionales originales.

Estos sistemas proporcionan un ciclo completo de procesamiento OLAP. Incluyen, además del componente de servidor, su propia interfaz de cliente integrada, o utilizan programas de hojas de cálculo externos para comunicarse con el usuario.

ROLAP (OLAP relacional): los datos originales permanecen en la misma base de datos relacional donde se ubicaron originalmente. Los datos agregados se colocan en tablas de servicio especialmente creadas para su almacenamiento en la misma base de datos.

HOLAP (OLAP híbrido): los datos originales permanecen en la misma base de datos relacional donde residía originalmente, mientras que los datos agregados se almacenan en una base de datos multidimensional.

Algunas herramientas OLAP admiten el almacenamiento de datos solo en estructuras relacionales, otras solo en estructuras multidimensionales. Sin embargo, la mayoría de las herramientas de servidor OLAP modernas admiten los tres métodos de almacenamiento de datos. La elección del método de almacenamiento depende del volumen y la estructura de los datos de origen, los requisitos de velocidad de ejecución de consultas y la frecuencia de actualización de los cubos OLAP.

3.6 Minería de datos (DatosMinería)

El término Minería de Datos denota el proceso de búsqueda de correlaciones, tendencias y relaciones a través de diversos algoritmos matemáticos y estadísticos: agrupamiento, análisis de regresión y correlación, etc. para sistemas de apoyo a la decisión. Al mismo tiempo, la información acumulada se generaliza automáticamente a información que se puede caracterizar como conocimiento.

La base de la tecnología moderna de minería de datos es el concepto de patrones que reflejan los patrones inherentes a las submuestras de datos y que constituyen el llamado conocimiento oculto.

Los patrones se buscan mediante métodos que no utilizan supuestos a priori sobre estas submuestras. Una característica importante de la minería de datos es que los patrones que se buscan no son estándar ni obvios. En otras palabras, las herramientas de minería de datos se diferencian de las herramientas de procesamiento de datos estadísticos y las herramientas OLAP en que, en lugar de verificar las relaciones que los usuarios presuponen

entre los datos, en función de los datos disponibles, pueden encontrar tales relaciones de forma independiente, así como construir hipótesis sobre su naturaleza.

En general, el proceso de minería de datos (Data Mining) consta de tres etapas

    identificación de patrones (búsqueda libre);

    usar los patrones revelados para predecir valores desconocidos (modelado predictivo);

    análisis de excepciones, diseñado para identificar e interpretar anomalías en los patrones encontrados.

En ocasiones, se señala explícitamente una etapa intermedia de comprobación de la fiabilidad de los patrones encontrados entre su descubrimiento y uso (etapa de validación).

Hay cinco tipos estándar de patrones identificados por los métodos de minería de datos:

1.Asociación le permite seleccionar grupos estables de objetos entre los cuales hay vínculos definidos implícitamente. La frecuencia de ocurrencia de un solo ítem o grupo de ítems, expresada como porcentaje, se denomina prevalencia. La baja tasa de prevalencia (menos de una milésima parte de un por ciento) sugiere que tal asociación no es significativa. Las asociaciones se escriben como reglas: A=> B, Dónde A - paquete, EN - consecuencia. Para determinar la importancia de cada regla de asociación resultante, es necesario calcular un valor llamado confianza A A EN(o relación A y B). La confianza muestra con qué frecuencia cuando A aparece EN. Por ejemplo, si lenguado)\u003d 20%, esto significa que al comprar un producto A en cada quinto caso, también se compra un producto EN.

Un ejemplo típico de la aplicación de la asociación es el análisis de la estructura de compras. Por ejemplo, al realizar una encuesta en un supermercado, se puede encontrar que el 65% de los que compraron papas fritas también toman Coca-Cola, y si hay descuento por tal conjunto, compran cola en el 85% de los casos. Tales resultados son valiosos en la formación de estrategias de marketing.

2. Consistencia - es un método para identificar asociaciones a lo largo del tiempo. En este caso, se definen reglas que describen la ocurrencia secuencial de ciertos grupos de eventos. Tales reglas son necesarias para construir escenarios. Además, se pueden utilizar, por ejemplo, para formar un conjunto típico de ventas anteriores que pueden conducir a ventas posteriores de un producto en particular.

3. Clasificación - herramienta de generalización. Le permite pasar de considerar objetos únicos a conceptos generalizados que caracterizan algunas colecciones de objetos y son suficientes para reconocer objetos pertenecientes a estas colecciones (clases). La esencia del proceso de formación de conceptos es encontrar patrones inherentes a las clases. Se utilizan muchas características diferentes (atributos) para describir objetos. El problema de la formación de conceptos según descripciones indicativas fue formulado por M.M. Bongart. Su solución se basa en la aplicación de dos procedimientos principales: formación y verificación. En los procedimientos de entrenamiento se construye una regla de clasificación basada en el procesamiento del conjunto de objetos de entrenamiento. El procedimiento de verificación (examen) consiste en utilizar la regla de clasificación obtenida para reconocer objetos de una nueva muestra (examen). Si los resultados de la prueba son satisfactorios, el proceso de aprendizaje finaliza; de lo contrario, la regla de clasificación se refina en el proceso de aprendizaje repetido.

4. Agrupación - esta es la distribución de información (registros) de la base de datos en grupos (clusters) o segmentos con la definición simultánea de estos grupos. En contraste con la clasificación, el análisis aquí no requiere clases preespecificadas.

5. Pronóstico de series de tiempo es una herramienta para determinar tendencias en los atributos de los objetos bajo consideración a lo largo del tiempo. El análisis del comportamiento de las series temporales permite predecir los valores de las características estudiadas.

Para resolver tales problemas, se utilizan varios métodos y algoritmos de minería de datos. En vista del hecho de que la Minería de Datos se ha desarrollado y se está desarrollando en la intersección de disciplinas como la estadística, la teoría de la información, el aprendizaje automático, la teoría de bases de datos, es bastante natural que la mayoría de los algoritmos y métodos de la Minería de Datos se hayan desarrollado en base a varios métodos. desde estas disciplinas.

De la variedad de métodos de minería de datos existentes, se pueden distinguir los siguientes:

    análisis de regresión, dispersión y correlación(implementado en la mayoría de los paquetes estadísticos modernos, en particular, en los productos de SAS Institute, StatSoft, etc.);

    métodos de análisis en un área temática específica, basada en modelos empíricos (usados ​​a menudo, por ejemplo, en herramientas económicas de análisis financiero);

    algoritmos de redes neuronales- un método de imitación de procesos y fenómenos que le permite reproducir dependencias complejas. El método se basa en el uso de un modelo simplificado del cerebro biológico y radica en que los parámetros iniciales se consideran como señales que se transforman de acuerdo con las conexiones existentes entre las "neuronas", y la respuesta de toda la red. a los datos iniciales se considera como la respuesta resultante del análisis. Los enlaces en este caso se crean utilizando el llamado aprendizaje en red a través de una gran muestra que contiene tanto los datos originales como las respuestas correctas. Las redes neuronales se utilizan ampliamente para resolver problemas de clasificación;

    lógica difusa se utiliza para procesar datos con valores de verdad difusos que pueden ser representados por una variedad de variables lingüísticas. La representación de conocimiento difuso se usa ampliamente para resolver problemas de clasificación y predicción, por ejemplo, en el sistema XpertRule Miner (Attar Software Ltd., Reino Unido), así como en AIS, NeuFuz, etc.;

    inferencias inductivas le permiten obtener generalizaciones de los hechos almacenados en la base de datos. En el proceso de aprendizaje inductivo puede participar un especialista que suministre hipótesis. Este método se llama aprendizaje supervisado. La búsqueda de reglas de generalización se puede realizar sin profesor mediante la generación automática de hipótesis. En las herramientas de software modernas, por regla general, ambos métodos se combinan y los métodos estadísticos se utilizan para probar hipótesis. Un ejemplo de un sistema que utiliza cables inductivos es el XpertRule Miner desarrollado por Attar Software Ltd. (Gran Bretaña);

    razonamiento basado en casos similares(método del "vecino más cercano") (Razonamiento basado en casos - CBR) se basan en una búsqueda en la base de datos de situaciones cuyas descripciones son similares en una serie de características a una situación dada. El principio de analogía sugiere que los resultados de situaciones similares también estarán cerca unos de otros. La desventaja de este enfoque es que no crea ningún modelo o regla que generalice la experiencia previa. Además, la fiabilidad de los resultados inferidos depende de la integridad de la descripción de las situaciones, como en los procesos de inferencia inductiva. Ejemplos de sistemas que utilizan CBR son: KATE Tools (Acknosoft, Francia), Pattern Recognition Workbench (Unica, EE. UU.);

    árboles de decisión- un método de estructuración de un problema en forma de gráfico de árbol, cuyos vértices corresponden a reglas de producción que permiten clasificar datos o analizar las consecuencias de las decisiones. Este método da una representación visual del sistema de clasificación de reglas, si no hay muchas de ellas. Las tareas simples se resuelven usando este método mucho más rápido que usando redes neuronales. Para problemas complejos y para algunos tipos de datos, los árboles de decisión pueden no ser apropiados. Además, este método se caracteriza por el problema de la significancia. Una de las consecuencias del agrupamiento jerárquico de datos es la falta de una gran cantidad de ejemplos de entrenamiento para muchos casos especiales y, por lo tanto, la clasificación no puede considerarse confiable. Los métodos de árboles de decisión se implementan en muchas herramientas de software, a saber: C5.0 (RuleQuest, Australia), Clementine (Integral Solutions, Reino Unido), SIPINA (Universidad de Lyon, Francia), IDIS (Information Discovery, EE. UU.);

    programación evolutiva– búsqueda y generación de un algoritmo que exprese la interdependencia de los datos, a partir del algoritmo especificado inicialmente, modificado en el proceso de búsqueda; a veces, la búsqueda de interdependencias se realiza entre ciertos tipos de funciones (por ejemplo, polinomios);

algoritmos de búsqueda limitados, calculando combinaciones de eventos lógicos simples en subgrupos de datos.

3.7 IntegraciónOLAPYDatosMinería

El procesamiento analítico en línea (OLAP) y la minería de datos (Data Mining) son dos componentes del proceso de soporte de decisiones. Sin embargo, hoy en día, la mayoría de los sistemas OLAP solo se enfocan en brindar acceso a datos multidimensionales, y la mayoría de las herramientas de minería de datos que funcionan en el ámbito de los patrones tratan con perspectivas de datos unidimensionales. Para aumentar la eficiencia del procesamiento de datos para los sistemas de soporte de decisiones, se deben combinar estos dos tipos de análisis.

El término compuesto "Minería de datos OLAP" (minería de datos multidimensional) ahora está surgiendo para referirse a dicha combinación.

Hay tres formas principales de formar "Minería de datos OLAP":

    Cubicación y luego minería. La capacidad de realizar un análisis intelectual debe darse sobre cualquier resultado de una consulta a una representación conceptual multidimensional, es decir, sobre cualquier fragmento de cualquier proyección del hipercubo de indicadores.

    Minería y luego cubicación. Al igual que los datos recuperados de un almacén, los resultados de la minería deben presentarse en formato hipercúbico para su posterior análisis multidimensional.

    Cubing durante la minería. Este método de integración flexible permite activar automáticamente el mismo tipo de mecanismos de procesamiento intelectual sobre el resultado de cada paso de un análisis multidimensional (transición) entre niveles de generalización, extracción de un nuevo fragmento de hipercubo, etc.).

    Grado 11 [Texto... a ellos Cómo Parte todo sistemas ... profesor asistente ... Cheboksary, 2009. Nº 10. S. 44 -49 ... . Autores- compiladores: N... resúmenesconferencias, ...

  • Ayuda para enseñar

    ... conferencias. Preparación conferencias matemáticas. Escribiendo abstractoconferencias conferencias. Uso informacióntecnologías ...

  • I k kondaurova s ​​v lebedev actividades de investigación del futuro profesor de matemáticas tareas creativas en matemáticas elementales y métodos de enseñanza.

    Ayuda para enseñar

    ... conferencias. Preparación conferencias matemáticas. Escribiendo abstractoconferencias. Elaboración de ayudas visuales. Técnica de lectura conferencias. Uso informacióntecnologías ...

  • MEDIOS DE SEGUIMIENTO Modernización de la formación profesional Marzo - Agosto 2011

    Resumen

    ... 11 .08.2011 "Dead Souls-2" EN RNIMU a ellos ... 3,11 -3,44 . ... público conferencias líderes... Cheboksary... y garabatos resúmenes audiencia - ... informativosistemas Y tecnologías. ... sistema educación, dice profesor asistente ... compiladores ... partes real contenido ...

Tecnologías analíticas de procesos de negocio

Sistemas de inteligencia comercial: la inteligencia comercial (BI) combina varias herramientas y tecnologías para analizar y procesar datos de toda la empresa. A partir de estas herramientas se crean sistemas de BI, cuyo objetivo es mejorar la calidad de la información para la toma de decisiones gerenciales.

BI incluye productos de software de las siguientes clases:

sistemas de procesamiento analítico operativo (OLAP);

· medios de análisis de datos intelectuales (DM);

Los productos de software de cada clase realizan un determinado conjunto de funciones u operaciones utilizando tecnologías especiales.

OLAP (On-Line Analytical Processing) - procesamiento analítico en línea - no es el nombre de un producto específico, sino de toda una tecnología. El concepto de OLAP se basa en una representación multidimensional de datos.

En 1993, el fundador del enfoque de bases de datos relacionales, Edgar Codd y socios (Edgar Codd, matemático y miembro de IBM), publicó un artículo iniciado por la empresa y titulado "Proporcionando OLAP (procesamiento analítico en línea) para usuarios analistas", en el que 12 criterios de la tecnología OLAP, que más tarde se convirtió en el contenido principal de una tecnología nueva y muy prometedora.

Más tarde se volvieron a trabajar en la prueba FASMI, que define los requisitos para los productos OLAP:

· Rápido rápido). Una aplicación OLAP debe proporcionar un tiempo de acceso mínimo a los datos analíticos: en promedio, unos 5 segundos;

· ANÁLISIS (análisis). Una aplicación OLAP debe permitir al usuario realizar análisis numéricos y estadísticos;

· COMPARTIDO (acceso compartido). Una aplicación OLAP debe brindar la capacidad de trabajar con información para muchos usuarios al mismo tiempo;

· MULTIDIMENSIONAL (multidimensionalidad);

· INFORMACIÓN (información). Una aplicación OLAP debe permitir al usuario obtener Información necesaria, en cualquier medio de almacenamiento electrónico de datos en el que se encuentre.

Con base en FASMI, se puede dar la siguiente definición: aplicaciones OLAP - se trata de sistemas de acceso multiusuario rápido a información analítica multidimensional con capacidades de análisis numérico y estadístico.

La idea principal de OLAP es construir cubos multidimensionales que estarán disponibles para las consultas de los usuarios. Los cubos multidimensionales (Figura 5.3) se construyen sobre la base de datos de origen y agregados que se pueden almacenar en bases de datos tanto relacionales como multidimensionales. Por lo tanto, actualmente hay tres formas de almacenar datos: MOLAP (OLAP multidimensional), ROLAP (OLAP relacional) y HOLAP (OLAP híbrido).

En consecuencia, los productos OLAP se dividen en tres categorías similares según el método de almacenamiento de datos:

1. En el caso de MOLAP, la fuente y los datos multidimensionales se almacenan en una base de datos multidimensional o en un cubo local multidimensional. Este método de almacenamiento garantiza una alta velocidad de las operaciones OLAP. Pero la base multidimensional, en este caso, a menudo será redundante. El cubo construido sobre su base dependerá en gran medida del número de dimensiones. A medida que aumenta el número de dimensiones, el volumen del cubo crecerá exponencialmente. A veces, esto puede conducir a un "crecimiento explosivo" en la cantidad de datos.

2. En los productos ROLAP, los datos de origen se almacenan en bases de datos relacionales o en tablas locales planas en un servidor de archivos. Los datos agregados se pueden colocar en tablas de servicio en la misma base de datos. La transformación de datos de una base de datos relacional en cubos multidimensionales se produce a petición de una herramienta OLAP. En este caso, la velocidad de creación de un cubo dependerá en gran medida del tipo de fuente de datos.

3. En el caso de utilizar una arquitectura híbrida, los datos de origen permanecen en la base de datos relacional, mientras que los agregados se colocan en la multidimensional. Un cubo OLAP se construye a pedido de una herramienta OLAP basada en datos relacionales y multidimensionales. Este enfoque evita el crecimiento explosivo de datos. En este caso, puede lograr el tiempo de ejecución óptimo para las solicitudes de los clientes.

Con las tecnologías OLAP, el usuario puede realizar una visualización flexible de la información, obtener varios segmentos de datos, realizar operaciones analíticas de detalle, convolución, distribución de extremo a extremo, comparación en el tiempo, es decir, producir y publicar dinámicamente informes y documentos.

La estructura de la base de datos del almacén suele diseñarse de forma que facilite al máximo el análisis de la información. Los datos deben estar convenientemente "dispuestos" en diferentes direcciones (llamadas medidas). Por ejemplo, hoy un usuario quiere ver un resumen de los envíos de piezas por proveedor para comparar su desempeño. Mañana, el mismo usuario necesitará una imagen de los cambios en el volumen de entregas de piezas por meses para poder seguir la dinámica de las entregas. La estructura de la base de datos debe soportar este tipo de análisis, permitiendo la extracción de datos correspondientes a un conjunto dado de mediciones.

El procesamiento de datos analíticos operativos se basa en el principio de organizar la información en un modelo hipercúbico. El cubo de datos tridimensional más simple para el suministro de piezas para la base de datos de prueba considerada anteriormente se muestra en la fig. 3.11. Cada una de sus celdas corresponde a un "hecho", por ejemplo, el alcance de la entrega de una parte. A lo largo de un lado del cubo (una dimensión) están los meses durante los cuales se realizaron las entregas reflejadas por el cubo. La segunda dimensión son los tipos de piezas y la tercera dimensión corresponde a los proveedores. Cada celda contiene la cantidad de entrega para la combinación de valores correspondiente en las tres dimensiones. Cabe señalar que al llenar el cubo se realizó la agregación de los valores para las entregas de cada mes de la base de datos de prueba.


3.11. Variante de hipercubo simplificado para análisis de suministro de piezas

Los sistemas de clases OLAP difieren en la forma en que se presentan los datos.

OLAP multidimensional (MOLAP) – estos sistemas se basan en una estructura de datos multidimensional basada en arreglos dinámicos con métodos de acceso apropiados. MOLAP se implementa sobre tecnologías patentadas para organizar DBMS multidimensionales. La ventaja de este enfoque es la conveniencia de realizar cálculos en celdas de hipercubo, ya que en todas las combinaciones de medidas, se ingresan las celdas correspondientes (como en una hoja de cálculo). Los representantes clásicos de tales sistemas incluyen Oracle Express, SAS Institute MDDB.

OLAP relacional (ROLAP)– admite modelos analíticos multidimensionales sobre bases de datos relacionales. Esta clase de sistemas incluye Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

OLAP de escritorio (OLAP de escritorio)– herramientas para generar consultas e informes multidimensionales para los sistemas de información locales (hojas de cálculo, archivos planos). Se pueden distinguir los siguientes sistemas: Business Objects, Cognos Power Play.

E. F. Codd definió doce reglas que debe satisfacer un producto de clase OLAP, incluida la representación conceptual multidimensional de datos, transparencia, accesibilidad, rendimiento robusto, arquitectura cliente-servidor, igualdad de dimensiones, procesamiento dinámico de matriz dispersa, soporte multiusuario, soporte ilimitado para interdimensional. operaciones, manipulación de datos intuitiva, mecanismo de informes flexible, número ilimitado de dimensiones y niveles de agregación.



Los sistemas de clases más comunes ROLAP. Le permiten organizar un modelo de información sobre un almacenamiento relacional completo de cualquier estructura o sobre un data mart especial.

Arroz. 3.12. Diagrama de estrella de Analytical Mart de suministro de piezas

Para la mayoría de los almacenes de datos, la forma más eficiente de modelar un cubo de N dimensiones es una "estrella". En la fig. La figura 3.11 muestra un modelo de hipercubo para el análisis del suministro de piezas, en el que la información se consolida en cuatro dimensiones (proveedor, pieza, mes, año). El esquema en estrella se basa en una tabla de hechos. La tabla de hechos contiene una columna que especifica el alcance de la entrega, así como columnas que especifican claves foráneas para todas las tablas de dimensiones. Cada dimensión de cubo está representada por una tabla de valores que es una referencia a la tabla de hechos. Para organizar los niveles de generalización de la información por encima de los libros de referencia de mediciones, se organizan entradas categóricas (por ejemplo, "material-detalle", "ciudad-proveedor").

La razón por la cual el circuito de la Fig. 3.12 se llama "estrella", es bastante obvio. Los extremos de la "estrella" están formados por tablas de dimensiones, y sus enlaces a la tabla de hechos ubicada en el centro forman rayos. Con este diseño de base de datos, la mayoría de las consultas de análisis empresarial unen una tabla de hechos central con una o más tablas de dimensiones. Por ejemplo, una consulta para obtener envíos de todas las piezas en 2004 por mes, desglosados ​​por proveedor, se vería así:

SELECCIONE SUMA(VALOR), PROVEEDOR.NOMBRE_PROVEEDOR, HECHO.ID_MES

DE HECHO, PROVEEDOR

DONDE HECHO.YEAR_ID=2004

Y HECHO.CODIGO_PROVEEDOR=PROVEEDOR.CODIGO_PROVEEDOR

GRUPO_POR CÓDIGO_DE_PROVEEDOR, MONTH_ID

PEDIDO_POR CÓDIGO_DE_PROVEEDOR, ID_MES.

En la fig. 3.13 muestra un fragmento del informe generado como resultado de una consulta dada.

Término procesamiento analítico operativo(On-Line Analytical Processing-OLAP) se mencionó por primera vez en un informe preparado para Arbor Software Corp. en 1993, aunque la definición de este término, como en el caso de los almacenes de datos, fue formulada mucho más tarde. El concepto denotado por este término se puede definir como "un proceso interactivo de creación, mantenimiento, análisis de datos y emisión de informes". Además, se suele añadir que los datos en cuestión deben ser percibidos y tratados del mismo modo que si estuvieran almacenados en matriz multidimensional. Pero antes de entrar en la discusión de la representación multidimensional en sí, veamos las ideas relevantes en términos de tablas SQL tradicionales.

La primera característica es que el procesamiento analítico requiere necesariamente alguna agregación datos, generalmente se realiza a la vez de varias maneras diferentes, o en otras palabras, de acuerdo con muchos criterios de agrupación diferentes. De hecho, uno de los principales problemas del procesamiento analítico es que el número de formas posibles de agrupar

se vuelve demasiado grande muy pronto. Sin embargo, los usuarios deben considerar todos o casi todos estos métodos. Por supuesto, el estándar SQL ahora admite este tipo de agregación, pero cualquier consulta SQL dada produce solo una tabla como resultado, y todas las filas en esa tabla resultante tienen la misma forma y la misma interpretación10 (al menos así es como funciona).

9 Para citar un libro sobre almacenamiento de datos: "[Detener] la normalización... Intentar normalizar cualquiera de las tablas en una base de datos multidimensional solo para ahorrar espacio en disco [¡así es!] Es una pérdida de tiempo... Las tablas de dimensiones deberían no se normalizará... Las tablas de dimensiones normalizadas impiden la visualización".

10 A menos que esta tabla de resultados incluya valores nulos o valores nulos (consulte el Capítulo 19, Sección 19.3, "Más sobre predicados"). De hecho, las construcciones de SQL:1999 que deben describirse en esta sección se pueden caracterizar como "basadas en el uso" de esta función de SQL altamente obsoleta (?); de hecho, enfatizan el hecho de que los valores nulos pueden tener diferentes significados en sus diversas manifestaciones y, por lo tanto, permiten representar muchos predicados diferentes en la misma tabla (como se mostrará a continuación).

fue antes de la llegada del estándar SQL: 1999). Por lo tanto, para implementar PAG diferentes formas de agrupar, es necesario realizar PAG consultas separadas y crear l tablas separadas como resultado. Por ejemplo, considere la siguiente secuencia de consultas ejecutadas en una base de datos de proveedores y piezas.

1. Determinar el número total de entregas.

2. Determinar el número total de entregas por parte de los proveedores.

3. Determinar el número total de entregas por partes.

4. Determinar el número total de entregas por proveedores y repuestos.

(Por supuesto, la cantidad "total" de un proveedor determinado y de una pieza determinada es simplemente la cantidad real de un proveedor determinado y una pieza determinada. El ejemplo sería más realista si se utilizara una base de datos de proveedores, piezas y proyectos. Pero para mantener este ejemplo simple, aún nos decidimos por la base de datos habitual de proveedores y repuestos).

Ahora suponga que solo hay dos partes, numeradas P1 y P2, y la tabla de suministros se ve así.

Bases de datos multidimensionales

Hasta ahora, se ha asumido que los datos OLAP se almacenan en una base de datos normal utilizando el lenguaje SQL (aparte del hecho de que a veces todavía tocamos la terminología y el concepto de bases de datos multidimensionales). De hecho, nosotros, sin indicarlo explícitamente, describimos el llamado sistema ROLAP(Relacional OLAP- relacional OLAP). Sin embargo, muchos creen que el uso del sistema MOLAP(Multidimensional OLAP- OLAP multidimensional) - una forma más prometedora. En esta subsección, los principios de construcción de sistemas MOLAP se discutirán con más detalle.

El sistema MOLAP mantiene bases de datos multidimensionales, en el que los datos se almacenan conceptualmente en las celdas de una matriz multidimensional.

Nota. Aunque más alto Y se dijo sobre conceptual manera de organizar el almacenamiento, de hecho organización física datos en MOLAP muy similar a su organización lógica.

El DBMS de soporte se llama multidimensional. Como un ejemplo sencillo puede proyectar una matriz tridimensional que represente, respectivamente, productos, clientes y períodos de tiempo. El valor de cada celda individual puede representar la cantidad total del artículo especificado vendido al cliente en el período de tiempo especificado. Como se señaló anteriormente, las tablas cruzadas de la subsección anterior también se pueden considerar tales matrices.

Si hay una comprensión suficientemente clara de la estructura del conjunto de datos, entonces se pueden conocer todas las relaciones entre los datos. Además, Variables dicha colección (no en el sentido de los lenguajes de programación convencionales), en términos generales, se puede dividir en dependiente Y independiente. EN ejemplo anterior producto, cliente Y período de tiempo pueden ser consideradas como variables independientes, y cantidad - la única variable dependiente. En general, las variables independientes son variables cuyos valores juntos determinan los valores de las variables dependientes (al igual que, en terminología relacional, una clave candidata es un conjunto

columnas cuyos valores determinan los valores de otras columnas). Por lo tanto, las variables independientes definen la dimensión del arreglo por el cual se organizan los datos, y también forman esquema de direccionamiento11 para la matriz dada. Los valores de las variables dependientes, que representan los datos reales, se almacenan en celdas de matriz.

Nota. La diferencia entre los valores de los independientes, o dimensional, variable,

y los valores de los dependientes, o de gran tamaño, Las variables a veces se caracterizan como la diferencia entre ubicación Y contenido.

Por lo tanto, las celdas de matriz se abordan simbólicamente, en lugar de usar índices numéricos, que generalmente se usan para trabajar con matrices.

Desafortunadamente, la caracterización anterior de bases de datos multidimensionales es demasiado simplista, ya que la mayoría de los conjuntos de datos permanecen inicialmente No completamente estudiado. Por esta razón, generalmente buscamos analizar los datos en primer lugar para comprenderlos mejor. A menudo, la falta de comprensión puede ser tan significativa que no es posible determinar de antemano qué variables son independientes y cuáles dependientes. Luego, las variables explicativas se eligen de acuerdo con la visión actual de ellas (es decir, con base en alguna hipótesis), después de lo cual se verifica la matriz resultante para determinar qué tan bien se eligieron las variables explicativas (consulte la sección 22.7). Este enfoque lleva al hecho de que muchas iteraciones se realizan de acuerdo con el principio de prueba y error. Por tanto, el sistema suele permitir un cambio de variables dimensionales y adimensionales, y esta operación se denomina cambio de ejes de coordenadas(pivotante). Otras operaciones admitidas incluyen transposición de matriz Y reordenación de dimensiones. También debe haber una manera de agregar dimensiones.

Por cierto, debe quedar claro a partir de la descripción anterior que las celdas de matriz a menudo resultan estar vacías (y cuantas más dimensiones, más a menudo se observa este fenómeno). En otras palabras, las matrices suelen ser escaso. Supongamos, por ejemplo, que el producto p no se ha vendido al cliente c durante todo el período de tiempo t. Entonces la celda [c, p, t] estará vacío (o nulo en el mejor de los casos). Los DBMS multidimensionales admiten varios métodos para almacenar arreglos dispersos de una manera más eficiente y concisa12. A esto hay que añadir que las celdas vacías corresponden información faltante y, por lo tanto, los sistemas deben proporcionar algún soporte computacional para las celdas vacías. De hecho, dicho soporte está comúnmente disponible, pero desafortunadamente el estilo es similar al del lenguaje SQL. Presta atención al hecho de que si celda dada está vacío, entonces la información no se conoce, o no se ha ingresado, o no es aplicable, o falta por otras razones

(ver capítulo 19).

Las variables independientes a menudo se relacionan en jerarquía, definir las rutas a lo largo de las cuales puede ocurrir la agregación de datos dependientes. Por ejemplo, hay un temporal

una jerarquía que vincula segundos a minutos, minutos a horas, horas a días, días a semanas, semanas a meses, meses a años. U otro ejemplo: una jerarquía es posible

composiciones que conectan partes con un conjunto de partes, conjuntos de partes con un nodo, nodos con un módulo, módulos con un producto. A menudo, los mismos datos se pueden agregar de muchas maneras diferentes, es decir, la misma variable independiente puede pertenecer a muchas jerarquías diferentes. El sistema proporciona operadores para dejar pasar(perforar) y transmitiendo(profundizar) a lo largo de dicha jerarquía. Dejar pasar significa la transición del nivel inferior de agregación al superior, y pasando hacia abajo -

transición en sentido contrario. Hay otras operaciones para trabajar con jerarquías, como una operación para reordenar los niveles de una jerarquía.

Nota. Entre operaciones dejar pasar(perforar) y acumulación de resultados(rollo

arriba) hay una diferencia sutil: la operación acumulación de resultados - es una operación de implementación

12 Nótese la diferencia con los sistemas relacionales. En la contraparte relacional real de este ejemplo, la línea ic, p, t) no habría una "celda" vacía de cantidad, debido a que la línea (s, p, t) simplemente estaría ausente. Por lo tanto, cuando se utiliza el modelo relacional, a diferencia de los arreglos multidimensionales, no es necesario admitir "arreglos dispersos" o, más bien, "tablas dispersas" y, por lo tanto, no se requieren métodos de compresión sofisticados para trabajar con dichas tablas.

métodos requeridos de agrupación y agregación, y la operación dejar pasar- es una operacion acceso a los resultados de estos métodos. Y un ejemplo de una operación. transmitiendo una consulta como: "Se conoce el número total de envíos; obtenga los datos totales para cada proveedor individual". Por supuesto, deben estar disponibles (o computables) niveles de datos más detallados para responder a esta consulta.

Los productos de bases de datos multidimensionales también proporcionan una serie de funciones estadísticas y otras funciones matemáticas para ayudar a formular y probar hipótesis (es decir, hipótesis sobre relaciones putativas). Además, se proporcionan herramientas de visualización e informes para ayudar a resolver tales problemas. Pero, desafortunadamente, todavía no existe un lenguaje de consulta estándar para bases de datos multidimensionales, aunque se está investigando para desarrollar un cálculo en el que se pueda basar dicho estándar. Pero, desafortunadamente, no hay nada como la teoría relacional de la normalización, que podría servir como base científica para diseñar bases de datos multidimensionales.

Al concluir esta sección, observamos que algunos productos combinan ambos enfoques: ROLAP y MOLAP. Semejante sistema híbrido OLAP llamado HOLAP. Hay discusiones extensas para saber cuál de estos tres enfoques es mejor, por lo que vale la pena que intentemos decir algunas palabras sobre este tema13. En general, los sistemas MOLAP proporcionan cálculos más rápidos, pero admiten cantidades de datos más pequeñas en comparación con los sistemas ROLAP, es decir, se vuelven menos eficientes a medida que aumenta la cantidad de datos. Y los sistemas ROLAP brindan mayor escalabilidad, paralelismo y control que los sistemas MOLAP. Además, el estándar SQL se actualizó recientemente para incluir muchas funciones estadísticas y analíticas (consulte la Sección 22.8). De ello se deduce que los productos ROLAP ahora también son capaces de proporcionar una funcionalidad ampliada.

OLAP (Online Analytical Processing - procesamiento analítico en línea) es un proceso de información que permite al usuario consultar el sistema, realizar análisis, etc. en línea (en línea). Los resultados se generan en segundos.

Los sistemas OLAP están hechos para usuarios finales, mientras que los sistemas OLTP están hechos para usuarios profesionales de IS. OLAP proporciona actividades como la generación de consultas, la consulta de informes ad hoc, la realización de análisis estadísticos y la creación de aplicaciones multimedia.

Para proporcionar OLAP, debe trabajar con un almacén de datos (o almacenamiento multidimensional), así como con un conjunto de herramientas, generalmente con capacidades multidimensionales. Estas herramientas pueden ser herramientas de consulta, hojas de cálculo, herramientas de minería de datos, herramientas de visualización de datos, etc.

El concepto de OLAP se basa en el principio de representación de datos multidimensionales. E. Codd consideró las deficiencias del modelo relacional, en primer lugar, señaló la imposibilidad de combinar, visualizar y analizar datos desde el punto de vista de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos, y determinó la requisitos generales de los sistemas OLAP que amplían la funcionalidad de los DBMS relacionales e incluyen el análisis multidimensional como una de sus características.

12 reglas que debe cumplir un producto de software de clase OLAP. Estas reglas:

1. Representación conceptual multidimensional de datos.

2. Transparencia.

3. Disponibilidad.

4. Rendimiento constante.

5. Arquitectura cliente - servidor.

6. Igualdad de medidas.

7. Procesamiento dinámico de matrices dispersas.

8. Admite el modo multijugador.

9. Soporte ilimitado para operaciones interdimensionales.

10. Manipulación intuitiva de datos.

11. Mecanismo de reporte flexible.

12. Número ilimitado de mediciones y niveles de agregación.

El conjunto de estos requisitos, que sirvió como definición real de OLAP, debe considerarse como una recomendación, y los productos individuales deben evaluarse por el grado de aproximación para cumplir idealmente con todos los requisitos.


Minería de datos (Data Mining) y conocimiento (Knowledge Mining). Gestión y análisis de grandes cantidades de datos (Big data). Sistemas de inteligencia empresarial (Business Intelligence, BI).

La minería de datos (DMA) es un término general para el análisis de datos con el uso activo de métodos y algoritmos matemáticos (métodos de optimización, algoritmos genéticos, reconocimiento de patrones, métodos estadísticos, minería de datos, etc.) que utilizan los resultados de la aplicación de métodos de visualización de datos.

En general, el proceso de DIA consta de tres etapas:

1) identificación de patrones (búsqueda libre);

2) usar los patrones revelados para predecir valores desconocidos (pronóstico);

3) análisis de excepciones para identificar e interpretar anomalías en los patrones encontrados.

A veces hay una etapa intermedia de verificación de la confiabilidad de los patrones encontrados (etapa de validación) entre su hallazgo y uso.

Todos los métodos IAD, según el principio de trabajar con datos iniciales, se dividen en dos grupos:

Métodos de razonamiento de casos de uso: los datos sin procesar se pueden almacenar en forma granular explícita y se pueden usar directamente para predicción y/o análisis de excepciones. La desventaja de este grupo de métodos es la complejidad de su uso en grandes cantidades de datos.

Métodos para identificar y usar patrones formalizados que requieren extraer información de datos primarios y convertirla en algunas construcciones formales, cuya forma depende de un método particular.

La minería de datos (DM) es una tecnología para descubrir conocimiento no trivial, prácticamente útil y accesible previamente desconocido en datos sin procesar, que es necesario para la toma de decisiones en diversas áreas de la actividad humana. Los algoritmos utilizados en Minería de Datos requieren una gran cantidad de cálculos, lo que anteriormente era un factor limitante en la amplia aplicación práctica de estos métodos, pero el aumento en el rendimiento de los procesadores modernos ha eliminado la gravedad de este problema.

El mercado de Business Intelligence consta de 5 sectores:

1. Productos OLAP;

2. Herramientas de minería de datos;

3. Herramientas para construir data warehouses y data marts (Data Warehousing);

4. Sistemas y aplicaciones de información gerencial;

5. Herramientas de usuario final para consultas e informes.

Actualmente, los líderes de las plataformas de BI corporativas incluyen MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute y otros (el Apéndice B proporciona un análisis comparativo de algunas de las funciones de los sistemas de BI).

UDK 621. 37/39. 061.2/4

MÉTODOS DE PROCESAMIENTO ANALÍTICO DE LA INFORMACIÓN

GVOZDINSKYA.N., KLIMKO EG., SOROKOVOY A.I.

Se lleva a cabo una revisión analítica de los métodos de minería de datos (también llamados: IAD, minería de datos, descubrimiento de conocimiento en bases de datos), teniendo en cuenta el uso de un determinado método para las condiciones de Ucrania. Se considera una revisión de los métodos para el procesamiento analítico de la información en sistemas de información complejos desde el punto de vista de la velocidad de extracción de datos, recopilación de información generalizada y aumento de la confiabilidad del proceso.

El proceso de minería de datos es el estudio analítico de grandes cantidades de información para determinar patrones y relaciones entre variables que luego se pueden aplicar a nuevos datos. La información recibida se convierte al nivel de información, que se caracteriza como conocimiento. Este proceso consta de tres pasos principales:

Investigación (revelación de patrones);

Usar los patrones identificados para construir un modelo;

Análisis de excepciones para detectar y explicar las desviaciones en los patrones encontrados.

Encontrar nuevos conocimientos por medio de IAD es una dirección nueva y de rápido desarrollo que utiliza los métodos de inteligencia artificial, matemáticas y estadísticas. Este proceso incluye los siguientes pasos:

Definición del problema (enunciado del problema);

Preparación de datos;

Recogida de datos: su evaluación, integración y limpieza, selección y transformación;

Construcción de modelos: evaluación e interpretación, validación externa;

uso del modelo;

Modelo de observación.

Para construir un modelo y mejorar su calidad, ayuda la validación formal de datos a través de una secuencia de consultas o la extracción preliminar de datos. Las herramientas para dicho análisis incluyen los siguientes métodos principales: redes neuronales, árboles de decisión, algoritmos genéticos, así como sus combinaciones.

Las redes neuronales pertenecen a la clase de sistemas adaptativos no lineales; en estructura, se asemejan condicionalmente al tejido nervioso de las neuronas.

Este es un conjunto de nodos conectados entre sí que reciben datos de entrada, los procesan y producen algún resultado en la salida. Los nodos de la capa inferior reciben los valores de los parámetros de entrada, sobre su base se realizan los cálculos necesarios para tomar decisiones, predecir el desarrollo de la situación, etc.

Estos valores se consideran como señales que se transmiten a la capa suprayacente, aumentando o disminuyendo según los valores numéricos (pesos) atribuidos a las conexiones interneuronales. A la salida de la neurona de la capa superior se genera un valor, que se considera como respuesta, la reacción de toda la red a los valores iniciales de entrada. Dado que cada elemento de la red neuronal está parcialmente aislado de sus vecinos, dichos algoritmos tienen la capacidad de paralelizar los cálculos. En la fig. 1 muestra un condicional

Figura 1. red neuronal

El tamaño y la estructura de la red deben corresponder a la esencia del fenómeno en estudio. La red construida se somete al proceso del llamado "entrenamiento". Las neuronas de la red procesan los datos de entrada para los que se conocen tanto los valores de los parámetros de entrada como las respuestas correctas a los mismos. El aprendizaje consiste en seleccionar los pesos de las conexiones interneuronales que proporcionan la mayor proximidad de las respuestas de la red a las respuestas correctas conocidas. Después del entrenamiento con los datos disponibles, la red está lista para funcionar y se puede utilizar para predecir el comportamiento de un objeto en el futuro, en función de los datos de su desarrollo en el pasado, realizar análisis e identificar desviaciones y similitudes. Se pueden formar pronósticos confiables sin especificar el tipo de dependencias en las que se basan.

Las redes neuronales se utilizan para resolver problemas de predicción, clasificación o control.

Ventaja: las redes pueden aproximarse a cualquier función continua, no es necesario hacer suposiciones sobre el modelo por adelantado. Los datos bajo investigación pueden ser incompletos o ruidosos.

La desventaja es la necesidad de tener una gran cantidad de muestra de entrenamiento. La decisión final depende de la configuración inicial de la red. Los datos deben ser convertidos a formato numérico. El modelo resultante no explica el conocimiento descubierto (la llamada “caja negra”).

Los árboles de decisión utilizan la partición de datos en grupos en función de los valores de las variables. El resultado es una estructura jerárquica de declaraciones "Si... Entonces..." que parece un árbol. Para clasificar un objeto o situación, debe responder las preguntas en los nodos de este árbol, comenzando desde su raíz. Si la respuesta es positiva, vaya al nodo derecho del siguiente nivel, si es negativa, al nodo izquierdo, y así sucesivamente. Terminando las respuestas, llegan a uno de los nodos finales, donde

RI, 2000, núm. 4

indica a qué clase debe asignarse el objeto en cuestión.

Los árboles de decisión están diseñados para resolver problemas de clasificación y, por lo tanto, tienen un uso muy limitado en finanzas y negocios.

La ventaja del método es una presentación simple y comprensible de las funciones para los usuarios. Como variable de destino, se utilizan características tanto medidas como no medidas, lo que amplía el alcance del método.

La desventaja es el problema de la significancia. Los datos se pueden dividir en muchos casos especiales, hay un "arbusto" del árbol, que no puede dar respuestas estadísticamente válidas. Los resultados útiles se obtienen solo en el caso de características independientes.

Los algoritmos genéticos imitan el proceso de selección natural en la naturaleza. Para resolver un problema que es más óptimo desde el punto de vista de algún criterio, todas las soluciones se describen mediante un conjunto de números o cantidades de naturaleza no numérica. La búsqueda de la solución óptima es similar a la evolución de una población de individuos, los cuales están representados por sus conjuntos de cromosomas. Hay tres mecanismos que operan en esta evolución, que se muestran en la Fig. 2.

Se pueden distinguir los siguientes mecanismos:

Selección de los juegos de cromosomas más fuertes, que corresponden a las soluciones más óptimas;

Cruzamiento: obtención de nuevos individuos mediante la mezcla de juegos de cromosomas de individuos seleccionados;

Las mutaciones son cambios aleatorios en los genes de algunos individuos de una población.

Como resultado del cambio de generaciones, se desarrolla una solución al problema, que ya no se puede mejorar más.

Ventaja: el método es conveniente para resolver varios problemas de combinatoria y optimización, es preferible más como herramienta para la investigación científica.

La desventaja es la capacidad de formular efectivamente el problema, determinar el criterio para la selección de cromosomas y el procedimiento de selección en sí son heurísticos y solo un especialista puede hacerlo. La formulación del problema en términos no permite analizar la significancia estadística de la solución obtenida con su ayuda.

Las tecnologías informáticas para el procesamiento inteligente de datos analíticos permiten utilizar los métodos de inteligencia artificial, estadísticas, teoría de bases de datos y permiten crear sistemas inteligentes modernos.

Actualmente, existe un problema grave de creación de almacenes de información (almacén de datos, almacén de datos): bases de datos organizadas de manera óptima que brindan el acceso más rápido y conveniente a la información necesaria para la toma de decisiones. El almacenamiento acumula información confiable de varias fuentes durante un largo período de tiempo, que permanece sin cambios. Los datos se agregan y almacenan de acuerdo con las áreas que describen (específicos del dominio) y cumplen con los requisitos de toda la empresa (integrados).

Dado el período relativamente corto de existencia de la mayoría de las empresas nacionales, la escasez de datos analizados, la inestabilidad de las empresas que están sujetas a cambios debido a cambios en Marco legislativo, existe una dificultad para desarrollar una estrategia efectiva de toma de decisiones utilizando sistemas de minería de datos. Por lo tanto, se prevé que los algoritmos genéticos sean el método más aceptable para investigar datos en el campo de las finanzas y los negocios, y para las tareas de clasificación de imágenes y hechos, es mejor utilizar métodos de árboles de decisión o redes neuronales.

Literatura: 1. Shchavelev L.V. Procesamiento de datos. http://www.citforum.ru/seminars/cis99/sch_04.shtml, 2. Burov K. Descubrimiento de conocimiento en almacenes de datos // Sistemas abiertos. 1999. Nº 5-6., http: / /www.osp.ru/os/l999/05-06/14.htm. 3. Kiselev M, Solomatin E. Medios de extracción de conocimiento en negocios y finanzas // Sistemas abiertos. 1997. Nº 4. págs. 41-44. 4. Krechetov N, Ivanov P. Productos para minería de datos // Computer Week - Moscú. 1997. Nº 14-15. págs. 32-39. 5. Edelstein H. Herramientas inteligentes para analizar y presentar datos en almacenes de información // Computer Week - Moscú. 1996. Nº 16. págs. 32-35.

Recibido en el consejo de redacción el 22/06/2000

Revisor: Dr. tech. ciencias, prof. Putyatin V.P.

Gvozdinsky Anatoly Nikolaevich, Ph.D. tecnología Ciencias, Profesor del Departamento de Inteligencia Artificial KhTURE. Intereses científicos: evaluación de la eficacia de sistemas complejos de gestión de la información. Intereses y aficiones: música clásica, turismo. Dirección: Ucrania, 61166, Kharkiv, st. académico Lyapunova, 7, apto. 9, tel. 32-69-08.

Klimko Elena Genrikhovna, asistente del departamento tecnologia computacional y sistemas de información de la Universidad Técnica Estatal de Poltava que lleva el nombre de Yuriy Kondratyuk. Estudiante de posgrado (on-the-job) del Departamento de Inteligencia Artificial de KhTURE. Intereses científicos: análisis analítico de datos. Intereses y aficiones: leer, tejer. Dirección: Ucrania, 36021, Poltava, st. Diamante, 1-A, apto. 34, tel. (053-22) 43-3-12.

Sorokov Aleksandr Ivanovich, Ph.D. tecnología en Ciencias, Profesor Asociado del Departamento de Tecnologías Informáticas y Sistemas de Información, Universidad Técnica Estatal Yuriy Kondratyuk Poltava. Intereses de investigación: KDD (Descubrimiento del conocimiento). Intereses y aficiones: perros. Dirección: Ucrania, 36022, Poltava, per. Roto, 37A, Tel. (053-2) 18-60-87, e-mail: [correo electrónico protegido]

4. Clasificación de productos OLAP.

5. Principios de funcionamiento de los clientes OLAP.

7. Ámbitos de aplicación de las tecnologías OLAP.

8. Un ejemplo de uso de tecnologías OLAP para análisis en el campo de las ventas.

1. El lugar de OLAP en la estructura de información de la empresa.

El término "OLAP" está indisolublemente ligado al término "almacén de datos" (Data Warehouse).

Los datos en el almacenamiento provienen de sistemas operativos (sistemas OLTP), que están diseñados para automatizar procesos comerciales. Además, el repositorio se puede reponer desde fuentes externas, como informes estadísticos.

La tarea del repositorio es proporcionar la "materia prima" para el análisis en un solo lugar y en una estructura simple y comprensible.

Hay otra razón que justifica la aparición de un almacenamiento separado: las consultas analíticas complejas de información operativa ralentizan el trabajo actual de la empresa, bloquean las tablas durante mucho tiempo y aprovechan los recursos del servidor.

Debajo del almacenamiento se puede entender no necesariamente una acumulación gigante de datos; lo principal es que sea conveniente para el análisis.

La centralización y la estructuración conveniente están lejos de todo lo que necesita un analista. Después de todo, todavía necesita una herramienta para ver, visualizar información. Los informes tradicionales, incluso creados sobre la base de un único repositorio, carecen de una cosa: flexibilidad. No se pueden "torcer", "expandir" o "contraer" para obtener la vista deseada de los datos. ¡Ojalá tuviera una herramienta que le permitiera expandir y contraer datos de manera simple y conveniente! OLAP es una de esas herramientas.

Aunque OLAP no es un atributo necesario de un almacén de datos, se utiliza cada vez más para analizar la información acumulada en este almacén de datos.

El lugar de OLAP en la estructura de información de la empresa (Fig. 1).

Foto 1. LugarOLAP en la estructura de información de la empresa

Los datos operativos se recopilan de varias fuentes, se limpian, se integran y se colocan en un almacén relacional. Al mismo tiempo, ya están disponibles para su análisis utilizando varias herramientas de informes. Luego, los datos (en su totalidad o en parte) se preparan para el análisis OLAP. Pueden cargarse en una base de datos OLAP especial o dejarse en un almacén relacional. Su elemento más importante son los metadatos, es decir, información sobre la estructura, ubicación y transformación de los datos. Gracias a ellos, se garantiza la interacción efectiva de varios componentes de almacenamiento.

Resumiendo, podemos definir OLAP como un conjunto de herramientas para el análisis multidimensional de los datos acumulados en un almacén.

2. Tratamiento analítico de datos operativos.

El concepto de OLAP se basa en el principio de representación de datos multidimensionales. En 1993, E. F. Codd consideró las deficiencias del modelo relacional, en primer lugar, señaló la imposibilidad de "combinar, visualizar y analizar datos en términos de multidimensionalidad, es decir, de la manera más comprensible para los analistas corporativos", e identificó general requisitos para sistemas OLAP que amplíen la funcionalidad DBMS relacional e incluyan el análisis multidimensional como una de sus características.

Según Codd, una visión conceptual multidimensional de los datos es una perspectiva múltiple que consta de varias dimensiones independientes a lo largo de las cuales se pueden analizar ciertos conjuntos de datos.

El análisis simultáneo en múltiples dimensiones se define como análisis multivariante. Cada dimensión incluye direcciones de consolidación de datos, que consisten en una serie de niveles sucesivos de generalización, donde cada nivel superior corresponde a un mayor grado de agregación de datos para la dimensión correspondiente.

Así, la dimensión Contratista puede ser determinada por la dirección de consolidación, que consta de niveles de generalización "empresa - subdivisión - departamento - empleado". La dimensión Tiempo puede incluso incluir dos direcciones de consolidación: "año - trimestre - mes - día" y "semana - día", ya que la cuenta del tiempo por meses y por semanas no es compatible. En este caso, se hace posible seleccionar arbitrariamente el nivel de detalle de información deseado para cada una de las mediciones.

La operación de descenso (drilling down) corresponde al movimiento desde los niveles superiores de consolidación hacia los inferiores; por el contrario, la operación de levantar (enrollar) significa pasar de niveles inferiores a niveles superiores (Fig. 2).


Figura 2.Dimensiones y direcciones de la consolidación de datos

3. Requisitos para los medios de procesamiento analítico operativo.

El enfoque multidimensional surgió casi simultáneamente y en paralelo con el enfoque relacional. Sin embargo, recién a partir de mediados de los noventa, o más bien desde
1993, interés en MDBMS comenzó a generalizarse. Fue en este año que apareció un nuevo artículo de política de uno de los fundadores del enfoque relacional. E. Codda, en el que formuló 12 requisitos básicos para los medios de implementación OLAP(Tabla 1).

Tabla 1.

Vista de datos multidimensionales

Las herramientas deben admitir una vista multidimensional de los datos a nivel conceptual.

Transparencia

El usuario no necesita saber qué medios específicos se utilizan para almacenar y procesar datos, cómo se organizan los datos y de dónde provienen.

Disponibilidad

Las propias herramientas deben elegir y asociarse con la mejor fuente de datos para formar una respuesta a una solicitud determinada. Las herramientas deben proporcionar un mapeo automático de su propio esquema lógico a varias fuentes de datos heterogéneas.

Rendimiento consistente

El rendimiento debe ser prácticamente independiente del número de Dimensiones en la consulta.

Soporte para arquitectura cliente-servidor

Las herramientas deben trabajar en una arquitectura cliente-servidor.

Igualdad de todas las dimensiones.

Ninguna de las dimensiones debe ser básica, todas deben ser iguales (simétricas).

Manejo dinámico de matrices dispersas

Los valores nulos deben almacenarse y manejarse de la manera más eficiente.

Soporte para el modo multiusuario de trabajar con datos

Las herramientas deben permitir trabajar a más de un usuario.

Soporte para operaciones basadas en varias medidas.

Todas las operaciones multidimensionales (p. ej., Agregación) deben aplicarse de manera uniforme y consistente a cualquier número de dimensiones.

Facilidad de manipulación de datos

Las herramientas deben tener la interfaz de usuario más conveniente, natural y cómoda.

Herramientas avanzadas de presentación de datos

Las herramientas deben admitir varias formas de visualización (representación) de datos.

Número ilimitado de dimensiones y niveles de agregación de datos

No debería haber un límite para el número de dimensiones admitidas.

Reglas para evaluar productos de software de clase OLAP

El conjunto de estos requisitos que sirvieron como la definición de facto de OLAP debe considerarse como recomendaciones, y los productos individuales deben juzgarse por el grado de aproximación para cumplir idealmente con todos los requisitos.

Más tarde, la definición de Codd se transformó en la llamada prueba FASMI, que requiere que una aplicación OLAP brinde la capacidad de analizar rápidamente información multidimensional compartida.

Recordar las 12 Reglas de Codd es demasiado pesado para la mayoría de las personas. Resultó que puede resumir la definición de OLAP con solo cinco palabras clave: Quick Analysis of Shared Multidimensional Information - o, abreviadamente - FASMI (traducido del inglés:F rápido A análisis de S compartido METRO ultradimensional I información).

Esta definición se formuló por primera vez a principios de 1995 y no ha necesitado revisión desde entonces.

RÁPIDO ( Rápido ) - significa que el sistema debe proporcionar la mayoría de las respuestas a los usuarios en aproximadamente cinco segundos. Al mismo tiempo, las solicitudes más simples se procesan en un segundo y muy pocas, más de 20 segundos. La investigación ha demostrado que los usuarios finales perciben que un proceso falla si no se reciben los resultados después de 30 segundos.

A primera vista, puede parecer sorprendente que al recibir un informe en un minuto, lo que no hace mucho tardaba días, el usuario se aburre muy rápidamente en la espera, y el proyecto resulta mucho menos exitoso que en el caso de un respuesta instantánea, incluso a costa de un análisis menos detallado.

ANÁLISIS (Análisis)significa que el sistema puede manejar cualquier análisis lógico y estadístico específico para una aplicación dada y asegura que se mantenga en una forma accesible para el usuario final.

No es tan importante si este análisis se realiza en las propias herramientas del proveedor o en un producto de software externo relacionado, como una hoja de cálculo, es simplemente que toda la funcionalidad de análisis requerida debe proporcionarse de manera intuitiva para los usuarios finales. Las herramientas de análisis podrían incluir procedimientos específicos como el análisis de series temporales, la asignación de costos, las transferencias de divisas, la búsqueda de objetivos, el cambio de estructuras multidimensionales, el modelado no procedimental, la detección de excepciones, la extracción de datos y otras operaciones dependientes de la aplicación. Dichas capacidades varían ampliamente entre productos, dependiendo de la orientación del objetivo.

COMPARTIDO (Compartido) significa que el sistema hace cumplir todos los requisitos de protección de confidencialidad (quizás hasta el nivel de celda) y, si se requiere acceso de escritura múltiple, hace cumplir el bloqueo de modificación en el nivel apropiado. No todas las aplicaciones necesitan reescribir datos. Sin embargo, el número de tales aplicaciones está creciendo y el sistema debe ser capaz de manejar múltiples modificaciones de manera oportuna y segura.

MULTIDIMENSIONAL - este es un requisito clave. Si tuviéramos que definir OLAP en una palabra, la elegiríamos. El sistema debe proporcionar una representación conceptual multidimensional de los datos, incluido el soporte completo para jerarquías y jerarquías múltiples, ya que esta es definitivamente la forma más lógica de analizar empresas y organizaciones. No hay un número mínimo de dimensiones que se deban procesar porque también depende de la aplicación, y la mayoría de los productos OLAP tienen dimensiones suficientes para los mercados a los que se dirigen.

INFORMACIÓN - esto es todo. La información necesaria debe obtenerse donde se necesite. Sin embargo, mucho depende de la aplicación. El poder de varios productos se mide en términos de cuánta entrada pueden manejar, no cuántos gigabytes pueden almacenar. El poder de los productos varía mucho: los productos OLAP más grandes pueden manejar al menos mil veces más datos que los más pequeños. Hay muchos factores a considerar en este sentido, incluida la duplicación de datos, la memoria RAM requerida, el uso del espacio en disco, el rendimiento, la integración con los almacenes de información, etc.

La prueba FASMI es una definición razonable y comprensible de los objetivos en los que se centra OLAP.

4. ClasificaciónOLAP- productos.

Entonces, la esencia de OLAP radica en el hecho de que la información inicial para el análisis se presenta en forma de cubo multidimensional, y es posible manipularla arbitrariamente y obtener las secciones de información necesarias: informes. Al mismo tiempo, el usuario final ve el cubo como una tabla dinámica multidimensional que resume automáticamente los datos (hechos) en varias secciones (dimensiones) y le permite administrar de forma interactiva los cálculos y la forma del informe. Estas operaciones se realizan OLAP máquina (o máquina computación OLAP).

Hasta la fecha, se han desarrollado muchos productos en el mundo que implementan OLAP -tecnologías. Para facilitar la navegación entre ellos, utilice clasificaciones OLAP -productos: a modo de almacenamiento de datos para análisis y por ubicación OLAP -carros. Echemos un vistazo más de cerca a cada categoría. productos OLAP.

Clasificación por método de almacenamiento de datos

Los cubos multidimensionales se construyen sobre la base de datos de origen y agregados. Tanto los datos de origen como los agregados para cubos se pueden almacenar en bases de datos tanto relacionales como multidimensionales. Por lo tanto, actualmente hay tres formas de almacenar datos: MOLAP (OLAP multidimensional), ROLAP (OLAP relacional) y HOLAP (OLAP híbrido ). Respectivamente, OLAP -los productos según el método de almacenamiento de datos se dividen en tres categorías similares:

1. En caso de MOLAP , los datos de origen y agregados se almacenan en una base de datos multidimensional o en un cubo local multidimensional.

2. En ROLAP -productos, los datos de origen se almacenan en bases de datos relacionales o en tablas locales planas en el servidor de archivos. Los datos agregados se pueden colocar en tablas de servicio en la misma base de datos. La conversión de datos de una base de datos relacional a cubos multidimensionales se realiza a pedido Herramientas OLAP.

3. En caso de uso HOLAP arquitectura, los datos de origen permanecen en la base de datos relacional, mientras que los agregados se colocan en la multidimensional. Edificio OLAP -cubo realizado bajo pedido OLAP -herramientas basadas en datos relacionales y multidimensionales.

Clasificación de ubicación OLAP-carros.

Sobre esta base OLAP -Los productos se dividen en Servidores OLAP y clientes OLAP:

· En servidor OLAP -los medios de cálculo y almacenamiento de datos agregados se realizan mediante un proceso separado: el servidor. La aplicación cliente solo recibe los resultados de consultas contra cubos multidimensionales que se almacenan en el servidor. Alguno OLAP -los servidores admiten el almacenamiento de datos solo en bases de datos relacionales, algunos, solo en multidimensionales. Muchos modernos OLAP -los servidores admiten las tres formas de almacenar datos:MOLAP, ROLAP y HOLAP.

MOLAP.

MOLAP es Procesamiento analítico en línea multidimensional, es decir, OLAP multidimensional.Esto significa que el servidor utiliza una base de datos multidimensional (MBD) para almacenar datos. El significado de usar MDB es obvio. Puede almacenar de manera eficiente datos de naturaleza multidimensional, proporcionando un medio para atender rápidamente las consultas de la base de datos. Los datos se transfieren desde el origen de datos a la base de datos multidimensional y luego se agrega la base de datos. El cálculo previo es lo que acelera las consultas OLAP porque los datos de resumen ya se calcularon. El tiempo de consulta se convierte en una función únicamente del tiempo requerido para acceder a un dato en particular y realizar un cálculo. Este método respalda el concepto de que el trabajo se realiza una vez y los resultados se utilizan una y otra vez. Las bases de datos multidimensionales son una tecnología relativamente nueva. El uso de MDB tiene los mismos inconvenientes que la mayoría de las nuevas tecnologías. Es decir, no son tan estables como las bases de datos relacionales (RDB) y no están optimizadas en la misma medida. Otro punto débil del MDB es la incapacidad de utilizar la mayoría de las bases de datos multidimensionales en el proceso de agregación de datos, por lo que lleva tiempo que la nueva información esté disponible para el análisis.

ROLAP.

ROLAP es Procesamiento Analítico Relacional en Línea, es decir, OLAP relacional.El término ROLAP significa que el servidor OLAP se basa en una base de datos relacional. Los datos de origen se ingresan en una base de datos relacional, generalmente en un esquema de estrella o copo de nieve, para ayudar a reducir los tiempos de recuperación. El servidor proporciona un modelo de datos multidimensional utilizando consultas SQL optimizadas.

Hay una serie de razones para elegir una base de datos relacional en lugar de una base de datos multidimensional. RDB es una tecnología bien establecida con muchas oportunidades de optimización. El uso en el mundo real resultó en un producto más maduro. Además, los RDB admiten mayores cantidades de datos que los MDB. Simplemente están diseñados para tales volúmenes. El principal argumento en contra de las RDB es la complejidad de las consultas necesarias para recuperar información de una gran base de datos mediante SQL. Un programador de SQL sin experiencia podría sobrecargar fácilmente los valiosos recursos del sistema al intentar ejecutar alguna consulta de este tipo, que es mucho más fácil de realizar en un MDB.

Datos agregados/preagregados.

La implementación rápida de consultas es un imperativo para OLAP. Este es uno de los principios básicos de OLAP: la capacidad de manipular datos de manera intuitiva requiere una recuperación rápida de la información. En general, cuantos más cálculos se necesiten hacer para obtener una información, más lenta será la respuesta. Por lo tanto, para ahorrar un pequeño tiempo de implementación de consultas, se agregan previamente fragmentos de información a los que generalmente se accede con más frecuencia, pero que requieren cálculo. Es decir, se cuentan y luego se almacenan en la base de datos como datos nuevos. Un ejemplo del tipo de datos que se pueden precalcular son los datos de resumen, como las cifras de ventas mensuales, trimestrales o anuales, para las cuales los datos reales ingresados ​​son cifras diarias.

Los diferentes proveedores tienen diferentes métodos para seleccionar parámetros, lo que requiere agregación previa y una cantidad de valores calculados previamente. El enfoque de la agregación afecta tanto a la base de datos como al tiempo de ejecución de las consultas. Si se calculan más valores, aumenta la probabilidad de que el usuario solicite el valor ya calculado, y por tanto se reducirá el tiempo de respuesta, ya que no será necesario solicitar el valor inicial para el cálculo. Sin embargo, si calcula todos los valores posibles, esta no es la mejor solución, en este caso, el tamaño de la base de datos aumentará significativamente, lo que la hará inmanejable y el tiempo de agregación será demasiado largo. Además, cuando se agregan valores numéricos a la base de datos, o si se modifican, esta información debe reflejarse en valores precalculados que dependen de los nuevos datos. Por lo tanto, la actualización de la base de datos también puede llevar mucho tiempo en el caso de una gran cantidad de valores precalculados. Dado que la base de datos normalmente funciona fuera de línea durante la agregación, es deseable que el tiempo de agregación no sea demasiado largo.

OLAP El cliente está configurado de manera diferente. Construcción de un cubo multidimensional y OLAP -Los cálculos se realizan en la memoria del ordenador cliente.OLAP -Los clientes también se dividen en ROLAP y MOLAP.Y algunos pueden admitir ambas opciones de acceso a datos.

Cada uno de estos enfoques tiene sus pros y sus contras. Contrariamente a la creencia popular sobre las ventajas de las herramientas de servidor sobre las de cliente, en varios casos el uso de OLAP -el cliente para los usuarios puede ser más eficiente y rentable de usar servidores OLAP.

El desarrollo de aplicaciones analíticas utilizando herramientas OLAP del cliente es un proceso rápido y no requiere una formación especial del ejecutante. Un usuario que conoce la implementación física de la base de datos puede desarrollar una aplicación analítica por su cuenta, sin la participación de un especialista en TI.

Cuando usa un servidor OLAP, necesita aprender 2 sistemas diferentes, a veces de diferentes proveedores, para crear cubos en el servidor y desarrollar una aplicación de cliente.

El cliente OLAP proporciona una única interfaz visual para describir cubos y personalizar las interfaces de usuario para ellos.

Entonces, ¿en qué casos puede ser más eficiente y beneficioso el uso de un cliente OLAP para los usuarios que el uso de un servidor OLAP?

· Viabilidad económica de la aplicación. OLAP - servidor se produce cuando la cantidad de datos es muy grande e insoportable para OLAP -cliente, de lo contrario el uso de este último está más justificado. En este caso OLAP -Cliente combina características de alto rendimiento y bajo costo.

· Las potentes PC de análisis son otro argumento a favor de OLAP -clientela. cuando se aplica OLAP -servidor estas capacidades no se utilizan.

Otros beneficios de los clientes OLAP incluyen:

· Costos de implementación y mantenimiento OLAP -el cliente es significativamente más bajo que el costo de servidor OLAP.

· Usando OLAP -La transferencia de datos del cliente con la máquina incorporada a través de la red se realiza una vez. Haciendo OLAP -Las operaciones no generan nuevos flujos de datos.

5. Principios de funcionamiento OLAP-clientela.

Considere el proceso de creación de una aplicación OLAP utilizando la herramienta de cliente (Fig. 1).

Foto 1.Cree una aplicación OLAP utilizando la herramienta de cliente ROLAP

El principio de funcionamiento de los clientes ROLAP es una descripción preliminar de la capa semántica, detrás de la cual se oculta la estructura física de los datos de origen. En este caso, las fuentes de datos pueden ser: tablas locales, RDBMS. La lista de fuentes de datos admitidas está determinada por el producto de software específico. Después de eso, el usuario puede manipular de forma independiente los objetos que entiende en términos del área temática para crear cubos e interfaces analíticas.

El principio de funcionamiento del cliente del servidor OLAP es diferente. En el servidor OLAP, al crear cubos, el usuario manipula las descripciones físicas de la base de datos. Esto crea descripciones personalizadas en el propio cubo. El cliente del servidor OLAP está configurado solo para cubos.

Al crear una capa semántica, las fuentes de datos, las tablas Ventas y Acuerdos, se describen en términos comprensibles para el usuario final y se convierten en "Productos" y "Ofertas". El campo "ID" de la tabla "Productos" se renombra a "Código", y "Nombre" a "Producto", etc.

Luego se crea un objeto comercial de Ventas. Un objeto comercial es una mesa plana sobre la base de la cual se forma un cubo multidimensional. Al crear un objeto comercial, las tablas "Productos" y "Ofertas" se combinan con el campo "Código" del producto. Dado que no se requerirá que todos los campos de las tablas se muestren en el informe, el objeto comercial usa solo los campos "Artículo", "Fecha" y "Cantidad".

En nuestro ejemplo, basado en el objeto comercial "Ventas", se creó un informe sobre las ventas de bienes por meses.

Al trabajar con un informe interactivo, el usuario puede establecer condiciones de filtrado y agrupación con los mismos simples movimientos del mouse. En este punto, el cliente ROLAP accede a los datos en el caché. El cliente del servidor OLAP genera una nueva consulta a la base de datos multidimensional. Por ejemplo, al aplicar un filtro de producto en el informe de ventas, puede obtener un informe sobre las ventas de los productos que nos interesan.

Todas las configuraciones para una aplicación OLAP se pueden almacenar en un depósito de metadatos dedicado, en una aplicación o en un depósito de sistema de base de datos multidimensional.La implementación depende del producto de software específico.

Todo lo que se incluye en estas aplicaciones es una vista estándar de la interfaz, funciones y estructura predefinidas y arreglos rápidos para situaciones más o menos estándar. Por ejemplo, los paquetes financieros son populares. Las aplicaciones financieras prediseñadas permitirán a los profesionales utilizar instrumentos financieros familiares sin tener que diseñar una estructura de base de datos o formularios e informes comunes.

Internet es una nueva forma de cliente. Además, lleva el sello de las nuevas tecnologías; un montón de soluciones de internet difieren significativamente en sus capacidades en general y en la calidad de una solución OLAP en particular. Hay muchas ventajas en la generación de informes OLAP a través de Internet. El más significativo es la ausencia de la necesidad de software especializado para acceder a la información. Esto ahorra a la empresa mucho tiempo y dinero.

6. Elección de la arquitectura de la aplicación OLAP.

Al implementar un sistema analítico de información, es importante no cometer un error al elegir la arquitectura de una aplicación OLAP. La traducción literal del término Proceso analítico en línea - "procesamiento analítico en línea" - a menudo se toma literalmente en el sentido de que los datos que ingresan al sistema se analizan rápidamente. Esto es una ilusión: la eficiencia del análisis no está relacionada de ninguna manera con el tiempo real de actualización de los datos en el sistema. Esta característica se refiere al tiempo de respuesta del sistema OLAP a las solicitudes de los usuarios. Al mismo tiempo, los datos analizados suelen ser una instantánea de la información "de ayer", si, por ejemplo, los datos en los almacenamientos se actualizan una vez al día.

En este contexto, la traducción de OLAP como "procesamiento analítico interactivo" es más precisa. Es la capacidad de analizar datos en un modo interactivo lo que distingue a los sistemas OLAP de los sistemas para preparar informes regulados.

Otra característica del procesamiento interactivo en la formulación del antepasado de OLAP, E. Codd, es la capacidad de "combinar, ver y analizar datos en términos de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos". Para el propio Codd, el término OLAP denota una forma extremadamente específica de presentar datos a nivel conceptual: multidimensional. A nivel físico, los datos se pueden almacenar en bases de datos relacionales, pero en realidad, las herramientas OLAP tienden a trabajar con bases de datos multidimensionales en las que los datos se organizan en forma de hipercubo (Figura 1).

Foto 1. OLAP- cubo (hipercubo, metacubo)

Al mismo tiempo, la relevancia de estos datos está determinada por el momento en que el hipercubo se llena con nuevos datos.

Es obvio que el tiempo de formación de una base de datos multidimensional depende significativamente de la cantidad de datos cargados en ella, por lo que es razonable limitar esta cantidad. Pero, ¿cómo no acotar las posibilidades de análisis y privar al usuario del acceso a toda la información de interés? Hay dos caminos alternativos: Analizar y luego consultar ("Analizar primero, luego solicitar información adicional") y Consultar y luego analizar ("Primero consultar los datos, luego analizar").

Los seguidores del primer camino sugieren cargar información generalizada en una base de datos multidimensional, por ejemplo, resultados mensuales, trimestrales o anuales de los departamentos. Y si es necesario refinar los datos, se solicita al usuario que genere un informe en una base de datos relacional que contenga la selección requerida, por ejemplo, por días para un departamento determinado o por meses y empleados de un departamento seleccionado.

Los defensores de la segunda forma, por el contrario, sugieren que el usuario, en primer lugar, decida los datos que va a analizar y los cargue en un microcubo, una pequeña base de datos multidimensional. Ambos enfoques difieren a nivel conceptual y tienen sus ventajas y desventajas.

Las ventajas del segundo enfoque incluyen la "frescura" de la información que el usuario recibe en forma de un informe multidimensional: "microcubo". El microcubo se forma en base a la información recién solicitada de la base de datos relacional real. El trabajo con un microcubo se lleva a cabo de forma interactiva: la obtención de fragmentos de información y su detalle en el marco de un microcubo se realiza instantáneamente. Otro punto positivo es que el diseño de la estructura y el llenado del microcubo lo realiza el usuario "sobre la marcha", sin la participación de un administrador de base de datos. Sin embargo, el enfoque también adolece de serias deficiencias. El usuario no ve el panorama general y debe decidir de antemano la dirección de su investigación. De lo contrario, el microcubo solicitado puede ser demasiado pequeño y no contener todos los datos de interés, y el usuario deberá solicitar un nuevo microcubo, luego uno nuevo, luego otro y otro. El enfoque Query luego analice implementa la herramienta BusinessObjects de la empresa del mismo nombre y las herramientas de la plataforma Company ContourIntersoft laboratorio.

Con el enfoque Analizar y luego consultar, la cantidad de datos cargados en una base de datos multidimensional puede ser bastante grande, el llenado debe realizarse de acuerdo con las reglas y puede llevar mucho tiempo. Sin embargo, todas estas deficiencias se compensan más tarde, cuando el usuario tiene acceso a casi todos los datos necesarios en cualquier combinación. La referencia a los datos originales en la base de datos relacional se realiza solo como último recurso, cuando se necesita información detallada, por ejemplo, en una factura específica.

El funcionamiento de una única base de datos multidimensional prácticamente no se ve afectado por el número de usuarios que acceden a ella. Solo leen los datos disponibles allí, a diferencia del enfoque Consultar y luego analizar, en el que la cantidad de microcubos en el caso límite puede crecer al mismo ritmo que la cantidad de usuarios.

Con este enfoque aumenta la carga de los servicios TI que, además de los relacionales, también se ven obligados a atender bases de datos multidimensionales.Son estos servicios los responsables de la actualización automática oportuna de datos en bases de datos multidimensionales.

Los representantes más destacados del enfoque "Analizar y luego consultar" son las herramientas PowerPlay e Impromptu de Cognos.

La elección tanto del enfoque como de la herramienta que lo implementa depende principalmente del objetivo perseguido: siempre hay que equilibrar entre ahorrar el presupuesto y mejorar la calidad del servicio al usuario final. Al mismo tiempo, se debe tener en cuenta que, en el plan estratégico, la creación de sistemas de información y análisis persigue el objetivo de lograr una ventaja competitiva, y no evitar el costo de la automatización. Por ejemplo, un sistema de información y análisis corporativo puede proporcionar la información necesaria, oportuna y confiable sobre una empresa, cuya publicación para los inversores potenciales garantizará la transparencia y previsibilidad de esta empresa, lo que inevitablemente se convertirá en una condición para su atractivo de inversión.

7. Ámbitos de aplicación de las tecnologías OLAP.

OLAP es aplicable dondequiera que haya una tarea de análisis de datos multifactoriales. En general, si tiene una tabla con datos que tiene al menos una columna descriptiva (dimensión) y una columna con números (medidas o hechos), una herramienta OLAP suele ser una herramienta eficaz para analizar y generar informes.

Considere algunas áreas de aplicación de las tecnologías OLAP tomadas de la vida real.

1. Ventas.

A partir del análisis de la estructura de ventas, se resuelven las cuestiones necesarias para la toma de decisiones gerenciales: cambio de gama de productos, precios, cierre y apertura de tiendas, sucursales, terminación y firma de contratos con distribuidores, realización o terminación de campañas publicitarias, etc.

2. Compras.

La tarea es lo opuesto al análisis de ventas. Muchas empresas compran componentes y materiales a proveedores. Los comerciantes compran bienes para revenderlos. Hay muchas tareas posibles en el análisis de compras, desde la planificación de caja basada en la experiencia pasada, hasta control sobre los gerentes elegir proveedores.

3. Precios.

El análisis de las compras se fusiona con el análisis de los precios de mercado. El propósito de este análisis es optimizar costos, seleccionar las ofertas más ventajosas.

4. Comercialización.

Por análisis de marketing entendemos únicamente el área de análisis de compradores o clientes-consumidores de servicios. La tarea de este análisis es el posicionamiento correcto de los productos, la identificación de grupos de compradores para publicidad dirigida y la optimización del surtido. La tarea de OLAP en este caso es brindarle al usuario una herramienta para obtener rápidamente, a la velocidad del pensamiento, respuestas a las preguntas que surgen intuitivamente en el curso del análisis de datos.

5. Almacén.

El análisis de la estructura de los saldos de existencias en el almacén por tipos de bienes, almacenes, el análisis de la vida útil de los bienes, el análisis del envío por destinatarios y muchos otros tipos de análisis importantes para la empresa son posibles si la organización tiene contabilidad de almacén.

6. Flujo de caja.

Esta es toda un área de análisis que tiene muchas escuelas y métodos. La tecnología OLAP puede servir como una herramienta para implementar o mejorar estas técnicas, pero no como un reemplazo para ellas. Los flujos de efectivo de los fondos no efectivos y efectivos se analizan en el contexto de las operaciones comerciales, las contrapartes, las monedas y el tiempo con el fin de optimizar los flujos, asegurar la liquidez, etc. La composición de las mediciones depende en gran medida de las características del negocio, la industria y la metodología.

7. Presupuesto.

Una de las áreas más fértiles de aplicación de las tecnologías OLAP. No en vano, ningún sistema presupuestario moderno se considera completo sin la presencia de un conjunto de herramientas OLAP para el análisis presupuestario en su composición. La mayoría de los informes presupuestarios se construyen fácilmente sobre la base de los sistemas OLAP. Al mismo tiempo, los informes responden a una gama muy amplia de preguntas: análisis de la estructura de gastos e ingresos, comparación de gastos para ciertos artículos en diferentes departamentos, análisis de la dinámica y tendencias de gastos para ciertos artículos, análisis de costo y ganancia.

8. Cuentas contables.

Un balance clásico que consiste en un número de cuenta y que contiene saldos entrantes, movimientos y saldos salientes puede analizarse perfectamente en un sistema OLAP. Además, el sistema OLAP puede calcular de forma automática y muy rápida los saldos consolidados de una organización con múltiples sucursales, saldos mensuales, trimestrales y anuales, saldos agregados por jerarquía de cuenta, saldos analíticos basados ​​en características analíticas.

9. Información financiera.

Un sistema de informes construido tecnológicamente no es más que un conjunto de indicadores con nombre con valores para la fecha que es necesario agrupar y resumir en varias secciones para obtener informes específicos. Cuando este es el caso, la visualización e impresión de informes se implementa de manera más fácil y económica en los sistemas OLAP. En cualquier caso, el sistema de informes internos de la empresa no es tan conservador y se puede rediseñar para ahorrar dinero en el trabajo técnico de crear informes y obtener capacidades de análisis operativo multidimensional.

10. Tráfico del sitio.

El archivo de registro del servidor de Internet es de naturaleza multidimensional y, por lo tanto, adecuado para el análisis OLAP. Los hechos son: el número de visitas, el número de visitas, el tiempo de permanencia en la página y otra información disponible en el registro.

11. Volúmenes de producción.

Este es otro ejemplo de análisis estadístico. Por lo tanto, es posible analizar los volúmenes de papas cultivadas, acero fundido, productos manufacturados.

12. Consumo de consumibles.

Imagine una planta que consta de docenas de talleres que consumen refrigerantes, líquidos de lavado, aceites, trapos, papel de lija: cientos de artículos consumibles. La planificación precisa y la optimización de costos requieren un análisis exhaustivo del consumo real de consumibles.

13. Uso de locales.

Otro tipo de análisis estadístico. Ejemplos: análisis de la carga de trabajo de las aulas, edificios y locales alquilados, uso de salas de conferencias, etc.

14. Rotación de personal en la empresa.

Análisis de la rotación de personal en la empresa en el contexto de sucursales, departamentos, profesiones, nivel de educación, género, edad, tiempo.

15. Transporte de pasajeros.

Análisis del número de billetes vendidos e importes por temporada, destino, tipos de vagones (clases), tipos de trenes (aviones).

Esta lista no se limita a áreas de aplicación. OLAP - tecnologías. Por ejemplo, considere la tecnología OLAP - Análisis de ventas.

8. Ejemplo de uso OLAP -Tecnologías de análisis en el campo de las ventas.

Diseño de representación de datos multidimensionales para OLAP -el analisis comienza con la formacion de un mapa de medidas. Por ejemplo, al analizar las ventas, puede ser útil identificar segmentos de mercado individuales (clientes en desarrollo, estables, grandes y pequeños, la probabilidad de nuevos clientes, etc.) y evaluar los volúmenes de ventas por productos, territorios, clientes, segmentos de mercado, distribución. canales y tamaños de pedidos. Estas direcciones forman la cuadrícula de coordenadas de la representación multidimensional de las ventas: la estructura de sus dimensiones.

Dado que la actividad de cualquier empresa avanza en el tiempo, la primera pregunta que surge en el análisis es la cuestión de la dinámica del desarrollo empresarial. La correcta organización del eje temporal dará una respuesta cualitativa a esta pregunta. Por lo general, el eje del tiempo se divide en años, trimestres y meses. Quizás incluso más dividido en semanas y días. La estructura de la dimensión temporal se forma teniendo en cuenta la frecuencia de recepción de datos; también puede ser determinada por la frecuencia de solicitud de información.

La dimensión “grupo de bienes” está diseñada para reflejar la estructura de los productos vendidos tanto como sea posible. Al mismo tiempo, es importante mantener un cierto equilibrio para, por un lado, evitar el exceso de detalle (el número de grupos debe ser visible) y, por otro lado, para no perder un segmento de mercado significativo.

La dimensión "Clientes" refleja la estructura de ventas por área geográfica. Cada dimensión puede tener sus propias jerarquías, por ejemplo, en esta dimensión puede ser una estructura: Países - Regiones - Ciudades - Clientes.

Para analizar el rendimiento de los departamentos, debe crear su propia dimensión. Por ejemplo, se pueden distinguir dos niveles de jerarquía: departamentos y departamentos incluidos en ellos, lo que debe reflejarse en la dimensión “Subdivisiones”.

De hecho, las dimensiones "Tiempo", "Productos", "Clientes" definen completamente el espacio del área temática.

Además, es útil dividir este espacio en áreas condicionales, tomando como base características calculadas, por ejemplo, rangos de volumen de transacciones en términos de valor. Entonces, todo el negocio se puede dividir en una serie de rangos de costos en los que se lleva a cabo. En este ejemplo, puede limitarse a los siguientes indicadores: la cantidad de ventas de bienes, la cantidad de bienes vendidos, la cantidad de ingresos, la cantidad de transacciones, la cantidad de clientes, el volumen de compras de los fabricantes.

OLAP: el cubo para el análisis se verá así (Fig. 2):


Figura 2.OLAP– un cubo para analizar el volumen de ventas

Es precisamente una matriz tridimensional de este tipo en términos de OLAP la que se denomina cubo. De hecho, desde el punto de vista de las matemáticas estrictas, dicha matriz no siempre será un cubo: para un cubo real, el número de elementos en todas las dimensiones debe ser el mismo, mientras que los cubos OLAP no tienen esa limitación. Un cubo OLAP no tiene que ser 3D en absoluto. Puede ser tanto bidimensional como multidimensional, según el problema que se resuelva. Los productos OLAP serios están diseñados para unas 20 dimensiones, mientras que las aplicaciones de escritorio más sencillas admiten unas 6 dimensiones.

Lejos de completarse todos los elementos del cubo: si no hay información sobre las ventas del Producto 2 al Cliente 3 en el tercer trimestre, el valor en la celda correspondiente simplemente no se determinará.

Sin embargo, el cubo en sí no es adecuado para el análisis. Si todavía es posible representar o representar adecuadamente un cubo tridimensional, entonces de seis o diecinueve dimensiones las cosas son mucho peores. Por lo tanto, las tablas bidimensionales ordinarias se extraen de un cubo multidimensional antes de su uso. Esta operación se llama "cortar" el cubo. El analista, por así decirlo, toma y "corta" las dimensiones del cubo de acuerdo con las marcas que le interesan. De esta forma, el analista recibe una porción bidimensional del cubo (informe) y trabaja con ella. La estructura del informe se muestra en la Figura 3.

figura 3Estructura del informe analítico

Cortemos nuestro cubo OLAP y obtengamos un informe de ventas para el tercer trimestre, se verá así (Fig. 4).

Figura 4Informe de ventas del tercer trimestre

Puede cortar el cubo a lo largo del otro eje y obtener un informe sobre las ventas del grupo de productos 2 durante el año (Fig. 5).

Figura 5Informe trimestral de ventas de productos 2

De igual forma se puede analizar la relación con el cliente 4, cortando el cubo según la etiqueta Clientes(figura 6)

Figura 6Informe sobre el suministro de bienes al cliente 4

Puede detallar el informe por mes o hablar del suministro de mercancías a una sucursal específica del cliente.