Menú
Es gratis
registrarse
el principal  /  Firmware / Programas Olap. Sistemas OLAP

Programas Olap. Sistemas OLAP

4. Clasificación de productos OLAP.

5. Principios de los clientes OLAP.

7. Ámbitos de aplicación de las tecnologías OLAP.

8. Un ejemplo de uso de tecnologías OLAP para análisis en el campo de las ventas.

1. El lugar de OLAP en la estructura de información de la empresa.

El término "OLAP" está indisolublemente ligado al término "almacén de datos".

Los datos del almacén provienen de sistemas operativos (sistemas OLTP), que están diseñados para automatizar los procesos comerciales. Además, el almacenamiento se puede reponer con fuentes externas, como informes estadísticos.

El propósito del repositorio es proporcionar la "materia prima" para el análisis en un solo lugar y en una estructura simple y comprensible.

Hay otra razón que justifica la aparición de un almacenamiento separado: las consultas analíticas complejas a la información operativa ralentizan el trabajo actual de la empresa, bloquean las tablas durante mucho tiempo y se apoderan de los recursos del servidor.

Un almacenamiento no es necesariamente una acumulación gigantesca de datos; lo principal es que es conveniente para el análisis.

La centralización y la estructuración conveniente no son todo lo que necesita un analista. Todavía necesita una herramienta para ver y visualizar información. Los informes tradicionales, incluso creados sobre la base de un único repositorio, carecen de una cosa: flexibilidad. No se pueden girar, expandir o contraer para obtener la vista deseada de los datos. ¡Ojalá tuviera una herramienta que le permitiera expandir y contraer datos de manera simple y conveniente! OLAP actúa como tal herramienta.

Aunque OLAP no es un atributo necesario de un almacén de datos, se utiliza cada vez más para analizar la información acumulada en este almacén.

El lugar de OLAP en la estructura de información de la empresa (Fig. 1).

Foto 1... Un lugarOLAP en la estructura de información de la empresa

Los datos operativos se recopilan de diversas fuentes, se limpian, integran y almacenan en un almacenamiento relacional. Además, ya están disponibles para su análisis mediante diversas herramientas de informes. Luego, los datos (en su totalidad o en parte) se preparan para el análisis OLAP. Pueden cargarse en una base de datos OLAP especial o dejarse en un almacenamiento relacional. Su elemento más importante son los metadatos, es decir, información sobre la estructura, ubicación y transformación de los datos. Gracias a ellos, se garantiza la interacción efectiva de varios componentes del almacenamiento.

En resumen, OLAP se puede definir como una colección de herramientas de análisis de datos multidimensionales acumuladas en el almacén.

2. Procesamiento operativo de datos analíticos.

El concepto OLAP se basa en el principio de presentación de datos multidimensionales. En 1993, EF Codd abordó las deficiencias del modelo relacional, en primer lugar, señalando la imposibilidad de "combinar, visualizar y analizar datos en términos de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos", y definió los requisitos generales para los sistemas OLAP que amplían la funcionalidad DBMS relacional e incluye el análisis multivariado como una de sus características.

Según Codd, una vista conceptual multidimensional es una perspectiva múltiple que consta de varias dimensiones independientes a lo largo de las cuales se pueden analizar conjuntos específicos de datos.

El análisis simultáneo en múltiples dimensiones se define como análisis multivariado. Cada dimensión incluye direcciones de consolidación de datos, que consisten en una serie de niveles sucesivos de agregación, donde cada nivel superior corresponde a un mayor grado de agregación de datos para la dimensión correspondiente.

Por tanto, la dimensión Contratista se puede determinar por la dirección de consolidación, que consta de los niveles de generalización "empresa - departamento - departamento - empleado". La dimensión Tiempo puede incluso incluir dos direcciones de consolidación: año - trimestre - mes - día y semana - día, porque el conteo del tiempo por mes y por semana es incompatible. En este caso, es posible seleccionar arbitrariamente el nivel deseado de detalle de información para cada una de las mediciones.

La operación de perforación corresponde al movimiento de las etapas superiores de consolidación a las inferiores; por el contrario, una operación de enrollado significa pasar de niveles inferiores a niveles superiores (Fig. 2).


Figura 2. Medidas y direcciones de consolidación de datos

3. Requisitos de herramientas para el procesamiento analítico en línea.

El enfoque multidimensional surgió casi simultáneamente y en paralelo con el enfoque relacional. Sin embargo, solo desde mediados de los noventa, o más bien desde
1993, interés en MSUBD comenzó a adquirir un carácter general. Fue en este año que apareció un nuevo artículo del programa de uno de los fundadores del enfoque relacional. E. Codda, en el que formuló 12 requisitos básicos para los medios de implementación OLAP (Tabla 1).

Tabla 1.

Representación de datos multidimensionales

Las herramientas deben soportar una visión conceptual multidimensional de los datos.

Transparencia

El usuario no debe saber qué medios específicos se utilizan para almacenar y procesar datos, cómo están organizados los datos y de dónde provienen.

Disponibilidad

Las herramientas deben elegir y comunicarse con la mejor fuente de datos para responder a una solicitud determinada. Los medios deberían poder mapear automáticamente su propia lógica a varias fuentes de datos heterogéneas.

Rendimiento consistente

El rendimiento prácticamente no debería depender del número de Dimensiones en la solicitud.

Soporte de arquitectura cliente-servidor

Las herramientas deben funcionar en una arquitectura cliente-servidor.

Igualdad de todas las medidas

Ninguna de las medidas debe ser básica, todas deben ser iguales (simétricas).

Procesamiento dinámico de matrices dispersas

Los valores no definidos deben almacenarse y manejarse de la manera más eficiente.

Soporte para el modo multiusuario de trabajar con datos

Las herramientas deben proporcionar la capacidad de trabajar para más de un usuario.

Admite operaciones basadas en varias dimensiones

Todas las operaciones multidimensionales (por ejemplo, agregación) deben aplicarse de manera uniforme y coherente a cualquier número de cualquier dimensión.

Facilidad de manipulación de datos

Las herramientas deben tener la interfaz de usuario más conveniente, natural y cómoda.

Herramientas de presentación avanzadas

Los fondos deben apoyar diferentes caminos visualización (presentación) de datos.

Número ilimitado de dimensiones y niveles de agregación de datos

No debe haber limitación en el número de dimensiones admitidas.

Reglas de evaluación del software OLAP

El conjunto de estos requisitos, que sirvió como la definición de facto de OLAP, debe considerarse consultivo, y los productos específicos deben juzgarse en el grado en que están cerca de cumplir perfectamente con todos los requisitos.

Posteriormente, la definición de Codd fue reelaborada en la llamada prueba FASMI, que requiere que la aplicación OLAP proporcione la capacidad de analizar rápidamente información multidimensional compartida.

Recordar las 12 reglas de Codd es demasiado pesado para la mayoría de las personas. Resultó que puede resumir la definición de OLAP con solo cinco palabras clave: Análisis rápido de información multidimensional compartida o, en resumen, FASMI (traducido del inglés:F ast A análisis de S odiado METRO ultidimensional I información).

Esta definición se formuló por primera vez a principios de 1995 y no ha necesitado revisión desde entonces.

RÁPIDO ( Rápido ) - significa que el sistema debe proporcionar la mayoría de las respuestas a los usuarios en aproximadamente cinco segundos. Al mismo tiempo, las solicitudes más simples se procesan en un segundo y muy pocas, más de 20 segundos. La investigación ha demostrado que los usuarios finales perciben que un proceso no tiene éxito si no se reciben resultados después de 30 segundos.

A primera vista, puede parecer sorprendente que al recibir un informe en un minuto, que no hace tanto tiempo tomaba días, el usuario se aburre rápidamente mientras espera, y el proyecto resulta mucho menos exitoso que en el caso de un instante. respuesta, incluso a costa de un análisis menos detallado.

ANÁLISIS (análisis) significa que el sistema puede manejar cualquier análisis lógico y estadístico específico para de esta aplicacióny garantiza que se guarde en un formato accesible para el usuario final.

No importa si este análisis se realiza en la propia caja de herramientas de un proveedor o en un producto de software externo relacionado, como una hoja de cálculo, solo debe proporcionar toda la funcionalidad de análisis requerida de una manera intuitiva a los usuarios finales. Las herramientas de análisis podrían incluir procedimientos específicos como análisis de series de tiempo, asignación de costos, transferencias de divisas, búsqueda de objetivos, cambios de estructura multidimensional, modelado no procedimental, detección de excepciones, extracción de datos y otras operaciones dependientes de la aplicación. Dichas capacidades varían ampliamente entre productos, según la orientación del objetivo.

COMPARTIDO (Compartido) significa que el sistema cumple con todos los requisitos de protección de confidencialidad (posiblemente hasta el nivel de celda) y, si se requiere acceso de escritura múltiple, proporciona bloqueo de modificaciones en el nivel apropiado. No todas las aplicaciones necesitan volver a escribir datos. Sin embargo, el número de tales aplicaciones está creciendo y el sistema debe poder manejar múltiples modificaciones de manera oportuna y segura.

MULTIDIMENSIONAL (Multidimensional) - este es un requisito clave. Si tuviera que definir OLAP en una palabra, lo elegiría. El sistema debe proporcionar una vista conceptual multidimensional de los datos, incluido el soporte completo para jerarquías y jerarquías múltiples, ya que esta es, con mucho, la forma más lógica de analizar empresas y organizaciones. No hay un número mínimo de dimensiones que deban procesarse porque también depende de la aplicación, y la mayoría de los productos OLAP tienen dimensiones suficientes para los mercados a los que se dirigen.

INFORMACIÓN - es todo. La información necesaria debe obtenerse donde se necesite. Sin embargo, mucho depende de la aplicación. El poder de varios productos se mide en términos de cuánta entrada pueden procesar, pero no cuántos gigabytes pueden almacenar. La potencia de los productos varía enormemente: los productos OLAP más grandes pueden manejar al menos mil veces más datos que los más pequeños. Hay muchos factores a considerar a este respecto, incluida la duplicación de datos, RAM requerida, uso de espacio en disco, rendimiento, integración de almacenamiento de datos, etc.

La prueba FASMI es una definición razonable y comprensible de las metas en las que OLAP se enfoca en lograr.

4. ClasificaciónOLAP-productos.

Entonces la esencia de OLAP consiste en el hecho de que la información inicial para el análisis se presenta en forma de cubo multidimensional, y es posible manipularla arbitrariamente y obtener las secciones de información necesarias - informes. En este caso, el usuario final ve el cubo como una tabla dinámica multidimensional que resume automáticamente los datos (hechos) en diferentes secciones (dimensiones) y le permite controlar de forma interactiva los cálculos y el formulario del informe. Estas operaciones se realizanOLAP -máquina (o máquinaCálculos OLAP).

Hasta la fecha, se han desarrollado muchos productos en el mundo que implementanOLAP -tecnologías. Para facilitar la navegación entre ellos, se utilizan clasificacionesOLAP -productos: mediante almacenamiento de datos para análisis y por ubicaciónOLAP -carros. Echemos un vistazo más de cerca a cada categoríaProductos OLAP.

Clasificación de almacenamiento de datos

Los cubos multidimensionales se crean basándose en datos de origen y agregados. Tanto los datos brutos como los agregados de los cubos se pueden almacenar en bases de datos tanto relacionales como multidimensionales. Por lo tanto, actualmente hay tres formas de almacenar datos:MOLAP (OLAP multidimensional), ROLAP (OLAP relacional) y HOLAP (OLAP híbrido ). Respectivamente,OLAP -Los productos se dividen en tres categorías similares por medio de almacenamiento de datos:

1. En el caso de MOLAP , los datos de origen y agregados se almacenan en una base de datos multidimensional o en un cubo local multidimensional.

2. En ROLAP -productos, los datos de origen se almacenan en bases de datos relacionales o en tablas locales planas en un servidor de archivos. Los datos agregados se pueden colocar en tablas de servicio en la misma base de datos. La conversión de datos de una base de datos relacional a cubos multidimensionales ocurre bajo demandaHerramientas OLAP.

3. En caso de usoHOLAP arquitectura, los datos originales permanecen en la base de datos relacional, y los agregados se ubican en la multidimensional. EdificioOLAP -cubo se realiza a pedidoOLAP -Medias basadas en datos relacionales y multidimensionales.

Clasificación de ubicación OLAP-carros.

Sobre esta baseOLAP -los productos se dividen enServidores OLAP y clientes OLAP:

Servidor OLAP -Los medios de cálculo y almacenamiento de datos agregados se realizan mediante un proceso separado: el servidor. La aplicación cliente recibe solo los resultados de las consultas en cubos multidimensionales que se almacenan en el servidor. AlgunosOLAP -los servidores admiten el almacenamiento de datos solo en bases de datos relacionales, algunos, solo en las multidimensionales. Muchos modernosOLAP -los servidores admiten los tres métodos de almacenamiento:MOLAP, ROLAP y HOLAP.

MOLAP.

MOLAP es Procesamiento analítico multidimensional en línea,es decir, OLAP multidimensional.Esto significa que el servidor utiliza una base de datos multidimensional (MDB) para almacenar datos. El sentido de utilizar MDB es obvio. Puede almacenar de manera eficiente datos que son de naturaleza multidimensional, proporcionando un medio para atender rápidamente consultas de bases de datos. Los datos se transfieren desde una fuente de datos a una base de datos multidimensional y luego se agrega la base de datos. La estimación es lo que hace que las consultas OLAP sean más rápidas porque los datos de resumen ya se han calculado. El tiempo de solicitud se convierte en una función únicamente del tiempo necesario para acceder a un dato en particular y realizar un cálculo. Este método apoya el concepto de que el trabajo se realiza una vez y los resultados se utilizan una y otra vez. Las bases de datos multidimensionales son una tecnología relativamente nueva. El uso de MDB tiene las mismas desventajas que la mayoría de las nuevas tecnologías. Es decir, no son tan estables como las bases de datos relacionales (RDB) y no están optimizadas en la misma medida. Otro punto débil de MDB es la imposibilidad de utilizar la mayoría de las bases de datos multidimensionales en el proceso de agregación de datos, por lo que se necesita tiempo para que la nueva información esté disponible para su análisis.

ROLAP.

ROLAP es Procesamiento analítico relacional en línea,es decir, OLAP relacional.El término ROLAP significa que el servidor OLAP se basa en una base de datos relacional. Los datos de origen se ingresan en una base de datos relacional, generalmente en un esquema de estrella o copo de nieve, lo que ayuda a reducir los tiempos de recuperación. El servidor proporciona un modelo de datos multidimensional que utiliza consultas SQL optimizadas.

Hay varias razones para elegir una base de datos relacional en lugar de una base de datos multidimensional. RDB es una tecnología bien establecida con muchas posibilidades de optimización. El uso en la vida real dio como resultado un producto más elaborado. Además, las RDB admiten volúmenes de datos más grandes que las MDB. Simplemente están diseñados para tales volúmenes. El principal argumento en contra de las RDB es la complejidad de las consultas necesarias para recuperar información de una gran base de datos mediante SQL. Un programador de SQL sin experiencia podría fácilmente sobrecargar valiosos recursos del sistema al intentar ejecutar una consulta similar, que es mucho más fácil de ejecutar en MDB.

Datos agregados / preagregados.

La implementación rápida de consultas es imperativa para OLAP. Este es uno de los principios básicos de OLAP: la capacidad de manipular datos de forma intuitiva requiere una rápida recuperación de la información. En general, cuanto más cálculo se necesita para obtener un fragmento de información, más lenta es la respuesta. Por lo tanto, para que el tiempo de ejecución de las solicitudes sea reducido, las piezas de información a las que normalmente se accede con mayor frecuencia, pero que al mismo tiempo requieren cálculo, se someten a agregación preliminar. Es decir, se cuentan y luego se almacenan en la base de datos como datos nuevos. Un ejemplo de un tipo de datos que se puede calcular de antemano son los datos de resumen, por ejemplo, cifras de ventas por mes, trimestre o año, para los cuales los datos reales ingresados \u200b\u200bson cifras diarias.

Los diferentes proveedores tienen diferentes métodos de selección para los parámetros que requieren una agregación previa y una serie de valores calculados previamente. El enfoque de agregación afecta tanto a la base de datos como al tiempo de ejecución de la consulta. Si se calculan más valores, aumenta la probabilidad de que el usuario pregunte por un valor ya calculado, y por tanto el tiempo de respuesta será menor, ya que no es necesario pedir el valor inicial para el cálculo. Sin embargo, si calcular todos los valores posibles no es la mejor solución, en este caso, el tamaño de la base de datos aumentará significativamente, lo que la hará inmanejable y el tiempo de agregación será demasiado largo. Además, cuando se agregan valores numéricos a la base de datos, o si cambian, esta información debe reflejarse en valores precalculados que dependen de los nuevos datos. Por tanto, la actualización de la base de datos también puede llevar mucho tiempo en el caso de un gran número de valores precalculados. Dado que la base de datos suele estar fuera de línea durante la agregación, es deseable que el tiempo de agregación no sea demasiado largo.

OLAP -el cliente se organiza de manera diferente. Construyendo un cubo multidimensional yOLAP -Los cálculos se realizan en la memoria del equipo cliente.OLAP -los clientes también se dividen enROLAP y MOLAP. Y algunos pueden admitir ambos tipos de acceso a datos.

Cada uno de estos enfoques tiene sus pros y sus contras. Contrariamente a la creencia popular sobre las ventajas de las herramientas de servidor sobre las de cliente, en varios casos el uso deOLAP - el cliente puede ser más eficiente y rentable para los usuariosServidores OLAP.

El desarrollo de aplicaciones analíticas utilizando herramientas cliente OLAP es un proceso rápido y no requiere capacitación especial por parte del contratista. Un usuario que conoce la implementación física de la base de datos puede desarrollar la aplicación analítica por su cuenta, sin la participación de un especialista en TI.

Al utilizar un servidor OLAP, debe estudiar 2 sistemas diferentes, a veces de diferentes proveedores, para crear cubos en el servidor y para desarrollar una aplicación cliente.

El cliente OLAP proporciona una única interfaz visual para describir cubos y personalizar sus interfaces de usuario.

Entonces, ¿en qué casos usar un cliente OLAP puede ser más eficiente y rentable para los usuarios que usar un servidor OLAP?

· Viabilidad económica de la aplicaciónOLAP -El servidor ocurre cuando la cantidad de datos es muy grande e insoportable paraOLAP - el cliente, de lo contrario el uso de este último está más justificado. En este casoOLAP - El cliente combina características de alto rendimiento con bajo costo.

· Las potentes PC de análisis son otra buena razónOLAP - clientes. Al aplicarOLAP -servidores, estas capacidades no se utilizan.

Entre las ventajas de los clientes OLAP se encuentran las siguientes:

· Costos de implementación y mantenimientoOLAP - el cliente es significativamente menor que el costo deServidor OLAP.

· UsandoOLAP - para un cliente con una máquina incorporada, la transmisión de datos a través de la red se realiza una vez. HaciendoOLAP -No se generan operaciones de nuevos flujos de datos.

5. Principios de trabajo OLAP- clientes.

Veamos el proceso de creación de una aplicación OLAP usando la herramienta cliente (Figura 1).

Foto 1. Cree una aplicación OLAP con la herramienta de cliente ROLAP

El principio de funcionamiento de los clientes ROLAP es una descripción preliminar de la capa semántica detrás de la cual se oculta la estructura física de los datos iniciales. En este caso, las fuentes de datos pueden ser: tablas locales, RDBMS. La lista de fuentes de datos compatibles es específica del producto. Después de eso, el usuario puede manipular de forma independiente objetos que comprende en términos del área temática para crear cubos e interfaces analíticas.

El cliente del servidor OLAP funciona de manera diferente. En el servidor OLAP, al crear cubos, el usuario manipula las descripciones físicas de la base de datos. Esto crea descripciones personalizadas en el propio cubo. El cliente del servidor OLAP está configurado solo para cubos.

Al crear una capa semántica, las fuentes de datos (las tablas de Ventas y Ofertas) se describen en términos que son comprensibles para el usuario final y se convierten en "Productos" y "Ofertas". El campo "ID" de la tabla "Productos" se renombra a "Código", y "Nombre" a "Producto", etc.

Luego se crea el objeto comercial Ventas. Un objeto comercial es una tabla plana a partir de la cual se forma un cubo multidimensional. Al crear un objeto comercial, las tablas "Productos" y "Ofertas" se combinan con el campo "Código" del producto. Dado que no es necesario que se muestren todos los campos de la tabla en el informe, el objeto comercial utiliza solo los campos "Artículo", "Fecha" e "Cantidad".

En nuestro ejemplo, basado en el objeto comercial Ventas, hemos creado un informe sobre las ventas de bienes por mes.

Al trabajar con un informe interactivo, el usuario puede establecer condiciones de filtrado y agrupación con los mismos simples movimientos del mouse. En este punto, el cliente ROLAP accede a los datos en la caché. El cliente del servidor OLAP genera una nueva consulta contra la base de datos multidimensional. Por ejemplo, aplicando un filtro por productos en el informe de ventas, puede obtener un informe sobre las ventas de los productos que nos interesan.

Toda la configuración de la aplicación OLAP se puede almacenar en un repositorio de metadatos dedicado, en una aplicación o en un repositorio de sistema de base de datos multidimensional. La implementación depende del producto de software específico.

Todo lo que se incluye en estas aplicaciones es una vista estándar de la interfaz, funciones y estructura predefinidas, y decisiones rápidas para situaciones más o menos estándar. Por ejemplo, los paquetes financieros son populares. Las aplicaciones financieras prediseñadas permiten a los profesionales utilizar instrumentos financieros familiares sin tener que diseñar una estructura de base de datos o formularios e informes comunes.

Internet es nueva forma cliente. Además, lleva el sello de las nuevas tecnologías; un montón de soluciones de internet difieren significativamente en sus capacidades en general y en la calidad de las soluciones OLAP en particular. La generación de informes OLAP a través de Internet tiene muchas ventajas. El más significativo es la ausencia de la necesidad de software especializado para acceder a la información. Esto le ahorra a la empresa mucho tiempo y dinero.

6. Elección de la arquitectura de la aplicación OLAP.

Al implementar un sistema de información y análisis, es importante no equivocarse al elegir la arquitectura de una aplicación OLAP. La traducción literal del término Proceso analítico en línea - "procesamiento analítico en línea" - a menudo se toma literalmente en el sentido de que los datos que ingresan al sistema se analizan rápidamente. Esto es una ilusión: la eficiencia del análisis no tiene nada que ver con el tiempo real de actualización de datos en el sistema. Esta característica se refiere al tiempo de respuesta del sistema OLAP a las solicitudes de los usuarios. Al mismo tiempo, los datos analizados son a menudo una instantánea de información "para ayer", si, por ejemplo, los datos de los almacenes se actualizan una vez al día.

En este contexto, la traducción de OLAP como "procesamiento analítico interactivo" es más precisa. Es la capacidad de analizar datos en modo interactivo lo que distingue los sistemas OLAP de los sistemas para preparar informes regulados.

Otra característica del procesamiento interactivo en la formulación del fundador de OLAP E. Codd es la capacidad de "combinar, visualizar y analizar datos desde el punto de vista de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos". Para el propio Codd, el término OLAP denota una forma exclusivamente específica de representar datos a nivel conceptual: multidimensional. A nivel físico, los datos se pueden almacenar en bases de datos relacionales, pero en realidad, las herramientas OLAP tienden a trabajar con bases de datos multidimensionales, en las que los datos se organizan en un hipercubo (Figura 1).

Foto 1. OLAP - cubo (hipercubo, metacubo)

Además, la relevancia de estos datos está determinada por el momento en que el hipercubo se llena con nuevos datos.

Obviamente, el tiempo de formación de una base de datos multidimensional depende significativamente del volumen de datos cargados en ella, por lo que es razonable limitar este volumen. Pero, ¿cómo no limitar las posibilidades de análisis y no privar al usuario del acceso a toda la información de interés? Hay dos rutas alternativas: Analizar y luego consultar y Consultar luego analizar (Datos primero, luego analizar).

Los seguidores de la primera ruta sugieren cargar información generalizada en una base de datos multidimensional, por ejemplo, totales mensuales, trimestrales y anuales de los departamentos. Y si es necesario refinar los datos, se solicita al usuario que genere un informe sobre la base de datos relacional que contenga la selección requerida, por ejemplo, por día para un departamento determinado o por meses y empleados de un departamento seleccionado.

Los defensores de la segunda vía, por el contrario, ofrecen al usuario, en primer lugar, determinar los datos que va a analizar y cargarlos en un microcubo, una pequeña base de datos multidimensional. Ambos enfoques difieren conceptualmente y tienen sus propias ventajas y desventajas.

Las ventajas del segundo enfoque incluyen la "frescura" de la información que el usuario recibe en forma de informe multidimensional - "microcubo". El microcubo se genera en base a la información que se acaba de solicitar de la base de datos relacional actual. El trabajo con un microcubo se realiza de forma interactiva: la obtención de fragmentos de información y su detalle dentro del microcubo se realiza instantáneamente. Otro punto positivo es que el diseño de la estructura y llenado del microcubo lo realiza el usuario "sobre la marcha", sin la participación del administrador de la base de datos. Sin embargo, el enfoque también adolece de serios inconvenientes. El usuario no ve la imagen general y debe determinarse de antemano con la dirección de su investigación. De lo contrario, el microcubo solicitado puede ser demasiado pequeño y no contener todos los datos de interés, y el usuario deberá solicitar un nuevo microcubo, luego uno nuevo, luego otro y otro. El enfoque Query then analizar implementa la herramienta BusinessObjects de la empresa del mismo nombre y instrumentos empresa de contorno de plataformaIntersoftLaboratorio.

Con el enfoque Analizar y luego consultar, la cantidad de datos cargados en una base de datos multidimensional puede ser bastante grande, el llenado debe realizarse de acuerdo con las reglas y puede llevar mucho tiempo. Sin embargo, todas estas desventajas se compensan más tarde cuando el usuario tiene acceso a casi todos los datos necesarios en cualquier combinación. La referencia a los datos de origen en una base de datos relacional se lleva a cabo solo como último recurso, cuando es necesario información detallada, por ejemplo, en una hoja de ruta específica.

El trabajo de una base de datos multidimensional unificada prácticamente no se ve afectado por el número de usuarios que acceden a ella. Solo leen los datos disponibles allí, en contraste con el enfoque de Consulta y análisis, en el que el número de microcubos en el caso extremo puede crecer al mismo ritmo que el número de usuarios.

Con este enfoque, aumenta la carga de los servicios de TI, que, además de los relacionales, también se ven obligados a atender bases de datos multidimensionales. Son estos servicios los que se encargan de la actualización automática oportuna de los datos en bases de datos multidimensionales.

Los representantes más destacados del enfoque "Analizar y luego consultar" son las herramientas PowerPlay e Impromptu de Cognos.

La elección tanto del enfoque como de la herramienta para implementarlo depende principalmente del objetivo que se persiga: siempre hay que equilibrar entre ahorrar el presupuesto y mejorar la calidad del servicio para los usuarios finales. Hay que tener en cuenta que, estratégicamente, la creación de sistemas de información y análisis persigue el objetivo de lograr una ventaja competitiva, y no eludir el costo de la automatización. Por ejemplo, un sistema de información y análisis corporativo puede brindar información necesaria, oportuna y confiable sobre una empresa, cuya publicación para potenciales inversionistas asegurará la transparencia y previsibilidad de esta empresa, lo que inevitablemente se convertirá en una condición para su atractivo inversor.

7. Ámbitos de aplicación de las tecnologías OLAP.

OLAP es aplicable siempre que haya una tarea de análisis de datos multifactorial. En general, si tiene alguna tabla con datos, en la que hay al menos una columna descriptiva (dimensión) y una columna con números (medidas o hechos), una herramienta OLAP suele ser una herramienta eficaz para analizar y generar informes.

Consideremos algunas áreas de aplicación de las tecnologías OLAP, tomadas de la vida real.

1. Ventas.

A partir del análisis de la estructura de ventas se resuelven las cuestiones necesarias para la toma de decisiones gerenciales: sobre cambio de gama de bienes, precios, cierre y apertura de tiendas, sucursales, rescisión y firma de contratos con concesionarios, realización o rescisión de campañas publicitarias, etc.

2. Compras.

La tarea es lo opuesto al análisis de ventas. Muchas empresas compran componentes y materiales a proveedores. Los comerciantes compran bienes para revenderlos. Hay muchas tareas posibles en el análisis de adquisiciones, desde planificar el efectivo basado en la experiencia pasada hasta control sobre los gerenteselegir proveedores.

3. Precios.

El análisis de compras está estrechamente relacionado con el análisis de precios de mercado. El propósito de este análisis es optimizar costos, seleccionar las ofertas más rentables.

4. Comercialización.

Por análisis de marketing nos referiremos únicamente al área de análisis de compradores o clientes-consumidores de servicios. La tarea de este análisis es el correcto posicionamiento del producto, identificación de grupos de compradores para publicidad dirigida y optimización del surtido. La tarea de OLAP en este caso es brindarle al usuario una herramienta para que de manera rápida, con la velocidad del pensamiento, reciba respuestas a preguntas que surgen de manera intuitiva durante el análisis de datos.

5. Almacén.

El análisis de la estructura de los saldos en el almacén en el contexto de tipos de bienes, almacenes, análisis de la vida útil de los bienes, análisis del envío por destinatario y muchos otros tipos de análisis importantes para la empresa son posibles si la organización tiene contabilidad de almacén .

6. Flujo de caja.

Ésta es toda un área de análisis, con muchas escuelas y metodologías. La tecnología OLAP puede servir como una herramienta para la implementación o mejora de estas técnicas, pero de ninguna manera un reemplazo para ellas. El análisis se realiza de la facturación no monetaria y en efectivo en términos de transacciones comerciales, contrapartes, monedas y tiempo con el fin de optimizar los flujos, proporcionar liquidez, etc. La composición de las mediciones depende en gran medida de las características específicas del negocio, la industria y la metodología.

7. Presupuesto.

Uno de los campos de aplicación más fértiles de las tecnologías OLAP. No en vano, ningún sistema presupuestario moderno se considera completo sin las herramientas OLAP para el análisis presupuestario incluidas en su composición. La mayoría de los informes presupuestarios se crean fácilmente sobre la base de sistemas OLAP. Al mismo tiempo, los informes responden a un abanico muy amplio de preguntas: análisis de la estructura de gastos e ingresos, comparación de gastos para ciertos rubros en diferentes divisiones, análisis de dinámica y tendencias de gastos para ciertos rubros, análisis de costos y ganancias .

8. Cuentas.

El balance clásico, que consta de un número de cuenta y que contiene los saldos entrantes, las pérdidas y los saldos salientes, se puede analizar perfectamente en el sistema OLAP. Además, el sistema OLAP puede calcular de forma automática y muy rápida los saldos consolidados de una organización de múltiples sucursales, saldos para el mes, trimestre y año, saldos agregados por jerarquía de cuentas, saldos analíticos basados \u200b\u200ben características analíticas.

9. Informes financieros.

Un sistema de reporte tecnológicamente avanzado no es más que un conjunto de indicadores nombrados con valores a la fecha que necesitan ser agrupados y resumidos en varios aspectos para obtener reportes específicos. Cuando este es el caso, la visualización e impresión de informes se implementa de manera más fácil y económica en los sistemas OLAP. En cualquier caso, el sistema de informes internos de la empresa no es tan conservador y se puede reconstruir para ahorrar dinero en el trabajo técnico en la creación de informes y obtener oportunidades para el análisis operativo multidimensional.

10. Tráfico del sitio web.

El archivo de registro del servidor de Internet es de naturaleza multidimensional, lo que significa que es adecuado para el análisis OLAP. Los hechos son: el número de visitas, el número de visitas, el tiempo de permanencia en la página y otra información disponible en el registro.

11. Volúmenes de producción.

Este es otro ejemplo de análisis estadístico. Así, es posible analizar los volúmenes de papa cultivada, acero fundido, bienes producidos.

12. Consumo de consumibles.

Imagínese una planta que consta de docenas de talleres, que consume refrigeración, líquidos de lavado, aceites, trapos, papel de lija, cientos de artículos de consumo. Para una planificación precisa y optimización de costes, se requiere un análisis exhaustivo del consumo real de consumibles.

13. Uso de locales.

Otro tipo de análisis estadístico. Ejemplos: análisis de la carga de trabajo de las aulas, edificios y locales alquilados, uso de salas de conferencias, etc.

14. Rotación de personal en la empresa.

Análisis de la rotación de personal en la empresa en el contexto de ramas, departamentos, profesiones, nivel educativo, género, edad, tiempo.

15. Tráfico de pasajeros.

Análisis del número de billetes vendidos y montos en el contexto de temporadas, direcciones, tipos de coches (clases), tipos de trenes (aviones).

El ámbito de aplicación no se limita a esta lista.OLAP - tecnologías. Por ejemplo, considere la tecnologíaOLAP -análisis en el campo de las ventas.

8. Ejemplo de usoOLAP -tecnologías de análisis en el campo de las ventas.

Diseñar una representación de datos multidimensional paraOLAP -El análisis comienza con la formación de un mapa de medidas. Por ejemplo, al analizar las ventas, puede ser aconsejable destacar determinadas partes del mercado (consumidores en desarrollo, estables, grandes y pequeños, probabilidad de nuevos consumidores, etc.) y estimar los volúmenes de ventas por productos, territorios, clientes, segmentos de mercado, canales de distribución, etc. el tamaño de los pedidos. Estas direcciones forman la cuadrícula de la visión multidimensional de las ventas: la estructura de sus dimensiones.

Dado que la actividad de cualquier empresa tiene lugar en el tiempo, la primera pregunta que surge en el análisis es la cuestión de la dinámica del desarrollo empresarial. La correcta organización del eje temporal dará una respuesta cualitativa a esta pregunta. Normalmente, el eje del tiempo se divide en años, trimestres y meses. Es posible una fragmentación aún mayor en semanas y días. La estructura de la dimensión temporal se forma teniendo en cuenta la frecuencia de recepción de datos; también puede estar condicionado por la frecuencia de la demanda de información.

La dimensión "grupo de productos" está diseñada para reflejar lo más fielmente posible la estructura de los productos vendidos. Al mismo tiempo, es importante mantener un cierto equilibrio para, por un lado, evitar un detalle excesivo (el número de grupos debe ser visible) y, por otro, no perder un segmento de mercado significativo.

La dimensión "Clientes" refleja la estructura de ventas por ubicación geográfica. Cada dimensión puede tener sus propias jerarquías, por ejemplo, en esta dimensión puede ser una estructura: Países - Regiones - Ciudades - Clientes.

Para analizar el desempeño de los departamentos, debe crear su propia dimensión. Por ejemplo, puede distinguir dos niveles de jerarquía: departamentos y sus subdivisiones, que deben reflejarse en la dimensión "Departamentos".

De hecho, las dimensiones "Tiempo", "Productos", "Clientes" definen completamente el espacio del área temática.

Además, es útil dividir este espacio en áreas condicionales en función de las características calculadas, por ejemplo, los rangos del volumen de transacciones en términos de valor. Entonces, todo el negocio se puede dividir en una serie de rangos de valor en los que se lleva a cabo. En este ejemplo, puede limitarse a los siguientes indicadores: la cantidad de ventas de bienes, la cantidad de bienes vendidos, la cantidad de ingresos, la cantidad de transacciones, la cantidad de clientes, el volumen de compras a los fabricantes.

OLAP: el cubo para el análisis se verá así (Fig.2):


Figura 2.OLAP - un cubo para analizar el volumen de ventas

Es precisamente una matriz tridimensional de este tipo en términos OLAP la que se llama cubo. De hecho, desde el punto de vista de las matemáticas estrictas, dicha matriz no siempre será un cubo: un cubo real debe tener el mismo número de elementos en todas las dimensiones, y los cubos OLAP no tienen tal limitación. Un cubo OLAP no tiene por qué ser 3D. Puede ser tanto bidimensional como multidimensional, según el problema que se resuelva. Los productos OLAP serios están diseñados para aproximadamente 20. Las aplicaciones de escritorio más simples admiten aproximadamente 6 dimensiones.

No se deben completar todos los elementos del cubo: si no hay información sobre las ventas del Producto 2 al Cliente 3 en el tercer trimestre, simplemente no se determinará el valor en la celda correspondiente.

Sin embargo, el cubo en sí no es adecuado para el análisis. Si todavía es posible representar o representar adecuadamente un cubo tridimensional, entonces con seis o diecinueve dimensiones la situación es mucho peor. Por lo tanto, antes de su uso, las tablas bidimensionales ordinarias se extraen del cubo multidimensional. Esta operación se llama "cortar" el cubo. El analista, por así decirlo, toma y "corta" las dimensiones del cubo de acuerdo con las etiquetas de interés. De esta forma, el analista toma un corte bidimensional del cubo (informe) y trabaja con él. La estructura del informe se muestra en la Figura 3.

Figura 3.Estructura del informe analítico

Cortamos nuestro OLAP - cube y obtengamos el informe de ventas del tercer trimestre, se verá así (Fig. 4).

Figura 4. Informe de ventas del tercer trimestre

Puede cortar el cubo a lo largo de un eje diferente y obtener un informe sobre las ventas del grupo de productos 2 durante el año (Fig. 5).

Figura 5.Ventas de productos trimestrales 2

Del mismo modo, puede analizar la relación con el cliente 4, cortando el cubo en la etiqueta Clientes (figura 6)

Figura 6. Informe sobre la entrega de mercadería al cliente 4

Puede profundizar en el informe por mes o hablar sobre la entrega de productos a una sucursal de cliente específica.

almacén de datos se forman a partir de instantáneas de bases de datos operativas registradas durante un largo período de tiempo sistema de informacion y posiblemente varias fuentes externas. Los almacenes de datos utilizan tecnologías de bases de datos, OLAP, análisis profundo de datos, visualización de datos.

Las principales características de los almacenes de datos.

  • contiene datos históricos;
  • almacena información detallada, así como datos agregados parcial y completamente;
  • los datos son en su mayoría estáticos;
  • forma ad-hoc, no estructurada y heurística de procesamiento de datos;
  • intensidad media y baja del procesamiento de transacciones;
  • forma impredecible de utilizar los datos;
  • destinado al análisis;
  • centrado en áreas temáticas;
  • apoyo a la toma de decisiones estratégicas;
  • atiende a un número relativamente pequeño de ejecutivos.

El término OLAP (Procesamiento Analítico en Línea) se utiliza para describir el modelo de presentación de datos y, en consecuencia, la tecnología para su procesamiento en almacenes de datos. OLAP utiliza una vista multidimensional de datos agregados para proporcionar acceso rápido a información estratégica para un análisis en profundidad. Las aplicaciones OLAP deben tener las siguientes propiedades básicas:

  • multidimensional presentación de datos;
  • soporte para cálculos complejos;
  • consideración correcta del factor tiempo.

Ventajas de OLAP:

  • levantamiento productividad personal de producción, desarrolladores programas de aplicación... Acceso oportuno a información estratégica.
  • proporcionando a los usuarios una amplia oportunidad para realizar sus propios cambios en el esquema.
  • las aplicaciones OLAP se basan en almacén de datos y OLTP, recibiendo datos actualizados de ellos, lo que permite guardar control de integridad datos corporativos.
  • reducir la carga en los sistemas OLTP y almacén de datos.

OLAP y OLTP. Características y principales diferencias

OLAP OLTP
Almacén de datos debe incluir tanto datos corporativos internos como datos externos la principal fuente de información que ingresa a la base de datos operativa son las actividades de la corporación, y para el análisis de datos se requiere involucrar fuentes externas de información (por ejemplo, informes estadísticos)
El volumen de bases de datos analíticas es al menos un orden de magnitud mayor que el volumen de las operativas. para un análisis y una previsión fiables en almacén de datos necesita tener información sobre las actividades de la corporación y el estado del mercado durante varios años El procesamiento en línea requiere datos de los últimos meses
Almacén de datos debe contener información acordada y presentada de manera uniforme que mejor se adapte al contenido de las bases de datos operativas. Se necesita un componente para extraer y "limpiar" información de diferentes fuentes. Muchas grandes corporaciones tienen simultáneamente varios SI operativos con sus propias bases de datos (por razones históricas). Las bases de datos operativas pueden contener información semánticamente equivalente presentada en diferentes formatos, con una indicación diferente de la hora de su recepción, a veces incluso contradictoria
El conjunto de consultas contra la base de datos analítica es imposible de predecir. almacén de datos existen para responder a solicitudes de analistas ad hoc. Solo puede contar con el hecho de que las solicitudes no llegarán con demasiada frecuencia e involucrarán grandes cantidades de información. El tamaño de la base de datos analítica estimula el uso de consultas con agregados (suma, mínimo, máximo, significar etc.) Los sistemas de procesamiento de datos se crean con una solución en mente tareas específicas... La información de la base de datos se selecciona con frecuencia y en pequeñas porciones. Por lo general, el conjunto de consultas a la base de datos operativa ya se conoce durante el diseño.
Con una baja variabilidad de las bases de datos analíticas (solo cuando se cargan datos), el orden de las matrices, los métodos de indexación más rápidos para el muestreo masivo y el almacenamiento de datos preagregados resultan razonables Los sistemas de procesamiento de datos son por su naturaleza altamente volátiles, lo que se tiene en cuenta en el DBMS utilizado (estructura de base de datos normalizada, las filas se almacenan de manera desordenada, árboles B para indexación, transaccional)
La información analítica de la base de datos es tan crítica para una corporación que se requiere una gran granulación de protección (derechos de acceso individual a ciertas filas y / o columnas de la tabla) Para los sistemas de procesamiento de datos, generalmente es suficiente protección de la información al nivel de la mesa

Reglas codd para sistemas OLAP

En 1993, Codd publicó un trabajo titulado "OLAP para usuarios analíticos: lo que debería ser". En él, esbozó los conceptos básicos del procesamiento analítico en línea e identificó 12 reglas que deben cumplir los productos que permiten el procesamiento analítico en línea.

  1. Visión conceptual multidimensional. El modelo OLAP debe ser multidimensional en su esencia. Un esquema conceptual multidimensional o una vista personalizada facilita el modelado y el análisis, así como el cálculo.
  2. Transparencia. El usuario puede obtener todos los datos necesarios de la máquina OLAP, sin ni siquiera saber de dónde vienen. Tanto si el producto OLAP forma parte de las herramientas del usuario como si no, este hecho debería ser invisible para el usuario. Si OLAP es proporcionado por computación cliente-servidor, entonces este hecho también debería, si es posible, ser invisible para el usuario. OLAP debe presentarse en el contexto de una arquitectura verdaderamente abierta, que permita al usuario, esté donde esté, comunicarse con el servidor mediante una herramienta analítica. Además de esto, también se debe lograr la transparencia cuando la herramienta analítica interactúa con entornos de bases de datos homogéneos y heterogéneos.
  3. Disponibilidad. OLAP debe proporcionar su propio diagrama de lógica para acceder en un entorno de base de datos heterogéneo y realizar las transformaciones adecuadas para proporcionar datos al usuario. Además, es necesario tener cuidado de antemano sobre dónde y cómo, y qué tipos organización física los datos se utilizarán realmente. El sistema OLAP solo debe acceder a los datos que realmente se requieren, no se aplican principio general "embudo de cocina", que implica una entrada innecesaria.
  4. Constante rendimiento al desarrollar informes. Rendimiento la presentación de informes no debería disminuir significativamente con el aumento en el número de dimensiones y el tamaño de la base de datos.
  5. Arquitectura cliente-servidor. Se requiere que el producto no solo sea cliente / servidor, sino también que el componente del servidor sea lo suficientemente inteligente como para que diferentes clientes puedan conectarse con un mínimo de esfuerzo y programación.
  6. Multidimensionalidad general. Todas las dimensiones deben ser iguales, cada dimensión debe ser equivalente tanto en estructura como en capacidades operativas. Es cierto que se permiten capacidades operativas adicionales para mediciones individuales (aparentemente, el tiempo está implícito), pero tal funciones adicionales debe darse a cualquier dimensión. No debería ser tan básico estructuras de datos, los formatos computacionales o de informes eran más específicos para cualquier dimensión.
  7. Control dinámico matrices dispersas... Los sistemas OLAP deben ajustar automáticamente su esquema físico en función del tipo de modelo, los volúmenes de datos y la escasez de la base de datos.
  8. Soporte multijugador. La herramienta OLAP debe proporcionar capacidades intercambio (solicitud y adición), integridad y seguridad.
  9. Crossovers ilimitados. Se deben permitir todo tipo de operaciones para cualquier medida.
  10. Manipulación de datos intuitiva. La manipulación de datos se llevó a cabo mediante acciones directas sobre celdas en el modo de visualización sin utilizar menús y múltiples operaciones.
  11. Opciones de informes flexibles. Las mediciones deben incluirse en el informe según las necesidades del usuario.
  12. Ilimitado

Introducción

En nuestro tiempo, casi ninguna organización puede prescindir de los sistemas de gestión de bases de datos, especialmente entre aquellas que tradicionalmente se centran en la interacción con los clientes. Bancos, las compañías de seguros, empresas de transporte aéreo y de otro tipo, cadenas de supermercados, empresas de telecomunicaciones y marketing, organizaciones de servicios y otras, todas recopilan y almacenan en sus bases de datos gigabytes de datos sobre clientes, productos y servicios. El valor de tal información está fuera de toda duda. Estas bases de datos se denominan operativas o transaccionales porque se caracterizan por una gran cantidad de pequeñas transacciones u operaciones de lectura y escritura. Sistemas informáticoscontabilizando las transacciones y el acceso real a las bases de transacciones, es habitual llamar a los sistemas de procesamiento de transacciones en línea (OLTP - Procesamiento de transacciones en línea) o sistemas de contabilidad.

Los sistemas contables están afinados y optimizados para realizar el máximo número de transacciones en cortos periodos de tiempo. Normalmente, las operaciones individuales son muy pequeñas y no están relacionadas entre sí. Sin embargo, cada registro de datos que caracteriza la interacción con un cliente (una llamada al soporte, una transacción en efectivo, un pedido por catálogo, una visita al sitio web de la empresa, etc.) se puede utilizar para obtener información cualitativamente nueva, es decir, para crear informes y analizar las actividades de la empresa. ...

El conjunto de funciones analíticas en los sistemas contables suele ser muy limitado. Los esquemas utilizados en las aplicaciones OLTP dificultan la creación de informes incluso simples, ya que los datos se distribuyen con mayor frecuencia en muchas tablas y se requieren combinaciones complejas para agregarlos. Por lo general, los intentos de crear informes complejos requieren una gran potencia de cálculo y provocan una pérdida de rendimiento.

Además, los sistemas de contabilidad almacenan datos en constante cambio. A medida que se recopilan las transacciones, los totales cambian muy rápidamente, por lo que dos análisis realizados con varios minutos de diferencia pueden producir resultados diferentes. La mayoría de las veces, el análisis se realizará al final del período del informe; de \u200b\u200blo contrario, la imagen puede distorsionarse. Además, los datos necesarios para el análisis se pueden almacenar en varios sistemas.

Algunos análisis requieren cambios estructurales que son inaceptables en el entorno operativo actual. Por ejemplo, debe averiguar qué sucede si la empresa tiene nuevos productos. Esta investigación no puede llevarse a cabo sobre una base viva. En consecuencia, el análisis eficaz rara vez se realiza directamente en el sistema contable.

Los sistemas de apoyo a la toma de decisiones generalmente tienen los medios para proporcionar al usuario datos agregados para varias muestras del conjunto inicial en una forma conveniente para la percepción y el análisis. Por lo general, estas funciones agregadas forman un conjunto de datos multidimensional (y, por lo tanto, no relacional) (a menudo llamado hipercubo o metacubo), cuyos ejes contienen parámetros y las celdas, los datos agregados que dependen de ellos, y dichos datos pueden almacenarse en tablas relacionales. A lo largo de cada eje, los datos se pueden organizar en una jerarquía que representa niveles diferentes sus detalles. Con este modelo de datos, los usuarios pueden formular consultas complejas, generar informes, obtener subconjuntos de datos.

Esto es precisamente lo que provocó el interés por los sistemas de soporte de decisiones, que se han convertido en el principal campo de aplicación de OLAP (Procesamiento Analítico en Línea, Procesamiento Analítico en Línea, Análisis de Datos en Línea), que convierte el "mineral" de los sistemas OLTP en un "producto" que los administradores y analistas pueden utilizar directamente. Este método permite a los analistas, gerentes y ejecutivos "llegar al fondo" de los datos acumulados mediante un acceso rápido y consistente a una amplia gama de vistas de información.

El propósito papel a plazo es la consideración de la tecnología OLAP.

procesamiento de datos analíticos multidimensionales

Parte principal

1 Entendiendo OLAP

El concepto OLAP se basa en el principio de presentación de datos multidimensionales. En 1993, Edgar Codd acuñó el término OLAP. Habiendo considerado las deficiencias del modelo relacional, en primer lugar señaló la imposibilidad de "combinar, visualizar y analizar datos desde el punto de vista de múltiples dimensiones, es decir, de la forma más comprensible para los analistas corporativos", y definió la Requisitos generales para sistemas OLAP que amplían la funcionalidad del DBMS relacional e incluyen el análisis multidimensional como una de sus características.

En una gran cantidad de publicaciones, la abreviatura OLAP denota no solo una vista multidimensional de los datos, sino también el almacenamiento de los datos en sí en una base de datos multidimensional. En general, esto no es cierto, ya que el propio Codd señala que “las bases de datos relacionales han sido, son y serán la tecnología más adecuada para almacenar datos corporativos. No existe la necesidad de nueva tecnología DB, sino más bien en herramientas de análisis que complementan las funciones de los DBMS existentes y son lo suficientemente flexibles para prever y automatizar diferentes tipos de minería inherentes a OLAP ". Esta confusión conduce a oposiciones como" OLAP o ROLAP ", lo cual no es del todo correcto, ya que ROLAP (OLAP relacional) a nivel conceptual admite toda la funcionalidad definida por el término OLAP. Parece más preferible utilizar el término especial MOLAP para OLAP basado en DBMS multidimensionales. Según Codd, una vista conceptual multidimensional es una perspectiva múltiple consta de varias dimensiones independientes a lo largo de las cuales se pueden analizar conjuntos específicos de datos. El análisis simultáneo en varias dimensiones se define como análisis multivariante. Cada dimensión incluye direcciones de consolidación de datos, que consta de una serie de niveles sucesivos de agregación, donde cada nivel superior nb corresponde a un mayor grado de agregación de datos a lo largo de la dimensión correspondiente. Entonces, medición.

El ejecutante puede ser determinado por la dirección de consolidación, que consiste en los niveles de generalización "empresa - departamento - departamento - empleado". La dimensión Tiempo puede incluso incluir las dos direcciones de consolidación - año - trimestre - mes - día y semana - día, porque el conteo del tiempo por mes y por semana es incompatible. En este caso, es posible seleccionar arbitrariamente el nivel de detalle de información deseado para cada una de las mediciones. La operación de perforación corresponde al movimiento de las etapas superiores de consolidación a las inferiores; por el contrario, una operación de enrollamiento significa pasar de niveles inferiores a niveles superiores.

Codd define 12 reglas que deben cumplirse software Clase OLAP.

1.2 Requisitos para las herramientas de procesamiento analítico en línea

Vista conceptual multidimensional. La representación conceptual de un modelo de datos en un producto OLAP debe ser de naturaleza multidimensional, es decir, debe permitir a los analistas realizar operaciones intuitivas de "cortar y cortar", rotar y pivotar de direcciones de consolidación. Transparencia. El usuario no debe saber qué medios específicos se utilizan para almacenar y procesar datos, cómo se organizan los datos y de dónde provienen.

Accesibilidad. El analista debe poder realizar análisis dentro del marco de un marco conceptual común, pero al mismo tiempo los datos pueden permanecer bajo el control del legado restante del DBMS, mientras están vinculados al modelo analítico general. Es decir, las herramientas OLAP deben superponer su lógica a conjuntos de datos físicos, realizando todas las transformaciones necesarias para proporcionar una visión única, coherente y holística del usuario sobre la información.

Rendimiento de informes consistente A medida que aumenta el número de dimensiones y tamaños de base de datos, los analistas no deberían experimentar ninguna degradación del rendimiento. El rendimiento sostenido es esencial para mantener la facilidad de uso y la ausencia de la complejidad necesaria para llevar OLAP al usuario final.

Arquitectura cliente-servidor (Arquitectura Cliente-Servidor). La mayoría de los datos que requieren procesamiento analítico en línea se almacenan en sistemas mainframe y se recuperan de computadoras personales... Por tanto, uno de los requisitos es la capacidad de los productos OLAP para funcionar en un entorno cliente-servidor. La idea principal aquí es que el componente servidor de la herramienta OLAP debe ser lo suficientemente inteligente y tener la capacidad de construir un diagrama conceptual general basado en la generalización y consolidación de varios esquemas lógicos y físicos de bases de datos corporativas para proporcionar un efecto transparente.

Igualdad de medidas (dimensionalidad genérica). Todas las medidas de datos deben ser iguales. Se pueden proporcionar características adicionales a las dimensiones individuales, pero como todas son simétricas, esta funcionalidad adicional se puede proporcionar a cualquier dimensión. La estructura de datos subyacente, las fórmulas y los formatos de informe no deben depender de ninguna dimensión.

Manejo dinámico de matriz dispersa. La herramienta OLAP debería poder manejar matrices dispersas de manera óptima. La velocidad de acceso debe mantenerse independientemente de la ubicación de las celdas de datos y ser constante para modelos con diferentes números de dimensiones y diferente escasez de datos.

Soporte para el modo multiusuario (Soporte multiusuario). A menudo, varios analistas necesitan trabajar con el mismo modelo analítico al mismo tiempo o crear diferentes modelos basados \u200b\u200ben los mismos datos corporativos. La herramienta OLAP debe proporcionarles acceso simultáneo, integridad y protección de datos.

Operaciones interdimensionales sin restricciones. Calcular y manipular datos en cualquier número de dimensiones no debe prohibir ni restringir ninguna relación entre celdas de datos. Las transformaciones que requieren una definición arbitraria deben especificarse en un lenguaje de fórmulas funcionalmente completo.

Manipulación de datos intuitiva. La reorientación de las direcciones de consolidación, el detalle de los datos en columnas y filas, la agregación y otras manipulaciones inherentes a la estructura de la jerarquía de direcciones de consolidación deben realizarse en la interfaz de usuario más conveniente, natural y cómoda.

Mecanismo de informes flexible (informes flexibles). Se deben admitir diferentes formas de visualización de datos, es decir, los informes deben presentarse en cualquier orientación posible.

Dimensiones ilimitadas y niveles de agregación. Es muy recomendable asumir en toda herramienta OLAP seria al menos quince, y preferiblemente veinte, dimensiones en el modelo analítico.

2 Componentes de los sistemas OLAP

2.1 Servidor. Cliente. La Internet

OLAP le permite realizar análisis rápidos y eficientes en grandes cantidades de datos. Los datos se almacenan en una forma multidimensional que refleja más fielmente el estado natural de los datos comerciales reales. Además, OLAP ofrece a los usuarios la posibilidad de obtener datos resumidos de forma más rápida y sencilla. Con su ayuda, pueden profundizar en el contenido de estos datos, si es necesario, para obtener información más detallada.

Un sistema OLAP consta de muchos componentes. En el nivel más alto de presentación, el sistema incluye la fuente de datos, el servidor OLAP y el cliente. Una fuente de datos es una fuente de la que se toman datos para su análisis. Los datos de la fuente se transfieren o copian al servidor OLAP, donde se organizan y preparan para una generación posterior más rápida de respuestas a las consultas. El cliente es la interfaz de usuario del servidor OLAP. Esta sección del artículo describe las funciones de cada componente y la importancia de todo el sistema en su conjunto. Fuentes. La fuente en los sistemas OLAP es el servidor que proporciona los datos para el análisis. Según el alcance del producto OLAP, la fuente puede ser un almacén de datos, una base de datos heredada que contiene datos generales, un conjunto de tablas que combinan datos financieros o cualquier combinación de los anteriores. La capacidad de un producto OLAP para trabajar con datos de diferentes fuentes es muy importante. Requerir un formato uniforme o una sola baseque almacenaría todos los datos originales no es adecuado para administradores de bases de datos. Además, este enfoque reduce la flexibilidad y la potencia del producto OLAP. Tanto los administradores como los usuarios creen que los productos OLAP que extraen datos no solo de fuentes diferentes sino también de múltiples fuentes son más flexibles y útiles que aquellos con requisitos más estrictos.

Servidor. El servidor OLAP es la parte aplicada del sistema OLAP. Este componente hace todo el trabajo (según el modelo del sistema) y almacena toda la información a la que se proporciona acceso activo. La arquitectura del servidor se basa en diferentes conceptos. En particular, la principal característica funcional de un producto OLAP es el uso de una base de datos multidimensional (MMDB, MDDB) o relacional (RDB, RDB) para el almacenamiento de datos. Datos agregados / preagregados

La implementación rápida de consultas es imperativa para OLAP. Este es uno de los principios básicos de OLAP: la capacidad de manipular datos de forma intuitiva requiere una rápida recuperación de la información. En general, cuantos más cálculos se requieran para obtener un dato, más lenta será la respuesta. Por tanto, con el fin de ahorrar un poco de tiempo para la implementación de las consultas, las piezas de información a las que normalmente se accede con mayor frecuencia, pero que a la vez requieren computación, se someten a agregación preliminar. Es decir, se cuentan y luego se almacenan en la base de datos como datos nuevos. Un ejemplo de un tipo de datos que se puede calcular de antemano son los datos de resumen, por ejemplo, cifras de ventas por mes, trimestre o año, para los cuales los datos reales ingresados \u200b\u200bson cifras diarias.

Los diferentes proveedores tienen diferentes métodos de selección para los parámetros que requieren una agregación previa y una serie de valores precalculados. El enfoque de agregación afecta tanto a la base de datos como al tiempo de ejecución de la consulta. Si se calculan más valores, aumenta la probabilidad de que el usuario solicite un valor ya calculado, por lo que el tiempo de respuesta será menor, ya que no es necesario pedir el valor inicial para el cálculo. Sin embargo, si calcular todos los valores posibles no es la mejor solución, en este caso, el tamaño de la base de datos aumentará significativamente, lo que la hará inmanejable y el tiempo de agregación será demasiado largo. Además, cuando se agregan valores numéricos a la base de datos, o si cambian, esta información debe reflejarse en valores precalculados en función de los nuevos datos. Por tanto, la actualización de la base de datos también puede llevar mucho tiempo en el caso de una gran cantidad de valores precalculados. Dado que la base de datos suele estar fuera de línea durante la agregación, es deseable que el tiempo de agregación no sea demasiado largo.

Cliente. El cliente es lo que se utiliza para representar y manipular datos en la base de datos. El cliente puede ser bastante simple, en forma de una tabla que incluye capacidades OLAP como, por ejemplo, rotación de datos (pivote) y profundización de datos (exploración), y puede ser un visor de informes especializado, pero igual de simple o ser tan potente como una aplicación a medida diseñada para la manipulación de datos complejos. Internet es una nueva forma de cliente. Además, lleva el sello de las nuevas tecnologías; muchas soluciones de Internet difieren significativamente en sus capacidades en general y en la calidad de las soluciones OLAP en particular. Esta sección analiza las diversas propiedades funcionales de cada tipo de cliente.

Si bien el servidor es la columna vertebral de una solución OLAP, el cliente es igualmente importante. El servidor puede proporcionar una base sólida para facilitar la manipulación de datos, pero si el cliente es complejo o poco funcional, el usuario no podrá aprovechar al máximo un servidor potente. El cliente es tan importante que muchos proveedores centran sus esfuerzos únicamente en el desarrollo del cliente. Todo lo que se incluye en estas aplicaciones es una mirada estándar a la interfaz, funciones y estructura predefinidas y soluciones rápidas para situaciones más o menos estándar. Por ejemplo, los paquetes financieros son populares. Las aplicaciones financieras predefinidas permiten a los profesionales utilizar instrumentos financieros familiares sin tener que diseñar una estructura de base de datos o formularios e informes comunes. Herramienta de consulta / generador de informes. Una herramienta de consulta o un generador de informes ofrece un fácil acceso a los datos OLAP. Son fáciles de usar interfaz grafica y permitir que los usuarios creen informes moviendo objetos al informe mediante el " arrastrar y drop ". Mientras que el generador de informes tradicional brinda al usuario la capacidad de publicar rápidamente informes formateados, los generadores de informes compatibles con OLAP generan informes actualizados. El producto final es un informe que tiene la capacidad de desglosar los datos nivelar, rotar (pivotar) informes, jerarquías de soporte, etc. Complementos (adiciones) de hojas de cálculo.

Hoy en día, en muchas líneas de negocio, se realizan diversas formas de análisis de datos corporativos mediante hojas de cálculo. En cierto modo, es un visor de informes y datos ideal. El analista puede crear macros que funcionen con datos en una dirección elegida, y la plantilla puede diseñarse para que cuando se ingresen datos, las fórmulas calculen los valores correctos, eliminando la necesidad de volver a ingresar cálculos simples.

Sin embargo, todo esto da como resultado un informe "plano", lo que significa que una vez creado, es difícil visualizarlo de diferentes formas. Por ejemplo, un gráfico muestra información durante un período de tiempo, digamos, un mes. Y si uno quiere ver las cifras del día (a diferencia de los datos del mes), será necesario crear un gráfico completamente nuevo. Hay que definir nuevos conjuntos de datos, agregar nuevas etiquetas al gráfico y realizar muchos otros cambios simples pero tediosos. Además, hay una serie de áreas en las que se pueden cometer errores, lo que en general reduce la fiabilidad. Cuando se agrega OLAP a una tabla, es posible crear un solo gráfico y luego someterlo a varias manipulaciones para proporcionar al usuario la información necesaria, sin sobrecargarse con la creación de todas las vistas posibles. Internet como cliente. Internet es un nuevo miembro de la familia de clientes OLAP. La generación de informes OLAP a través de Internet tiene muchas ventajas. El más significativo es la ausencia de la necesidad de un software especializado para acceder a la información. Esto le ahorra a la empresa mucho tiempo y dinero.

Cada producto de Internet es específico. Algunos facilitan la creación de páginas web, pero son menos flexibles. Otros le permiten crear vistas de sus datos y luego guardarlos como archivos HTML estáticos. Todo esto hace posible ver datos a través de Internet, pero nada más. Es imposible manipular activamente los datos con su ayuda.

Existe otro tipo de producto, interactivo y dinámico, que transforma dichos productos en herramientas totalmente funcionales. Los usuarios pueden profundizar en los datos, pivotar, limitar dimensiones y más. Antes de elegir un medio de implementación de Internet, es importante comprender qué funcionalidad se requiere de una solución web y luego determinar qué producto. la mejor manera incorporará esta funcionalidad.

Aplicaciones. Las aplicaciones son un tipo de cliente que utiliza bases de datos OLAP. Son idénticas a las herramientas de consulta y los generadores de informes descritos anteriormente, pero también agregan más funcionalidad al producto. La aplicación es generalmente más poderosa que la herramienta de consulta.

Desarrollo. Normalmente, los proveedores de OLAP proporcionan un entorno de desarrollo para que los usuarios creen sus propias aplicaciones personalizadas. El entorno de desarrollo en su conjunto es una interfaz gráfica que admite el desarrollo de aplicaciones orientadas a objetos. Además, la mayoría de los proveedores proporcionan una API que se puede utilizar para integrar bases de datos OLAP con otras aplicaciones.

2.2 clientes OLAP

Los clientes OLAP con una máquina OLAP incorporada se instalan en las PC de los usuarios. No requieren un servidor para la computación y no tienen administración. Estos clientes permiten al usuario sintonizar sus bases de datos existentes; como regla, esto crea un diccionario que oculta la estructura física de los datos detrás de su descripción temática, comprensible para un especialista. El cliente OLAP luego ejecuta consultas arbitrarias y muestra los resultados en una tabla OLAP. En esta tabla, a su vez, el usuario puede manipular los datos y recibir cientos de informes diferentes en pantalla o en papel. Los clientes OLAP diseñados para trabajar con RDBMS le permiten analizar datos ya disponibles en una corporación, por ejemplo, almacenados en una base de datos OLTP. Sin embargo, su segundo propósito puede ser crear de forma rápida y económica almacenes de datos o mercados de datos; en este caso, los programadores de la organización solo necesitan crear colecciones de tablas estrella en bases de datos relacionales y procedimientos de carga de datos. La parte del trabajo que lleva más tiempo (escribir interfaces con numerosas opciones para consultas e informes personalizados) se implementa en el cliente OLAP en tan solo unas horas. El usuario final, por otro lado, tarda unos 30 minutos en dominar dicho programa. Los propios desarrolladores de bases de datos proporcionan los clientes OLAP, tanto multidimensionales como relacionales. Estos son SAS Corporate Reporter, que es casi un producto de referencia en términos de conveniencia y belleza, Oracle Discoverer, un conjunto de programas MS Pivot Services y Pivot Table, etc. Muchos programas diseñados para trabajar con MS OLAP Services se entregan como parte del Campaña OLAP realizada por Microsoft Corporation. Por lo general, son mejoras de la tabla dinámica y están diseñadas para su uso en MS Office o un navegador web. Se trata de productos de Matryx, Knosys, etc., que han ganado una inmensa popularidad en Occidente debido a su sencillez, bajo coste y eficiencia.

3 Clasificación de productos OLAP

3.1 OLAP multidimensional

Actualmente, hay una gran cantidad de productos en el mercado que brindan funcionalidad OLAP en un grado u otro. Al proporcionar una vista conceptual multidimensional desde la interfaz de usuario hasta la base de datos de origen, todos los productos OLAP se dividen en tres clases, similares a la base de datos de origen.

1. Los primeros sistemas de procesamiento analítico en línea (por ejemplo, Essbase de Arbor Software, Oracle Express Server de Oracle) pertenecían a la clase MOLAP, es decir, solo podían trabajar con sus propias bases de datos multidimensionales. Se basan en tecnologías patentadas de DBMS multidimensionales y son las más caras. Estos sistemas proporcionan un ciclo completo de procesamiento OLAP. Incluyen, además del componente de servidor, su propia interfaz de cliente integrada, o se utilizan para comunicarse con el usuario. programas externos trabajar con hojas de cálculo. Para mantener dichos sistemas, se requiere un personal especial de empleados para instalar, mantener el sistema y formar representaciones de datos para los usuarios finales.

2. Los sistemas de procesamiento analítico online de datos relacionales (ROLAP) permiten representar datos almacenados en una base de datos relacional en forma multidimensional, proporcionando la transformación de información en un modelo multidimensional a través de una capa intermedia de metadatos. Esta clase incluye DSS Suite de MicroStrategy, MetaCube de Informix, DecisionSuite de Information Advantage y otros. Paquete de software InfoVisor, desarrollado en Rusia en la Universidad Estatal de Ingeniería Eléctrica de Ivanovo, también es un sistema de esta clase. Los sistemas ROLAP son adecuados para trabajar con grandes instalaciones de almacenamiento. Al igual que los sistemas MOLAP, requieren un mantenimiento de TI significativo y son multiusuario.

3. Finalmente, los sistemas híbridos (Hybrid OLAP, HOLAP) están diseñados para combinar las ventajas y minimizar las desventajas inherentes a las clases anteriores. Esta clase incluye Media / MR de Speedware. Según los desarrolladores, combina la flexibilidad analítica y la capacidad de respuesta de MOLAP con el acceso constante a datos reales inherentes a ROLAP.

Además de estas herramientas, hay otra clase: herramientas de consulta e informes de escritorio, complementadas con funciones OLAP o integradas con herramientas externas que realizan dichas funciones. Estos sistemas bien desarrollados obtienen datos de fuentes originales, los transforman y los colocan en una base de datos multidimensional dinámica que se ejecuta en la estación del cliente del usuario final. Los principales representantes de esta clase son BusinessObjects de la empresa del mismo nombre, BrioQuery de Brio Technology y PowerPlay de Cognos. En el apéndice se proporciona una descripción general de algunos productos OLAP.

En los DBMS especializados basados \u200b\u200ben la representación de datos multidimensionales, los datos no se organizan en forma de tablas relacionales, sino en forma de matrices multidimensionales ordenadas:

1) hipercubos (todas las celdas almacenadas en la base de datos deben tener la misma dimensión, es decir, estar en la base de medidas más completa) o

2) policubos (cada variable se almacena con su propio conjunto de medidas, y todas las dificultades de procesamiento asociadas se trasladan a los mecanismos internos del sistema).

El uso de bases de datos multidimensionales en sistemas de procesamiento analítico en línea tiene las siguientes ventajas.

1. En el caso de utilizar un DBMS multidimensional, la búsqueda y recuperación de datos es mucho más rápida que con una vista conceptual multidimensional de una base de datos relacional, ya que una base de datos multidimensional está desnormalizada, contiene indicadores preagregados y proporciona un acceso optimizado a las celdas solicitadas.

2. Los DBMS multidimensionales hacen frente fácilmente a las tareas de incluir varias funciones integradas en el modelo de información, aunque objetivamente existen limitaciones lenguaje SQL hacen que sea difícil ya veces imposible realizar estas tareas sobre la base de DBMS relacionales.

Por otro lado, existen limitaciones importantes.

1. Los DBMS multidimensionales no permiten trabajar con grandes bases de datos. Además, debido a la desnormalización y la agregación realizada previamente, la cantidad de datos en una base de datos multidimensional, como regla, corresponde (según Codd) a 2.5-100 veces menos que el volumen de los datos detallados originales.

2. Los DBMS multidimensionales se utilizan de manera muy ineficiente en comparación con los relacionales. memoria externa... En la inmensa mayoría de los casos, el hipercubo de información es muy escaso y, dado que los datos se almacenan en forma ordenada, los valores indefinidos se pueden eliminar solo eligiendo el orden de clasificación óptimo que permita organizar los datos en los grupos contiguos más grandes. Aun así, el problema solo se resuelve parcialmente. Además, el orden de clasificación óptimo para almacenar datos dispersos probablemente no coincidirá con el orden que se usa con más frecuencia en las consultas. Por lo tanto en sistemas reales tiene que encontrar un compromiso entre el rendimiento y la redundancia del espacio en disco ocupado por la base de datos.

Por lo tanto, el uso de DBMS multidimensionales se justifica solo bajo las siguientes condiciones.

1. El volumen de datos iniciales para el análisis no es demasiado grande (no más de varios gigabytes), es decir, el nivel de agregación de datos es bastante alto.

2. El conjunto de dimensiones de la información es estable (ya que cualquier cambio en su estructura casi siempre requiere una reconstrucción completa del hipercubo).

3. El tiempo de respuesta del sistema a solicitudes ad hoc es el parámetro más crítico.

4. Se requiere un uso extensivo de funciones integradas complejas para realizar cálculos multidimensionales en celdas de un hipercubo, incluida la capacidad de escribir funciones personalizadas.

El uso directo de bases de datos relacionales en sistemas de procesamiento analítico en línea tiene las siguientes ventajas.

1. En la mayoría de los casos, los almacenes de datos corporativos se implementan utilizando herramientas DBMS relacionales y las herramientas ROLAP le permiten analizar directamente sobre ellos. Al mismo tiempo, el tamaño de almacenamiento no es un parámetro tan crítico como en el caso de MOLAP.

2. En el caso de una dimensión variable del problema, cuando es necesario realizar cambios en la estructura de medición con bastante frecuencia, los sistemas ROLAP con una representación dinámica de la dimensión son la solución óptima, ya que en ellos tales modificaciones no requieren un reorganización de la base de datos.

3. Los DBMS relacionales proporcionan un nivel significativamente más alto de protección de datos y buenas oportunidades para diferenciar los derechos de acceso.

La principal desventaja de ROLAP en comparación con DBMS multidimensionales es un rendimiento más bajo. Los sistemas relacionales requieren un esquema de base de datos cuidadoso y un ajuste de índices para lograr un rendimiento comparable al MOLAP, lo que significa un gran esfuerzo por parte de los administradores de bases de datos. Solo mediante el uso de esquemas en estrella, el rendimiento de los sistemas relacionales bien ajustados puede acercarse al rendimiento de los sistemas de bases de datos multidimensionales.

La descripción del esquema en estrella y las recomendaciones para su uso están íntegramente dedicadas a la obra. Su idea es que hay tablas para cada dimensión, y todos los hechos se colocan en una tabla, indexados por una clave múltiple compuesta por claves de dimensiones individuales (Apéndice A). Cada rayo del esquema de estrella define, en la terminología de Codd, la dirección de consolidación de datos a lo largo de la dimensión correspondiente.

Para problemas complejos con dimensiones multinivel, tiene sentido recurrir a las extensiones del esquema de estrella: el esquema de constelación de hecho y el esquema de copo de nieve. En estos casos, se crean tablas de hechos independientes para posibles combinaciones de niveles de resumen de diferentes dimensiones (Apéndice B). Esto permite un mejor rendimiento, pero a menudo conduce a la redundancia de datos y a complicaciones significativas en la estructura de la base de datos en la que gran cantidad tablas de hechos.

El aumento del número de tablas de hechos en la base de datos puede deberse no solo a la multiplicidad de niveles de diferentes dimensiones, sino también al hecho de que, en general, los hechos tienen diferentes conjuntos de dimensiones. Al abstraerse de mediciones individuales, el usuario debe obtener una proyección del hipercubo más completo, y no siempre los valores de los indicadores en él deben ser el resultado de una suma elemental. Por lo tanto, con una gran cantidad de dimensiones independientes, es necesario mantener muchas tablas de hechos correspondientes a cada posible combinación de dimensiones seleccionadas en la consulta, lo que también conduce a un desperdicio de memoria externa, un aumento en el tiempo de carga de datos en la consulta. base de datos de esquema en estrella de fuentes externas y dificultades de administración.

Extensiones del lenguaje SQL (operadores GROUP BY CUBE "," GROUP BY ROLLUP "y" GROUP BY GROUPING SETS ") resuelven parcialmente este problema; además, se propone un mecanismo para encontrar un compromiso entre redundancia y rendimiento, recomendando crear tablas de hechos no para todas las combinaciones posibles de dimensiones, sino solo para aquellas cuyos valores de celda no se pueden obtener mediante la agregación posterior de tablas de hechos más completas (Apéndice B).

En cualquier caso, si el modelo multidimensional se implementa como una base de datos relacional, debe crear tablas de hechos largas y "estrechas" y tablas de dimensiones relativamente pequeñas y "anchas". Las tablas de hechos contienen los valores numéricos de las celdas del hipercubo, y el resto de las tablas definen la base multidimensional que las contiene. Parte de la información se puede obtener agregando dinámicamente datos distribuidos en estructuras normalizadas no estelares, aunque debe recordarse que las consultas que involucran agregación con una estructura de base de datos altamente normalizada pueden ser bastante lentas.

Centrarse en la presentación de información multidimensional utilizando modelos relacionales en forma de estrella le permite deshacerse del problema de optimizar el almacenamiento de matrices dispersas, que es agudo para los DBMS multidimensionales (donde el problema de la dispersión se resuelve mediante una elección especial de un esquema ). Aunque se utiliza un registro completo para almacenar cada celda, que, además de los valores en sí, incluye claves secundarias: referencias a tablas de dimensiones, los valores no existentes simplemente no se incluyen en la tabla de hechos.

Conclusión

Habiendo considerado las cuestiones de operación y aplicación de la tecnología OLAP, las empresas se enfrentan a interrogantes cuyas respuestas permitirán elegir el producto que mejor se adapte a las necesidades del usuario.

Estas son las siguientes preguntas:

¿De dónde provienen los datos? - Los datos a analizar pueden estar en diferentes lugares. Es posible que la base de datos OLAP los reciba del data warehouse corporativo o del sistema OLTP. Si el producto OLAP ya tiene la capacidad de acceder a una fuente de datos, se reducen los procesos de categorización y limpieza de datos.

¿Qué manipulaciones realiza el usuario con los datos? -
Una vez que el usuario ha accedido a la base de datos y ha comenzado a realizar el análisis, es importante que pueda manipular los datos de forma adecuada. Dependiendo de las necesidades del usuario, es posible que necesite un potente generador de informes o la capacidad de crear y alojar páginas web dinámicas. Sin embargo, puede ser preferible que el usuario tenga a su disposición un medio para crear fácil y rápidamente sus propias aplicaciones.

¿Cuál es la cantidad total de datos? - Este es el factor más importante a la hora de definir una base de datos OLAP. Los productos OLAP relacionales son más capaces de manejar grandes cantidades de datos que los multidimensionales. Si el volumen de datos no requiere el uso de una base de datos relacional, el producto multidimensional puede usarse con igual éxito.

¿Quién es el usuario? - Al definir un cliente de sistema OLAP, el nivel de habilidad del usuario es importante. Algunos usuarios encontrarán más conveniente integrar OLAP con una hoja de cálculo, mientras que otros preferirán una aplicación especializada. Dependiendo de las calificaciones del usuario, también se decide la cuestión de realizar la formación. Una gran empresa puede querer pagar por la formación de los usuarios, pero una pequeña no. El cliente debe ser tal que los usuarios se sientan seguros y puedan usarlo de manera efectiva.

Hoy en día, la mayoría de las empresas del mundo han pasado a utilizar OLAP como tecnologia basica para proporcionar información a los tomadores de decisiones. Por lo tanto, la pregunta fundamental que debe plantearse no es si las hojas de cálculo deben seguir utilizándose como plataforma principal para la elaboración de informes, presupuestos y previsiones. Las empresas deben preguntarse si están preparadas para perder una ventaja competitiva al utilizar información inexacta, irrelevante e incompleta antes de madurar y considerar tecnologías alternativas.

Asimismo, en conclusión, cabe señalar que las capacidades analíticas de las tecnologías OLAP aumentan la utilidad de los datos almacenados en el almacén de información corporativa, permitiendo a la empresa interactuar de manera más efectiva con sus clientes.

Glosario

Concepto Definición
1 Herramientas de BI Herramientas y tecnologías utilizadas para acceder a la información. Incluye tecnologías OLAP, minería de datos y análisis sofisticado; herramientas de usuario final y herramientas de creación de consultas ad-hoc, paneles de control de negocios y generadores de informes corporativos.
2 Procesamiento analítico en línea, OLAP (procesamiento analítico en línea) Una tecnología para el procesamiento analítico de información en tiempo real, que incluye la preparación y publicación dinámica de informes y documentos.
3 Cortar y cortar (cortes longitudinales y transversales, literalmente, "cortar en rodajas y cubos") Término utilizado para describir la sofisticada funcionalidad de análisis de datos proporcionada por las herramientas OLAP. Obtención de datos de un cubo multidimensional con valores especificados y posición relativa especificada de dimensiones.
4 Pivote de datos El proceso de rotar una tabla con datos, es decir, convertir columnas en filas y viceversa.
5 Miembro calculado Un elemento de dimensión cuyo valor está determinado por los valores de otros elementos (por ejemplo, aplicaciones matemáticas o lógicas). El elemento calculado puede ser parte del servidor OLAP o ser descrito por el usuario durante una sesión interactiva. Un artículo calculado es cualquier artículo que no se ingresa, sino que se calcula.
6 Modelos de negocios globales Un tipo de almacén de datos que brinda acceso a la información que se distribuye a través de varios sistemas empresariales y está bajo el control de diferentes departamentos o departamentos con diferentes bases de datos y modelos de datos. Este tipo de almacén de datos es difícil de construir debido a la necesidad de combinar los esfuerzos de los usuarios de diferentes departamentos para desarrollar un modelo de datos común para el almacén.
7 Procesamiento de datos Técnicas que utilizan herramientas de softwarediseñado para un usuario que, por regla general, no puede decir de antemano qué es exactamente lo que está buscando, sino que solo puede indicar ciertos patrones y direcciones de búsqueda.
8 Servidor de cliente Enfoque tecnológico, que consiste en dividir el proceso en funciones separadas. El servidor realiza varias funciones: gestión de comunicaciones, mantenimiento de la base de datos, etc. El cliente realiza funciones de usuario individuales: proporciona las interfaces adecuadas, realiza la navegación entre pantallas, proporciona funciones de ayuda, etc.
9 Base de datos multidimensional, MDBS y MDBMS Una potente base de datos que permite a los usuarios analizar grandes cantidades de datos. Una base de datos con una organización de almacenamiento especial: cubos, que proporciona un trabajo de alta velocidad con datos almacenados como una colección de hechos, dimensiones y agregados precalculados.
10 Profundizar Un método de minería de datos detallado utilizado para analizar el nivel de datos agregados. Los niveles de "profundización" dependen de la granularidad de los datos en [almacenamiento.
11 Almacén central

1. Base de datos que contiene datos recopilados de sistemas operativos organizaciones. Tiene una estructura conveniente para el análisis de datos. Diseñado para apoyar la toma de decisiones y crear un espacio de información unificado para la corporación.

2. Una forma de automatización, que abarque todos los sistemas de información gestionados desde un solo lugar.

1 Golitsina O.L., Maksimov N.V., Popov I.I. Base de datos: Tutorial... - M.: FORO: INFRA-M, 2003 .-- 352 p.

2 Fecha K. Introducción a los sistemas de bases de datos. - M.: Nauka, 2005 - 246 p.

3 Elmanova N.V., Fedorov A.A. Introducción a las tecnologías OLAP de Microsoft. - M .: Dialog-MEPhI, 2004.- 312 p.

4 Karpova T.S. Bases de datos: modelos, desarrollo, implementación. - SPb.: Peter, 2006 .-- 304 p.

5 Korovkin S.D., Levenets I.A., Ratmanova I.D., Starykh V.A., Shchavelev L.V. Solución del problema del análisis operativo complejo de información en almacenes de datos // DBMS. - 2005. - No. 5-6. - 47-51 p.

6 Krechetov N., Ivanov P. Productos para la minería de datos ComputerWeek-Moscow. - 2003. - No. 14-15. - 32-39 p.

7 Przhiyalkovsky V.V. Análisis complejo de grandes datos: nuevas perspectivas para la informatización // DBMS. - 2006. - No. 4. - 71-83 p.

8 Sakharov A.A. El concepto de construcción e implementación de sistemas de información enfocados en el análisis de datos // DBMS. - 2004. - No. 4. - 55-70 p.

9 Ullman J. Conceptos básicos de los sistemas de bases de datos. - M.: Finanzas y estadísticas, 2003. - 312 p.

10 Hubbard J. Diseño de bases de datos asistido por computadora. - M.: Mir, 2007.- 294 p.


Korovkin S.D., Levenets I.A., Ratmanova I.D., Starykh V.A., Shchavelev L.V. Solución del problema del análisis operativo complejo de información en almacenes de datos // DBMS. - 2005. - No. 5-6. - 47-51 p.

Ullman J. Conceptos básicos de los sistemas de bases de datos. - M.: Finanzas y estadísticas, 2003. - 312 p.

A.A. Barsegyan, M.S. Kupriyanov Tecnologías de análisis de datos: DataMining, VisualMining, TextMining, Olap. - SPb.: BHV-Petersburg, 2007 .-- 532 p.

Elmanova N.V., Fedorov A.A. Introducción a las tecnologías OLAP de Microsoft. - M .: Dialog-MEPhI, 2004.- 312 p.

Fecha K. Introducción a los sistemas de bases de datos. - M.: Nauka, 2005 - 246 p.

Golitsina O.L., Maksimov N.V., Popov I.I. Bases de datos: Tutorial. - M.: FORO: INFRA-M, 2003.- 352s.

Sakharov A.A. El concepto de construcción e implementación de sistemas de información enfocados en el análisis de datos // DBMS. - 2004. - No. 4. - 55-70 p.

Przhiyalkovsky V.V. Análisis complejo de grandes datos: nuevas perspectivas de informatización // DBMS. - 2006. - No. 4. - 71-83 p.

El concepto de análisis de datos multivariados está estrechamente relacionado con el análisis operacional, que se realiza mediante sistemas OLAP.

OLAP (Procesamiento analítico en línea) es una tecnología para el procesamiento de datos analíticos en línea que utiliza métodos y herramientas para recopilar, almacenar y analizar datos multidimensionales con el fin de apoyar los procesos de toma de decisiones.

El propósito principal de los sistemas OLAP es apoyar las actividades analíticas, consultas arbitrarias (el término ad-hoc se usa a menudo) de usuarios-analistas. El propósito del análisis OLAP es probar hipótesis emergentes.

En los orígenes de la tecnología OLAP se encuentra el fundador del enfoque relacional E. Codd. En 1993, publicó un artículo titulado "OLAP para usuarios analíticos: cómo debería ser". Este documento describe los conceptos básicos del procesamiento analítico en línea e identifica los siguientes 12 requisitos que deben cumplir los productos que permiten el procesamiento analítico en línea. Tokmakov G.P. Base de datos. Concepto de base de datos, modelo de datos relacionales, lenguajes SQL. P. 51

A continuación se enumeran 12 reglas descritas por Codd que definen OLAP.

1. Multidimensionalidad - El sistema OLAP a nivel conceptual debe representar datos en forma de modelo multidimensional, que simplifica los procesos de análisis y percepción de la información.

2. Transparencia - El sistema OLAP debe ocultar al usuario la implementación real del modelo multidimensional, la forma de organización, fuentes, instalaciones de procesamiento y almacenamiento.

3. Disponibilidad: el sistema OLAP debe proporcionar al usuario un modelo de datos único, consistente y coherente, proporcionando acceso a los datos independientemente de cómo y dónde se almacenen.

4. Rendimiento constante al desarrollar informes: el rendimiento de los sistemas OLAP no debe degradarse significativamente a medida que aumenta el número de dimensiones que se analizan.

5. Arquitectura cliente-servidor: el sistema OLAP debe poder funcionar en un entorno cliente-servidor, porque la mayoría de los datos que hoy en día deben someterse a un procesamiento analítico en línea se almacenan de manera distribuida. La idea principal aquí es que el componente servidor de la herramienta OLAP debe ser lo suficientemente inteligente y permitir construir un esquema conceptual general basado en la generalización y consolidación de varios esquemas lógicos y físicos de bases de datos corporativas para asegurar el efecto de transparencia.

6. Igualdad de dimensiones - El sistema OLAP debe soportar un modelo multidimensional en el que todas las dimensiones sean iguales. Si necesario características adicionales puede otorgarse a dimensiones individuales, pero dicha capacidad debe otorgarse a cualquier dimensión.

7. Gestión dinámica de matrices dispersas: el sistema OLAP debería proporcionar un procesamiento óptimo de matrices dispersas. La velocidad de acceso debe mantenerse independientemente de la ubicación de las celdas de datos y ser constante para modelos con diferentes números de dimensiones y diferentes grados de escasez de datos.

8. Soporte para el modo multiusuario: el sistema OLAP debe proporcionar la capacidad de trabajar con varios usuarios junto con un modelo analítico o crear modelos diferentes para ellos a partir de un solo dato. En este caso, tanto la lectura como la escritura de datos son posibles, por lo que el sistema debe garantizar su integridad y seguridad.

9. Operaciones cruzadas ilimitadas: el sistema OLAP debe garantizar la preservación de las relaciones funcionales descritas utilizando un cierto lenguaje formal entre las celdas del hipercubo al realizar cualquier operación de corte, rotación, consolidación o detallado. El sistema debe realizar de forma independiente (automáticamente) la transformación de las relaciones establecidas sin que el usuario las redefina.

10. Manipulación de datos intuitiva: un sistema OLAP debe proporcionar una forma de realizar operaciones de corte, rotación, consolidación y desglose en un hipercubo sin que el usuario tenga que realizar muchas acciones de interfaz. Las mediciones definidas en el modelo analítico deben contener toda la información necesaria para realizar las operaciones anteriores.

11. Posibilidades flexibles de recibir informes: el sistema OLAP debe admitir varias formas de visualización de datos, es decir. los informes deben presentarse en cualquier orientación posible. Las herramientas de generación de informes deben representar datos sintetizados o información resultante del modelo de datos en cualquier orientación posible. Esto significa que las filas, columnas o páginas deben mostrar de 0 a N dimensiones al mismo tiempo, donde N es el número de dimensiones en todo el modelo analítico. Además, cada dimensión de contenido que se muestra en un solo registro, columna o página debe poder mostrar cualquier subconjunto de los elementos (valores) contenidos en la dimensión, en cualquier orden.

12. Dimensión ilimitada y número de niveles de agregación: la investigación del número posible de dimensiones requeridas en un modelo analítico ha demostrado que se pueden usar hasta 19 dimensiones simultáneamente. De ahí la fuerte recomendación de que la herramienta analítica pueda proporcionar simultáneamente al menos 15, y preferiblemente 20 mediciones. Además, cada una de las dimensiones generales no debería estar limitada por el número de niveles de agregación y rutas de consolidación definidas por el usuario analíticas por el usuario.

Reglas adicionales de Codd.

El conjunto de estos requisitos, que sirvió como la definición de facto de OLAP, a menudo genera varias quejas, por ejemplo, las reglas 1, 2, 3, 6 son requisitos y las reglas 10, 11 son deseos no formalizados. Tokmakov G.P. Base de datos. Concepto de base de datos, modelo de datos relacionales, lenguajes SQL. P. 68 Por lo tanto, los 12 requisitos enumerados de Codd no permiten definir OLAP con precisión. En 1995, Codd agregó las siguientes seis reglas a esta lista:

13. Extracción por lotes versus interpretación: un sistema OLAP debe proporcionar acceso a datos tanto nativos como externos con la misma eficacia.

14. Compatibilidad con todos los modelos de análisis OLAP: un sistema OLAP debe admitir los cuatro modelos de análisis de datos definidos por Codd: categórico, interpretativo, especulativo y estereotipado.

15. Procesamiento de datos no normalizados: el sistema OLAP debe estar integrado con fuentes de datos no normalizados. Las modificaciones de datos realizadas en el entorno OLAP no deben cambiar los datos almacenados en los sistemas externos originales.

16. Guardar los resultados de OLAP: almacenarlos por separado de los datos originales: un sistema OLAP que funcione en modo lectura-escritura debe guardar los resultados por separado después de modificar los datos originales. En otras palabras, se garantiza la seguridad de los datos originales.

17. Eliminación de valores perdidos: el sistema OLAP, que presenta datos al usuario, debe descartar todos los valores perdidos. En otras palabras, los valores perdidos deben ser diferentes de los valores cero.

18. Manejo de valores perdidos: el sistema OLAP debe ignorar todos los valores perdidos independientemente de su origen. Esta característica está asociada con la regla 17.

Además, Codd dividió las 18 reglas en los siguientes cuatro grupos, llamándolos características. Estos grupos se denominaron B, S, R y D.

Las características clave (B) incluyen las siguientes reglas:

Representación conceptual multidimensional de datos (regla 1);

Manipulación de datos intuitiva (regla 10);

Disponibilidad (regla 3);

Extracción de lotes versus interpretación (regla 13);

Soporte para todos los modelos de análisis OLAP (regla 14);

Arquitectura cliente-servidor (regla 5);

Transparencia (regla 2);

Soporte multijugador (regla 8)

Características especiales (S):

Procesamiento de datos no normalizados (regla 15);

Guardar los resultados OLAP: mantenerlos separados de los datos originales (regla 16);

Eliminación de valores perdidos (regla 17);

Manejo de valores perdidos (regla 18). Funciones de informes (R):

Flexibilidad en la generación de informes (regla 11);

Rendimiento de informes estándar (regla 4);

Configuración automática de la capa física (regla original modificada 7).

Control de medición (D):

Universalidad de la medición (regla 6);

Número ilimitado de dimensiones y niveles de agregación (regla 12);

Operaciones ilimitadas entre dimensiones (regla 9).

Las condiciones de alta competencia y la dinámica creciente del entorno externo imponen mayores requisitos para los sistemas de gestión empresarial. El desarrollo de la teoría y la práctica de la gestión fue acompañado por la aparición de nuevos métodos, tecnologías y modelos destinados a mejorar la eficiencia de las actividades. Los métodos y modelos, a su vez, contribuyeron al surgimiento de sistemas analíticos. La demanda de sistemas analíticos en Rusia es alta. Estos sistemas son más interesantes desde el punto de vista de la aplicación en el sector financiero: bancos, empresas de seguros, sociedades de inversión. Los resultados del trabajo de los sistemas analíticos son necesarios, ante todo, para las personas de cuyas decisiones depende el desarrollo de la empresa: gerentes, expertos, analistas. Los sistemas analíticos permiten resolver problemas de consolidación, reporting, optimización y previsión. Hasta ahora, la clasificación final de los sistemas analíticos no se ha desarrollado, así como tampoco existe un sistema general de definiciones en términos usados \u200b\u200ben esta dirección. La estructura de la información de una empresa se puede representar mediante una secuencia de niveles, cada uno de los cuales se caracteriza por su propia forma de procesar y gestionar la información, y tiene su propia función en el proceso de gestión. Así, los sistemas analíticos se ubicarán jerárquicamente en diferentes niveles de esta infraestructura.

Capa de sistemas transaccionales

Nivel de almacenamiento de datos

Capa de mercado de datos

Nivel OLAP - sistemas

Capa de aplicación analítica

OLAP - sistemas - (procesamiento analítico en línea, procesamiento analítico en tiempo real) - son una tecnología para el análisis de datos multidimensionales complejos. OLAP: los sistemas son aplicables cuando existe la tarea de analizar datos multifactoriales. Son una herramienta eficaz para el análisis y la generación de informes. Los almacenes de datos, los data marts y los sistemas OLAP mencionados anteriormente se clasifican como sistemas de inteligencia empresarial (Business Intelligence, BI).

Muy a menudo, los sistemas de información y análisis creados con la expectativa de un uso directo por parte de los responsables de la toma de decisiones son extremadamente fáciles de usar, pero tienen una funcionalidad muy limitada. Tales sistemas estáticos se denominan en la literatura Sistemas de información jefe (EIS), o Sistemas de información ejecutiva (EIS). Contienen conjuntos de consultas predefinidos y, al ser suficientes para la revisión del día a día, son incapaces de dar respuesta a todas las preguntas sobre los datos disponibles que puedan surgir a la hora de tomar decisiones. El resultado del trabajo de dicho sistema, por regla general, son informes de varias páginas, después de un estudio cuidadoso del cual aparece el analista nuevo episodio preguntas. Sin embargo, cada nueva solicitud no prevista en el diseño de dicho sistema debe primero ser descrita formalmente, codificada por el programador y solo luego ejecutada. El tiempo de espera en este caso puede ser de horas y días, lo que no siempre es aceptable. Por tanto, la simplicidad externa de los DSS estáticos, por los que la mayoría de los clientes de sistemas de análisis de información luchan activamente, se convierte en una pérdida catastrófica de flexibilidad.



Dynamic DSS, por otro lado, se centra en procesar solicitudes de datos de analistas ad hoc. Los requisitos para tales sistemas fueron considerados con mayor profundidad por E. F. Codd en el artículo que sentó las bases para el concepto de OLAP. Los analistas trabajan con estos sistemas en una secuencia interactiva de generación de consultas y estudio de sus resultados.

Pero los DSS dinámicos pueden operar no solo en el ámbito del procesamiento analítico en línea (OLAP); El apoyo para la toma de decisiones de gestión basadas en datos acumulados se puede realizar en tres áreas básicas.

Esfera de datos detallada. Este es el alcance de la mayoría de los sistemas destinados a encontrar información. En la mayoría de los casos, los DBMS relacionales hacen un excelente trabajo con las tareas que surgen aquí. El estándar generalmente aceptado para el lenguaje de manipulación de datos relacionales es SQL. Los sistemas de recuperación de información que proporcionan una interfaz de usuario final en las tareas de búsqueda de información detallada se pueden utilizar como complementos tanto en bases de datos independientes de sistemas transaccionales como en un almacén de datos común.

Esfera de agregados. Una mirada completa a la información recopilada en el almacén de datos, su generalización y agregación, la representación de hipercubos y el análisis multidimensional son las tareas de los sistemas de procesamiento de datos analíticos en línea (OLAP). Aquí puede centrarse en DBMS multidimensionales especiales o permanecer dentro del marco de las tecnologías relacionales. En el segundo caso, los datos agregados previamente se pueden recopilar en una base de datos en forma de estrella, o la información se puede agregar sobre la marcha durante el escaneo de tablas detalladas de una base de datos relacional.

La esfera de las regularidades. El procesamiento intelectual se realiza mediante métodos de minería de datos (IAD, Data Mining), cuyas principales tareas son la búsqueda de patrones funcionales y lógicos en la información acumulada, la construcción de modelos y reglas que expliquen las anomalías encontradas y / o predicen el desarrollo de algunos procesos.

Procesamiento rápido de datos analíticos

El concepto OLAP se basa en el principio de presentación de datos multidimensionales. En un artículo de 1993 de EF, Codd examinó las deficiencias del modelo relacional, señalando principalmente la imposibilidad de "combinar, ver y analizar datos en términos de múltiples dimensiones, es decir, de la manera más comprensible para los analistas corporativos", y definió Requisitos generales para sistemas OLAP que amplían la funcionalidad del DBMS relacional e incluyen el análisis multivariado como una de sus características.

Clasificación de productos OLAP según la forma en que se presentan los datos.

Actualmente, hay una gran cantidad de productos en el mercado que brindan funcionalidad OLAP en un grado u otro. Aproximadamente 30 de los más conocidos se enumeran en el servidor web de descripción general http://www.olapreport.com/. Al proporcionar una vista conceptual multidimensional desde la interfaz de usuario a la base de datos de origen, todos los productos OLAP se dividen en tres clases, similar a la base de datos de origen.

Los primeros sistemas de procesamiento analítico en línea (por ejemplo, Essbase de Arbor Software, Oracle Express Server de Oracle) pertenecían a la clase MOLAP, es decir, solo podían trabajar con sus propias bases de datos multidimensionales. Se basan en tecnologías patentadas de DBMS multidimensionales y son las más caras. Estos sistemas proporcionan un ciclo completo de procesamiento OLAP. Incluyen, además del componente de servidor, su propia interfaz de cliente integrada o utilizan programas de hoja de cálculo externos para comunicarse con el usuario. Para mantener dichos sistemas, se requiere personal especial para instalar, mantener el sistema y formar representaciones de datos para los usuarios finales.

Los sistemas de procesamiento analítico relacional en línea (ROLAP) le permiten representar datos almacenados en una base de datos relacional en una forma multidimensional, proporcionando la transformación de la información en un modelo multidimensional a través de una capa de metadatos intermedia. Los sistemas ROLAP son adecuados para trabajar con grandes instalaciones de almacenamiento. Al igual que los sistemas MOLAP, requieren un mantenimiento de TI significativo y son multiusuario.

Finalmente, los sistemas híbridos (Hybrid OLAP, HOLAP) están diseñados para combinar las ventajas y minimizar las desventajas inherentes a las clases anteriores. Esta clase incluye Media / MR de Speedware. Según los desarrolladores, combina la flexibilidad analítica y la capacidad de respuesta de MOLAP con el acceso constante a datos reales inherentes a ROLAP.

OLAP multidimensional (MOLAP)

En los DBMS especializados basados \u200b\u200ben la representación de datos multidimensionales, los datos no se organizan en forma de tablas relacionales, sino en forma de matrices multidimensionales ordenadas:

1) hipercubos (todas las celdas almacenadas en la base de datos deben tener la misma dimensión, es decir, estar en la base de medidas más completa) o

2) policubos (cada variable se almacena con su propio conjunto de medidas, y todas las dificultades de procesamiento asociadas se trasladan a los mecanismos internos del sistema).

El uso de bases de datos multidimensionales en sistemas de procesamiento analítico en línea tiene las siguientes ventajas.

En el caso de utilizar un DBMS multidimensional, la búsqueda y recuperación de datos es mucho más rápida que con una vista conceptual multidimensional de una base de datos relacional, ya que la base de datos multidimensional está desnormalizada, contiene indicadores preagregados y proporciona un acceso optimizado a las celdas solicitadas.

Los DBMS multidimensionales hacen frente fácilmente a las tareas de incluir varias funciones integradas en el modelo de información, mientras que las limitaciones objetivamente existentes del lenguaje SQL hacen que sea bastante difícil y, a veces, imposible realizar estas tareas sobre la base de DBMS relacionales.

Por otro lado, existen limitaciones importantes.

Los DBMS multidimensionales no permiten trabajar con grandes bases de datos. Además, debido a la desnormalización y la agregación realizada previamente, la cantidad de datos en una base de datos multidimensional, como regla, corresponde (según Codd) a 2.5-100 veces menos que el volumen de los datos detallados originales.

Los DBMS multidimensionales utilizan la memoria externa de manera muy ineficiente en comparación con los relacionales. En la inmensa mayoría de los casos, el hipercubo de información es muy escaso y, dado que los datos se almacenan en forma ordenada, los valores indefinidos se pueden eliminar solo eligiendo el orden de clasificación óptimo que permita organizar los datos en los grupos contiguos más grandes. Aun así, el problema solo se resuelve parcialmente. Además, el orden de clasificación óptimo para almacenar datos dispersos probablemente no coincidirá con el orden que se usa con más frecuencia en las consultas. Por lo tanto, en sistemas reales, debe encontrar un compromiso entre el rendimiento y la redundancia del espacio en disco ocupado por la base de datos.

Por lo tanto, el uso de DBMS multidimensionales se justifica solo bajo las siguientes condiciones.

El volumen de datos iniciales para el análisis no es demasiado grande (no más de varios gigabytes), es decir, el nivel de agregación de datos es bastante alto.

El conjunto de dimensiones de la información es estable (ya que cualquier cambio en su estructura casi siempre requiere una reconstrucción completa del hipercubo).

El tiempo de respuesta del sistema a las solicitudes ad hoc es el parámetro más crítico.

Se requiere un uso extensivo de funciones integradas complejas para realizar cálculos multidimensionales en celdas de un hipercubo, incluida la capacidad de escribir funciones personalizadas.

OLAP relacional (ROLAP)

El uso directo de bases de datos relacionales en sistemas de procesamiento analítico en línea tiene las siguientes ventajas.

En la mayoría de los casos, los almacenes de datos corporativos se implementan utilizando herramientas DBMS relacionales y las herramientas ROLAP le permiten analizar directamente sobre ellos. Al mismo tiempo, el tamaño de almacenamiento no es un parámetro tan crítico como en el caso de MOLAP.

En el caso de una dimensión variable del problema, cuando hay que realizar cambios en la estructura de medición con bastante frecuencia, los sistemas ROLAP con una representación dinámica de la dimensión son la solución óptima, ya que tales modificaciones en ellos no requieren una reorganización física de la dimensión. base de datos.

Los DBMS relacionales proporcionan un nivel significativamente más alto de protección de datos y buenas oportunidades para diferenciar los derechos de acceso.

La principal desventaja de ROLAP en comparación con DBMS multidimensionales es un rendimiento más bajo. Los sistemas relacionales requieren un esquema de base de datos cuidadoso y un ajuste de índices para lograr un rendimiento comparable al de MOLAP, lo que significa un gran esfuerzo por parte de los administradores de bases de datos. Solo mediante el uso de esquemas en estrella, el rendimiento de los sistemas relacionales bien ajustados puede acercarse al rendimiento de los sistemas de bases de datos multidimensionales.