Menú
Está libre
registrarse
el principal  /  Instalación y configuración / Conceptos básicos que operan la tecnología OLAP. Tecnología OLAP

Conceptos básicos que operan la tecnología OLAP. Tecnología OLAP

Las condiciones para la alta competencia y la creciente dinámica del entorno externo dictan mayores requisitos para los sistemas de gestión empresarial. El desarrollo de la teoría y la práctica de la gestión se acompañó por el surgimiento de nuevos métodos, tecnologías y modelos enfocados en mejorar la eficiencia de la actividad. Los métodos y modelos a su vez contribuyeron a la aparición de sistemas analíticos. La demanda de sistemas analíticos en Rusia es alta. Más interesante en términos de aplicación de estos sistemas en el sector financiero: bancos, negocios de seguros, empresas de inversión. Los resultados del trabajo de los sistemas analíticos se requieren principalmente a las personas cuyas decisiones depende del desarrollo de la empresa: gerentes, expertos, analistas. Los sistemas analíticos le permiten resolver tareas de consolidación, informes, optimización y pronóstico. Hasta la fecha, no ha sido la clasificación final de los sistemas analíticos, como no sistema común Definiciones en términos utilizados en esta dirección. La estructura de información de la empresa puede representarse mediante una secuencia de niveles, cada uno de los cuales se caracteriza por su método de gestión de procesamiento e información, y tiene su propia función en el proceso de gestión. Por lo tanto, los sistemas analíticos se ubicarán jerárquicamente a diferentes niveles de esta infraestructura.

Nivel de sistemas transaccionales.

Nivel de almacén de datos

El nivel de datos se muestran.

Nivel OLAP - Sistemas

Nivel de aplicaciones analíticas.

OLAP - Sistemas - (Procesamiento analítico en línea, tratamiento analítico en la actualidad): son la tecnología de análisis integral de datos multidimensionales. OLAP: los sistemas son aplicables donde existe una tarea de analizar los datos multifactores. Hay un medio efectivo para analizar y generar informes. Los almacenes de datos anteriores, muestras de datos y los sistemas OLAP se refieren a los sistemas de inteligencia empresarial (Business Intelligence, BI).

Muy a menudo, los sistemas de información y analíticos creados en el uso directo de las personas de toma de decisiones son extremadamente simples en uso, pero son rígidamente limitadas en la funcionalidad. Tales sistemas estáticos se llaman en la literatura de los sistemas de información del Administrador (DIP), o sistemas de información ejecutiva (EIS). Contienen múltiples solicitudes predefinidas y, siendo suficientes para la revisión cotidiana, no puede responder a todas las preguntas a los datos disponibles que pueden surgir al tomar decisiones. El resultado de dicho sistema, como regla general, son informes de múltiples páginas, después de un estudio exhaustivo de el cual aparece el analista series nuevas preguntas. Sin embargo, cada nueva solicitud, imprevista al diseñar un sistema de este tipo, debe describirse formalmente formalmente, codificada por un programador y luego se ejecuta. El tiempo de espera en este caso puede hacer horarios y días que no siempre es aceptable. Por lo tanto, la simplicidad externa de SPPR estática, para la cual la mayoría de los clientes de información y sistemas analíticos están luchando activamente, se convierten en la pérdida catastrófica de flexibilidad.



Los SPPRS dinámicos, por el contrario, se centran en el procesamiento de los analistas no elegidos (ad hoc) a los datos. Los requisitos más profundos para dichos sistemas revisaron E. F. CODD en el artículo, que publicó el comienzo del concepto de OLAP. El trabajo de los analistas con estos sistemas es la secuencia interactiva de consulta y estudia sus resultados.

Pero las SPPRS dinámicas pueden actuar no solo en el campo del procesamiento analítico operacional (OLAP); El apoyo para tomar decisiones de gestión basadas en datos acumulados se puede realizar en tres áreas básicas.

Esfera de datos detallados. Este es el área de acción de la mayoría de los sistemas dirigidos a encontrar información. En la mayoría de los casos, los DBMS relacional están perfectamente afrontar las tareas que surgen aquí. El estándar de manipulación generalmente aceptado con datos relacionales es SQL. Los motores de información y búsqueda que proporcionan la interfaz de usuario final en las tareas de búsqueda de información detallada se pueden usar como complementos tanto sobre bases de datos de sistemas de transacciones separados como en el almacenamiento de datos comunes.

Esfera de indicadores agregados. Un aspecto integral a la información recopilada en el almacén de datos, su generalización y agregación, la representación hipercubosa y el análisis multidimensional son las tareas de los sistemas de procesamiento de datos analíticos operativos (OLAP). Aquí puede o enfocarse en DBMS multidimensionales especiales, o permanecer dentro de las tecnologías relacionales. En el segundo caso, los datos preagregados se pueden recopilar en la base de datos de un tipo de estrella, o la agregación de información se puede realizar sobre la marcha en el proceso de escanear tablas detalladas de la base de datos relacionales.

Esfera de patrones. El procesamiento inteligente se realiza mediante los métodos de análisis de datos inteligentes (JAAD, minería de datos), cuyas tareas principales son la búsqueda de patrones funcionales y lógicos en la información acumulada, la construcción de modelos y reglas que explican las anomalías encontradas y / o Predecir el desarrollo de algunos procesos.

Procesamiento de datos analíticos operativos.

La base del concepto de OLAP radica en el principio de la presentación de datos multidimensionales. En 1993, el artículo de EF CODD consideró las deficiencias del modelo relacional, en primer lugar, especificando la incapacidad de "combinar, ver y analizar datos desde el punto de vista de la multiplicidad de las mediciones, es decir, la más comprensible para los analistas corporativos en El camino, "e identificó requisitos generales para los sistemas OLAP que amplían la funcionalidad de DBMS relacionales e incluye un análisis multidimensional como una de sus características.

Clasificación de productos OLAP de acuerdo con el método de representación de datos.

Actualmente, se presentan una gran cantidad de productos en el mercado, que en diferentes grados proporcionan funcionalidad OLAP. Cerca de 30 más famosos se enumeran en la lista del servidor web de revisión http://www.olapreport.com/. Proporcionando una representación conceptual multidimensional por interfaz de usuario Para la base de datos de origen, todos los productos OLAP se dividen en tres clases por tipo de base de datos de origen.

Los primeros primeros sistemas de procesamiento de analíticos operativos (por ejemplo, Software de Essbase Arbor, Oracle's Oracle Express Server Company) pertenecían a la clase Molap, es decir, solo podían trabajar con sus propias bases de datos multidimensionales. Se basan en tecnologías patentadas para DBMS multidimensionales y son las más caras. Estos sistemas proporcionan un ciclo completo de procesamiento OLAP. O incluyen, además del componente del servidor, la propia interfaz de cliente integrada, o se usa para comunicarse con el usuario. programas externos Trabajar con hojas de cálculo. Para mantener dichos sistemas, se requiere un personal especial instalando, acompañado por el sistema, la formación de puntos de vista de datos para usuarios finales.

Los sistemas de procesamiento de datos analíticos operativos (Rolap) proporcionan datos almacenados en la base relacional, en forma multidimensional, lo que garantiza la transformación de la información en un modelo multidimensional a través de la capa intermedia de metadatos. Los sistemas ROLAP están bien adaptados para trabajar con un gran almacenamiento. Al igual que los sistemas MOLAP, requieren costos de servicio considerables para los profesionales de la tecnología de la información y brinden una operación multijugadora.

Finalmente, los sistemas híbridos (OLAP híbridos, HOLAP) están diseñados para combinar ventajas y minimizar las deficiencias inherentes a las clases anteriores. Medios de speedware / MR Incluye esta clase. Según los desarrolladores, combina la flexibilidad analítica y la velocidad de respuesta de Molap con acceso constante a datos reales peculiares a Rolap.

OLAP multidimensional (MOLAP)

En DBMS especializados basados \u200b\u200ben la presentación multidimensional de datos, los datos no están organizados en forma de tablas relacionales, sino en forma de matrices multidimensionales ordenadas:

1) Hipercubos (todas las células almacenadas en la base de datos deben tener la misma dimensión, es decir, estar en la base máxima de medición completa) o

2) PoliCubos (cada variable se almacena con su propio conjunto de mediciones, y toda la complejidad asociada del procesamiento se desplaza a los mecanismos internos del sistema).

El uso de bases de datos multidimensionales en sistemas de procesamiento analítico operacional tiene las siguientes ventajas.

En el caso de usar DBM multidimensionales, la búsqueda y la muestra de datos se llevan a cabo mucho más rápido que con un aspecto conceptual multidimensional en la base de datos relacional, ya que la base de datos multidimensional se desnormaliza, contiene indicadores preagregados y proporciona acceso optimizado a las celdas solicitadas. .

DBM multidimensional se enfrenta fácilmente con las tareas de inclusión en modelo de información diversas funciones incorporadas, mientras que las restricciones existentes objetivamente lenguaje SQL Haz que estas tareas se basan en DBMS relacional bastante complejos, y algunas veces imposibles.

Por otro lado, hay limitaciones significativas.

Los DBMS multidimensionales no permiten trabajar con grandes bases de datos. Además, debido a la denormalización y agregación previa a la realización, la cantidad de datos en una base multidimensional, por regla general, corresponde a (evaluando el código) en 2.5-100 veces el menor volumen de datos detallados por la fuente.

Los DBMS multidimensionales en comparación con la relación son muy utilizados de manera muy ineficiente. memoria externa. En la abrumadora mayoría de los casos, el hipercubo de la información está fuertemente enrarecido, y dado que los datos se almacenan en un formulario ordenado, los valores inciertos se eliminan solo seleccionando el orden de clasificación óptimo, lo que le permite organizar los datos en los grupos continuos máximos continuos . Pero incluso en este caso, el problema se resuelve solo en parte. Además, el procedimiento de clasificación es más probable que sea óptimo desde el punto de vista del almacenamiento, lo más probable es que el orden de clasificación no coincida con el orden que se use con más frecuencia en las consultas. Por lo tanto B. sistemas reales Tienes que buscar un compromiso entre la velocidad y la redundancia del espacio en disco ocupado por la base de datos.

En consecuencia, el uso de DBM multidimensional se justifica solo en las siguientes condiciones.

La cantidad de datos de origen para el análisis no es demasiado grande (no más de unos pocos gigabytes), es decir, el nivel de agregación de datos es bastante alto.

El conjunto de mediciones de información es estable (ya que cualquier cambio en su estructura casi siempre requiere una reestructuración completa de hipercubos).

El tiempo de respuesta del sistema para solicitudes no elegidas es el parámetro más crítico.

Se requiere un amplio uso de funciones incorporadas complejas para realizar cálculos transductibles a través de las células del hipercubo, incluida la posibilidad de escribir funciones de usuario.

Relación OLAP (ROLAP)

El uso directo de las bases de datos relacionales en sistemas de procesamiento analítico operacional tiene las siguientes ventajas.

En la mayoría de los casos, los almacenes de datos corporativos se implementan mediante DBMS relacional, y las herramientas de Rolap hacen posible analizar directamente sobre ellos. En este caso, el tamaño de almacenamiento no es un parámetro tan crítico como en el caso de Molap.

En el caso de una dimensión variable de la tarea, cuando se deben realizar cambios a la estructura de medición con bastante frecuencia, r Sistemas OLAP Con una representación dinámica de las dimensiones son una solución óptima, ya que tales modificaciones no requieren una reorganización física de la base de datos.

Los DBMS relacionales proporcionan un nivel significativamente mayor de protección de datos y buenas oportunidades Remuneración de los derechos de acceso.

El principal inconveniente de Rolap en comparación con DBM multidimensional es menos rendimiento. Para garantizar el rendimiento comparable al MOLAP, los sistemas relacionales requieren un estudio exhaustivo del diagrama de la base de datos y la configuración de índice, es decir, grandes esfuerzos de los administradores de la base de datos. Solo cuando se usa esquemas en forma de estrella, el rendimiento de los sistemas relacionales bien configurados se puede abordar mediante el desempeño de los sistemas basados \u200b\u200ben bases de datos multidimensionales.

El concepto de tecnología OLAP fue formulado por Edgar Codd en 1993.

Esta tecnología se basa en la construcción de conjuntos de datos multidimensionales, los llamados cubos OLAP (no necesariamente tridimensionales, ya que sería posible concluir de la definición). El propósito de utilizar OLAP Technologies es el análisis de los datos y la presentación de este análisis en el formulario, conveniente para la percepción del personal administrador y la adopción de soluciones basadas en ellas.

Requisitos básicos para aplicaciones para análisis multidimensional:

  • - proporcionar al usuario a los resultados del análisis para un tiempo aceptable (no más de 5 p.);
  • - acceso de datos multijugador;
  • - Presentación multidimensional de datos;
  • - la capacidad de referirse a cualquier información, independientemente de su lugar de almacenamiento y volumen.

Las herramientas del sistema OLAP proporcionan la capacidad de ordenar y seleccionar datos en condiciones específicas. Se pueden establecer diversas condiciones cualitativas y cuantitativas.

El modelo principal de los datos utilizados en numerosos. herramientasaH Creación y soporte de bases de datos: DBMS es un modelo relacional. Los datos en él se presentan como un conjunto de relaciones de tabla bidimensionales conectadas por campos clave. Para eliminar la duplicación, contradictoria, reducción de los costos laborales para mantener las bases de datos, se aplica un aparato formal de la normalización de las entidades de la tabla. Sin embargo, su aplicación está asociada con el tiempo adicional empleado en la formación de respuestas a las solicitudes de bases de datos, aunque se guardan los recursos de memoria.

El modelo de datos multidimensional representa el objeto en estudio en forma de un cubo multidimensional, más a menudo utilizan un modelo tridimensional. En los ejes o bordes del cubo, las mediciones o los detalles se posponen. Requisitos: las bases están llenando las células de la Cuba. El cubo multidimensional se puede presentar con una combinación de cubos tridimensionales para facilitar la percepción y la presentación en la formación de informes y documentos analíticos y presentaciones multimedia basadas en trabajos analíticos en el sistema de toma de decisiones.

Como parte de las tecnologías OLAP basadas en el hecho de que una representación multidimensional de datos se puede organizar como un medio de DBMS relacional, por lo que los agentes especializados multidimensionales, distinguen tres tipos de sistemas OLAP multidimensionales:

  • - OLAP-MOLAP multidimensional (multidimensional);
  • - Relacional (relación) OLAP-ROLAP;
  • - Holap mixto o híbrido (hibroso).

En DBM multidimensionales, los datos se organizan no en forma de tablas relacionales, sino en forma de matrices multidimensionales ordenadas en forma de hipercubos, cuando todos los datos almacenados deben tener la misma dimensión, lo que significa la necesidad de formar la medición más completa base. Los datos se pueden organizar en forma de policubos, en esta realización, los valores de cada indicador se almacenan con su propio conjunto de mediciones, la herramienta de sistema se realiza el procesamiento de datos. La estructura del repositorio en este caso se simplifica, porque No hay necesidad de un área de almacenamiento en una forma multidimensional o orientada a objetos. Los enormes costos laborales se reducen para crear modelos y sistemas de transformación de datos del modelo relacional al objeto.

Las ventajas de Molap son:

  • - más rápido que con Rolap recibiendo respuestas a las solicitudes, pasó tiempo por uno o dos, menos;
  • - Debido a las restricciones de SQL, la implementación de muchas funciones incorporadas es difícil.

Las restricciones MOLAP incluyen:

  • - Tamaños de base de datos relativamente pequeños;
  • - Debido a la denormalización y agregación preliminar, las matrices multidimensionales se utilizan en 2.5-100 veces más memoria que los datos iniciales (el consumo de memoria con un aumento en el número de mediciones está creciendo de acuerdo con la ley exponencial);
  • - No hay estándares en la interfaz y medios de manipulación de datos;
  • - Hay limitaciones al cargar datos.

Los costos laborales para crear datos multidimensionales aumentan dramáticamente, porque Prácticamente ausente en esta situación, medios especializados para objetivar el modelo relacional de los datos contenidos en el almacenamiento de información. El tiempo de respuesta a las solicitudes a menudo no puede cumplir con el marco de los requisitos para los sistemas OLAP.

Las ventajas de los sistemas ROLAP son:

  • - la posibilidad de análisis operacional de contenido directamente contenido en el almacenamiento de datos, porque La mayoría de las bases de datos de origen - tipo relacional;
  • - con una dimensión variable del problema Won RO Lap, porque No se requiere una reorganización física de la base de datos;
  • - Los sistemas ROLAP pueden usar estaciones y servidores menos potentes de clientes, y la carga principal en el procesamiento de consultas SQL complejas cae a los servidores;
  • - El nivel de protección de la información y la delimitación de los derechos de acceso en DBMS relacional es incomparablemente más alto que en multidimensional.

La desventaja de los sistemas ROLAP es menor productividad, la necesidad de un estudio cuidadoso de los esquemas de la base de datos, la configuración especial de índices, el análisis de las estadísticas de consulta y la contabilidad de las conclusiones de análisis en las mejoras de los esquemas de la base de datos, que conduce a los costos laborales adicionales significativos.

La ejecución de estas condiciones permite cuando se utiliza sistemas ROLAP para lograr similares con los sistemas Molap-sistemas de indicadores en relación con el tiempo de acceso, y también superan los ahorros de memoria.

Los sistemas híbridos OLAP son una combinación de herramientas que implementan un modelo de datos relacional y multidimensional. Esto le permite reducir drásticamente los costos de los recursos para crear y mantener dicho modelo, tiempo de respuesta a las solicitudes.

Con este enfoque, se utilizan las ventajas de los dos primeros enfoques y sus desventajas son compensadas. En los productos de software más desarrollados de esta cita, este principio en particular se implementa.

El uso de la arquitectura híbrida en los sistemas OLAP es la forma más aceptable de resolver problemas relacionados con el uso de herramientas instrumentales de software en el análisis multidimensional.

El modo de identificación de patrones se basa en el procesamiento de datos intelectuales. La tarea principal aquí es la identificación de los patrones en los procesos estudiados, las relaciones y la influencia mutua de diversos factores, la búsqueda de importantes desviaciones "inusuales", el pronóstico del curso de diversos procesos sustantivos. Esta área se refiere a un análisis inteligente (minería de datos).

Envíe su buen trabajo en la base de conocimientos es simple. Usa el siguiente formulario

Los estudiantes, los estudiantes de posgrado, los jóvenes científicos que usan la base de conocimientos en sus estudios y el trabajo le estarán muy agradecidos.

publicado por http://www.allbest.ru//

Trabajo de curso

por disciplina: bases de datos

Sujeto: TecnologíaOLAP.

Realizado:

Chizhikov Alexander Alejandrovich

Introducción

1. Clasificación de los productos OLAP.

2. Cliente OLAP - Servidor OLAP: "Para" y "Contra"

3. Sistema de OLAP principal

3.1 Principios de construcción.

Conclusión

Lista de fuentes utilizadas

Aplicaciones

ENmantenimiento

Es difícil encontrar a una persona en el mundo informático que, al menos a un nivel intuitivo, no entendió qué son las bases de datos y por qué se necesitan. A diferencia de los DBM relacional tradicionales, el concepto de OLAP no se conoce tan ampliamente, aunque el término misterioso "Cuba Olap" escuchó, probablemente casi todos. ¿Qué es el procesamiento analítico en línea?

OLAP no es un producto de software separado, no un lenguaje de programación y ni siquiera una tecnología específica. Si intenta cubrir OLAP en todas sus manifestaciones, este conjunto de conceptos, principios y requisitos que subyacen a los productos de software que facilitan el acceso a los datos. A pesar del hecho de que tal definición es poco probable que alguien no esté de acuerdo, es dudoso que esté al menos en los no especialistas de la información de la IOTA para comprender el tema. Por lo tanto, en su deseo por el conocimiento de OLAP, es mejor ir de diferentes maneras. Primero, debe averiguar por qué los analistas deben facilitar especialmente el acceso a los datos.

El hecho es que los analistas son consumidores especiales de información corporativa. La tarea de Analytics es encontrar regularidades en grandes matrices de datos. Por lo tanto, el analista no prestará atención a un hecho separado, necesita información sobre cientos y miles de eventos. Por cierto, uno de los momentos esenciales, que llevaron a la aparición de OLAP - rendimiento y eficiencia. Imagine lo que sucede cuando el analista necesita recibir información, y no hay herramientas OLAP en la empresa. Un analista de forma independiente (que es poco probable) o el uso del programador hace que la consulta de SQL correspondiente y recibe los datos de interés en el informe o los exporte a la hoja de cálculo. Los problemas surgen un gran conjunto. Primero, el analista se ve obligado a participar para no trabajar con su trabajo (programación de SQL) o esperar la tarea, los programadores se realizarán, todo esto está afectando a fondo la productividad del trabajo, el infarto y el nivel de carrera aumenta, etc. . En segundo lugar, un solo informe o tabla, por regla general, no guarda a los gigantes del pensamiento y los padres del análisis ruso, y todo el procedimiento deberá repetirse una y otra vez. En tercer lugar, como ya hemos encontrado, los analistas en las triples no preguntan: necesitan todo lo inmediatamente. Esto significa (aunque la técnica y avanza con pasos de siete millas) que el servidor de la DBMS relacionales corporativos a los que se basa el analista, puede pensar en profundidad y durante mucho tiempo, bloqueando las otras transacciones.

El concepto de OLAP apareció específicamente para resolver tales problemas. Cuba Olap es esencialmente meta-informes. Corte META-INFORMES (Cuba, es decir,) para mediciones, el analista recibe, de hecho, los informes bidimensionales "ordinarios" que le interesan (esto no es necesariamente informes en la comprensión habitual de este término, estamos hablando de datos de datos. Estructuras con las mismas funciones). Las ventajas de los cubos son obvias: los datos deben solicitarse a partir de la DBM relacional solo una vez, al crear un cubo. Dado que los analistas, por regla general, no trabajen con información que se complementan y cambien "sobre la marcha", el cubo formado es relevante para un tiempo suficientemente largo. Debido a esto, no solo excluye las interrupciones en la operación del servidor DBMS relacional (no hay consultas con miles y millones de líneas de respuestas), sino que también aumenta bruscamente la velocidad de acceso a los datos para el propio analista. Además, como ya se señaló, el desempeño aumenta y contando las sumas intermedias de jerarquías y otros valores agregados en el momento de construir un cubo.

Por supuesto, para el aumento de esta forma de desempeño es necesario pagar. A veces dicen que la estructura de datos simplemente "explota": el cubo OLAP puede ocupar en docenas e incluso cientos de veces más espacio que los datos de origen.

Ahora, cuando resolvíamos un poco sobre cómo funciona Olap, todavía vale la pena, aún así, un poco formalizando nuestro conocimiento y dar criterios OLAP sin traducir simultáneamente al lenguaje humano habitual. Estos criterios (total 12) fueron formulados en 1993 por E.F. El código es el creador del concepto de DBMS relacional y, a tiempo parcial, OLAP. No los consideraremos directamente, ya que más tarde se volvieron a trabajar en la llamada prueba de FASMI, lo que determina los requisitos para los productos OLAP. FASMI es una abreviatura del nombre de cada punto de prueba:

Rápido. Esta propiedad significa que el sistema debe proporcionar una respuesta a la solicitud del usuario en promedio cinco segundos; Al mismo tiempo, la mayoría de las solicitudes se procesan dentro de un segundo, y las solicitudes más complejas deben procesarse dentro de los veinte segundos. Estudios recientes han demostrado que el usuario comienza a dudar del éxito de la solicitud, si toma más de treinta segundos.

Análisis (analítico). El sistema debe hacer frente a cualquier análisis lógico y estadístico, característicos de las aplicaciones empresariales, y garantiza la preservación de los resultados en el formulario a disposición del usuario final. Las herramientas de análisis pueden incluir procedimientos para analizar las series de tiempo, la distribución de costos, la conversión de divisas, modelar cambios en las estructuras organizativas y algunas otras.

Compartido (compartido). El sistema debe proporcionar amplias oportunidades para distinguir entre el acceso a los datos y el trabajo simultáneo de muchos usuarios.

Multidimensional (multiserry). El sistema debe proporcionar una presentación conceptualmente multidimensional de datos, incluyendo apoyo total Múltiples jerarquías.

Información. El poder de varios productos de software se caracteriza por el número de datos procesados \u200b\u200bde entrada. Los diferentes sistemas OLAP tienen un poder diferente: las soluciones avanzadas OLAP pueden operar al menos mil veces con una gran cantidad de datos en comparación con la potencia más baja. Al elegir una herramienta OLAP, se deben tener en cuenta una serie de factores, incluida la duplicación de los datos requeridos por la RAM, el uso del espacio en disco, los indicadores operativos, la integración con las instalaciones de almacenamiento de información, etc.

1. Clasificación de los productos OLAP.

Por lo tanto, la esencia de OLAP es que la fuente de información para el análisis se presenta en forma de un cubo multidimensional, y es posible manipularlo arbitrariamente y recibir los recortes de información necesarios: informes. En este caso, el usuario final ve un cubo como una tabla dinámica multidimensional, que resume automáticamente los datos (hechos) en varios recortes (mediciones) y le permite administrar interactivamente los cálculos y un formulario de informe. La ejecución de estas operaciones es proporcionada por una máquina OLAP (u máquina de computación OLAP).

Hasta la fecha, muchos productos que implementan las tecnologías OLAP se han desarrollado en el mundo. Para facilitar la navegación entre ellos, use las clasificaciones de productos OLAP: de acuerdo con el método de almacenamiento de datos para el análisis y la ubicación de la máquina OLAP. Considere cada categoría de productos OLAP.

Comenzaré con la clasificación por el método de almacenamiento de datos. Permítanme recordarle que los cubos multidimensionales se basan en la base de los datos de origen y agregados. Tanto los datos de origen como para agregados para cubos se pueden almacenar tanto en bases de datos relacionales como multidimensionales. Por lo tanto, se aplican actualmente tres métodos de almacenamiento de datos: Molap (OLAP multidimensional), Rolap (OLAP RELASAL) y HOLAP (OLAP HYBRID). En consecuencia, los productos OLAP por método de almacenamiento se dividen en tres categorías similares:

1. En el caso de MOLAP, los datos iniciales y agregados se almacenan en una base de datos multidimensional o en una Cuba local multidimensional.

2. En los productos ROLAP, los datos de origen se almacenan en bases de datos relacionales o en tablas locales planas en el servidor de archivos. Los datos agregados se pueden colocar en las tablas de servicio en la misma base de datos. Convertir datos de la base de datos relacional a cubos multidimensionales se produce a petición de OLAP.

3. En el caso de usar la arquitectura HOLAP, los datos iniciales permanecen en la base relacional, y las unidades se colocan en multidimensional. La construcción del cubo OLAP se realiza a solicitud de las herramientas OLAP en función de los datos relacionales y multidimensionales.

Siguiente clasificación: en el lugar de colocación del automóvil OLAP. De acuerdo con esta característica, los productos OLAP se dividen en servidores OLAP y clientes OLAP:

En las herramientas OLAP del servidor, el cálculo y el almacenamiento de datos agregados se realizan mediante un proceso de proceso separado. La aplicación cliente recibe solo los resultados de las consultas a cubos multidimensionales que se almacenan en el servidor. Algunos servidores OLAP admiten el almacenamiento de datos solo en bases relacionales, algunas son solo en multidimensional. Muchos servidores OLAP modernos admiten los tres métodos de almacenamiento de datos: Molap, Rolap y Holap.

El cliente OLAP está diseñado de manera diferente. La construcción de un cubo multidimensional y los cálculos OLAP se realizan en la memoria de la computadora cliente. Los clientes OLAP también se dividen en Rolap y Molap. Y algunos pueden respaldar las opciones de acceso a datos.

Cada uno de estos enfoques, hay "Pros" y "Menos". Contrariamente a una opinión común sobre los beneficios de las herramientas del servidor frente al cliente, en varios casos, la aplicación del cliente OLAP para los usuarios puede resultar más eficiente y más rentable para usar el servidor OLAP.

2. Cliente OLAP - Servidor OLAP: "Para" y "Contra"

Al construir sistema de informacion La funcionalidad OLAP se puede implementar tanto en el servidor como a los olps del cliente. En la práctica, la elección es el resultado del compromiso de los indicadores de desempeño y el costo del software.

La cantidad de datos está determinada por el conjunto de las siguientes características: el número de registros, el número de mediciones, el número de elementos de medición, la duración de las mediciones y la cantidad de hechos. Se sabe que el servidor OLAP puede procesar grandes cantidades de datos que el cliente OLAP con una potencia igual de la computadora. Esto se explica por el hecho de que el servidor OLAP almacena en discos duros Una base de datos multidimensional que contiene cubos precalculados.

Los programas de clientes en el momento de la ejecución de las operaciones de OLAP realizan solicitudes de lenguaje similar a SQL, que no reciben todo el cubo, y sus fragmentos mostrados. El cliente OLAP en el momento del trabajo debería tener en memoria de acceso aleatorio Todo cubo En el caso de la arquitectura de Rolap, es necesario precargarle a la memoria toda la matriz de datos utilizada para calcular el cubo. Además, con un aumento en el número de mediciones, hechos o mediciones de mediciones, el número de agregados está creciendo en la progresión geométrica. Por lo tanto, la cantidad de datos procesados \u200b\u200bpor el cliente OLAP depende directamente del alcance de la RAM del usuario.

Sin embargo, observamos que la mayoría de los clientes OLAP proporcionan la computación distribuida. Por lo tanto, bajo el número de registros procesados, lo que limita el trabajo de las herramientas OLAP del cliente, no se entiende la cantidad de datos principales de la base de datos corporativa, sino el tamaño de la muestra agregada de ella. El cliente OLAP genera una solicitud a un DBMS, que describe las condiciones de filtrado y el algoritmo para la agrupación de datos primarios. El servidor encuentra los registros y devuelve una muestra compacta para otros cálculos OLAP. El tamaño de esta muestra puede estar en decenas y cientos de veces menos que el volumen de registros primarios y no agregados. En consecuencia, la necesidad de tal cliente OLAP en los recursos de PC se reduce significativamente.

Además, el número de mediciones impone restricciones a la posibilidad de percepción humana. Se sabe que la persona promedio puede operar simultáneamente 3-4, mediciones máximas. Con más mediciones en la tabla dinámica, la percepción de la información es significativamente difícil. Este factor debe tenerse en cuenta cuando el CLIENTE DE OLAP debe ser requerido, que puede ser requerido.

La longitud de la medición también afecta el tamaño del espacio OLAP del espacio de direcciones ocupado al calcular el cubo OLAP. Cuanto más tiempo sea la medición, se requieren más recursos para realizar una clasificación preliminar de una matriz multidimensional, y viceversa. Solo las mediciones cortas en los datos de origen son otro argumento a favor del cliente OLAP.

Esta característica está determinada por los dos factores discutidos anteriormente: el volumen de los datos que se procesan y el poder de las computadoras. Como un aumento en la cantidad, por ejemplo, las mediciones, el desempeño de todos los fondos OLAP se reduce debido a un aumento significativo en el número de unidades, pero la tasa de disminución es diferente. Demostraremos esta dependencia de la tabla.

Esquema 1. La dependencia del desempeño del cliente y los fondos del OLAP del servidor del aumento en la cantidad de datos.

Las características de velocidad del servidor OLAP son menos sensibles al aumento en la cantidad de datos. Esto se debe a varias tecnologías para procesar las solicitudes de usuario OLAP Server y OLAP Client. Por ejemplo, cuando el servidor OLAP, el servidor OLAP se refiere a los datos almacenados y los datos de "TRATAMIENTOS" de esta "sucursal". El cliente OLAP calcula todo el conjunto de unidades en el momento de la carga. Sin embargo, a una cierta cantidad de datos, el servidor y el rendimiento del cliente es comparable. Para los clientes OLAP que admiten cálculos distribuidos, el área de comparabilidad del rendimiento se puede distribuir a la cantidad de datos que cubren las necesidades en el análisis OLAP numero enorme usuarios. Esto se confirma mediante los resultados de las pruebas internas del servidor MS OLAP y el cliente OLAP "Standard". La prueba se realiza en la PC PC P PC Pentium Celeron 400 MHz, 256 MB para una muestra de 1 millón de registros únicos (I.E. agregados) con 7 mediciones que contienen de 10 a 70 miembros. El tiempo de carga del cubo en ambos casos no excede los 1 segundo, y la ejecución de varias operaciones OLAP (perforaciones, profundizar, mover, filtrar, etc.) se realiza durante centésimas de segundo.

Cuando el tamaño de la muestra excede la cantidad de RAM, el intercambio (intercambio) comienza con el disco y el rendimiento del cliente OLAP cae bruscamente. Solo a partir de este momento podemos hablar sobre la ventaja del servidor OLAP.

Debe recordarse que el punto de "fractura" determina el límite del afilado aumento de los precios de las soluciones OLAP. Para las tareas de todos. usuario específico Este punto es fácilmente determinado por las pruebas de rendimiento del cliente OLAP. Tales pruebas se pueden obtener de la compañía del desarrollador.

Además, el costo de las soluciones OLAP del servidor aumenta con el número creciente de usuarios. El hecho es que el servidor OLAP realiza cálculos para todos los usuarios en una computadora. En consecuencia, cuanto más la cantidad de usuarios, mayor será la potencia del carnero y el procesador. Por lo tanto, si los volúmenes de los datos que se procesan se encuentran en el área de desempeño comparable de los sistemas de servidor y cliente, entonces todas las demás cosas son iguales, el uso del cliente OLAP será más rentable.

El uso de un servidor OLAP en la ideología "Classic" proporciona descargar estos DBMS relacional en una base de datos multidimensional. La descarga se realiza durante un cierto período, por lo que los datos del servidor OLAP no reflejan el estado en este momento. Esta falta está privada de solo aquellos servidores OLAP que admiten el modo Rolap.

De manera similar, varios clientes OLAP le permiten implementar Rolap y Desktop-Architecture con acceso directo a la base de datos. Esto proporciona un análisis de los datos de origen en el modo en línea.

El servidor OLAP coloca los requisitos mínimos para el poder de los terminales del cliente. Objetivamente, los requisitos del cliente OLAP son más altos, porque Hace cálculos en la RAM del usuario de la PC. El estado del parque de herramientas de hardware de una organización específica es el indicador más importante que debe tomarse al seleccionar OLAP. Pero aquí hay "pros" y "menos". El servidor OLAP no usa un enorme poder de computación de los modernos. computadoras personales. En el caso de que la organización ya tenga un parque de PC Modernas, es ineficacentáticamente aplicarlas solo como exhibiciones de terminales y al mismo tiempo realizar costos adicionales para el servidor central.

Si la energía de las computadoras de los usuarios "deja mucho que desear", el cliente OLAP funcionará lentamente o no podrá funcionar en absoluto. Comprar un servidor poderoso puede ser más barato que la actualización de todas las PC.

Es útil tener en cuenta las tendencias en el desarrollo del hardware. Dado que la cantidad de datos para el análisis es casi una constante, entonces el aumento de potencia estable en la potencia de la PC llevará a la expansión de las capacidades del cliente OLAP y los servidores OLEP al segmento de bases de datos muy grandes.

Cuando se utiliza el servidor OLAP a través de la red, solo los datos se transmiten a la PC del cliente para mostrar, mientras que el cliente OLAP recibe todo el volumen de los datos de muestra primaria.

Por lo tanto, donde se aplica el cliente OLAP, el tráfico de red será mayor.

Pero, al usar el servidor OLAP de la Operación del usuario, por ejemplo, que se detallan, generan nuevas consultas a la base de datos multidimensional, y significa una nueva transferencia de datos. La ejecución de OLAP OPERACIONES OLAP El cliente se realiza en RAM y, en consecuencia, no causa nuevas transmisiones de datos en la red.

También se debe tener en cuenta que la red moderna. hardware Proporciona un alto nivel de ancho de banda.

Por lo tanto, en la abrumadora mayoría de los casos, el análisis de los tamaños de "medianos" de la base de datos utilizando el cliente OLAP no reducirá el usuario.

El costo del servidor OLAP es lo suficientemente alto. Esto también debe comenzar el costo de una computadora resaltada y los costos constantes de administrar la base multidimensional. Además, la implementación y el mantenimiento del servidor OLAP requieren un personal de calificación suficientemente alto.

El costo del cliente OLAP es un orden de magnitud inferior al costo del servidor OLAP. La administración y el equipo técnico adicional bajo el servidor no se requieren. No se presenta las calificaciones del personal en la implementación del cliente OLAP de altas demandas. El cliente OLAP se puede implementar mucho más rápido que el servidor OLAP.

Desarrollo de aplicaciones analíticas utilizando los fondos del cliente OLAP: el proceso es rápido y no requiere una preparación especial del contratista. El usuario que conoce la implementación física de la base de datos puede desarrollar una aplicación analítica independientemente sin la atracción de un especialista en TI. Cuando use el servidor OLAP, debe aprender 2 diferentes sistemasA veces, de varios proveedores, para crear cubos en el servidor, y para desarrollar una aplicación cliente. El cliente OLAP proporciona una única interfaz visual para describir los cubos y configurar las interfaces de usuario.

Considere el proceso de creación de una aplicación OLAP utilizando una herramienta instrumental cliente.

Esquema 2. Creación de una aplicación OLAP usando un Rolap cliente

El principio de funcionamiento de los clientes de Rolap es una descripción preliminar de la capa semántica, que oculta la estructura física de los datos de origen. En este caso, las fuentes de datos pueden ser: tablas locales, RDBD. La lista de fuentes de datos compatibles se define por un producto de software específico. Después de eso, el usuario puede manipular de forma independiente los objetos compensables en términos del área temática para crear cubos y interfaces analíticas.

El principio de operación del servidor OLAP es diferente. En el servidor OLAP, al crear cubos, el usuario manipula las descripciones físicas de la base de datos.

Al mismo tiempo, las descripciones personalizadas se crean en la propia Cuba. El cliente del servidor OLAP solo está configurado con el cubo.

Expliquemos el principio de operación del cliente ROLAP en el ejemplo de la creación de un informe de ventas dinámico (consulte el Esquema 2). Deje que los datos de análisis iniciales se almacenen en dos tablas: ventas y trato.

Al crear una capa semántica, las fuentes de datos, las tablas de ventas y ofertas se describen por los términos de usuario final comprensibles y se convierten en "productos" y "transacciones". El campo "ID" de la tabla "Productos" se renombra al "Código" y "Nombre", en el "Producto", etc.

Luego se crea un objeto de negocios "Ventas". El objeto comercial es una mesa plana, basada en un cubo multidimensional. Al crear una tabla de "productos" de "productos" y "transacciones", combine el campo "Código". Dado que se muestre en el informe, se requieren todos los campos de las tablas: el objeto comercial utiliza solo los campos "producto", la "Fecha" y "Monto".

A continuación, sobre la base del objeto comercial, se crea un informe OLAP. El usuario selecciona un objeto de negocios y arrastra sus atributos en el área de la columna o en la tabla de informes Filas. En nuestro ejemplo, sobre la base del objeto comercial de ventas, se ha creado un informe sobre ventas de mercancías por mes.

Cuando se trabaja con un informe interactivo, el usuario puede configurar las condiciones de filtrado y agrupación con los mismos movimientos simples "Mouse". En este punto, el cliente ROLAP atrae a los datos en el caché. El cliente del servidor OLAP genera una nueva solicitud a una base de datos multidimensional. Por ejemplo, aplicando un filtro de ventas en el informe de ventas, puede obtener un informe sobre las ventas de bienes de interés para nosotros.

Todas las configuraciones de aplicaciones OLAP se pueden almacenar en un repositorio de metadatos dedicados, en una solicitud o en un repositorio de sistemas de base de datos multidimensional. La implementación depende del producto de software específico.

Entonces, ¿en qué casos, la aplicación del cliente OLAP para los usuarios puede ser más eficiente y más rentable para usar el servidor OLAP?

La viabilidad económica de la aplicación del servidor OLAP se produce cuando la cantidad de datos es muy alta e insoportable para el cliente OLAP, de lo contrario, el uso de este último está más justificado. En este caso, el cliente OLAP combina características de alto rendimiento y bajo costo.

Los poderosos analistas de PC son otro argumento a favor de los clientes OLAP. Al aplicar el servidor OLAP, estas potencias no se utilizan. Entre las ventajas de los clientes OLAP también se puede llamar lo siguiente:

El costo de implementar y mantener un cliente OLAP es significativamente más bajo que el costo del servidor OLAP.

Cuando se utiliza un cliente OLAP con una transmisión de transmisión de datos incorporada sobre la red, se realiza una vez. Al realizar operaciones OLAP, no se generan nuevas transmisiones de datos.

Configuración de los clientes de Rolap se simplifica eliminando el enlace intermedio: creando una base de datos multidimensional.

3. Sistema de OLAP principal

3.1 Principios de construcción.

datos del kernel del cliente de la aplicación

Desde ya dicho, está claro que el mecanismo OLAP está en la actualidad, uno de los métodos de análisis de datos populares. Hay dos enfoques principales para resolver esta tarea. El primero se llama OLAP multidimensional (MOLAP): la implementación del mecanismo utilizando una base de datos multidimensional en el lado del servidor, y la segunda OLAP relacional (ROLAP) - Cubos de construcción "en la marcha" basada en Solicitudes de SQL a DBMS relacional. Cada uno de estos enfoques tiene sus pros y sus contras. Su análisis comparativo va más allá de este trabajo. Aquí solo se describirá la implementación del kernel del módulo Rolap de escritorio.

Dicha tarea ha surgido después de aplicar un sistema ROLAP basado en los componentes de la decisión del cubo que conforman Borland Delphi. Desafortunadamente, el uso de este conjunto de componentes se ha mostrado bajo rendimiento en grandes cantidades de datos. La gravedad de este problema se puede reducir al tratar de cortar la mayor cantidad de datos posible antes de alimentarlos para construir cubos. Pero esto no siempre sucede lo suficiente.

En Internet y la prensa, puede encontrar mucha información sobre los sistemas OLAP, pero casi en ninguna parte se indica cómo se organiza dentro.

Esquema de trabajo:

El plan general del trabajo del sistema OLAP de escritorio se puede representar de la siguiente manera:

Esquema 3. Sistema de OLAP de escritorio de trabajo

El algoritmo de trabajo es el siguiente:

1. Calcule los datos en forma de una tabla plana o el resultado de la ejecución de la solicitud SQL.

2. Datos de efectivo y transformarlos a Cuba multidimensional.

3. La imagen de la Cuba construida utilizando tabla de tabla o tabla, etc. En el caso general, se puede conectar un número arbitrario de asignaciones a una Cuba.

Considerar cómo sistema similar Puede ser arreglado en el interior. Comencemos esto desde el lado que puede ver y sentir, es decir, con mapeos. Visualización utilizada en los sistemas OLAP, la mayoría de las veces hay dos tipos: tablas cruzadas y gráficos. Considere una tabla cruzada, que es la forma principal y más común de mostrar Cuba.

En la figura a continuación, se muestran las tasas y columnas que contienen resultados agregados, las celdas están marcadas con células grises claras en las que los hechos y las células gris oscuro contienen las dimensiones.

Por lo tanto, la tabla se puede dividir en los siguientes elementos con los que trabajaremos en el futuro:

Llenando una matriz con hechos, debemos actuar de la siguiente manera:

Basado en datos de medición, determine las coordenadas del elemento agregado en la matriz.

Determine las coordenadas de columnas y líneas de resultados a los que se ve afectado el elemento agregado.

Agregue el artículo a la matriz y las columnas correspondientes y las líneas de resultados.

Cabe señalar que la matriz resultante será fuertemente escasa, por qué su organización en forma de una matriz bidimensional (la opción que se encuentra en la superficie) no solo es irracional, sino más probable, y no es posible debido a lo grande Dimensión de esta matriz, que no se asegura ninguna cantidad de RAM. Por ejemplo, si nuestro cubo contiene información de ventas en un año, y si solo hay 3 mediciones en TI: los clientes (250), los productos (500) y la fecha (365), entonces obtendremos la matriz de los siguientes tamaños: Número de elementos \u003d 250 x 500 x 365 \u003d 45,262,000. Y esto es a pesar del hecho de que los elementos llenos de la matriz solo pueden ser varios miles. Además, cuanto mayor sea la cantidad de mediciones, más enrareció la matriz.

Por lo tanto, para trabajar con esta matriz que necesita para aplicar mecanismos especiales para trabajar con matrices enrarecidas. Varias opciones para la organización de una matriz enrarecada son posibles. Están bastante bien descritos en la literatura de programación, por ejemplo, en el primer volumen del libro clásico "Arte de la programación" Donald Knuta.

Considere ahora cómo puede determinar las coordenadas de fábrica, conocer las mediciones correspondientes. Para hacer esto, considere con más detalle la estructura del encabezado:

En este caso, puede encontrar fácilmente una manera de determinar los números de la célula correspondiente y los resultados en los que cae. Aquí puedes ofrecer varios enfoques. Uno de ellos es el uso de un árbol para buscar las células correspondientes. Este árbol se puede construir al pasar la muestra. Además, puede determinar fácilmente la fórmula recurrente analítica para calcular las coordenadas deseadas.

Los datos almacenados en la tabla deben convertirse para usarlos. Entonces, para aumentar la productividad en la construcción de un hipercuba, es deseable encontrar elementos únicos almacenados en columnas que están midiendo cubo. Además, puede agregar la agregación previa de los hechos para las entradas que tienen las mismas dimensiones. Como se mencionó anteriormente, los valores únicos disponibles en los campos de medición son importantes. Luego, para el almacenamiento, puede ofrecer la siguiente estructura:

Esquema 4. Estructura de almacenamiento de valores únicos.

Al usar una estructura de este tipo, reducimos significativamente la necesidad de memoria. ¿Qué es bastante relevante, porque Para aumentar la velocidad de la operación, es recomendable almacenar datos en RAM. Además, solo puede almacenar una matriz de elementos, y sus valores se descargan en el disco, ya que solo se requerirán cuando se derive la tabla de la tabla.

Las ideas descritas anteriormente se mantuvieron al crear una biblioteca de componentes de CUBEBASE.

Esquema 5. CUBEBASE Componente Biblioteca estructura

TsubeSource hace almacenamiento en caché y conversión de datos al formato interno, así como pre-agregación de datos. El componente TsubeenGine realiza el cálculo del hipercubo y las operaciones con él. De hecho, es una máquina OLAP que transforma una tabla plana en un conjunto de datos multidimensional. El componente TCubegrid ejecuta la pantalla de la tabla de la tabla y el control de la pantalla Hypercube. Tsubechart le permite ver el hipercubo en forma de gráficos, y el componente Tsubepivote controla el trabajo del núcleo del cubo.

Entonces, consideré la arquitectura e interacción de los componentes que se pueden usar para construir una máquina OLAP. Ahora considere con más detalle la estructura interna de los componentes.

El primer paso de la operación del sistema cargará los datos y los transformará en el formato interno. La pregunta será natural, y por qué es necesaria, porque simplemente puede usar datos de una mesa plana mirando a través de ella cuando se construye un corte de cubo. Para responder a esta pregunta, considere la estructura de la tabla desde el punto de vista de la máquina OLAP. Para OLAP, el sistema de columnas de mesa puede ser de datos o mediciones. En este caso, la lógica de trabajar con estas columnas será diferente. En las mediciones de HyperCube son en realidad ejes, y los valores de medición son coordenadas en estos ejes. Al mismo tiempo, el cubo se llenará altamente desigual, habrá una combinación de coordenadas que no se configurarán entradas y habrá combinaciones que correspondan a varias entradas en la tabla de origen, y la primera situación se reúne con más frecuencia, que es, el cubo será similar al universo: espacio vacío, en lugares separados que fomentan los puntos (hechos). Por lo tanto, si está en la carga inicial de datos, haremos la pre-fabricación de datos, es decir, combinamos registros que tienen los mismos valores de medición, al mismo tiempo que calculan los hechos agregados preliminares de los hechos, entonces en el futuro tendremos que trabajar con un Menor número de registros, que aumentarán la velocidad y reducirán los requisitos del volumen de RAM.

Para construir una sección de hipercubos, necesitamos las siguientes características: la definición de coordenadas (en realidad valores de medición) para las entradas de la tabla, así como la definición de registros que tienen coordenadas específicas (valores de medición). Considere cómo se pueden realizar estas posibilidades. Para almacenar hipercubos, la forma más fácil de usar la base de datos de su formato interno es el más fácil.

La conversión esquemática puede representarse de la siguiente manera:

Esquema 6. Conversión de la base de datos de formato interno en una base de datos normalizada

Es decir, en lugar de una mesa, recibimos una base de datos normalizada. De hecho, la normalización reduce la velocidad del sistema, pueden decir especialistas en bases de datos, y en esto ciertamente serán correctos, en el caso de que necesitemos obtener valores para los elementos de los diccionarios (en nuestro caso, valores de medición) . Pero la cosa es que estos valores no necesitan estos valores en la etapa de construcción. Como se mencionó anteriormente, solo estamos interesados \u200b\u200ben coordenadas en nuestro hipercub, por lo que definimos las coordenadas para los valores de medición. Los más simples para renumerar los valores de los elementos. Con el fin de dentro de una numeración de medición, la numeración fue inequívoca, prefabricó las listas de valores de medición (diccionarios, que expresan los términos de la base de datos) en orden alfabético. Además, llevamos a cabo los hechos, y los hechos son pre-Morregados. Obtenemos el siguiente esquema:

Esquema 7. Base de datos normalizada de radiación para determinar las coordenadas de los valores de medición.

Ahora queda solo para atar los elementos de diferentes mesas entre sí. En la teoría de las bases de datos relacionales, esto se lleva a cabo utilizando tablas intermedias especiales. Tenemos suficiente para cada entrada en las tablas de medición, en línea con la lista de los cuales serán los hechos de los hechos, cuando se usó la formación de la cual se utilizaron estas mediciones (es decir, para determinar todos los hechos que tienen el mismo valor de coordenadas descrito por esta medición). Para los hechos, respectivamente, cada entrada se coloca de acuerdo con los valores de coordenadas por los cuales se encuentra en el hipercubo. En el futuro, en todas partes bajo las coordenadas de la entrada en el hipercubo se entenderá por el número de las entradas correspondientes en las tablas de los valores de medición. Luego, para nuestro ejemplo hipotético, obtenemos el siguiente conjunto, que determina la representación interna del Hypercuba:

Esquema 8. Representación interna del hipercuba.

Será nuestra representación interna del Hypercuba. Dado que no lo hacemos para la base de datos relacional, simplemente los campos de longitudes variables se utilizan como campos de comunicación (RBDS no sería posible hacerlo, ya que hay una serie de columnas de tabla con anticipación).

Sería posible intentar usar una tabla temporal establecida para implementar el hipercubo, pero este método proporcionará una velocidad demasiado baja (ejemplo, un conjunto del componente de Decisión Cubo), por lo que usaremos sus estructuras de almacenamiento.

Para implementar el hipercubo, debemos usar estructuras de datos que garanticen la máxima velocidad y los costos mínimos de RAM. Obviamente, tendremos las estructuras principales para almacenar diccionarios y hechos de fábrica. Considere las tareas que debe realizar el diccionario con la velocidad máxima:

comprobando la presencia de un elemento en el diccionario;

añadiendo un elemento al diccionario;

buscando números de registro que tienen un valor de coordenadas específico;

buscar las coordenadas de valor de medición;

búsqueda de valores de medición por su coordenada.

Para implementar estos requisitos, puede usar diferentes tipos y estructuras de datos. Por ejemplo, puede usar matrices de estructuras. En el caso real, estas matrices requieren mecanismos de indexación adicionales que aumentarán la velocidad de descargar datos y obtener información.

Para optimizar el trabajo del hipercubo, es necesario determinar qué tareas es necesario decidir sobre la prioridad, y para qué criterios debemos lograr una mejor calidad de trabajo. Lo principal para nosotros es aumentar la velocidad del programa, mientras que es deseable que no se requiera una gran cantidad de RAM. El aumento del desempeño es posible debido a la introducción de mecanismos de acceso a datos adicionales, por ejemplo, la introducción de la indexación. Desafortunadamente, mejora la sobrecarga de la RAM. Por lo tanto, definimos qué operaciones debemos realizar con la velocidad más alta. Para hacer esto, considere componentes individuales que implementen hipercubos. Estos componentes tienen dos tipos principales: medición y tabla de hechos. Para medir una tarea típica será:

añadiendo un nuevo valor;

determinación de coordenadas para medir el valor;

determinar el valor de la coordenada.

Al agregar un nuevo valor del elemento, debemos verificar si ya tenemos tal valor, y si lo existe, no se agrega a la nueva, sino que usamos la coordenada existente, de lo contrario, debe agregar un elemento nuevo y determinar su coordenada. Esto requiere un camino búsqueda rápida La presencia del elemento deseado (además, surge una tarea y al determinar la coordenada en el valor del elemento). Para hacer esto, el uso de hashing será óptimo. En este caso, la estructura óptima será el uso de los hostales, en los que almacenaremos las referencias a los elementos. Al mismo tiempo, los elementos serán las líneas del diccionario de medición. Luego, la estructura del valor de medición se puede representar de la siguiente manera:

Pfactlink \u003d ^ tactactlink;

Tactylink \u003d registro

FACTNO: INTEGER; // Índice de hecho en la tabla

Tdimensionrecord \u003d registro.

Valor: cadena; // valor de medición

ÍNDICE: INTEGER; // Valor de coordenadas

FACTLINK: PFATILINK; // Puntero al comienzo de la lista de elementos de la tabla informativa

Y en el árbol hash, albergaremos referencias a elementos únicos. Además, debemos resolver la tarea de conversión: por la coordenada para determinar el valor de medición. Para proveer rendimiento máximo Necesitas usar direccionamiento directo. Por lo tanto, puede usar otra matriz, el índice en el que es la medición de coordenadas, y el valor es la referencia a la entrada correspondiente en el diccionario. Sin embargo, es posible hacerlo más fácil (y para ahorrar en la memoria) si la matriz de elementos se puede organizar en consecuencia para que el índice de elementos sea su coordenada.

La organización de la matriz que implementa la lista de hechos no presenta problemas especiales debido a su estructura simple. El único comentario será tal que sea deseable calcular todos los métodos de agregación que pueden ser necesarios y que pueden calcularse incrementales (por ejemplo, cantidad).

Por lo tanto, describimos cómo almacenar datos en forma de hipercuba. Le permite formar un conjunto de puntos en el espacio multidimensional según la información en el almacén de datos. Para que una persona pueda trabajar con estos datos, deben enviarse en el formulario que sea conveniente para su procesamiento. Al mismo tiempo, se utilizan una tabla de resumen y gráficos como los principales tipos de presentación de datos. Además, ambos métodos realmente representan las proyecciones del hipercubo. Para garantizar la máxima eficiencia en la construcción de representaciones, seremos repelidos de lo que son estas proyecciones. Empecemos a considerar la tabla consolidada como con el análisis de datos más importante.

Encuentra maneras de implementar tal estructura. Puede seleccionar tres partes desde las cuales la tabla de resumen consiste en: Estos son los encabezados de las cadenas, los encabezados de la columna y la tabla real de hechos agregados. La mayoría. manera simple Las representaciones de la tabla de hechos utilizarán una matriz bidimensional, cuya dimensión se puede determinar mediante la construcción de titulares. Desafortunadamente, la forma más fácil será la más ineficiente, porque la tabla será fuertemente escasa, y la memoria será extremadamente ineficiente, como resultado, solo se pueden construir cubos muy pequeños, ya que de lo contrario, la memoria puede no ser suficiente. Por lo tanto, debemos elegir almacenar información, una estructura de datos que garantice la velocidad máxima de búsqueda / adición del nuevo elemento y al mismo tiempo el consumo de frecuencia mínima. Esta estructura será la llamada matrices escasas, que se pueden leer con más detalle en el látigo. Varias formas de organizar la matriz son posibles. Para seleccionar la opción que nos conviene, considere la estructura inicial del encabezado de la tabla.

Los titulares tienen una estructura jerárquica clara, por lo que naturalmente se supondrá que usar la madera para usarlos. Al mismo tiempo, la estructura esquemática del nodo de árbol se puede representar de la siguiente manera:

Apéndice C.

Al mismo tiempo, como el valor de medición, es lógico almacenar una referencia al elemento correspondiente de una tabla de medición de cubos multidimensional. Esto reducirá los costos de memoria para almacenar un corte y acelerar el trabajo. Los enlaces también se utilizan como padres y subsidiarias.

Para agregar un elemento a un árbol, debe tener información sobre su ubicación en el hipercub. Como dicha información, es necesario utilizar su coordenada, que se almacena en los valores de medición. Considere el diagrama de agregar un elemento al árbol de encabezado de la tabla consolidada. Al mismo tiempo, como información de origen, use los valores de coordenadas de medición. El orden en que se enumeran estas mediciones se determina mediante el método de agregación requerido y coincide con los niveles de jerarquía de niveles de los titulares. Como resultado, es necesario obtener una lista de columnas o filas de la tabla consolidada en la que es necesario agregar un elemento.

solicitudD.

Como datos de origen para determinar esta estructura, use las coordenadas de las mediciones. Además, para definir, asumimos que definimos la columna de interés para nosotros en la matriz (como definimos la cadena se considerará un poco más tarde, ya que es más conveniente aplicar otras estructuras de datos allí, la razón de esta elección. También está a continuación). Como coordenadas, tome enteros: el número de valores de medición que se pueden definir como se describe anteriormente.

Entonces, después de realizar este procedimiento, obtenemos una matriz de referencia a las columnas de una matriz enrarecida. Ahora necesitas realizar todas las acciones necesarias con filas. Para hacer esto, dentro de cada columna es necesario encontrar el elemento deseado y agregar el valor correspondiente allí. Para cada una de las mediciones en la recolección, es necesario conocer el número de valores únicos y el conjunto real de estos valores.

Ahora considere, en qué forma es necesario representar los valores dentro de las columnas, es decir, cómo determinar la cadena deseada. Para hacer esto, puedes usar varios enfoques. Sería los más fáciles de presentar cada columna en forma de un vector, pero como se verá con fuerza, la memoria se consumirá extremadamente ineficiente. Para evitar esto, aplicaremos las estructuras de datos que proporcionarán una mayor efectividad de la representación de matrices de unidimensiones enrarecidas (vectores). Los más simples de ellos serán la lista habitual, uno o dual, sin embargo, no está protegido desde el punto de vista del acceso a los artículos. Por lo tanto, usaremos un árbol que proporcionará más. acceso rápido A los elementos.

Por ejemplo, puede usar exactamente el mismo árbol que para las columnas, pero luego tendría que hacer su propio árbol para cada columna, lo que conducirá a altavoces significativos de memoria superior y tiempo de procesamiento. Haré un poco de astucia: ganaremos un árbol para almacenar todas las combinaciones de medición utilizadas en las filas, que serán idénticas a las anteriores descritas, pero sus elementos no indicarán las líneas (que no son como tales), y su Los índices, y los valores del índice no nos interesan y se usan solo como llaves únicas. Luego, estas teclas se utilizarán para buscar el elemento deseado dentro de la columna. Las columnas en sí mismas son más fáciles de imaginar en forma de un árbol binario convencional. La estructura obtenida gráfica se puede representar de la siguiente manera:

Esquema 9. Imagen de una tabla consolidada en forma de árbol binario.

Para determinar los números de línea apropiados, puede usar el mismo procedimiento que el procedimiento descrito anteriormente del procedimiento para determinar las columnas de la tabla consolidada. Al mismo tiempo, los números de las filas son únicos dentro de la misma tabla de resumen e identifican elementos en vectores que son columnas de la tabla de pivote. La forma más fácil de generar estos números será el mantenimiento del mostrador y el incremento de él por unidad al agregar un nuevo elemento en el árbol de encabezado del árbol. Estas columnas vectoriales en sí mismas son más fáciles de almacenar en forma de árboles binarios, donde el número de fila se usa como la clave. Además, también es posible el uso de tablas hash. Dado que los procedimientos para trabajar con estos árboles se consideran en detalle en otras fuentes, no nos detendremos en esto y consideraremos esquema general Añadir elemento a la columna.

En general, la secuencia de acciones para agregar un elemento a la matriz se puede describir de la siguiente manera:

1. Serán los números de las filas en las que se agreguen los elementos.

2. Considere el conjunto de columnas en las que se agregan los elementos.

3. Para todas las columnas para encontrar elementos con los números correctos Filas y agregue el elemento actual a ellos (la adición incluye la conexión del número deseado de hechos y el cálculo de los valores agregados que se pueden determinar incrementales).

Después de realizar este algoritmo, obtenemos una matriz, que es una tabla consolidada que necesitamos construir.

Ahora un par de palabras sobre el filtrado cuando se construye un corte. Es más fácil implementarlo justo en la etapa de construir una matriz, ya que en esta etapa se accede a todos los campos requeridos y, además, se lleva a cabo la agregación de valores. Al mismo tiempo, durante la recepción de la grabación desde el caché, su cumplimiento con las condiciones de filtrado se verifica, y en caso de incumplimiento, el registro se descarta.

Dado que la estructura descrita anteriormente describe completamente una tabla consolidada, la tarea de su visualización será trivial. En este caso, puede usar los componentes estándar de la tabla, que están disponibles en casi todas las herramientas de programación en Windows.

El primer producto que realizó las solicitudes OLAP fue Express (IRI). Sin embargo, el término OLAP en sí fue propuesto por Edgarododod, el "Padre de la BD relacional". Y el Código del Código fue financiado por Arbor, la compañía que emitió su propio producto OLAP - Essbase (más tarde comprado por Hyperion, que en 2007 fue absorbido por Oracle), un año antes. Otros productos OLAP conocidos incluyen Servicios de Análisis de Microsoft (anteriormente llamados OLAP Services, Parte SQL Server), Opción de OLAP de Oracle, servidor DB2 OLAP de IBM (de hecho, Essbase con adiciones de IBM), SAP BW, Brio, Productos de BusinessObjects, Cognos , MicroStrategy y otros fabricantes.

Desde un punto de vista técnico, los productos presentados en el mercado se dividen en "OLAP físico" y "virtual". En el primer caso, hay un programa que realiza el cálculo preliminar de los agregados, que luego se almacenan en una base de datos multidimensional especial que proporciona una extracción rápida. Ejemplos de tales productos son los servicios de análisis de Microsoft, Opción OLAP de Oracle, Oracle / Hyperion Essbase, Cognos PowerPlay. En el segundo caso, los datos se almacenan en DBMS relacional, y las unidades pueden no existir en absoluto o crear en la primera solicitud en el DBMS o el caché de software analítico. Ejemplos de tales productos - SAP BW, BusinessObjects, MicroStrategy. Los sistemas que tienen la base de "OLAP físicos" proporcionan estables. mejor tiempo Respuesta a las solicitudes que los sistemas "OLAP virtuales". Los proveedores del sistema Virtual OLAP declaran una mayor escalabilidad de sus productos en términos de respaldar cantidades muy grandes de datos.

En este documento, me gustaría considerar el producto de la compañía BaseGroup Labs - Deductor.

Deductor es una plataforma analítica, es decir,. La base para la creación de acabado. soluciones aplicadas. Implementado en tecnología deductor Permitir la base de una sola arquitectura para completar todas las etapas de la construcción de un sistema analítico: desde la creación de un almacén de datos para seleccionar automáticamente modelos y visualizar los resultados obtenidos.

Composición del sistema:

Deductor Studio es el núcleo analítico de la plataforma deductor. El estudio deductor incluye un conjunto completo de mecanismos que le permite obtener información de una fuente de datos arbitrarios, gastar todo el ciclo de procesamiento (limpieza, transformación de datos, modelos de construcción), visualizar los resultados obtenidos de la manera más conveniente (OLAP, Tablas, Gráficos, árboles, soluciones ...) y resultados de exportación.

Deductor Viewer es un destino de trabajo del usuario final. El programa le permite minimizar los requisitos del personal, porque Todas las operaciones requeridas se realizan automáticamente utilizando los escenarios de procesamiento preparados anteriormente, no es necesario pensar en el método para obtener datos y mecanismos de procesamiento. El usuario del Visor Detutor solo necesita para seleccionar el informe.

Deductor Warehouse es un almacenamiento de datos multidimensional multiplataforma que acumula toda la información necesaria para analizar el área temática. El uso de un solo repositorio le permite proporcionar un acceso conveniente, una alta velocidad de procesamiento, consistencia de la información, almacenamiento centralizado y soporte automático de todo el proceso de análisis de datos.

4. Cliente-Server

El servidor deductor está diseñado para el procesamiento analítico remoto. Proporciona la capacidad de ambos datos automáticamente "conducir" a través de escenarios existentes en el servidor y volver a subir los modelos existentes. El uso de Deductor Server le permite implementar una arquitectura de tres estrellas completos en la que realiza la función del servidor de aplicaciones. El acceso al servidor se supervisa con el cliente deductor.

Principios de trabajo:

1. Importaciones de datos

El análisis de cualquier información en Deductor comienza con la importación de datos. Como resultado de la importación, los datos se administran al formulario adecuado para el análisis posterior utilizando todos los mecanismos disponibles en el programa. Naturaleza de los datos, formato, DBMS y otros no importan, porque Mecanismos de trabajo con todos los unificados.

2. Exportaciones de datos

La presencia de mecanismos de exportación le permite reenviar los resultados en aplicaciones de terceros, por ejemplo, para transferir el pronóstico de ventas al sistema para formar una orden de compra o realizar un informe preparado en el sitio web corporativo.

3. Procesamiento de datos

En el procesamiento, en Deductor, significa cualquier acción asociada con alguna conversión de datos, por ejemplo, filtrando, construyendo un modelo, limpieza, etc. En realidad, en este bloque y produce lo más importante desde el punto de vista del análisis. La característica más significativa de los mecanismos de procesamiento implementados en Deductor es que los datos obtenidos como resultado del procesamiento pueden procesarse cualquiera de los métodos disponibles. Por lo tanto, es posible construir escenarios de procesamiento arbitrariamente complejos.

4. Visualización

Puede visualizar datos en Deductor Studio (Viewer) en cualquier etapa de procesamiento. El sistema determina de forma independiente cómo puede hacerlo, por ejemplo, si está capacitado red neuronalAdemás, las tablas y los diagramas, puede ver el gráfico de la red neuronal. El usuario necesita elegir opción de necesidad De la lista y configurar varios parámetros.

5. Mecanismos de integración.

Deductor no proporciona herramientas de entrada de datos: la plataforma está orientada exclusivamente para el procesamiento analítico. Se proporcionan mecanismos flexibles de importación-exportación para el uso de información almacenada en sistemas heterogéneos. La interacción se puede organizar utilizando la ejecución por lotes, la operación en el servidor OLE y el acceso al servidor deductor.

6. Tratamiento del conocimiento.

Deductor le permite implementar una de las funciones más importantes de cualquier sistema analítico: soporte para el proceso de replicación del conocimiento, es decir, Asegurando la oportunidad a los empleados que no comprenden los métodos de análisis y métodos para obtener un resultado particular, recibir una respuesta sobre la base de modelos preparados por el experto.

Z.acción

En este documento, una región de este tipo moderna. tecnologías de la informaciónComo sistemas de análisis de datos. Analizó la herramienta principal para el procesamiento de información analítica - OLAP - TECNOLOGÍA. Se describe en detalle la esencia del concepto de OLAP y el valor de los sistemas OLAP en el proceso de negocio moderno. La estructura y el proceso del trabajo del servidor ROLAP se describen en detalle. Como ejemplo de la implementación de los datos OLAP, se administra la plataforma analítica deductor. La documentación presentada se ha desarrollado y cumple con los requisitos.

OLAP Technology es una potente herramienta de procesamiento de datos en tiempo real. OLAP Server le permite organizar y enviar datos en la sección de varias direcciones analíticas y convierte los datos en información valiosaLo que ayuda a las empresas a tomar decisiones más informadas.

El uso de los sistemas OLAP proporciona un nivel de rendimiento y escalabilidad consistentemente alto, manteniendo los volúmenes de datos de varios gigabytes, que pueden acceder a miles de usuarios. Con la ayuda de las tecnologías OLAP, el acceso a la información se realiza en tiempo real, es decir,. El procesamiento de solicitud ya no se ralentiza el proceso de análisis, proporcionando su eficiencia y eficiencia. Las herramientas de administración visual le permiten desarrollar e implementar incluso las aplicaciones analíticas más complejas, lo que hace que este proceso sea de manera simple y rápida.

Documentos similares

    La base del concepto OLAP (procesamiento analítico en línea) - Procesamiento de datos analíticos operativos, las características de su uso en el cliente y en el servidor. Las características generales de los requisitos básicos para los sistemas OLAP, así como los métodos de almacenamiento de datos en ellos.

    resumen, añadido 10/12/2010

    OLAP: características generales, propósito, metas, tareas. Clasificación de los productos OLAP. Principios de construir el sistema OLAP, Biblioteca de componentes CUBEBASE. La dependencia del desempeño del cliente y el servidor OLAP financia del aumento en la cantidad de datos.

    trabajo del curso, añadido 12/25/2013

    Almacenamiento eterno de datos. La esencia y valor del OLAP (procesamiento analítico en línea). Bases y almacenes de datos, sus características. Estructura, arquitectura de almacenamiento de datos, sus proveedores. Varios consejos para mejorar el rendimiento de los cubos Olos.

    examen, agregado el 23/10/2010

    Construcción de sistemas de análisis de datos. Construcción de los algoritmos de diseño de cubos OLAP y creando solicitudes a una tabla incorporada. Análisis de datos multidimensionales de tecnología OLAP. Proporcionar a los usuarios información para tomar decisiones de gestión.

    trabajo del curso, agregado 19.09.2008.

    Información básica sobre OLAP. Procesamiento operacional de datos analíticos. Clasificación de los productos OLAP. Requisitos para los medios de procesamiento analítico operacional. Uso de bases de datos multidimensionales en sistemas de procesamiento analítico operacional, sus ventajas.

    trabajo del curso, añadido 10.06.2011

    Desarrollo de subsistemas para analizar un sitio web con utilizando Microsoft. Acceso y tecnologías OLAP. Aspectos teóricos del desarrollo del subsistema de análisis de datos en el sistema de información del portal de música. Tecnología OLAP en el subsistema de análisis de objetos de análisis.

    cursos, añadido 11/06/2009

    Consideración de los fondos OLAP: Clasificación de exhibiciones y almacenes de información, el concepto de cubo de datos. Arquitectura del sistema de apoyo a la toma de decisiones. Implementación de software del sistema "Abitura". Creación de un informe web utilizando la tecnología de servicios de informes.

    cursos, añadido 05.12.2012

    Almacén de datos, principios de organización. Procesos de trabajo de datos. Estructura OLAP, aspectos técnicos del almacenamiento multidimensional de datos. Servicios de integración, relleno de almacenamiento y muestras de datos. Oportunidades para sistemas utilizando las tecnologías de Microsoft.

    cursos, añadido 05.12.2012

    Construcción de un circuito de almacenamiento de datos de una empresa comercial. Descripciones de circuitos de relación de almacenamiento. Muestra la información del producto. Creación de un cubo OLAP para análisis de más información. Desarrollo de solicitudes para evaluar la eficiencia del supermercado.

    examen, agregado 12/12/2015

    Asignar almacenes de datos. SAP BW ARQUITECTURA. Construyendo informes analíticos basados \u200b\u200ben cubos OLAP en el sistema SAP BW. Las principales diferencias entre el almacenamiento de datos y el sistema OLTP. Revisión de las esferas funcionales Bex. Creación de una consulta en Bex Query Designer.

Propósito papel a plazo Es el estudio de la tecnología OLAP, el concepto de su implementación y estructura.

EN mundo moderno red de computadoras y los sistemas de computación le permiten analizar y procesar grandes matrices de datos.

La gran cantidad de información complica enormemente la búsqueda de soluciones, pero le permite obtener cálculos y análisis mucho más precisos. Para resolver este problema, existe toda una clase de sistemas de información que analizan. Dichos sistemas se denominan sistemas de apoyo a la toma de decisiones (DSS, sistema de apoyo a la decisión).

Para realizar el análisis de SPPR, la información debe acumular información por medio de su entrada y almacenamiento. Puede asignar tres tareas principales resueltas en SPPR:

· Entrada de datos;

· almacenamiento de datos;

· análisis de los datos.

La introducción de datos en SPPR se lleva a cabo automáticamente de los sensores que caracterizan el estado del medio o el proceso, o por el operador humano.

Si la entrada de datos se lleva a cabo automáticamente de los sensores, los datos se acumulan mediante una señal de preparación que ocurre cuando aparece la información o por encuesta cíclica. Si la entrada es realizada por una persona, debe proporcionar a los usuarios herramientas convenientes para ingresar datos que los revisen en la corrección de la entrada, así como realizar los cálculos necesarios.

Al ingresar datos al mismo tiempo múltiples operadores, es necesario resolver problemas de modificación y acceso paralelo de los mismos datos.

SPPR proporciona datos de analistas en forma de informes, tablas, gráficos para estudiar y analizar, por lo que dichos sistemas aseguran la ejecución de las funciones de apoyo a la decisión.

En los subsistemas de ingreso de datos, llamados OLTP (on-linetransactionProcessing), se implementa los datos. Para implementarlos, use sistemas de gestión de bases de datos convencionales (DBMS).

El subsistema de análisis se puede construir sobre la base de:

· Subsistemas de análisis de recuperación de información basados \u200b\u200ben DBMS relacional y consultas estáticas utilizando SQL;

· Subsistemas de análisis operacional. Para implementar dichos subsistemas, se aplica la tecnología del procesamiento analítico operacional de los datos OLAP que utiliza el concepto de representación de datos multidimensionales;

· Subsistemas de análisis intelectual. Este subsistema implementa los métodos de dataming y los algoritmos.

Desde el punto de vista del usuario, el sistema OLAP representa los medios de visualización flexible de información en varias secciones, recibo automático Datos agregados, realizando operaciones analíticas, detalle, comparación con el tiempo. Gracias a todo esto, los sistemas OLAP son una solución con grandes ventajas en la preparación de datos para todos los tipos de informes comerciales, que sugieren presentación de datos en varios recortes y diferentes niveles de jerarquía, como los informes de ventas, varias formas de presupuestos y otros. El sistema OLAP tiene grandes ventajas de tal presentación en otras formas de análisis de datos, incluso para predecir.

1.2 definición OLAP.-Systems

La tecnología de análisis de datos multidimensionales integrado se llamó OLAP. OLAP es el componente clave de la organización HD.

La funcionalidad OLAP se puede implementar de varias maneras, tanto lo más sencillo, como analizar datos en aplicaciones de oficina, así como sistemas analíticos distribuidos más complejos basados \u200b\u200ben productos del servidor.

OLAP (on-lineanAalytalprocessing) - Tecnología de procesamiento de datos analíticos operativos utilizando las herramientas y métodos para recopilar, almacenar y analizar datos multidimensionales y para apoyar los procesos de toma de decisiones.

El propósito principal de OLAP Systems está apoyando actividades analíticas, consulta arbitraria de usuarios de analistas. El propósito del análisis OLAP es revisar las hipótesis emergentes.

En 1993, el fundador del enfoque relacional para construir la base de datos EDGAR CODD con Partners (Edgar CODD, Matemáticas y Scholant IBM), publicó un artículo iniciado por el software Arbor (hoy es la compañía más famosa "Hyperion Solutions") titulada "OLAP PROVISION (Procesamiento analítico operacional) para los usuarios de analistas ", en los cuales se formulan 12 características de la tecnología OLAP, que posteriormente se complementaron con seis más. Estas disposiciones se han convertido en el contenido principal de la tecnología nueva y muy prometedora.

Características principales de la tecnología. OLAP (BÁSICO):

  • representación conceptual multidimensional de datos;
  • manipulación de datos intuitivos;
  • disponibilidad y detalles de datos;
  • paquete extracción de datos contra la interpretación;
  • Modelos de análisis OLAP;
  • arquitectura cliente-servidor (OLAP está disponible en Desktop);
  • transparencia (acceso transparente a datos externos);
  • soporte multijugador.

Características especiales (Especial):

  • procesamiento de datos informalizados;
  • guardar los resultados de OLAP: almacenarlos por separado de los datos de origen;
  • eliminación de valores faltantes;
  • procesando valores faltantes.

Características de la presentación de informes. (Informe):

  • reportando flexibilidad;
  • rendimiento del informe estándar;
  • configuración automática del nivel físico de extracción de datos.

Gestión de la medición (Dimensión):

  • universalidad de mediciones;
  • número ilimitado de mediciones y niveles de agregación;
  • número ilimitado de operaciones entre dimensiones.

Históricamente, hoy en día, hoy en día, el término "OLAP" implica no solo una visión multidimensional de los datos del usuario final, sino también una presentación multidimensional de datos en la base de datos de destino. Esto se debe a la apariencia como un término independiente. "OLAP relacional" (Rolap) y "Múltiple OLAP" (Molap).

OLAP SSERVIS es una herramienta para analizar grandes cantidades de datos en tiempo real. Interactuando con el sistema OLAP, el usuario podrá ejercer una visualización flexible de información, obtener secciones de datos arbitrarios y realizar operaciones analíticas de detalle, convolución, a través de la distribución, comparaciones de tiempo simultáneamente en muchos parámetros. Todo el trabajo con OLAP está ocurriendo en términos del área temática y le permite construir situaciones de negocios estadísticamente fundamentadas.

Herramientas de software OLAP - esta es una herramienta de análisis operacional.contenido en el repositorio. La característica principal es que estos fondos se enfocan en utilizar no un especialista en el campo de la tecnología de la información, no un experto estadístico, sino un profesional en el área de la aplicación, el departamento, el departamento, el departamento y, finalmente, el director. Los medios están destinados a comunicar analíticos. con un problema y no con una computadora.. En la Fig. 6.14 es un OLAP-KUB elemental, que permite producir estimaciones de datos para tres dimensiones.

OLAP-KUB multidimensional y el sistema de los algoritmos de procesamiento estadísticos matemáticos respectivos le permiten analizar datos de cualquier complejidad en cualquier intervalos de tiempo.


Higo. 6.14.

Tener a su disposición mecanismos flexibles para manipular datos y visualización visual (Fig. 6.15, Fig. 6.16), el administrador primero considera datos de diferentes lados, que pueden ser (y pueden no estar) asociados con el problema que se está resolviendo.

A continuación, compara varios indicadores de negocios entre ellos, tratando de identificar las relaciones ocultas; Puede considerar los datos más estrechamente, detallándolos, por ejemplo, en descomposición en las cantidades de tiempo, por regiones o por los clientes, o, por el contrario, resumir aún más la presentación de información para eliminar los detalles de distracción. Después de eso con el módulo. estimación estadística y modelado de simulación. Se construyen varias opciones para el desarrollo de eventos, y se selecciona la opción más aceptable.


Higo. 6.15.

La compañía de gestión, por ejemplo, puede nacer por una hipótesis de que la propagación del crecimiento de los activos en varias ramas de la Compañía depende de la proporción de especialistas con educación técnica y económica. Para verificar esta hipótesis, el gerente puede solicitar el repositorio y mostrar su relación para esas sucursales, que para el trimestre actual, el crecimiento de los activos disminuyó en comparación con el año pasado en más del 10%, y para aquellos que han aumentado más que en 25%. Debe poder usar una selección simple desde el menú propuesto. Si los resultados obtenidos se desintegran significativamente en dos grupos relevantes, esto debería ser un incentivo para una verificación adicional de la hipótesis extendida.

Actualmente, el desarrollo rápido recibió una dirección llamada modelado dinámico (Simulación dinámica), implementando completamente el principio anterior FASMI.

Uso del modelado dinámico, el analista crea un modelo de una situación comercial que se desarrolla a tiempo, por algún escenario. En este caso, el resultado de dicho modelo puede ser varias situaciones de negocios nuevas que generan un árbol soluciones posibles Con la evaluación de la probabilidad y las perspectivas de cada uno.


Higo. 6.16.

Tabla 6.3 muestra características comparativas Análisis estático y dinámico.

Tabla 6.3.
Característica Análisis estático Análisis dinámico
Tipos de preguntas ¡OMS! ¿Qué? ¿Cuantos? ¿Cómo? ¿Cuándo? ¿Dónde? ¿Porqué es eso? Que pasaria si ...? Y si…?
Tiempo de respuesta No regulado Segundos
Operaciones típicas que trabajan con datos. Informe regulado, Diagrama, Tabla, Dibujo Secuencia de informes interactivos, diagramas, formularios de pantalla. Cambio dinámico en los niveles de agregación y secciones de datos.
Nivel de requisitos analíticos. Medio Alto
Tipo de formularios de pantalla Principalmente determinado por adelantado, regulado. Definido por el usuario, hay características de personalización.
Nivel de agregación de datos Detallado y total Determinado por el usuario
"Edad" de datos Histórico y actual Histórico, actual y proyectado.
Tipos de solicitudes En su mayoría predecible Impredecible - de la ocasión hasta ocasiones
Propósito Procesamiento analítico regulado Análisis de multipurismo, modelado y pronósticos de construcción.

Casi siempre la tarea de construir un sistema analítico para el análisis de datos multidimensional es la tarea de construir un sistema de información de funcionamiento unificado, acordado, basado en inhomogéneo software y soluciones. Y ya la elección de fondos para implementar la propiedad intelectual se convierte en una tarea extremadamente difícil. Se deben tener en cuenta muchos factores, incluida la compatibilidad mutua de varios componentes de software , facilidad de su desarrollo, uso e integración, eficiencia de funcionamiento, estabilidad e incluso formas, niveles y posibles relaciones prometedores de diversas empresas de fabricantes.

OLAP Aplique donde sea que haya una tarea de analizar los datos multifactores. En general, con alguna tabla con datos, en los que hay al menos una columna descriptiva y una columna con números, el proceso OLAP será herramienta efectiva Análisis y generación de informes. Como ejemplo de aplicar la tecnología OLAP, considere el estudio de los resultados del proceso de venta.

Preguntas clave "¿Cuántos vendidos?", "¿Qué cantidad se vende?" Se expande como complicaciones comerciales y acumulación de datos históricos a un determinado conjunto de factores, o cortes: ".. en San Petersburgo, en Moscú, en los Urales, en Siberia ...", ".. en el último trimestre, en comparación a la corriente "," ..el proveedor y en comparación con el proveedor b ... "y así sucesivamente.

Las respuestas a tales preguntas son necesarias para tomar decisiones de gestión: sobre cómo cambiar el rango, el precio, el cierre y la apertura de las tiendas, las sucursales, la terminación y los contratos de firma con distribuidores, o la terminación de campañas publicitarias, etc.

Si intenta resaltar los números principales (hechos) y los recortes (argumentos de medición), que manipula al analista, intentando expandir u optimizar el negocio de la compañía, entonces la tabla será una tabla adecuada para el análisis de ventas como una plantilla que requiere el ajuste apropiado Para cada empresa en particular.

Hora. Como regla general, estos son varios períodos: año, cuarto, mes, década, semana, día. Muchas impresiones OLAP calculan automáticamente los períodos más antiguos a partir de la fecha y calculan los resultados en ellos.

Categoría de bienes. Las categorías pueden ser varias, difieren para cada tipo de negocio: variedad, modelo, tipo de embalaje, etc. Si solo se vende un producto o el rango es muy pequeño, entonces la categoría no es necesaria.

Producto. A veces se aplica el nombre de los bienes (o servicios), su código o artículo. En los casos en que el rango es muy grande (y algunas empresas tienen decenas de miles de posiciones en su lista de precios), no se puede realizar un análisis inicial para todos los tipos de productos, sino para comunicarse con algunas categorías acordadas.

Región. Dependiendo de la globalidad del negocio, es posible tener en cuenta el continente, un grupo de países, país, territorio, ciudad, distrito, calle, parte de la calle. Por supuesto, si solo hay un punto de compras, entonces falta esta dimensión.

Vendedor. Esta medición también depende de la estructura y escala de negocios. Aquí puede ser: una sucursal, una tienda, distribuidor, gerente de ventas. En algunos casos, falta la dimensión, por ejemplo, cuando el vendedor no afecta los volúmenes de ventas, la tienda es solo una en una etapa.

Comprador. En algunos casos, por ejemplo, en la venta al por menor, el comprador es impersonal y no hay dimensión, en otros casos, hay información sobre el comprador, y es importante para las ventas. Esta medición puede contener el nombre de la compañía del comprador o en muchos agrupaciones y características de los clientes: industria, grupo empresarial, propietario, etc. ,. Análisis de la estructura de ventas para identificar los componentes más importantes en el contexto de la sección. Para hacer esto, es conveniente usar, por ejemplo, un diagrama de "pastel" en casos difíciles cuando se estudian 3 mediciones a la vez: "Columnas". Por ejemplo, en la tienda de tecnología informática para el rango de ventas de computadoras ascendió a $ 100,000, equipo fotográfico: $ 10,000, consumibles - $ 4500. Conclusión: la facturación de la tienda depende en gran medida de la venta de computadoras (de hecho, tal vez los consumibles son necesarios para la venta de computadoras, pero esto ya es un análisis de las dependencias internas).

Análisis de dinámica ( análisis de regresión - Detección de tendencias). Detección de tendencias, oscilaciones estacionales. Vitely Dynamics muestra el gráfico de tipo de línea. Por ejemplo, los volúmenes de ventas de los productos Intel han disminuido durante todo el año, y las ventas de Microsoft crecieron. Tal vez mejoró el bienestar del comprador promedio, o la imagen de la tienda ha cambiado, y con él la composición de los compradores. Se requiere realizar un ajuste del rango. Otro ejemplo: durante 3 años en invierno, se reducen las ventas de cámaras de video.

Análisis de dependencias. (Análisis de correlación). Comparación de los volúmenes de ventas de diferentes productos a tiempo para identificar el rango requerido - "Cestas". Para hacer esto, también es conveniente usar un gráfico de "línea". Por ejemplo, al eliminar el rango de impresoras durante los primeros dos meses, se descubrió una caída en las ventas de cartuchos de polvo.