Menu
Jest wolny
rejestracja
Dom  /  NA/ Systemy Olap. Kategorie systemów informatycznych

Systemy Olap. Kategorie systemów informatycznych

dyrygowanie

Ostatnio dużo napisano o OLAP-ie. Można powiedzieć, że wokół tych technologii nastąpił boom. Co prawda dla nas ten boom był nieco spóźniony, ale ma to oczywiście związek z ogólną sytuacją w kraju.

Systemy informatyczne obejmujące całe przedsiębiorstwo z reguły zawierają aplikacje przeznaczone do złożonej wielowymiarowej analizy danych, ich dynamiki, trendów itp. Ta analiza ma ostatecznie ułatwić podejmowanie decyzji. Często systemy te nazywane są tzw. systemami wspomagania decyzji.

Systemy wspomagania decyzji zazwyczaj mają możliwość dostarczenia użytkownikowi danych zagregowanych dla różnych próbek ze zbioru początkowego w formie dogodnej do percepcji i analizy. Zazwyczaj takie funkcje agregujące tworzą wielowymiarowy (a zatem nierelacyjny) zbiór danych (często nazywany hipersześcianem lub metasześcianem), którego osie zawierają parametry, a komórki - dane zagregowane od nich zależne - i takie dane mogą być również przechowywane w tabelach relacyjnych, ale w tym przypadku mówimy o logicznej organizacji danych, a nie o fizycznej realizacji ich przechowywania). Wzdłuż każdej osi dane mogą być zorganizowane w hierarchię reprezentującą różne poziomy szczegółowości. Dzięki temu modelowi danych użytkownicy mogą formułować złożone zapytania, generować raporty i pobierać podzbiory danych.

Technologia kompleksowej wielowymiarowej analizy danych nazywa się OLAP (On-Line Analytical Processing).

OLAP jest kluczowym elementem organizacji hurtowni danych.

Koncepcja OLAP została po raz pierwszy opisana w 1993 roku przez Edgara Codda, znanego badacza baz danych i autora relacyjnego modelu danych.E.F. Dorsz, S.B. Codd i CT Salley, Zapewnienie OLAP (przetwarzanie analityczne online) użytkownikom-analitykom: mandat IT. Raport techniczny, 1993).

W 1995 roku na podstawie wymagań stawianych przez Codda sformułowano tzw. test Fast Analysis of Shared Multidimensional Information (FASMI), który zawiera następujące wymagania dla aplikacji do analizy wielowymiarowej:

· dostarczenie użytkownikowi wyników analizy w rozsądnym czasie (zwykle nie dłuższym niż 5 s), nawet kosztem mniej szczegółowej analizy;

· możliwość przeprowadzenia dowolnej analizy logicznej i statystycznej typowej dla tej aplikacji i zapisania jej w postaci dostępnej dla użytkownika końcowego;

· dostęp do danych dla wielu użytkowników przy wsparciu odpowiednich mechanizmów blokujących i autoryzowanych środków dostępu;

· wielowymiarowa koncepcyjna reprezentacja danych, w tym pełna obsługa hierarchii i wielu hierarchii (jest to kluczowe wymaganie OLAP);

· możliwość dostępu do wszelkich niezbędnych informacji, niezależnie od ich objętości i miejsca przechowywania.

Należy zauważyć, że funkcjonalność OLAP można wdrażać na różne sposoby, od najprostszych narzędzi do analizy danych w aplikacjach biurowych po rozproszone systemy analityczne oparte na produktach serwerowych. Użytkownicy mogą łatwo przeglądać dane w wielowymiarowej strukturze dostosowanej do własnych potrzeb.

2. Co to jest OLAP

OLAP to skrót od On-Line Analytical Processing, który nie jest nazwą konkretnego produktu, ale całej technologii. W języku rosyjskim najwygodniej jest zadzwonić do przetwarzania analitycznego online OLAP. Chociaż niektóre publikacje odnoszą się do przetwarzania analitycznego zarówno online, jak i interaktywnego, przymiotnik „online” jak najdokładniej oddaje znaczenie technologii OLAP.

Rozwój przywództwa w rozwiązaniach zarządczych należy do kategorii obszarów najtrudniejszych do zautomatyzowania. Jednak dzisiaj istnieje możliwość pomocy menedżerowi w opracowywaniu decyzji, a co najważniejsze, znacznego przyspieszenia procesu opracowywania decyzji, ich wyboru i przyjmowania. Możesz do tego użyć OLAP.

Przyjrzyjmy się, jak zwykle przebiega proces tworzenia rozwiązania.

Historycznie najbardziej rozwinięte są rozwiązania automatyzacji działań operacyjnych. Mówimy o systemach przetwarzania danych transakcyjnych (OLTP), prościej nazywanych systemami operacyjnymi. Systemy te zapewniają rejestrację niektórych faktów, ich krótkie przechowywanie oraz przechowywanie w archiwach. Podstawą takich systemów są systemy zarządzania relacyjnymi bazami danych (RDBMS). Tradycyjne podejście polega na próbie wykorzystania już zbudowanych systemów operacyjnych do wspomagania podejmowania decyzji. Zazwyczaj starają się zbudować rozbudowany system zapytań do systemu operacyjnego i wykorzystać raporty uzyskane po interpretacji bezpośrednio do wspomagania decyzji. Raporty mogą być budowane na podstawie niestandardowej, tj. menedżer prosi o raport i regularnie, gdy raporty są budowane po dotarciu do jakiegoś wydarzenia lub czasu. Na przykład tradycyjny proces wspomagania decyzji może wyglądać tak: menedżer udaje się do specjalisty IT i dzieli się z nim swoim pytaniem. Następnie specjalista CIO buduje wniosek do systemu operacyjnego, otrzymuje raport elektroniczny, interpretuje go, a następnie przekazuje kadrze zarządzającej. Oczywiście taki schemat zapewnia do pewnego stopnia wspomaganie decyzji, ale ma wyjątkowo niską wydajność i ogromną liczbę wad. Niewielka ilość danych jest wykorzystywana do wspierania decyzji o znaczeniu krytycznym. Są też inne problemy. Proces ten jest bardzo powolny, ponieważ sam proces pisania wniosków i interpretacji raportu elektronicznego jest długi. Zajmuje to wiele dni, a lider może potrzebować natychmiastowego podjęcia decyzji. Jeśli weźmiemy pod uwagę, że menedżer po otrzymaniu raportu może być zainteresowany innym pytaniem (powiedzmy wyjaśnieniem lub wymaganiem uwzględnienia danych w innym kontekście), to ten powolny cykl należy powtórzyć, a ponieważ proces analizy dane systemów operacyjnych będą pojawiać się iteracyjnie, poświęcając jeszcze więcej czasu. Innym problemem jest problem różnych obszarów działalności informatyka i lidera, którzy mogą myśleć w różnych kategoriach iw efekcie nie rozumieć się nawzajem. Wtedy wymagane będą dodatkowe iteracje udoskonalania i znowu jest to czas, który zawsze nie wystarcza. Kolejną ważną kwestią jest złożoność raportów do zrozumienia. Menedżer nie ma czasu na wybieranie interesujących nas liczb z raportu, zwłaszcza, że ​​może być ich za dużo (pamiętaj o ogromnych wielostronicowych raportach, w których faktycznie używa się kilku stron, a resztę - na wszelki wypadek). Zwracamy również uwagę, że prace ustne najczęściej spadają na specjalistów z działów informacji. Oznacza to, że kompetentnego specjalisty rozprasza rutynowa i nieefektywna praca polegająca na rysowaniu diagramów itp., Co oczywiście nie może mieć korzystnego wpływu na jego kwalifikacje. Ponadto nie jest tajemnicą, że w łańcuchu interpretacji znajdują się sympatycy, którzy są zainteresowani celowym zniekształcaniem napływających informacji.

Powyższe niedociągnięcia skłaniają do myślenia zarówno o ogólnej sprawności systemu operacyjnego, jak i o kosztach związanych z jego istnieniem, gdyż okazuje się, że koszty stworzenia systemu operacyjnego nie są odpowiednio kompensowane wydajnością jego pracy.

W rzeczywistości problemy te nie są konsekwencją złej jakości systemu operacyjnego ani jego złej konstrukcji. Korzenie problemów tkwią w zasadniczej różnicy między działaniami operacyjnymi, które są zautomatyzowane przez system operacyjny, a działaniami rozwojowymi i decyzyjnymi. Różnica ta polega na tym, że dane systemów operacyjnych są po prostu zapisami jakichś zdarzeń, które miały miejsce, faktami, ale w żadnym razie informacją w ogólnym tego słowa znaczeniu. Informacja jest tym, co zmniejsza niepewność w każdym obszarze. I bardzo dobrze by było, gdyby informacja zmniejszyła niepewność w zakresie przygotowania decyzji. Słynny E.F. Codd, pionier technologii zarządzania relacyjnymi bazami danych w latach 70.: „Chociaż systemy zarządzania relacyjnymi bazami danych są dostępne dla użytkowników, nigdy nie postrzegano ich jako zapewniających potężne funkcje do syntezy, analizy i konsolidacji (funkcje zwane wielowymiarową analizą danych).)” . Chodzi właśnie o syntezę informacji, o to, jak zamienić dane systemów operacyjnych w informacje, a nawet oceny jakościowe. OLAP umożliwia wykonanie tej transformacji.

OLAP opiera się na idei wielowymiarowego modelu danych. Myślenie ludzkie jest z definicji wielowymiarowe. Kiedy człowiek zadaje pytania, nakłada ograniczenia, formułując tym samym pytania w wielu wymiarach, więc proces analizy w modelu wielowymiarowym jest bardzo bliski rzeczywistości ludzkiego myślenia. Zgodnie z wymiarami w modelu wielowymiarowym, czynniki wpływające na działalność przedsiębiorstwa (np. czas, produkty, działy firmy, geografia itp.) są odkładane. W ten sposób uzyskuje się hipersześcian (oczywiście nazwa nie jest zbyt dobra, ponieważ sześcian jest zwykle rozumiany jako figura o równych krawędziach, która w tym przypadku jest daleka od przypadku), która jest następnie wypełniana wskaźnikami działalność przedsiębiorstwa (ceny, sprzedaż, plan, zyski, straty itp. itp.). Wypełnianie to może odbywać się zarówno rzeczywistymi danymi systemów operacyjnych, jak i przewidywane na podstawie danych historycznych. Wymiary hipersześcianu mogą być złożone, hierarchiczne, a między nimi można ustalić relacje. W procesie analizy użytkownik może zmienić punkt widzenia na dane (tzw. operacja zmiany widoku logicznego), tym samym przeglądając dane w różnych przekrojach i rozwiązując określone problemy. Na kostkach można wykonywać różne operacje, w tym prognozowanie i planowanie warunkowe (analiza warunkowa). Ponadto operacje wykonywane są od razu na kostkach, tj. produkt, na przykład, da w wyniku produkt hipersześcianu, którego każda komórka jest produktem komórek odpowiednich hipersześcianów mnożących. Oczywiście możliwe jest wykonywanie operacji na hipersześcianach o różnej liczbie wymiarów.

3. Historia tworzenia technologii OLAP

Pomysł przetwarzania danych na wielowymiarowych tablicach nie jest nowy. W rzeczywistości sięga roku 1962, kiedy Ken Iverson opublikował swoją książkę Język programowania (APL). Pierwsze praktyczne wdrożenie APL miało miejsce pod koniec lat sześćdziesiątych przez IBM. APL to bardzo elegancki, matematycznie zdefiniowany język z wielowymiarowymi zmiennymi i przetwarzalnymi operacjami. Miało być oryginalnym, potężnym narzędziem do wielowymiarowej transformacji w porównaniu z innymi praktycznymi językami programowania.

Pomysł nie był jednak szeroko stosowany przez długi czas, ponieważ nie nadszedł jeszcze czas na interfejsy graficzne, wysokiej jakości urządzenia drukujące, a wyświetlanie greckich znaków wymagało specjalnych ekranów, klawiatur i urządzeń drukujących. Później angielskie słowa były czasami używane w celu zastąpienia greckich operatorów, ale działacze na rzecz czystości APL udaremniali próby spopularyzowania ich ulubionego języka. APL zużywała również zasoby maszynowe. Jego użycie było w tamtych czasach drogie. Programy działały bardzo wolno, a dodatkowo sam koszt ich uruchamiania. Zajęło dużo pamięci, w tym czasie po prostu szokujące objętości (około 6 MB).

Jednak frustracja tych początkowych błędów nie zabiła pomysłu. Był używany w wielu aplikacjach biznesowych w latach 70-tych, 80-tych. Wiele z tych aplikacji posiada cechy nowoczesnych systemów przetwarzania analitycznego. Na przykład IBM opracował system operacyjny dla APL o nazwie VSPC, który niektórzy uważali za idealne środowisko do użytku osobistego, dopóki arkusze kalkulacyjne nie stały się wszechobecne.

Ale APL był zbyt trudny w użyciu, zwłaszcza że za każdym razem pojawiały się niespójności między samym językiem a sprzętem, na którym próbowano go zaimplementować.

W latach 80. APL stał się dostępny na komputerach osobistych, ale nie znalazł zastosowania na rynku. Alternatywą było programowanie aplikacji wielowymiarowych z wykorzystaniem tablic w innych językach. Było to bardzo trudne zadanie nawet dla profesjonalnych programistów, które wymusiło oczekiwanie na kolejną generację wielowymiarowych produktów programowych.

W 1972 roku kilka wielowymiarowych produktów oprogramowania, które wcześniej były wykorzystywane do celów edukacyjnych, znalazło komercyjne zastosowanie: Express. Pozostaje w całkowicie przepisanej formie nawet teraz, ale oryginalne koncepcje z lat 70. nie są już aktualne. Express to obecnie jedna z najpopularniejszych technologii OLAP w latach 90., a Oracle (r) będzie ją rozwijać i dodawać nowe funkcje.

W latach 80. pojawiły się bardziej wielowymiarowe produkty. Na początku dekady – produkt o nazwie Stratagem, później nazwany Acumate (dziś należący do Kenan Technologies), który był jeszcze promowany do wczesnych lat 90., ale dziś, w przeciwieństwie do Expressu, praktycznie nie jest używany.

Comshare System W był wielowymiarowym produktem w innym stylu. Wprowadzony w 1981 roku, był pierwszym, który oferował więcej aplikacji dla użytkowników końcowych i finansowych. Wniósł wiele koncepcji, które nie były dobrze dostosowane, takie jak całkowicie nieproceduralne reguły, pełnoekranowe wyświetlanie i edycja danych wielowymiarowych, automatyczne przeliczanie i integracja wsadowa z danymi relacyjnymi. Jednak Comshare System W był wystarczająco ciężki dla ówczesnego sprzętu w porównaniu z innymi produktami i był mniej używany w przyszłości, sprzedawany mniej i nie wprowadzał żadnych ulepszeń produktu. Mimo że nadal jest dostępny na UNIX-ie, nie jest klientem-serwerem, co nie zwiększa jego oferty na rynku analitycznym. Pod koniec lat 80-tych Comshare wypuścił produkt dla DOS, a później dla Windows. Produkty te nosiły nazwę Commander Prism i wykorzystywały te same koncepcje, co System W.

Kolejnym kreatywnym produktem późnych lat 80. był Metaphor. Skierowany był do profesjonalnych marketerów. Zaproponował także wiele nowych koncepcji, które dopiero zaczynają być dziś szeroko stosowane: przetwarzanie klient-serwer, wykorzystanie wielowymiarowego modelu na danych relacyjnych, tworzenie aplikacji zorientowanych obiektowo. Jednak standardowy sprzęt komputerów osobistych w tamtych czasach nie był w stanie współpracować z Metaphor, a sprzedawcy zostali zmuszeni do opracowania własnych standardów dla komputerów osobistych i sieci. Stopniowo Metaphor zaczął z powodzeniem działać na seryjnych komputerach osobistych, ale produkt został stworzony wyłącznie dla OS/2 i miał własny graficzny interfejs użytkownika.

Następnie Metaphor zawarła sojusz marketingowy z IBM, który został następnie przejęty. W połowie 1994 roku IBM zdecydował się zintegrować technologię Metaphor (przemianowaną na DIS) ze swoimi przyszłymi technologiami i tym samym zakończyć finansowanie oddzielnej działalności, ale klienci wyrazili swoje niezadowolenie i zażądali dalszego wsparcia dla produktu. Wsparcie dla pozostałych klientów było kontynuowane, a IBM ponownie wypuścił produkt pod nową nazwą DIS, co jednak nie przysporzyło mu popularności. Ale kreatywne, innowacyjne koncepcje Metaphor nie zostały zapomniane i są widoczne dzisiaj w wielu produktach.

W połowie lat 80. narodził się termin EIS (Executive Information System). Pierwszym produktem, który wyraźnie pokazał ten kierunek, było Centrum Dowodzenia Pilotów. Był to produkt, który umożliwiał przetwarzanie zespołowe, które dziś nazywamy przetwarzaniem klient-serwer. Ponieważ moc komputerów osobistych w latach 80. była ograniczona, produkt był bardzo „serwercentryczny”, ale zasada ta jest nadal bardzo popularna. Pilot nie sprzedawał Centrum Dowodzenia przez długi czas, ale oferował wiele koncepcji, których można się nauczyć we współczesnych produktach OLAP, w tym automatyczne taktowanie, wielowymiarowe przetwarzanie klient/serwer oraz uproszczoną kontrolę procesu analizy (mysz, wrażliwe ekrany itp.). Niektóre z tych koncepcji zostały później ponownie zastosowane w Pilot Analysis Server.

Pod koniec lat 80. arkusze kalkulacyjne były dominującym na rynku narzędziem do dostarczania analiz użytkownikom końcowym. Pierwszy wielowymiarowy arkusz kalkulacyjny został wprowadzony przez firmę Compete. Był sprzedawany jako bardzo drogi produkt dla specjalistów, ale sprzedawcy nie zapewnili możliwości zdobycia rynku dla tego produktu, a Computer Associates nabyło do niego prawa wraz z innymi produktami, w tym Supercalc i 20/20. Głównym efektem przejęcia CA Compete był gwałtowny spadek jego ceny oraz usunięcie ochrony przed kopiowaniem, co w naturalny sposób przyczyniło się do jej dystrybucji. Jednak to się nie udało. Konkurencja jest sercem Supercalc 5, ale jego wielowymiarowy aspekt nie jest promowany. Stary Compete jest nadal czasami używany ze względu na to, że zainwestowano w niego jednorazowo dużo pieniędzy.

Lotus próbował następnie wejść na rynek wielowymiarowych arkuszy kalkulacyjnych z Improv, który działa na maszynie NeXT. Zapewniło to co najmniej, że sprzedaż 1-2-3 nie spadła, ale kiedy w końcu został wydany dla Windows, Excel miał już duży udział w rynku, co uniemożliwiło Lotus wprowadzenie jakichkolwiek zmian w dystrybucji rynku. Lotus, podobnie jak CA z Compete, przeniósł Improv na niższy segment rynku, ale nie był to warunek wstępny dla pomyślnego rozwoju rynku, a nowe rozwiązania w tym obszarze nie były kontynuowane. Okazało się, że użytkownicy komputerów osobistych woleli 1-2-3 arkusze kalkulacyjne i nie byli zainteresowani nowymi wielowymiarowymi możliwościami, jeśli nie były w pełni kompatybilne ze starymi arkuszami kalkulacyjnymi. Podobnie koncepcje małych arkuszy kalkulacyjnych dla komputerów stacjonarnych oferowane jako aplikacje osobiste nie okazały się przydatne i zakorzeniły się w prawdziwym świecie biznesu. Microsoft (r) poszedł tą ścieżką, dodając do Excela tabele przestawne (w wersji rosyjskiej nazywa się to „tablicami przestawnymi”). Chociaż niewielu użytkowników Excela skorzystało z tej funkcji, prawdopodobnie jest to jedyny fakt, że możliwości analizy wielowymiarowej są szeroko stosowane na świecie, po prostu dlatego, że na świecie jest tak wielu użytkowników Excela.

4. OLAP, ROLAP, MOLAP...

Powszechnie wiadomo, że kiedy Codd opublikował swoje zasady budowania relacyjnych DBMS w 1985 roku, wywołały one silną reakcję, a następnie wywarły silny wpływ na całą branżę DBMS. Jednak niewiele osób wie, że w 1993 roku Codd opublikował pracę zatytułowaną „OLAP for Analytic Users: What It Should Be”. Nakreślił w nim podstawowe pojęcia przetwarzania analitycznego online oraz zidentyfikował 12 zasad, jakie muszą spełniać produkty umożliwiające przetwarzanie analityczne online.

Oto zasady (w miarę możliwości zachowany oryginalny tekst):

1. Koncepcyjna reprezentacja wielowymiarowa. Użytkownik analityk postrzega świat przedsiębiorstw jako wielowymiarowy. W związku z tym model OLAP musi być wielowymiarowy w swoim rdzeniu. Wielowymiarowy diagram koncepcyjny lub widok niestandardowy ułatwia modelowanie i analizę, a także obliczenia.

2. Przejrzystość. Niezależnie od tego, czy produkt OLAP jest częścią środków użytkownika, czy też nie, fakt ten powinien być dla użytkownika przejrzysty. Jeśli OLAP jest zapewniany przez komputery typu klient-serwer, to również ten fakt powinien, o ile to możliwe, być niewidoczny dla użytkownika. OLAP powinien być prezentowany w kontekście prawdziwie otwartej architektury, pozwalającej użytkownikowi, gdziekolwiek się znajduje, komunikować się z serwerem za pomocą narzędzia analitycznego. Ponadto przejrzystość musi zostać osiągnięta, gdy narzędzie analityczne współdziała z jednorodnymi i heterogenicznymi środowiskami baz danych.

3. Dostępność. Użytkownik analityk OLAP powinien być w stanie przeprowadzić analizę w oparciu o wspólny schemat pojęciowy zawierający dane z całego przedsiębiorstwa w relacyjnej bazie danych, a także dane ze starszych baz danych, metody współdzielonego dostępu i wspólny model analityczny. Oznacza to, że OLAP musi zapewnić własną logikę dostępu w heterogenicznym środowisku bazy danych i wykonać odpowiednie przekształcenia, aby przedstawić dane użytkownikowi. Ponadto należy zawczasu zastanowić się, gdzie i jak oraz jakie rodzaje fizycznej organizacji danych będą faktycznie wykorzystywane. System OLAP powinien uzyskiwać dostęp tylko do danych, które są rzeczywiście potrzebne, a nie stosować ogólnej zasady lejka kuchennego, która pociąga za sobą niepotrzebny wkład.

4. Stała produktywność podczas tworzenia raportów. Jeśli liczba wymiarów lub rozmiar bazy danych wzrośnie, użytkownik analityk nie powinien odczuwać znaczącego pogorszenia wydajności. Stała wydajność ma kluczowe znaczenie dla ułatwienia użytkownikowi końcowemu obsługi i ograniczenia złożoności OLAP. Jeśli analityk użytkownika doświadczy znacznych różnic w wydajności w zależności od liczby wymiarów, będzie starał się skompensować te różnice strategią projektową, co spowoduje, że dane będą prezentowane w inny sposób niż ten, w jaki dane są naprawdę potrzebne . Poświęcenie czasu na obejście systemu w celu zrekompensowania jego niedoskonałości nie jest tym, do czego są zaprojektowane produkty analityczne.

5. Architektura klient-serwer. Większość danych, które muszą być obecnie przetwarzane analitycznie on-line, znajduje się na komputerach mainframe i jest do nich dostęp za pośrednictwem komputera PC. Oznacza to zatem, że produkty OLAP muszą być w stanie działać w środowisku klient-serwer. Z tego punktu widzenia konieczne jest, aby komponent serwerowy narzędzia analitycznego był zasadniczo „inteligentny”, aby różni klienci mogli łączyć się z serwerem przy minimalnym wysiłku i programowaniu integracyjnym. „Inteligentny” serwer musi być w stanie wykonać mapowanie i konsolidację nieodpowiednich logicznych i fizycznych schematów baz danych. Zapewni to przejrzystość i zbuduje ogólny schemat koncepcyjny, logiczny i fizyczny.

6. Ogólna wielowymiarowość. Każdy wymiar należy stosować bez względu na jego strukturę i możliwości operacyjne. Do wybranych wymiarów można nadać dodatkowe możliwości operacyjne, a ponieważ wymiary są symetryczne, do dowolnego wymiaru można nadać jedną funkcję. Podstawowe struktury danych, formuły i formaty raportów nie powinny być ukierunkowane na żaden wymiar.

7. Dynamiczne zarządzanie macierzami rzadkimi. Fizyczny projekt narzędzia OLAP musi być w pełni dostosowany do konkretnego modelu analitycznego w celu optymalnego zarządzania rzadkimi macierzami. Dla dowolnej macierzy rzadkiej istnieje jeden i tylko jeden optymalny schemat fizyczny. Ten schemat zapewnia maksymalną wydajność pamięci i operacyjność macierzy, o ile oczywiście cały zestaw danych nie mieści się w pamięci. Fizyka leżąca u podstaw narzędzia OLAP musi być skonfigurowana do dowolnego podzbioru wymiarów w dowolnej kolejności, aby można było wykonywać praktyczne operacje z dużymi modelami analitycznymi. Fizyczne akcesory muszą również dynamicznie się zmieniać i zawierać różnego rodzaju mechanizmy, takie jak: bezpośrednie obliczenia, B-drzewa i pochodne, haszowanie, możliwość łączenia tych mechanizmów w razie potrzeby. Rzadkość (mierzona jako odsetek pustych komórek do wszystkich możliwych) jest jedną z cech propagacji danych. Niemożność kontrolowania rzadkości może sprawić, że efektywność działań będzie nieosiągalna. Jeśli narzędzie OLAP nie może kontrolować i regulować rozkładu wartości analizowanych danych, model, który podobno jest praktyczny, oparty na wielu ścieżkach i wymiarach konsolidacji, w rzeczywistości może okazać się zbędny i beznadziejny.

8. Obsługa wielu użytkowników. Często wielu użytkowników analitycznych musi współpracować z tym samym modelem analitycznym lub tworzyć różne modele z tych samych danych. Dlatego narzędzie OLAP musi zapewniać funkcje udostępniania (zapytania i uzupełniania), integralności i bezpieczeństwa.

9. Nieograniczone zwrotnice. Różne poziomy zestawień i ścieżki konsolidacji, ze względu na ich hierarchiczną naturę, reprezentują zależności zależne w modelu lub aplikacji OLAP. Dlatego samo narzędzie powinno sugerować odpowiednie obliczenia i nie wymagać od użytkownika-analityka ponownego definiowania tych obliczeń i operacji. Obliczenia, które nie wynikają z tych odziedziczonych relacji, wymagają zdefiniowania różnych formuł zgodnie z odpowiednim językiem. Taki język może umożliwiać obliczanie i manipulowanie danymi dowolnego wymiaru i nie ograniczać relacji między komórkami danych, nie zwracać uwagi na liczbę wspólnych atrybutów danych poszczególnych komórek.

10. Intuicyjna manipulacja danymi. Zmiana orientacji ścieżek konsolidacji, uszczegółowienie, powiększenie i inne manipulacje regulowane przez ścieżki konsolidacji powinny być stosowane za pomocą oddzielnej akcji na komórkach modelu analitycznego i nie powinny wymagać użycia systemu menu lub innych wielokrotnych działań z interfejsem użytkownika. Perspektywa użytkownika analityka na wymiary zdefiniowane w modelu analitycznym musi zawierać wszystkie informacje niezbędne do wykonania powyższych czynności.

11. Elastyczne opcje raportowania. Analiza i prezentacja danych jest prosta, gdy wiersze, kolumny i komórki danych, które będą ze sobą wizualnie porównywane, będą blisko siebie lub zgodnie z jakąś funkcją logiczną, która ma miejsce w przedsiębiorstwie. Narzędzia sprawozdawcze powinny reprezentować zsyntetyzowane dane lub informacje wynikające z modelu danych w dowolnej możliwej orientacji. Oznacza to, że wiersze, kolumny lub strony muszą jednocześnie pokazywać od 0 do N wymiarów, gdzie N to liczba wymiarów w całym modelu analitycznym. Ponadto każdy wymiar treści wyświetlany w pojedynczym rekordzie, kolumnie lub stronie musi również umożliwiać wyświetlanie dowolnego podzbioru elementów (wartości) zawartych w wymiarze w dowolnej kolejności.

12. Nieograniczony wymiar i ilość poziomów agregacji. Badanie możliwej liczby wymaganych pomiarów wymaganych w modelu analitycznym wykazało, że jednocześnie można stosować do 19 pomiarów. Stąd silne zalecenie, aby narzędzie analityczne było w stanie zapewnić co najmniej 15 wymiarów jednocześnie, a najlepiej 20. Co więcej, każdy z ogólnych wymiarów nie powinien być ograniczony liczbą zdefiniowanych przez użytkownika poziomów agregacji i ścieżek konsolidacji do analizy.

W rzeczywistości twórcy produktów OLAP przestrzegają dziś tych zasad, a przynajmniej starają się ich przestrzegać. Zasady te można uznać za teoretyczne podstawy operacyjnego przetwarzania analitycznego, trudno z nimi polemizować. Następnie z 12 zasad wyprowadzono wiele konsekwencji, których jednak nie będziemy przytaczać, aby niepotrzebnie nie komplikować historii.

Przyjrzyjmy się bliżej, jak produkty OLAP różnią się fizyczną implementacją.

Jak wspomniano powyżej, OLAP opiera się na idei przetwarzania danych na wielowymiarowych strukturach. Kiedy mówimy OLAP, mamy na myśli, że struktura danych produktu analitycznego jest logicznie wielowymiarowa. Jak dokładnie to jest realizowane, to inna sprawa. Istnieją dwa główne rodzaje przetwarzania analitycznego, które obejmują niektóre produkty.

MOLAP ... Sama wielowymiarowa OLAP. Produkt oparty jest na nierelacyjnej strukturze danych, która zapewnia wielowymiarowe przechowywanie, przetwarzanie i prezentację danych. W związku z tym bazy danych nazywane są wielowymiarowymi. Produkty należące do tej klasy zazwyczaj posiadają wielowymiarowy serwer bazy danych. Dane w procesie analizy wybierane są wyłącznie ze struktury wielowymiarowej. Ta struktura jest bardzo wydajna.

ROLAP ... OLAP relacyjny. Jak sama nazwa wskazuje, wielowymiarową strukturę w takich narzędziach realizują tabele relacyjne. A dane w procesie analizy są wybierane odpowiednio z relacyjnej bazy danych przez narzędzie analityczne.

Wady i zalety każdego podejścia są na ogół oczywiste. Wielowymiarowy OLAP zapewnia lepszą wydajność, ale struktury nie mogą być wykorzystywane do przetwarzania dużych ilości danych, ponieważ duże wymiary będą wymagały dużych zasobów sprzętowych, a jednocześnie rozrzedzenie hiperkostek może być bardzo duże, a co za tym idzie wykorzystanie pojemności sprzętowych nie będzie uzasadnione. Wręcz przeciwnie, relacyjny OLAP zapewnia przetwarzanie na dużych macierzach przechowywanych danych, ponieważ możliwe jest zapewnienie bardziej ekonomicznego przechowywania, ale jednocześnie znacznie traci na szybkości wielowymiarowej pracy. Takie rozumowanie doprowadziło do identyfikacji nowej klasy narzędzi analitycznych - HOLAP. Jest to hybrydowe przetwarzanie analityczne online. Narzędzia tej klasy pozwalają łączyć oba podejścia - relacyjne i wielowymiarowe. Dostęp może być prowadzony zarówno do danych wielowymiarowych baz danych, jak i danych relacyjnych.

Istnieje inny, dość egzotyczny rodzaj przetwarzania analitycznego on-line – DOLAP. To jest komputerowy OLAP. Mówimy o takim przetwarzaniu analitycznym, gdzie hipersześciany są małe, ich wymiary są niewielkie, potrzeby są skromne, a do takiego przetwarzania analitycznego wystarczy osobista maszyna na pulpicie.

Operacyjne przetwarzanie analityczne pozwala znacznie uprościć i przyspieszyć proces przygotowania i podejmowania decyzji przez kadrę zarządzającą. Przetwarzanie analityczne online ma na celu przekształcenie danych w informacje. Zasadniczo różni się od tradycyjnego procesu wspomagania decyzji, który najczęściej opiera się na analizie ustrukturyzowanych raportów. Analogicznie, różnica między raportami strukturalnymi a OLAP jest taka sama, jak między objeżdżaniem miasta tramwajem i samochodem. Kiedy jedziesz tramwajem, porusza się on po szynach, co nie pozwala dobrze zobaczyć odległych budynków, a tym bardziej zbliżyć się do nich. Wręcz przeciwnie, jazda prywatnym samochodem daje pełną swobodę poruszania się (oczywiście należy przestrzegać przepisów ruchu drogowego). Możesz podjechać pod dowolny budynek i dostać się do miejsc, w których nie kursują tramwaje.

Zorganizowane raporty to szyny, które ograniczają swobodę podejmowania decyzji. OLAP to pojazd do sprawnego poruszania się po autostradach informacyjnych.

Wstęp

W naszych czasach prawie żadna organizacja nie może obejść się bez systemów zarządzania bazami danych, zwłaszcza wśród tych, które tradycyjnie nastawione są na interakcję z klientami. Banki, towarzystwa ubezpieczeniowe, linie lotnicze i inne firmy transportowe, sieci supermarketów, firmy telekomunikacyjne i marketingowe, organizacje usługowe i inne – wszystkie one gromadzą i przechowują w swoich bazach danych gigabajty danych o klientach, produktach i usługach. Wartość takich informacji nie budzi wątpliwości. Takie bazy danych nazywane są operacyjnymi lub transakcyjnymi, ponieważ charakteryzują się dużą liczbą małych transakcji lub operacji odczytu i zapisu. Systemy komputerowe, które rejestrują transakcje i faktycznie uzyskują dostęp do baz danych transakcji, są powszechnie nazywane systemami przetwarzania transakcyjnego online (OLTP) lub systemami księgowymi.

Systemy księgowe są dostrojone i zoptymalizowane pod kątem realizacji maksymalnej liczby transakcji w krótkim czasie. Zazwyczaj poszczególne operacje są bardzo małe i niepowiązane ze sobą. Jednak każdy rekord danych charakteryzujący interakcję z klientem (wezwanie do wsparcia, transakcja gotówkowa, zamówienie katalogowe, wizyta na stronie internetowej firmy itp.) może zostać wykorzystany do uzyskania jakościowo nowych informacji, a mianowicie do tworzenia raportów i analizować działalność firmy...

Zestaw funkcji analitycznych w systemach księgowych jest zwykle bardzo ograniczony. Schematy stosowane w aplikacjach OLTP utrudniają tworzenie nawet prostych raportów, ponieważ dane są najczęściej rozłożone na wiele tabel, a ich agregacja wymaga wykonania złożonych łączeń. Z reguły próby tworzenia złożonych raportów są intensywne obliczeniowo i powodują utratę wydajności.

Ponadto systemy księgowe przechowują stale zmieniające się dane. W miarę gromadzenia transakcji sumy zmieniają się bardzo szybko, więc dwie analizy wykonywane w kilkuminutowych odstępach mogą dać różne wyniki. Najczęściej analiza będzie wykonywana na koniec okresu sprawozdawczego, w przeciwnym razie obraz może być zniekształcony. Ponadto dane potrzebne do analizy mogą być przechowywane w kilku systemach.

Niektóre analizy wymagają zmian konstrukcyjnych, które są nie do zaakceptowania w obecnym środowisku operacyjnym. Na przykład musisz dowiedzieć się, co się stanie, jeśli firma ma nowe produkty. Takie badania nie mogą być prowadzone na żywej bazie. W konsekwencji efektywna analiza jest rzadko przeprowadzana bezpośrednio w systemie księgowym.

Systemy wspomagania decyzji zazwyczaj mają możliwość dostarczenia użytkownikowi danych zagregowanych dla różnych próbek ze zbioru początkowego w formie dogodnej do percepcji i analizy. Zazwyczaj takie funkcje agregujące tworzą wielowymiarowy (a zatem nierelacyjny) zbiór danych (często nazywany hipersześcianem lub metasześcianem), którego osie zawierają parametry, a komórki - dane zagregowane od nich zależne - i takie dane mogą być również przechowywane w tabelach relacyjnych. Wzdłuż każdej osi dane mogą być zorganizowane w hierarchię reprezentującą różne poziomy szczegółowości. Dzięki temu modelowi danych użytkownicy mogą formułować złożone zapytania, generować raporty i pobierać podzbiory danych.

To właśnie spowodowało zainteresowanie systemami wspomagania decyzji, które stały się głównym obszarem zastosowań OLAP (On-Line Analytical Processing, on-line analytical processing, on-line data analysis), co zamienia „rudę” OLTP systemy w gotowy „produkt”, z którego menedżerowie i analitycy mogą bezpośrednio korzystać. Metoda ta umożliwia analitykom, menedżerom i kadrze kierowniczej „dotarcie do dna” zgromadzonych danych poprzez szybki i spójny dostęp do szerokiego zakresu widoków informacji.

Celem pracy na kursie jest przegląd technologii OLAP.

wielowymiarowe przetwarzanie danych analitycznych

Głównym elementem

1 Zrozumienie OLAP

Koncepcja OLAP opiera się na zasadzie wielowymiarowej prezentacji danych. W 1993 roku termin OLAP został ukuty przez Edgara Codda. Rozważając mankamenty modelu relacyjnego, wskazał przede wszystkim na niemożność „łączenia, przeglądania i analizowania danych z punktu widzenia wielowymiarowego, czyli w sposób najbardziej zrozumiały dla analityków korporacyjnych” oraz zdefiniował ogólne wymagania stawiane systemom OLAP, które rozszerzają funkcjonalność relacyjnych DBMS i jako jedną ze swoich cech uwzględniają analizę wielowymiarową.

W dużej liczbie publikacji skrót OLAP oznacza nie tylko wielowymiarowy widok danych, ale także przechowywanie samych danych w wielowymiarowej bazie danych. Generalnie nie jest to prawdą, skoro sam Codd zauważa, że ​​„relacyjne bazy danych były, są i będą najodpowiedniejszą technologią przechowywania danych korporacyjnych. funkcje istniejących DBMS elastyczne do przewidywania i automatyzacji różnych rodzajów wydobycia nieodłącznie związanych z OLAP.” To zamieszanie prowadzi do opozycji, takich jak „OLAP lub ROLAP”, co nie jest całkowicie poprawne, ponieważ ROLAP (relacyjny OLAP) na poziomie koncepcyjnym obsługuje wszystkie funkcje zdefiniowane przez termin OLAP. Bardziej korzystne wydaje się użycie specjalnego terminu MOLAP dla OLAP opartego na wielowymiarowym DBMS. Według Codda, wielowymiarowy widok koncepcyjny to wielokrotna perspektywa składająca się z kilku niezależnych wymiarów, wzdłuż których można analizować określone zestawy danych. Analiza równoczesna w wielu wymiarach jest definiowana jako analiza wielowymiarowa. Każdy wymiar obejmuje kierunki konsolidacji danych, składające się z serii kolejnych poziomów agregacji, gdzie każdy wyższy poziom odpowiada większemu stopniowi agregacji danych dla odpowiedniego wymiaru. A więc pomiar.

Wykonawcę można określić przez kierunek konsolidacji, składający się z poziomów uogólnienia „przedsiębiorstwo – dział – dział – pracownik”. Wymiar Czas może nawet obejmować dwa kierunki konsolidacji — rok — kwartał — miesiąc — dzień i tydzień — dzień, ponieważ liczenie czasu według miesiąca i tygodnia jest niezgodne. W takim przypadku staje się możliwym arbitralny wybór pożądanego poziomu szczegółowości informacji dla każdego z pomiarów. Operacja drążenia odpowiada przechodzeniu od wyższych stopni konsolidacji do niższych; wręcz przeciwnie, operacja zwijania oznacza przejście z niższych poziomów na wyższe.

Codd zdefiniował 12 reguł, które musi spełniać oprogramowanie klasy OLAP.

1.2 Wymagania dotyczące narzędzi analitycznego przetwarzania online

Wielowymiarowy widok koncepcyjny. Koncepcyjna reprezentacja modelu danych w produkcie OLAP powinna mieć charakter wielowymiarowy, to znaczy powinna umożliwiać analitykom wykonywanie intuicyjnych operacji plastrowania i kostek, obracania i obracania kierunków konsolidacji. Przezroczystość Użytkownik nie powinien być świadomy, jakie konkretnie środki są wykorzystywane do przechowywania i przetwarzania danych, jak są one zorganizowane i skąd pochodzą.

Dostępność. Analityk powinien być w stanie przeprowadzić analizę w ramach wspólnych ram pojęciowych, ale jednocześnie dane mogą pozostawać pod kontrolą pozostałej spuścizny SZBD, będąc jednocześnie powiązanym z ogólnym modelem analitycznym. Oznacza to, że zestaw narzędzi OLAP musi nałożyć swój schemat logiczny na fizyczne zbiory danych, wykonując wszystkie przekształcenia wymagane do zapewnienia jednolitego, spójnego i całościowego spojrzenia użytkownika na informacje.

Stała wydajność raportowania Wraz ze wzrostem liczby wymiarów i rozmiarów bazy danych analitycy nie powinni odczuwać pogorszenia wydajności. Trwała wydajność jest niezbędna do utrzymania łatwości użytkowania i braku złożoności wymaganej do udostępnienia OLAP użytkownikowi końcowemu.

Architektura klient - serwer (architektura klient-serwer). Większość danych wymagających operacyjnego przetwarzania analitycznego jest przechowywana w systemach mainframe i pobierana z komputerów osobistych. Dlatego jednym z wymagań jest zdolność produktów OLAP do pracy w środowisku klient-serwer. Główną ideą jest tutaj to, że komponent serwerowy narzędzia OLAP powinien być wystarczająco inteligentny i mieć możliwość budowania ogólnego diagramu koncepcyjnego opartego na uogólnieniu i konsolidacji różnych logicznych i fizycznych schematów korporacyjnych baz danych, aby zapewnić przejrzysty efekt.

Ogólna wymiarowość Wszystkie pomiary danych muszą być równe. Dodatkowe cechy można nadać poszczególnym wymiarom, ale ponieważ wszystkie są symetryczne, tę dodatkową funkcjonalność można nadać na dowolny wymiar. Podstawowa struktura danych, formuły i formaty raportów nie powinny opierać się na żadnym jednym wymiarze.

Dynamiczna obsługa macierzy rzadkich. Narzędzie OLAP powinno być w stanie optymalnie obsługiwać rzadkie macierze. Szybkość dostępu powinna być utrzymywana niezależnie od lokalizacji komórek danych i być stała dla modeli o różnej liczbie wymiarów i różnej rzadkości danych.

Obsługa trybu wielu użytkowników (Wsparcie dla wielu użytkowników). Często wielu analityków musi jednocześnie pracować z tym samym modelem analitycznym lub tworzyć różne modele w oparciu o te same dane korporacyjne. Narzędzie OLAP musi zapewniać im równoczesny dostęp, integralność danych i ochronę.

Nieograniczone operacje międzywymiarowe. Obliczanie i manipulowanie danymi w dowolnej liczbie wymiarów nie powinno zabraniać ani ograniczać żadnych relacji między komórkami danych. Przekształcenia wymagające arbitralnej definicji muszą być określone w funkcjonalnie kompletnym języku formuł.

Intuicyjna manipulacja danymi. Reorientacja kierunków konsolidacji, uszczegółowienie danych w kolumnach i wierszach, agregacja i inne manipulacje nieodłącznie związane ze strukturą hierarchii kierunków konsolidacji powinny być dokonywane w najbardziej dogodnym, naturalnym i wygodnym interfejsie użytkownika.

Elastyczny mechanizm raportowania (Flexible Reporting). Powinny być obsługiwane różne sposoby wizualizacji danych, czyli raporty powinny być prezentowane w dowolnej możliwej orientacji.

Nieograniczone wymiary i poziomy agregacji. Zdecydowanie zaleca się przyjęcie co najmniej piętnastu, a najlepiej dwudziestu wymiarów w modelu analitycznym w każdym poważnym narzędziu OLAP.

2 Komponenty systemów OLAP

2.1 Serwer. Klient. Internet

OLAP pozwala na szybką i wydajną analizę dużych ilości danych. Dane są przechowywane w postaci wielowymiarowej, która najdokładniej oddaje naturalny stan rzeczywistych danych biznesowych. Ponadto OLAP zapewnia użytkownikom możliwość szybszego i łatwiejszego pobierania danych podsumowujących. Z jego pomocą mogą w razie potrzeby zagłębić się w treść tych danych, aby uzyskać bardziej szczegółowe informacje.

System OLAP składa się z wielu elementów. Na najwyższym poziomie prezentacji system obejmuje źródło danych, serwer OLAP oraz klienta. Źródło danych to źródło, z którego pobierane są dane do analizy. Dane ze źródła są przesyłane lub kopiowane na serwer OLAP, gdzie są organizowane i przygotowywane do szybszego późniejszego generowania odpowiedzi na zapytania. Klient jest interfejsem użytkownika do serwera OLAP. W tej części artykułu opisano funkcje każdego komponentu i znaczenie całego systemu jako całości. Źródła. Źródłem w systemach OLAP jest serwer dostarczający dane do analizy. W zależności od zakresu produktu OLAP źródłem może być Hurtownia Danych, dziedziczona baza danych zawierająca dane ogólne, zestaw tabel łączących dane finansowe lub dowolna kombinacja powyższych. Bardzo ważna jest zdolność produktu OLAP do pracy z danymi z różnych źródeł. Wymaganie jednego formatu lub jednej bazy danych do przechowywania wszystkich oryginalnych danych jest nieodpowiednie dla administratorów baz danych. Ponadto takie podejście zmniejsza elastyczność i moc produktu OLAP. Zarówno administratorzy, jak i użytkownicy uważają, że produkty OLAP, które wydobywają dane nie tylko z różnych, ale także z wielu źródeł, są bardziej elastyczne i użyteczne niż te o bardziej rygorystycznych wymaganiach.

Serwer. Serwer OLAP jest stosowaną częścią systemu OLAP. Ten komponent wykonuje całą pracę (w zależności od modelu systemu) i przechowuje w sobie wszystkie informacje, do których zapewniony jest aktywny dostęp. Architektura serwera rządzi się różnymi koncepcjami. W szczególności główną cechą funkcjonalną produktu OLAP jest wykorzystanie wielowymiarowej (MMDB, MDDB) lub relacyjnej (RDB, RDB) bazy danych do przechowywania danych. Dane zagregowane / wstępnie zagregowane

Szybka implementacja zapytań jest niezbędna dla OLAP. To jedna z podstawowych zasad OLAP – możliwość intuicyjnej manipulacji danymi wymaga szybkiego wyszukiwania informacji. Ogólnie rzecz biorąc, im więcej obliczeń potrzeba, aby uzyskać informację, tym wolniejsza jest odpowiedź. W związku z tym, aby zaoszczędzić trochę czasu na realizację zapytań, informacje, które są zwykle wykorzystywane najczęściej, a jednocześnie wymagają obliczeń, poddawane są wstępnej agregacji. Oznacza to, że są one liczone, a następnie przechowywane w bazie danych jako nowe dane. Przykładem typu danych, który można obliczyć z wyprzedzeniem, są dane podsumowujące — na przykład dane dotyczące sprzedaży według miesiąca, kwartału lub roku — dla których faktycznie wprowadzone dane są danymi dziennymi.

Różni dostawcy mają różne metody wyboru parametrów, które wymagają wstępnej agregacji i szeregu wstępnie obliczonych wartości. Podejście agregacyjne wpływa zarówno na czas wykonywania bazy danych, jak i zapytania. W przypadku obliczenia większej liczby wartości wzrasta prawdopodobieństwo, że użytkownik poprosi o już obliczoną wartość, a tym samym czas odpowiedzi będzie krótszy, ponieważ nie ma potrzeby pytać o wartość początkową do obliczeń. Jeśli jednak wyliczenie wszystkich możliwych wartości nie jest najlepszym rozwiązaniem - w takim przypadku rozmiar bazy znacznie wzrośnie, przez co nie będzie można nią zarządzać, a czas agregacji będzie zbyt długi. Dodatkowo w przypadku dodania do bazy wartości liczbowych lub ich zmiany, informacja ta powinna znaleźć odzwierciedlenie we wcześniej wyliczonych wartościach w zależności od nowych danych. W związku z tym aktualizacja bazy danych może zająć dużo czasu w przypadku dużej liczby wstępnie obliczonych wartości. Ponieważ baza danych jest zwykle w trybie offline podczas agregacji, dobrze jest, aby czas agregacji nie był zbyt długi.

Klient. Klient jest tym, co służy do reprezentowania i manipulowania danymi w bazie danych. Klient może być dość prosty - w formie tabeli, która zawiera takie możliwości OLAP jak np. rotacja danych (pivoting) i pogłębianie danych (drążenie), a może być wyspecjalizowaną, ale równie prostą przeglądarką raportów lub być tak potężnym, jak niestandardowa aplikacja zaprojektowana do złożonej manipulacji danymi. Internet to nowa forma klienta. Ponadto nosi piętno nowych technologii; wiele rozwiązań internetowych różni się znacząco pod względem ogólnych możliwości, aw szczególności jakości rozwiązań OLAP. W tej sekcji omówiono różne właściwości funkcjonalne każdego typu klienta.

Podczas gdy serwer jest kręgosłupem rozwiązania OLAP, klient jest równie ważny. Serwer może stanowić solidną podstawę ułatwiającą manipulację danymi, ale jeśli klient jest złożony lub mało funkcjonalny, użytkownik nie będzie w stanie w pełni wykorzystać możliwości wydajnego serwera. Klient jest tak ważny, że wielu dostawców koncentruje swoje wysiłki wyłącznie na rozwoju klienta. Wszystko, co zawiera te aplikacje, to standardowe spojrzenie na interfejs, predefiniowane funkcje i struktura, a także szybkie rozwiązania dla mniej lub bardziej standardowych sytuacji. Na przykład popularne są pakiety finansowe. Gotowe aplikacje finansowe pozwolą profesjonalistom na korzystanie ze znanych instrumentów finansowych bez konieczności projektowania struktury bazy danych lub typowych formularzy i raportów. Narzędzie do zapytań / Generator raportów. Narzędzie zapytań lub generator raportów zapewnia łatwy dostęp do danych OLAP. Mają łatwy w użyciu interfejs graficzny i umożliwiają użytkownikom tworzenie raportów poprzez przeciąganie i upuszczanie obiektów do raportu. Podczas gdy tradycyjny generator raportów zapewnia użytkownikowi możliwość szybkiego tworzenia sformatowanych raportów, generatory raportów obsługujące OLAP generują aktualne raporty. Produktem końcowym jest raport, który ma możliwość drążenia do poziomu danych, raportów rotacyjnych (przestawnych), hierarchii wsparcia itp. Dodatki (dodatki) arkuszy kalkulacyjnych.

Obecnie w wielu branżach różne formy analizy danych korporacyjnych realizowane są za pomocą arkuszy kalkulacyjnych. W pewnym sensie jest to idealna przeglądarka raportów i danych. Analityk może tworzyć makra, które pracują z danymi w wybranym kierunku, a szablon można zaprojektować tak, aby po wprowadzeniu danych formuły obliczały prawidłowe wartości, eliminując potrzebę ponownego wprowadzania prostych obliczeń.

Wszystko to jednak skutkuje „płaskim” raportem, co oznacza, że ​​po jego utworzeniu trudno go oglądać pod różnymi kątami. Na przykład wykres wyświetla informacje w okresie, powiedzmy, miesiącu. A jeśli chce się zobaczyć liczby z dnia (w przeciwieństwie do danych za miesiąc), konieczne będzie stworzenie zupełnie nowego wykresu. Należy zdefiniować nowe zestawy danych, dodać nowe etykiety do wykresu i wprowadzić wiele innych prostych, ale żmudnych zmian. Ponadto istnieje szereg obszarów, w których można popełnić błędy, co ogólnie zmniejsza niezawodność. Po dodaniu OLAP do tabeli możliwe staje się stworzenie pojedynczego wykresu, a następnie poddanie go różnym manipulacjom w celu dostarczenia użytkownikowi niezbędnych informacji, bez obciążania się tworzeniem wszystkich możliwych widoków. Internet jako klient. Internet jest nowym członkiem rodziny klientów OLAP. Generowanie raportów OLAP przez Internet ma wiele zalet. Najważniejszym jest brak potrzeby posiadania specjalistycznego oprogramowania do dostępu do informacji. Oszczędza to firmie dużo czasu i pieniędzy.

Każdy produkt internetowy jest specyficzny. Niektóre ułatwiają tworzenie stron internetowych, ale są mniej elastyczne. Inne pozwalają tworzyć widoki danych, a następnie zapisywać je jako statyczne pliki HTML. Wszystko to umożliwia przeglądanie danych przez Internet, ale nic więcej. Za ich pomocą nie da się aktywnie manipulować danymi.

Istnieje inny rodzaj produktu, interaktywny i dynamiczny, który przekształca takie produkty w w pełni funkcjonalne narzędzia. Użytkownicy mogą zagłębiać się w dane, osie, wymiary limitów itp. Przed wyborem narzędzia do implementacji internetowej ważne jest, aby zrozumieć, jaka funkcjonalność jest wymagana od rozwiązania internetowego, a następnie określić, który produkt najlepiej zaimplementuje tę funkcjonalność.

Aplikacje. Aplikacje to typ klienta korzystający z baz danych OLAP. Są one identyczne z narzędziami zapytań i generatorami raportów opisanymi powyżej, ale dodają również więcej funkcji do produktu. Aplikacja jest na ogół bardziej wydajna niż narzędzie do wysyłania zapytań.

Rozwój. Zazwyczaj dostawcy OLAP zapewniają środowisko programistyczne, w którym użytkownicy mogą tworzyć własne, dostosowane aplikacje. Środowisko programistyczne jako całość jest graficznym interfejsem obsługującym tworzenie aplikacji zorientowanych obiektowo. Ponadto większość dostawców udostępnia interfejs API, którego można użyć do integracji baz danych OLAP z innymi aplikacjami.

2.2 Klienci OLAP

Klienci OLAP z wbudowaną maszyną OLAP są instalowani na komputerach użytkowników. Nie wymagają serwera do obliczeń i mają zerową administrację. Klienci ci umożliwiają użytkownikowi dostrojenie się do istniejących baz danych; z reguły tworzy to słownik, który za opisem przedmiotu ukrywa fizyczną strukturę danych, zrozumiałą dla specjalisty. Klient OLAP uruchamia następnie dowolne zapytania i wyświetla wyniki w tabeli OLAP. W tej tabeli z kolei użytkownik może manipulować danymi i otrzymywać setki różnych raportów na ekranie lub na papierze. Klienci OLAP zaprojektowani do współpracy z RDBMS pozwalają na analizę danych już dostępnych w korporacji, na przykład przechowywanych w bazie danych OLTP. Jednak ich drugim celem może być szybkie i tanie tworzenie hurtowni danych lub data martów – w tym przypadku programiści organizacji muszą jedynie tworzyć kolekcje tabel gwiaździstych w relacyjnych bazach danych i procedury ładowania danych. Najbardziej czasochłonna część pracy - pisanie interfejsów z licznymi opcjami dla niestandardowych zapytań i raportów - jest wdrażana w kliencie OLAP w zaledwie kilka godzin. Natomiast użytkownikowi końcowemu opanowanie takiego programu zajmuje około 30 minut. Klienci OLAP są dostarczani przez samych programistów baz danych, zarówno wielowymiarowych, jak i relacyjnych. Są to SAS Corporate Reporter, który jest produktem niemalże wzorcowym pod względem wygody i piękna, Oracle Discoverer, zestaw programów MS Pivot Services i Pivot Table itp. Wiele programów zaprojektowanych do współpracy z usługami MS OLAP jest dostarczanych w ramach Kampania OLAP prowadzona przez firmę Microsoft Corporation. Zazwyczaj są to ulepszone wersje tabeli przestawnej i są przeznaczone do użytku w pakiecie MS Office lub przeglądarce internetowej. Są to produkty firm Matryx, Knosys itp., które zyskały ogromną popularność na Zachodzie ze względu na swoją prostotę, niski koszt i wydajność.

3 Klasyfikacja produktów OLAP

3.1 Wielowymiarowe OLAP

Obecnie na rynku dostępnych jest wiele produktów, które w takim czy innym stopniu zapewniają funkcjonalność OLAP. Zapewniając wielowymiarowy widok koncepcyjny od interfejsu użytkownika do źródłowej bazy danych, wszystkie produkty OLAP są podzielone na trzy klasy, podobnie jak źródłowa baza danych.

1. Najwcześniejsze systemy przetwarzania analitycznego online (np. Essbase firmy Arbor Software, Oracle Express Server firmy Oracle) należały do ​​klasy MOLAP, czyli mogły pracować tylko z własnymi wielowymiarowymi bazami danych. Oparte są na autorskich wielowymiarowych technologiach DBMS i są najdroższe. Systemy te zapewniają pełny cykl przetwarzania OLAP. Zawierają one, oprócz składnika serwera, własny zintegrowany interfejs klienta lub wykorzystują zewnętrzne programy do obsługi arkuszy kalkulacyjnych do komunikacji z użytkownikiem. Do utrzymania takich systemów wymagany jest specjalny personel do instalacji, konserwacji systemu i tworzenia reprezentacji danych dla użytkowników końcowych.

2. Systemy analitycznego przetwarzania danych relacyjnych online (ROLAP) pozwalają na reprezentację danych przechowywanych w relacyjnej bazie danych w postaci wielowymiarowej, zapewniając przekształcenie informacji w model wielowymiarowy poprzez pośrednią warstwę metadanych. Ta klasa obejmuje DSS Suite firmy MicroStrategy, MetaCube firmy Informix, DecisionSuite firmy Information Advantage i inne. Systemem tej klasy jest również pakiet oprogramowania InfoVisor, opracowany w Rosji, na Państwowym Uniwersytecie Energetycznym w Iwanowie. Systemy ROLAP doskonale sprawdzają się w pracy z dużymi obiektami magazynowymi. Podobnie jak systemy MOLAP, wymagają one znacznej konserwacji informatycznej i są przeznaczone dla wielu użytkowników.

3. Wreszcie, systemy hybrydowe (Hybrid OLAP, HOLAP) są zaprojektowane tak, aby łączyć zalety i minimalizować wady tkwiące w poprzednich klasach. Ta klasa obejmuje nośniki Speedware / MR. Według twórców łączy w sobie elastyczność analityczną i responsywność MOLAP ze stałym dostępem do rzeczywistych danych, nieodłącznym elementem ROLAP.

Oprócz tych narzędzi istnieje jeszcze jedna klasa - desktopowe narzędzia do zapytań i raportowania, uzupełnione o funkcje OLAP lub zintegrowane z zewnętrznymi narzędziami, które takie funkcje wykonują. Te dobrze rozwinięte systemy pobierają dane z oryginalnych źródeł, przekształcają je i umieszczają w dynamicznej wielowymiarowej bazie danych działającej na stacji klienckiej użytkownika końcowego. Głównymi przedstawicielami tej klasy są BusinessObjects firmy o tej samej nazwie, BrioQuery firmy Brio Technology oraz PowerPlay firmy Cognos. Przegląd niektórych produktów OLAP znajduje się w załączniku.

W wyspecjalizowanych SZBD opartych na wielowymiarowej reprezentacji danych dane są zorganizowane nie w postaci tabel relacyjnych, ale w postaci uporządkowanych tablic wielowymiarowych:

1) hipersześciany (wszystkie komórki przechowywane w bazie muszą mieć ten sam wymiar, czyli znajdować się w najpełniejszej podstawie pomiarów) lub

2) polycubes (każda zmienna jest przechowywana z własnym zestawem pomiarów, a wszystkie związane z tym trudności przetwarzania są przenoszone do wewnętrznych mechanizmów systemu).

Zastosowanie wielowymiarowych baz danych w systemach przetwarzania analitycznego on-line ma następujące zalety.

1. W przypadku korzystania z wielowymiarowego DBMS wyszukiwanie i pobieranie danych jest znacznie szybsze niż w przypadku wielowymiarowego koncepcyjnego widoku relacyjnej bazy danych, ponieważ wielowymiarowa baza danych jest zdenormalizowana, zawiera wstępnie zagregowane wskaźniki i zapewnia zoptymalizowany dostęp do żądanych komórek.

2. Wielowymiarowy SZBD z łatwością radzi sobie z zadaniami włączania różnych wbudowanych funkcji do modelu informacyjnego, natomiast obiektywnie istniejące ograniczenia języka SQL sprawiają, że wykonanie tych zadań w oparciu o relacyjny SZBD jest raczej trudne, a czasem wręcz niemożliwe.

Z drugiej strony istnieją znaczne ograniczenia.

1. Wielowymiarowe DBMS nie pozwalają na pracę z dużymi bazami danych. Ponadto, ze względu na denormalizację i wstępną agregację, ilość danych w wielowymiarowej bazie danych z reguły odpowiada (według Codda) 2,5-100 razy mniejszej niż objętość pierwotnych danych szczegółowych.

2. Wielowymiarowe DBMS, w porównaniu z relacyjnymi, bardzo nieefektywnie wykorzystują pamięć zewnętrzną. W przeważającej większości przypadków hipersześcian informacyjny jest bardzo rzadki, a ponieważ dane są przechowywane w uporządkowanej formie, niezdefiniowane wartości można usunąć tylko poprzez wybór optymalnej kolejności sortowania, która pozwala na uporządkowanie danych w największe, ciągłe grupy. Ale nawet w tym przypadku problem został rozwiązany tylko częściowo. Ponadto kolejność sortowania, która jest optymalna do przechowywania rozrzedzonych danych, prawdopodobnie będzie różnić się od kolejności najczęściej używanej w zapytaniach. Dlatego w rzeczywistych systemach trzeba znaleźć kompromis między wydajnością a redundancją przestrzeni dyskowej zajmowanej przez bazę danych.

Dlatego stosowanie wielowymiarowego DBMS jest uzasadnione tylko pod następującymi warunkami.

1. Objętość danych początkowych do analizy nie jest zbyt duża (nie więcej niż kilka gigabajtów), to znaczy poziom agregacji danych jest dość wysoki.

2. Zbiór wymiarów informacji jest stabilny (ponieważ każda zmiana ich struktury prawie zawsze wymaga całkowitej przebudowy hipersześcianu).

3. Najważniejszym parametrem jest czas odpowiedzi systemu na żądania ad hoc.

4. Do wykonywania wielowymiarowych obliczeń na komórkach hipersześcianu wymagane jest szerokie wykorzystanie złożonych funkcji wbudowanych, w tym możliwość pisania funkcji niestandardowych.

Bezpośrednie wykorzystanie relacyjnych baz danych w systemach przetwarzania analitycznego online ma następujące zalety.

1. W większości przypadków korporacyjne hurtownie danych realizowane są za pomocą relacyjnych DBMS, a narzędzia ROLAP pozwalają na analizę bezpośrednio na nich. Jednocześnie wielkość pamięci nie jest tak krytycznym parametrem jak w przypadku MOLAP.

2. W przypadku zmiennego wymiaru problemu, gdy zmiany w strukturze pomiarowej muszą być dokonywane dość często, systemy ROLAP z dynamiczną reprezentacją wymiaru są optymalnym rozwiązaniem, gdyż w nich takie modyfikacje nie wymagają fizycznego reorganizacja bazy danych.

3. Relacyjne DBMS zapewniają znacznie wyższy poziom ochrony danych i dobre możliwości różnicowania praw dostępu.

Główną wadą ROLAP w porównaniu do wielowymiarowego DBMS jest niższa wydajność. Systemy relacyjne wymagają starannego dostrojenia schematów baz danych i indeksów, aby osiągnąć wydajność porównywalną z MOLAP, co oznacza duży wysiłek ze strony administratorów baz danych. Tylko przy użyciu schematów gwiaździstych wydajność dobrze dostrojonych systemów relacyjnych może być zbliżona do wydajności systemów opartych na wielowymiarowych bazach danych.

Opis schematu gwiaździstego i zalecenia dotyczące jego stosowania są w całości poświęcone pracy. Jego idea polega na tym, że dla każdego wymiaru istnieją tabele, a wszystkie fakty są umieszczone w jednej tabeli, indeksowanej przez wielokrotny klucz złożony z kluczy poszczególnych wymiarów (dodatek A). Każdy promień schematu gwiazdy określa, zgodnie z terminologią Codda, kierunek konsolidacji danych wzdłuż odpowiedniego wymiaru.

W przypadku złożonych problemów z wymiarami wielopoziomowymi warto przyjrzeć się rozszerzeniom schematu gwiaździstego — schematowi konstelacji faktów i schematowi płatka śniegu. W takich przypadkach tworzone są oddzielne tabele faktów dla możliwych kombinacji poziomów podsumowania o różnych wymiarach (Dodatek B). Pozwala to na lepszą wydajność, ale często prowadzi do nadmiarowości danych i znacznych komplikacji w strukturze bazy danych, która zawiera ogromną liczbę tabel faktów.

Wzrost liczby tabel faktów w bazie danych może wynikać nie tylko z wielości poziomów o różnych wymiarach, ale także z faktu, że fakty mają na ogół różne zestawy wymiarów. Abstrahując od poszczególnych pomiarów, użytkownik powinien otrzymać rzut najbardziej kompletnego hipersześcianu, a bynajmniej nie zawsze wartości zawartych w nim wskaźników powinny być wynikiem elementarnego zsumowania. Tym samym przy dużej liczbie niezależnych wymiarów konieczne jest utrzymywanie wielu tabel faktów odpowiadających każdej możliwej kombinacji wymiarów wybranych w zapytaniu, co również prowadzi do rozrzutnego wykorzystania pamięci zewnętrznej, wydłużenia czasu ładowania danych do baza danych schematu gwiaździstego ze źródeł zewnętrznych i złożoność administracyjna.

Rozszerzenia języka SQL (operatory GROUP BY CUBE "," GROUP BY ROLLUP "i" GROUP BY GROUPING SETS ") częściowo rozwiązują ten problem, dodatkowo proponuje się mechanizm znajdowania kompromisu między redundancją a wydajnością, zalecając tworzenie faktów tabele nie dla wszystkich możliwych kombinacji wymiarów, ale tylko dla tych, których wartości komórek nie można uzyskać za pomocą późniejszej agregacji pełniejszych tabel faktów (Załącznik B).

W każdym razie, jeśli model wielowymiarowy jest zaimplementowany jako relacyjna baza danych, należy tworzyć długie i „wąskie” tabele faktów oraz stosunkowo małe i „szerokie” tabele wymiarów. Tabele faktów zawierają wartości liczbowe komórek hipersześcianu, a pozostałe tabele definiują zawierającą wielowymiarową podstawę wymiarów. Część informacji można uzyskać za pomocą dynamicznej agregacji danych rozproszonych po niegwiazdowych znormalizowanych strukturach, chociaż należy pamiętać, że zapytania obejmujące agregację z wysoce znormalizowaną strukturą bazy danych mogą być dość powolne.

Skupienie się na prezentacji informacji wielowymiarowych za pomocą modeli relacyjnych w kształcie gwiazdy pozwala pozbyć się problemu optymalizacji przechowywania macierzy rzadkich, który jest dotkliwy dla wielowymiarowych DBMS (gdzie problem rzadkości jest rozwiązywany przez specjalny dobór schematu) . Chociaż do przechowywania każdej komórki służy cały rekord, który oprócz samych wartości zawiera klucze drugorzędne - odwołania do tabel wymiarów, nieistniejące wartości po prostu nie są uwzględniane w tabeli faktów.

Wniosek

Po rozważeniu zagadnień działania i zastosowania technologii OLAP firmy mają pytania, na które odpowiedzi pozwolą wybrać produkt najlepiej odpowiadający potrzebom użytkownika.

Oto pytania:

Skąd pochodzą dane? - Analizowane dane mogą znajdować się w różnych miejscach. Możliwe, że baza danych OLAP otrzyma je z korporacyjnej hurtowni danych lub z systemu OLTP. Jeśli produkt OLAP ma już możliwość dostępu do źródła danych, procesy kategoryzacji i czyszczenia danych są ograniczone.

Jakie manipulacje wykonuje użytkownik na danych? -
Gdy użytkownik uzyska dostęp do bazy danych i zacznie przeprowadzać analizę, ważne jest, aby był w stanie odpowiednio manipulować danymi. W zależności od potrzeb użytkownika może się okazać, że potrzebujesz potężnego generatora raportów lub możliwości tworzenia i hostowania dynamicznych stron internetowych. Jednak może być korzystne, aby użytkownik miał do swojej dyspozycji środki do łatwego i szybkiego tworzenia własnych aplikacji.

Jaka jest łączna ilość danych? - Jest to najważniejszy czynnik przy definiowaniu bazy danych OLAP. Relacyjne produkty OLAP radzą sobie z dużymi ilościami danych lepiej niż wielowymiarowe. Jeśli ilość danych nie wymaga użycia relacyjnej bazy danych, produkt wielowymiarowy może być używany z równym powodzeniem.

Kim jest użytkownik? - Podczas definiowania klienta systemu OLAP ważny jest poziom umiejętności użytkownika. Niektórym użytkownikom wygodniej będzie zintegrować OLAP z arkuszem kalkulacyjnym, podczas gdy inni wolą wyspecjalizowaną aplikację. W zależności od kwalifikacji użytkownika rozstrzygana jest również kwestia prowadzenia szkolenia. Duża firma może chcieć zapłacić za szkolenie użytkowników, mniejsza firma może nie. Klient powinien być taki, aby użytkownicy czuli się pewnie i mogli skutecznie z niego korzystać.

Obecnie większość światowych firm przeszła na używanie OLAP jako podstawowej technologii do dostarczania informacji decydentom. Dlatego podstawowym pytaniem, jakie należy sobie zadać, nie jest to, czy arkusze kalkulacyjne powinny nadal być wykorzystywane jako podstawowa platforma raportowania, budżetowania i prognozowania. Firmy muszą zadać sobie pytanie, czy są przygotowane do utraty przewagi konkurencyjnej poprzez wykorzystanie niedokładnych, nieistotnych i niekompletnych informacji, zanim dojrzeją i rozważą alternatywne technologie.

Na zakończenie należy również zauważyć, że możliwości analityczne technologii OLAP zwiększają użyteczność danych przechowywanych w korporacyjnej hurtowni informacji, pozwalając firmie na efektywniejszą interakcję z klientami.

Słowniczek

Pojęcie Definicja
1 Narzędzia BI Narzędzia i technologie wykorzystywane do uzyskiwania dostępu do informacji. Obejmuje technologie OLAP, eksplorację danych i złożoną analizę; narzędzia dla użytkowników końcowych i narzędzia do tworzenia zapytań ad-hoc, pulpity monitorowania biznesowego i generatory raportów korporacyjnych.
2 Przetwarzanie analityczne on-line, OLAP Technologia analitycznego przetwarzania informacji w czasie rzeczywistym, w tym przygotowania i dynamicznej publikacji raportów i dokumentów.
3 Plasterek i kości Termin używany do opisania zaawansowanej funkcjonalności analizy danych zapewnianej przez narzędzia OLAP. Pobieranie danych z kostki wielowymiarowej o określonych wartościach i określonej względnej pozycji wymiarów.
4 Obrót danych Proces obracania tabeli danych, czyli konwertowania kolumn na wiersze i odwrotnie.
5 Obliczony członek Element wymiaru, którego wartość jest określona przez wartości innych elementów (na przykład zastosowania matematyczne lub logiczne). Obliczany element może być częścią serwera OLAP lub być opisany przez użytkownika podczas sesji interaktywnej. Pozycja wyliczana to dowolna pozycja, która nie została wprowadzona, ale została obliczona.
6 Globalne modele biznesowe Rodzaj hurtowni danych, która zapewnia dostęp do informacji rozproszonych w różnych systemach przedsiębiorstwa i znajduje się pod kontrolą różnych działów lub działów z różnymi bazami danych i modelami danych. Ten rodzaj Hurtowni Danych jest trudny do zbudowania ze względu na konieczność połączenia wysiłków użytkowników z różnych działów w celu opracowania wspólnego modelu danych dla Hurtowni.
7 Eksploracja danych Techniki wykorzystujące narzędzia programowe przeznaczone dla użytkownika, który z reguły nie może z góry powiedzieć, czego dokładnie szuka, a jedynie wskazać pewne wzorce i kierunki wyszukiwania.
8 Klient/Serwer Podejście technologiczne, które polega na podzieleniu procesu na odrębne funkcje. Serwer pełni kilka funkcji - zarządzanie komunikacją, utrzymanie bazy danych itp. Klient realizuje poszczególne funkcje użytkownika - dostarczając odpowiednie interfejsy, wykonując nawigację między ekranami, udostępniając funkcje pomocy itp.
9 Wielowymiarowa baza danych, MDBS i MDBMS Potężna baza danych, która pozwala użytkownikom analizować duże ilości danych. Baza danych ze specjalną organizacją przechowywania - kostkami, zapewniająca szybką pracę z danymi przechowywanymi jako zbiór faktów, wymiarów i wstępnie obliczonych agregatów.
10 Drążyć Szczegółowa metoda eksploracji danych stosowana w analizie zagregowanego poziomu danych. Poziomy „pogłębiania” zależą od szczegółowości danych w [pamięci.
11 Magazyn Centralny

1. Baza danych zawierająca dane zebrane z systemów operacyjnych organizacji. Posiada strukturę wygodną do analizy danych. Zaprojektowany z myślą o wspieraniu podejmowania decyzji i tworzeniu jednolitej przestrzeni informacyjnej dla korporacji.

2. Sposób automatyzacji obejmujący wszystkie systemy informatyczne sterowane z jednego miejsca.

1 Golitsina O.L., Maksimov N.V., Popov I.I. Bazy danych: samouczek. - M .: FORUM: INFRA-M, 2003 .-- 352 s.

2 Data K. Wprowadzenie do systemów bazodanowych. - M.: Nauka, 2005 - 246 s.

3 Elmanova N.V., Fiodorow A.A. Wprowadzenie do technologii Microsoft OLAP. - M .: Dialog-MEPhI, 2004 .-- 312 s.

4 Karpowa T.S. Bazy danych: modele, rozwój, implementacja. - SPb .: Piotr, 2006 .-- 304 s.

5 Korovkin S. D., Levenets I. A., Ratmanova I. D., Starykh V. A., Shchavelev L. V. Rozwiązanie problemu złożonej analizy operacyjnej informacji w hurtowniach danych // DBMS. - 2005r. - nr 5-6. - 47-51 pkt.

6 Krechetov N., Ivanov P. Produkty do eksploracji danych ComputerWeek-Moskwa. - 2003 r. - nr 14-15. - 32-39 pkt.

7 Przhiyalkovsky V.V. Kompleksowa analiza dużych danych: nowe perspektywy komputeryzacji // DBMS. - 2006r. - nr 4. - 71-83 s.

8 Sacharow A.A. Koncepcja budowy i wdrażania systemów informatycznych skoncentrowanych na analizie danych // DBMS. - 2004. - nr 4. - 55-70 s.

9 Ullman J. Podstawy systemów bazodanowych. - M .: Finanse i statystyka, 2003. - 312 s.

10 Hubbard J. Komputerowe wspomaganie projektowania baz danych. - M .: Mir, 2007 .-- 294 s.


Korovkin S. D., Levenets I. A., Ratmanova I. D., Starykh V. A., Shchavelev L. V. Rozwiązanie problemu złożonej analizy operacyjnej informacji w hurtowniach danych // DBMS. - 2005r. - nr 5-6. - 47-51 pkt.

Ullman J. Podstawy systemów baz danych. - M .: Finanse i statystyka, 2003. - 312 s.

Barsegyan A.A., Kupriyanov M.S. Technologie analizy danych: DataMining, VisualMining, TextMining, Olap. - SPb .: BHV-Petersburg, 2007 .-- 532 s.

Elmanova N.V., Fiodorow A.A. Wprowadzenie do technologii Microsoft OLAP. - M .: Dialog-MEPhI, 2004 .-- 312 s.

Data K. Wprowadzenie do systemów bazodanowych. - M.: Nauka, 2005 - 246 s.

Golitsina O.L., Maksimov N.V., Popov I.I. Bazy danych: samouczek. - M .: FORUM: INFRA-M, 2003 .-- 352s.

Sacharow A.A. Koncepcja budowy i wdrażania systemów informatycznych ukierunkowanych na analizę danych // DBMS. - 2004. - nr 4. - 55-70 s.

Przhiyalkovskiy V.V. Kompleksowa analiza dużych danych: nowe perspektywy komputeryzacji // DBMS. - 2006r. - nr 4. - 71-83 s.

Celem pracy na kursie jest poznanie technologii OLAP, koncepcji jej wdrożenia i struktury.

We współczesnym świecie sieci komputerowe i systemy obliczeniowe umożliwiają analizowanie i przetwarzanie dużych ilości danych.

Duża ilość informacji znacznie komplikuje poszukiwanie rozwiązań, ale umożliwia uzyskanie dużo dokładniejszych obliczeń i analiz. Aby rozwiązać ten problem, istnieje cała klasa systemów informatycznych wykonujących analizy. Takie systemy nazywane są systemami wspomagania decyzji (DSS) (DSS, Decision Support System).

Aby przeprowadzić analizę, DSS powinien gromadzić informacje, dysponując środkami do ich wprowadzania i przechowywania. W sumie w DSS rozwiązuje się trzy główne zadania:

· wprowadzanie danych;

· przechowywanie danych;

· analiza danych.

Wprowadzanie danych do DSS odbywa się automatycznie z czujników charakteryzujących stan środowiska lub procesu lub przez człowieka.

Jeżeli dane są wprowadzane automatycznie z czujników, to dane są gromadzone przez sygnał gotowości, który pojawia się w momencie pojawienia się informacji lub przez cykliczne odpytywanie. Jeżeli dane wprowadzane są przez człowieka, powinny one zapewnić użytkownikom wygodne sposoby wprowadzania danych, sprawdzania ich poprawności, a także wykonywania niezbędnych obliczeń.

Przy wprowadzaniu danych jednocześnie przez kilku operatorów konieczne jest rozwiązanie problemów modyfikacji i równoległego dostępu tych samych danych.

DSS dostarcza analitykom dane w postaci raportów, tabel, wykresów do badań i analiz, dlatego takie systemy zapewniają funkcje wspomagania decyzji.

W podsystemach wprowadzania danych zwanych OLTP (On-linetransactionprocessing) zaimplementowane jest przetwarzanie danych operacyjnych. Do ich realizacji wykorzystywane są konwencjonalne systemy zarządzania bazami danych (DBMS).

Podsystem analityczny można zbudować w oparciu o:

· Podsystemy analizy wyszukiwania informacji oparte na relacyjnym DBMS i zapytaniach statycznych z wykorzystaniem języka SQL;

· Podsystemy analizy operacyjnej. Do realizacji takich podsystemów wykorzystywana jest technologia analitycznego przetwarzania danych OLAP online, która wykorzystuje koncepcję wielowymiarowej prezentacji danych;

· Podsystemy analizy intelektualnej. Podsystem ten implementuje metody i algorytmy DataMining.

Z punktu widzenia użytkownika systemy OLAP zapewniają możliwość elastycznego przeglądania informacji w różnych przekrojach, automatycznego pozyskiwania zagregowanych danych, wykonywania operacji analitycznych splotu, uszczegółowienia, porównywania w czasie. Dzięki temu systemy OLAP są rozwiązaniem o ogromnych zaletach w zakresie przygotowania danych do wszelkiego rodzaju raportowania biznesowego, polegającego na prezentacji danych w różnych sekcjach i różnych poziomach hierarchii, takich jak raporty sprzedaży, różne formy budżetów, i inni. Systemy OLAP mają ogromne zalety takiej prezentacji w innych formach analizy danych, w tym prognozowaniu.

1.2 Definicja OLAP-systemy

Technologia kompleksowej wielowymiarowej analizy danych nazywa się OLAP. OLAP jest kluczowym elementem organizacji HD.

Funkcjonalność OLAP można realizować na różne sposoby, zarówno te najprostsze, jak analiza danych w aplikacjach biurowych, jak i bardziej złożone – rozproszone systemy analityczne oparte na produktach serwerowych.

OLAP (On-LineAnalyticalProcessing) to technologia przetwarzania danych analitycznych on-line z wykorzystaniem narzędzi i metod gromadzenia, przechowywania i analizy danych wielowymiarowych oraz wspomagania procesów decyzyjnych.

Głównym celem systemów OLAP jest wspomaganie działań analitycznych, arbitralnych żądań użytkowników analitycznych. Celem analizy OLAP jest testowanie pojawiających się hipotez.

Cel raportu

W niniejszym raporcie skupimy się na jednej z kategorii inteligentnych technologii będących wygodnym narzędziem analitycznym - technologiach OLAP.

Cel raportu: ujawnienie i podkreślenie 2 zagadnień: 1) pojęcia OLAP i ich wartości stosowanej w zarządzaniu finansami; 2) implementacja funkcjonalności OLAP w rozwiązaniach programowych: różnice, szanse, zalety, wady.

Od razu pragnę zauważyć, że OLAP jest narzędziem uniwersalnym, które można zastosować w dowolnym obszarze aplikacyjnym, nie tylko w finansach (jak wynika z tytułu raportu), które wymaga analizy danych różnymi metodami.

Zarządzanie finansami

Zarządzanie finansami to obszar, w którym analiza jest ważniejsza niż jakakolwiek inna. Każda decyzja finansowa i zarządcza powstaje w wyniku określonych procedur analitycznych. Dziś zarządzanie finansami przejmuje ważną rolę dla pomyślnego funkcjonowania przedsiębiorstwa. Pomimo tego, że zarządzanie finansami jest procesem pomocniczym w przedsiębiorstwie, wymaga szczególnej uwagi, ponieważ błędne decyzje finansowe i zarządcze mogą prowadzić do dużych strat.

Zarządzanie finansami ma na celu zapewnienie przedsiębiorstwu środków finansowych w wymaganych ilościach, we właściwym czasie i miejscu w celu uzyskania maksymalnego efektu ich wykorzystania poprzez optymalną dystrybucję.

Być może trudno jest określić poziom „maksymalnej efektywności wykorzystania zasobów”, ale w każdym razie

Dyrektor finansowy powinien zawsze wiedzieć:

  • ile jest środków finansowych?
  • skąd będą pochodzić środki i w jakiej wysokości?
  • gdzie efektywniej inwestować i dlaczego?
  • i kiedy trzeba to wszystko zrobić?
  • ile potrzeba, aby zapewnić normalne funkcjonowanie przedsiębiorstwa?

Aby uzyskać rozsądne odpowiedzi na te pytania, musisz mieć, analizować i wiedzieć, jak analizować wystarczająco dużą liczbę wskaźników wydajności. Ponadto FI obejmuje ogromną liczbę obszarów: analiza przepływów pieniężnych (cash flow), analiza aktywów i pasywów, analiza rentowności, analiza marży, analiza rentowności, analiza asortymentu.

Wiedza

Dlatego kluczowym czynnikiem efektywności procesu zarządzania finansami jest dostępność wiedzy:

  • Wiedza osobista w zakresie tematyki (można powiedzieć teoretyczna i metodologiczna), w tym doświadczenie, intuicja finansisty/CFO
  • Ogólna (korporacyjna) wiedza lub usystematyzowane informacje o faktach transakcji finansowych w przedsiębiorstwie (tj. informacje o przeszłym, obecnym i przyszłym stanie przedsiębiorstwa, prezentowane w różnych wskaźnikach i pomiarach)

Jeżeli pierwszy leży w obszarze działania tego finansisty (lub dyrektora HR, który zatrudnił tego pracownika), to drugi powinien być celowo stworzony w przedsiębiorstwie wspólnym wysiłkiem pracowników służb finansowych i informacyjnych.

Co teraz

Jednak teraz w przedsiębiorstwach panuje paradoksalna sytuacja: jest informacji, jest ich dużo, za dużo. Ale jest w stanie chaotycznym: nieuporządkowany, niespójny, rozproszony, nie zawsze niezawodny i często błędny, prawie niemożliwy do znalezienia i uzyskania. Wykonywane jest długie i często bezużyteczne generowanie gór sprawozdań finansowych, co jest niewygodne dla analizy finansowej, trudne do zrozumienia, ponieważ jest tworzone nie dla wewnętrznego zarządzania, ale do prezentacji zewnętrznym organom regulacyjnym.

Zgodnie z wynikami badania przeprowadzonego przez firmę Reuters wśród 1300 międzynarodowych menedżerów 38% ankietowanych twierdzi, że spędza dużo czasu na szukaniu potrzebnych im informacji. Okazuje się, że wysoko wykwalifikowany specjalista poświęca swój wysoko płatny czas nie na analizę danych, ale na zbieranie, wyszukiwanie i porządkowanie informacji niezbędnych do tej analizy. Jednocześnie menedżerowie doświadczają dużego obciążenia danymi, które często są nieistotne, co ponownie obniża ich wydajność. Powód tej sytuacji: nadmiar informacji i brak wiedzy.

Co robić

Informacja powinna zostać przekształcona w wiedzę. Dla współczesnego biznesu cenna informacja, jej systematyczne pozyskiwanie, synteza, wymiana, wykorzystanie jest rodzajem waluty, ale aby ją otrzymać, konieczne jest zarządzanie informacją, jak każdy proces biznesowy.

Kluczem do zarządzania informacją jest dostarczanie właściwych informacji we właściwy sposób interesariuszom w organizacji w określonym czasie. Celem takiego zarządzania jest pomoc ludziom w lepszej współpracy przy wykorzystaniu coraz większej ilości informacji.

Technologie informacyjne pełnią w tym przypadku rolę środka, za pomocą którego można by usystematyzować informacje w przedsiębiorstwie, zapewnić dostęp do nich określonym użytkownikom oraz dać im narzędzia do przekształcania tych informacji w wiedzę.

Podstawowe pojęcia technologii OLAP

Technologia OLAP (z angielskiego On-Line Analytical Processing) nie jest nazwą konkretnego produktu, ale całej technologii analizy operacyjnej wielowymiarowych danych zgromadzonych w magazynie. Aby zrozumieć istotę OLAP, należy wziąć pod uwagę tradycyjny proces pozyskiwania informacji do podejmowania decyzji.

Tradycyjny system wspomagania decyzji

Tutaj oczywiście może być też wiele opcji: kompletny chaos informacyjny, czy najbardziej typowa sytuacja, gdy w przedsiębiorstwie istnieją systemy operacyjne, za pomocą których rejestrowane są i przechowywane w bazach danych fakty dotyczące pewnych operacji. W celu pobierania danych z baz danych w celach analitycznych zbudowano system zapytań dla określonych próbek danych.

Jednak tej metodzie wspomagania decyzji brakuje elastyczności i ma wiele wad:

  • wykorzystuje znikomą ilość danych, które mogą być przydatne przy podejmowaniu decyzji
  • czasami tworzone są złożone wielostronicowe raporty, z których faktycznie wykorzystuje się 1-2 wiersze (reszta jest na wszelki wypadek) - przeciążenie informacjami
  • powolna reakcja procesu na zmiany: jeśli wymagana jest nowa reprezentacja danych, to żądanie musi zostać formalnie opisane i zakodowane przez programistę, a dopiero potem wykonane. Czas oczekiwania: godziny, dni. Być może rozwiązanie jest potrzebne teraz, natychmiast. Ale po otrzymaniu nowych informacji pojawi się nowe pytanie (wyjaśnienie)

Jeśli raporty zapytań są prezentowane w formacie jednowymiarowym, problemy biznesowe są zwykle wielowymiarowe i wieloaspektowe. Jeśli potrzebujesz uzyskać jasny obraz działalności firmy, konieczna jest analiza danych w różnych aspektach.

Wiele firm tworzy doskonałe relacyjne bazy danych, idealnie rozkładając góry niewykorzystanych informacji na półkach, co samo w sobie nie zapewnia szybkiej i wystarczająco kompetentnej reakcji na wydarzenia rynkowe. TAK - relacyjne bazy danych były, są i będą najbardziej odpowiednią technologią do przechowywania danych firmowych. Nie jest to nowa technologia baz danych, ale raczej zestaw narzędzi do analizy, który uzupełnia funkcjonalność istniejącego systemu DBMS i jest wystarczająco elastyczny, aby pomieścić i zautomatyzować różne typy eksploracji związane z OLAP.

Zrozumienie OLAP

Co daje OLAP?

  • Zaawansowane narzędzia dostępu do przechowywania danych
  • Dynamiczna interaktywna manipulacja danymi (rotacja, konsolidacja lub drążenie)
  • Wyraźne wizualne wyświetlanie danych
  • Szybko - analiza odbywa się w czasie rzeczywistym
  • Wielowymiarowa prezentacja danych - jednoczesna analiza wielu wskaźników w wielu wymiarach

Aby uzyskać efekt wykorzystania technologii OLAP, należy: 1) zrozumieć istotę samych technologii i ich możliwości; 2) jasno określić, jakie procesy wymagają analizy, jakimi wskaźnikami będą charakteryzować się i w jakich wymiarach warto je zobaczyć, czyli stworzyć model analizy.

Podstawowe pojęcia stosowane przez technologie OLAP są następujące:

Wielowymiarowość

Aby zrozumieć wielowymiarowość danych, należy najpierw przedstawić tabelę, która wyświetla na przykład wydajność kosztów przedsiębiorstwa według elementu ekonomicznego i jednostki biznesowej.

Dane te prezentowane są w dwóch wymiarach:

  • artykuł
  • Jednostka biznesowa

Ta tabela nie ma charakteru informacyjnego, ponieważ pokazuje sprzedaż przez określony czas. Dla różnych okresów analitycy będą musieli porównać kilka tabel (dla każdego okresu):

Rysunek pokazuje trzeci wymiar, Czas, oprócz pierwszych dwóch. (artykuł, jednostka biznesowa)

Innym sposobem na pokazanie danych wielowymiarowych jest przedstawienie ich w postaci sześcianu:

Kostki OLAP umożliwiają analitykom pozyskiwanie danych w różnych wycinkach w celu uzyskania odpowiedzi na pytania zadawane przez firmę:

  • Jakie są krytyczne koszty w których jednostkach biznesowych?
  • Jak zmieniają się koszty jednostki biznesowej w czasie?
  • Jak pozycje kosztowe zmieniają się w czasie?

Odpowiedzi na takie pytania są niezbędne przy podejmowaniu decyzji zarządczych: o redukcji niektórych pozycji kosztowych, wpływaniu na ich strukturę, identyfikowaniu przyczyn zmian kosztów w czasie, odchyleń od planu i ich eliminowaniu – optymalizacja ich struktury.

W tym przykładzie brane są pod uwagę tylko 3 wymiary. Trudno jest przedstawić więcej niż 3 wymiary, ale działa to tak samo, jak w przypadku 3 wymiarów.

Zazwyczaj aplikacje OLAP pozwalają uzyskać dane dotyczące 3 lub więcej wymiarów, na przykład można dodać jeszcze jeden wymiar — Plan-rzeczywisty, Kategoria kosztów: bezpośredni, pośredni, według zamówień, według miesiąca. Dodatkowe wymiary pozwalają uzyskać bardziej analityczne wycinki i udzielać odpowiedzi na pytania z wieloma warunkami.

Hierarchia

OLAP umożliwia również analitykom organizowanie każdego wymiaru w hierarchii grup i podgrup oraz sum reprezentujących miarę w całej organizacji — najbardziej logiczny sposób analizy firmy.

Na przykład wskazane jest hierarchiczne grupowanie kosztów:

OLAP pozwala analitykom uzyskać dane z ogólnej miary sumarycznej (na najwyższym poziomie), a następnie przejść do dolnego i kolejnych poziomów, odkrywając w ten sposób dokładną przyczynę zmiany miary.

Umożliwiając analitykom korzystanie z wielu wymiarów w kostce danych, z możliwością wymiarów hierarchicznych, OLAP zapewnia obraz firmy, który nie jest skompresowany przez strukturę hurtowni danych.

Zmiana kierunków analizy w kostce (rotacja danych)

Z reguły operują następującymi pojęciami: wymiary podane w kolumnach, wierszach (może być ich kilka), reszta to wycinki, zawartość tabeli tworzą wymiary (sprzedaż, koszty, gotówka)

Zazwyczaj OLAP umożliwia zmianę orientacji wymiarów kostki, prezentując w ten sposób dane w różnych widokach.

Wyświetlanie danych kostki zależy od:

  • orientacje wymiarów: jakie wymiary są podane w wierszach, kolumnach, plasterkach;
  • grupy wskaźników wyróżnione w rzędach, kolumnach, wycinkach.
  • Zmiana wymiarów leży w polu działania użytkownika.

W ten sposób OLAP pozwala przeprowadzać różnego rodzaju analizy i rozumieć ich związek z wynikami.

  • Analiza odchyleń - analiza realizacji planu, uzupełniona analizą czynnikową przyczyn odchyleń poprzez uszczegółowienie wskaźników.
  • Analiza zależności: OLAP pozwala zidentyfikować różne zależności między różnymi zmianami, np. gdy piwo zostało usunięte z asortymentu w ciągu pierwszych dwóch miesięcy, stwierdzono spadek sprzedaży płotek.
  • Porównanie (analiza porównawcza). Porównanie wyników zmian wskaźnika w czasie, dla danej grupy produktów, w różnych regionach itp.
  • Analiza dynamiki pozwala nam zidentyfikować pewne trendy zmian wskaźników w czasie.

Szybkość: można powiedzieć, że OLAP opiera się na prawach psychologii: możliwości przetwarzania żądań informacji w „czasie rzeczywistym” – w tempie procesu analitycznego rozumienia danych przez użytkownika.

Jeśli możesz odczytać około 200 rekordów na sekundę z relacyjnej bazy danych i zapisać 20, to dobry serwer OLAP, używając obliczonych wierszy i kolumn, może skonsolidować 20 000-30 000 komórek (co odpowiada jednemu rekordowi w relacyjnej bazie danych) na sekundę.

Widoczność: Należy podkreślić, że OLAP zapewnia zaawansowaną graficzną prezentację danych użytkownikowi końcowemu. Mózg człowieka jest w stanie postrzegać i analizować informacje prezentowane w postaci obrazów geometrycznych, w objętości o kilka rzędów wielkości większej niż informacje prezentowane w formie alfanumerycznej. Przykład: Załóżmy, że musisz znaleźć znajomą twarz na jednej ze stu fotografii. Wierzę, że ten proces zajmie Ci mniej niż minutę. A teraz wyobraź sobie, że zamiast zdjęć dostaniesz setkę opisów słownych tych samych osób. Myślę, że w ogóle nie będziesz w stanie rozwiązać proponowanego problemu.

Prostota: Główną cechą tych technologii jest to, że są one nastawione na wykorzystanie nie przez informatyka, nie przez eksperta statystycznego, ale przez specjalistę w stosowanej dziedzinie - kierownika działu kredytowego, kierownika działu budżetowego, i wreszcie reżyser. Służą one do komunikacji analityka z problemem, a nie z komputerem..

Mimo ogromnych możliwości OLAP-u (dodatkowo pomysł jest stosunkowo stary – lata 60te), w rzeczywistości jego zastosowania praktycznie nie spotyka się w naszych przedsiębiorstwach. Czemu?

  • nie ma informacji lub możliwości nie są jasne
  • nawyk myślenia dwuwymiarowego
  • bariera cenowa
  • nadmierna produktywność artykułów na OLAP: odstraszają nieznane terminy - OLAP, „kopanie i dzielenie danych”, „zapytania ad hoc”, „identyfikowanie istotnych korelacji”

Nasze podejście i zachodnie podejście do aplikacji OLAP

Ponadto mamy również specyficzne zrozumienie użyteczności OLAP-u, nawet rozumiejąc jego możliwości technologiczne.

Nasi i rosyjscy autorzy różnych materiałów o OLAP wypowiadają się na temat użyteczności OLAP-u w następujący sposób: większość postrzega OLAP jako narzędzie, które pozwala w prosty i wygodny sposób rozwijać i zwijać dane, dokonując manipulacji, które przychodzą do głowy analitykowi podczas analizy. Im więcej „kawałków” i „kawałków” danych widzi analityk, tym więcej ma pomysłów, które z kolei wymagają coraz większej liczby „plastrów” do weryfikacji. To nie jest właściwe.

Zachodnie rozumienie użyteczności OLAP opiera się na metodologicznym modelu analizy, który musi być określony w projektowaniu rozwiązań OLAP. Analityk nie powinien bawić się kostką OLAP i bezcelowo zmieniać jej wymiary i poziomy szczegółowości, orientację danych, graficzne wyświetlanie danych (a to naprawdę trwa!), ale jasno rozumieć, jakich widoków potrzebuje, w jakiej kolejności i dlaczego (oczywiście , elementy „odkrycia” mogą być, ale nie jest to zasadniczy element użyteczności OLAP-u).

Zastosowane użycie OLAP

  • Budżet
  • Przepływ środków

Jedno z najbardziej żyznych obszarów zastosowań technologii OLAP. Nie bez powodu żaden nowoczesny system budżetowania nie jest uważany za kompletny bez obecności w jego składzie narzędzi OLAP do analizy budżetowej. Większość raportów budżetowych można łatwo zbudować w oparciu o systemy OLAP. Jednocześnie raporty odpowiadają na bardzo szeroki zakres pytań: analiza struktury wydatków i przychodów, porównanie wydatków dla określonych pozycji w różnych działach, analiza dynamiki i trendów w wydatkach dla określonych pozycji, analiza kosztów i zysku .

OLAP pozwoli Ci analizować wpływy i wypływy gotówki w kontekście transakcji biznesowych, kontrahentów, walut i czasu w celu optymalizacji ich przepływów.

  • Raportowanie finansowe i zarządcze (z analizami, których potrzebuje kierownictwo)
  • Marketing
  • Zrównoważona karta wyników
  • Analiza rentowności

Gdy odpowiednie dane są dostępne, można znaleźć inną aplikację technologii OLAP.

Produkty OLAP

W tej sekcji omówimy OLAP jako rozwiązanie programowe.

Ogólne wymagania dla produktów OLAP

Istnieje wiele sposobów implementacji aplikacji OLAP, wtedy żadna konkretna technologia nie powinna była być wymagana, a nawet zalecana. W różnych warunkach i okolicznościach jedno podejście może być lepsze od drugiego. Technika implementacji obejmuje wiele różnych autorskich pomysłów, z których dostawcy są tak dumni: smaki architektury klient/serwer, analiza szeregów czasowych, orientacja obiektowa, optymalizacja pamięci masowej, procesy równoległe itp. Ale te technologie nie mogą być częścią definicji OLAP.

Są cechy, które muszą być przestrzegane we wszystkich produktach OLAP (jeśli jest to produkt OLAP), które są idealną technologią. Oto 5 kluczowych definicji charakteryzujących OLAP (tzw. test FASMI): Szybka analiza udostępnionych informacji wielowymiarowych.

  • Szybki(FAST) - oznacza, że ​​system powinien być w stanie dostarczyć większość odpowiedzi użytkownikom w ciągu około pięciu sekund. Nawet jeśli system ostrzega, że ​​proces potrwa znacznie dłużej, użytkownicy mogą się rozproszyć i stracić myśli, a jakość analizy ucierpi. Ta prędkość nie jest łatwa do osiągnięcia przy dużych ilościach danych, zwłaszcza jeśli wymagane są specjalne obliczenia w locie. Aby osiągnąć ten cel, dostawcy korzystają z szerokiej gamy metod, w tym ze specjalistycznych form przechowywania danych, rozbudowanych obliczeń wstępnych lub zaostrzenia wymagań sprzętowych. Jednak obecnie nie ma w pełni zoptymalizowanych rozwiązań. Na pierwszy rzut oka może wydawać się zaskakujące, że po otrzymaniu zgłoszenia w minutę, co jeszcze nie tak dawno trwało kilka dni, użytkownik bardzo szybko nudzi się w oczekiwaniu, a projekt okazuje się znacznie mniej udany niż w przypadku natychmiastowa reakcja, nawet kosztem mniej szczegółowej analizy.
  • Wspólny oznacza, że ​​system umożliwia spełnienie wszystkich wymogów ochrony danych oraz wdrożenie rozproszonego i jednoczesnego dostępu do danych dla różnych poziomów użytkowników. System musi być w stanie obsłużyć wiele zmian danych w sposób terminowy i bezpieczny. Jest to główna słabość wielu produktów OLAP, które zwykle zakładają, że wszystkie aplikacje OLAP są przeznaczone tylko do odczytu i zapewniają uproszczoną ochronę.
  • Wielowymiarowy jest kluczowym wymogiem. Gdybyś miał zdefiniować OLAP jednym słowem, wybrałbyś go. System powinien zapewniać wielowymiarowy, koncepcyjny widok danych, w tym pełną obsługę hierarchii i wielu hierarchii, ponieważ określa to najbardziej logiczny sposób analizy biznesu. Nie ma minimalnej liczby wymiarów do przetworzenia, ponieważ zależy to również od aplikacji, a większość produktów OLAP ma wystarczające wymiary dla rynków, na które są kierowane. Ponownie, nie precyzujemy, jaka podstawowa technologia bazy danych powinna zostać użyta, jeśli użytkownik otrzyma prawdziwie wielowymiarową koncepcyjną reprezentację informacji. Ta funkcja jest sercem OLAP
  • Informacja. Niezbędne informacje należy pozyskiwać tam, gdzie są potrzebne, niezależnie od ich objętości i miejsca przechowywania. Jednak wiele zależy od aplikacji. Moc różnych produktów mierzy się ilością danych wejściowych, które mogą przetworzyć, ale nie liczbą gigabajtów, które mogą przechowywać. Moc produktów jest bardzo zróżnicowana - największe produkty OLAP mogą obsłużyć co najmniej tysiąc razy więcej danych niż najmniejsze. W tym względzie należy wziąć pod uwagę wiele czynników, w tym duplikację danych, wymaganą pamięć RAM, wykorzystanie miejsca na dysku, wydajność, integrację przechowywania danych i inne.
  • Analiza oznacza, że ​​system może obsłużyć dowolną analizę logiczną i statystyczną specyficzną dla aplikacji i zapewnia jej zapisanie w formie dostępnej dla użytkownika końcowego. Użytkownik powinien mieć możliwość definiowania nowych niestandardowych obliczeń w ramach analizy bez konieczności programowania. Oznacza to, że wszystkie wymagane funkcje analityczne muszą być dostarczone w intuicyjny sposób użytkownikom końcowym. Narzędzia analityczne mogą obejmować określone procedury, takie jak analiza szeregów czasowych, alokacja kosztów, przelewy walutowe, wyszukiwanie celów itp. Takie możliwości różnią się znacznie w zależności od produktów, w zależności od orientacji docelowej.

Innymi słowy, te 5 kluczowych definicji to cele, które mają osiągnąć produkty OLAP.

Aspekty technologii OLAP

System OLAP zawiera pewne komponenty. Istnieją różne schematy ich pracy, które może realizować dany produkt.

Komponenty systemów OLAP (z czego składa się system OLAP?)

Zazwyczaj system OLAP zawiera następujące elementy:

  • Źródło danych
    Źródło, z którego pobierane są dane do analizy (hurtownia danych, baza danych operacyjnych systemów księgowych, zbiór tabel, kombinacje powyższych).
  • Serwer OLAP
    Dane ze źródła są przesyłane lub kopiowane na serwer OLAP, gdzie są organizowane i przygotowywane do szybszego późniejszego generowania odpowiedzi na zapytania.
  • Klient OLAP
    Interfejs użytkownika do serwera OLAP, w którym użytkownik pracuje

Należy zauważyć, że nie wszystkie komponenty są wymagane. Istnieją systemy desktopowe OLAP, które pozwalają analizować dane przechowywane bezpośrednio na komputerze użytkownika i nie wymagają serwera OLAP.

Jednak wymaganym elementem jest źródło danych: dostępność danych jest ważną kwestią. Jeżeli istnieją, w dowolnej formie, np. tabeli Excel, w bazie danych systemu księgowego, w postaci ustrukturyzowanych raportów oddziałów, informatyk może zintegrować się bezpośrednio z systemem OLAP lub z transformacją pośrednią. W tym celu systemy OLAP mają specjalne narzędzia. Jeśli te dane nie są dostępne lub są niewystarczająco kompletne i niewystarczającej jakości, OLAP nie pomoże. Oznacza to, że OLAP jest tylko dodatkiem do danych, a jeśli go nie ma, staje się bezużyteczny.

Większość danych dla aplikacji OLAP pochodzi z innych systemów. Jednak w niektórych aplikacjach (na przykład do planowania lub budżetowania) dane mogą być generowane bezpośrednio w aplikacjach OLAP. Gdy dane pochodzą z innych aplikacji, zwykle konieczne jest przechowywanie danych w oddzielnym, zduplikowanym formularzu dla aplikacji OLAP. Dlatego wskazane jest tworzenie hurtowni danych.

Należy zauważyć, że termin „OLAP” jest nierozerwalnie związany z terminem „hurtownia danych” (Hurtownia Danych). Hurtownia danych to specyficzny dla domeny, ograniczony czasowo i niezmienny zbiór danych wspierający proces podejmowania decyzji zarządczych. Dane w hurtowni pochodzą z systemów operacyjnych (systemów OLTP), które mają na celu automatyzację procesów biznesowych, magazyn może być uzupełniany ze źródeł zewnętrznych, np. raportów statystycznych.

Pomimo tego, że zawierają celowo zbędną informację, która już znajduje się w bazach danych lub plikach systemów operacyjnych, przechowywanie danych jest konieczne, ponieważ:

  • fragmentacja danych, przechowywanie ich w różnych formatach DBMS;
  • poprawiona wydajność pobierania danych
  • jeśli w przedsiębiorstwie wszystkie dane są przechowywane na centralnym serwerze bazodanowym (co jest niezwykle rzadkie), analityk prawdopodobnie nie zrozumie ich złożonej, czasem mylącej struktury
  • złożone zapytania analityczne do informacji operacyjnych spowalniają bieżącą pracę firmy, blokując na długi czas tabele i zabierając zasoby serwerowe
  • możliwość oczyszczenia i uzgodnienia danych
  • bezpośrednia analiza danych systemów operacyjnych jest niemożliwa lub bardzo trudna;

Zadaniem repozytorium jest dostarczenie „surowca” do analizy w jednym miejscu i w prostej, zrozumiałej strukturze. Oznacza to, że pojęcie Hurtowni Danych nie jest pojęciem analizy danych, ale raczej pojęciem przygotowania danych do analizy. Zakłada wdrożenie jednego zintegrowanego źródła danych.

Produkty OLAP: Architektury

Podczas korzystania z produktów OLAP ważne są 2 pytania: jak i gdzie trzymać oraz w procesie dane. Architektury OLAP są rozróżniane w zależności od sposobu implementacji tych dwóch procesów. Istnieją 3 sposoby przechowywania danych dla OLAP i 3 sposoby przetwarzania tych danych. Wielu producentów oferuje kilka opcji, niektórzy próbują udowodnić, że ich podejście jest najbardziej ostrożne. To oczywiście absurd. Jednak bardzo niewiele produktów może działać wydajnie w więcej niż jednym trybie.

Opcje przechowywania danych OLAP

Przechowywanie w tym kontekście oznacza zawartość danych w stale aktualizowanym stanie.

  • Relacyjne bazy danych: jest to typowy wybór, jeśli przedsiębiorstwo przechowuje poświadczenia w bazie danych RDB. W większości przypadków dane powinny być przechowywane w zdenormalizowanej strukturze (najbardziej akceptowalny jest schemat gwiaździsty). Znormalizowana baza danych jest nie do przyjęcia ze względu na bardzo niską wydajność zapytań podczas generowania zagregowanych wartości dla OLAP (często sumy są przechowywane w zagregowanych tabelach).
  • Pliki bazy danych na komputerze klienckim (kioski lub hurtownie danych): Te dane mogą być wstępnie propagowane lub generowane na żądanie na komputerach klienckich.

Wielowymiarowe bazy danych: zakłada, że ​​dane są przechowywane w wielowymiarowej bazie danych na serwerze. Może zawierać dane pobrane i podsumowane z innych systemów i relacyjnych baz danych, pliki użytkowników końcowych itp. W większości przypadków wielowymiarowe bazy danych są przechowywane na dysku, ale niektóre produkty umożliwiają również wykorzystanie pamięci RAM, obliczającej najczęściej używane dane na latać ”. W bardzo małej liczbie produktów opartych na wielowymiarowych bazach danych możliwa jest wielokrotna edycja danych, wiele produktów umożliwia pojedynczą edycję, ale wielokrotne odczyty danych, podczas gdy inne ograniczają się tylko do odczytu.

Te trzy miejsca przechowywania mają różne pojemności i są ułożone w kolejności malejącej pojemności. Mają też różne charakterystyki wydajności zapytań: relacyjne bazy danych są znacznie wolniejsze niż dwie ostatnie.

Opcje przetwarzania danych OLAP

Istnieją 3 takie same opcje przetwarzania danych:

  • Korzystanie z SQL: ta opcja jest oczywiście używana podczas przechowywania danych w RDB. Jednak SQL nie pozwala na obliczenia wielowymiarowe w pojedynczym zapytaniu, więc złożone zapytania SQL są wymagane, aby osiągnąć jedynie normalną funkcjonalność wielowymiarową. Jednak to nie powstrzymuje programistów przed próbami. W większości przypadków wykonują ograniczoną liczbę odpowiednich obliczeń SQL, których wyniki można uzyskać z wielowymiarowego przetwarzania danych lub z komputera klienckiego. Możliwe jest również użycie pamięci RAM, która może przechowywać dane przy użyciu więcej niż jednego żądania: to znacznie poprawiło odpowiedź.
  • Przetwarzanie wielowymiarowe po stronie klienta: produkt klienta OLAP sam wykonuje obliczenia, ale to przetwarzanie jest dostępne tylko wtedy, gdy użytkownicy mają stosunkowo wydajne komputery.

Przetwarzanie wielowymiarowe po stronie serwera: Jest to popularne miejsce do przetwarzania wielowymiarowego w aplikacjach klient/serwer OLAP i jest używane w wielu produktach. Wydajność jest zwykle dobra, ponieważ większość obliczeń została już wykonana. Wymaga to jednak dużej ilości miejsca na dysku.

Macierz architektury OLAP

W związku z tym łącząc opcje przechowywania/przetwarzania można uzyskać macierz architektur systemów OLAP. W związku z tym teoretycznie może istnieć 9 kombinacji tych metod. Ponieważ jednak 3 z nich są pozbawione zdrowego rozsądku, w rzeczywistości istnieje tylko 6 opcji przechowywania i przetwarzania danych OLAP.

Wielowymiarowe opcje przechowywania
dane

Warianty
wielowymiarowy
przetwarzanie danych

Relacyjna baza danych

Wielowymiarowa baza danych po stronie serwera

Komputer kliencki

Wielkość kartezy

Wielowymiarowe przetwarzanie serwerów

Kryształowe Holo (tryb ROLAP)

Serwer IBM DB2 OLAP

CA EUREKA: Strategia

Informix MetaCube

Media Speedware / MR

Usługi analityczne firmy Microsoft

Oracle Express (tryb ROLAP)

Pilotażowy serwer analiz

Zastosuj iTM1

Kryształowe holo

Decyzja Comshare

Hyperion Essbaza

Oracle Express

Media Speedware / M

Usługi analityczne firmy Microsoft

Serwer PowerPlay dla przedsiębiorstw

Pilotażowy serwer analiz

Zastosuj iTM1

Wielowymiarowe przetwarzanie na komputerze klienckim

Odkrywca Oracle

Informix MetaCube

Wgląd wymiarowy

Hyperion Enterprise

Cognos PowerPlay

Ekspres osobisty

Perspektywy iTM1

Ponieważ to właśnie przechowywanie determinuje przetwarzanie, zwyczajowo grupuje się według opcji przechowywania, czyli:

  • Produkty ROLAP w sektorach 1, 2, 3
  • Desktop OLAP - w sektorze 6

Produkty MOLAP - w sektorach 4 i 5

Produkty HOLAP (pozwalające zarówno na wielowymiarowe, jak i relacyjne przechowywanie danych) - na 2 i 4 (kursywą)

Kategorie produktów OLAP

Dostawców OLAP jest ponad 40, choć nie można ich wszystkich uznać za konkurentów, ponieważ ich możliwości są bardzo różne i tak naprawdę działają w różnych segmentach rynku. Można je pogrupować w 4 podstawowe kategorie, które różnią się w oparciu o pojęcia: złożona funkcjonalność - prosta funkcjonalność, wydajność - przestrzeń dyskowa. Wygodne jest rysowanie kategorii w formie kwadratu, ponieważ wyraźnie pokazuje związek między nimi. Charakterystyczną cechę każdej z kategorii przedstawiono na jej stronie, a podobieństwa z innymi - na sąsiednich stronach, dlatego kategorie po przeciwnych stronach są zasadniczo różne.

Osobliwości

Zalety

niedogodności

Przedstawiciele

Zastosowano OLAP

Kompletne aplikacje, bogate w funkcjonalność. Prawie wszystkie wymagają wielowymiarowej bazy danych, chociaż niektóre działają również z relacyjną bazą danych. Wiele z tej kategorii aplikacji jest wyspecjalizowanych, np. sprzedaż, produkcja, bankowość, budżetowanie, konsolidacja finansowa, analiza sprzedaży

Możliwość integracji z różnymi aplikacjami

Wysoki poziom funkcjonalności

Wysoki poziom elastyczności i skalowalności

Złożoność aplikacji (konieczność przeszkolenia użytkowników)

Wysoka cena

Rozwiązania Hyperion

Kryształowe decyzje

Kreatorzy informacji

Produkt oparty jest na nierelacyjnej strukturze danych, która zapewnia wielowymiarowe przechowywanie, przetwarzanie i prezentację danych. Dane w procesie analizy wybierane są wyłącznie ze struktury wielowymiarowej. Mimo dużej otwartości dostawcy przekonują klientów do zakupu własnego zestawu narzędzi.

Wysoka wydajność (szybkie obliczenia sum i różne wielowymiarowe przekształcenia dla dowolnego wymiaru). Średni czas odpowiedzi na zapytanie analityczne ad hoc przy korzystaniu z wielowymiarowej bazy danych jest zwykle o 1-2 rzędy wielkości mniejszy niż w przypadku RDB

Wysoki poziom otwartości: duża liczba produktów, z którymi możliwa jest integracja

Z łatwością radzą sobie z zadaniami włączania w model informacji różnych wbudowanych funkcji, przeprowadzania przez użytkownika specjalistycznej analizy itp.

Potrzeba dużej przestrzeni dyskowej do przechowywania danych (ze względu na nadmiarowość przechowywanych danych). Jest to niezwykle nieefektywne wykorzystanie pamięci - z powodu denormalizacji i wcześniej przeprowadzonej agregacji ilość danych w wielowymiarowej bazie danych odpowiada 2,5-100 razy mniejszej niż objętość oryginalnych danych szczegółowych. W każdym razie MOLAP nie pozwala na pracę z dużymi bazami danych. Prawdziwy limit to podstawa 10-25 gigabajtów

Potencjalna eksplozja bazy danych - nieoczekiwany, gwałtowny, nieproporcjonalny wzrost jej objętości

Brak elastyczności w przypadku konieczności modyfikacji struktur danych. Każda zmiana struktury wymiarów prawie zawsze wymaga całkowitej przebudowy hipersześcianu.

Dla wielowymiarowych baz danych obecnie nie ma jednolitych standardów interfejsu, języków opisu i manipulacji danymi

Hyperion (Essbaza)

DOLAP (komputerowy OLAP)

Produkty OLAP po stronie klienta, które są łatwe do wdrożenia i charakteryzują się niskim kosztem w przeliczeniu na stanowisko

Mówimy o takim przetwarzaniu analitycznym, gdzie hipersześciany są małe, ich wymiary są niewielkie, potrzeby są skromne, a do takiego przetwarzania analitycznego wystarczy osobista maszyna na pulpicie.

Celem producentów na tym rynku jest automatyzacja setek i tysięcy miejsc pracy, ale użytkownicy muszą przeprowadzić dość prostą analizę. Kupujący często są kierowani do kupowania większej liczby miejsc pracy niż to konieczne

Dobra integracja z bazą danych: wielowymiarowa, relacyjna

Możliwość dokonywania złożonych zakupów, co obniża koszty realizacji projektów

Łatwość korzystania z aplikacji

Bardzo ograniczona funkcjonalność (nieporównywalna pod tym względem z produktami specjalistycznymi)

Bardzo ograniczona moc (małe ilości danych, kilka pomiarów)

Cognos (PowerPlay)

Obiekty biznesowe

Kryształowe decyzje

To najmniejszy sektor na rynku.

Dane szczegółowe pozostają tam, gdzie były pierwotnie — w relacyjnej bazie danych; niektóre agregaty są przechowywane w tej samej bazie danych w specjalnie stworzonych tabelach serwisowych

Możliwość obsługi bardzo dużych ilości danych (oszczędne przechowywanie)

Zapewnia tryb pracy dla wielu użytkowników, w tym tryb edycji, a nie tylko czytanie

Wyższy poziom ochrony danych i dobre możliwości różnicowania praw dostępu

Możliwe są częste zmiany w strukturze pomiarów (nie wymagają fizycznej reorganizacji bazy danych)

Słaba wydajność, znacznie gorsza szybkość odpowiedzi od wielowymiarowych (odpowiedź na złożone zapytania mierzona jest w minutach, a nawet godzinach, a nie sekundach). Są bardziej przyjaznymi dla użytkownika narzędziami do tworzenia raportów niż interaktywne narzędzia analityczne

Złożoność produktów. Wymaga znacznych kosztów obsługi IT. Systemy relacyjne wymagają starannego dostrojenia schematów baz danych i indeksów, aby osiągnąć wydajność porównywalną z MOLAP, co oznacza duży wysiłek ze strony administratorów baz danych.

Kosztowne do wdrożenia

Ograniczenia SQL pozostają rzeczywistością, co uniemożliwia wiele wbudowanych funkcji, które są łatwo dostarczane w systemach opartych na wielowymiarowej reprezentacji danych w RDBMS.

Przewaga informacji

Informix (Metakostka)

Należy zauważyć, że konsumenci produktów hybrydowych, które umożliwiają wybór trybu ROLAP i MOLAP, takich jak Microsoft Analysis Services, OracleExpress, Crystal Holos, IBM DB2 OLAPServer, prawie zawsze wybierają tryb MOLAP.

Każda z przedstawionych kategorii ma swoje mocne i słabe strony, nie ma jednego optymalnego wyboru. Wybór wpływa na 3 ważne aspekty: 1) wydajność; 2) miejsce na dysku do przechowywania danych; 3) możliwości, funkcjonalność, a zwłaszcza skalowalność rozwiązania OLAP. Jednocześnie należy brać pod uwagę wolumeny przetwarzanych danych, potęgę technologii, potrzeby użytkowników i szukać kompromisu między szybkością a redundancją zajmowanego przez bazę danych miejsca dyskowego, prostotą i uniwersalnością.

Klasyfikacja magazynów danych zgodnie z wielkością docelowej bazy danych

Wady OLAP

Jak każda technologia OLAP ma również swoje wady: wysokie wymagania sprzętowe, wyszkolenie i wiedzę personelu administracyjnego oraz użytkowników końcowych, wysokie koszty realizacji projektu wdrożeniowego (zarówno pieniężne, jak i czasowe, intelektualne).

Wybór produktu OLAP

Wybór odpowiedniego produktu OLAP jest trudny, ale bardzo ważny, jeśli chcesz, aby Twój projekt nie zawiódł.

Jak widać różnice produktowe tkwią w wielu obszarach: funkcjonalnym, architektonicznym, technicznym. Niektóre produkty są dość ograniczone w dostosowywaniu. Niektóre przeznaczone są dla specjalistycznych obszarów tematycznych: marketing, sprzedaż, finanse. Istnieją produkty do celów ogólnych, które nie są przeznaczone do użytku aplikacyjnego, które powinny być wystarczająco elastyczne. Z reguły takie produkty są tańsze od specjalistycznych, ale są większe koszty wdrożenia. Wachlarz produktów OLAP jest bardzo szeroki – od najprostszych narzędzi do budowania tabel przestawnych i wykresów wchodzących w skład produktów biurowych, po analizę danych i wyszukiwanie wzorców, których koszt to dziesiątki tysięcy dolarów.

Jak w każdej dziedzinie, nie ma ostatecznych wytycznych dotyczących wyboru narzędzi w dziedzinie OLAP. Możesz skupić się tylko na kilku kluczowych punktach i dopasować możliwości oferowanego oprogramowania do potrzeb organizacji. Jedna rzecz jest ważna: jeśli nie myślisz o tym, jak zamierzasz używać narzędzi OLAP, ryzykujesz silny ból głowy.

W procesie selekcji należy rozważyć 2 pytania:

  • ocenić potrzeby i możliwości przedsiębiorstwa
  • ocenić istniejącą podaż na rynku, ważne są również trendy rozwojowe

Wtedy wszystko to można porównać i właściwie dokonać wyboru.

Potrzebne oszacowanie

Nie można dokonać racjonalnego wyboru produktu bez zrozumienia, do czego będzie on używany. Wiele firm chce „najlepszego produktu” bez jasnego zrozumienia, w jaki sposób powinien być używany.

Aby projekt został pomyślnie zrealizowany, dyrektor finansowy musi przynajmniej poprawnie sformułować swoje życzenia i wymagania wobec kierownika i specjalistów ds. serwisu automatyki. Wiele problemów pojawia się z powodu niewystarczającego przygotowania i świadomości wyboru OLAP, informatycy i użytkownicy końcowi mają trudności z komunikacją tylko dlatego, że manipulują różnymi pojęciami i terminami w rozmowie i prezentują sprzeczne preferencje. Potrzebujesz spójności w celu w firmie.

Kilka czynników stało się już widoczne po przeczytaniu przeglądu kategorii produktów OLAP, a mianowicie:

Aspekty techniczne

  • Źródła danych: korporacyjna hurtownia danych, system OLTP, pliki tabelaryczne, relacyjne bazy danych. Możliwość powiązania zestawu narzędzi OLAP ze wszystkimi DBMS używanymi w organizacji. Jak pokazuje praktyka integracja odmiennych produktów w stabilny system operacyjny jest jedną z najważniejszych kwestii, a jej rozwiązanie w niektórych przypadkach może wiązać się z dużymi problemami. Niezbędne jest zrozumienie, jak łatwa i niezawodna jest integracja narzędzi OLAP z istniejącym DBMS w organizacji. Ważne jest również, aby ocenić możliwości integracji nie tylko ze źródłami danych, ale także z innymi aplikacjami, do których może być konieczne wyeksportowanie danych: e-mail, aplikacje biurowe
  • Zmienność danych, które są brane pod uwagę
  • Platforma serwerowa: NT, Unix, AS / 400, Linux - ale nie nalegaj, aby produkty zgodne ze specyfikacją OLAP działały na wątpliwych lub umierających platformach, których nadal używasz
  • Standardy po stronie klienta i przeglądarki
  • Wdrożona architektura: modem LAN i PC, szybki klient/serwer, intranet, ekstranet, Internet
  • Funkcje międzynarodowe: obsługa wielu walut, operacje wielojęzyczne, udostępnianie danych, lokalizacja, licencjonowanie, aktualizacja Windows

Ilość informacji wejściowych, które są dostępne i które pojawią się w przyszłości

Użytkownicy

  • Zakres zastosowania: analiza sprzedaży/marketingu, budżetowanie/planowanie, analiza wskaźników efektywności, analiza raportów księgowych, analiza jakościowa, kondycja finansowa, tworzenie materiałów analitycznych (raportów)
  • Liczba użytkowników i ich lokalizacja, wymagania dotyczące rozdzielenia praw dostępu do danych i funkcji, tajność (poufność) informacji
  • Widok użytkownika: kierownictwo wyższego szczebla, finanse, marketing, HR, sprzedaż, produkcja itp.
  • Doświadczenie użytkownika. Poziom umiejętności użytkownika. Rozważ zapewnienie szkolenia. Bardzo ważne jest, aby aplikacja kliencka OLAP była taka, aby użytkownicy czuli się pewnie i mogli efektywnie z niej korzystać.

Kluczowe cechy: potrzeba zapisu zwrotnego danych, przetwarzanie rozproszone, złożone przeliczanie walut, potrzeba drukowania raportów, interfejs arkusza kalkulacyjnego, złożoność logiki aplikacji, wymagany wymiar, rodzaje analiz: statystyczna, wyszukiwanie celu, analiza what-if

Realizacja

  • Kto wdroży i będzie obsługiwał: konsultanci zewnętrzni, wewnętrzny IT czy użytkownicy końcowi
  • Budżet: oprogramowanie, sprzęt, usługi, transmisja danych. Pamiętaj, że licencje na produkty OLAP to tylko niewielki ułamek całkowitego kosztu projektu. Koszty wdrożenia i sprzętu mogą być wyższe niż opłaty licencyjne, a koszty długoterminowego wsparcia, utrzymania i administracji są prawie na pewno znacznie wyższe. A jeśli podjąłeś złą decyzję o zakupie niewłaściwego produktu tylko dlatego, że jest tańszy, ostatecznie możesz mieć wyższy całkowity koszt projektu ze względu na wyższe koszty utrzymania, administracji i / lub sprzętu, podczas gdy prawdopodobnie otrzymasz niższy poziom korzyści biznesowych . Szacując całkowity koszt, należy zadać sobie następujące pytania: Jak szeroki jest wybór źródeł wdrożenia, szkolenia i wsparcia? Czy potencjalny zapas ogólny (pracownicy, kontrahenci, konsultanci) jest podatny na wzrost lub spadek? Jak szeroko można wykorzystać twoje doświadczenie zawodowe?

Pomimo tego, że koszt systemów analitycznych do dziś pozostaje dość wysoki, a metodologie i technologie wdrażania takich systemów są wciąż na etapie ich powstawania, to już dziś dostarczany przez nie efekt ekonomiczny znacznie przewyższa efekt tradycyjnych systemy operacyjne.

Efekt prawidłowej organizacji, strategicznego i operacyjnego planowania rozwoju biznesu jest trudny do oszacowania liczbowo z góry, ale oczywiste jest, że może przekroczyć koszty wdrożenia takich systemów dziesiątki, a nawet setki razy. Jednak nie należy się mylić. Efekt zapewnia nie sam system, ale ludzie z nim pracujący. Dlatego deklaracje typu: „system hurtowni danych i technologie OLAP pomogą menedżerowi w podejmowaniu właściwych decyzji” nie są do końca słuszne. Nowoczesne systemy analityczne nie są systemami sztucznej inteligencji i nie mogą ani pomóc, ani utrudniać podejmowania decyzji. Ich celem jest dostarczenie menedżerowi wszystkich informacji niezbędnych do podjęcia decyzji w dogodnej formie i na czas. A jakie informacje zostaną poproszone i jaka decyzja zostanie podjęta na ich podstawie, zależy tylko od konkretnej osoby, która z nich korzysta.

Jedno pozostaje do powiedzenia, systemy te mogą pomóc w rozwiązaniu wielu problemów biznesowych i mogą mieć daleko idące pozytywne skutki. Pozostaje tylko czekać, kto jako pierwszy zda sobie sprawę z zalet tego podejścia i wyprzedzi innych.

Przetwarzanie analityczne online, czyli OLAP, to efektywna technologia przetwarzania danych, w wyniku której informacje zbiorcze wyświetlane są na podstawie ogromnych tablic wszelkiego rodzaju danych. Jest to potężny produkt, który pomaga uzyskiwać dostęp, pobierać i przeglądać informacje na komputerze PC, analizując je z różnych perspektyw.

OLAP to narzędzie, które zapewnia strategiczną pozycję do planowania długoterminowego i uwzględnia podstawowe informacje o danych operacyjnych w przyszłości 5, 10 lub więcej lat. Dane są przechowywane w bazie danych z wymiarem, który jest ich atrybutem. Użytkownicy mogą wyświetlać ten sam zestaw danych z różnymi atrybutami, w zależności od celu analizy.

Historia OLAP

OLAP nie jest nową koncepcją i jest używany od dziesięcioleci. W rzeczywistości początki technologii sięgają 1962 roku. Ale termin ten został ukuty dopiero w 1993 roku przez autora bazy danych Teda Coddoma, który również ustanowił 12 zasad dla produktu. Podobnie jak w przypadku wielu innych zastosowań, koncepcja ta przeszła kilka etapów ewolucji.

Sama historia technologii OLAP sięga 1970 roku, kiedy to wydano zawartość Express i pierwszy serwer Olap. Zostały przejęte przez Oracle w 1995 roku, a następnie stały się podstawą przetwarzania analitycznego online wielowymiarowego silnika obliczeniowego, który znana marka komputerowa udostępniła w swojej bazie danych. W 1992 r. Arbor Software (przejęty przez Oracle w 2007 r.) wydał kolejny dobrze znany produkt do przetwarzania analitycznego online, Essbase.

W 1998 r. firma Microsoft wydała serwer analizy przetwarzania danych online MS Analysis Services. Przyczyniło się to do popularności technologii i przyspieszyło rozwój innych produktów. Obecnie istnieje kilku renomowanych światowych dostawców oferujących aplikacje Olap, m.in. IBM, SAS, SAP, Essbase, Microsoft, Oracle, IcCube.

Przetwarzanie analityczne online

OLAP to narzędzie, które pozwala podejmować decyzje dotyczące zaplanowanych wydarzeń. Nietypowe obliczenia Olap mogą być bardziej złożone niż prosta agregacja danych. Zapytania analityczne na minutę (AQM) są używane jako standardowy test porównawczy do porównywania wydajności różnych instrumentów. Systemy te powinny w jak największym stopniu ukrywać użytkowników przed składnią złożonych zapytań i zapewniać wszystkim spójne czasy odpowiedzi (bez względu na ich złożoność).

Istnieją następujące główne cechy OLAP:

  1. Wielowymiarowe reprezentacje danych.
  2. Wsparcie dla skomplikowanych obliczeń.
  3. Zwiad tymczasowy.

Widok wielowymiarowy zapewnia ramy do przetwarzania analitycznego poprzez elastyczny dostęp do danych firmowych. Pozwala użytkownikom analizować dane w dowolnym wymiarze i na dowolnym poziomie agregacji.

Wsparcie dla złożonych obliczeń to podstawa oprogramowania OLAP.

Inteligencja czasowa służy do oceny wydajności dowolnej aplikacji analitycznej w określonym czasie. Na przykład w tym miesiącu w porównaniu z poprzednim miesiącem, w tym miesiącu w porównaniu z tym samym miesiącem w zeszłym roku.

Wielowymiarowa struktura danych

Jedną z głównych cech przetwarzania analitycznego online jest wielowymiarowa struktura danych. Kostka może mieć wiele wymiarów. Dzięki temu modelowi cały proces wyszukiwania OLAP jest łatwy dla menedżerów i kadry kierowniczej, ponieważ obiekty reprezentowane w komórkach są rzeczywistymi obiektami biznesowymi. Ponadto ten model danych pozwala użytkownikom obsługiwać nie tylko macierze ustrukturyzowane, ale także nieustrukturyzowane i częściowo ustrukturyzowane. Wszystko to sprawia, że ​​są one szczególnie popularne w przypadku analizy danych i aplikacji BI.

Główne cechy systemów OLAP:

  1. Korzystaj z wielowymiarowych metod analizy danych.
  2. Zapewnia zaawansowaną obsługę baz danych.
  3. Twórz łatwe w użyciu interfejsy użytkownika końcowego.
  4. Obsługuje architekturę klient/serwer.

Jednym z głównych elementów koncepcji OLAP jest serwer po stronie klienta. Oprócz agregowania i wstępnego przetwarzania danych z relacyjnej bazy danych zapewnia zaawansowane opcje obliczeń i rejestrowania, dodatkową funkcjonalność, podstawowe zaawansowane możliwości zapytań i wiele więcej.

Dostępne są różne modele danych i narzędzia, w zależności od przykładowej aplikacji wybranej przez użytkownika, w tym alerty w czasie rzeczywistym, skrypty typu „co, jeśli”, optymalizacja i złożone raporty OLAP.

Kształt sześcienny

Koncepcja oparta jest na sześciennym kształcie. Lokalizacja zawartych w nim danych pokazuje, w jaki sposób OLAP przestrzega zasady analizy wielowymiarowej, czego efektem jest struktura danych zaprojektowana do szybkiej i wydajnej analizy.

Kostka OLAP jest również określana jako „hipersześcian”. Opisuje się ją jako składającą się z liczbowych faktów (miar) sklasyfikowanych według aspektów (wymiarów). Wymiary odnoszą się do atrybutów, które definiują problem biznesowy. Mówiąc najprościej, wymiar to etykieta opisująca miarę. Na przykład w raportach sprzedaży miarą byłaby wielkość sprzedaży, a wymiary obejmowałyby okres sprzedaży, sprzedawcę, produkt lub usługę oraz region sprzedaży. W raportowaniu operacji produkcyjnych miarą mogą być całkowite koszty produkcji i jednostki produkcji. Wymiary to data lub godzina produkcji, etap lub faza produkcji, a nawet pracownicy zaangażowani w proces produkcyjny.

Podstawą systemu jest kostka danych OLAP. Dane w kostce są zorganizowane przy użyciu schematu gwiazdy lub płatka śniegu. W centrum znajduje się tabela faktów zawierająca agregaty (miary). Jest połączony z wieloma tabelami wymiarów, które zawierają informacje o miarach. Wymiary opisują sposób analizy tych miar. Jeśli sześcian zawiera więcej niż trzy wymiary, często nazywa się go hipersześcianem.

Jedną z głównych funkcji sześcianu jest jego statyczny charakter, co oznacza, że ​​po zaprojektowaniu sześcianu nie można go zmienić. Dlatego proces składania kostki i konfigurowania modelu danych jest krytycznym krokiem w kierunku odpowiedniego przetwarzania danych w architekturze OLAP.

Łączenie danych

Zastosowanie agregacji jest głównym powodem, dla którego zapytania są przetwarzane znacznie szybciej w narzędziach OLAP (w porównaniu do OLTP). Agregacje to podsumowania danych, które zostały wstępnie obliczone podczas przetwarzania. Wszystkie elementy członkowskie przechowywane w tabelach wymiarów OLAP definiują zapytania, które może odbierać kostka.

W sześcianie nagromadzenie informacji jest przechowywane w komórkach, których współrzędne są określone przez określone wymiary. Liczba agregatów, które może zawierać kostka, zależy od wszystkich możliwych kombinacji elementów wymiaru. Dlatego typowa kostka w aplikacji może zawierać bardzo dużą liczbę agregatów. Wstępnie obliczone zostaną tylko kluczowe agregaty, które są rozmieszczone w całej kostce analitycznej analityki online. Spowoduje to drastyczne skrócenie czasu potrzebnego na zdefiniowanie agregacji podczas wykonywania zapytania w modelu danych.

Istnieją również dwie opcje związane z agregacją, które mogą poprawić wydajność gotowej kostki: utworzenie agregacji pamięci podręcznej możliwości i użycie agregacji na podstawie analizy zapytań użytkowników.

Zasada działania

Zazwyczaj analizę informacji operacyjnych uzyskanych z transakcji można przeprowadzić za pomocą prostego arkusza kalkulacyjnego (wartości danych są reprezentowane w wierszach i kolumnach). To dobrze, biorąc pod uwagę dwuwymiarowy charakter danych. W przypadku OLAP występują różnice ze względu na wielowymiarowy zbiór danych. Ponieważ często są one pozyskiwane z różnych źródeł, arkusz kalkulacyjny nie zawsze może je efektywnie przetwarzać.

Kostka rozwiązuje ten problem, a także utrzymuje hurtownię danych OLAP działającą w logiczny i uporządkowany sposób. Firmy gromadzą dane z wielu źródeł i są prezentowane w różnych formatach, takich jak pliki tekstowe, pliki multimedialne, arkusze kalkulacyjne Excel, bazy danych Access, a nawet bazy danych OLTP.

Wszystkie dane gromadzone są w repozytorium wypełnionym bezpośrednio ze źródeł. Usunie surowe informacje z OLTP i innych źródeł wszelkich błędnych, niekompletnych i niespójnych transakcji.

Po oczyszczeniu i przekształceniu informacje będą przechowywane w relacyjnej bazie danych. Zostanie on następnie przesłany do wielowymiarowego serwera OLAP (lub kostki Olap) w celu analizy. Użytkownicy końcowi odpowiedzialni za aplikacje biznesowe, eksplorację danych i inne operacje biznesowe będą mieli dostęp do potrzebnych im informacji z kostki Olap.

Zalety modelu tablicowego

OLAP to narzędzie, które zapewnia szybką wydajność zapytań poprzez zoptymalizowaną pamięć masową, wielowymiarowe indeksowanie i buforowanie, które są znaczącymi korzyściami dla systemu. Ponadto korzyści to:

  1. Mniejszy rozmiar danych na dysku.
  2. Zautomatyzowane obliczanie agregatów wyższego poziomu danych.
  3. Modele tablicowe zapewniają naturalne indeksowanie.
  4. Wydajna ekstrakcja danych jest osiągana dzięki wstępnej strukturze.
  5. Kompaktowość dla niskowymiarowych zestawów danych.

Wady OLAP obejmują fakt, że niektóre decyzje (etap przetwarzania) mogą być dość długie, szczególnie w przypadku dużej ilości informacji. Zwykle jest to korygowane poprzez wykonywanie tylko przetwarzania przyrostowego (badania danych, które uległy zmianie).

Podstawowe operacje analityczne

Skręt(roll-up/drill-up) jest również znany jako „konsolidacja”. Konwolucja polega na gromadzeniu wszystkich danych, które można pobrać, i obliczaniu wszystkich w jednym lub kilku wymiarach. Najczęściej może to wymagać zastosowania wzoru matematycznego. Jako przykład OLAP rozważ sieć detaliczną z punktami sprzedaży w różnych miastach. Aby zidentyfikować wzorce i przewidzieć przyszłe trendy sprzedaży, dane o nich ze wszystkich punktów są „zwijane” do głównego działu sprzedaży firmy w celu konsolidacji i obliczeń.

Ujawnienie(drążyć). To przeciwieństwo zsiadania się. Proces rozpoczyna się od dużego zestawu danych, a następnie dzieli się na mniejsze fragmenty, umożliwiając w ten sposób użytkownikom przeglądanie szczegółów. W przykładzie detalicznym analityk przeanalizuje dane dotyczące sprzedaży i przyjrzy się poszczególnym markom lub produktom, które są uważane za najlepiej sprzedające się w każdym z punktów sprzedaży w różnych miastach.

Przekrój(Plasterek i kostka). Jest to proces, w którym operacje analityczne obejmują dwa etapy: pobranie określonego zestawu danych z kostki OLAP (aspekt „cięcia” analizy) i obejrzenie go z różnych punktów widzenia lub pod różnymi kątami. Może się to zdarzyć, gdy wszystkie dane z punktu sprzedaży zostaną odebrane i wprowadzone do hipersześcianu. Analityk wycina zestaw danych sprzedażowych z kostki OLAP. Zostanie on następnie przeanalizowany podczas analizy sprzedaży poszczególnych jednostek w każdym regionie. W tym czasie inni użytkownicy mogą skupić się na ocenie opłacalności sprzedaży lub ocenie skuteczności kampanii marketingowej i reklamowej.

Zakręt(Sworzeń). Obraca osie danych, aby zastąpić prezentację informacji.

Rodzaje baz danych

Zasadniczo jest to typowa kostka OLAP, która implementuje analityczne przetwarzanie danych wielowymiarowych za pomocą kostki OLAP lub dowolnej kostki danych, dzięki czemu proces analityczny może dodawać wymiary według potrzeb. Wszelkie informacje załadowane do wielowymiarowej bazy danych będą przechowywane lub archiwizowane i mogą być przywoływane w razie potrzeby.

Oznaczający

Relacyjne OLAP (ROLAP)

ROLAP to zaawansowany DBMS wraz z wielowymiarowym mapowaniem danych do wykonywania standardowych operacji relacyjnych

Wielowymiarowy OLAP (MOLAP)

MOLAP - realizuje prace na danych wielowymiarowych

Hybrydowe przetwarzanie analityczne online (HOLAP)

W podejściu HOLAP sumy zagregowane są przechowywane w wielowymiarowej bazie danych, a szczegółowe informacje są przechowywane w relacyjnej bazie danych. Zapewnia to zarówno wydajność modelu ROLAP, jak i wydajność modelu MOLAP.

Pulpit OLAP (DOLAP)

W Desktop OLAP użytkownik pobiera fragment danych z bazy danych lokalnie lub na swój komputer i analizuje go. DOLAP jest stosunkowo tańszy we wdrożeniu, ponieważ oferuje bardzo małą funkcjonalność w porównaniu z innymi systemami OLAP

Internetowy OLAP (WOLAP)

Web OLAP to system OLAP dostępny przez przeglądarkę internetową. WOLAP to architektura trójwarstwowa. Składa się z trzech komponentów: klienta, oprogramowania pośredniczącego i serwera bazy danych

Mobilny OLAP

Mobilny OLAP pomaga użytkownikom uzyskiwać i analizować dane OLAP za pomocą ich urządzeń mobilnych

OLAP przestrzenny

SOLAP ma na celu ułatwienie zarządzania danymi przestrzennymi i nieprzestrzennymi w systemie informacji geograficznej (GIS)

Istnieją mniej znane systemy lub technologie OLAP, ale to są te główne, z których obecnie korzystają duże korporacje, firmy, a nawet rządy.

Narzędzia OLAP

Narzędzia do przetwarzania analitycznego online są bardzo dobrze reprezentowane w Internecie zarówno w wersji płatnej, jak i bezpłatnej.

Najpopularniejsze z nich to:

  1. Dundas BI firmy Dundas Data Visualization to oparta na przeglądarce platforma do analityki biznesowej i wizualizacji danych, która obejmuje zintegrowane pulpity nawigacyjne, raportowanie OLAP i analizę danych.
  2. Yellowfin to platforma Business Intelligence, która jest pojedynczym, zintegrowanym rozwiązaniem przeznaczonym dla firm wszystkich branż i wielkości. System ten można dostosować do potrzeb firm z branży księgowości, reklamy, rolnictwa.
  3. ClicData to rozwiązanie Business Intelligence (BI) przeznaczone do użytku głównie przez małe i średnie firmy. Narzędzie umożliwia użytkownikom końcowym tworzenie raportów i dashboardów. Board ma na celu zintegrowanie analityki biznesowej, zarządzania wydajnością firmy i jest w pełni funkcjonalnym systemem, który obsługuje firmy średniej wielkości i korporacji.
  4. Domo to oparty na chmurze pakiet do zarządzania przedsiębiorstwem, który integruje się z wieloma źródłami danych, w tym arkuszami kalkulacyjnymi, bazami danych, mediami społecznościowymi oraz dowolnym istniejącym oprogramowaniem w chmurze lub lokalnym.
  5. InetSoft Style Intelligence to platforma oprogramowania do analityki biznesowej, która umożliwia użytkownikom tworzenie pulpitów nawigacyjnych, technologii wizualnej analizy OLAP i raportów typu mashup.
  6. Birst by Infor Company to internetowe rozwiązanie do analityki biznesowej i analizy, które łączy spostrzeżenia z różnych zespołów, aby pomóc w podejmowaniu świadomych decyzji. Narzędzie umożliwia zdecentralizowanym użytkownikom skalowanie korporacyjnego modelu zespołu.
  7. Halo to kompleksowy system zarządzania łańcuchem dostaw i analizy biznesowej, który pomaga w planowaniu biznesowym i prognozowaniu zapasów na potrzeby zarządzania łańcuchem dostaw. System wykorzystuje dane ze wszystkich źródeł - dużych, małych i pośrednich.
  8. Chartio to oparte na chmurze rozwiązanie do analityki biznesowej, które zapewnia założycielom, zespołom biznesowym, analitykom danych i grupom produktów narzędzia do organizowania ich codziennej pracy.
  9. Exago BI to rozwiązanie internetowe przeznaczone do osadzania w aplikacjach internetowych. Wdrożenie Exago BI umożliwia firmom dowolnej wielkości dostarczanie swoim klientom ad hoc, terminowego i interaktywnego raportowania.

Wpływ na biznes

Użytkownik znajdzie OLAP w większości aplikacji biznesowych w różnych branżach. Z analizy korzysta nie tylko biznes, ale także inni interesariusze.

Niektóre z jego najczęstszych zastosowań to:

  1. Marketingowa analiza danych OLAP.
  2. Raportowanie finansowe, które obejmuje sprzedaż i wydatki, budżetowanie i planowanie finansowe.
  3. Zarządzanie procesami biznesowymi.
  4. Analiza sprzedaży.
  5. Marketing baz danych.

Branże wciąż się rozwijają, co oznacza, że ​​użytkownicy wkrótce zobaczą więcej aplikacji OLAP. Przetwarzanie dostosowane do wielu zmiennych zapewnia bardziej dynamiczną analizę. Z tego powodu te systemy i technologie OLAP są używane do oceny scenariuszy „co, jeśli” i alternatywnych scenariuszy biznesowych.