Menü
ücretsiz
Kayıt
Ev  /  Navigatörler/ Karar desteği için analitik veri işleme. Bilginin analitik işlenmesi

Karar desteği için analitik veri işleme. Bilginin analitik işlenmesi

4. OLAP ürünlerinin sınıflandırılması.

5. OLAP istemcilerinin çalışma ilkeleri.

7. OLAP teknolojilerinin uygulama alanları.

8. Satış alanında analiz için OLAP teknolojilerinin kullanımına bir örnek.

1. OLAP'ın işletmenin bilgi yapısındaki yeri.

"OLAP" terimi, "veri ambarı" (Veri Ambarı) terimiyle ayrılmaz bir şekilde bağlantılıdır.

Depolamadaki veriler şu adresten gelir: operasyonel sistemler(OLTP sistemleri), iş süreçlerini otomatikleştirmek için tasarlanmıştır. Ek olarak, veri havuzu istatistiksel raporlar gibi harici kaynaklardan da doldurulabilir.

Deponun görevi, analiz için "hammaddeyi" tek bir yerde ve basit, anlaşılır bir yapıda sağlamaktır.

Ayrı bir depolamanın görünümünü haklı çıkaran başka bir neden daha var - operasyonel bilgiler için karmaşık analitik sorgular, şirketin mevcut işini yavaşlatıyor, tabloları uzun süre engelliyor ve sunucu kaynaklarını ele geçiriyor.

Depolama altında, ille de devasa bir veri birikimi olmadığı anlaşılabilir - asıl mesele, analiz için uygun olmasıdır.

Merkezileştirme ve uygun yapılanma, bir analistin ihtiyaç duyduğu her şeyden uzaktır. Sonuçta, bilgileri görüntülemek ve görselleştirmek için hala bir araca ihtiyacı var. Tek bir veri havuzuna dayalı olarak oluşturulmuş olsa bile geleneksel raporların tek bir eksiği vardır: esneklik. Verilerin istenen görünümünü elde etmek için "bükülemez", "genişletilemez" veya "daraltılamaz". Keşke verileri basit ve rahat bir şekilde genişletip daraltmasına izin verecek bir aracı olsaydı! OLAP böyle bir araçtır.

OLAP, bir veri ambarının gerekli bir özelliği olmasa da, bu veri ambarında biriken bilgileri analiz etmek için giderek daha fazla kullanılmaktadır.

OLAP'ın yeri bilgi yapısı işletmeler (Şekil 1).

Resim 1. YerOLAP işletmenin bilgi yapısında

Operasyonel veriler çeşitli kaynaklardan toplanır, temizlenir, entegre edilir ve ilişkisel bir depoya konur. Aynı zamanda, çeşitli raporlama araçları kullanılarak analiz için hazırdırlar. Daha sonra veriler (tamamen veya kısmen) OLAP analizi için hazırlanır. Özel bir OLAP veri tabanına yüklenebilir veya ilişkisel bir depoda bırakılabilirler. En önemli unsuru meta verilerdir, yani verilerin yapısı, yerleşimi ve dönüşümü hakkında bilgi. Onlar sayesinde çeşitli depolama bileşenlerinin etkin etkileşimi sağlanır.

Özetle, OLAP'ı bir depoda biriken verilerin çok boyutlu analizi için bir dizi araç olarak tanımlayabiliriz.

2. Operasyonel analitik veri işleme.

OLAP kavramı, çok boyutlu veri gösterimi ilkesine dayanmaktadır. 1993'te E. F. Codd eksiklikleri değerlendirdi ilişkisel model, öncelikle "verileri çok boyutlu bakış açısıyla, yani kurumsal analistlerin anlayabileceği şekilde birleştirmenin, görüntülemenin ve analiz etmenin" imkansızlığına işaret ederek, OLAP sistemleri için işlevselliği artıran genel gereksinimleri tanımladı. ilişkisel VTYS'nin bir özelliğidir ve özelliklerinden biri olarak çok boyutlu analizi içerir.

Codd'a göre, çok boyutlu bir kavramsal görüş, belirli veri kümelerinin analiz edilebildiği birkaç bağımsız boyuttan oluşan çoklu bir bakış açısıdır.

Birden çok boyutta eşzamanlı analiz, çok değişkenli analiz olarak tanımlanır. Her boyut, bir dizi ardışık genelleştirme düzeyinden oluşan veri birleştirme yönergelerini içerir; burada her bir yüksek düzey, karşılık gelen boyut için daha büyük bir veri toplama derecesine karşılık gelir.

Böylece Yüklenici boyutu, "işletme - alt bölüm - departman - çalışan" genelleme düzeylerinden oluşan konsolidasyon yönüne göre belirlenebilir. Zaman boyutu, aylara ve haftalara göre zaman sayımı uyumlu olmadığından "yıl - çeyrek - ay - gün" ve "hafta - gün" olmak üzere iki konsolidasyon yönünü bile içerebilir. Bu durumda, ölçümlerin her biri için istenen bilgi ayrıntısı seviyesini keyfi olarak seçmek mümkün hale gelir.

Alçalma işlemi (delme), daha yüksek konsolidasyon seviyelerinden daha düşük seviyelere doğru harekete karşılık gelir; aksine kaldırma (yuvarlama) işlemi, alt seviyelerden üst seviyelere doğru hareket etme anlamına gelir (Res. 2).


Şekil 2.Veri birleştirmenin boyutları ve yönleri

3. Operasyonel analitik işleme araçları için gereklilikler.

Çok boyutlu yaklaşım, ilişkisel olanla neredeyse aynı anda ve paralel olarak ortaya çıktı. Bununla birlikte, yalnızca doksanların ortalarından başlayarak veya daha doğrusu
1993, ilgi MDBMS general olmaya başladı. İlişkisel yaklaşımın kurucularından birinin yeni bir politika makalesi bu yıl yayınlandı. E. Codda, uygulama araçları için 12 temel gereksinimi formüle ettiği OLAP(Tablo 1).

Tablo 1.

Çok Boyutlu Veri Görünümü

Araçlar, verilerin kavramsal düzeyde çok boyutlu bir görünümünü desteklemelidir.

şeffaflık

Kullanıcının, verileri depolamak ve işlemek için hangi özel araçların kullanıldığını, verilerin nasıl düzenlendiğini ve nereden geldiğini bilmesine gerek yoktur.

Kullanılabilirlik

Araçların kendileri, belirli bir talebe yanıt oluşturmak için en iyi veri kaynağını seçmeli ve onunla ilişki kurmalıdır. Araçlar, kendi otomatik görüntülerini sağlamalıdır mantık diyagramıçeşitli heterojen veri kaynaklarına

Tutarlı Performans

Performans, sorgudaki Boyutların sayısından pratik olarak bağımsız olmalıdır.

İstemci-sunucu mimarisi desteği

Araçlar bir istemci-sunucu mimarisinde çalışmalıdır.

Tüm boyutların eşitliği

Boyutların hiçbiri temel olmamalı, hepsi eşit (simetrik) olmalıdır.

Seyrek matrislerin dinamik kullanımı

Boş değerler en verimli şekilde saklanmalı ve işlenmelidir.

Verilerle çok kullanıcılı çalışma modu desteği

Araçlar birden fazla kullanıcının çalışmasına izin vermelidir.

Çeşitli ölçümlere dayalı işlemler için destek

Tüm çok boyutlu işlemler (örneğin Toplama), herhangi bir sayıda herhangi bir boyuta tek tip ve tutarlı bir şekilde uygulanmalıdır.

Veri İşleme Kolaylığı

Araçlar en uygun, doğal ve rahat kullanıcı arayüzüne sahip olmalıdır.

Gelişmiş veri sunum araçları

Araçlar, verilerin çeşitli görselleştirme (temsil) yollarını desteklemelidir.

Sınırsız sayıda boyut ve veri toplama düzeyi

Desteklenen Boyutların sayısında bir sınır olmamalıdır.

OLAP sınıfı yazılım ürünlerini değerlendirme kuralları

OLAP'ın fiili tanımı olarak hizmet eden bu gereksinimler grubu, tavsiyeler olarak değerlendirilmeli ve tek tek ürünler, tüm gereksinimlere ideal olarak tam uyum sağlamak için yaklaşıklık derecesine göre değerlendirilmelidir.

Daha sonra Codd'un tanımı, bir OLAP uygulamasının paylaşılan çok boyutlu bilgileri hızlı bir şekilde analiz etme yeteneği sağlamasını gerektiren FASMI testi olarak yeniden düzenlendi.

Codd'un 12 Kuralını hatırlamak çoğu insan için çok külfetlidir. OLAP tanımını yalnızca beş anahtar sözcükle özetleyebileceğiniz ortaya çıktı: Paylaşılan Çok Boyutlu Bilginin Hızlı Analizi - veya kısaca - FASMI (İngilizce'den çevrilmiştir:F ast A analizi S paylaşılan M çok boyutlu BEN bilgi).

Bu tanım ilk olarak 1995'in başlarında formüle edildi ve o zamandan beri revizyona ihtiyaç duymadı.

Hızlı hızlı)- sistemin kullanıcılara yanıtların çoğunu yaklaşık beş saniye içinde vermesi gerektiği anlamına gelir. Aynı zamanda en basit sorgular bir saniye içinde ve çok az - 20 saniyeden fazla işlenir. Araştırmalar, son kullanıcıların 30 saniye sonra sonuç alınmazsa işlemi başarısız olarak algıladıklarını göstermiştir.

İlk bakışta, kısa bir süre önce günler süren bir raporu bir dakika içinde alırken, kullanıcının beklerken çok çabuk sıkılması ve projenin bir proje durumunda olduğundan çok daha az başarılı olması şaşırtıcı görünebilir. daha az ayrıntılı analiz pahasına bile anında yanıt.

ANALİZ (Analiz)sistemin belirli herhangi bir mantıksal ve istatistiksel analizi işleyebileceği anlamına gelir. bu başvuru ve son kullanıcının erişebileceği bir biçimde saklanmasını sağlar.

Bu analizin satıcının kendi araçlarında mı yoksa elektronik tablo gibi ilgili bir harici yazılım ürününde mi yapıldığı o kadar önemli değildir, sadece gerekli tüm analiz işlevlerinin son kullanıcılar için sezgisel bir şekilde sağlanması gerekir. Analiz araçları, zaman serisi analizi, maliyet tahsisi, döviz transferleri, hedef arama, değişen çok boyutlu yapılar, prosedürel olmayan modelleme, istisna tespiti, veri çıkarma ve diğer uygulamaya bağlı işlemler gibi belirli prosedürleri içerebilir. Bu yetenekler, hedef yönüne bağlı olarak ürünler arasında büyük farklılıklar gösterir.

PAYLAŞTI (Paylaşıldı) sistemin tüm gizlilik koruma gereksinimlerini (belki hücre düzeyine kadar) uyguladığı ve birden fazla yazma erişimi gerekiyorsa uygun düzeyde değişiklik kilitlemeyi uyguladığı anlamına gelir. Tüm uygulamaların verileri geri yazması gerekmez. Bununla birlikte, bu tür uygulamaların sayısı artıyor ve sistemin birden çok değişikliği zamanında ve güvenli bir şekilde halledebilmesi gerekiyor.

ÇOK BOYUTLU - bu önemli bir gerekliliktir. OLAP'ı tek kelimeyle tanımlamamız gerekseydi, onu seçerdik. İş ve organizasyonları analiz etmenin kesinlikle en mantıklı yolu olduğundan, sistem, hiyerarşiler ve çoklu hiyerarşiler için tam destek dahil olmak üzere verilerin çok boyutlu kavramsal bir temsilini sağlamalıdır. Uygulamaya da bağlı olduğundan işlenmesi gereken minimum boyut sayısı yoktur ve çoğu OLAP ürünü hedefledikleri pazarlar için yeterli boyuta sahiptir.

BİLGİ - hepsi bu. Gerekli bilgiler ihtiyaç duyulan yerde alınmalıdır. Ancak, çoğu uygulamaya bağlıdır. Çeşitli ürünlerin gücü, ne kadar gigabayt depolayabildikleri ile değil, ne kadar girdi işleyebildikleri ile ölçülür. Ürünlerin gücü büyük ölçüde değişir - en büyük OLAP ürünleri, en küçüğünden en az bin kat daha fazla veri işleyebilir. Bu konuda dikkate alınması gereken, veri çoğaltma, gerekli RAM, disk alanı kullanımı, performans, bilgi depolarıyla entegrasyon vb. birçok faktör vardır.

FASMI testi, OLAP'ın odaklandığı hedeflerin makul ve anlaşılır bir tanımıdır.

4. SınıflandırmaOLAP- ürünler.

Yani, OLAP'ın özü analiz için ilk bilgilerin çok boyutlu bir küp şeklinde sunulması ve keyfi olarak manipüle edilmesi ve gerekli bilgi bölümlerinin - raporların alınmasının mümkün olması gerçeğinde yatmaktadır. Aynı zamanda, son kullanıcı, küpü çeşitli bölümlerdeki (boyutlardaki) verileri (olguları) otomatik olarak özetleyen ve hesaplamaları ve raporun biçimini etkileşimli olarak yönetmenizi sağlayan çok boyutlu dinamik bir tablo olarak görür. Bu işlemler yapılır OLAP makine (veya makine OLAP hesaplama).

Bugüne kadar dünyada OLAP uygulayan birçok ürün geliştirilmiştir. -teknolojiler. Aralarında gezinmeyi kolaylaştırmak için sınıflandırmaları kullanın OLAP -ürünler: analiz için veri depolama yoluyla ve konuma göre OLAP -arabalar. Her kategoriye daha yakından bakalım. OLAP ürünleri.

Veri depolama yöntemine göre sınıflandırma

Çok boyutlu küpler, kaynak ve birleştirilmiş veriler temelinde oluşturulur. Küpler için hem kaynak hem de toplu veriler, hem ilişkisel hem de çok boyutlu veritabanlarında saklanabilir. Bu nedenle, şu anda üç veri depolama yöntemi kullanılmaktadır: MOLAP (Çok boyutlu OLAP), ROLAP (İlişkisel OLAP) ve HOLAP (Hibrit OLAP). ). Sırasıyla, OLAP -veri depolama yöntemine göre ürünler üç benzer kategoriye ayrılır:

1. MOLAP durumunda , kaynak ve birleştirilmiş veriler, çok boyutlu bir veritabanında veya çok boyutlu bir yerel küpte depolanır.

2. ROLAP'ta -ürünler, kaynak veriler dosya sunucusundaki ilişkisel veritabanlarında veya düz yerel tablolarda depolanır. Toplu veriler, aynı veritabanındaki hizmet tablolarına yerleştirilebilir. İlişkisel bir veritabanından çok boyutlu küplere veri dönüştürme istek üzerine gerçekleşir OLAP araçları.

3. HOLAP kullanılması durumunda mimaride, kaynak veriler ilişkisel veritabanında kalırken, kümeler çok boyutlu olana yerleştirilir. Bina OLAP - istek üzerine gerçekleştirilen küp OLAP -ilişkisel ve çok boyutlu verilere dayalı araçlar.

Konum sınıflandırması OLAP-arabalar.

Bu özelliğe göre OLAP -Ürünler ayrılır OLAP sunucuları ve OLAP istemcileri:

· OLAP sunucusunda - toplu verilerin hesaplanması ve depolanması, ayrı bir işlem olan sunucu tarafından gerçekleştirilir. İstemci uygulaması, yalnızca sunucuda depolanan çok boyutlu küplere yönelik sorguların sonuçlarını alır. Bazı OLAP -sunucular veri depolamayı yalnızca ilişkisel veritabanlarında, bazıları - yalnızca çok boyutlu olanlarda destekler. Birçok modern OLAP -sunucular veri depolamanın üç yolunu da destekler: MOLAP, ROLAP ve HOLAP.

MOLAP.

MOLAP Çok Boyutlu Çevrimiçi Analitik İşleme, yani Çok boyutlu OLAP. Bu, sunucunun verileri depolamak için çok boyutlu bir veritabanı (MBD) kullandığı anlamına gelir. MDB kullanmanın anlamı açıktır. Doğası gereği çok boyutlu verileri verimli bir şekilde depolayabilir ve veritabanı sorgularına hızlı bir şekilde hizmet vermenin bir yolunu sağlar. Veriler, veri kaynağından çok boyutlu veritabanına aktarılır ve ardından veritabanı toplanır. Özet veriler zaten hesaplanmış olduğundan, ön hesaplama OLAP sorgularını hızlandırır. Sorgu süresi, yalnızca belirli bir veri parçasına erişmek ve bir hesaplama yapmak için gereken sürenin bir işlevi haline gelir. Bu yöntem, işin bir kez yapıldığı ve sonuçların tekrar tekrar kullanıldığı konseptini destekler. Çok boyutlu veritabanları nispeten yeni bir teknolojidir. MDB'nin kullanımı, çoğu yeni teknolojiyle aynı dezavantajlara sahiptir. Yani, ilişkisel veritabanları (RDB'ler) kadar kararlı değiller ve aynı ölçüde optimize edilmemişler. MDB'nin diğer bir zayıf noktası, veri toplama sürecinde çok boyutlu veritabanlarının çoğunun kullanılamamasıdır, bu nedenle yeni bilgilerin analiz için kullanılabilir hale gelmesi zaman alır.

ROLAP.

ROLAP İlişkisel Çevrimiçi Analitik İşleme, yani İlişkisel OLAP. ROLAP terimi, OLAP sunucusunun ilişkisel bir veritabanına dayalı olduğu anlamına gelir. Kaynak veriler, alma sürelerini kısaltmaya yardımcı olmak için, genellikle bir yıldız veya kar tanesi şemasında ilişkisel bir veritabanına girilir. Sunucu, optimize edilmiş SQL sorguları kullanarak çok boyutlu bir veri modeli sağlar.

Çok boyutlu bir veritabanı yerine ilişkisel bir veritabanını seçmenin birkaç nedeni vardır. RDB, optimizasyon için pek çok fırsatı olan köklü bir teknolojidir. Gerçek dünya kullanımı daha olgun bir ürünle sonuçlandı. Ek olarak, RDB'ler MDB'lerden daha büyük miktarda veriyi destekler. Sadece bu tür hacimler için tasarlandılar. RDB'lere karşı ana argüman, SQL kullanarak büyük bir veritabanından bilgi almak için gereken sorguların karmaşıklığıdır. Deneyimsiz bir SQL programcısı, bir MDB'de gerçekleştirmesi çok daha kolay olan bu tür bazı sorguları yürütmeye çalışarak değerli sistem kaynaklarını kolayca yükleyebilir.

Birleştirilmiş/Önceden birleştirilmiş veriler.

Hızlı sorgu uygulaması, OLAP için bir zorunluluktur. Bu, OLAP'ın temel ilkelerinden biridir - verileri sezgisel olarak manipüle etme yeteneği, hızlı bilgi almayı gerektirir. Genel olarak, bir bilgi parçası elde etmek için ne kadar çok hesaplama yapılması gerekiyorsa, yanıt o kadar yavaş olur. Bu nedenle, küçük bir sorgu uygulama süresinden tasarruf etmek için, genellikle en sık erişilen ancak hesaplama gerektiren bilgi parçaları önceden toplanır. Yani bunlar sayılır ve daha sonra veritabanında yeni veriler olarak saklanır. Önceden hesaplanabilecek veri türüne bir örnek, girilen gerçek verilerin günlük rakamlar olduğu aylık, üç aylık veya yıllık satış rakamları gibi özet verilerdir.

Farklı satıcıların, ön toplama ve bir dizi önceden hesaplanmış değer gerektiren parametre seçmek için farklı yöntemleri vardır. Toplama yaklaşımı, hem veritabanını hem de sorguların yürütme süresini etkiler. Daha fazla değer hesaplanırsa, kullanıcının zaten hesaplanmış olan değeri talep etme olasılığı artar ve bu nedenle, hesaplama için ilk değerin talep edilmesi gerekmeyeceğinden yanıt süresi kısalır. Bununla birlikte, tüm olası değerleri hesaplarsanız - bu en iyi çözüm değildir - bu durumda, veritabanının boyutu önemli ölçüde artacak, bu da onu yönetilemez hale getirecek ve toplama süresi çok uzun olacaktır. Ayrıca veri tabanına sayısal değerler eklendiğinde veya değiştirildiğinde bu bilgilerin yeni verilere bağlı olarak önceden hesaplanmış değerlere yansıtılması gerekir. Bu nedenle, çok sayıda önceden hesaplanmış değer olması durumunda veritabanının güncellenmesi de uzun zaman alabilir. Toplama sırasında veritabanı genellikle çevrimdışı çalıştığından, toplama süresinin çok uzun olmaması istenir.

OLAP İstemci farklı şekilde yapılandırılmıştır. Çok boyutlu bir küpün inşası ve OLAP -hesaplamalar client bilgisayarın hafızasında yapılır.OLAP -Müşteriler de ikiye ayrılır ROLAP ve MOLAP.Bazıları her iki veri erişim seçeneğini de destekleyebilir.

Bu yaklaşımların her birinin artıları ve eksileri vardır. Sunucu araçlarının istemci araçlara göre avantajları hakkındaki yaygın inanışın aksine, bazı durumlarda OLAP kullanımı -kullanıcılar için istemci kullanımı daha verimli ve karlı olabilir OLAP sunucuları.

İstemci OLAP araçlarını kullanarak analitik uygulamaların geliştirilmesi hızlı bir süreçtir ve uygulayıcının özel eğitimini gerektirmez. Veritabanının fiziksel uygulamasını bilen bir kullanıcı, bir BT uzmanının katılımı olmadan kendi başına bir analitik uygulama geliştirebilir.

Bir OLAP sunucusu kullanırken, sunucu üzerinde küp oluşturmak ve bir istemci uygulaması geliştirmek için bazen farklı satıcılardan olmak üzere 2 farklı sistemi öğrenmeniz gerekir.

OLAP istemcisi, küpleri tanımlamak ve onlar için kullanıcı arayüzlerini özelleştirmek için tek bir görsel arayüz sağlar.

Peki, hangi durumlarda kullanıcılar için bir OLAP istemcisi kullanmak, bir OLAP sunucusu kullanmaktan daha verimli ve faydalı olabilir?

· Uygulamanın ekonomik fizibilitesi OLAP - sunucu, veri miktarı çok büyük ve dayanılmaz olduğunda oluşur OLAP -client, aksi halde ikincisinin kullanımı daha haklı. Bu durumda OLAP -Müşteri, yüksek performans özelliklerini ve düşük maliyeti birleştirir.

· Güçlü analist bilgisayarları, lehine olan başka bir argümandır. OLAP -müşteriler. uygulandığında OLAP -sunucu bu kapasiteler kullanılmaz.

OLAP istemcilerinin diğer avantajları şunları içerir:

· Uygulama ve bakım maliyetleri OLAP -müşteri maliyetinden önemli ölçüde daha düşüktür OLAP sunucusu.

· kullanma OLAP -İstemci yerleşik makine ile ağ üzerinden veri aktarımı bir kez yapılır. Yaparak OLAP -işlemlerde yeni veri akışları oluşturulmaz.

5. Çalışma ilkeleri OLAP-müşteriler.

İstemci aracını kullanarak bir OLAP uygulaması oluşturma sürecini düşünün (Şekil 1).

Resim 1.ROLAP İstemci Aracını Kullanarak Bir OLAP Uygulaması Oluşturun

ROLAP istemcilerinin çalışma prensibi, arkasında kaynak verinin fiziksel yapısının gizlendiği semantik katmanın ön açıklamasıdır. Bu durumda, veri kaynakları şunlar olabilir: yerel tablolar, RDBMS. Desteklenen veri kaynaklarının listesi, ilgili yazılım ürünü tarafından belirlenir. Bundan sonra kullanıcı, küpler ve analitik arayüzler oluşturmak için konu alanı açısından anladığı nesneleri bağımsız olarak manipüle edebilir.

OLAP sunucu istemcisinin çalışma prensibi farklıdır. OLAP sunucusunda, küpler oluşturulurken, kullanıcı veritabanının fiziksel tanımlarını değiştirir. Bu, küpün kendisinde özel açıklamalar oluşturur. OLAP Sunucusu istemcisi yalnızca küp için yapılandırılır.

Semantik bir katman oluştururken, veri kaynakları - Satış ve Anlaşma tabloları - son kullanıcının anlayabileceği terimlerle açıklanır ve "Ürünler" ve "Anlaşmalar" haline dönüşür. "Ürünler" tablosundaki "Kimlik" alanı, "Kod" olarak ve "Ad" - "Ürün" vb. olarak yeniden adlandırılır.

Ardından bir Satış iş nesnesi oluşturulur. Bir iş nesnesi, temelinde çok boyutlu bir küpün oluşturulduğu düz bir tablodur. Bir iş nesnesi oluştururken, "Ürünler" ve "Anlaşmalar" tabloları, ürünün "Kod" alanıyla birleştirilir. Tabloların tüm alanlarının raporda görüntülenmesi gerekmeyeceğinden, iş nesnesi yalnızca "Kalem", "Tarih" ve "Miktar" alanlarını kullanır.

Örneğimizde, "Satış" iş nesnesine dayalı olarak, aylara göre mal satışlarına ilişkin bir rapor oluşturulmuştur.

Etkileşimli bir raporla çalışırken, kullanıcı aynı basit fare hareketleriyle filtreleme ve gruplama koşullarını ayarlayabilir. Bu noktada, ROLAP istemcisi önbellekteki verilere erişir. OLAP sunucusunun istemcisi, çok boyutlu veritabanına yeni bir sorgu oluşturur. Örneğin satış raporunda ürün filtresi uygulayarak ilgilendiğimiz ürünlerin satışı hakkında rapor alabilirsiniz.

Bir OLAP uygulaması için tüm ayarlar, özel bir meta veri deposunda, bir uygulamada veya çok boyutlu bir veritabanı sistemi deposunda saklanabilir. Uygulama, belirli yazılım ürününe bağlıdır.

Bu uygulamalara dahil edilen her şey, arayüzün standart bir görünümü, önceden tanımlanmış işlevler ve yapı ve az çok standart durumlar için hızlı düzeltmelerdir. Örneğin, finansal paketler popülerdir. Önceden oluşturulmuş finansal uygulamalar, profesyonellerin bir veri tabanı yapısı veya ortak formlar ve raporlar tasarlamak zorunda kalmadan tanıdık finansal araçları kullanmalarına olanak tanır.

İnternet yeni form müşteri. Ayrıca yeni teknolojilerin damgasını taşır; bir demet internet çözümleri genel olarak yetenekleri ve özel olarak bir OLAP çözümünün kalitesi açısından önemli ölçüde farklılık gösterir. İnternet üzerinden OLAP raporları oluşturmanın birçok avantajı vardır. En önemlisi, bilgiye erişim için özel bir yazılıma ihtiyaç olmamasıdır. Bu, şirkete çok fazla zaman ve para tasarrufu sağlar.

6. OLAP uygulama mimarisi seçimi.

Bir bilgi-analitik sistemi uygularken, bir OLAP uygulamasının mimarisini seçerken hata yapmamak önemlidir. On-Line Analytical Process teriminin harfi harfine çevirisi - "on-line analitik işleme" - genellikle sisteme giren verilerin hızlı bir şekilde analiz edilmesi anlamında tam anlamıyla alınır. Bu bir yanılsamadır - analizin verimliliği, sistemdeki verilerin güncellenmesinin gerçek zamanı ile hiçbir şekilde bağlantılı değildir. Bu özellik, OLAP sisteminin kullanıcı isteklerine yanıt verme süresini ifade eder. Aynı zamanda, örneğin depolardaki veriler günde bir kez güncelleniyorsa, analiz edilen veriler genellikle "dün için" bilgilerin bir anlık görüntüsüdür.

Bu bağlamda OLAP'ın "etkileşimli analitik işleme" olarak çevrilmesi daha doğrudur. OLAP sistemlerini düzenlenmiş raporların hazırlanmasına yönelik sistemlerden ayıran, verileri etkileşimli bir modda analiz etme yeteneğidir.

OLAP'ın atası E. Codd'un formülasyonundaki etkileşimli işlemenin bir başka özelliği de "verileri birden çok boyut açısından yani kurumsal analistler için en anlaşılır şekilde birleştirme, görüntüleme ve analiz etme" yeteneğidir. Codd'un kendisi için OLAP terimi, verileri kavramsal düzeyde - çok boyutlu - sunmanın son derece özel bir yolunu ifade eder. Fiziksel düzeyde, veriler ilişkisel veritabanlarında saklanabilir, ancak gerçekte OLAP araçları, verilerin bir hiperküp şeklinde düzenlendiği çok boyutlu veritabanlarıyla çalışma eğilimindedir (Şekil 1).

Resim 1. OLAP- küp (hiperküp, metaküp)

Aynı zamanda, bu verilerin alaka düzeyi, hiperküpün yeni verilerle doldurulduğu an tarafından belirlenir.

Çok boyutlu bir veri tabanının oluşum zamanının önemli ölçüde ona yüklenen veri miktarına bağlı olduğu açıktır, bu nedenle bu miktarı sınırlamak mantıklıdır. Ancak analiz olanaklarını nasıl daraltmamalı ve kullanıcıyı ilgili tüm bilgilere erişimden mahrum bırakmamalı? İki alternatif yol vardır: Analiz et sonra sorgula ("Önce analiz et - sonra ek bilgi talep et") ve Sorgula sonra analiz et ("Önce verileri sorgula - sonra analiz et").

İlk yolun takipçileri, genelleştirilmiş bilgilerin çok boyutlu bir veritabanına yüklenmesini önerir; örneğin, bölümler için aylık, üç aylık, yıllık sonuçlar. Verilerin rafine edilmesi gerekirse, kullanıcıdan örneğin belirli bir departman için günlere göre veya seçilen bir departmanın aylara ve çalışanlarına göre gerekli seçimi içeren bir ilişkisel veritabanı hakkında bir rapor oluşturması istenir.

İkinci yolun savunucuları, aksine, kullanıcının her şeyden önce analiz edeceği verilere karar vermesini ve onu bir mikroküpe - küçük, çok boyutlu bir veritabanına yüklemesini önerir. Her iki yaklaşım da kavramsal düzeyde farklılık gösterir ve avantaj ve dezavantajları vardır.

İkinci yaklaşımın avantajları, kullanıcının çok boyutlu bir rapor - "mikroküp" biçiminde aldığı bilgilerin "tazeliğini" içerir. Mikroküp, gerçek ilişkisel veritabanından az önce talep edilen bilgilere dayalı olarak oluşturulur. Bir mikroküp ile çalışmak etkileşimli bir modda gerçekleştirilir - bilgi dilimlerinin elde edilmesi ve bir mikroküp çerçevesinde detaylandırılması anında gerçekleştirilir. Diğer bir olumlu nokta, yapının tasarımının ve mikroküpün doldurulmasının, bir veritabanı yöneticisinin katılımı olmadan kullanıcı tarafından "anında" gerçekleştirilmesidir. Bununla birlikte, yaklaşım aynı zamanda ciddi eksikliklerden de muzdariptir. Kullanıcı büyük resmi görmez ve araştırmasının yönüne önceden karar vermelidir. Aksi takdirde, talep edilen mikroküp çok küçük olabilir ve ilgilenilen tüm verileri içermeyebilir ve kullanıcının yeni bir mikroküp, ardından yenisini, ardından bir başkasını ve bir başkasını istemesi gerekir. Daha sonra Sorgula analiz yaklaşımı, aynı şirketin BusinessObjects aracını uygular ve aletler platform Kontur şirketi Intersoft Lab.

Analiz et sonra sorgula yaklaşımı ile çok boyutlu bir veritabanına yüklenen veri miktarı oldukça fazla olabilir, doldurmanın kurallara göre yapılması gerekir ve çok zaman alabilir. Bununla birlikte, tüm bu eksiklikler, kullanıcı herhangi bir kombinasyonda neredeyse tüm gerekli verilere eriştiğinde daha sonra kendini amorti eder. İlişkisel veri tabanındaki orijinal verilere referans, yalnızca son çare olarak, örneğin belirli bir fatura hakkında ayrıntılı bilgiye ihtiyaç duyulduğunda gerçekleştirilir.

Tek bir çok boyutlu veritabanının çalışması, pratik olarak ona erişen kullanıcı sayısından etkilenmez. Sınır durumdaki mikroküp sayısının kullanıcı sayısıyla aynı oranda büyüyebildiği Sorgula sonra analiz et yaklaşımının aksine, yalnızca orada bulunan verileri okurlar.

Bu yaklaşımla, ilişkisel hizmetlere ek olarak çok boyutlu veritabanlarına da hizmet vermeye zorlanan BT hizmetleri üzerindeki yük artmaktadır. Çok boyutlu veritabanlarındaki verilerin zamanında otomatik olarak güncellenmesinden sorumlu olan bu hizmetlerdir.

"Analiz et sonra sorgula" yaklaşımının en belirgin temsilcileri Cognos'un PowerPlay ve Impromptu araçlarıdır.

Hem yaklaşımın hem de onu uygulayan aracın seçimi, öncelikle izlenen hedefe bağlıdır: her zaman bütçeden tasarruf etmekle son kullanıcı hizmetlerinin kalitesini iyileştirmek arasında denge kurmanız gerekir. Aynı zamanda, stratejik planda, bilgi ve analitik sistemlerin oluşturulmasının, otomasyon maliyetinden kaçınma değil, rekabet avantajı elde etme hedefini izlediği dikkate alınmalıdır. Örneğin, bir kurumsal bilgi ve analitik sistem, bir şirket hakkında gerekli, zamanında ve güvenilir bilgileri sağlayabilir; bunların yayınlanması, potansiyel yatırımcılar için bu şirketin şeffaflığını ve öngörülebilirliğini sağlayacak ve bu da kaçınılmaz olarak yatırım çekiciliği için bir koşul haline gelecektir.

7. OLAP teknolojilerinin uygulama alanları.

OLAP, çok faktörlü verileri analiz etme görevinin olduğu her yerde uygulanabilir. Genel olarak, en az bir tanımlayıcı sütuna (boyut) ve sayılara (ölçümler veya gerçekler) sahip bir sütuna sahip verileri içeren bir tablonuz varsa, bir OLAP aracı genellikle analiz etmek ve rapor oluşturmak için etkili bir araç olacaktır.

OLAP teknolojilerinin gerçek hayattan alınan bazı uygulama alanlarını ele alalım.

1. Satış.

Satış yapısının analizine dayanarak, yönetsel kararların alınması için gerekli konular çözülür: mal yelpazesinin değiştirilmesi, fiyatlar, mağazaların, şubelerin kapatılması ve açılması, bayilerle sözleşmelerin feshedilmesi ve imzalanması, reklam kampanyalarının yürütülmesi veya sonlandırılması vb.

2. Satın alma.

Görev, satış analizinin tam tersidir. Birçok işletme, tedarikçilerden bileşen ve malzeme satın alır. Tüccarlar yeniden satış için mal satın alırlar. Tedarik analizinde planlamadan planlamaya kadar pek çok olası görev vardır. Para geçmiş deneyimlere dayanarak, yöneticiler üzerinde kontrol tedarikçileri seçmek.

3. Fiyatlar.

Satın almaların analizi, piyasa fiyatlarının analizi ile birleşir. Bu analizin amacı maliyetleri optimize etmek, en avantajlı teklifleri seçmektir.

4. Pazarlama.

Pazarlama analizi ile, yalnızca hizmet alıcılarının veya müşteri-tüketicilerinin analiz alanını kastediyoruz. Bu analizin görevi, malların doğru konumlandırılması, hedeflenen reklamcılık için alıcı gruplarının belirlenmesi ve ürün yelpazesinin optimizasyonudur. Bu durumda OLAP'ın görevi, kullanıcıya veri analizi sırasında sezgisel olarak ortaya çıkan sorulara hızlı bir şekilde, düşünce hızında yanıt alması için bir araç vermektir.

5. Depo.

Depodaki stok bakiyelerinin yapısının mal türlerine, depolara göre analizi, malların raf ömrünün analizi, alıcılara göre sevkiyatın analizi ve kuruluşta depo muhasebesi varsa işletme için önemli olan diğer birçok analiz türü mümkündür.

6. Nakit akışı.

Bu, birçok okulu ve yöntemi olan bütün bir analiz alanıdır. OLAP teknolojisi, bu teknikleri uygulamak veya geliştirmek için bir araç olarak hizmet edebilir, ancak onların yerine geçemez. Nakit dışı ve nakit fonların nakit akışları, akışları optimize etmek, likiditeyi sağlamak vb. için ticari faaliyetler, karşı taraflar, para birimleri ve zaman bağlamında analiz edilir. Ölçümlerin bileşimi büyük ölçüde işletmenin, endüstrinin ve metodolojinin özelliklerine bağlıdır.

7. Bütçe.

OLAP teknolojilerinin en verimli uygulama alanlarından biri. Kompozisyonunda bütçe analizi için bir OLAP araç seti bulunmadan hiçbir modern bütçeleme sisteminin tamamlanmış sayılmaması boşuna değildir. Çoğu bütçe raporu, OLAP sistemleri temel alınarak kolayca oluşturulur. Raporlar aynı zamanda çok çeşitli soruları yanıtlar: giderlerin ve gelirlerin yapısının analizi, farklı departmanlardaki belirli kalemler için giderlerin karşılaştırılması, belirli kalemler için harcama dinamiklerinin ve eğilimlerinin analizi, maliyet analizi ve kâr.

8. Muhasebe hesapları.

Bir hesap numarasından oluşan ve gelen bakiyeleri, ciroları ve giden bakiyeleri içeren klasik bir bilanço, bir OLAP sisteminde mükemmel bir şekilde analiz edilebilir. Ayrıca, OLAP sistemi, çok şubeli bir organizasyonun konsolide bakiyelerini, aylık, üç aylık ve yıllık bakiyeleri, hesap hiyerarşisine göre toplu bakiyeleri, analitik özelliklere dayalı analitik bakiyeleri otomatik ve çok hızlı bir şekilde hesaplayabilir.

9. Finansal raporlama.

Teknolojik olarak oluşturulmuş bir raporlama sistemi, belirli raporlar elde etmek için çeşitli bölümlerde gruplandırılması ve özetlenmesi gereken tarih değerlerine sahip bir dizi adlandırılmış göstergeden başka bir şey değildir. Durum böyle olunca raporların görüntülenmesi ve yazdırılması en kolay ve en ucuz şekilde OLAP sistemlerinde uygulanmaktadır. Her halükarda, kuruluşun dahili raporlama sistemi eskisi kadar muhafazakar değildir ve rapor oluşturma ve çok boyutlu operasyonel analiz yetenekleri kazanma gibi teknik işlerden tasarruf etmek için yeniden tasarlanabilir.

10. Site trafiği.

İnternet sunucusu günlük dosyası doğası gereği çok boyutludur ve bu nedenle OLAP analizi için uygundur. Gerçekler şunlardır: ziyaret sayısı, isabet sayısı, sayfada geçirilen süre ve günlükte bulunan diğer bilgiler.

11. Üretim hacimleri.

Bu, istatistiksel analizin başka bir örneğidir. Böylece, yetiştirilen patateslerin, eritilmiş çeliğin, mamul malların hacimlerini analiz etmek mümkündür.

12. Sarf malzemelerinin tüketimi.

Soğutma tüketen onlarca atölyeden oluşan bir tesis düşünün, kızarma sıvıları, yağlar, paçavralar, zımpara kağıdı - yüzlerce sarf malzemesi. Doğru planlama ve maliyet optimizasyonu, sarf malzemelerinin gerçek tüketiminin kapsamlı bir analizini gerektirir.

13. Tesislerin kullanımı.

Başka bir istatistiksel analiz türü. Örnekler: sınıfların iş yükünün analizi, kiralanan binalar ve tesisler, konferans salonlarının kullanımı vb.

14. İşletmedeki personel cirosu.

İşletmedeki personel devir hızının şubeler, bölümler, meslekler, eğitim düzeyi, cinsiyet, yaş, zaman bağlamında analizi.

15. Yolcu taşımacılığı.

Sezona, varış noktasına, vagon türlerine (sınıflara), tren türlerine (uçak) göre satılan bilet sayısı ve miktarlarının analizi.

Bu liste OLAP kapsamı ile sınırlı değildir. - teknolojiler. Örneğin, teknolojiyi düşünün OLAP - Satış analizi.

8. Kullanım örneği OLAP -satış alanında analiz için teknolojiler.

OLAP için Çok Boyutlu Veri Görünümü Tasarlama -analiz, bir ölçüm haritasının oluşturulmasıyla başlar. Örneğin, satışları analiz ederken, bireysel pazar segmentlerini (gelişmekte olan, istikrarlı, büyük ve küçük müşteriler, yeni müşteri olasılığı vb.) belirlemek ve satış hacimlerini ürünlere, bölgelere, müşterilere, pazar segmentlerine, dağıtıma göre değerlendirmek yararlı olabilir. kanallar ve sipariş boyutları. Bu yönler, satışların çok boyutlu temsilinin - boyutlarının yapısı - koordinat ızgarasını oluşturur.

Herhangi bir işletmenin faaliyeti zaman içinde ilerlediğinden, analizde ortaya çıkan ilk soru, iş geliştirme dinamikleri sorunudur. Zaman ekseninin doğru organizasyonu, bu soruya niteliksel bir cevap sağlayacaktır. Genellikle zaman ekseni yıllara, çeyreklere ve aylara bölünür. Belki daha da fazla haftalara ve günlere bölünme. Zaman boyutunun yapısı, veri alma sıklığı dikkate alınarak oluşturulur; bilgi isteme sıklığına göre de belirlenebilir.

“Mal grubu” boyutu, satılan ürünlerin yapısını olabildiğince yansıtacak şekilde tasarlanmıştır. Aynı zamanda, bir yandan aşırı detaydan kaçınmak (grup sayısı görünür olmalıdır), diğer yandan önemli bir pazar segmentini kaçırmamak için belirli bir dengeyi korumak önemlidir.

"Müşteriler" boyutu, coğrafi bölgeye göre satış yapısını yansıtır. Her boyutun kendi hiyerarşileri olabilir, örneğin bu boyutta bir yapı olabilir: Ülkeler - Bölgeler - Şehirler - Müşteriler.

Departmanların performansını analiz etmek için kendi boyutunuzu oluşturmalısınız. Örneğin, iki hiyerarşi düzeyi ayırt edilebilir: "Alt Bölümler" boyutuna yansıtılması gereken departmanlar ve bunlara dahil olan departmanlar.

Aslında "Zaman", "Ürünler", "Müşteriler" boyutları, konu alanının alanını tam olarak tanımlar.

Ek olarak, bu alanı, örneğin değer cinsinden işlem hacmi aralıkları gibi hesaplanan özellikleri temel alarak koşullu alanlara bölmek yararlıdır. Daha sonra tüm iş, yürütüldüğü bir dizi maliyet aralığına bölünebilir. Bu örnekte kendinizi şu göstergelerle sınırlandırabilirsiniz: mal satış miktarı, satılan mal sayısı, gelir miktarı, işlem sayısı, müşteri sayısı, üreticilerden satın alma hacmi.

OLAP - analiz küpü şöyle görünecektir (Şekil 2):


Şekil 2.OLAP– satış hacmini analiz etmek için bir küp

OLAP açısından küp olarak adlandırılan tam olarak böyle bir üç boyutlu dizidir. Aslında, katı matematik açısından, böyle bir dizi her zaman bir küp olmayacaktır: gerçek bir küp için, tüm boyutlardaki öğe sayısı aynı olmalıdır, oysa OLAP küplerinde böyle bir sınırlama yoktur. Bir OLAP küpünün 3B olması gerekmez. Çözülmekte olan probleme bağlı olarak hem iki boyutlu hem de çok boyutlu olabilir. Ciddi OLAP ürünleri yaklaşık 20 boyut için tasarlanmıştır.Daha basit masaüstü uygulamaları yaklaşık 6 boyutu destekler.

Küpün tüm unsurları doldurulmamalıdır: Üçüncü çeyrekte Ürün 2'nin Müşteri 3'e satışı hakkında bilgi yoksa, karşılık gelen hücredeki değer belirlenmeyecektir.

Ancak küpün kendisi analiz için uygun değildir. Üç boyutlu bir küpü yeterince temsil etmek veya tasvir etmek hala mümkünse, o zaman altı veya on dokuz boyutlu işler çok daha kötü. Bu nedenle, sıradan iki boyutlu tablolar kullanılmadan önce çok boyutlu bir küpten çıkarılır. Bu işleme küpün "kesilmesi" denir. Analist, küpün boyutlarını ilgilendiği işaretlere göre alır ve "keser". Bu şekilde, analist küpün (raporun) iki boyutlu bir dilimini alır ve onunla çalışır. Raporun yapısı Şekil 3'te gösterilmiştir.

Figür 3Analitik rapor yapısı

OLAP küpümüzü keselim ve üçüncü çeyrek için bir satış raporu alalım, şöyle görünecek (Şekil 4).

Şekil 4Üçüncü Çeyrek Satış Raporu

Küpü diğer eksen boyunca kesebilir ve 2. ürün grubunun yıl içindeki satışları hakkında bir rapor alabilirsiniz (Şekil 5).

Şekil 5Ürün Satışları Üç Aylık Rapor 2

Benzer şekilde, müşteri 4 ile olan ilişkiyi analiz edebilirsiniz, Küpü etikete göre kesmek Müşteriler(Şek. 6)

Şekil 6Müşteriye mal tedariki hakkında rapor 4

Raporu aya göre detaylandırabilir veya müşterinin belirli bir şubesine mal tedariki hakkında konuşabilirsiniz.

Uzun yıllar boyunca bilgi teknolojisi, kurumsal işlemlerin işlenmesini desteklemek için sistemler oluşturmaya odaklandı. Bu tür sistemler görsel olarak hataya dayanıklı olmalı ve hızlı yanıt vermelidir. etkili çözüm Dağıtılmış bir ilişkisel veritabanı ortamına odaklanan OLTP sağlandı.

Bu alandaki daha yeni bir gelişme, bir istemci-sunucu mimarisinin eklenmesi olmuştur. OLTP uygulamaları geliştirmek için birçok araç yayınlanmıştır.

Veri erişimi genellikle hem OLTP uygulamaları hem de karar destek bilgi sistemleri tarafından gereklidir. Ne yazık ki, her iki istek türüne de hizmet vermeye çalışmak sorunlu olabilir. Bu nedenle, bazı şirketler veritabanını OLTP tipine ve OLAP tipine bölme yolunu seçmiştir.

OLAP (Çevrimiçi Analitik İşleme - çevrimiçi analitik işleme) kullanıcının sistemi sorgulamasını, analiz yapmasını vb. sağlayan bir bilgi işlemidir. çevrimiçi (çevrimiçi). Sonuçlar saniyeler içinde üretilir.

Öte yandan, bir OLTP sisteminde, büyük miktarda veri girilir girilmez işlenir.

OLAP sağlamak için, bir veri ambarı (veya çok boyutlu depolama) ve genellikle çok boyutlu yetenekler olmak üzere bir dizi araçla çalışmanız gerekir. Bu araçlar, sorgulama araçları, elektronik tablolar, veri madenciliği araçları, veri görselleştirme araçları vb. olabilir.

Çok sayıda yayında, OLAP kısaltması yalnızca verilerin çok boyutlu bir görünümünü değil, aynı zamanda verilerin kendisinin çok boyutlu bir veritabanında depolanmasını da ifade eder. Genel olarak konuşursak, bu doğru değildir, çünkü Codd'un kendisi ilişkisel veritabanlarının kurumsal verileri depolamak için en uygun teknoloji olduğunu, olduğunu ve olmaya devam edeceğini belirtir. İhtiyaç duyulan yeni veritabanı teknolojisi değil, mevcut DBMS'lerin işlevselliğini tamamlayan ve öngörüp otomatikleştirecek kadar esnek olan analiz araçlarıdır. farklı şekiller entelektüel analiz OLAP'ın doğasında var.

Codd'a göre, çok boyutlu bir kavramsal temsil, belirli veri kümelerinin analiz edilebildiği birkaç bağımsız boyuttan oluşan çoklu bir perspektiftir. Birden çok boyutta eşzamanlı analiz, çok değişkenli analiz olarak tanımlanır. Her boyut, bir dizi ardışık genelleştirme düzeyinden oluşan veri birleştirme yönergelerini içerir; burada her bir yüksek düzey, karşılık gelen boyut için daha büyük bir veri toplama derecesine karşılık gelir. Böylece Yüklenicinin boyutu, "işletme - bölüm - departman - çalışan" genelleme düzeylerinden oluşan konsolidasyon yönüne göre belirlenebilir. Zaman boyutu, iki konsolidasyon yönünü bile içerebilir - "yıl - çeyrek - ay - gün" ve "hafta - gün", çünkü aylara ve haftalara göre zaman sayımı uyumsuzdur. Bu durumda, ölçümlerin her biri için istenen bilgi ayrıntısı seviyesini keyfi olarak seçmek mümkün hale gelir. Alçalma işlemi, daha yüksek konsolidasyon seviyelerinden daha düşük olanlara doğru harekete karşılık gelir; Tersine, kaldırma işlemi daha düşük seviyelerden daha yüksek seviyelere geçmek anlamına gelir.

Codd, OLAP sınıfı bir yazılım ürününün karşılaması gereken 12 kural tanımladı. Bu kurallar:

2. Şeffaflık.

3. Kullanılabilirlik.

6. Ölçümlerin eşitliği.

Veri madenciliği.

Veri madenciliği (DIA) veya Veri Madenciliği, veritabanlarındaki bilgilerin keşfini, bilgi çıkarımını, veri madenciliğini, veri madenciliğini, veri örneği işlemeyi, veri temizlemeyi ve veri toplamayı tanımlamak için kullanılan bir terimdir; burada ilgili yazılımı kastediyoruz. Tüm bu işlemler otomatik olarak gerçekleştirilir ve programcı olmayanların bile hızlı sonuçlar almasına olanak tanır.

İstek, son kullanıcı tarafından muhtemelen doğal dilde yapılır. Sorgu SQL formatına dönüştürülür. SQL sorgusu, ağ üzerinden veritabanını veya veri ambarını yöneten DBMS'ye gider. DBMS, talebin cevabını bulur ve geri gönderir. Kullanıcı daha sonra sunumu veya raporu gereksinimlerine göre tasarlayabilir.

İş ve sosyal alanın hemen hemen her alanındaki birçok önemli karar, büyük ve karmaşık veri tabanlarının analizine dayanmaktadır. IAD bu durumlarda çok yardımcı olabilir.

Veri madenciliği yöntemleri, OLAP teknolojileri ve veri ambarı teknolojileri ile yakından ilişkilidir. Bu yüzden en iyi seçenek bunların uygulanması için entegre bir yaklaşımdır.

Mevcut veri ambarlarının yönetim kararlarına katkı sağlayabilmesi için bilgilerin analiste doğru biçimde sunulması, yani ambardan verilere erişmek ve verileri işlemek için araçlar geliştirmiş olması gerekir.

Çoğu zaman, karar vericiler tarafından doğrudan kullanım için oluşturulan bilgi-analitik sistemlerin kullanımı son derece kolaydır, ancak işlevsellik açısından ciddi şekilde sınırlıdır. Bu tür statik sistemlere Yönetici Bilgi Sistemleri denir. Önceden tanımlanmış sorgu kümeleri içerirler ve günlük bir genel bakış için yeterli olmakla birlikte, karar vermede ortaya çıkabilecek mevcut verilerle ilgili tüm soruları yanıtlayamazlar. Böyle bir sistemin çalışmasının sonuçları, kural olarak, analistin yeni bir dizi soruya sahip olduğu kapsamlı bir çalışmadan sonra çok sayfalı raporlardır. Bununla birlikte, böyle bir sistem tasarlanırken öngörülemeyen her yeni istek, önce resmi olarak tanımlanmalı, programcı tarafından kodlanmalı ve ancak daha sonra yürütülmelidir. Bu durumda bekleme süresi, her zaman kabul edilebilir olmayan saatler ve günler olabilir. Bu nedenle, çoğu bilgi ve analitik sistem müşterisinin aktif olarak mücadele ettiği istatistiksel karar desteği IS'nin dışsal basitliği, bir esneklik kaybına dönüşür.

Dinamik karar destek IS'leri ise analistlerden gelen ad hoc veri taleplerini işlemeye odaklanır. Analistlerin bu sistemlerle çalışması, etkileşimli bir istek oluşturma ve sonuçlarını inceleme dizisinden oluşur.

Ancak dinamik karar destek IS'leri yalnızca çevrimiçi analitik işleme (OLAP) alanında çalışamaz. Birikmiş verilere dayalı yönetim karar desteği, üç temel alanda gerçekleştirilebilir.

1. Ayrıntılı veri alanı. Bu, çoğu bilgi alma sisteminin kapsamıdır. Çoğu durumda, ilişkisel DBMS'ler burada ortaya çıkan zorlukların üstesinden gelmek için harika bir iş çıkarır. İlişkisel veri işleme dili için genel kabul gören standart SQL'dir. Ayrıntılı bilgi arama görevlerinde son kullanıcı arayüzü sağlayan bilgi erişim sistemleri, hem işlemsel sistemlerin ayrı veritabanlarında hem de ortak bir veri ambarında eklentiler olarak kullanılabilir.

2. Toplu göstergelerin kapsamı. Veri ambarında toplanan bilgilerin kapsamlı bir görünümü, genelleştirilmesi ve toplanması ve çok boyutlu analizi OLAP sistemlerinin görevleridir. Burada özel çok boyutlu DBMS'ye odaklanabilir veya ilişkisel teknolojiler çerçevesinde kalabilirsiniz. İkinci durumda, önceden birleştirilmiş veriler yıldız şeklindeki bir veritabanında toplanabilir veya bilgiler, ilişkisel bir veritabanının ayrıntılı tablolarının taranması sürecinde toplanabilir.

3. Kanunlar alanı. Fikri işleme, ana görevleri birikmiş bilgilerde işlevsel ve mantıksal kalıpları aramak, bulunan anormallikleri açıklayan ve/veya belirli süreçlerin gelişimini tahmin eden modeller ve kurallar oluşturmak olan veri madenciliği yöntemleriyle gerçekleştirilir.

Veri ambarı temelinde inşa edilen bilgi-analitik sistemin tam yapısı, Şek. 3.2. Belirli uygulamalarda, bu devrenin bireysel bileşenleri genellikle eksiktir.

Şekil 3.2. Kurumsal bilgilerin yapısı - analitik sistem.

Depo veri tabanının yapısı genellikle bilgilerin analizini mümkün olduğunca kolaylaştıracak şekilde tasarlanır. Veriler, farklı yönlerde (boyutlar olarak adlandırılır) uygun bir şekilde "düzenlenmelidir". Örneğin, bugün bir kullanıcı performanslarını karşılaştırmak için tedarikçiye göre parça sevkiyatlarının bir özetini görmek istiyor. Yarın, aynı kullanıcının, teslimatların dinamiklerini takip etmek için parça teslimat hacmindeki aylara göre değişikliklerin bir resmine ihtiyacı olacak. Veritabanının yapısı, bu tür analizleri desteklemeli ve ilgili verilerin çıkarılmasına izin vermelidir. verilen setölçümler.

Operasyonel analitik veri işleme, bilgiyi hiperkübik bir modelde düzenleme ilkesine dayanır. Daha önce ele alınan test veri tabanı için parça temini için en basit üç boyutlu veri küpü, Şek. 3.11. Hücrelerinin her biri bir "gerçeğe" karşılık gelir - örneğin, bir parçanın teslimat kapsamı. Küpün bir tarafında (tek boyut), küpün yansıttığı teslimatların yapıldığı aylar bulunur. İkinci boyut parça türleri, üçüncü boyut ise tedarikçilere karşılık gelmektedir. Her hücre, üç boyutun tamamında karşılık gelen değer kombinasyonu için teslimat miktarını içerir. Küpü doldururken, test veri tabanından her ayın teslimatları için değerlerin toplanmasının yapıldığına dikkat edilmelidir.


3.11. Parça Tedarik Analizi için Basitleştirilmiş Hypercube Varyantı

OLAP sınıfı sistemler, verilerin sunulma biçiminde farklılık gösterir.

Çok boyutlu OLAP (MOLAP) – bu sistemler, uygun erişim yöntemleri ile dinamik dizilere dayalı çok boyutlu bir veri yapısına dayanmaktadır. MOLAP, çok boyutlu DBMS'yi düzenlemek için patentli teknolojiler üzerinde uygulanmaktadır. Bu yaklaşımın avantajı, hesaplamaları hiperküp hücreler üzerinde gerçekleştirme kolaylığıdır, çünkü tüm ölçüm kombinasyonlarında karşılık gelen hücreler girilir (bir elektronik tabloda olduğu gibi). Bu tür sistemlerin klasik temsilcileri arasında Oracle Express, SAS Institute MDDB bulunur.

İlişkisel OLAP (ROLAP)– ilişkisel veritabanları üzerinden çok boyutlu analitik modelleri destekler. Bu sistem sınıfı Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP'ı içerir.

Masaüstü OLAP (Masaüstü OLAP)– yerel için çok boyutlu sorgular ve raporlar oluşturmak için araçlar bilgi sistemi(elektronik tablolar, düz dosyalar). Ayırt edilebilir aşağıdaki sistemler– İş Nesneleri, Cognos Power Play.

E.F. Codd, verilerin çok boyutlu kavramsal temsili, şeffaflık, erişilebilirlik, sağlam performans, istemci-sunucu mimarisi, boyut eşitliği, seyrek matris dinamik işleme, çok kullanıcılı destek, boyutlar arası sınırsız destek dahil olmak üzere bir OLAP sınıfı ürünün karşılaması gereken on iki kural tanımladı. operasyonlar, sezgisel veri manipülasyonu, esnek raporlama mekanizması, sınırsız sayıda boyut ve birleştirme seviyeleri.




En yaygın sınıf sistemleri ROLAP. düzenlemenize izin veriyorlar bilgi modeli herhangi bir yapının ilişkisel olarak eksiksiz bir depolaması veya özel bir data martı üzerinden.

Pirinç. 3.12. Parça Temini Analitik Mart Yıldız Diyagramı

Çoğu veri ambarı için, N boyutlu bir küpü modellemenin en etkili yolu bir "yıldız"dır. Şek. Şekil 3.11, bilgilerin dört boyutta (tedarikçi, parça, ay, yıl) konsolide edildiği parça tedarik analizi için bir hiperküp modelini göstermektedir. Yıldız şeması bir olgu tablosuna dayanmaktadır. Olgu tablosu, teslimat kapsamını belirten bir sütunun yanı sıra tüm boyut tabloları için yabancı anahtarları belirten sütunlar içerir. Her küp boyutu, olgu tablosuna referans olan bir değer tablosuyla temsil edilir. Referans ölçüm kitaplarının üzerindeki bilgilerin genelleştirme düzeylerini düzenlemek için kategorik girdiler düzenlenir (örneğin, "malzeme-detay", "şehir-tedarikçi").

Şekil 1'deki devrenin nedeni 3.12 bir "yıldız" olarak adlandırılır, oldukça açıktır. "Yıldızın" uçları boyut tablolarından oluşur ve bunların merkezde bulunan olgu tablosuna bağlantıları ışınları oluşturur. Bu veritabanı tasarımıyla, çoğu iş analizi sorgusu, bir veya daha fazla boyut tablosuyla merkezi bir olgu tablosunu birleştirir. Örneğin, 2004'teki tüm parçaların sevkiyatlarını aya göre almak için satıcıya göre ayrılmış bir sorgu şöyle görünür:

TOPLAM(DEĞER), TEDARİKÇİ.SUPPLIER_NAME, FACT.MONTH_ID SEÇİN

GERÇEKTEN, TEDARİKÇİ

NEREDE FACT.YEAR_ID=2004

VE FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

Şek. 3.13, belirli bir sorgu sonucunda oluşturulan raporun bir parçasını gösterir.

3.4 Analitik veri işleme yöntemleri

Mevcut veri ambarlarının yönetim kararlarının alınmasına katkıda bulunabilmesi için bilgilerin analiste doğru biçimde sunulması, yani ambardan verilere erişmek ve bunları işlemek için araçlar geliştirmiş olması gerekir.

Çoğu zaman, karar vericiler tarafından doğrudan kullanım beklentisiyle oluşturulan bilgi ve analitik sistemlerin kullanımı son derece kolay, ancak işlevsellik açısından ciddi şekilde sınırlıdır. Bu tür statik sistemlere Yönetici Bilgi Sistemleri (ISS) veya Yönetici Bilgi Sistemleri (EIS) denir. Pek çok istek içerirler ve günlük inceleme için yeterli olmakla birlikte, karar verirken ortaya çıkabilecek tüm soruları yanıtlayamazlar. Böyle bir sistemin işleyişinin sonucu, kural olarak, analistin yeni bir soru dizisine sahip olduğu dikkatli bir çalışmadan sonra çok sayfalı raporlardır. Bununla birlikte, böyle bir sistem tasarlanırken öngörülemeyen her yeni istek, önce resmi olarak tanımlanmalı, programcı tarafından kodlanmalı ve ancak daha sonra yürütülmelidir. Bu durumda bekleme süresi, her zaman kabul edilebilir olmayan saatler ve günler olabilir.

Çevrimiçi analitik işleme. Veya Çevrimiçi Analitik İşleme, OLAP, veri ambarlarını düzenlemenin önemli bir bileşenidir. OLAP kavramı, 1993 yılında Edgar Codd tarafından tanımlanmıştır ve çok boyutlu analiz uygulamaları için aşağıdaki gereksinimlere sahiptir:

– dahil olmak üzere verilerin çok boyutlu kavramsal temsili tam destek hiyerarşiler ve çoklu hiyerarşiler için (anahtar OLAP gereksinimi);

– kullanıcıya analiz sonuçlarını kabul edilebilir bir sürede (genellikle en fazla 5 sn), daha az ayrıntılı bir analiz pahasına da olsa sağlamak;

– belirli bir uygulamaya özgü herhangi bir mantıksal ve istatistiksel analizi gerçekleştirme ve bunu son kullanıcının erişebileceği bir biçimde kaydetme yeteneği;

– uygun kilitleme mekanizmaları ve yetkili erişim araçları desteği ile verilere çok kullanıcılı erişim;

- Hacmi ve depolama konumu ne olursa olsun, gerekli tüm bilgilere erişme yeteneği.

Bir OLAP sistemi birçok bileşenden oluşur. En yüksek sunum düzeyinde, sistem bir veri kaynağı, bir OLAP raporlama motoru, bir OLAP sunucusu ve bir istemci uygulama yeteneği sağlayan çok boyutlu bir veritabanı (MDB) içerir. Sistem, istemci-sunucu ilkesi üzerine kuruludur ve MDB sunucusuna uzak ve çok kullanıcılı erişim sağlar.

Bir OLAP sisteminin bileşenlerini düşünün.

kaynaklar. OLAP sistemlerinde kaynak, analiz için veri sağlayan sunucudur. OLAP ürününün kapsamına bağlı olarak, kaynak bir veri ambarı, genel verileri içeren devralınan bir veritabanı, bir dizi olabilir.

finansal verileri veya yukarıdakilerin herhangi bir kombinasyonunu birleştiren tablolar.

Bilgi deposu. İlk veriler toplanır ve veri ambarı oluşturma ilkelerine uygun olarak tasarlanmış bir depoya yerleştirilir. CD, ilişkisel bir veritabanıdır (RDB). Ana veri tablosu (olgu tablosu), istatistiksel bilgilerin toplandığı göstergelerin sayısal değerlerini içerir.

Çok boyutlu veritabanı Veri deposu, bir nesneler koleksiyonu olan çok boyutlu bir veritabanı için bilgi sağlayıcı olarak hizmet eder. Bu nesnelerin ana sınıfları boyutlar ve ölçülerdir. Boyutlar, örneğin zaman, bölgeler, kurum türü vb. verilerin dizine eklendiği değer kümelerini (parametreleri) içerir. Her boyut, veri ambarının karşılık gelen boyut tablolarındaki değerlerle doldurulur. Ölçüm seti, incelenen sürecin alanını belirler. Metrikler çok boyutlu veri küpleridir (hiperküpler). Hiperküp, göstergeyi oluşturan boyutların toplu toplamlarının yanı sıra verilerin kendisini içerir. Göstergeler MDB'nin ana içeriğini oluşturur ve olgu tablosuna göre doldurulur. Hiperküpün her ekseni boyunca veriler, farklı ayrıntı düzeylerini temsil eden bir hiyerarşi halinde düzenlenebilir. Bu, sonraki veri analizi sırasında veri sunumunun birleştirilmesinin veya iyileştirilmesinin gerçekleştirileceği hiyerarşik boyutlar oluşturmanıza olanak tanır. Hiyerarşik boyutun tipik bir örneği, bölgelere, bölgelere, mahallelere göre gruplandırılmış bölgesel nesnelerin bir listesidir.

Sunucu. OLAP sisteminin uygulama kısmı OLAP sunucusudur. Bu bileşen tüm işi yapar (sistem modeline bağlı olarak) ve aktif olarak erişilen tüm bilgileri depolar. Sunucu mimarisi farklı kavramlar tarafından yönetilir. Özellikle, OLAP ürünlerinin ana işlevsel özelliği, veri depolama için MDB veya RDB'nin kullanılmasıdır.

İstemci Uygulaması.Uygun şekilde yapılandırılmış ve MDB'de saklanan veriler, istemci uygulaması kullanılarak analiz için kullanılabilir. Kullanıcı fırsatı yakalar uzaktan erişim karmaşık sorgular formüle etme, raporlar oluşturma, keyfi veri alt kümeleri elde etme. Rapor almak, belirli ölçüm değerleri seçmek ve bir hiperküpün bir bölümünü oluşturmaktan ibarettir. Kesit, seçilen ölçüm değerleri ile belirlenir. Ölçümlerin geri kalanı için veriler özetlenmiştir.

OLAPistemcide ve sunucuda.Çok boyutlu veri analizi, koşullu olarak istemci ve sunucu OLAP araçlarına bölünebilen çeşitli araçlar kullanılarak gerçekleştirilebilir.

İstemci tarafı OLAP araçları (Microsoft'un Excel 2000'deki Pivot Tabloları veya Knosys'in ProClarity'si gibi), toplu verileri hesaplayan ve görüntüleyen uygulamalardır. Aynı zamanda, toplanan verilerin kendisi, böyle bir OLAP aracının adres alanı içindeki önbellekte bulunur.

Kaynak veriler bir masaüstü DBMS'de bulunuyorsa, toplu verilerin hesaplanması OLAP aracının kendisi tarafından gerçekleştirilir. İlk verilerin kaynağı bir sunucu DBMS ise, istemci OLAP araçlarının birçoğu sunucuya SQL sorguları gönderir ve sonuç olarak sunucuda hesaplanan toplu verileri alır.

Kural olarak, OLAP işlevselliği, istatistiksel veri işleme araçlarında ve bazı elektronik tablolarda uygulanır.

Birçok geliştirme aracı, en basit OLAP işlevselliğini (Borland Delphi ve Borland C++ Builder'daki Decision Cube bileşenleri gibi) uygulayan uygulamalar oluşturmanıza izin veren sınıf veya bileşen kitaplıkları içerir. Buna ek olarak, birçok şirket benzer işlevsellik sağlayan ActiveX denetimleri ve diğer kitaplıklar sunar.

İstemci OLAP araçları, kural olarak, az sayıda boyutla (genellikle altıdan fazla olmamak üzere) ve bu parametreler için az çeşitli değerlerle kullanılır - çünkü elde edilen toplu veriler, bu türlerin adres alanına sığmalıdır. bir araç ve boyutların sayısındaki artışla sayıları katlanarak artıyor.

Birçok OLAP istemci aracı, toplu veri önbelleğinin içeriğini bir dosya olarak kaydetmenize izin verir, böylece yeniden hesaplanmaları gerekmez. Bununla birlikte, bu fırsat genellikle toplu verileri başka kuruluşlara aktarmak veya yayınlamak üzere yabancılaştırmak için kullanılır.

Bir dosyada toplu verilerle bir önbellek kaydetme fikri, Daha fazla gelişme toplu verilerin depolanması ve değiştirilmesinin yanı sıra bunları içeren depolamanın bakımının ayrı bir uygulama veya işlem tarafından gerçekleştirildiği sunucu tarafı OLAP araçlarında (Oracle Express Server veya Microsoft OLAP Hizmetleri gibi). OLAP sunucusu. İstemci uygulamaları, bu tür çok boyutlu depolamayı talep edebilir ve yanıt olarak bazı verileri alabilir. Bazı istemci uygulamaları da bu tür depolar oluşturabilir veya bunları değişen kaynak verilerine göre güncelleyebilir.

İstemci OLAP araçlarına kıyasla sunucu OLAP araçlarını kullanmanın avantajları, masaüstü araçlara kıyasla sunucu DBMS kullanmanın avantajlarına benzer: sunucu araçlarının kullanılması durumunda, toplu verilerin hesaplanması ve depolanması sunucuda ve istemci uygulamasında gerçekleşir. yalnızca onlara yapılan sorguların sonuçlarını alır, bu da genel olarak ağ trafiğini, istek yürütme süresini ve istemci uygulaması tarafından tüketilen kaynak gereksinimlerini azaltır.

3.5 Çok boyutlu veri depolamanın teknik yönleri

OLAP uygulamalarında çok boyutluluk üç seviyeye ayrılabilir:

1. Çok Boyutlu Veri Görünümü– çok boyutlu görselleştirme ve veri işleme sağlayan son kullanıcı araçları; çok boyutlu temsil katmanı, verinin fiziksel yapısından soyutlar ve veriyi çok boyutlu olarak ele alır.

    Çok Boyutlu İşleme- çok boyutlu sorguları formüle etmek için bir araç (dil) (geleneksel ilişkisel SQL dili burada uygun değildir) ve böyle bir sorguyu işleyip yürütebilen bir işlemci.

    Çok boyutlu depolama– çok boyutlu sorguların verimli bir şekilde yürütülmesini sağlayan fiziksel veri organizasyonu araçları.

İlk iki düzey, tüm OLAP araçlarında zorunludur. Üçüncü seviye, yaygın olarak kullanılmasına rağmen gerekli değildir, çünkü çok boyutlu temsil için veriler sıradan ilişkisel yapılardan da elde edilebilir. Bu durumda çok boyutlu sorgu işlemcisi, çok boyutlu sorguları ilişkisel bir DBMS tarafından yürütülen SQL sorgularına çevirir.

Hem geleneksel hem de çok boyutlu herhangi bir veri ambarında, operasyonel sistemlerden alınan ayrıntılı verilerin yanı sıra, aylara göre satış hacimlerinin toplamları, ürün kategorileri vb. gibi birleştirilmiş göstergeler (toplam göstergeler) de depolanır. tek amacı sorgu yürütmeyi hızlandırmak. Sonuçta, bir yandan, kural olarak, depoda çok büyük miktarda veri birikir ve diğer yandan, çoğu durumda analistler ayrıntılı değil, genelleştirilmiş göstergelerle ilgilenir. Ve yıl için satış miktarını hesaplamak için her seferinde milyonlarca bireysel satışın toplanması gerekseydi, hız büyük olasılıkla kabul edilemez olurdu. Bu nedenle, verileri çok boyutlu bir veritabanına yüklerken, tüm toplam göstergeler veya bunların bir kısmı hesaplanır ve kaydedilir.

Bununla birlikte, toplu verilerin kullanılması dezavantajlarla doludur. Başlıca dezavantajları, depolanan bilgi miktarındaki artış (yeni boyutlar eklendiğinde, küpü oluşturan veri miktarı katlanarak artar) ve bunların yüklenmesi için geçen süredir. Üstelik bilgi hacmi onlarca hatta yüzlerce kat artabilir. Örneğin, yayınlanan standart testlerden birinde, 10 MB ham veri için tam toplama sayısı 2,4 GB gerektiriyordu, yani veriler 240 kat arttı!

Toplamları hesaplarken veri miktarındaki artış derecesi, küpün boyutlarının sayısına ve bu boyutların yapısına, yani boyutun farklı düzeylerindeki "ebeveyn" ve "çocuk" sayısının oranına bağlıdır. Agregaların depolanması sorununu çözmek, karmaşık şemalar, tüm olası toplamlardan uzakta hesaplanırken, sorgu yürütme performansında önemli bir artış elde etmeyi sağlar.

Hem ham hem de birleştirilmiş veriler,

ilişkisel veya çok boyutlu yapılarda. Bu bağlamda, şu anda çok boyutlu verileri depolamak için üç yöntem kullanılmaktadır:

MOLAP (Çok boyutlu OLAP) - kaynak ve birleştirilmiş veriler çok boyutlu bir veritabanında saklanır. Verileri çok boyutlu yapılarda depolamak, verileri çok boyutlu bir dizi olarak değiştirmenize olanak tanır, böylece toplam değerleri hesaplama hızı boyutların herhangi biri için aynıdır. Ancak bu durumda, çok boyutlu veri tabanı orijinal ilişkisel verileri tamamen içerdiğinden, çok boyutlu veri tabanı gereksizdir.

Bu sistemler tam bir OLAP işleme döngüsü sağlar. Sunucu bileşenine ek olarak kendi entegre istemci arayüzlerini içerirler veya kullanıcıyla iletişim kurmak için harici elektronik tablo programları kullanırlar.

ROLAP (İlişkisel OLAP) - orijinal veriler, orijinal olarak bulunduğu aynı ilişkisel veritabanında kalır. Toplu veriler, aynı veritabanında saklanmaları için özel olarak oluşturulan hizmet tablolarına yerleştirilir.

HOLAP (Hibrit OLAP) - Orijinal veriler, orijinal olarak bulunduğu aynı ilişkisel veritabanında kalırken, toplam veriler çok boyutlu bir veritabanında depolanır.

Bazı OLAP araçları, veri depolamayı yalnızca ilişkisel yapılarda, diğerleri ise yalnızca çok boyutlu yapılarda destekler. Ancak, modern OLAP sunucu araçlarının çoğu üç veri depolama yöntemini de destekler. Depolama yönteminin seçimi, kaynak verilerin hacmine ve yapısına, sorgu yürütme hızı gereksinimlerine ve OLAP küplerini güncelleme sıklığına bağlıdır.

3.6 Veri madenciliği (Verimadencilik)

Veri Madenciliği terimi, karar destek sistemleri için kümeleme, regresyon ve korelasyon analizi gibi çeşitli matematiksel ve istatistiksel algoritmalar aracılığıyla korelasyonları, eğilimleri ve ilişkileri arama sürecini ifade eder. Aynı zamanda, biriken bilgiler otomatik olarak bilgi olarak nitelendirilebilecek bilgilere genelleştirilir.

Modern Veri Madenciliği teknolojisinin temeli, veri alt örneklerinde bulunan kalıpları yansıtan ve sözde gizli bilgiyi oluşturan kalıp kavramıdır.

Modeller, bu alt örnekler hakkında herhangi bir önsel varsayım kullanmayan yöntemlerle aranır. Veri Madenciliğinin önemli bir özelliği, aranan örüntülerin standart olmaması ve açık olmamasıdır. Başka bir deyişle, Veri Madenciliği araçları, istatistiksel veri işleme araçlarından ve OLAP araçlarından, kullanıcıların varsaydığı ilişkileri kontrol etmek yerine

veriler arasında, mevcut verilere dayanarak, bu tür ilişkileri bağımsız olarak bulabilir ve bunların doğası hakkında hipotezler oluşturabilirler.

Genel olarak veri madenciliği (Veri Madenciliği) süreci üç aşamadan oluşur.

    kalıpların tanımlanması (ücretsiz arama);

    bilinmeyen değerleri tahmin etmek için ortaya çıkan kalıpları kullanma (tahmini modelleme);

    bulunan kalıplardaki anormallikleri tanımlamak ve yorumlamak için tasarlanmış istisna analizi.

Bazen, keşif ve kullanımları arasında bulunan kalıpların güvenilirliğini kontrol etmenin bir ara aşaması (doğrulama aşaması) açıkça seçilir.

Veri Madenciliği yöntemleri tarafından tanımlanan beş standart kalıp türü vardır:

1. Dernek aralarında örtülü olarak tanımlanmış bağlantıların olduğu kararlı nesne gruplarını seçmenize olanak tanır. Yüzde olarak ifade edilen tek bir öğenin veya öğe grubunun ortaya çıkma sıklığına yaygınlık denir. Düşük yaygınlık oranı (yüzdenin binde birinden az), böyle bir ilişkinin anlamlı olmadığını düşündürür. Dernekler kural olarak yazılır: A=> B, Nerede A - paket, İÇİNDE - sonuçlar. Ortaya çıkan her bir birliktelik kuralının önemini belirlemek için, güven adı verilen bir değerin hesaplanması gerekir. Aİle İÇİNDE(veya ilişki A ve B). Güven, ne sıklıkta ne zaman olduğunu gösterir A görünür İÇİNDE.Örneğin, eğer d(A/B)\u003d %20, bu, bir ürün satın alırken A her beşinci durumda bir ürün de satın alınır İÇİNDE.

İlişkilendirme uygulamasının tipik bir örneği, satın alma yapısının analizidir. Örneğin bir süpermarkette anket yaptığınızda patates cipsi alanların %65'inin aynı zamanda Coca-Cola da içtiğini ve böyle bir sette indirim varsa %85 oranında kola aldıklarını görebilirsiniz. Bu tür sonuçlar pazarlama stratejilerinin oluşturulmasında değerlidir.

2. Tutarlılık - zaman içinde ilişkileri belirleme yöntemidir. Bu durumda, belirli olay gruplarının sıralı oluşumunu açıklayan kurallar tanımlanır. Bu tür kurallar senaryo oluşturmak için gereklidir. Ek olarak, örneğin belirli bir ürünün müteakip satışlarına yol açabilecek tipik bir önceki satış seti oluşturmak için kullanılabilirler.

3.Sınıflandırma - genelleme aracı Tek nesneleri dikkate almaktan, bazı nesne koleksiyonlarını karakterize eden ve bu koleksiyonlara (sınıflara) ait nesneleri tanımak için yeterli olan genelleştirilmiş kavramlara geçmenizi sağlar. Kavram oluşturma sürecinin özü, sınıflara özgü kalıpları bulmaktır. Nesneleri tanımlamak için birçok farklı özellik (nitelik) kullanılır. Gösterge niteliğindeki açıklamalara göre kavram oluşturma sorunu, M.M. Bongart. Çözümü, iki ana prosedürün uygulanmasına dayanmaktadır: eğitim ve doğrulama. Eğitim prosedürlerinde, nesnelerin eğitim setinin işlenmesine dayalı olarak bir sınıflandırma kuralı oluşturulur. Doğrulama prosedürü (inceleme), yeni bir (inceleme) örneğinden nesneleri tanımak için elde edilen sınıflandırma kuralının kullanılmasından oluşur. Test sonuçları tatmin edici bulunursa, öğrenme süreci sona erer, aksi takdirde sınıflandırma kuralı, tekrarlanan öğrenme sürecinde rafine edilir.

4. Kümeleme - bu, veritabanındaki bilgilerin (kayıtların) gruplara (kümeler) veya bu grupların eşzamanlı tanımıyla bölümlere dağıtılmasıdır. Sınıflandırmanın aksine, buradaki analiz sınıfların önceden belirlenmesini gerektirmez.

5. Zaman serisi tahmini incelenmekte olan nesnelerin niteliklerindeki eğilimlerin zaman içinde belirlenmesi için bir araçtır. Zaman serilerinin davranışının analizi, çalışılan özelliklerin değerlerini tahmin etmenizi sağlar.

Bu tür problemlerin çözümü için Veri Madenciliğinin çeşitli yöntem ve algoritmaları kullanılmaktadır. Veri Madenciliğinin istatistik, bilgi teorisi, makine öğrenmesi, veri tabanı teorisi gibi disiplinlerin kesiştiği noktada geliştiği ve gelişmekte olduğu göz önüne alındığında, Veri Madenciliği algoritmalarının ve yöntemlerinin çoğunun çeşitli yöntemlere dayalı olarak geliştirilmiş olması oldukça doğaldır. bu disiplinlerden

Mevcut veri madenciliği yöntemlerinin çeşitliliğinden aşağıdakiler ayırt edilebilir:

    regresyon, dağılım ve korelasyon analizi(çoğu modern istatistik paketinde, özellikle SAS Enstitüsü, StatSoft, vb. ürünlerinde uygulanır);

    analiz yöntemleri ampirik modellere dayalı belirli bir konu alanında (genellikle, örneğin ucuz finansal analiz araçlarında kullanılır);

    sinir ağı algoritmaları- karmaşık bağımlılıkları yeniden üretmenize izin veren süreçleri ve olayları taklit etme yöntemi. Yöntem, basitleştirilmiş bir biyolojik beyin modelinin kullanımına dayanmaktadır ve ilk parametrelerin, "nöronlar" arasındaki mevcut bağlantılara ve tüm ağın tepkisine göre dönüştürülen sinyaller olarak kabul edilmesi gerçeğinde yatmaktadır. ilk verilere, analizden çıkan cevap olarak kabul edilir. Bu durumda bağlantılar, hem orijinal verileri hem de doğru cevapları içeren büyük bir örneklem yoluyla ağ öğrenimi kullanılarak oluşturulur. Sinir ağları, sınıflandırma problemlerini çözmek için yaygın olarak kullanılır;

    Bulanık mantıkçeşitli dilsel değişkenlerle temsil edilebilen bulanık doğruluk değerlerine sahip verileri işlemek için kullanılır. Bulanık bilgi temsili, örneğin XpertRule Miner sisteminde (Attar Software Ltd., İngiltere) ve ayrıca AIS, NeuFuz, vb.'de sınıflandırma ve tahmin problemlerini çözmek için yaygın olarak kullanılır;

    tümevarımsal çıkarımlar veritabanında saklanan gerçeklerin genellemelerini elde etmenize izin verir. Tümevarımsal öğrenme sürecinde, hipotez sağlayan bir uzman katılabilir. Bu yönteme denetimli öğrenme denir. Genelleme kurallarının araştırılması, otomatik olarak hipotezler üretilerek öğretmen olmadan yapılabilir. Modern yazılım araçları, kural olarak, her iki yöntem birleştirilir ve hipotezleri test etmek için istatistiksel yöntemler kullanılır. Endüktif müşteri adaylarını kullanan bir sistem örneği, Attar Software Ltd. tarafından geliştirilen XpertRule Miner'dır. (Büyük Britanya);

    dayalı muhakeme benzer durumlar("en yakın komşu" yöntemi) (Vaka tabanlı akıl yürütme - CBR), açıklamaları belirli bir duruma bir dizi özellik açısından benzer olan durumların veritabanında aranmasına dayanır. Analoji ilkesi, benzer durumların sonuçlarının da birbirine yakın olacağını öne sürer. Bu yaklaşımın dezavantajı, önceki deneyimleri genelleyen herhangi bir model veya kural oluşturmamasıdır. Ek olarak, çıkarsanan sonuçların güvenilirliği, tümevarımsal çıkarım süreçlerinde olduğu gibi, durumların tanımının tamlığına bağlıdır. CBR kullanan sistemlerin örnekleri şunlardır: KATE Tools (Acknosoft, Fransa), Pattern Recognition Workbench (Unica, ABD);

    Karar ağaçları- bir problemi, veriyi sınıflandırmaya veya kararların sonuçlarını analiz etmeye izin veren üretim kurallarına karşılık gelen bir ağaç grafiği biçiminde yapılandırma yöntemi. Bu yöntem, eğer çok fazla yoksa, sınıflandırma kuralları sisteminin görsel bir temsilini verir. Basit görevler, bu yöntemle sinir ağlarını kullanmaktan çok daha hızlı çözülür. Karmaşık problemler ve bazı veri türleri için karar ağaçları uygun olmayabilir. Ek olarak, bu yöntem önem sorunu ile karakterize edilir. Hiyerarşik veri kümelemenin sonuçlarından biri, birçok özel durum için çok sayıda eğitim örneğinin olmaması ve bu nedenle sınıflandırmanın güvenilir olarak kabul edilememesidir. Karar ağacı yöntemleri, C5.0 (RuleQuest, Avustralya), Clementine (Integral Solutions, BK), SIPINA (Lyon Üniversitesi, Fransa), IDIS (Information Discovery, ABD);

    evrimsel programlama– arama sürecinde değiştirilen, başlangıçta belirtilen algoritmaya dayalı olarak, verilerin karşılıklı bağımlılığını ifade eden bir algoritmanın aranması ve oluşturulması; bazen karşılıklı bağımlılık araması, herhangi bir belirli işlev türü arasında gerçekleştirilir (örneğin, polinomlar);

sınırlı arama algoritmaları, veri alt gruplarında basit mantıksal olayların kombinasyonlarını hesaplama.

3.7 EntegrasyonOLAPVeVerimadencilik

Çevrimiçi analitik işleme (OLAP) ve veri madenciliği (Veri Madenciliği), karar destek sürecinin iki bileşenidir. Ancak günümüzde çoğu OLAP sistemi yalnızca çok boyutlu verilere erişim sağlamaya odaklanmaktadır ve kalıplar alanında çalışan çoğu veri madenciliği aracı tek boyutlu veri perspektifleriyle ilgilenir. Karar destek sistemleri için veri işleme verimliliğini artırmak için bu iki analiz türü birleştirilmelidir.

Bileşik terim "OLAP Veri Madenciliği" (çok boyutlu veri madenciliği) şimdi böyle bir kombinasyona atıfta bulunmak için ortaya çıkıyor.

"OLAP Veri Madenciliği" oluşturmanın üç ana yolu vardır:

    Küpleme sonra madencilik. Entelektüel analiz gerçekleştirme yeteneği, çok boyutlu bir kavramsal temsile yönelik bir sorgulamanın herhangi bir sonucu üzerinde, yani göstergelerin hiperküpünün herhangi bir projeksiyonunun herhangi bir parçası üzerinde sağlanmalıdır.

    Madencilik, sonra küpleme. Bir depodan alınan veriler gibi, madencilik sonuçları da müteakip çok boyutlu analizler için hiperkübik biçimde sunulmalıdır.

    Madencilik yaparken küpleme. Bu esnek entegrasyon yöntemi, genelleme seviyeleri arasındaki çok boyutlu bir analizin (geçiş), yeni bir hiperküp parçasının çıkarılması vb.)

    11. Sınıf [Metin... onlara Nasıl Parça Tümü sistemler ... doçent ... Cheboksary, 2009. Sayı 10. S. 44 -49 ... . Yazarlar- derleyiciler: N. ... özetlerdersler, ...

  • Öğretim yardımı

    ... dersler. Hazırlık dersler matematik. yazı soyutdersler dersler. kullanım bilgiteknolojiler ...

  • I k kondaurova s ​​​​v lebedev geleceğin matematik öğretmeninin araştırma faaliyetleri ilköğretim matematiğinde yaratıcı görevler ve öğretim yöntemleri

    Öğretim yardımı

    ... dersler. Hazırlık dersler matematik. yazı soyutdersler. Görsel yardımcıların hazırlanması. Okuma tekniği dersler. kullanım bilgiteknolojiler ...

  • İZLEME MEDYALARI Mesleki eğitimin modernizasyonu Mart - Ağustos 2011

    Özet

    ... 11 .08.2011 RNIMU'DA "Ölü Canlar-2" onlara ... 3,11 -3,44 . ... halk dersler liderler... Cheboksary... ve karalama özetler kitle - ... bilgilendirmesistemler Ve teknolojiler. ... sistem eğitim diyor doçent ... derleyiciler ... parçalar gerçek içerik ...

OLAP (Çevrimiçi Analitik İşleme - çevrimiçi analitik işleme), kullanıcının sistemi sorgulamasına, analiz yapmasına vb. izin veren bir bilgi işlemidir. çevrimiçi (çevrimiçi). Sonuçlar saniyeler içinde üretilir.

OLAP sistemleri son kullanıcılar için, OLTP sistemleri ise profesyonel kullanıcılar DIR-DİR. OLAP, sorgu oluşturma, ad hoc raporları sorgulama, istatistiksel analiz gerçekleştirme ve multimedya uygulamaları oluşturma gibi etkinlikler sağlar.

OLAP sağlamak için, bir veri ambarı (veya çok boyutlu depolama) ve genellikle çok boyutlu yeteneklere sahip bir araç seti ile çalışmanız gerekir. Bu araçlar, sorgulama araçları, elektronik tablolar, veri madenciliği araçları, veri görselleştirme araçları vb. olabilir.

OLAP kavramı, çok boyutlu veri gösterimi ilkesine dayanmaktadır. E. Codd, ilişkisel modelin eksikliklerini ele almış, her şeyden önce, verileri çoklu boyutlar açısından, yani kurumsal analistlerin anlayabileceği şekilde birleştirmenin, incelemenin ve analiz etmenin imkansızlığına işaret etmiş ve ilişkisel VTYS'nin işlevselliğini artıran ve özelliklerinden biri olarak çok boyutlu analizi içeren OLAP sistemleri için genel gereksinimler.

OLAP sınıfı bir yazılım ürününün karşılaması gereken 12 kural. Bu kurallar:

1. Verilerin çok boyutlu kavramsal gösterimi.

2. Şeffaflık.

3. Kullanılabilirlik.

4. İstikrarlı performans.

5. İstemci - sunucu mimarisi.

6. Ölçümlerin eşitliği.

7. Seyrek matrislerin dinamik işlenmesi.

8. Çok oyunculu modu destekleyin.

9. Boyutlar arası işlemler için sınırsız destek.

10. Sezgisel veri işleme.

11. Esnek raporlama mekanizması.

12. Sınırsız sayıda ölçüm ve toplama seviyeleri.

OLAP'ın gerçek tanımı olarak hizmet eden bu gereksinimler kümesi bir öneri olarak değerlendirilmeli ve tüm gereksinimlere ideal olarak tam uyum sağlamak için bireysel ürünler yaklaşıklık derecesine göre değerlendirilmelidir.


Veri madenciliği (Veri Madenciliği) ve bilgi (Bilgi Madenciliği). Büyük hacimli verilerin yönetimi ve analizi ( Büyük veri). İş zekası sistemleri (Business Intelligence, BI).

Veri madenciliği (DMA), veri görselleştirme yöntemlerinin uygulanmasının sonuçlarını kullanan matematiksel yöntemlerin ve algoritmaların (optimizasyon yöntemleri, genetik algoritmalar, örüntü tanıma, istatistiksel yöntemler, Veri Madenciliği vb.) aktif olarak kullanılması ile veri analizi için kullanılan genel bir terimdir.

Genel olarak, IAD süreci üç aşamadan oluşur:

1) kalıpların tanımlanması (ücretsiz arama);

2) bilinmeyen değerleri tahmin etmek için ortaya çıkan kalıpları kullanmak (tahmin);

3) bulunan kalıplardaki anormallikleri tanımlamak ve yorumlamak için istisnaların analizi.

Bazen, bulunan modellerin güvenilirliğini kontrol etmek için bunların bulunması ve kullanılması arasında bir ara aşama (doğrulama aşaması) vardır.

İlk verilerle çalışma ilkesine göre tüm IAD yöntemleri iki gruba ayrılır:

Kullanım Örneği Akıl Yürütme Yöntemleri - Ham veriler açık, ayrıntılı biçimde depolanabilir ve doğrudan tahmin ve/veya istisna analizi için kullanılabilir. Bu yöntem grubunun dezavantajı, büyük miktarda veri üzerinde kullanımlarının karmaşıklığıdır.

Birincil verilerden bilgi çıkarmayı ve onu, biçimi belirli bir yönteme bağlı olan bazı resmi yapılara dönüştürmeyi gerektiren biçimlendirilmiş kalıpları tanımlama ve kullanma yöntemleri.

Veri Madenciliği (DM), insan faaliyetinin çeşitli alanlarında karar vermek için gerekli olan ham verilerde daha önce bilinmeyen önemsiz olmayan, pratik olarak yararlı ve erişilebilir bilgileri keşfetme teknolojisidir. Veri Madenciliğinde kullanılan algoritmalar, daha önce bu yöntemlerin geniş pratik uygulamasında sınırlayıcı bir faktör olan çok sayıda hesaplama gerektirir, ancak modern işlemcilerin performansının artması bu sorunun ciddiyetini ortadan kaldırmıştır.

İş Zekası pazarı 5 sektörden oluşmaktadır:

1. OLAP ürünleri;

2. Veri madenciliği araçları;

3. Veri ambarları ve veri pazarları oluşturmak için araçlar (Veri Ambarı);

4. Yönetim bilgi sistemleri ve uygulamaları;

5. Sorgulama ve raporlama için son kullanıcı araçları.

Şu anda kurumsal BI platformlarının liderleri arasında MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute ve diğerleri bulunmaktadır (Ek B, bazı işlevsellik Bi sistemleri).

Modern donanım ve yazılım geliştirme düzeyi, bir süredir çeşitli yönetim düzeylerinde operasyonel bilgi veritabanlarının korunmasını mümkün kılmıştır. Sanayi kuruluşları, şirketler, departman yapıları, kamu kurumları ve idareler faaliyetlerini yürütürken büyük miktarda veri biriktirmiştir. Temelinde gizli eğilimleri belirleyebileceğiniz, bir geliştirme stratejisi oluşturabileceğiniz ve yeni çözümler bulabileceğiniz yararlı analitik bilgileri çıkarmak için büyük bir potansiyel içerirler.

Son yıllarda, dünyada kurumsal verileri depolamak ve analiz etmek için bir dizi yeni konsept şekillendi:

1) Veri Ambarları veya Veri Ambarları (Veri Ambarı)

2) Çevrimiçi analitik işleme (Çevrimiçi Analitik İşleme, OLAP)

3) Veri madenciliği - IAD (Veri Madenciliği)

OLAP analitik veri işleme sistemleri, belirli bir süre boyunca birikmiş geçmiş verilerin istatistiksel olarak işlenmesini gerektiren daha karmaşık sorguların yürütülmesine odaklanan karar destek sistemleridir. Satış, yönetim amaçlı pazarlama, sözde Veri Madenciliği - veri madenciliği, yani. kayıtların anlamsal anlamını bulmadan anormallikleri ve eğilimleri bulmak için bir veritabanındaki bilgileri analiz etmenin bir yolu.

OLAP temelinde inşa edilen analitik sistemler, yapay zeka yöntemlerine dayalı bilgi işleme araçlarını ve grafiksel veri sunum araçlarını içerir. Bu sistemler, büyük miktarda tarihsel veri tarafından belirlenir ve bunlardan anlamlı bilgiler çıkarmanıza olanak tanır, örn. verilerden bilgi edinin.

İşleme verimliliği, güçlü çok işlemcili teknoloji, karmaşık analiz yöntemleri, özel veri depoları kullanılarak elde edilir.

İlişkisel veritabanları, varlıkları genellikle iyi normalleştirilmiş ayrı tablolarda saklar. Bu yapı için yararlıdır operasyon üsleri veri (OLTP sistemi), ancak karmaşık çoklu tablo sorguları nispeten yavaştır. Değiştirmek yerine sorgulamak için daha iyi bir model, uzamsal bir veritabanıdır.

Bir OLAP sistemi, ilişkisel bir veritabanının anlık görüntüsünü alır ve onu sorgular için uzamsal bir modelde yapılandırır. OLAP'taki sorgular için talep edilen işlem süresi, ilişkisel bir veritabanındaki benzer sorguların yaklaşık %0,1'idir.

Üretim verilerinden oluşturulan bir OLAP yapısına OLAP küpü denir. Yıldız şeması kullanılarak tabloların birleştirilmesinden bir küp oluşturulur. "Yıldız"ın ortasında, sorguların yapıldığı temel olguları içeren bir olgu tablosu yer alır. Boyutları olan birden çok tablo bir olgu tablosuna eklenir. Bu tablolar, birleştirilmiş ilişkisel verilerin nasıl analiz edilebileceğini gösterir. Olası toplamaların sayısı, orijinal verilerin hiyerarşik olarak görüntülenebileceği yolların sayısına göre belirlenir.

Verilen sistem sınıfları (OLAP ve OLTP) bir DBMS kullanımına dayalıdır, ancak sorgu türleri çok farklıdır. OLAP mekanizması, günümüzün en popüler veri analiz yöntemlerinden biridir. Bu sorunu çözmek için iki ana yaklaşım vardır. Bunlardan ilki, mekanizmanın sunucu tarafında çok boyutlu bir veritabanı kullanılarak uygulanması olan Çok Boyutlu OLAP (MOLAP) olarak adlandırılır ve ikinci İlişkisel OLAP (ROLAP) - ilişkisel bir DBMS'ye yönelik SQL sorgularına dayalı olarak anında küpler oluşturmaktır. Bu yaklaşımların her birinin kendi avantajları ve dezavantajları vardır. Masaüstü OLAP sisteminin genel şeması Şek.

İşin algoritması aşağıdaki gibidir:

1) düz bir tablo biçiminde veya bir SQL sorgusu yürütmenin sonucu olarak veri elde etmek;

2) verileri önbelleğe almak ve bunları çok boyutlu bir küpe dönüştürmek;

3) oluşturulan küpü bir çapraz tablo veya grafik vb. kullanarak görüntüleme.

Genel olarak, bir küpe isteğe bağlı sayıda eşleme bağlanabilir. OLAP sistemlerinde kullanılan görüntüler çoğunlukla iki türdendir: çapraz tablolar ve çizelgeler.

Yıldız diyagramı. Buradaki fikir, her boyut için tablolar olması ve tüm gerçeklerin, bireysel boyutların anahtarlarından oluşan çoklu bir anahtar tarafından dizine eklenmiş tek bir tabloya yerleştirilmesidir. Yıldız şemasının her bir ışını, Codd'un terminolojisine göre, karşılık gelen boyut boyunca veri birleştirme yönünü belirler.

Çok düzeyli ölçümlere sahip karmaşık görevlerde, yıldız şeması uzantılarına - takımyıldız şeması (gerçek takımyıldız şeması) ve kar tanesi şemasına (kar tanesi şeması) atıfta bulunmak mantıklıdır. Bu durumlarda, farklı boyutlardaki özetleme düzeylerinin olası kombinasyonları için ayrı olgu tabloları oluşturulur. Bu, daha iyi performans sağlar, ancak genellikle çok sayıda olgu tablosu içeren veritabanının yapısında fazlalık verilere ve önemli ölçüde karmaşıklığa yol açar.

takımyıldız diyagramı

3.4 Analitik veri işleme yöntemleri

Mevcut veri ambarlarının yönetim kararlarının alınmasına katkıda bulunabilmesi için bilgilerin analiste doğru biçimde sunulması, yani ambardan verilere erişmek ve bunları işlemek için araçlar geliştirmiş olması gerekir.

Çoğu zaman, karar vericiler tarafından doğrudan kullanım beklentisiyle oluşturulan bilgi ve analitik sistemlerin kullanımı son derece kolay, ancak işlevsellik açısından ciddi şekilde sınırlıdır. Bu tür statik sistemlere Yönetici Bilgi Sistemleri (ISS) veya Yönetici Bilgi Sistemleri (EIS) denir. Pek çok istek içerirler ve günlük inceleme için yeterli olmakla birlikte, karar verirken ortaya çıkabilecek tüm soruları yanıtlayamazlar. Böyle bir sistemin işleyişinin sonucu, kural olarak, analistin yeni bir soru dizisine sahip olduğu dikkatli bir çalışmadan sonra çok sayfalı raporlardır. Bununla birlikte, böyle bir sistem tasarlanırken öngörülemeyen her yeni istek, önce resmi olarak tanımlanmalı, programcı tarafından kodlanmalı ve ancak daha sonra yürütülmelidir. Bu durumda bekleme süresi, her zaman kabul edilebilir olmayan saatler ve günler olabilir.

Çevrimiçi analitik işleme. Veya Çevrimiçi Analitik İşleme, OLAP, veri ambarlarını düzenlemenin önemli bir bileşenidir. OLAP kavramı, 1993 yılında Edgar Codd tarafından tanımlanmıştır ve çok boyutlu analiz uygulamaları için aşağıdaki gereksinimlere sahiptir:

– hiyerarşiler ve çoklu hiyerarşiler için tam destek dahil olmak üzere verilerin çok boyutlu kavramsal temsili (anahtar OLAP gereksinimi);

– kullanıcıya analiz sonuçlarını kabul edilebilir bir sürede (genellikle en fazla 5 sn), daha az ayrıntılı bir analiz pahasına da olsa sağlamak;

– belirli bir uygulamaya özgü herhangi bir mantıksal ve istatistiksel analizi gerçekleştirme ve bunu son kullanıcının erişebileceği bir biçimde kaydetme yeteneği;

– uygun kilitleme mekanizmaları ve yetkili erişim araçları desteği ile verilere çok kullanıcılı erişim;

- Hacmi ve depolama konumu ne olursa olsun, gerekli tüm bilgilere erişme yeteneği.

Bir OLAP sistemi birçok bileşenden oluşur. En yüksek sunum düzeyinde, sistem bir veri kaynağı, bir OLAP raporlama motoru, bir OLAP sunucusu ve bir istemci uygulama yeteneği sağlayan çok boyutlu bir veritabanı (MDB) içerir. Sistem, istemci-sunucu ilkesi üzerine kuruludur ve MDB sunucusuna uzak ve çok kullanıcılı erişim sağlar.

Bir OLAP sisteminin bileşenlerini düşünün.

kaynaklar. OLAP sistemlerinde kaynak, analiz için veri sağlayan sunucudur. OLAP ürününün kapsamına bağlı olarak, kaynak bir veri ambarı, genel verileri içeren devralınan bir veritabanı, bir dizi olabilir.

finansal verileri veya yukarıdakilerin herhangi bir kombinasyonunu birleştiren tablolar.

Bilgi deposu. İlk veriler toplanır ve veri ambarı oluşturma ilkelerine uygun olarak tasarlanmış bir depoya yerleştirilir. CD, ilişkisel bir veritabanıdır (RDB). Ana veri tablosu (olgu tablosu), istatistiksel bilgilerin toplandığı göstergelerin sayısal değerlerini içerir.

Çok boyutlu veritabanı Veri deposu, bir nesneler koleksiyonu olan çok boyutlu bir veritabanı için bilgi sağlayıcı olarak hizmet eder. Bu nesnelerin ana sınıfları boyutlar ve ölçülerdir. Boyutlar, örneğin zaman, bölgeler, kurum türü vb. verilerin dizine eklendiği değer kümelerini (parametreleri) içerir. Her boyut, veri ambarının karşılık gelen boyut tablolarındaki değerlerle doldurulur. Ölçüm seti, incelenen sürecin alanını belirler. Metrikler çok boyutlu veri küpleridir (hiperküpler). Hiperküp, göstergeyi oluşturan boyutların toplu toplamlarının yanı sıra verilerin kendisini içerir. Göstergeler MDB'nin ana içeriğini oluşturur ve olgu tablosuna göre doldurulur. Hiperküpün her ekseni boyunca veriler, farklı ayrıntı düzeylerini temsil eden bir hiyerarşi halinde düzenlenebilir. Bu, sonraki veri analizi sırasında veri sunumunun birleştirilmesinin veya iyileştirilmesinin gerçekleştirileceği hiyerarşik boyutlar oluşturmanıza olanak tanır. Hiyerarşik boyutun tipik bir örneği, bölgelere, bölgelere, mahallelere göre gruplandırılmış bölgesel nesnelerin bir listesidir.

Sunucu. OLAP sisteminin uygulama kısmı OLAP sunucusudur. Bu bileşen tüm işi yapar (sistem modeline bağlı olarak) ve aktif olarak erişilen tüm bilgileri depolar. Sunucu mimarisi farklı kavramlar tarafından yönetilir. Özellikle, OLAP ürünlerinin ana işlevsel özelliği, veri depolama için MDB veya RDB'nin kullanılmasıdır.

İstemci Uygulaması.Uygun şekilde yapılandırılmış ve MDB'de saklanan veriler, istemci uygulaması kullanılarak analiz için kullanılabilir. Kullanıcı, verilere uzaktan erişme, karmaşık sorgular formüle etme, raporlar oluşturma ve keyfi veri alt kümeleri elde etme becerisine sahip olur. Rapor almak, belirli ölçüm değerleri seçmek ve bir hiperküpün bir bölümünü oluşturmaktan ibarettir. Kesit, seçilen ölçüm değerleri ile belirlenir. Ölçümlerin geri kalanı için veriler özetlenmiştir.

OLAPistemcide ve sunucuda.Çok boyutlu veri analizi, koşullu olarak istemci ve sunucu OLAP araçlarına bölünebilen çeşitli araçlar kullanılarak gerçekleştirilebilir.

İstemci tarafı OLAP araçları (Microsoft'un Excel 2000'deki Pivot Tabloları veya Knosys'in ProClarity'si gibi), toplu verileri hesaplayan ve görüntüleyen uygulamalardır. Aynı zamanda, toplanan verilerin kendisi, böyle bir OLAP aracının adres alanı içindeki önbellekte bulunur.

Kaynak veriler bir masaüstü DBMS'de bulunuyorsa, toplu verilerin hesaplanması OLAP aracının kendisi tarafından gerçekleştirilir. İlk verilerin kaynağı bir sunucu DBMS ise, istemci OLAP araçlarının birçoğu sunucuya SQL sorguları gönderir ve sonuç olarak sunucuda hesaplanan toplu verileri alır.

Kural olarak, OLAP işlevselliği, istatistiksel veri işleme araçlarında ve bazı elektronik tablolarda uygulanır.

Birçok geliştirme aracı, en basit OLAP işlevselliğini (Borland Delphi ve Borland C++ Builder'daki Decision Cube bileşenleri gibi) uygulayan uygulamalar oluşturmanıza izin veren sınıf veya bileşen kitaplıkları içerir. Buna ek olarak, birçok şirket benzer işlevsellik sağlayan ActiveX denetimleri ve diğer kitaplıklar sunar.

İstemci OLAP araçları, kural olarak, az sayıda boyutla (genellikle altıdan fazla olmamak üzere) ve bu parametreler için az çeşitli değerlerle kullanılır - çünkü elde edilen toplu veriler, bu türlerin adres alanına sığmalıdır. bir araç ve boyutların sayısındaki artışla sayıları katlanarak artıyor.

Birçok OLAP istemci aracı, toplu veri önbelleğinin içeriğini bir dosya olarak kaydetmenize izin verir, böylece yeniden hesaplanmaları gerekmez. Bununla birlikte, bu fırsat genellikle toplu verileri başka kuruluşlara aktarmak veya yayınlamak üzere yabancılaştırmak için kullanılır.

Bir dosyada birleştirilmiş veriler içeren bir önbellek depolama fikri, sunucu tarafı OLAP araçlarında (örneğin, Oracle Express Server veya Microsoft OLAP Hizmetleri) daha da geliştirilmiştir; bunları içeren depolama, OLAP sunucusu adı verilen ayrı bir uygulama veya işlem tarafından gerçekleştirilir. İstemci uygulamaları, bu tür çok boyutlu depolamayı talep edebilir ve yanıt olarak bazı verileri alabilir. Bazı istemci uygulamaları da bu tür depolar oluşturabilir veya bunları değişen kaynak verilerine göre güncelleyebilir.

İstemci OLAP araçlarına kıyasla sunucu OLAP araçlarını kullanmanın avantajları, masaüstü araçlara kıyasla sunucu DBMS kullanmanın avantajlarına benzer: sunucu araçlarının kullanılması durumunda, toplu verilerin hesaplanması ve depolanması sunucuda ve istemci uygulamasında gerçekleşir. yalnızca onlara yapılan sorguların sonuçlarını alır, bu da genel olarak ağ trafiğini, istek yürütme süresini ve istemci uygulaması tarafından tüketilen kaynak gereksinimlerini azaltır.

3.5 Çok boyutlu veri depolamanın teknik yönleri

OLAP uygulamalarında çok boyutluluk üç seviyeye ayrılabilir:

1. Çok Boyutlu Veri Görünümü– çok boyutlu görselleştirme ve veri işleme sağlayan son kullanıcı araçları; çok boyutlu temsil katmanı, verinin fiziksel yapısından soyutlar ve veriyi çok boyutlu olarak ele alır.

    Çok Boyutlu İşleme- çok boyutlu sorguları formüle etmek için bir araç (dil) (geleneksel ilişkisel SQL dili burada uygun değildir) ve böyle bir sorguyu işleyip yürütebilen bir işlemci.

    Çok boyutlu depolama– çok boyutlu sorguların verimli bir şekilde yürütülmesini sağlayan fiziksel veri organizasyonu araçları.

İlk iki düzey, tüm OLAP araçlarında zorunludur. Üçüncü seviye, yaygın olarak kullanılmasına rağmen gerekli değildir, çünkü çok boyutlu temsil için veriler sıradan ilişkisel yapılardan da elde edilebilir. Bu durumda çok boyutlu sorgu işlemcisi, çok boyutlu sorguları ilişkisel bir DBMS tarafından yürütülen SQL sorgularına çevirir.

Hem geleneksel hem de çok boyutlu herhangi bir veri ambarında, operasyonel sistemlerden alınan ayrıntılı verilerin yanı sıra, aylara göre satış hacimlerinin toplamları, ürün kategorileri vb. gibi birleştirilmiş göstergeler (toplam göstergeler) de depolanır. tek amacı sorgu yürütmeyi hızlandırmak. Sonuçta, bir yandan, kural olarak, depoda çok büyük miktarda veri birikir ve diğer yandan, çoğu durumda analistler ayrıntılı değil, genelleştirilmiş göstergelerle ilgilenir. Ve yıl için satış miktarını hesaplamak için her seferinde milyonlarca bireysel satışın toplanması gerekseydi, hız büyük olasılıkla kabul edilemez olurdu. Bu nedenle, verileri çok boyutlu bir veritabanına yüklerken, tüm toplam göstergeler veya bunların bir kısmı hesaplanır ve kaydedilir.

Bununla birlikte, toplu verilerin kullanılması dezavantajlarla doludur. Başlıca dezavantajları, depolanan bilgi miktarındaki artış (yeni boyutlar eklendiğinde, küpü oluşturan veri miktarı katlanarak artar) ve bunların yüklenmesi için geçen süredir. Üstelik bilgi hacmi onlarca hatta yüzlerce kat artabilir. Örneğin, yayınlanan standart testlerden birinde, 10 MB ham veri için tam toplama sayısı 2,4 GB gerektiriyordu, yani veriler 240 kat arttı!

Toplamları hesaplarken veri miktarındaki artış derecesi, küpün boyutlarının sayısına ve bu boyutların yapısına, yani boyutun farklı düzeylerindeki "ebeveyn" ve "çocuk" sayısının oranına bağlıdır. Agregaları saklama problemini çözmek için, olası tüm agregalardan uzakta hesaplama yaparken, sorgu yürütme performansında önemli bir artış elde etmeyi sağlayan karmaşık şemalar kullanılır.

Hem ham hem de birleştirilmiş veriler,

ilişkisel veya çok boyutlu yapılarda. Bu bağlamda, şu anda çok boyutlu verileri depolamak için üç yöntem kullanılmaktadır:

MOLAP (Çok boyutlu OLAP) - kaynak ve birleştirilmiş veriler çok boyutlu bir veritabanında saklanır. Verileri çok boyutlu yapılarda depolamak, verileri çok boyutlu bir dizi olarak değiştirmenize olanak tanır, böylece toplam değerleri hesaplama hızı boyutların herhangi biri için aynıdır. Ancak bu durumda, çok boyutlu veri tabanı orijinal ilişkisel verileri tamamen içerdiğinden, çok boyutlu veri tabanı gereksizdir.

Bu sistemler tam bir OLAP işleme döngüsü sağlar. Sunucu bileşenine ek olarak kendi entegre istemci arayüzlerini içerirler veya kullanıcıyla iletişim kurmak için harici elektronik tablo programları kullanırlar.

ROLAP (İlişkisel OLAP) - orijinal veriler, orijinal olarak bulunduğu aynı ilişkisel veritabanında kalır. Toplu veriler, aynı veritabanında saklanmaları için özel olarak oluşturulan hizmet tablolarına yerleştirilir.

HOLAP (Hibrit OLAP) - Orijinal veriler, orijinal olarak bulunduğu aynı ilişkisel veritabanında kalırken, toplam veriler çok boyutlu bir veritabanında depolanır.

Bazı OLAP araçları, veri depolamayı yalnızca ilişkisel yapılarda, diğerleri ise yalnızca çok boyutlu yapılarda destekler. Ancak, modern OLAP sunucu araçlarının çoğu üç veri depolama yöntemini de destekler. Depolama yönteminin seçimi, kaynak verilerin hacmine ve yapısına, sorgu yürütme hızı gereksinimlerine ve OLAP küplerini güncelleme sıklığına bağlıdır.

3.6 Veri madenciliği (Verimadencilik)

Veri Madenciliği terimi, karar destek sistemleri için kümeleme, regresyon ve korelasyon analizi gibi çeşitli matematiksel ve istatistiksel algoritmalar aracılığıyla korelasyonları, eğilimleri ve ilişkileri arama sürecini ifade eder. Aynı zamanda, biriken bilgiler otomatik olarak bilgi olarak nitelendirilebilecek bilgilere genelleştirilir.

Modern Veri Madenciliği teknolojisinin temeli, veri alt örneklerinde bulunan kalıpları yansıtan ve sözde gizli bilgiyi oluşturan kalıp kavramıdır.

Modeller, bu alt örnekler hakkında herhangi bir önsel varsayım kullanmayan yöntemlerle aranır. Veri Madenciliğinin önemli bir özelliği, aranan örüntülerin standart olmaması ve açık olmamasıdır. Başka bir deyişle, Veri Madenciliği araçları, istatistiksel veri işleme araçlarından ve OLAP araçlarından, kullanıcıların varsaydığı ilişkileri kontrol etmek yerine

veriler arasında, mevcut verilere dayanarak, bu tür ilişkileri bağımsız olarak bulabilir ve bunların doğası hakkında hipotezler oluşturabilirler.

Genel olarak veri madenciliği (Veri Madenciliği) süreci üç aşamadan oluşur.

    kalıpların tanımlanması (ücretsiz arama);

    bilinmeyen değerleri tahmin etmek için ortaya çıkan kalıpları kullanma (tahmini modelleme);

    bulunan kalıplardaki anormallikleri tanımlamak ve yorumlamak için tasarlanmış istisna analizi.

Bazen, keşif ve kullanımları arasında bulunan kalıpların güvenilirliğini kontrol etmenin bir ara aşaması (doğrulama aşaması) açıkça seçilir.

Veri Madenciliği yöntemleri tarafından tanımlanan beş standart kalıp türü vardır:

1. Dernek aralarında örtülü olarak tanımlanmış bağlantıların olduğu kararlı nesne gruplarını seçmenize olanak tanır. Yüzde olarak ifade edilen tek bir öğenin veya öğe grubunun ortaya çıkma sıklığına yaygınlık denir. Düşük yaygınlık oranı (yüzdenin binde birinden az), böyle bir ilişkinin anlamlı olmadığını düşündürür. Dernekler kural olarak yazılır: A=> B, Nerede A - paket, İÇİNDE - sonuçlar. Ortaya çıkan her bir birliktelik kuralının önemini belirlemek için, güven adı verilen bir değerin hesaplanması gerekir. Aİle İÇİNDE(veya ilişki A ve B). Güven, ne sıklıkta ne zaman olduğunu gösterir A görünür İÇİNDE.Örneğin, eğer d(A/B)\u003d %20, bu, bir ürün satın alırken A her beşinci durumda bir ürün de satın alınır İÇİNDE.

İlişkilendirme uygulamasının tipik bir örneği, satın alma yapısının analizidir. Örneğin bir süpermarkette anket yaptığınızda patates cipsi alanların %65'inin aynı zamanda Coca-Cola da içtiğini ve böyle bir sette indirim varsa %85 oranında kola aldıklarını görebilirsiniz. Bu tür sonuçlar pazarlama stratejilerinin oluşturulmasında değerlidir.

2. Tutarlılık - zaman içinde ilişkileri belirleme yöntemidir. Bu durumda, belirli olay gruplarının sıralı oluşumunu açıklayan kurallar tanımlanır. Bu tür kurallar senaryo oluşturmak için gereklidir. Ek olarak, örneğin belirli bir ürünün müteakip satışlarına yol açabilecek tipik bir önceki satış seti oluşturmak için kullanılabilirler.

3.Sınıflandırma - genelleme aracı Tek nesneleri dikkate almaktan, bazı nesne koleksiyonlarını karakterize eden ve bu koleksiyonlara (sınıflara) ait nesneleri tanımak için yeterli olan genelleştirilmiş kavramlara geçmenizi sağlar. Kavram oluşturma sürecinin özü, sınıflara özgü kalıpları bulmaktır. Nesneleri tanımlamak için birçok farklı özellik (nitelik) kullanılır. Gösterge niteliğindeki açıklamalara göre kavram oluşturma sorunu, M.M. Bongart. Çözümü, iki ana prosedürün uygulanmasına dayanmaktadır: eğitim ve doğrulama. Eğitim prosedürlerinde, nesnelerin eğitim setinin işlenmesine dayalı olarak bir sınıflandırma kuralı oluşturulur. Doğrulama prosedürü (inceleme), yeni bir (inceleme) örneğinden nesneleri tanımak için elde edilen sınıflandırma kuralının kullanılmasından oluşur. Test sonuçları tatmin edici bulunursa, öğrenme süreci sona erer, aksi takdirde sınıflandırma kuralı, tekrarlanan öğrenme sürecinde rafine edilir.

4. Kümeleme - bu, veritabanındaki bilgilerin (kayıtların) gruplara (kümeler) veya bu grupların eşzamanlı tanımıyla bölümlere dağıtılmasıdır. Sınıflandırmanın aksine, buradaki analiz sınıfların önceden belirlenmesini gerektirmez.

5. Zaman serisi tahmini incelenmekte olan nesnelerin niteliklerindeki eğilimlerin zaman içinde belirlenmesi için bir araçtır. Zaman serilerinin davranışının analizi, çalışılan özelliklerin değerlerini tahmin etmenizi sağlar.

Bu tür problemlerin çözümü için Veri Madenciliğinin çeşitli yöntem ve algoritmaları kullanılmaktadır. Veri Madenciliğinin istatistik, bilgi teorisi, makine öğrenmesi, veri tabanı teorisi gibi disiplinlerin kesiştiği noktada geliştiği ve gelişmekte olduğu göz önüne alındığında, Veri Madenciliği algoritmalarının ve yöntemlerinin çoğunun çeşitli yöntemlere dayalı olarak geliştirilmiş olması oldukça doğaldır. bu disiplinlerden

Mevcut veri madenciliği yöntemlerinin çeşitliliğinden aşağıdakiler ayırt edilebilir:

    regresyon, dağılım ve korelasyon analizi(çoğu modern istatistik paketinde, özellikle SAS Enstitüsü, StatSoft, vb. ürünlerinde uygulanır);

    analiz yöntemleri ampirik modellere dayalı belirli bir konu alanında (genellikle, örneğin ucuz finansal analiz araçlarında kullanılır);

    sinir ağı algoritmaları- karmaşık bağımlılıkları yeniden üretmenize izin veren süreçleri ve olayları taklit etme yöntemi. Yöntem, basitleştirilmiş bir biyolojik beyin modelinin kullanımına dayanmaktadır ve ilk parametrelerin, "nöronlar" arasındaki mevcut bağlantılara ve tüm ağın tepkisine göre dönüştürülen sinyaller olarak kabul edilmesi gerçeğinde yatmaktadır. ilk verilere, analizden çıkan cevap olarak kabul edilir. Bu durumda bağlantılar, hem orijinal verileri hem de doğru cevapları içeren büyük bir örneklem yoluyla ağ öğrenimi kullanılarak oluşturulur. Sinir ağları, sınıflandırma problemlerini çözmek için yaygın olarak kullanılır;

    Bulanık mantıkçeşitli dilsel değişkenlerle temsil edilebilen bulanık doğruluk değerlerine sahip verileri işlemek için kullanılır. Bulanık bilgi temsili, örneğin XpertRule Miner sisteminde (Attar Software Ltd., İngiltere) ve ayrıca AIS, NeuFuz, vb.'de sınıflandırma ve tahmin problemlerini çözmek için yaygın olarak kullanılır;

    tümevarımsal çıkarımlar veritabanında saklanan gerçeklerin genellemelerini elde etmenize izin verir. Tümevarımsal öğrenme sürecinde, hipotez sağlayan bir uzman katılabilir. Bu yönteme denetimli öğrenme denir. Genelleme kurallarının araştırılması, otomatik olarak hipotezler üretilerek öğretmen olmadan yapılabilir. Modern yazılım araçlarında, kural olarak, her iki yöntem birleştirilir ve hipotezleri test etmek için istatistiksel yöntemler kullanılır. Endüktif müşteri adaylarını kullanan bir sistem örneği, Attar Software Ltd. tarafından geliştirilen XpertRule Miner'dır. (Büyük Britanya);

    dayalı muhakeme benzer durumlar("en yakın komşu" yöntemi) (Vaka tabanlı akıl yürütme - CBR), açıklamaları belirli bir duruma bir dizi özellik açısından benzer olan durumların veritabanında aranmasına dayanır. Analoji ilkesi, benzer durumların sonuçlarının da birbirine yakın olacağını öne sürer. Bu yaklaşımın dezavantajı, önceki deneyimleri genelleyen herhangi bir model veya kural oluşturmamasıdır. Ek olarak, çıkarsanan sonuçların güvenilirliği, tümevarımsal çıkarım süreçlerinde olduğu gibi, durumların tanımının tamlığına bağlıdır. CBR kullanan sistemlerin örnekleri şunlardır: KATE Tools (Acknosoft, Fransa), Pattern Recognition Workbench (Unica, ABD);

    Karar ağaçları- bir problemi, veriyi sınıflandırmaya veya kararların sonuçlarını analiz etmeye izin veren üretim kurallarına karşılık gelen bir ağaç grafiği biçiminde yapılandırma yöntemi. Bu yöntem, eğer çok fazla yoksa, sınıflandırma kuralları sisteminin görsel bir temsilini verir. Basit görevler, bu yöntemle sinir ağlarını kullanmaktan çok daha hızlı çözülür. Karmaşık problemler ve bazı veri türleri için karar ağaçları uygun olmayabilir. Ek olarak, bu yöntem önem sorunu ile karakterize edilir. Hiyerarşik veri kümelemenin sonuçlarından biri, birçok özel durum için çok sayıda eğitim örneğinin olmaması ve bu nedenle sınıflandırmanın güvenilir olarak kabul edilememesidir. Karar ağacı yöntemleri, C5.0 (RuleQuest, Avustralya), Clementine (Integral Solutions, BK), SIPINA (Lyon Üniversitesi, Fransa), IDIS (Information Discovery, ABD);

    evrimsel programlama– arama sürecinde değiştirilen, başlangıçta belirtilen algoritmaya dayalı olarak, verilerin karşılıklı bağımlılığını ifade eden bir algoritmanın aranması ve oluşturulması; bazen karşılıklı bağımlılık araması, herhangi bir belirli işlev türü arasında gerçekleştirilir (örneğin, polinomlar);

sınırlı arama algoritmaları, veri alt gruplarında basit mantıksal olayların kombinasyonlarını hesaplama.

3.7 EntegrasyonOLAPVeVerimadencilik

Çevrimiçi analitik işleme (OLAP) ve veri madenciliği (Veri Madenciliği), karar destek sürecinin iki bileşenidir. Ancak günümüzde çoğu OLAP sistemi yalnızca çok boyutlu verilere erişim sağlamaya odaklanmaktadır ve kalıplar alanında çalışan çoğu veri madenciliği aracı tek boyutlu veri perspektifleriyle ilgilenir. Karar destek sistemleri için veri işleme verimliliğini artırmak için bu iki analiz türü birleştirilmelidir.

Bileşik terim "OLAP Veri Madenciliği" (çok boyutlu veri madenciliği) şimdi böyle bir kombinasyona atıfta bulunmak için ortaya çıkıyor.

"OLAP Veri Madenciliği" oluşturmanın üç ana yolu vardır:

    Küpleme sonra madencilik. Entelektüel analiz gerçekleştirme yeteneği, çok boyutlu bir kavramsal temsile yönelik bir sorgulamanın herhangi bir sonucu üzerinde, yani göstergelerin hiperküpünün herhangi bir projeksiyonunun herhangi bir parçası üzerinde sağlanmalıdır.

    Madencilik, sonra küpleme. Bir depodan alınan veriler gibi, madencilik sonuçları da müteakip çok boyutlu analizler için hiperkübik biçimde sunulmalıdır.

    Madencilik yaparken küpleme. Bu esnek entegrasyon yöntemi, genelleme seviyeleri arasındaki çok boyutlu bir analizin (geçiş), yeni bir hiperküp parçasının çıkarılması vb.)

    11. Sınıf [Metin... onlara Nasıl Parça Tümü sistemler ... doçent ... Cheboksary, 2009. Sayı 10. S. 44 -49 ... . Yazarlar- derleyiciler: N. ... özetlerdersler, ...

  • Öğretim yardımı

    ... dersler. Hazırlık dersler matematik. yazı soyutdersler dersler. kullanım bilgiteknolojiler ...

  • I k kondaurova s ​​​​v lebedev geleceğin matematik öğretmeninin araştırma faaliyetleri ilköğretim matematiğinde yaratıcı görevler ve öğretim yöntemleri

    Öğretim yardımı

    ... dersler. Hazırlık dersler matematik. yazı soyutdersler. Görsel yardımcıların hazırlanması. Okuma tekniği dersler. kullanım bilgiteknolojiler ...

  • İZLEME MEDYALARI Mesleki eğitimin modernizasyonu Mart - Ağustos 2011

    Özet

    ... 11 .08.2011 RNIMU'DA "Ölü Canlar-2" onlara ... 3,11 -3,44 . ... halk dersler liderler... Cheboksary... ve karalama özetler kitle - ... bilgilendirmesistemler Ve teknolojiler. ... sistem eğitim diyor doçent ... derleyiciler ... parçalar gerçek içerik ...

İş süreçlerinin analitik teknolojileri

İş zekası sistemleri - İş Zekası (BI), kuruluş genelindeki verileri analiz etmek ve işlemek için çeşitli araçları ve teknolojileri birleştirir. Bu araçlara dayanarak, amacı yönetimsel kararlar almak için bilgi kalitesini artırmak olan BI sistemleri oluşturulur.

BI, aşağıdaki sınıflardaki yazılım ürünlerini içerir:

operasyonel analitik işleme sistemleri (OLAP);

· entelektüel veri analizi (DM) araçları;

Her sınıftaki yazılım ürünleri, özel teknolojiler kullanarak belirli bir dizi işlevi veya işlemi gerçekleştirir.

OLAP (Çevrimiçi Analitik İşleme) - çevrimiçi analitik işleme - belirli bir ürünün adı değil, bütün bir teknolojinin adıdır. OLAP kavramı, verilerin çok boyutlu bir temsiline dayanmaktadır.

1993 yılında, ilişkisel veritabanı yaklaşımının kurucusu Edgar Codd ve ortakları (Edgar Codd, matematikçi ve IBM üyesi), şirket tarafından başlatılan ve 12 kriterin yer aldığı "Providing OLAP (Online Analytical Processing) for Analyst Users" başlıklı bir makale yayınladılar. daha sonra yeni ve çok umut verici bir teknolojinin ana içeriği haline gelen OLAP teknolojisinin.

Daha sonra, OLAP ürünleri için gereklilikleri tanımlayan FASMI testinde yeniden çalışıldı:

· Hızlı hızlı). Bir OLAP uygulaması, analitik verilere minimum erişim süresi sağlamalıdır - ortalama olarak yaklaşık 5 saniye;

· ANALİZ (analiz). Bir OLAP uygulaması, kullanıcının sayısal ve istatistiksel analiz yapmasına izin vermelidir;

· SHARED (paylaşılan erişim). Bir OLAP uygulaması, aynı anda birçok kullanıcı için bilgi ile çalışma yeteneği sağlamalıdır;

· ÇOK BOYUTLU (çok boyutluluk);

· BİLGİ (bilgi). Bir OLAP uygulaması, kullanıcının gerekli bilgi, hangi elektronik veri deposunda bulunursa bulunsun.

FASMI'ye dayanarak, aşağıdaki tanım verilebilir: OLAP uygulamaları - sayısal ve istatistiksel analiz yetenekleri ile çok boyutlu analitik bilgilere hızlı ve çok kullanıcılı erişim sağlayan sistemlerdir.

OLAP'ın ana fikri, kullanıcı sorguları için kullanılabilecek çok boyutlu küpler oluşturmaktır. Çok boyutlu küpler (Şekil 5.3), hem ilişkisel hem de çok boyutlu veritabanlarında depolanabilen kaynak ve birleştirilmiş veriler temelinde oluşturulur. Bu nedenle, şu anda verileri depolamanın üç yolu vardır: MOLAP (Çok boyutlu OLAP), ROLAP (İlişkisel OLAP) ve HOLAP (Hibrit OLAP).

Buna göre OLAP ürünleri, veri depolama yöntemine göre benzer üç kategoriye ayrılır:

1. MOLAP durumunda, orijinal ve çok boyutlu veriler çok boyutlu bir veri tabanında veya çok boyutlu bir yerel küpte saklanır. Bu depolama yöntemi, OLAP işlemlerinin yüksek hızını sağlar. Ancak bu durumda çok boyutlu temel çoğunlukla gereksiz olacaktır. Temeline göre inşa edilen küp, büyük ölçüde boyutların sayısına bağlı olacaktır. Boyut sayısı arttıkça küpün hacmi katlanarak büyüyecektir. Bazen bu, veri miktarında "patlayıcı büyümeye" yol açabilir.

2. ROLAP ürünlerinde, kaynak veriler ilişkisel veritabanlarında veya bir dosya sunucusundaki düz yerel tablolarda saklanır. Toplu veriler, aynı veritabanındaki hizmet tablolarına yerleştirilebilir. Verilerin ilişkisel bir veritabanından çok boyutlu küplere dönüştürülmesi, bir OLAP aracının talebi üzerine gerçekleşir. Bu durumda, küp oluşturma hızı büyük ölçüde veri kaynağının türüne bağlı olacaktır.

3. Hibrit bir mimari kullanılması durumunda, kaynak veriler ilişkisel veritabanında kalırken, kümeler çok boyutlu olana yerleştirilir. Bir OLAP aracının talebi üzerine, ilişkisel ve çok boyutlu verilere dayalı olarak bir OLAP küpü oluşturulur. Bu yaklaşım, patlayıcı veri büyümesini önler. Bu durumda, müşteri istekleri için en uygun yürütme süresini elde edebilirsiniz.

OLAP teknolojilerini kullanarak, kullanıcı bilgileri esnek bir şekilde görüntüleyebilir, çeşitli veri dilimleri elde edebilir, detaylandırma, evrişim, uçtan uca dağıtım, zaman içinde karşılaştırma gibi analitik işlemleri gerçekleştirebilir. raporlar ve belgeler üretin ve dinamik olarak yayınlayın.

Depo veri tabanının yapısı genellikle bilgilerin analizini mümkün olduğunca kolaylaştıracak şekilde tasarlanır. Veriler, farklı yönlerde (boyutlar olarak adlandırılır) uygun bir şekilde "düzenlenmelidir". Örneğin, bugün bir kullanıcı performanslarını karşılaştırmak için tedarikçiye göre parça sevkiyatlarının bir özetini görmek istiyor. Yarın, aynı kullanıcının, teslimatların dinamiklerini takip etmek için parça teslimat hacmindeki aylara göre değişikliklerin bir resmine ihtiyacı olacak. Veri tabanının yapısı, belirli bir ölçüm setine karşılık gelen verilerin çıkarılmasına izin vererek bu tür analizleri desteklemelidir.

Operasyonel analitik veri işleme, bilgiyi hiperkübik bir modelde düzenleme ilkesine dayanır. Daha önce ele alınan test veri tabanı için parça temini için en basit üç boyutlu veri küpü, Şek. 3.11. Hücrelerinin her biri bir "gerçeğe" karşılık gelir - örneğin, bir parçanın teslimat kapsamı. Küpün bir tarafında (tek boyut), küpün yansıttığı teslimatların yapıldığı aylar bulunur. İkinci boyut parça türleri, üçüncü boyut ise tedarikçilere karşılık gelmektedir. Her hücre, üç boyutun tamamında karşılık gelen değer kombinasyonu için teslimat miktarını içerir. Küpü doldururken, test veri tabanından her ayın teslimatları için değerlerin toplanmasının yapıldığına dikkat edilmelidir.


3.11. Parça Tedarik Analizi için Basitleştirilmiş Hypercube Varyantı

OLAP sınıfı sistemler, verilerin sunulma biçiminde farklılık gösterir.

Çok boyutlu OLAP (MOLAP) – bu sistemler, uygun erişim yöntemleri ile dinamik dizilere dayalı çok boyutlu bir veri yapısına dayanmaktadır. MOLAP, çok boyutlu DBMS'yi düzenlemek için patentli teknolojiler üzerinde uygulanmaktadır. Bu yaklaşımın avantajı, hesaplamaları hiperküp hücreler üzerinde gerçekleştirme kolaylığıdır, çünkü tüm ölçüm kombinasyonlarında karşılık gelen hücreler girilir (bir elektronik tabloda olduğu gibi). Bu tür sistemlerin klasik temsilcileri arasında Oracle Express, SAS Institute MDDB bulunur.

İlişkisel OLAP (ROLAP)– ilişkisel veritabanları üzerinden çok boyutlu analitik modelleri destekler. Bu sistem sınıfı Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP'ı içerir.

Masaüstü OLAP (Masaüstü OLAP)– yerel bilgi sistemleri (elektronik tablolar, düz dosyalar) için çok boyutlu sorgular ve raporlar oluşturmaya yönelik araçlar. Aşağıdaki sistemler ayırt edilebilir - Business Objects, Cognos Power Play.

E.F. Codd, verilerin çok boyutlu kavramsal temsili, şeffaflık, erişilebilirlik, sağlam performans, istemci-sunucu mimarisi, boyut eşitliği, seyrek matris dinamik işleme, çok kullanıcılı destek, boyutlar arası sınırsız destek dahil olmak üzere bir OLAP sınıfı ürünün karşılaması gereken on iki kural tanımladı. operasyonlar, sezgisel veri manipülasyonu, esnek raporlama mekanizması, sınırsız sayıda boyut ve birleştirme seviyeleri.



En yaygın sınıf sistemleri ROLAP. Herhangi bir yapının ilişkisel olarak eksiksiz bir depolaması veya özel bir veri pazarı üzerinden bir bilgi modeli düzenlemenize olanak tanırlar.

Pirinç. 3.12. Parça Temini Analitik Mart Yıldız Diyagramı

Çoğu veri ambarı için, N boyutlu bir küpü modellemenin en etkili yolu bir "yıldız"dır. Şek. Şekil 3.11, bilgilerin dört boyutta (tedarikçi, parça, ay, yıl) konsolide edildiği parça tedarik analizi için bir hiperküp modelini göstermektedir. Yıldız şeması bir olgu tablosuna dayanmaktadır. Olgu tablosu, teslimat kapsamını belirten bir sütunun yanı sıra tüm boyut tabloları için yabancı anahtarları belirten sütunlar içerir. Her küp boyutu, olgu tablosuna referans olan bir değer tablosuyla temsil edilir. Referans ölçüm kitaplarının üzerindeki bilgilerin genelleştirme düzeylerini düzenlemek için kategorik girdiler düzenlenir (örneğin, "malzeme-detay", "şehir-tedarikçi").

Şekil 1'deki devrenin nedeni 3.12 bir "yıldız" olarak adlandırılır, oldukça açıktır. "Yıldızın" uçları boyut tablolarından oluşur ve bunların merkezde bulunan olgu tablosuna bağlantıları ışınları oluşturur. Bu veritabanı tasarımıyla, çoğu iş analizi sorgusu, bir veya daha fazla boyut tablosuyla merkezi bir olgu tablosunu birleştirir. Örneğin, 2004'teki tüm parçaların sevkiyatlarını aya göre almak için satıcıya göre ayrılmış bir sorgu şöyle görünür:

TOPLAM(DEĞER), TEDARİKÇİ.SUPPLIER_NAME, FACT.MONTH_ID SEÇİN

GERÇEKTEN, TEDARİKÇİ

NEREDE FACT.YEAR_ID=2004

VE FACT.SUPPLIER_CODE=SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

Şek. 3.13, belirli bir sorgu sonucunda oluşturulan raporun bir parçasını gösterir.

Terim operasyonel analitik işleme(On-Line Analytical Processing-OLAP) ilk olarak Arbor Software Corp. için hazırlanan bir raporda yer aldı. 1993 yılında, bu terimin tanımı, veri ambarlarında olduğu gibi, çok sonra formüle edilmiş olsa da. Bu terimle ifade edilen kavram, "verilerin oluşturulması, sürdürülmesi, analiz edilmesi ve raporların yayınlanmasına yönelik etkileşimli bir süreç" olarak tanımlanabilir. Ayrıca, genellikle söz konusu verilerin sanki depolanmış gibi algılanması ve işlenmesi gerektiği de eklenir. çok boyutlu dizi Ancak çok boyutlu temsil tartışmasına girmeden önce, geleneksel SQL tabloları açısından ilgili fikirlere bakalım.

İlk özellik, analitik işlemenin mutlaka bir miktar toplama gerektirmesidir. veri, genellikle birkaç farklı şekilde veya başka bir deyişle, birçok farklı gruplama kriterine göre aynı anda gerçekleştirilir. Aslında, analitik işlemenin temel sorunlarından biri, olası gruplama yollarının sayısının çok olmasıdır.

çok yakında çok büyük olur. Ancak, kullanıcıların bu tür yöntemlerin tümünü veya hemen hemen tümünü dikkate alması gerekir. Tabii ki, SQL standardı artık bu tür bir toplamayı desteklemektedir, ancak herhangi bir SQL sorgusu sonuç olarak yalnızca bir tablo üretir ve sonuçta ortaya çıkan tablodaki tüm satırlar aynı forma ve aynı yoruma10 sahiptir (en azından bu şekilde çalışır).

9 Veri ambarı üzerine bir kitaptan alıntı yapacak olursak: "Normalleştirmeyi [durdurun]... Çok boyutlu bir veritabanındaki tablolardan herhangi birini sadece disk alanından tasarruf etmek için normalleştirmeye çalışmak [bu doğru!] zaman kaybıdır... Boyut tabloları, normalleştirilmemelidir... Normalleştirilmiş Boyut tabloları görüntülemeyi engeller."

10 Bu sonuç tablosu herhangi bir boş değer içermediği sürece (bkz. Bölüm 19, Kısım 19.3, "Yüklemler Hakkında Daha Fazlası"). Aslında, bu bölümde açıklanması gereken SQL:1999 yapıları, bu oldukça kullanımdan kaldırılmış SQL olanağının (?) "kullanımına dayalı" olarak nitelendirilebilir; aslında, boş değerlerin çeşitli tezahürlerinde farklı anlamlara sahip olabileceği gerçeğini vurgularlar ve bu nedenle (aşağıda gösterileceği gibi) birçok farklı yüklemin aynı tabloda temsil edilmesine izin verirler.

SQL standardının gelişinden önceydi: 1999). Bu nedenle, uygulamak için P farklı gruplandırma yöntemleri, gerçekleştirmeniz gereken P sorguları ayırın ve sonuç olarak l ayrı tablolar oluşturun. Örneğin, bir tedarikçi ve parça veritabanına karşı yürütülen aşağıdaki sorgu dizisini göz önünde bulundurun.

1. Toplam teslimat sayısını belirleyin.

2. Tedarikçilerin toplam teslimat sayısını belirleyin.

3. Parçalara göre toplam teslimat sayısını belirleyin.

4. Tedarikçilere ve parçalara göre toplam teslimat sayısını belirleyin.

(Tabii ki, belirli bir tedarikçi ve belirli bir parça için "toplam" miktar, yalnızca belirli bir tedarikçi ve belirli bir parça için gerçek miktardır. Tedarikçiler, parçalar ve projelerden oluşan bir veri tabanı kullanılmışsa örnek daha gerçekçi olacaktır. Ancak bu basit örneği korumak için, biz yine de alışılagelmiş tedarikçiler ve parça veritabanında karar kıldık.)

Şimdi sadece P1 ve P2 olarak numaralandırılmış iki parça olduğunu varsayalım ve tedarik tablosu bu şekilde görünüyor.

Çok boyutlu veritabanları

Şimdiye kadar, OLAP verilerinin SQL dili kullanılarak düzenli bir veritabanında saklandığı varsayılmıştır (bazen terminolojiye ve kavramına değinmemiz dışında). çok boyutlu veritabanları). Aslında, açıkça belirtmeden, sözde sistemi tarif ettik. ROLAP(İlişkisel OLAP- ilişkisel OLAP). Ancak, birçok kişi sistemin kullanımının MOLAP(Çok boyutlu OLAP- çok boyutlu OLAP) - daha umut verici bir yol. Bu alt bölümde, MOLAP sistemlerini kurma ilkeleri daha ayrıntılı olarak tartışılacaktır.

MOLAP sistemi korur çok boyutlu veritabanları, verilerin kavramsal olarak çok boyutlu bir dizinin hücrelerinde saklandığı.

Not. daha yüksek olmasına rağmen Ve hakkında söylendi kavramsal aslında depolamayı organize etmenin bir yolu fiziksel organizasyon veri girişi MOLAP mantıksal organizasyonlarına çok benzer.

Destekleyici DBMS'ye denir çok boyutlu. Gibi basit bir örnek sırasıyla ürünleri, müşterileri ve zaman dilimlerini temsil eden üç boyutlu bir dizi oluşturabilirsiniz. Her bir hücrenin değeri, belirtilen süre içinde müşteriye satılan belirtilen öğenin toplam miktarını temsil edebilir. Yukarıda belirtildiği gibi, önceki alt bölümdeki çapraz tablolar da bu tür diziler olarak kabul edilebilir.

Veri setinin yapısı yeterince açık bir şekilde anlaşılırsa, veriler arasındaki tüm ilişkiler bilinebilir. Dahası, değişkenler böyle bir koleksiyon (geleneksel programlama dilleri anlamında değil), kabaca konuşursak, bölünebilir bağımlı Ve bağımsız. İÇİNDEönceki örnek ürün, müşteri Ve zaman aralığı bağımsız değişkenler olarak kabul edilebilir ve miktar - tek bağımlı değişken. Genel olarak, bağımsız değişkenler, değerleri birlikte bağımlı değişkenlerin değerlerini belirleyen değişkenlerdir (tıpkı ilişkisel terminolojide bir aday anahtarın bir küme olması gibi).

değerleri diğer sütunların değerlerini belirleyen sütunlar). Bu nedenle, bağımsız değişkenler, verilerin düzenlendiği dizinin boyutunu tanımlar ve ayrıca adresleme şeması11 verilen dizi için. Gerçek verileri temsil eden bağımlı değişken değerleri, dizi hücrelerinde saklanır.

Not. Bağımsızın değerleri arasındaki fark veya boyutlu, değişkenler,

ve bağımlıların değerleri veya büyük boy, değişkenler bazen arasındaki fark olarak karakterize edilir. konum Ve içerik.

" Bu nedenle, dizi hücreleri, genellikle dizilerle çalışmak için kullanılan sayısal dizinler kullanmak yerine sembolik olarak ele alınır.

Ne yazık ki, çok boyutlu veritabanlarının yukarıdaki karakterizasyonu çok basittir, çünkü çoğu veri seti başlangıçta kalır. Olumsuz tamamen çalışıldı. Bu nedenle, genellikle verileri daha iyi anlamak için ilk etapta analiz etmeye çalışırız. Genellikle anlayış eksikliği o kadar önemli olabilir ki, hangi değişkenlerin bağımsız ve hangilerinin bağımlı olduğunu önceden belirlemek mümkün olmaz. Açıklayıcı değişkenler daha sonra mevcut görüşlerine göre seçilir (yani, bazı hipotezlere dayalı olarak), ardından açıklayıcı değişkenlerin ne kadar iyi seçildiğini belirlemek için ortaya çıkan dizi kontrol edilir (bkz. Bölüm 22.7). Bu yaklaşım, birçok yinelemenin deneme yanılma ilkesine göre gerçekleştirilmesine yol açar. Bu nedenle, sistem genellikle boyutlu ve boyutsuz değişkenlerin değişmesine izin verir ve bu işleme denir. koordinat eksenlerinin değişimi(döner). Diğer desteklenen işlemler şunları içerir: dizi aktarımı Ve boyutları yeniden sıralama. Boyut eklemenin de bir yolu olmalı.

Bu arada, önceki açıklamadan, dizi hücrelerinin genellikle boş olduğu anlaşılmalıdır (ve boyutlar ne kadar fazlaysa, bu fenomen o kadar sık ​​\u200b\u200bgözlenir). Başka bir deyişle, diziler genellikle seyrek.Örneğin, p ürününün tüm süre boyunca müşteri c'ye satılmadığını varsayalım. T. Daha sonra hücre [c, p, t] boş (veya en iyi ihtimalle boş) olacaktır. Çok boyutlu DBMS'ler, seyrek dizileri daha verimli ve kısa bir şekilde12 depolamak için çeşitli yöntemleri destekler. Buna boş hücrelerin karşılık geldiği eklenmelidir. eksik bilgi ve bu nedenle sistemlerin boş hücreler için bir miktar hesaplama desteği sağlaması gerekir. Bu tür bir destek gerçekten yaygın olarak mevcuttur, ancak ne yazık ki stil, SQL dilininkine benzer. Şu gerçeğe dikkat edin, eğer verilen hücre boş, o zaman bilgi bilinmiyor veya girilmemiş veya geçerli değil veya başka nedenlerle eksik

(bkz. bölüm 19).

Bağımsız değişkenler genellikle birbiriyle ilişkilidir. hiyerarşi, bağımlı verilerin toplanmasının meydana gelebileceği yolları tanımlama. Örneğin, geçici bir

saniyeleri dakikalara, dakikaları saatlere, saatleri günlere, günleri haftalara, haftaları aylara, ayları yıllara bağlayan bir hiyerarşi. Veya başka bir örnek: bir hiyerarşi mümkündür

parçaları bir dizi parçaya, bir düğüme sahip parça kümelerini, bir modüle sahip düğümleri, bir ürüne sahip modülleri birleştiren kompozisyonlar. Genellikle aynı veriler birçok farklı şekilde toplanabilir, örn. aynı bağımsız değişken birçok farklı hiyerarşiye ait olabilir. Sistem için operatörler sağlar Geçmek(sondaj) ve aşağı geçmek(ayrıntıya inin) böyle bir hiyerarşi boyunca. Geçmek toplamanın alt seviyesinden üst seviyeye geçiş anlamına gelir ve geçmek -

ters yönde geçiş. Hiyerarşi düzeylerini yeniden sıralama işlemi gibi, hiyerarşilerle çalışmak için başka işlemler de vardır.

Not. Operasyonlar arasında Geçmek(sondaj) ve sonuçların birikmesi(rulo

yukarı) ince bir fark vardır: operasyon sonuçların toplanması - bir uygulama işlemidir

12 İlişkisel sistemlerden farkı not edin. Bu örneğin gerçek ilişkisel karşılığı olarak, çizgi ic,p, t) Satırın boş olması nedeniyle boş miktar "hücresi" olmayacaktır. (s, s, t) basitçe yok olurdu. Bu nedenle, ilişkisel modeli kullanırken, çok boyutlu dizilerin aksine, "seyrek dizileri" veya daha doğrusu "seyrek tabloları" desteklemeye gerek yoktur ve bu nedenle bu tür tablolarla çalışmak için karmaşık sıkıştırma yöntemleri gerekmez.

gerekli gruplandırma ve toplama yöntemleri ve operasyon Geçmek- bu bir operasyon erişim Bu yöntemlerin sonuçlarına. Ve bir operasyon örneği aşağı geçmek"Toplam sevkiyat sayısı biliniyor; her bir tedarikçi için toplam verileri al" gibi bir sorgu hizmet verebilir. Tabii ki, bu sorguyu yanıtlamak için daha ayrıntılı veri düzeyleri mevcut (veya hesaplanabilir) olmalıdır.

Çok boyutlu veri tabanı ürünleri ayrıca hipotezleri (yani, varsayılan ilişkiler hakkındaki hipotezleri) formüle etmeye ve test etmeye yardımcı olacak bir dizi istatistiksel ve diğer matematiksel işlevler sağlar. Ayrıca bu tür sorunların çözümüne yardımcı olmak için görselleştirme ve raporlama araçları sağlanmaktadır. Ancak, ne yazık ki, çok boyutlu veritabanları için standart bir sorgulama dili henüz bulunmamakla birlikte, böyle bir standardın dayandırılabileceği bir analiz geliştirmek için araştırmalar devam etmektedir. Ancak, ne yazık ki, çok boyutlu veritabanlarının tasarlanması için bilimsel bir temel olarak hizmet edebilecek ilişkisel normalleştirme teorisi gibisi yoktur.

Bu bölümü sonlandırırken, bazı ürünlerin her iki yaklaşımı da birleştirdiğini not ediyoruz - ROLAP ve MOLAP. Çok hibrit sistem OLAP isminde HOLAP. Bu üç yaklaşımdan hangisinin daha iyi olduğunu bulmak için kapsamlı tartışmalar var, bu nedenle bu konuda birkaç söz söylemeye çalışmakta fayda var13. Genel olarak, MOLAP sistemleri daha hızlı hesaplamalar sağlar, ancak ROLAP sistemlerine kıyasla daha az miktarda veriyi destekler, örn. veri miktarı arttıkça daha az verimli hale gelir. Ve ROLAP sistemleri, MOLAP sistemlerinden daha fazla ölçeklenebilirlik, paralellik ve kontrol sağlar. Ek olarak, SQL standardı yakın zamanda birçok istatistiksel ve analitik işlevi içerecek şekilde güncellendi (bkz. Bölüm 22.8). Bundan, ROLAP ürünlerinin artık genişletilmiş işlevsellik sağlama yeteneğine sahip olduğu anlaşılmaktadır.

OLAP (Çevrimiçi Analitik İşleme - çevrimiçi analitik işleme), kullanıcının sistemi sorgulamasına, analiz yapmasına vb. izin veren bir bilgi işlemidir. çevrimiçi (çevrimiçi). Sonuçlar saniyeler içinde üretilir.

OLAP sistemleri son kullanıcılar için yapılırken, OLTP sistemleri profesyonel IS kullanıcıları için yapılır. OLAP, sorgu oluşturma, ad hoc raporları sorgulama, istatistiksel analiz gerçekleştirme ve multimedya uygulamaları oluşturma gibi etkinlikler sağlar.

OLAP sağlamak için, bir veri ambarı (veya çok boyutlu depolama) ve genellikle çok boyutlu yeteneklere sahip bir araç seti ile çalışmanız gerekir. Bu araçlar, sorgulama araçları, elektronik tablolar, veri madenciliği araçları, veri görselleştirme araçları vb. olabilir.

OLAP kavramı, çok boyutlu veri gösterimi ilkesine dayanmaktadır. E. Codd, ilişkisel modelin eksikliklerini ele almış, her şeyden önce, verileri çoklu boyutlar açısından, yani kurumsal analistlerin anlayabileceği şekilde birleştirmenin, incelemenin ve analiz etmenin imkansızlığına işaret etmiş ve ilişkisel VTYS'nin işlevselliğini artıran ve özelliklerinden biri olarak çok boyutlu analizi içeren OLAP sistemleri için genel gereksinimler.

OLAP sınıfı bir yazılım ürününün karşılaması gereken 12 kural. Bu kurallar:

1. Verilerin çok boyutlu kavramsal gösterimi.

2. Şeffaflık.

3. Kullanılabilirlik.

4. İstikrarlı performans.

5. İstemci - sunucu mimarisi.

6. Ölçümlerin eşitliği.

7. Seyrek matrislerin dinamik işlenmesi.

8. Çok oyunculu modu destekleyin.

9. Boyutlar arası işlemler için sınırsız destek.

10. Sezgisel veri işleme.

11. Esnek raporlama mekanizması.

12. Sınırsız sayıda ölçüm ve toplama seviyeleri.

OLAP'ın gerçek tanımı olarak hizmet eden bu gereksinimler kümesi bir öneri olarak değerlendirilmeli ve tüm gereksinimlere ideal olarak tam uyum sağlamak için bireysel ürünler yaklaşıklık derecesine göre değerlendirilmelidir.


Veri madenciliği (Veri Madenciliği) ve bilgi (Bilgi Madenciliği). Büyük miktarda verinin yönetimi ve analizi (Büyük veri). İş zekası sistemleri (Business Intelligence, BI).

Veri madenciliği (DMA), veri görselleştirme yöntemlerinin uygulanmasının sonuçlarını kullanan matematiksel yöntemlerin ve algoritmaların (optimizasyon yöntemleri, genetik algoritmalar, örüntü tanıma, istatistiksel yöntemler, Veri Madenciliği vb.) aktif olarak kullanılması ile veri analizi için kullanılan genel bir terimdir.

Genel olarak, IAD süreci üç aşamadan oluşur:

1) kalıpların tanımlanması (ücretsiz arama);

2) bilinmeyen değerleri tahmin etmek için ortaya çıkan kalıpları kullanmak (tahmin);

3) bulunan kalıplardaki anormallikleri tanımlamak ve yorumlamak için istisnaların analizi.

Bazen, bulunan modellerin güvenilirliğini kontrol etmek için bunların bulunması ve kullanılması arasında bir ara aşama (doğrulama aşaması) vardır.

İlk verilerle çalışma ilkesine göre tüm IAD yöntemleri iki gruba ayrılır:

Kullanım Örneği Akıl Yürütme Yöntemleri - Ham veriler açık, ayrıntılı biçimde depolanabilir ve doğrudan tahmin ve/veya istisna analizi için kullanılabilir. Bu yöntem grubunun dezavantajı, büyük miktarda veri üzerinde kullanımlarının karmaşıklığıdır.

Birincil verilerden bilgi çıkarmayı ve onu, biçimi belirli bir yönteme bağlı olan bazı resmi yapılara dönüştürmeyi gerektiren biçimlendirilmiş kalıpları tanımlama ve kullanma yöntemleri.

Veri Madenciliği (DM), insan faaliyetinin çeşitli alanlarında karar vermek için gerekli olan ham verilerde daha önce bilinmeyen önemsiz olmayan, pratik olarak yararlı ve erişilebilir bilgileri keşfetme teknolojisidir. Veri Madenciliğinde kullanılan algoritmalar, daha önce bu yöntemlerin geniş pratik uygulamasında sınırlayıcı bir faktör olan çok sayıda hesaplama gerektirir, ancak modern işlemcilerin performansının artması bu sorunun ciddiyetini ortadan kaldırmıştır.

İş Zekası pazarı 5 sektörden oluşmaktadır:

1. OLAP ürünleri;

2. Veri madenciliği araçları;

3. Veri ambarları ve veri pazarları oluşturmak için araçlar (Veri Ambarı);

4. Yönetim bilgi sistemleri ve uygulamaları;

5. Sorgulama ve raporlama için son kullanıcı araçları.

Şu anda, kurumsal BI platformlarının liderleri arasında MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute ve diğerleri bulunmaktadır (Ek B, BI sistemlerinin bazı işlevlerinin karşılaştırmalı bir analizini sağlar).

UDK 621.37/39. 061.2/4

ANALİTİK BİLGİ İŞLEME YÖNTEMLERİ

GVOZDINSKYA.N., KLIMKO E.G., SOROKOVOY A.I.

Veri madenciliği yöntemlerinin (ayrıca: IAD, veri madenciliği, veritabanlarında bilgi keşfi olarak da adlandırılır) analitik bir incelemesi, Ukrayna koşulları için belirli bir yöntemin kullanımı dikkate alınarak gerçekleştirilir. Karmaşık bilgi sistemlerinde bilginin analitik olarak işlenmesine yönelik yöntemlerin gözden geçirilmesi, veri çıkarma hızı, genelleştirilmiş bilgi toplama ve sürecin güvenilirliğini artırma açısından ele alınır.

Veri madenciliği süreci, daha sonra yeni verilere uygulanabilecek değişkenler arasındaki kalıpları ve ilişkileri belirlemek için büyük miktarda bilginin analitik olarak incelenmesidir. Alınan bilgiler, bilgi olarak nitelendirilen bilgi düzeyine dönüştürülür. Bu süreç üç ana adımdan oluşur:

Araştırma (kalıpları ortaya çıkarma);

Bir model oluşturmak için tanımlanan kalıpları kullanma;

Bulunan kalıplardaki sapmaları tespit etmek ve açıklamak için istisna analizi.

IAD aracılığıyla yeni bilgi bulma, yapay zeka, matematik ve istatistik yöntemlerini kullanan yeni ve hızla gelişen bir yöndür. Bu süreç aşağıdaki adımları içerir:

Problem tanımı (problem bildirimi);

Veri Hazırlama;

Veri toplama: değerlendirilmesi, bütünleştirilmesi ve temizlenmesi, seçilmesi ve dönüştürülmesi;

Model oluşturma: değerlendirme ve yorumlama, harici doğrulama;

Model kullanımı;

Model gözlemi.

Bir model oluşturmak ve kalitesini artırmak için, bir dizi sorgu veya ön veri madenciliği yoluyla resmi veri doğrulama yardımcı olur. Böyle bir analiz için araçlar aşağıdaki ana yöntemleri içerir: sinir ağları, karar ağaçları, genetik algoritmalar ve bunların kombinasyonları.

Sinir ağları, doğrusal olmayan uyarlanabilir sistemler sınıfına aittir, yapı olarak, şartlı olarak nöronların sinir dokusuna benzerler.

Bu, girdi verilerini alan, işleyen ve çıktıda bazı sonuçlar üreten birbirine bağlı bir dizi düğümdür. Alt katmanın düğümlerine girdi parametrelerinin değerleri verilir, bunlara dayanarak karar vermek, durumun gelişimini tahmin etmek vb. için gerekli hesaplamalar yapılır.

Bu değerler, nöronlar arası bağlantılara atfedilen sayısal değerlere (ağırlıklara) bağlı olarak artan veya azalan, üstteki katmana iletilen sinyaller olarak kabul edilir. En üst katmandaki nöronun çıkışında, tüm ağın giriş başlangıç ​​​​değerlerine tepkisi olarak kabul edilen bir değer üretilir. Sinir ağının her bir elemanı, komşularından kısmen izole edildiğinden, bu tür algoritmalar hesaplamaları paralel hale getirme yeteneğine sahiptir. Şek. 1 koşullu gösterir

Şekil 1. Sinir ağı

Ağın boyutu ve yapısı, incelenen olgunun özüne uygun olmalıdır. İnşa edilen ağ, sözde "eğitim" sürecine tabi tutulur. Ağın nöronları, hem giriş parametrelerinin değerlerinin hem de bunlara doğru cevapların bilindiği giriş verilerini işler. Öğrenme, ağ yanıtlarının bilinen doğru yanıtlara en fazla yakınlığını sağlayan nöronlar arası bağlantıların ağırlıklarının seçilmesinden oluşur. Mevcut veriler üzerinde eğitimden sonra, ağ çalışmaya hazırdır ve geçmişteki gelişim verilerine dayanarak bir nesnenin gelecekteki davranışını tahmin etmek, analiz yapmak ve sapmaları ve benzerlikleri belirlemek için kullanılabilir. Dayandığı bağımlılıkların türü belirtilmeden güvenilir tahminler oluşturulabilir.

Sinir ağları, tahmin, sınıflandırma veya kontrol problemlerini çözmek için kullanılır.

Avantaj - ağlar herhangi bir sürekli fonksiyona yaklaşabilir, model hakkında önceden herhangi bir varsayımda bulunmaya gerek yoktur. İncelenmekte olan veriler eksik veya gürültülü olabilir.

Dezavantajı, büyük miktarda eğitim örneğine sahip olma ihtiyacıdır. Nihai karar, ilk ağ ayarlarına bağlıdır. Veriler sayısal forma dönüştürülmelidir. Ortaya çıkan model, keşfedilen bilgiyi (“kara kutu” olarak adlandırılan) açıklamaz.

Karar ağaçları, verilerin değişkenlerin değerlerine göre gruplara ayrılmasını kullanır. Sonuç, bir ağaca benzeyen "Eğer... Sonra..." ifadelerinin hiyerarşik bir yapısıdır. Bir nesneyi veya durumu sınıflandırmak için, bu ağacın düğüm noktalarındaki soruları kökünden başlayarak cevaplamanız gerekir. Cevap olumluysa, bir sonraki seviyenin sağ düğümüne, olumsuzsa sol düğüme vb. Cevapları bitirerek, son düğümlerden birine ulaşırlar, burada

UR, 2000, Sayı 4

söz konusu nesnenin hangi sınıfa atanması gerektiğini belirtir.

Karar ağaçları, sınıflandırma problemlerini çözmek için tasarlanmıştır ve bu nedenle finans ve iş dünyasında çok sınırlı kullanımları vardır.

Yöntemin avantajı, özelliklerin kullanıcılar için basit ve anlaşılır bir sunumudur. Hedef değişken olarak hem ölçülen hem de ölçülmeyen özellikler kullanılır - bu, yöntemin kapsamını genişletir.

Dezavantajı, önem sorunudur. Veriler birçok özel duruma bölünebilir, ağaçta istatistiksel olarak geçerli cevaplar vermeyen bir “çalılık” vardır. Yararlı sonuçlar yalnızca bağımsız özellikler durumunda elde edilir.

Genetik algoritmalar, doğadaki doğal seçilim sürecini taklit eder. Bazı kriterler açısından daha uygun olan bir sorunu çözmek için, tüm çözümler bir dizi sayı veya sayısal olmayan niteliklerle tanımlanır. Optimum çözüm arayışı, kromozom kümeleriyle temsil edilen bir birey popülasyonunun evrimine benzer. Bu evrimde işleyen üç mekanizma vardır, Şekil 1'de gösterilmiştir. 2.

Aşağıdaki mekanizmalar ayırt edilebilir:

En uygun çözümlere karşılık gelen en güçlü kromozom setlerinin seçimi;

Çaprazlama - seçilen bireylerin kromozom setlerini karıştırarak yeni bireyler elde etme;

Mutasyonlar, bir popülasyondaki bazı bireylerde genlerdeki rastgele değişikliklerdir.

Nesillerin değişmesinin bir sonucu olarak, soruna artık daha fazla iyileştirilemeyecek bir çözüm geliştirilir.

Avantaj - yöntem, kombinatorik ve optimizasyonun çeşitli problemlerini çözmek için uygundur, bilimsel araştırma için bir araç olarak daha çok tercih edilir.

Dezavantajı, sorunu etkili bir şekilde formüle etme, kromozomların seçimi için kriteri belirleme ve seçim prosedürünün kendisi buluşsaldır ve bunu yalnızca bir uzman yapabilir. Sorunun terimlerle formüle edilmesi, onların yardımıyla elde edilen çözümün istatistiksel önemini analiz etmeyi mümkün kılmaz.

Akıllı analitik veri işlemeye yönelik bilgisayar teknolojileri, yapay zeka, istatistik, veri tabanı teorisi yöntemlerinin kullanılmasını ve modern akıllı sistemlerin oluşturulmasını mümkün kılar.

Şu anda, bilgi ambarları (veri ambarı, veri ambarı) - karar verme için gerekli bilgilere en hızlı ve en uygun erişimi sağlayan en uygun şekilde organize edilmiş veritabanları - oluşturma konusunda ciddi bir sorun var. Depolama, çeşitli kaynaklardan uzun bir süre boyunca değişmeden kalan güvenilir bilgileri toplar. Veriler, tanımladığı alanlara (domain-spesifik) göre toplanır ve saklanır ve tüm işletmenin gereksinimlerini karşılar (entegre).

Çoğu yerli girişimin görece kısa mevcudiyet süresi göz önüne alındığında, analiz edilen verilerin azlığı, işletmelerin istikrarsızlığı Yasama çerçevesi, veri madenciliği sistemlerini kullanarak etkili bir karar verme stratejisi geliştirmede zorluk vardır. Bu nedenle, genetik algoritmaların finans ve iş alanındaki verileri araştırmak için en kabul edilebilir yöntem olacağı tahmin edilmektedir ve görüntüleri ve gerçekleri sınıflandırma görevleri için karar ağacı yöntemlerini veya sinir ağlarını kullanmak daha iyidir.

Literatür: 1. Shchavelev L.V. Veri madenciliği. http://www.citforum.ru/seminars/cis99/sch_04.shtml, 2. Burov K. Veri ambarlarında bilginin keşfi // Açık sistemler. 1999. No. 5-6., http: / /www.osp.ru/os/l999/05-06/14.htm. 3. Kiselev M, Solomatin E. İşletme ve finansta bilgi çıkarma araçları // Açık sistemler. 1997. 4 numara. 41-44. 4. Krechetov N, Ivanov P. Veri madenciliği için ürünler // Bilgisayar Haftası - Moskova. 1997. Sayı 14-15. 32-39. 5. Edelstein H. Bilgi ambarlarında verileri analiz etmek ve sunmak için akıllı araçlar // Bilgisayar Haftası - Moskova. 1996. 16 numara. 32-35.

Yayın kuruluna alındı ​​06/22/2000

İnceleyen: Dr. tech. bilimler, Prof. Putyatin V.P.

Gvozdinsky Anatoly Nikolaevich, Ph.D. teknoloji Fen Bilimleri, Yapay Zeka Bölümü Öğretim Üyesi Prof. Bilimsel ilgi alanları: karmaşık bilgi yönetim sistemlerinin etkinliğinin değerlendirilmesi. İlgi alanları ve hobiler: klasik müzik, turizm. Adres: Ukrayna, 61166, Kharkiv, st. akad. Lyapunova, 7, apt. 9, tel. 32-69-08.

Bölüm asistanı Klimko Elena Genrikhovna bilgisayar Teknolojisi ve Yuriy Kondratyuk'un adını taşıyan Poltava Devlet Teknik Üniversitesi'nin bilgi sistemleri. KhTURE Yapay Zeka Bölümü'nün yüksek lisans öğrencisi (iş başında). Bilimsel ilgi alanları: analitik veri analizi. İlgi alanları ve hobiler: okumak, örgü örmek. Adres: Ukrayna, 36021, Poltava, st. Elmas, 1-A, apt. 34, tel. (053-22) 3-43-12.

Sorokov Alexander Ivanovich, Ph.D. teknoloji Bilim Doktorası, Bilgisayar Teknolojileri ve Bilişim Sistemleri Bölümü Doçenti, Yuriy Kondratyuk Poltava Devlet Teknik Üniversitesi. Araştırma Alanları: KDD (Bilgi Keşfi). İlgi alanları ve hobiler: köpekler. Adres: Ukrayna, 36022, Poltava, per. Kırık, 37A, tel.(053-2) 18-60-87, e-posta: [e-posta korumalı]

4. OLAP ürünlerinin sınıflandırılması.

5. OLAP istemcilerinin çalışma ilkeleri.

7. OLAP teknolojilerinin uygulama alanları.

8. Satış alanında analiz için OLAP teknolojilerinin kullanımına bir örnek.

1. OLAP'ın işletmenin bilgi yapısındaki yeri.

"OLAP" terimi, "veri ambarı" (Veri Ambarı) terimiyle ayrılmaz bir şekilde bağlantılıdır.

Depolamadaki veriler, iş süreçlerini otomatikleştirmek için tasarlanmış operasyonel sistemlerden (OLTP sistemleri) gelir. Ek olarak, veri havuzu istatistiksel raporlar gibi harici kaynaklardan da doldurulabilir.

Deponun görevi, analiz için "hammaddeyi" tek bir yerde ve basit, anlaşılır bir yapıda sağlamaktır.

Ayrı bir depolamanın görünümünü haklı çıkaran başka bir neden daha var - operasyonel bilgiler için karmaşık analitik sorgular, şirketin mevcut işini yavaşlatıyor, tabloları uzun süre engelliyor ve sunucu kaynaklarını ele geçiriyor.

Depolama altında, ille de devasa bir veri birikimi olmadığı anlaşılabilir - asıl mesele, analiz için uygun olmasıdır.

Merkezileştirme ve uygun yapılanma, bir analistin ihtiyaç duyduğu her şeyden uzaktır. Sonuçta, bilgileri görüntülemek ve görselleştirmek için hala bir araca ihtiyacı var. Tek bir veri havuzuna dayalı olarak oluşturulmuş olsa bile geleneksel raporların tek bir eksiği vardır: esneklik. Verilerin istenen görünümünü elde etmek için "bükülemez", "genişletilemez" veya "daraltılamaz". Keşke verileri basit ve rahat bir şekilde genişletip daraltmasına izin verecek bir aracı olsaydı! OLAP böyle bir araçtır.

OLAP, bir veri ambarının gerekli bir özelliği olmasa da, bu veri ambarında biriken bilgileri analiz etmek için giderek daha fazla kullanılmaktadır.

OLAP'ın işletmenin bilgi yapısındaki yeri (Şekil 1).

Resim 1. YerOLAP işletmenin bilgi yapısında

Operasyonel veriler çeşitli kaynaklardan toplanır, temizlenir, entegre edilir ve ilişkisel bir depoya konur. Aynı zamanda, çeşitli raporlama araçları kullanılarak analiz için hazırdırlar. Daha sonra veriler (tamamen veya kısmen) OLAP analizi için hazırlanır. Özel bir OLAP veri tabanına yüklenebilir veya ilişkisel bir depoda bırakılabilirler. En önemli unsuru meta verilerdir, yani verilerin yapısı, yerleşimi ve dönüşümü hakkında bilgi. Onlar sayesinde çeşitli depolama bileşenlerinin etkin etkileşimi sağlanır.

Özetle, OLAP'ı bir depoda biriken verilerin çok boyutlu analizi için bir dizi araç olarak tanımlayabiliriz.

2. Operasyonel analitik veri işleme.

OLAP kavramı, çok boyutlu veri gösterimi ilkesine dayanmaktadır. 1993 yılında E. F. Codd, ilişkisel modelin eksikliklerini ele almış, her şeyden önce "verileri çok boyutluluk açısından, yani kurumsal analistler için en anlaşılır şekilde birleştirmenin, görüntülemenin ve analiz etmenin" imkansızlığına işaret etmiş ve genel tespitler yapmıştır. ilişkisel DBMS işlevselliğini genişleten ve özelliklerinden biri olarak çok boyutlu analizi içeren OLAP sistemleri için gereksinimler.

Codd'a göre, verilerin çok boyutlu kavramsal görünümü, belirli veri kümelerinin analiz edilebildiği birkaç bağımsız boyuttan oluşan çoklu bir bakış açısıdır.

Birden çok boyutta eşzamanlı analiz, çok değişkenli analiz olarak tanımlanır. Her boyut, bir dizi ardışık genelleştirme düzeyinden oluşan veri birleştirme yönergelerini içerir; burada her bir yüksek düzey, karşılık gelen boyut için daha büyük bir veri toplama derecesine karşılık gelir.

Böylece Yüklenici boyutu, "işletme - alt bölüm - departman - çalışan" genelleme düzeylerinden oluşan konsolidasyon yönüne göre belirlenebilir. Zaman boyutu, aylara ve haftalara göre zaman sayımı uyumlu olmadığından "yıl - çeyrek - ay - gün" ve "hafta - gün" olmak üzere iki konsolidasyon yönünü bile içerebilir. Bu durumda, ölçümlerin her biri için istenen bilgi ayrıntısı seviyesini keyfi olarak seçmek mümkün hale gelir.

Alçalma işlemi (delme), daha yüksek konsolidasyon seviyelerinden daha düşük seviyelere doğru harekete karşılık gelir; aksine kaldırma (yuvarlama) işlemi, alt seviyelerden üst seviyelere doğru hareket etme anlamına gelir (Res. 2).


Şekil 2.Veri birleştirmenin boyutları ve yönleri

3. Operasyonel analitik işleme araçları için gereklilikler.

Çok boyutlu yaklaşım, ilişkisel yaklaşımla neredeyse aynı anda ve paralel olarak ortaya çıktı. Bununla birlikte, yalnızca doksanların ortalarından başlayarak veya daha doğrusu
1993, ilgi MDBMS general olmaya başladı. İlişkisel yaklaşımın kurucularından birinin yeni bir politika makalesi bu yıl yayınlandı. E. Codda, uygulama araçları için 12 temel gereksinimi formüle ettiği OLAP(Tablo 1).

Tablo 1.

Çok Boyutlu Veri Görünümü

Araçlar, verilerin kavramsal düzeyde çok boyutlu bir görünümünü desteklemelidir.

şeffaflık

Kullanıcının, verileri depolamak ve işlemek için hangi özel araçların kullanıldığını, verilerin nasıl düzenlendiğini ve nereden geldiğini bilmesine gerek yoktur.

Kullanılabilirlik

Araçların kendileri, belirli bir talebe yanıt oluşturmak için en iyi veri kaynağını seçmeli ve onunla ilişki kurmalıdır. Araçlar, kendi mantıksal şemalarının çeşitli heterojen veri kaynaklarına otomatik olarak eşlenmesini sağlamalıdır.

Tutarlı Performans

Performans, sorgudaki Boyutların sayısından pratik olarak bağımsız olmalıdır.

İstemci-sunucu mimarisi desteği

Araçlar bir istemci-sunucu mimarisinde çalışmalıdır.

Tüm boyutların eşitliği

Boyutların hiçbiri temel olmamalı, hepsi eşit (simetrik) olmalıdır.

Seyrek matrislerin dinamik kullanımı

Boş değerler en verimli şekilde saklanmalı ve işlenmelidir.

Verilerle çok kullanıcılı çalışma modu desteği

Araçlar birden fazla kullanıcının çalışmasına izin vermelidir.

Çeşitli ölçümlere dayalı işlemler için destek

Tüm çok boyutlu işlemler (örneğin Toplama), herhangi bir sayıda herhangi bir boyuta tek tip ve tutarlı bir şekilde uygulanmalıdır.

Veri İşleme Kolaylığı

Araçlar en uygun, doğal ve rahat kullanıcı arayüzüne sahip olmalıdır.

Gelişmiş veri sunum araçları

Araçlar, verilerin çeşitli görselleştirme (temsil) yollarını desteklemelidir.

Sınırsız sayıda boyut ve veri toplama düzeyi

Desteklenen Boyutların sayısında bir sınır olmamalıdır.

OLAP sınıfı yazılım ürünlerini değerlendirme kuralları

OLAP'ın fiili tanımı olarak hizmet eden bu gereksinimler grubu, tavsiyeler olarak değerlendirilmeli ve tek tek ürünler, tüm gereksinimlere ideal olarak tam uyum sağlamak için yaklaşıklık derecesine göre değerlendirilmelidir.

Daha sonra Codd'un tanımı, bir OLAP uygulamasının paylaşılan çok boyutlu bilgileri hızlı bir şekilde analiz etme yeteneği sağlamasını gerektiren FASMI testi olarak yeniden düzenlendi.

Codd'un 12 Kuralını hatırlamak çoğu insan için çok külfetlidir. OLAP tanımını yalnızca beş anahtar sözcükle özetleyebileceğiniz ortaya çıktı: Paylaşılan Çok Boyutlu Bilginin Hızlı Analizi - veya kısaca - FASMI (İngilizce'den çevrilmiştir:F ast A analizi S paylaşılan M çok boyutlu BEN bilgi).

Bu tanım ilk olarak 1995'in başlarında formüle edildi ve o zamandan beri revizyona ihtiyaç duymadı.

HIZLI ( Hızlı ) - sistemin kullanıcılara yanıtların çoğunu yaklaşık beş saniye içinde vermesi gerektiği anlamına gelir. Aynı zamanda, en basit istekler bir saniye içinde ve çok az - 20 saniyeden fazla - işlenir. Araştırmalar, son kullanıcıların 30 saniye sonra sonuç alınmazsa işlemi başarısız olarak algıladıklarını göstermiştir.

İlk bakışta, kısa bir süre önce günler süren bir raporu bir dakika içinde alırken, kullanıcının beklerken çok çabuk sıkılması ve projenin bir proje durumunda olduğundan çok daha az başarılı olması şaşırtıcı görünebilir. daha az ayrıntılı analiz pahasına bile anında yanıt.

ANALİZ (Analiz)sistemin belirli bir uygulamaya özgü herhangi bir mantıksal ve istatistiksel analizi işleyebilmesi ve son kullanıcının erişebileceği bir biçimde tutulmasını sağlaması anlamına gelir.

Bu analizin satıcının kendi araçlarında mı yoksa elektronik tablo gibi ilgili bir harici yazılım ürününde mi yapıldığı o kadar önemli değildir, sadece gerekli tüm analiz işlevlerinin son kullanıcılar için sezgisel bir şekilde sağlanması gerekir. Analiz araçları, zaman serisi analizi, maliyet tahsisi, döviz transferleri, hedef arama, değişen çok boyutlu yapılar, prosedürel olmayan modelleme, istisna tespiti, veri çıkarma ve diğer uygulamaya bağlı işlemler gibi belirli prosedürleri içerebilir. Bu yetenekler, hedef yönüne bağlı olarak ürünler arasında büyük farklılıklar gösterir.

PAYLAŞTI (Paylaşıldı) sistemin tüm gizlilik koruma gereksinimlerini (belki hücre düzeyine kadar) uyguladığı ve birden fazla yazma erişimi gerekiyorsa uygun düzeyde değişiklik kilitlemeyi uyguladığı anlamına gelir. Tüm uygulamaların verileri geri yazması gerekmez. Bununla birlikte, bu tür uygulamaların sayısı artıyor ve sistemin birden çok değişikliği zamanında ve güvenli bir şekilde halledebilmesi gerekiyor.

ÇOK BOYUTLU - bu önemli bir gerekliliktir. OLAP'ı tek kelimeyle tanımlamamız gerekseydi, onu seçerdik. İş ve organizasyonları analiz etmenin kesinlikle en mantıklı yolu olduğundan, sistem, hiyerarşiler ve çoklu hiyerarşiler için tam destek dahil olmak üzere verilerin çok boyutlu kavramsal bir temsilini sağlamalıdır. Uygulamaya da bağlı olduğundan işlenmesi gereken minimum boyut sayısı yoktur ve çoğu OLAP ürünü hedefledikleri pazarlar için yeterli boyuta sahiptir.

BİLGİ - hepsi bu. Gerekli bilgiler ihtiyaç duyulan yerde alınmalıdır. Ancak, çoğu uygulamaya bağlıdır. Çeşitli ürünlerin gücü, ne kadar gigabayt depolayabildikleri ile değil, ne kadar girdi işleyebildikleri ile ölçülür. Ürünlerin gücü büyük ölçüde değişir - en büyük OLAP ürünleri, en küçüğünden en az bin kat daha fazla veri işleyebilir. Bu konuda dikkate alınması gereken, veri çoğaltma, gerekli RAM, disk alanı kullanımı, performans, bilgi depolarıyla entegrasyon vb. birçok faktör vardır.

FASMI testi, OLAP'ın odaklandığı hedeflerin makul ve anlaşılır bir tanımıdır.

4. SınıflandırmaOLAP- ürünler.

Yani, OLAP'ın özü analiz için ilk bilgilerin çok boyutlu bir küp şeklinde sunulması ve keyfi olarak manipüle edilmesi ve gerekli bilgi bölümlerinin - raporların alınmasının mümkün olması gerçeğinde yatmaktadır. Aynı zamanda, son kullanıcı, küpü çeşitli bölümlerdeki (boyutlardaki) verileri (olguları) otomatik olarak özetleyen ve hesaplamaları ve raporun biçimini etkileşimli olarak yönetmenizi sağlayan çok boyutlu dinamik bir tablo olarak görür. Bu işlemler yapılır OLAP makine (veya makine OLAP hesaplama).

Bugüne kadar dünyada uygulayan birçok ürün geliştirilmiştir. OLAP -teknolojiler. Aralarında gezinmeyi kolaylaştırmak için sınıflandırmaları kullanın OLAP -ürünler: analiz için veri depolama yoluyla ve konuma göre OLAP -arabalar. Her kategoriye daha yakından bakalım. OLAP ürünleri.

Veri depolama yöntemine göre sınıflandırma

Çok boyutlu küpler, kaynak ve birleştirilmiş veriler temelinde oluşturulur. Küpler için hem kaynak hem de toplu veriler, hem ilişkisel hem de çok boyutlu veritabanlarında saklanabilir. Bu nedenle, şu anda verileri depolamanın üç yolu vardır: MOLAP (Çok Boyutlu OLAP), ROLAP (İlişkisel OLAP) ve HOLAP (Hibrit OLAP) ). Sırasıyla, OLAP -veri depolama yöntemine göre ürünler üç benzer kategoriye ayrılır:

1. MOLAP durumunda , kaynak ve birleştirilmiş veriler, çok boyutlu bir veritabanında veya çok boyutlu bir yerel küpte depolanır.

2. ROLAP'ta -ürünler, kaynak veriler dosya sunucusundaki ilişkisel veritabanlarında veya düz yerel tablolarda depolanır. Toplu veriler, aynı veritabanındaki hizmet tablolarına yerleştirilebilir. İlişkisel bir veritabanından çok boyutlu küplere veri dönüştürme istek üzerine gerçekleşir OLAP araçları.

3. Kullanım durumunda HOLAP mimaride, kaynak veriler ilişkisel veritabanında kalırken, kümeler çok boyutlu olana yerleştirilir. Bina OLAP - istek üzerine gerçekleştirilen küp OLAP -ilişkisel ve çok boyutlu verilere dayalı araçlar.

Konum sınıflandırması OLAP-arabalar.

Bu temelde OLAP -Ürünler ayrılır OLAP sunucuları ve OLAP istemcileri:

· OLAP sunucusunda - toplu verilerin hesaplanması ve depolanması, ayrı bir işlem olan sunucu tarafından gerçekleştirilir. İstemci uygulaması, yalnızca sunucuda depolanan çok boyutlu küplere yönelik sorguların sonuçlarını alır. Bazı OLAP -sunucular veri depolamayı yalnızca ilişkisel veritabanlarında, bazıları - yalnızca çok boyutlu olanlarda destekler. Birçok modern OLAP -sunucular veri depolamanın üç yolunu da destekler:MOLAP, ROLAP ve HOLAP.

MOLAP.

MOLAP Çok Boyutlu Çevrimiçi Analitik İşleme, yani Çok boyutlu OLAP.Bu, sunucunun verileri depolamak için çok boyutlu bir veritabanı (MBD) kullandığı anlamına gelir. MDB kullanmanın anlamı açıktır. Doğası gereği çok boyutlu verileri verimli bir şekilde depolayabilir ve veritabanı sorgularına hızlı bir şekilde hizmet vermenin bir yolunu sağlar. Veriler, veri kaynağından çok boyutlu veritabanına aktarılır ve ardından veritabanı toplanır. Özet veriler zaten hesaplanmış olduğundan, ön hesaplama OLAP sorgularını hızlandırır. Sorgu süresi, yalnızca belirli bir veri parçasına erişmek ve bir hesaplama yapmak için gereken sürenin bir işlevi haline gelir. Bu yöntem, işin bir kez yapıldığı ve sonuçların tekrar tekrar kullanıldığı konseptini destekler. Çok boyutlu veritabanları nispeten yeni bir teknolojidir. MDB'nin kullanımı, çoğu yeni teknolojiyle aynı dezavantajlara sahiptir. Yani, ilişkisel veritabanları (RDB'ler) kadar kararlı değiller ve aynı ölçüde optimize edilmemişler. MDB'nin diğer bir zayıf noktası, veri toplama sürecinde çok boyutlu veritabanlarının çoğunun kullanılamamasıdır, bu nedenle yeni bilgilerin analiz için kullanılabilir hale gelmesi zaman alır.

ROLAP.

ROLAP İlişkisel Çevrimiçi Analitik İşleme, yani İlişkisel OLAP.ROLAP terimi, OLAP sunucusunun ilişkisel bir veritabanına dayalı olduğu anlamına gelir. Kaynak veriler, alma sürelerini kısaltmaya yardımcı olmak için, genellikle bir yıldız veya kar tanesi şemasında ilişkisel bir veritabanına girilir. Sunucu, optimize edilmiş SQL sorguları kullanarak çok boyutlu bir veri modeli sağlar.

Çok boyutlu bir veritabanı yerine ilişkisel bir veritabanını seçmenin birkaç nedeni vardır. RDB, optimizasyon için pek çok fırsatı olan köklü bir teknolojidir. Gerçek dünya kullanımı daha olgun bir ürünle sonuçlandı. Ek olarak, RDB'ler MDB'lerden daha büyük miktarda veriyi destekler. Sadece bu tür hacimler için tasarlandılar. RDB'lere karşı ana argüman, SQL kullanarak büyük bir veritabanından bilgi almak için gereken sorguların karmaşıklığıdır. Deneyimsiz bir SQL programcısı, bir MDB'de gerçekleştirmesi çok daha kolay olan bu tür bazı sorguları yürütmeye çalışarak değerli sistem kaynaklarını kolayca yükleyebilir.

Birleştirilmiş/Önceden birleştirilmiş veriler.

Hızlı sorgu uygulaması, OLAP için bir zorunluluktur. Bu, OLAP'ın temel ilkelerinden biridir - verileri sezgisel olarak manipüle etme yeteneği, hızlı bilgi almayı gerektirir. Genel olarak, bir bilgi parçası elde etmek için ne kadar çok hesaplama yapılması gerekiyorsa, yanıt o kadar yavaş olur. Bu nedenle, küçük bir sorgu uygulama süresinden tasarruf etmek için, genellikle en sık erişilen ancak hesaplama gerektiren bilgi parçaları önceden toplanır. Yani bunlar sayılır ve daha sonra veritabanında yeni veriler olarak saklanır. Önceden hesaplanabilecek veri türüne bir örnek, girilen gerçek verilerin günlük rakamlar olduğu aylık, üç aylık veya yıllık satış rakamları gibi özet verilerdir.

Farklı satıcıların, ön toplama ve bir dizi önceden hesaplanmış değer gerektiren parametre seçmek için farklı yöntemleri vardır. Toplama yaklaşımı, hem veritabanını hem de sorguların yürütme süresini etkiler. Daha fazla değer hesaplanırsa, kullanıcının zaten hesaplanmış olan değeri talep etme olasılığı artar ve bu nedenle, hesaplama için ilk değerin talep edilmesi gerekmeyeceğinden yanıt süresi kısalır. Bununla birlikte, tüm olası değerleri hesaplarsanız - bu en iyi çözüm değildir - bu durumda, veritabanının boyutu önemli ölçüde artacak, bu da onu yönetilemez hale getirecek ve toplama süresi çok uzun olacaktır. Ayrıca veri tabanına sayısal değerler eklendiğinde veya değiştirildiğinde bu bilgilerin yeni verilere bağlı olarak önceden hesaplanmış değerlere yansıtılması gerekir. Bu nedenle, çok sayıda önceden hesaplanmış değer olması durumunda veritabanının güncellenmesi de uzun zaman alabilir. Toplama sırasında veritabanı genellikle çevrimdışı çalıştığından, toplama süresinin çok uzun olmaması istenir.

OLAP İstemci farklı şekilde yapılandırılmıştır. Çok boyutlu bir küpün inşası ve OLAP -hesaplamalar client bilgisayarın hafızasında yapılır.OLAP -Müşteriler de ikiye ayrılır ROLAP ve MOLAP.Bazıları her iki veri erişim seçeneğini de destekleyebilir.

Bu yaklaşımların her birinin artıları ve eksileri vardır. Sunucu araçlarının istemci araçlara göre avantajlarına ilişkin yaygın inanışın aksine, bazı durumlarda OLAP -kullanıcılar için istemci kullanımı daha verimli ve karlı olabilir OLAP sunucuları.

İstemci OLAP araçlarını kullanarak analitik uygulamaların geliştirilmesi hızlı bir süreçtir ve uygulayıcının özel eğitimini gerektirmez. Veritabanının fiziksel uygulamasını bilen bir kullanıcı, bir BT uzmanının katılımı olmadan kendi başına bir analitik uygulama geliştirebilir.

Bir OLAP sunucusu kullanırken, sunucu üzerinde küp oluşturmak ve bir istemci uygulaması geliştirmek için bazen farklı satıcılardan olmak üzere 2 farklı sistemi öğrenmeniz gerekir.

OLAP istemcisi, küpleri tanımlamak ve onlar için kullanıcı arayüzlerini özelleştirmek için tek bir görsel arayüz sağlar.

Peki, hangi durumlarda kullanıcılar için bir OLAP istemcisi kullanmak, bir OLAP sunucusu kullanmaktan daha verimli ve faydalı olabilir?

· Uygulamanın ekonomik fizibilitesi OLAP - sunucu, veri miktarı çok büyük ve dayanılmaz olduğunda oluşur OLAP -client, aksi halde ikincisinin kullanımı daha haklı. Bu durumda OLAP -Müşteri, yüksek performans özelliklerini ve düşük maliyeti birleştirir.

· Güçlü analist bilgisayarları, lehine olan başka bir argümandır. OLAP -müşteriler. uygulandığında OLAP -sunucu bu kapasiteler kullanılmaz.

OLAP istemcilerinin diğer avantajları şunları içerir:

· Uygulama ve bakım maliyetleri OLAP -müşteri maliyetinden önemli ölçüde daha düşüktür OLAP sunucusu.

· kullanma OLAP -İstemci yerleşik makine ile ağ üzerinden veri aktarımı bir kez yapılır. Yaparak OLAP -işlemlerde yeni veri akışları oluşturulmaz.

5. Çalışma ilkeleri OLAP-müşteriler.

İstemci aracını kullanarak bir OLAP uygulaması oluşturma sürecini düşünün (Şekil 1).

Resim 1.ROLAP İstemci Aracını Kullanarak Bir OLAP Uygulaması Oluşturun

ROLAP istemcilerinin çalışma prensibi, arkasında kaynak verinin fiziksel yapısının gizlendiği semantik katmanın ön açıklamasıdır. Bu durumda, veri kaynakları şunlar olabilir: yerel tablolar, RDBMS. Desteklenen veri kaynaklarının listesi, ilgili yazılım ürünü tarafından belirlenir. Bundan sonra kullanıcı, küpler ve analitik arayüzler oluşturmak için konu alanı açısından anladığı nesneleri bağımsız olarak manipüle edebilir.

OLAP sunucu istemcisinin çalışma prensibi farklıdır. OLAP sunucusunda, küpler oluşturulurken, kullanıcı veritabanının fiziksel tanımlarını değiştirir. Bu, küpün kendisinde özel açıklamalar oluşturur. OLAP Sunucusu istemcisi yalnızca küp için yapılandırılır.

Semantik bir katman oluştururken, veri kaynakları - Satış ve Anlaşma tabloları - son kullanıcının anlayabileceği terimlerle açıklanır ve "Ürünler" ve "Anlaşmalar" haline dönüşür. "Ürünler" tablosundaki "Kimlik" alanı, "Kod" olarak ve "Ad" - "Ürün" vb. olarak yeniden adlandırılır.

Ardından bir Satış iş nesnesi oluşturulur. Bir iş nesnesi, temelinde çok boyutlu bir küpün oluşturulduğu düz bir tablodur. Bir iş nesnesi oluştururken, "Ürünler" ve "Anlaşmalar" tabloları, ürünün "Kod" alanıyla birleştirilir. Tabloların tüm alanlarının raporda görüntülenmesi gerekmeyeceğinden, iş nesnesi yalnızca "Kalem", "Tarih" ve "Miktar" alanlarını kullanır.

Örneğimizde, "Satış" iş nesnesine dayalı olarak, aylara göre mal satışlarına ilişkin bir rapor oluşturulmuştur.

Etkileşimli bir raporla çalışırken, kullanıcı aynı basit fare hareketleriyle filtreleme ve gruplama koşullarını ayarlayabilir. Bu noktada, ROLAP istemcisi önbellekteki verilere erişir. OLAP sunucusunun istemcisi, çok boyutlu veritabanına yeni bir sorgu oluşturur. Örneğin satış raporunda ürün filtresi uygulayarak ilgilendiğimiz ürünlerin satışı hakkında rapor alabilirsiniz.

Bir OLAP uygulaması için tüm ayarlar, özel bir meta veri deposunda, bir uygulamada veya çok boyutlu bir veritabanı sistemi deposunda saklanabilir.Uygulama, belirli yazılım ürününe bağlıdır.

Bu uygulamalara dahil edilen her şey, arayüzün standart bir görünümü, önceden tanımlanmış işlevler ve yapı ve az çok standart durumlar için hızlı düzeltmelerdir. Örneğin, finansal paketler popülerdir. Önceden oluşturulmuş finansal uygulamalar, profesyonellerin bir veri tabanı yapısı veya ortak formlar ve raporlar tasarlamak zorunda kalmadan tanıdık finansal araçları kullanmalarına olanak tanır.

İnternet, yeni bir müşteri biçimidir. Ayrıca yeni teknolojilerin damgasını taşır; bir demet internet çözümleri genel olarak yetenekleri ve özel olarak bir OLAP çözümünün kalitesi açısından önemli ölçüde farklılık gösterir. İnternet üzerinden OLAP raporları oluşturmanın birçok avantajı vardır. En önemlisi, bilgiye erişim için özel bir yazılıma ihtiyaç olmamasıdır. Bu, şirkete çok fazla zaman ve para tasarrufu sağlar.

6. OLAP uygulama mimarisi seçimi.

Bir bilgi-analitik sistemi uygularken, bir OLAP uygulamasının mimarisini seçerken hata yapmamak önemlidir. On-Line Analytical Process teriminin harfi harfine çevirisi - "on-line analitik işleme" - genellikle sisteme giren verilerin hızlı bir şekilde analiz edilmesi anlamında tam anlamıyla alınır. Bu bir yanılsamadır - analizin verimliliği, sistemdeki verilerin güncellenmesinin gerçek zamanı ile hiçbir şekilde bağlantılı değildir. Bu özellik, OLAP sisteminin kullanıcı isteklerine yanıt verme süresini ifade eder. Aynı zamanda, örneğin depolardaki veriler günde bir kez güncelleniyorsa, analiz edilen veriler genellikle "dün için" bilgilerin bir anlık görüntüsüdür.

Bu bağlamda OLAP'ın "etkileşimli analitik işleme" olarak çevrilmesi daha doğrudur. OLAP sistemlerini düzenlenmiş raporların hazırlanmasına yönelik sistemlerden ayıran, verileri etkileşimli bir modda analiz etme yeteneğidir.

OLAP'ın atası E. Codd'un formülasyonundaki etkileşimli işlemenin bir başka özelliği de "verileri birden çok boyut açısından yani kurumsal analistler için en anlaşılır şekilde birleştirme, görüntüleme ve analiz etme" yeteneğidir. Codd'un kendisi için OLAP terimi, verileri kavramsal düzeyde - çok boyutlu - sunmanın son derece özel bir yolunu ifade eder. Fiziksel düzeyde, veriler ilişkisel veritabanlarında saklanabilir, ancak gerçekte OLAP araçları, verilerin bir hiperküp şeklinde düzenlendiği çok boyutlu veritabanlarıyla çalışma eğilimindedir (Şekil 1).

Resim 1. OLAP- küp (hiperküp, metaküp)

Aynı zamanda, bu verilerin alaka düzeyi, hiperküpün yeni verilerle doldurulduğu an tarafından belirlenir.

Çok boyutlu bir veri tabanının oluşum zamanının önemli ölçüde ona yüklenen veri miktarına bağlı olduğu açıktır, bu nedenle bu miktarı sınırlamak mantıklıdır. Ancak analiz olanaklarını nasıl daraltmamalı ve kullanıcıyı ilgili tüm bilgilere erişimden mahrum bırakmamalı? İki alternatif yol vardır: Analiz et sonra sorgula ("Önce analiz et - sonra ek bilgi talep et") ve Sorgula sonra analiz et ("Önce verileri sorgula - sonra analiz et").

İlk yolun takipçileri, genelleştirilmiş bilgilerin çok boyutlu bir veritabanına yüklenmesini önerir; örneğin, bölümler için aylık, üç aylık, yıllık sonuçlar. Verilerin rafine edilmesi gerekirse, kullanıcıdan örneğin belirli bir departman için günlere göre veya seçilen bir departmanın aylara ve çalışanlarına göre gerekli seçimi içeren bir ilişkisel veritabanı hakkında bir rapor oluşturması istenir.

İkinci yolun savunucuları, aksine, kullanıcının her şeyden önce analiz edeceği verilere karar vermesini ve onu bir mikroküpe - küçük, çok boyutlu bir veritabanına yüklemesini önerir. Her iki yaklaşım da kavramsal düzeyde farklılık gösterir ve avantaj ve dezavantajları vardır.

İkinci yaklaşımın avantajları, kullanıcının çok boyutlu bir rapor - "mikroküp" biçiminde aldığı bilgilerin "tazeliğini" içerir. Mikroküp, gerçek ilişkisel veritabanından az önce talep edilen bilgilere dayalı olarak oluşturulur. Bir mikroküp ile çalışmak etkileşimli bir modda gerçekleştirilir - bilgi dilimlerinin elde edilmesi ve bir mikroküp çerçevesinde detaylandırılması anında gerçekleştirilir. Diğer bir olumlu nokta, yapının tasarımının ve mikroküpün doldurulmasının, bir veritabanı yöneticisinin katılımı olmadan kullanıcı tarafından "anında" gerçekleştirilmesidir. Bununla birlikte, yaklaşım aynı zamanda ciddi eksikliklerden de muzdariptir. Kullanıcı büyük resmi görmez ve araştırmasının yönüne önceden karar vermelidir. Aksi takdirde, talep edilen mikroküp çok küçük olabilir ve ilgilenilen tüm verileri içermeyebilir ve kullanıcının yeni bir mikroküp, ardından yenisini, ardından bir başkasını ve bir başkasını istemesi gerekir. Daha sonra Sorgula analiz yaklaşımı, aynı adlı şirketin BusinessObjects aracını ve Company Contour platformunun araçlarını uygular.ıntersoft laboratuvar

Analiz et sonra sorgula yaklaşımı ile çok boyutlu bir veritabanına yüklenen veri miktarı oldukça fazla olabilir, doldurmanın kurallara göre yapılması gerekir ve çok zaman alabilir. Bununla birlikte, tüm bu eksiklikler, kullanıcı herhangi bir kombinasyonda neredeyse tüm gerekli verilere eriştiğinde daha sonra kendini amorti eder. İlişkisel veri tabanındaki orijinal verilere referans, yalnızca son çare olarak, örneğin belirli bir fatura hakkında ayrıntılı bilgiye ihtiyaç duyulduğunda gerçekleştirilir.

Tek bir çok boyutlu veritabanının çalışması, pratik olarak ona erişen kullanıcı sayısından etkilenmez. Sınır durumdaki mikroküp sayısının kullanıcı sayısıyla aynı oranda büyüyebildiği Sorgula sonra analiz et yaklaşımının aksine, yalnızca orada bulunan verileri okurlar.

Bu yaklaşımla, ilişkisel hizmetlere ek olarak çok boyutlu veritabanlarına da hizmet vermeye zorlanan BT hizmetleri üzerindeki yük artmaktadır.Çok boyutlu veritabanlarındaki verilerin zamanında otomatik olarak güncellenmesinden sorumlu olan bu hizmetlerdir.

"Analiz et sonra sorgula" yaklaşımının en belirgin temsilcileri Cognos'un PowerPlay ve Impromptu araçlarıdır.

Hem yaklaşımın hem de onu uygulayan aracın seçimi, öncelikle izlenen hedefe bağlıdır: her zaman bütçeden tasarruf etmekle son kullanıcı hizmetlerinin kalitesini iyileştirmek arasında denge kurmanız gerekir. Aynı zamanda, stratejik planda, bilgi ve analitik sistemlerin oluşturulmasının, otomasyon maliyetinden kaçınma değil, rekabet avantajı elde etme hedefini izlediği dikkate alınmalıdır. Örneğin, bir kurumsal bilgi ve analitik sistem, bir şirket hakkında gerekli, zamanında ve güvenilir bilgileri sağlayabilir; bunların yayınlanması, potansiyel yatırımcılar için bu şirketin şeffaflığını ve öngörülebilirliğini sağlayacak ve bu da kaçınılmaz olarak yatırım çekiciliği için bir koşul haline gelecektir.

7. OLAP teknolojilerinin uygulama alanları.

OLAP, çok faktörlü verileri analiz etme görevinin olduğu her yerde uygulanabilir. Genel olarak, en az bir tanımlayıcı sütuna (boyut) ve sayılara (ölçümler veya gerçekler) sahip bir sütuna sahip verileri içeren bir tablonuz varsa, bir OLAP aracı genellikle analiz etmek ve rapor oluşturmak için etkili bir araç olacaktır.

OLAP teknolojilerinin gerçek hayattan alınan bazı uygulama alanlarını ele alalım.

1. Satış.

Satış yapısının analizine dayanarak, yönetsel kararların alınması için gerekli konular çözülür: mal yelpazesinin değiştirilmesi, fiyatlar, mağazaların, şubelerin kapatılması ve açılması, bayilerle sözleşmelerin feshedilmesi ve imzalanması, reklam kampanyalarının yürütülmesi veya sonlandırılması vb.

2. Satın alma.

Görev, satış analizinin tam tersidir. Birçok işletme, tedarikçilerden bileşen ve malzeme satın alır. Tüccarlar yeniden satış için mal satın alırlar. Satın alma analizinde, geçmiş deneyime dayalı nakit planlamasından, yöneticiler üzerinde kontrol tedarikçileri seçmek.

3. Fiyatlar.

Satın almaların analizi, piyasa fiyatlarının analizi ile birleşir. Bu analizin amacı maliyetleri optimize etmek, en avantajlı teklifleri seçmektir.

4. Pazarlama.

Pazarlama analizi ile, yalnızca hizmet alıcılarının veya müşteri-tüketicilerinin analiz alanını kastediyoruz. Bu analizin görevi, malların doğru konumlandırılması, hedeflenen reklamcılık için alıcı gruplarının belirlenmesi ve ürün yelpazesinin optimizasyonudur. Bu durumda OLAP'ın görevi, kullanıcıya veri analizi sırasında sezgisel olarak ortaya çıkan sorulara hızlı bir şekilde, düşünce hızında yanıt alması için bir araç vermektir.

5. Depo.

Depodaki stok bakiyelerinin yapısının mal türlerine, depolara göre analizi, malların raf ömrünün analizi, alıcılara göre sevkiyatın analizi ve kuruluşta depo muhasebesi varsa işletme için önemli olan diğer birçok analiz türü mümkündür.

6. Nakit akışı.

Bu, birçok okulu ve yöntemi olan bütün bir analiz alanıdır. OLAP teknolojisi, bu teknikleri uygulamak veya geliştirmek için bir araç olarak hizmet edebilir, ancak onların yerine geçemez. Nakit dışı ve nakit fonların nakit akışları, akışları optimize etmek, likiditeyi sağlamak vb. için ticari faaliyetler, karşı taraflar, para birimleri ve zaman bağlamında analiz edilir. Ölçümlerin bileşimi büyük ölçüde işletmenin, endüstrinin ve metodolojinin özelliklerine bağlıdır.

7. Bütçe.

OLAP teknolojilerinin en verimli uygulama alanlarından biri. Kompozisyonunda bütçe analizi için bir OLAP araç seti bulunmadan hiçbir modern bütçeleme sisteminin tamamlanmış sayılmaması boşuna değildir. Çoğu bütçe raporu, OLAP sistemleri temel alınarak kolayca oluşturulur. Raporlar aynı zamanda çok çeşitli soruları yanıtlar: giderlerin ve gelirlerin yapısının analizi, farklı departmanlardaki belirli kalemler için giderlerin karşılaştırılması, belirli kalemler için harcama dinamiklerinin ve eğilimlerinin analizi, maliyet analizi ve kâr.

8. Muhasebe hesapları.

Bir hesap numarasından oluşan ve gelen bakiyeleri, ciroları ve giden bakiyeleri içeren klasik bir bilanço, bir OLAP sisteminde mükemmel bir şekilde analiz edilebilir. Ayrıca, OLAP sistemi, çok şubeli bir organizasyonun konsolide bakiyelerini, aylık, üç aylık ve yıllık bakiyeleri, hesap hiyerarşisine göre toplu bakiyeleri, analitik özelliklere dayalı analitik bakiyeleri otomatik ve çok hızlı bir şekilde hesaplayabilir.

9. Finansal raporlama.

Teknolojik olarak oluşturulmuş bir raporlama sistemi, belirli raporlar elde etmek için çeşitli bölümlerde gruplandırılması ve özetlenmesi gereken tarih değerlerine sahip bir dizi adlandırılmış göstergeden başka bir şey değildir. Durum böyle olunca raporların görüntülenmesi ve yazdırılması en kolay ve en ucuz şekilde OLAP sistemlerinde uygulanmaktadır. Her halükarda, kuruluşun dahili raporlama sistemi eskisi kadar muhafazakar değildir ve rapor oluşturma ve çok boyutlu operasyonel analiz yetenekleri kazanma gibi teknik işlerden tasarruf etmek için yeniden tasarlanabilir.

10. Site trafiği.

İnternet sunucusu günlük dosyası doğası gereği çok boyutludur ve bu nedenle OLAP analizi için uygundur. Gerçekler şunlardır: ziyaret sayısı, isabet sayısı, sayfada geçirilen süre ve günlükte bulunan diğer bilgiler.

11. Üretim hacimleri.

Bu, istatistiksel analizin başka bir örneğidir. Böylece, yetiştirilen patateslerin, eritilmiş çeliğin, mamul malların hacimlerini analiz etmek mümkündür.

12. Sarf malzemelerinin tüketimi.

Soğutma sıvıları, yıkama sıvıları, yağlar, paçavralar, zımpara kağıdı - yüzlerce sarf malzemesi tüketen düzinelerce atölyeden oluşan bir fabrika hayal edin. Doğru planlama ve maliyet optimizasyonu, sarf malzemelerinin gerçek tüketiminin kapsamlı bir analizini gerektirir.

13. Tesislerin kullanımı.

Başka bir istatistiksel analiz türü. Örnekler: sınıfların iş yükünün analizi, kiralanan binalar ve tesisler, konferans salonlarının kullanımı vb.

14. İşletmedeki personel cirosu.

İşletmedeki personel devir hızının şubeler, bölümler, meslekler, eğitim düzeyi, cinsiyet, yaş, zaman bağlamında analizi.

15. Yolcu taşımacılığı.

Sezona, varış noktasına, vagon türlerine (sınıflara), tren türlerine (uçak) göre satılan bilet sayısı ve miktarlarının analizi.

Bu liste uygulama alanlarıyla sınırlı değildir. OLAP - teknolojiler. Örneğin, teknolojiyi düşünün OLAP - Satış analizi.

8. Kullanım örneği OLAP -satış alanında analiz için teknolojiler.

için çok boyutlu veri gösterimi tasarlama OLAP -analiz, bir ölçüm haritasının oluşturulmasıyla başlar. Örneğin, satışları analiz ederken, bireysel pazar segmentlerini (gelişmekte olan, istikrarlı, büyük ve küçük müşteriler, yeni müşteri olasılığı vb.) belirlemek ve satış hacimlerini ürünlere, bölgelere, müşterilere, pazar segmentlerine, dağıtıma göre değerlendirmek yararlı olabilir. kanallar ve sipariş boyutları. Bu yönler, satışların çok boyutlu temsilinin - boyutlarının yapısı - koordinat ızgarasını oluşturur.

Herhangi bir işletmenin faaliyeti zaman içinde ilerlediğinden, analizde ortaya çıkan ilk soru, iş geliştirme dinamikleri sorunudur. Zaman ekseninin doğru organizasyonu, bu soruya niteliksel bir cevap sağlayacaktır. Genellikle zaman ekseni yıllara, çeyreklere ve aylara bölünür. Belki daha da fazla haftalara ve günlere bölünme. Zaman boyutunun yapısı, veri alma sıklığı dikkate alınarak oluşturulur; bilgi isteme sıklığına göre de belirlenebilir.

“Mal grubu” boyutu, satılan ürünlerin yapısını olabildiğince yansıtacak şekilde tasarlanmıştır. Aynı zamanda, bir yandan aşırı detaydan kaçınmak (grup sayısı görünür olmalıdır), diğer yandan önemli bir pazar segmentini kaçırmamak için belirli bir dengeyi korumak önemlidir.

"Müşteriler" boyutu, coğrafi bölgeye göre satış yapısını yansıtır. Her boyutun kendi hiyerarşileri olabilir, örneğin bu boyutta bir yapı olabilir: Ülkeler - Bölgeler - Şehirler - Müşteriler.

Departmanların performansını analiz etmek için kendi boyutunuzu oluşturmalısınız. Örneğin, iki hiyerarşi düzeyi ayırt edilebilir: "Alt Bölümler" boyutuna yansıtılması gereken departmanlar ve bunlara dahil olan departmanlar.

Aslında "Zaman", "Ürünler", "Müşteriler" boyutları, konu alanının alanını tam olarak tanımlar.

Ek olarak, bu alanı, örneğin değer cinsinden işlem hacmi aralıkları gibi hesaplanan özellikleri temel alarak koşullu alanlara bölmek yararlıdır. Daha sonra tüm iş, yürütüldüğü bir dizi maliyet aralığına bölünebilir. Bu örnekte kendinizi şu göstergelerle sınırlandırabilirsiniz: mal satış miktarı, satılan mal sayısı, gelir miktarı, işlem sayısı, müşteri sayısı, üreticilerden satın alma hacmi.

OLAP - analiz küpü şöyle görünecektir (Şekil 2):


Şekil 2.OLAP– satış hacmini analiz etmek için bir küp

OLAP açısından küp olarak adlandırılan tam olarak böyle bir üç boyutlu dizidir. Aslında, katı matematik açısından, böyle bir dizi her zaman bir küp olmayacaktır: gerçek bir küp için, tüm boyutlardaki öğe sayısı aynı olmalıdır, oysa OLAP küplerinde böyle bir sınırlama yoktur. Bir OLAP küpünün 3B olması gerekmez. Çözülmekte olan probleme bağlı olarak hem iki boyutlu hem de çok boyutlu olabilir. Ciddi OLAP ürünleri yaklaşık 20 boyut için tasarlanmıştır.Daha basit masaüstü uygulamaları yaklaşık 6 boyutu destekler.

Küpün tüm unsurları doldurulmamalıdır: Üçüncü çeyrekte Ürün 2'nin Müşteri 3'e satışı hakkında bilgi yoksa, karşılık gelen hücredeki değer belirlenmeyecektir.

Ancak küpün kendisi analiz için uygun değildir. Üç boyutlu bir küpü yeterince temsil etmek veya tasvir etmek hala mümkünse, o zaman altı veya on dokuz boyutlu işler çok daha kötü. Bu nedenle, sıradan iki boyutlu tablolar kullanılmadan önce çok boyutlu bir küpten çıkarılır. Bu işleme küpün "kesilmesi" denir. Analist, küpün boyutlarını ilgilendiği işaretlere göre alır ve "keser". Bu şekilde, analist küpün (raporun) iki boyutlu bir dilimini alır ve onunla çalışır. Raporun yapısı Şekil 3'te gösterilmiştir.

Figür 3Analitik rapor yapısı

OLAP küpümüzü keselim ve üçüncü çeyrek için bir satış raporu alalım, şöyle görünecek (Şekil 4).

Şekil 4Üçüncü Çeyrek Satış Raporu

Küpü diğer eksen boyunca kesebilir ve 2. ürün grubunun yıl içindeki satışları hakkında bir rapor alabilirsiniz (Şekil 5).

Şekil 5Ürün Satışları Üç Aylık Rapor 2

Benzer şekilde, müşteri 4 ile olan ilişkiyi analiz edebilirsiniz, Küpü etikete göre kesmek Müşteriler(Şek. 6)

Şekil 6Müşteriye mal tedariki hakkında rapor 4

Raporu aya göre detaylandırabilir veya müşterinin belirli bir şubesine mal tedariki hakkında konuşabilirsiniz.