قائمة طعام
مجانا
تسجيل
بيت  /  الملاحون/ معالجة البيانات التحليلية لدعم القرار. المعالجة التحليلية للمعلومات

معالجة البيانات التحليلية لدعم القرار. المعالجة التحليلية للمعلومات

4. تصنيف منتجات OLAP.

5. مبادئ تشغيل عملاء OLAP.

7. مجالات تطبيق تقنيات OLAP.

8. مثال على استخدام تقنيات OLAP للتحليل في مجال المبيعات.

1. مكان OLAP في هيكل المعلومات للمؤسسة.

يرتبط مصطلح "OLAP" ارتباطًا وثيقًا بمصطلح "مستودع البيانات" (مستودع البيانات).

تأتي البيانات المخزنة من أنظمة التشغيل(أنظمة OLTP) ، المصممة لأتمتة العمليات التجارية. بالإضافة إلى ذلك ، يمكن تجديد المستودع من مصادر خارجية ، مثل التقارير الإحصائية.

تتمثل مهمة المستودع في توفير "المادة الخام" للتحليل في مكان واحد وبهيكل بسيط ومفهوم.

هناك سبب آخر يبرر ظهور وحدة تخزين منفصلة - الاستعلامات التحليلية المعقدة للمعلومات التشغيلية تبطئ العمل الحالي للشركة ، وتحظر الجداول لفترة طويلة وتستولي على موارد الخادم.

تحت التخزين يمكن فهم أنه ليس بالضرورة تراكمًا هائلًا للبيانات - الشيء الرئيسي هو أن يكون مناسبًا للتحليل.

المركزية والهيكلة الملائمة بعيدة كل البعد عن كل ما يحتاجه المحلل. بعد كل شيء ، لا يزال بحاجة إلى أداة لعرض المعلومات وتصورها. التقارير التقليدية ، حتى التي تم إنشاؤها على أساس مستودع واحد ، تفتقر إلى شيء واحد - المرونة. لا يمكن "تحريفها" أو "توسيعها" أو "طيها" للحصول على العرض المطلوب للبيانات. أتمنى أن يكون لديه مثل هذه الأداة التي من شأنها أن تسمح له بتوسيع البيانات وطيها ببساطة وسهولة! OLAP هي إحدى هذه الأدوات.

على الرغم من أن OLAP ليس سمة ضرورية لمستودع البيانات ، إلا أنه يتم استخدامه بشكل متزايد لتحليل المعلومات المتراكمة في مستودع البيانات هذا.

مكان OLAP هيكل المعلوماتالمؤسسات (الشكل 1).

الصورة 1. مكانOLAP في هيكل المعلومات للمؤسسة

يتم جمع البيانات التشغيلية من مصادر مختلفة وتنظيفها ودمجها ووضعها في متجر علائقي. في الوقت نفسه ، فهي متاحة بالفعل للتحليل باستخدام أدوات إعداد التقارير المختلفة. ثم يتم تحضير البيانات (كليًا أو جزئيًا) لتحليل OLAP. يمكن تحميلها في قاعدة بيانات OLAP خاصة أو تركها في متجر علائقي. أهم عنصر فيها هو البيانات الوصفية ، أي معلومات حول هيكل البيانات وموضعها وتحويلها. بفضلهم ، يتم ضمان التفاعل الفعال لمكونات التخزين المختلفة.

بإيجاز ، يمكننا تعريف OLAP كمجموعة من الأدوات للتحليل متعدد الأبعاد للبيانات المتراكمة في المستودع.

2. معالجة البيانات التحليلية التشغيلية.

يعتمد مفهوم OLAP على مبدأ تمثيل البيانات متعددة الأبعاد. في عام 1993 ، نظر إي إف كود في أوجه القصور نموذج العلائقية، أولاً وقبل كل شيء ، الإشارة إلى استحالة "دمج البيانات وعرضها وتحليلها من وجهة نظر أبعاد متعددة ، أي بالطريقة الأكثر مفهومة لمحللي الشركات" ، وتحديد المتطلبات العامة لأنظمة OLAP التي توسع نطاق وظيفة DBMS العلائقية وتشمل التحليل متعدد الأبعاد كأحد خصائصها.

وفقًا لـ Codd ، فإن العرض المفاهيمي متعدد الأبعاد هو منظور متعدد يتكون من عدة أبعاد مستقلة يمكن من خلالها تحليل مجموعات معينة من البيانات.

يتم تعريف التحليل المتزامن على أبعاد متعددة على أنه تحليل متعدد المتغيرات. يتضمن كل بُعد اتجاهات دمج البيانات ، التي تتكون من سلسلة من المستويات المتتالية من التعميم ، حيث يتوافق كل مستوى أعلى مع درجة أكبر من تجميع البيانات للبعد المقابل.

وبالتالي ، يمكن تحديد بُعد المقاول من خلال اتجاه التوحيد ، الذي يتكون من مستويات التعميم "المؤسسة - التقسيم الفرعي - الإدارة - الموظف". يمكن أن يتضمن بُعد الوقت أيضًا اتجاهين للدمج - "السنة - ربع السنة - الشهر - اليوم" و "الأسبوع - اليوم" ، نظرًا لأن حساب الوقت بالأشهر والأسابيع غير متوافق. في هذه الحالة ، يصبح من الممكن تحديد المستوى المطلوب لتفاصيل المعلومات بشكل تعسفي لكل من القياسات.

تتوافق عملية الهبوط (الحفر لأسفل) مع الحركة من المستويات الأعلى للتوحيد إلى المستويات السفلية ؛ على العكس من ذلك ، فإن عملية الرفع (التدحرج) تعني الانتقال من المستويات الأدنى إلى المستويات الأعلى (الشكل 2).


الشكل 2.أبعاد واتجاهات توحيد البيانات

3. متطلبات وسائل المعالجة التحليلية التشغيلية.

نشأ النهج متعدد الأبعاد بشكل متزامن تقريبًا وبالتوازي مع النهج العلائقي. ومع ذلك ، فقط ابتداء من منتصف التسعينيات ، أو بالأحرى من
1993 ، مصلحة في MDBMSبدأت تصبح عامة. في هذا العام ظهر مقال سياسي جديد لأحد مؤسسي النهج العلائقي E. Codda، حيث صاغ 12 متطلبًا أساسيًا لوسائل التنفيذ OLAP(الجدول 1).

الجدول 1.

عرض البيانات متعدد الأبعاد

يجب أن تدعم الأدوات عرضًا متعدد الأبعاد للبيانات على المستوى المفاهيمي.

الشفافية

لا يحتاج المستخدم إلى معرفة الوسائل المحددة المستخدمة لتخزين البيانات ومعالجتها ، وكيفية تنظيم البيانات ومن أين تأتي.

التوفر

يجب أن تختار الأدوات نفسها أفضل مصدر بيانات وترتبط به لتكوين استجابة لطلب معين. يجب أن توفر الأدوات عرضًا تلقائيًا خاصًا بها مخطط منطقيلمختلف مصادر البيانات غير المتجانسة.

أداء ثابت

يجب أن يكون الأداء مستقلاً عمليًا عن عدد الأبعاد في الاستعلام.

دعم هندسة العميل والخادم

يجب أن تعمل الأدوات في بنية خادم العميل.

المساواة بكل أبعادها

يجب ألا تكون أي من الأبعاد أساسية ، بل يجب أن تكون جميعها متساوية (متناظرة).

التعامل الديناميكي مع المصفوفات المتفرقة

يجب تخزين القيم الخالية ومعالجتها بأكثر الطرق فعالية.

دعم وضع المستخدمين المتعددين للعمل مع البيانات

يجب أن تسمح الأدوات لأكثر من مستخدم بالعمل.

دعم العمليات على أساس القياسات المختلفة

يجب تطبيق جميع العمليات متعددة الأبعاد (مثل التجميع) بشكل موحد ومتسق على أي عدد من أي أبعاد.

سهولة التلاعب بالبيانات

يجب أن تحتوي الأدوات على واجهة المستخدم الأكثر ملاءمة وطبيعية وراحة.

أدوات عرض البيانات المتقدمة

يجب أن تدعم الأدوات طرقًا مختلفة لتصور (تمثيل) البيانات.

عدد غير محدود من الأبعاد ومستويات تجميع البيانات

يجب ألا يكون هناك حد لعدد الأبعاد المدعومة.

قواعد لتقييم منتجات برامج فئة OLAP

يجب اعتبار مجموعة هذه المتطلبات التي كانت بمثابة تعريف فعلي لـ OLAP كتوصيات ، ويجب الحكم على المنتجات الفردية من خلال درجة التقريب للامتثال الكامل بشكل مثالي لجميع المتطلبات.

في وقت لاحق ، تمت إعادة صياغة تعريف Codd إلى ما يسمى باختبار FASMI ، مما يتطلب أن يوفر تطبيق OLAP القدرة على تحليل المعلومات المشتركة متعددة الأبعاد بسرعة.

يعد تذكر قواعد Codd الـ 12 مرهقًا للغاية بالنسبة لمعظم الناس. اتضح أنه يمكنك تلخيص تعريف OLAP بخمس كلمات رئيسية فقط: تحليل سريع للمعلومات المشتركة متعددة الأبعاد - أو باختصار - FASMI (مترجمة من الإنجليزية:F ast أ تحليل س مشترك م فوق أنا معلومة).

تمت صياغة هذا التعريف لأول مرة في أوائل عام 1995 ولم يحتاج إلى مراجعة منذ ذلك الحين.

سريع (سريع)- يعني أن النظام يجب أن يوفر غالبية الردود للمستخدمين في غضون خمس ثوانٍ تقريبًا. في نفس الوقت ، أكثر استفسارات بسيطةتتم معالجتها في غضون ثانية واحدة وقليل جدًا - أكثر من 20 ثانية. أظهرت الأبحاث أن المستخدمين النهائيين يرون أن العملية تفشل إذا لم يتم تلقي النتائج بعد 30 ثانية.

للوهلة الأولى ، قد يبدو مفاجئًا أنه عند تلقي تقرير في دقيقة واحدة ، والذي لم يستغرق أيامًا طويلة ، يشعر المستخدم بالملل بسرعة كبيرة أثناء الانتظار ، ويتبين أن المشروع أقل نجاحًا مما كان عليه في حالة استجابة فورية ، حتى على حساب تحليل أقل تفصيلاً.

تحليل (تحليل)يعني أن النظام يمكنه التعامل مع أي تحليل منطقي وإحصائي خاص بـ هذا التطبيق، ويضمن الحفاظ عليها في شكل يمكن للمستخدم النهائي الوصول إليه.

ليس من المهم جدًا ما إذا كان هذا التحليل يتم إجراؤه في أدوات البائع الخاصة أو في منتج برمجي خارجي ذي صلة مثل جدول البيانات ، فالأمر ببساطة هو أنه يجب توفير جميع وظائف التحليل المطلوبة بطريقة بديهية للمستخدمين النهائيين. يمكن أن تتضمن أدوات التحليل إجراءات محددة مثل تحليل السلاسل الزمنية ، وتخصيص التكلفة ، وتحويلات العملات ، والبحث المستهدف ، وتغيير الهياكل متعددة الأبعاد ، والنمذجة غير الإجرائية ، واكتشاف الاستثناءات ، واستخراج البيانات ، والعمليات الأخرى المعتمدة على التطبيق. تختلف هذه القدرات بشكل كبير بين المنتجات ، اعتمادًا على الاتجاه المستهدف.

مشترك (مشترك) يعني أن النظام يفرض جميع متطلبات حماية السرية (ربما وصولاً إلى مستوى الخلية) ، وإذا كان الوصول المتعدد للكتابة مطلوبًا ، فإنه يفرض قفل التعديل على المستوى المناسب. لا تحتاج جميع التطبيقات إلى إعادة كتابة البيانات. ومع ذلك ، فإن عدد هذه التطبيقات آخذ في الازدياد ويجب أن يكون النظام قادرًا على التعامل مع تعديلات متعددة في الوقت المناسب وبطريقة آمنة.

متعدد الأبعاد - هذا مطلب أساسي. إذا كان علينا تحديد OLAP في كلمة واحدة ، فسنختارها. يجب أن يوفر النظام تمثيلًا مفاهيميًا متعدد الأبعاد للبيانات ، بما في ذلك الدعم الكامل للتسلسلات الهرمية والتسلسلات الهرمية المتعددة ، لأن هذه هي بالتأكيد الطريقة الأكثر منطقية لتحليل الأعمال والمؤسسات. لا يوجد حد أدنى لعدد الأبعاد التي يجب معالجتها لأنها تعتمد أيضًا على التطبيق ، ومعظم منتجات OLAP لها أبعاد كافية للأسواق التي تستهدفها.

معلومة - هذا كل شيء. يجب الحصول على المعلومات الضرورية عند الحاجة. ومع ذلك ، يعتمد الكثير على التطبيق. تُقاس قوة المنتجات المختلفة من حيث مقدار المدخلات التي يمكنها التعامل معها ، وليس من حيث عدد الجيجابايت التي يمكن تخزينها. تختلف قوة المنتجات اختلافًا كبيرًا - يمكن لأكبر منتجات OLAP معالجة بيانات أكثر ألف مرة على الأقل من أصغرها. هناك العديد من العوامل التي يجب مراعاتها في هذا الصدد ، بما في ذلك تكرار البيانات وذاكرة الوصول العشوائي المطلوبة واستخدام مساحة القرص والأداء والتكامل مع مخازن المعلومات وما إلى ذلك.

اختبار FASMI هو تعريف معقول ومفهوم للأهداف التي يركز عليها OLAP.

4. التصنيفOLAP- منتجات.

لذا ، فإن جوهر OLAP يكمن في حقيقة أن المعلومات الأولية للتحليل مقدمة في شكل مكعب متعدد الأبعاد ، ومن الممكن التلاعب بها بشكل تعسفي والحصول على أقسام المعلومات اللازمة - التقارير. في الوقت نفسه ، يرى المستخدم النهائي المكعب كجدول ديناميكي متعدد الأبعاد يلخص البيانات (الحقائق) تلقائيًا في أقسام مختلفة (أبعاد) ، ويسمح لك بإدارة العمليات الحسابية وشكل التقرير بشكل تفاعلي. يتم تنفيذ هذه العمليات OLAP آلة (أو آلة OLAP الحوسبة).

حتى الآن ، تم تطوير العديد من المنتجات في العالم التي تطبق OLAP. - التقنيات. لتسهيل التنقل بينها ، استخدم التصنيفات OLAP -المنتجات: عن طريق تخزين البيانات للتحليل والموقع OLAP -السيارات. دعونا نلقي نظرة فاحصة على كل فئة.منتجات OLAP.

التصنيف حسب طريقة تخزين البيانات

يتم إنشاء المكعبات متعددة الأبعاد على أساس البيانات المصدر والمجمعة. يمكن تخزين كل من البيانات المصدر والمجمعة للمكعبات في قواعد البيانات العلائقية والمتعددة الأبعاد. لذلك ، يتم استخدام ثلاث طرق لتخزين البيانات حاليًا: MOLAP (OLAP متعدد الأبعاد) و ROLAP (العلائقية OLAP) و HOLAP (Hybrid OLAP). ). على التوالى، OLAP - تنقسم المنتجات حسب طريقة تخزين البيانات إلى ثلاث فئات متشابهة:

1. في حالة MOLAP والمصدر والبيانات المجمعة مخزنة في قاعدة بيانات متعددة الأبعاد أو في مكعب محلي متعدد الأبعاد.

2. في ROLAP -المنتجات ، يتم تخزين البيانات المصدر في قواعد البيانات العلائقية أو في جداول محلية ثابتة على خادم الملفات. يمكن وضع البيانات المجمعة في جداول الخدمة في نفس قاعدة البيانات. يتم تحويل البيانات من قاعدة بيانات علائقية إلى مكعبات متعددة الأبعاد عند الطلبأدوات OLAP.

3. في حالة استخدام HOLAP البنية ، تظل بيانات المصدر في قاعدة البيانات العلائقية ، بينما يتم وضع المجاميع في قاعدة البيانات متعددة الأبعاد. مبنى OLAP -مكعب عند الطلب OLAP - الأدوات القائمة على البيانات العلائقية والمتعددة الأبعاد.

تصنيف الموقع OLAP-السيارات.

وفقًا لهذه الميزة ، فإن OLAP - تنقسم المنتجات إلىخوادم OLAP وعملاء OLAP:

· في خادم OLAP - يتم تنفيذ وسائل حساب وتخزين البيانات المجمعة من خلال عملية منفصلة - الخادم. يتلقى تطبيق العميل فقط نتائج الاستعلامات مقابل المكعبات متعددة الأبعاد المخزنة على الخادم. بعض OLAP - تدعم الخوادم تخزين البيانات فقط في قواعد البيانات العلائقية ، وبعضها - فقط في القواعد متعددة الأبعاد. كثير حديث OLAP - تدعم الخوادم الطرق الثلاث لتخزين البيانات: MOLAP و ROLAP و HOLAP.

MOLAP.

MOLAP هو معالجة تحليلية متعددة الأبعاد عبر الإنترنت ،أي OLAP متعدد الأبعاد. هذا يعني أن الخادم يستخدم قاعدة بيانات متعددة الأبعاد (MBD) لتخزين البيانات. معنى استخدام MDB واضح. يمكنه تخزين البيانات ذات الطبيعة المتعددة الأبعاد بكفاءة ، مما يوفر وسيلة لخدمة استعلامات قاعدة البيانات بسرعة. يتم نقل البيانات من مصدر البيانات إلى قاعدة البيانات متعددة الأبعاد ، ثم يتم تجميع قاعدة البيانات. الحساب المسبق هو ما يسرع استعلامات OLAP لأنه تم بالفعل حساب بيانات التلخيص. يصبح وقت الاستعلام دالة فقط للوقت المطلوب للوصول إلى جزء معين من البيانات وإجراء عملية حسابية. تدعم هذه الطريقة مفهوم أن العمل يتم مرة واحدة ، ثم يتم استخدام النتائج مرارًا وتكرارًا. تعد قواعد البيانات متعددة الأبعاد تقنية جديدة نسبيًا. استخدام MDB له نفس عيوب معظم التقنيات الجديدة. وهي ليست مستقرة مثل قواعد البيانات العلائقية (RDBs) ، ولم يتم تحسينها بنفس الدرجة. نقطة ضعف أخرى في MDB هي عدم القدرة على استخدام معظم قواعد البيانات متعددة الأبعاد في عملية تجميع البيانات ، لذلك يستغرق الأمر وقتًا حتى تصبح المعلومات الجديدة متاحة للتحليل.

رولاب.

ROLAP هو المعالجة التحليلية العلائقية على الخط ،أي OLAP العلائقية. يعني مصطلح ROLAP أن خادم OLAP يعتمد على قاعدة بيانات علائقية. يتم إدخال بيانات المصدر في قاعدة بيانات علائقية ، عادةً في مخطط نجمة أو ندفة الثلج ، للمساعدة في تقليل أوقات الاسترجاع. يوفر الخادم نموذج بيانات متعدد الأبعاد باستخدام استعلامات SQL محسّنة.

هناك عدد من الأسباب لاختيار قاعدة بيانات علائقية على قاعدة بيانات متعددة الأبعاد. RDB هي تقنية راسخة مع العديد من الفرص للتحسين. أدى استخدام العالم الحقيقي إلى منتج أكثر نضجًا. بالإضافة إلى ذلك ، تدعم RDBs كميات أكبر من البيانات من بنوك التنمية المتعددة الأطراف. إنها مصممة فقط لمثل هذه الأحجام. الحجة الرئيسية ضد RDBs هي تعقيد الاستعلامات المطلوبة لاسترداد المعلومات من قاعدة بيانات كبيرة باستخدام SQL. يمكن لمبرمج SQL الذي يفتقر إلى الخبرة أن يثقل كاهل موارد النظام القيّمة بسهولة من خلال محاولة تنفيذ بعض مثل هذه الاستعلامات ، والتي يسهل تنفيذها في MDB.

البيانات المُجمَّعة / المُجمَّعة مسبقًا.

يعد تنفيذ الاستعلام السريع أمرًا ضروريًا لـ OLAP. هذا هو أحد المبادئ الأساسية لـ OLAP - تتطلب القدرة على معالجة البيانات بشكل حدسي استرجاع المعلومات بسرعة. بشكل عام ، كلما زاد عدد العمليات الحسابية التي يجب إجراؤها للحصول على جزء من المعلومات ، كانت الاستجابة أبطأ. لذلك ، من أجل توفير وقت تنفيذ استعلام صغير ، يتم تجميع أجزاء المعلومات التي يتم الوصول إليها عادةً في أغلب الأحيان ، ولكنها تتطلب حسابًا ، مسبقًا. أي أنه يتم عدها ثم تخزينها في قاعدة البيانات كبيانات جديدة. من الأمثلة على نوع البيانات التي يمكن حسابها مسبقًا بيانات الملخص ، مثل أرقام المبيعات الشهرية أو الفصلية أو السنوية ، والتي تكون البيانات الفعلية المدخلة هي الأرقام اليومية.

لدى البائعين المختلفين طرقًا مختلفة لاختيار المعلمات ، والتي تتطلب التجميع المسبق وعددًا من القيم المحسوبة مسبقًا. يؤثر أسلوب التجميع على قاعدة البيانات ووقت تنفيذ الاستعلامات. إذا تم حساب المزيد من القيم ، فإن احتمال أن يطلب المستخدم القيمة المحسوبة بالفعل يزداد ، وبالتالي سيتم تقليل وقت الاستجابة ، حيث لن يلزم طلب القيمة الأولية للحساب. ومع ذلك ، إذا قمت بحساب جميع القيم الممكنة - ليس هذا هو الحل الأفضل - في هذه الحالة ، سيزداد حجم قاعدة البيانات بشكل كبير ، مما يجعلها غير قابلة للإدارة ، وسيكون وقت التجميع طويلاً للغاية. بالإضافة إلى ذلك ، عند إضافة القيم الرقمية إلى قاعدة البيانات ، أو إذا تم تغييرها ، يجب أن تنعكس هذه المعلومات في القيم المحسوبة مسبقًا والتي تعتمد على البيانات الجديدة. وبالتالي ، يمكن أن يستغرق تحديث قاعدة البيانات أيضًا وقتًا طويلاً في حالة وجود عدد كبير من القيم المحسوبة مسبقًا. نظرًا لأن قاعدة البيانات تعمل عادةً دون اتصال أثناء التجميع ، فمن المستحسن ألا يكون وقت التجميع طويلاً جدًا.

OLAP تم تكوين العميل بشكل مختلف. بناء مكعب متعدد الأبعاد و OLAP - يتم إجراء الحسابات في ذاكرة الكمبيوتر العميل.OLAP - ينقسم العملاء أيضًا إلى ROLAP و MOLAP.وقد يدعم البعض كلا خياري الوصول إلى البيانات.

كل من هذه الأساليب لها مزاياها وعيوبها. خلافًا للاعتقاد الشائع حول مزايا أدوات الخادم مقارنة بأدوات العميل ، في عدد من الحالات ، استخدام OLAP - يمكن أن يكون العميل أكثر كفاءة وربحية للاستخدامخوادم OLAP.

يعد تطوير التطبيقات التحليلية باستخدام أدوات OLAP للعميل عملية سريعة ولا تتطلب تدريبًا خاصًا للقائم بالأداء. يمكن للمستخدم الذي يعرف التنفيذ المادي لقاعدة البيانات أن يطور تطبيقًا تحليليًا بمفرده ، دون إشراك متخصص في تكنولوجيا المعلومات.

عند استخدام خادم OLAP ، تحتاج إلى تعلم نظامين مختلفين ، أحيانًا من بائعين مختلفين ، لإنشاء مكعبات على الخادم ، ولتطوير تطبيق عميل.

يوفر عميل OLAP واجهة مرئية واحدة لوصف المكعبات وتخصيص واجهات المستخدم لها.

لذا ، في أي الحالات يمكن أن يكون استخدام عميل OLAP للمستخدمين أكثر كفاءة وفائدة من استخدام خادم OLAP؟

· الجدوى الاقتصادية للتطبيق OLAP - يحدث الخادم عندما تكون كمية البيانات كبيرة جدًا ولا تطاق OLAP - العميل ، وإلا فإن استخدام هذا الأخير له ما يبرره. في هذه الحالة OLAP - يجمع العميل بين خصائص الأداء العالي والتكلفة المنخفضة.

· تعد أجهزة الكمبيوتر المحلل القوية حجة أخرى لصالح OLAP -عملاء. عند تطبيقها OLAP - لا يتم استخدام هذه القدرات الخادم.

تشمل المزايا الأخرى لعملاء OLAP ما يلي:

· تكاليف التنفيذ والصيانة OLAP - العميل أقل بكثير من تكلفةخادم OLAP.

· استخدام OLAP -العميل مع نقل بيانات الجهاز المدمج عبر الشبكة يتم مرة واحدة. عن طريق القيام OLAP - عمليات لا يتم إنشاء تدفقات البيانات الجديدة.

5. مبادئ التشغيل OLAP-عملاء.

ضع في اعتبارك عملية إنشاء تطبيق OLAP باستخدام أداة العميل (الشكل 1).

الصورة 1.قم بإنشاء تطبيق OLAP باستخدام أداة عميل ROLAP

مبدأ تشغيل عملاء ROLAP هو وصف أولي للطبقة الدلالية ، والتي يتم إخفاء البنية المادية لبيانات المصدر خلفها. في هذه الحالة ، يمكن أن تكون مصادر البيانات: الجداول المحلية ، RDBMS. يتم تحديد قائمة مصادر البيانات المدعومة بواسطة منتج البرنامج المحدد. بعد ذلك ، يمكن للمستخدم التعامل بشكل مستقل مع الكائنات التي يفهمها من حيث مجال الموضوع لإنشاء مكعبات وواجهات تحليلية.

مبدأ تشغيل عميل خادم OLAP مختلف. في خادم OLAP ، عند إنشاء المكعبات ، يقوم المستخدم بمعالجة الأوصاف المادية لقاعدة البيانات. يؤدي هذا إلى إنشاء أوصاف مخصصة في المكعب نفسه. تم تكوين عميل OLAP Server للمكعب فقط.

عند إنشاء طبقة دلالية ، يتم وصف مصادر البيانات - جداول المبيعات والصفقات - بعبارات مفهومة للمستخدم النهائي وتتحول إلى "منتجات" و "صفقات". تمت إعادة تسمية الحقل "ID" من الجدول "Products" إلى "Code" ، و "Name" - إلى "Product" ، إلخ.

ثم يتم إنشاء كائن أعمال المبيعات. عنصر الأعمال هو جدول مسطح يتم على أساسه تكوين مكعب متعدد الأبعاد. عند إنشاء كائن أعمال ، يتم دمج الجدولين "المنتجات" و "العروض" بواسطة الحقل "الرمز" للمنتج.نظرًا لأن جميع حقول الجداول لن تكون مطلوبة لعرضها في التقرير ، فإن كائن الأعمال يستخدم فقط الحقول "العنصر" و "التاريخ" و "المبلغ".

في مثالنا ، بناءً على كائن الأعمال "المبيعات" ، تم إنشاء تقرير عن مبيعات البضائع حسب الأشهر.

عند العمل بتقرير تفاعلي ، يمكن للمستخدم تعيين شروط التصفية والتجميع بنفس حركات الماوس البسيطة. في هذه المرحلة ، يصل عميل ROLAP إلى البيانات الموجودة في ذاكرة التخزين المؤقت. يقوم عميل خادم OLAP بإنشاء استعلام جديد لقاعدة البيانات متعددة الأبعاد. على سبيل المثال ، من خلال تطبيق مرشح منتج في تقرير المبيعات ، يمكنك الحصول على تقرير عن مبيعات المنتجات التي تهمنا.

يمكن تخزين جميع الإعدادات الخاصة بتطبيق OLAP في مستودع بيانات تعريف مخصص ، أو في تطبيق ، أو في مستودع نظام قاعدة بيانات متعدد الأبعاد. يعتمد التنفيذ على منتج البرنامج المحدد.

كل ما يتم تضمينه في هذه التطبيقات هو عرض قياسي للواجهة ، ووظائف وهيكل محدد مسبقًا ، وإصلاحات سريعة لمواقف قياسية أكثر أو أقل. على سبيل المثال ، الحزم المالية شائعة. ستسمح التطبيقات المالية المعدة مسبقًا للمهنيين باستخدام الأدوات المالية المألوفة دون الحاجة إلى تصميم هيكل قاعدة بيانات أو نماذج وتقارير مشتركة.

الإنترنت صيغة جديدةعميل. بالإضافة إلى ذلك ، يحمل طابع التقنيات الجديدة ؛ مجموعة من حلول الإنترنتتختلف بشكل كبير في قدراتها بشكل عام وفي جودة حل OLAP بشكل خاص. هناك العديد من المزايا لإنشاء تقارير OLAP عبر الإنترنت. الأهم هو عدم الحاجة إلى برامج متخصصة للوصول إلى المعلومات. هذا يوفر على الشركة الكثير من الوقت والمال.

6. اختيار بنية تطبيق OLAP.

عند تنفيذ نظام تحليل المعلومات ، من المهم عدم ارتكاب خطأ في اختيار بنية تطبيق OLAP. غالبًا ما تؤخذ الترجمة الحرفية لمصطلح عملية التحليل عبر الإنترنت - "المعالجة التحليلية عبر الإنترنت" - حرفيًا بمعنى أن البيانات التي تدخل النظام يتم تحليلها بسرعة. هذا وهم - كفاءة التحليل ليست مرتبطة بأي حال من الأحوال بالوقت الحقيقي لتحديث البيانات في النظام. تشير هذه الخاصية إلى وقت استجابة نظام OLAP لطلبات المستخدم. في الوقت نفسه ، غالبًا ما تكون البيانات التي تم تحليلها لقطة من المعلومات "للأمس" ، على سبيل المثال ، إذا تم تحديث البيانات الموجودة في المخازن مرة واحدة يوميًا.

في هذا السياق ، تكون ترجمة OLAP كـ "معالجة تحليلية تفاعلية" أكثر دقة. إنها القدرة على تحليل البيانات في الوضع التفاعلي الذي يميز أنظمة OLAP عن أنظمة إعداد التقارير المنظمة.

ميزة أخرى للمعالجة التفاعلية في صياغة سلف OLAP ، E. Codd ، هي القدرة على "دمج البيانات وعرضها وتحليلها من حيث الأبعاد المتعددة ، أي بالطريقة الأكثر مفهومة لمحللي الشركات." بالنسبة إلى Codd نفسه ، يشير مصطلح OLAP إلى طريقة محددة للغاية لتقديم البيانات على مستوى مفاهيمي - متعدد الأبعاد. على المستوى المادي ، يمكن تخزين البيانات في قواعد البيانات العلائقية ، ولكن في الواقع ، تميل أدوات OLAP إلى العمل مع قواعد البيانات متعددة الأبعاد التي يتم فيها تنظيم البيانات في شكل مكعب مفرط (الشكل 1).

الصورة 1. OLAP- مكعب (hypercube ، ميتاكوب)

في الوقت نفسه ، يتم تحديد أهمية هذه البيانات في اللحظة التي يمتلئ فيها المكعب الفائق ببيانات جديدة.

من الواضح أن وقت تكوين قاعدة بيانات متعددة الأبعاد يعتمد بشكل كبير على كمية البيانات المحملة فيها ، لذلك من المعقول تحديد هذا المقدار. ولكن كيف لا يتم تضييق إمكانيات التحليل وحرمان المستخدم من الوصول إلى كافة المعلومات التي تهمه؟ هناك مساران بديلين: التحليل ثم الاستعلام ("التحليل أولاً - ثم طلب معلومات إضافية") والاستعلام ثم التحليل ("الاستعلام أولاً عن البيانات - ثم التحليل").

يقترح أتباع المسار الأول تحميل المعلومات المعممة في قاعدة بيانات متعددة الأبعاد ، على سبيل المثال ، النتائج الشهرية والفصلية والسنوية للأقسام. وإذا كان من الضروري تحسين البيانات ، يُطلب من المستخدم إنشاء تقرير عن قاعدة بيانات علائقية تحتوي على التحديد المطلوب ، على سبيل المثال ، حسب الأيام لقسم معين أو حسب الأشهر وموظفي القسم المحدد.

على العكس من ذلك ، يقترح مؤيدو الطريقة الثانية أن يقرر المستخدم ، أولاً وقبل كل شيء ، البيانات التي سيقوم بتحليلها وتحميلها في مكعب صغير - قاعدة بيانات صغيرة متعددة الأبعاد. كلا النهجين يختلفان على المستوى المفاهيمي ولهما مزايا وعيوب.

تشمل مزايا الطريقة الثانية "حداثة" المعلومات التي يتلقاها المستخدم في شكل تقرير متعدد الأبعاد - "المكعب الصغير". يتكون المكعب الصغير بناءً على المعلومات المطلوبة للتو من قاعدة البيانات العلائقية الفعلية. يتم تنفيذ العمل باستخدام المكعب الصغير في وضع تفاعلي - حيث يتم الحصول على شرائح من المعلومات وتفاصيلها في إطار المكعب الصغير على الفور. نقطة إيجابية أخرى هي أن تصميم الهيكل وتعبئة المكعب الصغير يتم تنفيذه بواسطة المستخدم "أثناء التنقل" ، دون مشاركة مسؤول قاعدة البيانات. ومع ذلك ، فإن النهج يعاني أيضًا من أوجه قصور خطيرة. لا يرى المستخدم الصورة الكبيرة ويجب أن يقرر مسبقًا اتجاه بحثه. وبخلاف ذلك ، قد يكون المكعب الصغير المطلوب صغيرًا جدًا ولا يحتوي على جميع البيانات ذات الأهمية ، وسيتعين على المستخدم أن يطلب مكعبًا صغيرًا جديدًا ، ثم جديدًا ، ثم آخر وآخر. ثم يقوم نهج Query Analysis بتنفيذ أداة BusinessObjects لنفس الشركة و أدواتمنصة كونتور شركة Intersoft Lab.

باستخدام نهج التحليل ثم الاستعلام ، يمكن أن تكون كمية البيانات التي يتم تحميلها في قاعدة بيانات متعددة الأبعاد كبيرة جدًا ، ويجب أن يتم الملء وفقًا للقواعد ويمكن أن يستغرق الكثير من الوقت. ومع ذلك ، فإن كل هذه العيوب تؤتي ثمارها لاحقًا ، عندما يتمكن المستخدم من الوصول إلى جميع البيانات الضرورية تقريبًا في أي مجموعة. تتم الإشارة إلى البيانات الأصلية في قاعدة البيانات العلائقية فقط كملاذ أخير ، عند الحاجة إلى معلومات مفصلة ، على سبيل المثال ، في فاتورة محددة.

عمليا لا يتأثر تشغيل قاعدة بيانات واحدة متعددة الأبعاد بعدد المستخدمين الذين يصلون إليها. إنهم يقرؤون فقط البيانات المتاحة هناك ، على عكس نهج الاستعلام ثم التحليل ، حيث يمكن أن ينمو عدد الأنابيب الدقيقة في حالة الحد بنفس معدل عدد المستخدمين.

مع هذا النهج ، يزداد العبء على خدمات تكنولوجيا المعلومات ، والتي ، بالإضافة إلى الخدمات العلائقية ، تضطر أيضًا إلى خدمة قواعد البيانات متعددة الأبعاد. هذه الخدمات هي المسؤولة عن التحديث التلقائي للبيانات في قواعد البيانات متعددة الأبعاد في الوقت المناسب.

أبرز ممثلي أسلوب "التحليل ثم الاستعلام" هم أدوات PowerPlay و Impromptu من Cognos.

يعتمد اختيار كل من النهج والأداة التي تنفذها بشكل أساسي على الهدف المنشود: عليك دائمًا تحقيق التوازن بين توفير الميزانية وتحسين جودة خدمة المستخدم النهائي. في الوقت نفسه ، يجب أن يؤخذ في الاعتبار أن إنشاء نظم المعلومات والتحليل ، في الخطة الإستراتيجية ، يتبع هدف تحقيق ميزة تنافسية ، وليس تجنب تكلفة الأتمتة. على سبيل المثال ، يمكن لنظام المعلومات والتحليل المؤسسي أن يوفر المعلومات الضرورية وفي الوقت المناسب والموثوقة عن الشركة ، والتي سيضمن نشرها للمستثمرين المحتملين شفافية هذه الشركة وإمكانية التنبؤ بها ، والتي ستصبح حتماً شرطاً لجاذبيتها الاستثمارية.

7. مجالات تطبيق تقنيات OLAP.

OLAP قابل للتطبيق أينما كانت هناك مهمة لتحليل البيانات متعددة العوامل. بشكل عام ، إذا كان لديك جدول يحتوي على بيانات تحتوي على عمود وصفي واحد على الأقل (بُعد) وعمود واحد به أرقام (مقاييس أو حقائق) ، فستكون أداة OLAP عادةً أداة فعالة لتحليل التقارير وإنشاؤها.

ضع في اعتبارك بعض مجالات تطبيق تقنيات OLAP المأخوذة من الحياة الواقعية.

1. المبيعات.

بناءً على تحليل هيكل المبيعات ، يتم حل المشكلات اللازمة لاتخاذ القرارات الإدارية: تغيير نطاق السلع ، والأسعار ، وإغلاق المتاجر وفتحها ، والفروع ، وإنهاء العقود وتوقيعها مع التجار ، وإجراء الحملات الإعلانية أو إنهاؤها ، إلخ.

2. الشراء.

المهمة هي عكس تحليل المبيعات. تشتري العديد من الشركات المكونات والمواد من الموردين. التجار يشترون البضائع لإعادة بيعها. هناك العديد من المهام الممكنة في تحليل المشتريات ، من التخطيط مالعلى أساس الخبرة السابقة ، السيطرة على المديريناختيار الموردين.

3. الأسعار.

يدمج تحليل المشتريات مع تحليل أسعار السوق. الغرض من هذا التحليل هو تحسين التكاليف واختيار العروض الأكثر فائدة.

4. التسويق.

من خلال تحليل التسويق ، فإننا نعني فقط مجال تحليل المشترين أو العملاء والمستهلكين للخدمات. تتمثل مهمة هذا التحليل في تحديد الموقع الصحيح للبضائع ، وتحديد مجموعات المشترين للإعلان المستهدف ، وتحسين المجموعة المتنوعة. تتمثل مهمة OLAP في هذه الحالة في منح المستخدم أداة بسرعة ، وبسرعة التفكير ، للحصول على إجابات للأسئلة التي تنشأ بشكل حدسي في سياق تحليل البيانات.

5. المستودع.

من الممكن تحليل هيكل أرصدة المخزون في المستودع حسب أنواع البضائع والمستودعات وتحليل العمر الافتراضي للبضائع وتحليل الشحن من قبل المستلمين والعديد من أنواع التحليل الأخرى المهمة للمؤسسة إذا كان لدى المنظمة محاسبة المستودعات.

6. التدفق النقدي.

هذا مجال كامل للتحليل يحتوي على العديد من المدارس والأساليب. يمكن أن تعمل تقنية OLAP كأداة لتنفيذ أو تحسين هذه التقنيات ، ولكن ليس بديلاً لها. يتم تحليل التدفقات النقدية للأموال غير النقدية والنقدية في سياق العمليات التجارية والأطراف المقابلة والعملات والوقت من أجل تحسين التدفقات وضمان السيولة وما إلى ذلك. يعتمد تكوين القياسات بشدة على خصائص الأعمال والصناعة والمنهجية.

7. الميزانية.

أحد أكثر المجالات خصوبة لتطبيق تقنيات OLAP. ليس من قبيل الصدفة عدم اعتبار أي نظام موازنة حديث مكتمل بدون وجود مجموعة أدوات OLAP لتحليل الميزانية في تكوينها. يتم إنشاء معظم تقارير الموازنة بسهولة على أساس أنظمة OLAP. في الوقت نفسه ، تجيب التقارير على مجموعة واسعة جدًا من الأسئلة: تحليل هيكل النفقات والدخل ، ومقارنة النفقات لعناصر معينة في أقسام مختلفة ، وتحليل ديناميكيات واتجاهات النفقات لعناصر معينة ، وتحليل التكلفة و ربح.

8. الحسابات المحاسبية.

يمكن تحليل الميزانية العمومية الكلاسيكية التي تتكون من رقم حساب وتحتوي على أرصدة واردة ودوران وأرصدة صادرة بشكل مثالي في نظام OLAP. بالإضافة إلى ذلك ، يمكن لنظام OLAP تلقائيًا وبسرعة كبيرة حساب الأرصدة المجمعة لمؤسسة متعددة الفروع ، وأرصدة شهرية وربع سنوية وسنوية ، وأرصدة مجمعة حسب التسلسل الهرمي للحساب ، والأرصدة التحليلية بناءً على الخصائص التحليلية.

9. التقارير المالية.

إن نظام إعداد التقارير الذي تم إنشاؤه تقنيًا ليس أكثر من مجموعة من المؤشرات المسماة بقيم التاريخ التي تحتاج إلى تجميعها وتلخيصها في أقسام مختلفة للحصول على تقارير محددة. في هذه الحالة ، يتم تنفيذ عرض التقارير وطباعتها بسهولة وبتكلفة زهيدة في أنظمة OLAP. على أي حال ، فإن نظام التقارير الداخلية للمؤسسة ليس متحفظًا ويمكن إعادة تصميمه لتوفير المال على العمل الفني لإنشاء التقارير واكتساب قدرات التحليل التشغيلي متعددة الأبعاد.

10. حركة الموقع.

يعد ملف سجل خادم الإنترنت متعدد الأبعاد بطبيعته ، وبالتالي فهو مناسب لتحليل OLAP. الحقائق هي: عدد الزيارات وعدد مرات الدخول والوقت المستغرق في الصفحة والمعلومات الأخرى المتوفرة في السجل.

11. حجم الإنتاج.

هذا مثال آخر على التحليل الإحصائي. وبالتالي ، من الممكن تحليل أحجام البطاطس المزروعة ، والصلب المصهور ، والسلع المصنعة.

12. استهلاك المواد الاستهلاكية.

تخيل مصنعًا يتكون من عشرات الورش التي تستهلك التبريد ، سوائل التنظيفوالزيوت والخرق وورق الصنفرة - مئات العناصر من المواد الاستهلاكية. يتطلب التخطيط الدقيق وتحسين التكلفة تحليلاً شاملاً للاستهلاك الفعلي للمواد الاستهلاكية.

13. استخدام الأماكن.

نوع آخر من التحليل الإحصائي. أمثلة: تحليل عبء العمل في الفصول الدراسية ، والمباني والمباني المستأجرة ، واستخدام قاعات الاجتماعات ، وما إلى ذلك.

14. دوران الموظفين في المؤسسة.

تحليل دوران الموظفين في المؤسسة في سياق الفروع والإدارات والمهن ومستوى التعليم والجنس والعمر والوقت.

15. نقل الركاب.

تحليل عدد التذاكر المباعة والمبالغ حسب الموسم والوجهة وأنواع العربات (الفئات) وأنواع القطارات (الطائرات).

لا تقتصر هذه القائمة على نطاق OLAP - التقنيات. على سبيل المثال ، ضع في اعتبارك التكنولوجيا OLAP - تحليل المبيعات.

8. مثال على الاستخدام OLAP - تقنيات التحليل في مجال البيع.

تصميم طريقة عرض بيانات متعددة الأبعاد لـ OLAP - يبدأ التحليل بتشكيل خريطة للقياسات. على سبيل المثال ، عند تحليل المبيعات ، قد يكون من المفيد تحديد قطاعات السوق الفردية (النامية ، والمستقرة ، والعملاء الكبار والصغار ، واحتمال وجود عملاء جدد ، وما إلى ذلك) وتقييم أحجام المبيعات حسب المنتجات والأقاليم والعملاء وقطاعات السوق والتوزيع قنوات وأحجام الطلب. تشكل هذه الاتجاهات الشبكة الإحداثية للتمثيل متعدد الأبعاد للمبيعات - هيكل أبعادها.

نظرًا لأن نشاط أي مؤسسة يستمر في الوقت المناسب ، فإن السؤال الأول الذي يطرح نفسه في التحليل هو مسألة ديناميكيات تطوير الأعمال. سيوفر التنظيم الصحيح لمحور الوقت إجابة نوعية على هذا السؤال. عادة ما يتم تقسيم محور الوقت إلى سنوات وأرباع وأشهر. ربما أكثر انقسامًا إلى أسابيع وأيام. يتم تشكيل هيكل البعد الزمني مع الأخذ في الاعتبار تواتر استلام البيانات ؛ يمكن تحديده أيضًا من خلال تكرار طلب المعلومات.

تم تصميم بُعد "مجموعة السلع" ليعكس هيكل المنتجات المباعة قدر الإمكان. في الوقت نفسه ، من المهم الحفاظ على توازن معين من أجل تجنب الإفراط في التفاصيل (يجب أن يكون عدد المجموعات مرئيًا) من ناحية ، ومن ناحية أخرى ، عدم تفويت جزء كبير من السوق.

يعكس بُعد "العملاء" هيكل المبيعات حسب المنطقة الجغرافية. يمكن أن يكون لكل بُعد تسلسلات هرمية خاصة به ، على سبيل المثال ، في هذا البعد يمكن أن يكون هيكلًا: البلدان - المناطق - المدن - العملاء.

لتحليل أداء الأقسام ، يجب عليك إنشاء البعد الخاص بك. على سبيل المثال ، يمكن التمييز بين مستويين من التسلسل الهرمي: الإدارات والأقسام المدرجة فيها ، والتي ينبغي أن تنعكس في بُعد "الأقسام الفرعية".

في الواقع ، تحدد أبعاد "الوقت" و "المنتجات" و "العملاء" تمامًا مساحة مجال الموضوع.

بالإضافة إلى ذلك ، من المفيد تقسيم هذه المساحة إلى مناطق شرطية ، مع أخذ الخصائص المحسوبة كأساس ، على سبيل المثال ، نطاقات حجم المعاملات من حيث القيمة. ثم يمكن تقسيم العمل بأكمله إلى عدد من نطاقات التكلفة التي يتم تنفيذها فيها. في هذا المثال ، يمكنك قصر نفسك على المؤشرات التالية: مقدار مبيعات البضائع ، وعدد البضائع المباعة ، ومقدار الدخل ، وعدد المعاملات ، وعدد العملاء ، وحجم المشتريات من الشركات المصنعة.

OLAP - سيبدو مكعب التحليل (الشكل 2):


الشكل 2.OLAP- مكعب لتحليل حجم المبيعات

إنها على وجه التحديد مصفوفة ثلاثية الأبعاد من حيث OLAP تسمى المكعب. في الواقع ، من وجهة نظر الرياضيات الصارمة ، لن تكون هذه المصفوفة دائمًا مكعبًا: بالنسبة للمكعب الحقيقي ، يجب أن يكون عدد العناصر في جميع الأبعاد هو نفسه ، بينما لا تحتوي مكعبات OLAP على مثل هذا القيد. لا يجب أن يكون مكعب OLAP ثلاثي الأبعاد على الإطلاق. يمكن أن تكون ثنائية الأبعاد ومتعددة الأبعاد - اعتمادًا على المشكلة التي يتم حلها. تم تصميم منتجات OLAP الجادة لحوالي 20 بُعدًا.تدعم تطبيقات سطح المكتب الأبسط حوالي 6 أبعاد.

بعيدًا عن كل عناصر المكعب يجب ملؤها: إذا لم تكن هناك معلومات حول مبيعات المنتج 2 للعميل 3 في الربع الثالث ، فلن يتم تحديد القيمة في الخلية المقابلة.

ومع ذلك ، فإن المكعب نفسه غير مناسب للتحليل. إذا كان لا يزال من الممكن تمثيل أو تصوير مكعب ثلاثي الأبعاد بشكل مناسب ، فحينئذٍ من ستة أو تسعة عشر بعداالأمور أسوأ بكثير. لذلك ، يتم استخراج الجداول العادية ثنائية الأبعاد من مكعب متعدد الأبعاد قبل الاستخدام. هذه العملية تسمى "قطع" المكعب. المحلل ، كما كان ، يأخذ أبعاد المكعب و "يقطعها" حسب العلامات التي تهمه. بهذه الطريقة ، يتلقى المحلل شريحة ثنائية الأبعاد من المكعب (تقرير) ويعمل معها. يظهر هيكل التقرير في الشكل 3.

الشكل 3هيكل التقرير التحليلي

دعنا نقطع OLAP - cube ونحصل على تقرير مبيعات للربع الثالث ، سيبدو هكذا (الشكل 4).

الشكل 4تقرير مبيعات الربع الثالث

يمكنك قص المكعب على طول المحور الآخر والحصول على تقرير عن مبيعات مجموعة المنتجات 2 خلال العام (الشكل 5).

الشكل 5التقرير ربع السنوي لمبيعات المنتج 2

وبالمثل ، يمكنك تحليل العلاقة مع العميل 4 ، قطع المكعب حسب تسمية العملاء(الشكل 6)

الشكل 6تقرير عن توريد البضائع للعميل 4

يمكنك تفصيل التقرير حسب الشهر أو التحدث عن توريد البضائع لفرع معين من العميل.

لسنوات عديدة ، ركزت تكنولوجيا المعلومات على بناء أنظمة لدعم معالجة معاملات الشركات. يجب أن تكون هذه الأنظمة متسامحة بصريًا مع الأخطاء وتوفر استجابة سريعة. حل فعالتم توفير OLTP التي ركزت على بيئة قاعدة بيانات علائقية موزعة.

كان التقدم الأكثر حداثة في هذا المجال هو إضافة بنية خادم العميل. تم نشر العديد من الأدوات لتطوير تطبيقات OLTP.

غالبًا ما يكون الوصول إلى البيانات مطلوبًا من قبل كل من تطبيقات OLTP وأنظمة معلومات دعم القرار. لسوء الحظ ، قد تكون محاولة خدمة كلا النوعين من الطلبات مشكلة. لذلك ، اختارت بعض الشركات مسار تقسيم قاعدة البيانات إلى نوع OLTP ونوع OLAP.

OLAP (المعالجة التحليلية عبر الإنترنت - المعالجة التحليلية عبر الإنترنت)هي عملية معلومات تمكن المستخدم من الاستعلام عن النظام وإجراء التحليل وما إلى ذلك. عبر الإنترنت (عبر الإنترنت). يتم إنشاء النتائج في غضون ثوان.

من ناحية أخرى ، في نظام OLTP ، تتم معالجة كميات هائلة من البيانات بمجرد إدخالها.

لتوفير OLAP ، تحتاج إلى العمل مع مستودع بيانات (أو تخزين متعدد الأبعاد) بالإضافة إلى مجموعة من الأدوات ، وهي عادةً إمكانيات متعددة الأبعاد. يمكن أن تكون هذه الأدوات أدوات استعلام وجداول بيانات وأدوات استخراج البيانات وأدوات تصور البيانات وما إلى ذلك.

في عدد كبير من المنشورات ، يشير الاختصار OLAP ليس فقط إلى عرض متعدد الأبعاد للبيانات ، ولكن أيضًا إلى تخزين البيانات نفسها في قاعدة بيانات متعددة الأبعاد. بشكل عام ، هذا ليس صحيحًا ، كما يشير Codd نفسه إلى أن قواعد البيانات العلائقية كانت وستظل أكثر التقنيات ملاءمة لتخزين بيانات الشركة. ليست هناك حاجة إلى تقنية قواعد بيانات جديدة ، بل أدوات التحليل التي تكمل وظائف نظم إدارة قواعد البيانات الموجودة والتي تتسم بالمرونة الكافية للتوقع والأتمتة أنواع مختلفة التحليل الفكري، متأصل في OLAP.

وفقًا لـ Codd ، فإن التمثيل المفاهيمي متعدد الأبعاد هو منظور متعدد يتكون من عدة أبعاد مستقلة يمكن من خلالها تحليل مجموعات معينة من البيانات. يتم تعريف التحليل المتزامن على أبعاد متعددة على أنه تحليل متعدد المتغيرات. يتضمن كل بُعد اتجاهات دمج البيانات ، التي تتكون من سلسلة من المستويات المتتالية من التعميم ، حيث يتوافق كل مستوى أعلى مع درجة أكبر من تجميع البيانات للبعد المقابل. لذلك يمكن تحديد أبعاد المقاول من خلال اتجاه التوحيد ، الذي يتكون من مستويات التعميم "المؤسسة - القسم - القسم - الموظف". يمكن أن يتضمن بُعد الوقت اتجاهين للدمج - "السنة - ربع السنة - الشهر - اليوم" و "الأسبوع - اليوم" ، نظرًا لأن حساب الوقت بالأشهر والأسابيع غير متوافق. في هذه الحالة ، يصبح من الممكن تحديد المستوى المطلوب لتفاصيل المعلومات بشكل تعسفي لكل من القياسات. تتوافق عملية الهبوط مع الحركة من المستويات الأعلى للتوحيد إلى المستويات الدنيا ؛ على العكس من ذلك ، فإن عملية الرفع تعني الانتقال من المستويات الأدنى إلى المستويات الأعلى.

حدد Codd 12 قاعدة يجب أن يفي بها منتج برنامج فئة OLAP. هذه القواعد:

2. الشفافية.

3. التوفر.

6. مساواة القياسات.

بيانات التعدين.

التنقيب في البيانات (DIA) ، أو التنقيب في البيانات ، هو مصطلح يستخدم لوصف اكتشاف المعرفة في قواعد البيانات ، واستخراج المعرفة ، واستخراج البيانات ، واستخراج البيانات ، ومعالجة عينات البيانات ، وتنظيف البيانات ، وجمع البيانات ؛ هنا نعني البرامج ذات الصلة. يتم تنفيذ كل هذه الإجراءات تلقائيًا وتسمح حتى لغير المبرمجين بالحصول على نتائج سريعة.

يتم تقديم الطلب من قبل المستخدم النهائي ، ربما بلغة طبيعية. يتم تحويل الاستعلام إلى تنسيق SQL. ينتقل استعلام SQL عبر الشبكة إلى نظام DBMS الذي يدير قاعدة البيانات أو مستودع البيانات. يجد نظام إدارة قواعد البيانات (DBMS) الإجابة على الطلب ويقوم بتسليمها مرة أخرى. يمكن للمستخدم بعد ذلك تصميم العرض التقديمي أو التقرير وفقًا لمتطلباته.

تستند العديد من القرارات المهمة في أي مجال من مجالات الأعمال والمجالات الاجتماعية تقريبًا إلى تحليل قواعد البيانات الكبيرة والمعقدة. يمكن أن تكون IAD مفيدة جدًا في هذه الحالات.

ترتبط أساليب استخراج البيانات ارتباطًا وثيقًا بتقنيات OLAP وتقنيات تخزين البيانات. لهذا الخيار الأفضلهو نهج متكامل لتنفيذها.

لكي تساهم مخازن البيانات الموجودة في قرارات الإدارة ، يجب تقديم المعلومات للمحلل بالشكل الصحيح ، أي أنه يجب أن يكون قد طور أدوات للوصول إلى البيانات ومعالجتها من المستودع.

في كثير من الأحيان ، يتبين أن أنظمة تحليل المعلومات التي تم إنشاؤها للاستخدام المباشر من قبل صانعي القرار سهلة الاستخدام للغاية ، ولكنها محدودة للغاية في الوظائف. تسمى هذه الأنظمة الثابتة أنظمة المعلومات التنفيذية. تحتوي على مجموعات محددة مسبقًا من الاستفسارات ، وعلى الرغم من كونها كافية للنظرة العامة اليومية ، إلا أنها غير قادرة على الإجابة على جميع الأسئلة حول البيانات المتاحة التي قد تنشأ في عملية صنع القرار. نتائج عمل مثل هذا النظام ، كقاعدة عامة ، هي تقارير متعددة الصفحات ، بعد دراسة شاملة يكون لدى المحلل سلسلة جديدة من الأسئلة. ومع ذلك ، يجب أولاً وصف كل طلب جديد ، لم يتم توقعه عند تصميم مثل هذا النظام ، وترميزه بواسطة المبرمج ، ثم تنفيذه فقط. يمكن أن يكون وقت الانتظار في هذه الحالة ساعات وأيامًا ، وهو أمر غير مقبول دائمًا. وبالتالي ، فإن البساطة الخارجية لدعم القرار الإحصائي IS ، والتي يقاتل معظم عملاء أنظمة المعلومات والتحليل من أجلها ، تتحول إلى فقدان المرونة.

من ناحية أخرى ، تركز أنظمة المعلومات الداعمة للقرار الديناميكي على معالجة طلبات البيانات المخصصة من المحللين. يتكون عمل المحللين بهذه الأنظمة من تسلسل تفاعلي لتوليد الطلبات ودراسة نتائجها.

لكن ISS دعم القرار الديناميكي يمكن أن يعمل ليس فقط في مجال المعالجة التحليلية عبر الإنترنت (OLAP). يمكن إجراء دعم قرار الإدارة على أساس البيانات المتراكمة في ثلاثة مجالات أساسية.

1. مجال البيانات التفصيلية. هذا هو نطاق معظم أنظمة استرجاع المعلومات. في معظم الحالات ، تقوم نظم إدارة قواعد البيانات العلائقية بعمل رائع في التعامل مع التحديات التي تنشأ هنا. المعيار المقبول عمومًا للغة معالجة البيانات العلائقية هو SQL. يمكن استخدام أنظمة استرجاع المعلومات التي توفر واجهة مستخدم نهائي في مهام البحث عن معلومات تفصيلية كوظائف إضافية في قواعد بيانات منفصلة لأنظمة المعاملات وفي مستودع بيانات مشترك.

2. نطاق المؤشرات المجمعة. تعتبر الرؤية الشاملة للمعلومات التي تم جمعها في مستودع البيانات وتعميمها وتجميعها وتحليلها متعدد الأبعاد من مهام أنظمة OLAP. هنا يمكنك إما التركيز على نظم إدارة قواعد البيانات متعددة الأبعاد الخاصة ، أو البقاء ضمن إطار التقنيات العلائقية. في الحالة الثانية ، يمكن جمع البيانات المجمعة مسبقًا في قاعدة بيانات على شكل نجمة ، أو يمكن تجميع المعلومات في عملية مسح الجداول التفصيلية لقاعدة البيانات العلائقية.

3. مجال القانون. تتم المعالجة الفكرية من خلال طرق التنقيب عن البيانات ، وتتمثل مهامها الرئيسية في البحث عن الأنماط الوظيفية والمنطقية في المعلومات المتراكمة ، وبناء النماذج والقواعد التي تشرح الحالات الشاذة الموجودة و / أو التنبؤ بتطور عمليات معينة.

يظهر الهيكل الكامل لنظام تحليل المعلومات المبني على أساس مستودع البيانات في الشكل. 3.2 في تطبيقات محددة ، غالبًا ما تكون المكونات الفردية لهذه الدائرة مفقودة.

الشكل 3.2.هيكل المعلومات المؤسسية - النظام التحليلي.

عادة ما يتم تصميم هيكل قاعدة بيانات المستودعات بطريقة تسهل تحليل المعلومات قدر الإمكان. يجب أن تكون البيانات "مرتبة" بشكل ملائم في اتجاهات مختلفة (تسمى الأبعاد). على سبيل المثال ، يريد المستخدم اليوم الاطلاع على ملخص لشحنات الأجزاء حسب المورد لمقارنة أدائها. سيحتاج المستخدم نفسه غدًا إلى صورة للتغييرات في حجم عمليات تسليم الأجزاء حسب الأشهر من أجل تتبع ديناميكيات عمليات التسليم. يجب أن يدعم هيكل قاعدة البيانات هذه الأنواع من التحليلات ، مما يسمح باستخراج البيانات ذات الصلة مجموعة معينةقياسات.

تعتمد معالجة البيانات التحليلية التشغيلية على مبدأ تنظيم المعلومات في نموذج مفرط التكعيبي. يظهر في الشكل أبسط مكعب بيانات ثلاثي الأبعاد لتزويد أجزاء لقاعدة بيانات الاختبار التي تم النظر فيها مسبقًا. 3.11. تتوافق كل خلية من خلاياه مع "حقيقة" - على سبيل المثال ، نطاق تسليم جزء. على طول جانب واحد من المكعب (بعد واحد) هي الأشهر التي تم خلالها تنفيذ عمليات التسليم التي يعكسها المكعب. البعد الثاني هو أنواع الأجزاء ، والبعد الثالث يتوافق مع الموردين. تحتوي كل خلية على كمية التسليم لمجموعة القيم المقابلة عبر جميع الأبعاد الثلاثة. وتجدر الإشارة إلى أنه عند ملء المكعب ، تم إجراء تجميع قيم عمليات التسليم لكل شهر من قاعدة بيانات الاختبار.


3.11. متغير Hypercube المبسط لتحليل توريد الأجزاء

تختلف أنظمة فئات OLAP في طريقة عرض البيانات.

متعدد الأبعاد OLAP (MOLAP) - تعتمد هذه الأنظمة على بنية بيانات متعددة الأبعاد تعتمد على المصفوفات الديناميكية مع طرق الوصول المناسبة. يتم تنفيذ MOLAP على التقنيات الحاصلة على براءة اختراع لتنظيم نظم إدارة قواعد البيانات متعددة الأبعاد. ميزة هذا النهج هي الراحة في إجراء العمليات الحسابية على خلايا hypercube ، منذ ذلك الحين تحت جميع مجموعات القياسات ، يتم إدخال الخلايا المقابلة (كما هو الحال في جدول بيانات). يشمل الممثلون الكلاسيكيون لهذه الأنظمة Oracle Express و SAS Institute MDDB.

OLAP العلائقية (ROLAP)- يدعم النماذج التحليلية متعددة الأبعاد على قواعد البيانات العلائقية. تتضمن هذه الفئة من الأنظمة Meta Cube Informix و Microsoft OLAP Services و Hyperion Solutions و SAS Institute Relational OLAP.

OLAP لسطح المكتب (سطح المكتب OLAP)- أدوات لتوليد استفسارات متعددة الأبعاد وتقارير محلية نظم المعلومات(جداول بيانات ، ملفات ثابتة). متميز الأنظمة التالية- كوجنوس باور بلاي.

إي. حدد Codd اثني عشر قاعدة يجب أن يفي بها منتج فئة OLAP ، بما في ذلك التمثيل المفاهيمي متعدد الأبعاد للبيانات ، والشفافية ، وإمكانية الوصول ، والأداء القوي ، وهندسة العميل والخادم ، والمساواة في الأبعاد ، والمعالجة الديناميكية للمصفوفة المتفرقة ، ودعم المستخدمين المتعددين ، والدعم غير المحدود للأبعاد المتقاطعة العمليات ، ومعالجة البيانات بسهولة ، وآلية إعداد التقارير المرنة ، وعدد غير محدود من الأبعاد ومستويات التجميع.




أكثر أنظمة الفئات شيوعًا ROLAP. أنها تسمح لك بالتنظيم نموذج المعلوماتعلى تخزين كامل ارتباطياً لأي هيكل أو عبر سوق بيانات خاص.

أرز. 3.12. قطع غيار العرض التحليلي مارت ستار الرسم التخطيطي

بالنسبة لمعظم مستودعات البيانات ، فإن الطريقة الأكثر فاعلية لنمذجة مكعب الأبعاد N هي "النجمة". على التين. يوضح الشكل 3.11 نموذج المكعب الفائق لتحليل توريد الأجزاء ، حيث يتم دمج المعلومات عبر أربعة أبعاد (المورد ، الجزء ، الشهر ، السنة). يعتمد مخطط النجمة على جدول حقائق. يحتوي جدول الحقائق على عمود يحدد نطاق التسليم ، بالإضافة إلى الأعمدة التي تحدد المفاتيح الخارجية لجميع جداول الأبعاد. يتم تمثيل كل بُعد مكعب بجدول قيم يمثل مرجعًا لجدول الحقائق. لتنظيم مستويات تعميم المعلومات فوق الكتب المرجعية للقياسات ، يتم تنظيم المدخلات الفئوية (على سبيل المثال ، "تفاصيل المواد" ، "مدينة-مورد").

سبب الدائرة في الشكل. 3.12 يسمى "نجمة" ، واضح تماما. نهايات "النجمة" مكونة من جداول الأبعاد ، وارتباطاتها بجدول الحقائق الموجود في أشعة النموذج المركزية. باستخدام تصميم قاعدة البيانات هذا ، تنضم معظم استعلامات تحليل الأعمال إلى جدول حقائق مركزي يحتوي على جدول أبعاد واحد أو أكثر. على سبيل المثال ، قد يبدو طلب البحث للحصول على شحنات من جميع الأجزاء في عام 2004 حسب الشهر مقسمًا حسب البائع كما يلي:

حدد SUM (VALUE) ، SUPPLIER.SUPPLIER_NAME ، FACT.MONTH_ID

من الواقع ، المورد

WHERE FACT.YEAR_ID = 2004

و FACT.SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE ، MONTH_ID

ORDER_BY SUPPLIER_CODE ، MONTH_ID.

على التين. يوضح الشكل 3.13 جزءًا من التقرير الذي تم إنشاؤه كنتيجة لاستعلام معين.

3.4 طرق معالجة البيانات التحليلية

من أجل أن تساهم مستودعات البيانات الحالية في تبني قرارات الإدارة ، يجب تقديم المعلومات إلى المحلل بالشكل الصحيح ، أي يجب أن يكون قد طور أدوات للوصول إلى البيانات ومعالجتها من المستودع.

في كثير من الأحيان ، يتبين أن المعلومات والأنظمة التحليلية التي تم إنشاؤها مع توقع الاستخدام المباشر من قبل صانعي القرار سهلة الاستخدام للغاية ، ولكنها محدودة للغاية في الوظائف. تسمى هذه الأنظمة الثابتة أنظمة المعلومات التنفيذية (ISS) ، أو أنظمة المعلومات التنفيذية (EIS). تحتوي على العديد من الطلبات ، وعلى الرغم من كونها كافية للمراجعة اليومية ، إلا أنها غير قادرة على الإجابة على جميع الأسئلة التي قد تطرأ عند اتخاذ القرارات. نتيجة تشغيل مثل هذا النظام ، كقاعدة عامة ، هي تقارير متعددة الصفحات ، بعد دراسة متأنية ، والتي لدى المحلل سلسلة جديدة من الأسئلة. ومع ذلك ، يجب أولاً وصف كل طلب جديد ، لم يتم توقعه عند تصميم مثل هذا النظام ، وترميزه بواسطة المبرمج ، ثم تنفيذه فقط. يمكن أن يكون وقت الانتظار في هذه الحالة ساعات وأيامًا ، وهو أمر غير مقبول دائمًا.

المعالجة التحليلية عبر الإنترنت. أو المعالجة التحليلية عبر الإنترنت ، OLAP هو مكون رئيسي لتنظيم مستودعات البيانات. تم وصف مفهوم OLAP في عام 1993 بواسطة Edgar Codd ولديه المتطلبات التالية لتطبيقات التحليل متعدد الأبعاد:

- تمثيل مفاهيمي متعدد الأبعاد للبيانات ، بما في ذلك دعم كاملللتسلسلات الهرمية والتسلسلات الهرمية المتعددة (مفتاح متطلبات OLAP);

- تزويد المستخدم بنتائج التحليل في وقت مقبول (لا يزيد عادة عن 5 ثوانٍ) ، حتى على حساب تحليل أقل تفصيلاً ؛

- القدرة على إجراء أي تحليل منطقي وإحصائي خاص بتطبيق معين وحفظه في نموذج يمكن للمستخدم النهائي الوصول إليه ؛

- وصول متعدد المستخدمين إلى البيانات مع دعم آليات القفل المناسبة وأدوات الوصول المصرح بها ؛

- القدرة على الوصول إلى أي معلومات ضرورية بغض النظر عن حجمها ومكان التخزين.

يتكون نظام OLAP من العديد من المكونات. في أعلى مستوى للعرض التقديمي ، يشتمل النظام على مصدر بيانات وقاعدة بيانات متعددة الأبعاد (MDB) توفر القدرة على تنفيذ محرك تقارير OLAP وخادم OLAP وعميل. النظام مبني على مبدأ خادم العميل ويوفر وصولاً عن بعد ومتعدد المستخدمين إلى خادم MDB.

ضع في اعتبارك مكونات نظام OLAP.

مصادر.المصدر في أنظمة OLAP هو الخادم الذي يوفر البيانات للتحليل. اعتمادًا على نطاق منتج OLAP ، يمكن أن يكون المصدر مستودع بيانات وقاعدة بيانات موروثة تحتوي على بيانات عامة ومجموعة

الجداول التي تجمع بين البيانات المالية أو أي مجموعة مما ورد أعلاه.

مخزن البيانات. يتم جمع البيانات الأولية ووضعها في مستودع مصمم وفقًا لمبادئ بناء مستودعات البيانات. القرص المضغوط هو قاعدة بيانات علائقية (RDB). يحتوي جدول البيانات الرئيسي (جدول الحقائق) على القيم العددية للمؤشرات التي تم جمع المعلومات الإحصائية من أجلها.

قاعدة بيانات متعددة الأبعاديعمل مخزن البيانات كموفر معلومات لقاعدة بيانات متعددة الأبعاد ، وهي عبارة عن مجموعة من الكائنات. الفئات الرئيسية لهذه الأشياء هي الأبعاد والمؤشرات. تشمل الأبعاد مجموعات من القيم (المعلمات) التي يتم من خلالها فهرسة البيانات ، على سبيل المثال ، الوقت ، المناطق ، نوع المؤسسة ، إلخ. يتم تعبئة كل بُعد بقيم من الجداول المقابلة لأبعاد مستودع البيانات. تحدد مجموعة القياسات مساحة العملية قيد الدراسة. المقاييس هي مكعبات بيانات متعددة الأبعاد (مكعبات مفرطة). يحتوي المكعب التشعبي على البيانات نفسها ، بالإضافة إلى مجاميع مجمعة للأبعاد التي يتكون منها المؤشر. تشكل المؤشرات المحتوى الرئيسي لبنك التنمية متعدد الأطراف ويتم ملؤها وفقًا لجدول الحقائق. على طول كل محور للمكعب التشعبي ، يمكن تنظيم البيانات في تسلسل هرمي يمثل مستويات مختلفة من التفاصيل. يتيح لك ذلك إنشاء أبعاد هرمية ، والتي وفقًا لها ، أثناء تحليل البيانات اللاحق ، سيتم تجميع أو تحسين عرض البيانات. مثال نموذجي للبعد الهرمي هو قائمة الكائنات الإقليمية التي تم تجميعها حسب المقاطعات والمناطق والمقاطعات.

الخادم.جزء التطبيق من نظام OLAP هو خادم OLAP. يقوم هذا المكون بجميع الأعمال (اعتمادًا على طراز النظام) ، ويخزن جميع المعلومات التي يتم الوصول إليها بنشاط. تخضع بنية الخادم لمفاهيم مختلفة. على وجه الخصوص ، فإن السمة الوظيفية الرئيسية لمنتجات OLAP هي استخدام MDB أو RDB لتخزين البيانات.

تطبيق العميلتتوفر البيانات المهيكلة والمخزنة بشكل مناسب في MDB للتحليل باستخدام تطبيق العميل. يحصل المستخدم على الفرصة الوصول عن بعدإلى البيانات ، وصياغة الاستعلامات المعقدة ، وإنشاء التقارير ، والحصول على مجموعات فرعية عشوائية من البيانات. يرجع الحصول على تقرير إلى اختيار قيم قياس محددة وإنشاء قسم من المكعب التشعبي. يتم تحديد المقطع العرضي من خلال قيم القياس المحددة. تم تلخيص بيانات باقي القياسات.

OLAPعلى العميل وعلى الخادم.يمكن إجراء تحليل البيانات متعدد الأبعاد باستخدام أدوات متنوعة ، والتي يمكن تقسيمها بشكل مشروط إلى أدوات OLAP للعميل والخادم.

أدوات OLAP من جانب العميل (مثل جداول Microsoft المحورية في Excel 2000 أو Knosys 'ProClarity) هي تطبيقات تحسب البيانات المجمعة وتعرضها. في الوقت نفسه ، يتم تضمين البيانات المجمعة نفسها في ذاكرة التخزين المؤقت داخل مساحة العنوان لأداة OLAP.

إذا كانت البيانات المصدر مضمنة في DBMS لسطح المكتب ، يتم تنفيذ حساب البيانات المجمعة بواسطة أداة OLAP نفسها. إذا كان مصدر البيانات الأولية هو خادم DBMS ، فإن العديد من أدوات OLAP للعميل ترسل استعلامات SQL إلى الخادم ، ونتيجة لذلك ، تتلقى بيانات مجمعة محسوبة على الخادم.

كقاعدة عامة ، يتم تنفيذ وظيفة OLAP في أدوات معالجة البيانات الإحصائية وفي بعض جداول البيانات.

تحتوي العديد من أدوات التطوير على مكتبات فئات أو مكونات تتيح لك إنشاء تطبيقات تنفذ أبسط وظائف OLAP (مثل مكونات Decision Cube في Borland Delphi و Borland C ++ Builder). بالإضافة إلى ذلك ، تقدم العديد من الشركات عناصر تحكم ActiveX ومكتبات أخرى توفر وظائف مماثلة.

يتم استخدام أدوات OLAP الخاصة بالعميل ، كقاعدة عامة ، مع عدد صغير من الأبعاد (عادة لا يزيد عن ستة) ومجموعة متنوعة صغيرة من قيم هذه المعلمات - نظرًا لأن البيانات المجمعة الناتجة يجب أن تتلاءم مع مساحة العنوان لهذه أداة ، وعددهم ينمو أضعافا مضاعفة مع زيادة عدد الأبعاد.

تسمح لك العديد من أدوات عميل OLAP بحفظ محتويات ذاكرة التخزين المؤقت للبيانات المجمعة كملف بحيث لا يلزم إعادة حسابها. ومع ذلك ، غالبًا ما تُستخدم هذه الفرصة لعزل البيانات المجمعة من أجل نقلها إلى منظمات أخرى أو للنشر.

حصلت فكرة حفظ ذاكرة تخزين مؤقت ببيانات مجمعة في ملف على مزيد من التطويرفي أدوات OLAP من جانب الخادم (مثل Oracle Express Server أو Microsoft OLAP Services) ، حيث يتم تخزين وتعديل البيانات المجمعة ، وكذلك صيانة التخزين الذي يحتوي عليها ، بواسطة تطبيق منفصل أو عملية تسمى خادم OLAP. يمكن أن تطلب تطبيقات العميل مثل هذا التخزين متعدد الأبعاد وتلقي بعض البيانات استجابة لذلك. قد تقوم بعض تطبيقات العميل أيضًا بإنشاء مثل هذه المتاجر أو تحديثها وفقًا لبيانات المصدر المتغيرة.

تتشابه مزايا استخدام أدوات OLAP للخادم مقارنة بأدوات OLAP الخاصة بالعميل مع مزايا استخدام خادم DBMS مقارنة بأدوات سطح المكتب: في حالة استخدام أدوات الخادم ، يتم حساب وتخزين البيانات المجمعة على الخادم وتطبيق العميل يتلقى فقط نتائج الاستعلامات الموجهة إليهم ، مما يسمح بشكل عام بتقليل حركة مرور الشبكة ، ووقت تنفيذ الطلب ، ومتطلبات الموارد التي يستهلكها تطبيق العميل.

3.5 الجوانب الفنية لتخزين البيانات متعددة الأبعاد

يمكن تقسيم الأبعاد المتعددة في تطبيقات OLAP إلى ثلاثة مستويات:

1. عرض البيانات متعدد الأبعاد- أدوات المستخدم النهائي التي توفر تصورًا متعدد الأبعاد ومعالجة البيانات ؛ طبقة التمثيل متعددة الأبعاد تلخص من البنية المادية للبيانات وتعامل البيانات على أنها متعددة الأبعاد.

    معالجة متعددة الأبعاد- أداة (لغة) لصياغة استعلامات متعددة الأبعاد (لغة SQL العلائقية التقليدية غير مناسبة هنا) ومعالج يمكنه معالجة وتنفيذ مثل هذا الاستعلام.

    تخزين متعدد الأبعاد- وسائل التنظيم المادي للبيانات التي تضمن التنفيذ الفعال للاستعلامات متعددة الأبعاد.

المستويان الأولان إلزاميان في جميع أدوات OLAP. المستوى الثالث ، على الرغم من استخدامه على نطاق واسع ، غير مطلوب ، حيث يمكن أيضًا استرداد بيانات التمثيل متعدد الأبعاد من الهياكل العلائقية العادية. يقوم معالج الاستعلام متعدد الأبعاد ، في هذه الحالة ، بترجمة الاستعلامات متعددة الأبعاد إلى استعلامات SQL التي يتم تنفيذها بواسطة نظام DBMS علاقي.

في أي مستودع بيانات ، تقليدي ومتعدد الأبعاد ، جنبًا إلى جنب مع البيانات التفصيلية المسترجعة من أنظمة التشغيل ، يتم أيضًا تخزين المؤشرات المجمعة (إجمالي المؤشرات) ، مثل مبالغ أحجام المبيعات حسب الأشهر ، حسب فئات المنتجات ، إلخ. الغرض الوحيد من تسريع تنفيذ الاستعلام. بعد كل شيء ، من ناحية ، كقاعدة عامة ، يتم تجميع كمية كبيرة جدًا من البيانات في التخزين ، ومن ناحية أخرى ، لا يهتم المحللون في معظم الحالات بالمؤشرات التفصيلية ، ولكن بالمؤشرات العامة. وإذا كان لابد من تلخيص الملايين من المبيعات الفردية في كل مرة لحساب حجم المبيعات للسنة ، فمن المرجح أن تكون السرعة غير مقبولة. لذلك ، عند تحميل البيانات في قاعدة بيانات متعددة الأبعاد ، يتم حساب وحفظ جميع المؤشرات الإجمالية أو جزء منها.

ومع ذلك ، فإن استخدام البيانات المجمعة محفوف بالعيوب. تتمثل العيوب الرئيسية في الزيادة في كمية المعلومات المخزنة (عند إضافة أبعاد جديدة ، يزداد حجم البيانات التي يتكون منها المكعب بشكل كبير) والوقت الذي يستغرقه تحميلها. علاوة على ذلك ، يمكن أن يزداد حجم المعلومات بعشرات بل ومئات المرات. على سبيل المثال ، في أحد الاختبارات القياسية المنشورة ، تطلب عدد التجميع الكامل لـ 10 ميغا بايت من البيانات الأولية 2.4 جيجا بايت ، أي أن البيانات زادت بمعامل 240!

تعتمد درجة الزيادة في كمية البيانات عند حساب المجاميع على عدد أبعاد المكعب وهيكل هذه الأبعاد ، أي نسبة عدد "الآباء" و "الأطفال" على مستويات مختلفة من البعد. لحل مشكلة تخزين الركام ، مخططات معقدة، والتي تسمح ، عند الحساب بعيدًا عن جميع المجاميع الممكنة ، بتحقيق زيادة كبيرة في أداء تنفيذ الاستعلام.

يمكن تخزين كل من البيانات الأولية والمجمعة إما بتنسيق

العلائقية ، أو في هياكل متعددة الأبعاد. في هذا الصدد ، يتم استخدام ثلاث طرق لتخزين البيانات متعددة الأبعاد حاليًا:

MOLAP (OLAP متعدد الأبعاد) - يتم تخزين البيانات المصدر والمجمعة في قاعدة بيانات متعددة الأبعاد. يسمح لك تخزين البيانات في هياكل متعددة الأبعاد بمعالجة البيانات كمصفوفة متعددة الأبعاد ، بحيث تكون سرعة حساب القيم الإجمالية هي نفسها لأي من الأبعاد. ومع ذلك ، في هذه الحالة ، تكون قاعدة البيانات متعددة الأبعاد زائدة عن الحاجة ، نظرًا لأن البيانات متعددة الأبعاد تحتوي تمامًا على البيانات العلائقية الأصلية.

توفر هذه الأنظمة دورة كاملة من معالجة OLAP. تتضمن إما ، بالإضافة إلى مكون الخادم ، واجهة العميل المتكاملة الخاصة بها ، أو تستخدم برامج جداول بيانات خارجية للتواصل مع المستخدم.

رولاب (OLAP العلائقية) - تظل البيانات الأصلية في نفس قاعدة البيانات العلائقية حيث كانت موجودة في الأصل. يتم وضع البيانات المجمعة في جداول الخدمة التي تم إنشاؤها خصيصًا لتخزينها في نفس قاعدة البيانات.

هولاب (OLAP المختلط) - تظل البيانات الأصلية في نفس قاعدة البيانات العلائقية حيث كانت موجودة في الأصل ، بينما يتم تخزين البيانات المجمعة في قاعدة بيانات متعددة الأبعاد.

تدعم بعض أدوات OLAP تخزين البيانات فقط في الهياكل العلائقية ، والبعض الآخر في الهياكل متعددة الأبعاد فقط. ومع ذلك ، تدعم معظم أدوات خادم OLAP الحديثة جميع طرق تخزين البيانات الثلاثة. يعتمد اختيار طريقة التخزين على حجم وهيكل البيانات المصدر ، ومتطلبات سرعة تنفيذ الاستعلام ، وتكرار تحديث مكعبات OLAP.

3.6 التنقيب عن البيانات (بياناتالتعدين)

يشير مصطلح تعدين البيانات إلى عملية البحث عن الارتباطات والاتجاهات والعلاقات من خلال خوارزميات رياضية وإحصائية مختلفة: التجميع ، وتحليل الانحدار والارتباط ، وما إلى ذلك لأنظمة دعم القرار. في الوقت نفسه ، يتم تعميم المعلومات المتراكمة تلقائيًا على المعلومات التي يمكن وصفها بأنها معرفة.

أساس تقنية تعدين البيانات الحديثة هو مفهوم الأنماط التي تعكس الأنماط المتأصلة في العينات الفرعية للبيانات وتشكل ما يسمى بالمعرفة المخفية.

يتم البحث عن الأنماط بالطرق التي لا تستخدم أي افتراضات مسبقة حول هذه العينات الفرعية. من السمات المهمة للتنقيب في البيانات عدم المعايير وعدم وضوح الأنماط التي يتم البحث عنها. بمعنى آخر ، تختلف أدوات التنقيب عن البيانات عن أدوات معالجة البيانات الإحصائية وأدوات OLAP في ذلك بدلاً من التحقق من العلاقات التي يفترضها المستخدمون مسبقًا

بين البيانات ، بناءً على البيانات المتاحة ، يمكنهم العثور بشكل مستقل على مثل هذه العلاقات ، فضلاً عن بناء فرضيات حول طبيعتها.

بشكل عام ، تتكون عملية التنقيب عن البيانات (تنقيب البيانات) من ثلاث مراحل

    تحديد الأنماط (بحث مجاني) ؛

    استخدام الأنماط التي تم الكشف عنها للتنبؤ بقيم غير معروفة (النمذجة التنبؤية) ؛

    تحليل الاستثناء ، مصمم لتحديد وتفسير الحالات الشاذة في الأنماط الموجودة.

في بعض الأحيان ، يتم تمييز مرحلة وسيطة للتحقق من موثوقية الأنماط الموجودة بين اكتشافها واستخدامها (مرحلة التحقق من الصحة) بشكل صريح.

هناك خمسة أنواع قياسية من الأنماط المحددة بواسطة طرق التنقيب في البيانات:

1. الجمعيةيسمح لك بتحديد مجموعات ثابتة من الكائنات التي توجد بينها روابط محددة ضمنيًا. يُطلق على تكرار حدوث عنصر واحد أو مجموعة عناصر ، معبرًا عنها كنسبة مئوية ، الانتشار. يشير معدل الانتشار المنخفض (أقل من جزء من الألف من المائة) إلى أن مثل هذا الارتباط ليس مهمًا. تتم كتابة الجمعيات كقواعد: أ=> ب، أين أ -طَرد، في -عاقبة. لتحديد أهمية كل قاعدة ارتباط ناتجة ، من الضروري حساب قيمة تسمى الثقة أل في(أو علاقة أ و ب).تظهر الثقة كم مرة ومتى أيبدو في.على سبيل المثال ، إذا ربت)\ u003d 20٪ ، هذا يعني أنه عند شراء منتج أفي كل حالة خامسة ، يتم شراء منتج أيضًا في.

مثال نموذجي لتطبيق الجمعية هو تحليل هيكل المشتريات. على سبيل المثال ، عند إجراء مسح في سوبر ماركت ، يمكنك أن تجد أن 65٪ من أولئك الذين اشتروا رقائق البطاطس يأخذون أيضًا Coca-Cola ، وإذا كان هناك خصم لمثل هذه المجموعة ، فإنهم يشترون الكولا في 85٪ من الحالات. هذه النتائج ذات قيمة في تشكيل استراتيجيات التسويق.

2. الاتساق - إنها طريقة لتحديد الارتباطات بمرور الوقت. في هذه الحالة ، يتم تحديد القواعد التي تصف التكرار المتسلسل لمجموعات معينة من الأحداث. هذه القواعد ضرورية لبناء السيناريوهات. بالإضافة إلى ذلك ، يمكن استخدامها ، على سبيل المثال ، لتشكيل مجموعة نموذجية من المبيعات السابقة التي قد تؤدي إلى مبيعات لاحقة لمنتج معين.

3. التصنيف - أداة التعميم. يسمح لك بالانتقال من التفكير في الكائنات الفردية إلى المفاهيم المعممة التي تميز بعض مجموعات الكائنات وتكون كافية للتعرف على الكائنات التي تنتمي إلى هذه المجموعات (الفئات). جوهر عملية تكوين المفاهيم هو العثور على أنماط متأصلة في الفصول الدراسية. يتم استخدام العديد من الميزات (السمات) المختلفة لوصف الأشياء. تمت صياغة مشكلة تكوين المفهوم وفقًا للأوصاف الإرشادية بواسطة M.M. بونغارت. يعتمد حلها على تطبيق إجراءين رئيسيين: التدريب والتحقق. في إجراءات التدريب ، تُبنى قاعدة التصنيف بناءً على معالجة مجموعة العناصر التدريبية. يتكون إجراء التحقق (الفحص) من استخدام قاعدة التصنيف التي تم الحصول عليها للتعرف على الأشياء من عينة (فحص) جديدة. إذا تبين أن نتائج الاختبار مرضية ، فإن عملية التعلم تنتهي ، وإلا فإن قاعدة التصنيف يتم تنقيحها في عملية التعلم المتكرر.

4. التجميع - هذا هو توزيع المعلومات (السجلات) من قاعدة البيانات إلى مجموعات (مجموعات) أو مقاطع مع التعريف المتزامن لهذه المجموعات. على عكس التصنيف ، لا يتطلب التحليل هنا فئات محددة مسبقًا.

5. سلسلة زمنية للتنبؤ هي أداة لتحديد الاتجاهات في سمات الأشياء قيد الدراسة بمرور الوقت. يسمح لك تحليل سلوك السلاسل الزمنية بالتنبؤ بقيم الخصائص المدروسة.

لحل مثل هذه المشاكل ، يتم استخدام طرق وخوارزميات مختلفة لاستخراج البيانات. نظرًا لحقيقة أن التنقيب في البيانات قد تطور ويتطور عند تقاطع التخصصات مثل الإحصاء ، ونظرية المعلومات ، والتعلم الآلي ، ونظرية قواعد البيانات ، فمن الطبيعي تمامًا أن معظم خوارزميات وطرق التنقيب في البيانات قد تم تطويرها بناءً على طرق مختلفة من هذه التخصصات.

من بين مجموعة متنوعة من أساليب التنقيب عن البيانات الحالية ، يمكن التمييز بين ما يلي:

    تحليل الانحدار والتشتت والارتباط(تم تنفيذه في معظم الحزم الإحصائية الحديثة ، ولا سيما في منتجات SAS Institute و StatSoft وما إلى ذلك) ؛

    طرق التحليلفي مجال موضوع معين ، بناءً على النماذج التجريبية (غالبًا ما تستخدم ، على سبيل المثال ، في أدوات التحليل المالي غير المكلفة) ؛

    خوارزميات الشبكة العصبية- طريقة لتقليد العمليات والظواهر تسمح لك بإعادة إنتاج التبعيات المعقدة. تعتمد الطريقة على استخدام نموذج مبسط للدماغ البيولوجي وتكمن في حقيقة أن المعلمات الأولية تعتبر إشارات يتم تحويلها وفقًا للوصلات الموجودة بين "الخلايا العصبية" واستجابة الشبكة بأكملها على البيانات الأولية تعتبر الإجابة الناتجة عن التحليل. يتم إنشاء الروابط في هذه الحالة باستخدام ما يسمى بالتعلم الشبكي من خلال عينة كبيرة تحتوي على كل من البيانات الأصلية والإجابات الصحيحة. تستخدم الشبكات العصبية على نطاق واسع لحل مشاكل التصنيف ؛

    المنطق الضبابيتُستخدم لمعالجة البيانات بقيم الحقيقة الغامضة التي يمكن تمثيلها بواسطة مجموعة متنوعة من المتغيرات اللغوية. يستخدم تمثيل المعرفة الضبابية على نطاق واسع لحل مشاكل التصنيف والتنبؤ ، على سبيل المثال ، في نظام XpertRule Miner (Attar Software Ltd. ، المملكة المتحدة) ، وكذلك في AIS و NeuFuz وما إلى ذلك ؛

    الاستدلالات الاستقرائيةتسمح لك بالحصول على تعميمات للحقائق المخزنة في قاعدة البيانات. في عملية التعلم الاستقرائي ، يمكن للمتخصص الذي يقدم الفرضيات المشاركة. هذه الطريقة تسمى التعلم تحت الإشراف. يمكن إجراء البحث عن قواعد التعميم بدون معلم عن طريق إنشاء الفرضيات تلقائيًا. في الحديث أدوات البرمجياتكقاعدة عامة ، يتم الجمع بين كلتا الطريقتين ، ويتم استخدام الأساليب الإحصائية لاختبار الفرضيات. مثال على نظام يستخدم خيوط استقرائية هو XpertRule Miner الذي طورته Attar Software Ltd. (بريطانيا العظمى)؛

    المنطق على أساس حالات مماثلة(طريقة "الجار الأقرب") (الاستدلال المستند إلى الحالة - CBR) تستند إلى البحث في قاعدة البيانات عن المواقف التي تتشابه أوصافها في عدد من الميزات مع حالة معينة. يشير مبدأ القياس إلى أن نتائج المواقف المتشابهة ستكون أيضًا قريبة من بعضها البعض. عيب هذا النهج هو أنه لا يخلق أي نماذج أو قواعد تعمم الخبرة السابقة. بالإضافة إلى ذلك ، تعتمد موثوقية النتائج المستخلصة على اكتمال وصف المواقف ، كما هو الحال في عمليات الاستدلال الاستقرائي. أمثلة على الأنظمة التي تستخدم CBR هي: KATE Tools (Acknosoft ، فرنسا) ، ومنضدة التعرف على الأنماط (Unica ، الولايات المتحدة الأمريكية) ؛

    أشجار القرار- طريقة لهيكلة مشكلة في شكل رسم بياني شجرة ، تتوافق رؤوسه مع قواعد الإنتاج التي تسمح بتصنيف البيانات أو تحليل نتائج القرارات. تعطي هذه الطريقة تمثيلًا مرئيًا لنظام قواعد التصنيف ، إذا لم يكن هناك الكثير منها. يتم حل المهام البسيطة باستخدام هذه الطريقة بشكل أسرع بكثير من استخدام الشبكات العصبية. بالنسبة للمشكلات المعقدة وبعض أنواع البيانات ، قد لا تكون أشجار القرار مناسبة. بالإضافة إلى ذلك ، تتميز هذه الطريقة بمشكلة الأهمية. تتمثل إحدى نتائج تجميع البيانات الهرمية في عدم وجود عدد كبير من أمثلة التدريب للعديد من الحالات الخاصة ، وبالتالي لا يمكن اعتبار التصنيف موثوقًا به. يتم تنفيذ أساليب شجرة القرار في العديد من أدوات البرمجيات ، وهي: C5.0 (RuleQuest ، أستراليا) ، كليمنتين (حلول متكاملة ، المملكة المتحدة) ، SIPINA (جامعة ليون ، فرنسا) ، IDIS (اكتشاف المعلومات ، الولايات المتحدة الأمريكية) ؛

    البرمجة التطورية- البحث وإنشاء خوارزمية تعبر عن ترابط البيانات ، بناءً على الخوارزمية المحددة في البداية ، والمعدلة في عملية البحث ؛ في بعض الأحيان يتم البحث عن التبعيات بين أنواع معينة من الوظائف (على سبيل المثال ، كثيرات الحدود) ؛

خوارزميات البحث المحدودة، مجموعات حسابية من الأحداث المنطقية البسيطة في مجموعات فرعية من البيانات.

3.7 التكاملOLAPوبياناتالتعدين

تعد المعالجة التحليلية عبر الإنترنت (OLAP) واستخراج البيانات (تنقيب البيانات) عنصرين من مكونات عملية دعم القرار. اليوم ، ومع ذلك ، تركز معظم أنظمة OLAP فقط على توفير الوصول إلى البيانات متعددة الأبعاد ، ومعظم أدوات استخراج البيانات التي تعمل في مجال الأنماط تتعامل مع منظورات البيانات أحادية البعد. لزيادة كفاءة معالجة البيانات لأنظمة دعم القرار ، يجب الجمع بين هذين النوعين من التحليل.

يظهر المصطلح المركب "OLAP Data Mining" (استخراج البيانات متعدد الأبعاد) للإشارة إلى مثل هذه المجموعة.

هناك ثلاث طرق رئيسية لتكوين "تعدين بيانات OLAP":

    التكعيب ثم التعدين. يجب توفير القدرة على إجراء التحليل الفكري على أي نتيجة لاستعلام لتمثيل مفاهيمي متعدد الأبعاد ، أي على أي جزء من أي إسقاط للمكعب الفائق للمؤشرات.

    التعدين ثم التكعيب. مثل البيانات المسترجعة من المستودع ، يجب تقديم نتائج التعدين في شكل مفرط التكعيبي من أجل التحليل اللاحق متعدد الأبعاد.

    التكعيب أثناء التعدين. تتيح لك طريقة التكامل المرنة هذه تنشيط نفس النوع من آليات المعالجة الفكرية تلقائيًا على نتيجة كل خطوة من خطوات التحليل متعدد الأبعاد (الانتقال) بين مستويات التعميم ، واستخراج جزء المكعب الفائق الجديد ، وما إلى ذلك).

    الصف 11 [نص ... همكيف جزءالجميع الأنظمة ... استاذ مساعد ... تشيبوكساري، 2009. رقم 10. S. 44 -49 .... المؤلفون- المجمعين: ن. ... الملخصاتمحاضرات, ...

  • مساعدة تعليمية

    ... محاضرات. تحضير محاضراتالرياضيات. كتابة خلاصةمحاضرات محاضرات. إستعمال معلومةالتقنيات ...

  • أنشطة بحثية I K Kondaurova s ​​v Lebedev لمعلم الرياضيات المستقبلي المهام الإبداعية في الرياضيات الابتدائية وطرق تدريسها

    مساعدة تعليمية

    ... محاضرات. تحضير محاضراتالرياضيات. كتابة خلاصةمحاضرات. تحضير المعينات البصرية. تقنية القراءة محاضرات. إستعمال معلومةالتقنيات ...

  • M ONITORING MEDIA تحديث التعليم المهني مارس - أغسطس 2011

    ملخص

    ... 11 .08.2011 "Dead Souls-2" في RNIMU هم ... 3,11 -3,44 . ... عام محاضراتالقادة ... تشيبوكساري... والخربشة الملخصاتجمهور - ... معلوماتيةالأنظمةو التقنيات. ... نظامالتعليم ، يقول استاذ مساعد ... المجمعين ... القطعحقيقي محتوى ...

OLAP (المعالجة التحليلية عبر الإنترنت - المعالجة التحليلية عبر الإنترنت) هي عملية معلومات تتيح للمستخدم الاستعلام عن النظام وإجراء التحليل وما إلى ذلك. عبر الإنترنت (عبر الإنترنت). يتم إنشاء النتائج في غضون ثوان.

يتم إنشاء أنظمة OLAP للمستخدمين النهائيين بينما يتم تصنيع أنظمة OLTP من أجلها مستخدمين محترفينيكون. يوفر OLAP أنشطة مثل إنشاء الاستعلامات والاستعلام عن التقارير المخصصة وإجراء التحليل الإحصائي وبناء تطبيقات الوسائط المتعددة.

لتوفير OLAP ، تحتاج إلى العمل مع مستودع بيانات (أو تخزين متعدد الأبعاد) بالإضافة إلى مجموعة أدوات ، عادةً مع إمكانيات متعددة الأبعاد. يمكن أن تكون هذه الأدوات أدوات استعلام وجداول بيانات وأدوات استخراج البيانات وأدوات تصور البيانات وما إلى ذلك.

يعتمد مفهوم OLAP على مبدأ تمثيل البيانات متعددة الأبعاد. نظر E. Codd في أوجه القصور في النموذج العلائقي ، أولاً وقبل كل شيء ، مشيرًا إلى استحالة دمج البيانات وعرضها وتحليلها من وجهة نظر أبعاد متعددة ، أي بأكثر الطرق مفهومة لمحللي الشركات ، وحدد المتطلبات العامة لأنظمة OLAP التي توسع وظائف DBMS العلائقية وتشمل التحليل متعدد الأبعاد كأحد خصائصها.

12 قاعدة يجب أن يفي بها منتج برنامج فئة OLAP. هذه القواعد:

1. التمثيل المفاهيمي متعدد الأبعاد للبيانات.

2. الشفافية.

3. التوفر.

4. أداء ثابت.

5. العميل - بنية الخادم.

6. مساواة القياسات.

7. المعالجة الديناميكية لمصفوفات متفرقة.

8. دعم الوضع المتعدد.

9. دعم غير محدود للعمليات متعددة الأبعاد.

10. معالجة البيانات بشكل بديهي.

11. آلية إبلاغ مرنة.

12. عدد غير محدود من القياسات ومستويات التجميع.

يجب اعتبار مجموعة هذه المتطلبات ، التي كانت بمثابة التعريف الفعلي لـ OLAP ، كتوصية ، ويجب تقييم المنتجات الفردية من خلال درجة التقريب من أجل الامتثال الكامل بشكل مثالي لجميع المتطلبات.


التنقيب عن البيانات (تنقيب البيانات) والمعرفة (التنقيب عن المعرفة). إدارة وتحليل كميات كبيرة من البيانات ( البيانات الكبيرة). أنظمة ذكاء الأعمال (ذكاء الأعمال ، BI).

استخراج البيانات (DMA) هو مصطلح عام لتحليل البيانات مع الاستخدام النشط للطرق والخوارزميات الرياضية (طرق التحسين ، الخوارزميات الجينية ، التعرف على الأنماط ، الطرق الإحصائية ، التنقيب في البيانات ، إلخ) التي تستخدم نتائج تطبيق طرق تصور البيانات.

بشكل عام ، تتكون عملية IAD من ثلاث مراحل:

1) تحديد الأنماط (بحث مجاني) ؛

2) استخدام الأنماط المكشوفة للتنبؤ بقيم غير معروفة (التنبؤ) ؛

3) تحليل الاستثناءات لتحديد وتفسير الانحرافات في الأنماط الموجودة.

في بعض الأحيان تكون هناك مرحلة وسيطة للتحقق من موثوقية الأنماط التي تم العثور عليها (مرحلة التحقق من الصحة) بين اكتشافها واستخدامها.

جميع طرق IAD ، وفقًا لمبدأ العمل مع البيانات الأولية ، تنقسم إلى مجموعتين:

طرق استدلال حالة الاستخدام - يمكن تخزين البيانات الأولية في شكل حبيبي صريح واستخدامها مباشرة للتنبؤ و / أو تحليل الاستثناءات. عيب هذه المجموعة من الأساليب هو تعقيد استخدامها على كميات كبيرة من البيانات.

طرق تحديد واستخدام الأنماط الرسمية التي تتطلب استخراج المعلومات من البيانات الأولية وتحويلها إلى بعض التركيبات الرسمية ، والتي يعتمد شكلها على طريقة معينة.

تعدين البيانات (DM) هي تقنية لاكتشاف المعرفة غير التافهة والمفيدة عمليًا والتي يمكن الوصول إليها في البيانات الخام غير المعروفة سابقًا ، وهو أمر ضروري لاتخاذ القرارات في مختلف مجالات النشاط البشري. تتطلب الخوارزميات المستخدمة في التنقيب عن البيانات عددًا كبيرًا من العمليات الحسابية ، والتي كانت في السابق عاملاً مقيدًا في التطبيق العملي الواسع لهذه الطرق ، لكن الزيادة في أداء المعالجات الحديثة أزالت خطورة هذه المشكلة.

يتكون سوق ذكاء الأعمال من 5 قطاعات:

1. منتجات OLAP.

2. أدوات التنقيب عن البيانات.

3. أدوات بناء مستودعات البيانات وسوق البيانات (تخزين البيانات).

4. نظم المعلومات الإدارية وتطبيقاتها.

5. أدوات المستخدم النهائي للاستعلام وإعداد التقارير.

حاليًا ، من بين قادة منصات BI للشركات ، MicroStrategy و Business Objects و Cognos و Hyperion Solutions و Microsoft و Oracle و SAP و SAS Institute وغيرها (يوفر الملحق B تحليلًا مقارنًا لبعض وظائفأنظمة ذكاء الأعمال).

لقد أتاح المستوى الحديث لتطوير الأجهزة والبرامج من الممكن لبعض الوقت الآن الاحتفاظ بقواعد بيانات المعلومات التشغيلية على مستويات مختلفة من الإدارة. في سياق أنشطتها ، جمعت المؤسسات الصناعية والشركات وهياكل الإدارات والسلطات العامة والإدارات كميات كبيرة من البيانات. تحتوي على إمكانات كبيرة لاستخراج معلومات تحليلية مفيدة ، والتي على أساسها يمكنك تحديد الاتجاهات المخفية ، وبناء استراتيجية تطوير ، وإيجاد حلول جديدة.

في السنوات الأخيرة ، تبلور عدد من المفاهيم الجديدة لتخزين بيانات الشركات وتحليلها في العالم:

1) مستودعات البيانات أو مستودعات البيانات (مستودع البيانات)

2) المعالجة التحليلية عبر الإنترنت (المعالجة التحليلية عبر الإنترنت ، OLAP)

3) التنقيب في البيانات - IAD (تنقيب البيانات)

أنظمة معالجة البيانات التحليلية OLAP هي أنظمة دعم القرار التي تركز على تنفيذ الاستعلامات الأكثر تعقيدًا التي تتطلب معالجة إحصائية للبيانات التاريخية المتراكمة خلال فترة زمنية معينة. إنها تعمل على إعداد تقارير الأعمال حول المبيعات والتسويق لأغراض الإدارة ، ما يسمى التنقيب في البيانات - التنقيب عن البيانات ، أي طريقة لتحليل المعلومات في قاعدة بيانات للعثور على الانحرافات والاتجاهات دون معرفة المعنى الدلالي للسجلات.

تتضمن الأنظمة التحليلية المبنية على أساس OLAP أدوات معالجة المعلومات بناءً على أساليب الذكاء الاصطناعي ووسائل عرض البيانات الرسومية. يتم تحديد هذه الأنظمة من خلال كمية كبيرة من البيانات التاريخية ، مما يسمح لك باستخراج معلومات مفيدة منها ، أي الحصول على المعرفة من البيانات.

يتم تحقيق كفاءة المعالجة من خلال استخدام تقنية قوية متعددة المعالجات ، وطرق معقدة للتحليل ، ومخازن بيانات متخصصة.

تخزن قواعد البيانات العلائقية الكيانات في جداول منفصلة ، والتي عادة ما تكون طبيعية بشكل جيد. هذا الهيكل مفيد ل قواعد التشغيلالبيانات (نظام OLTP) ، ولكن الاستعلامات المعقدة متعددة الجداول تكون بطيئة نسبيًا فيها. أفضل نموذج للاستعلام بدلاً من التعديل هو قاعدة البيانات المكانية.

يأخذ نظام OLAP لقطة من قاعدة البيانات العلائقية ويقوم ببنائها في نموذج مكاني للاستعلامات. يبلغ وقت المعالجة المطالب به للاستعلامات في OLAP حوالي 0.1٪ من الاستعلامات المماثلة في قاعدة بيانات علائقية.

تسمى بنية OLAP التي تم إنشاؤها من بيانات الإنتاج بمكعب OLAP. يتم إنشاء مكعب من ربط الجداول باستخدام مخطط نجمة. يوجد في وسط "النجمة" جدول حقائق يحتوي على الحقائق الأساسية التي يتم إجراء الاستفسارات بشأنها. يتم إرفاق جداول متعددة ذات أبعاد بجدول حقائق. توضح هذه الجداول كيف يمكن تحليل البيانات العلائقية المجمعة. يتم تحديد عدد التجميعات الممكنة من خلال عدد الطرق التي يمكن من خلالها عرض البيانات الأصلية بشكل هرمي.

تعتمد الفئات المحددة من الأنظمة (OLAP و OLTP) على استخدام DBMS ، لكن أنواع الاستعلامات مختلفة تمامًا. تعد آلية OLAP إحدى أكثر طرق تحليل البيانات شيوعًا اليوم. هناك طريقتان رئيسيتان لحل هذه المشكلة. أولهما يسمى متعدد الأبعاد OLAP (MOLAP) - تنفيذ الآلية باستخدام قاعدة بيانات متعددة الأبعاد على جانب الخادم ، والثاني علاقي OLAP (ROLAP) - بناء المكعبات بسرعة بناءً على استعلامات SQL إلى نظام DBMS علاقي. كل من هذه الأساليب لها مزاياها وعيوبها. يمكن تمثيل المخطط العام لنظام OLAP لسطح المكتب في الشكل.

خوارزمية العمل هي كما يلي:

1) الحصول على البيانات في شكل جدول مسطح أو نتيجة تنفيذ استعلام SQL ؛

2) تخزين البيانات مؤقتًا وتحويلها إلى مكعب متعدد الأبعاد ؛

3) عرض المكعب المُنشأ باستخدام علامة تبويب متقاطعة أو مخطط ، إلخ.

بشكل عام ، يمكن توصيل عدد عشوائي من التعيينات بمكعب واحد. غالبًا ما تكون شاشات العرض المستخدمة في أنظمة OLAP من نوعين: الجداول المتقاطعة والمخططات.

مخطط نجمة. تتمثل فكرتها في وجود جداول لكل بُعد ، ويتم وضع جميع الحقائق في جدول واحد ، مفهرسة بواسطة مفتاح متعدد مكون من مفاتيح الأبعاد الفردية. يحدد كل شعاع من مخطط النجوم ، في مصطلحات Codd ، اتجاه توحيد البيانات على طول البعد المقابل.

في المهام المعقدة ذات القياسات متعددة المستويات ، من المنطقي الرجوع إلى امتدادات مخطط النجوم - مخطط الكوكبة (مخطط كوكبة الحقائق) ومخطط ندفة الثلج (مخطط ندفة الثلج). في هذه الحالات ، يتم إنشاء جداول حقائق منفصلة للتركيبات الممكنة لمستويات التلخيص ذات الأبعاد المختلفة. يسمح هذا بأداء أفضل ، ولكنه غالبًا ما يؤدي إلى بيانات زائدة عن الحاجة وتعقيد كبير في بنية قاعدة البيانات ، والتي تحتوي على عدد كبير من جداول الحقائق.

مخطط كوكبة

3.4 طرق معالجة البيانات التحليلية

من أجل أن تساهم مستودعات البيانات الحالية في تبني قرارات الإدارة ، يجب تقديم المعلومات إلى المحلل بالشكل الصحيح ، أي يجب أن يكون قد طور أدوات للوصول إلى البيانات ومعالجتها من المستودع.

في كثير من الأحيان ، يتبين أن المعلومات والأنظمة التحليلية التي تم إنشاؤها مع توقع الاستخدام المباشر من قبل صانعي القرار سهلة الاستخدام للغاية ، ولكنها محدودة للغاية في الوظائف. تسمى هذه الأنظمة الثابتة أنظمة المعلومات التنفيذية (ISS) ، أو أنظمة المعلومات التنفيذية (EIS). تحتوي على العديد من الطلبات ، وعلى الرغم من كونها كافية للمراجعة اليومية ، إلا أنها غير قادرة على الإجابة على جميع الأسئلة التي قد تطرأ عند اتخاذ القرارات. نتيجة تشغيل مثل هذا النظام ، كقاعدة عامة ، هي تقارير متعددة الصفحات ، بعد دراسة متأنية ، والتي لدى المحلل سلسلة جديدة من الأسئلة. ومع ذلك ، يجب أولاً وصف كل طلب جديد ، لم يتم توقعه عند تصميم مثل هذا النظام ، وترميزه بواسطة المبرمج ، ثم تنفيذه فقط. يمكن أن يكون وقت الانتظار في هذه الحالة ساعات وأيامًا ، وهو أمر غير مقبول دائمًا.

المعالجة التحليلية عبر الإنترنت. أو المعالجة التحليلية عبر الإنترنت ، OLAP هو مكون رئيسي لتنظيم مستودعات البيانات. تم وصف مفهوم OLAP في عام 1993 بواسطة Edgar Codd ولديه المتطلبات التالية لتطبيقات التحليل متعدد الأبعاد:

- التمثيل المفاهيمي متعدد الأبعاد للبيانات ، بما في ذلك الدعم الكامل للتسلسلات الهرمية والتسلسلات الهرمية المتعددة (متطلبات OLAP الرئيسية) ؛

- تزويد المستخدم بنتائج التحليل في وقت مقبول (لا يزيد عادة عن 5 ثوانٍ) ، حتى على حساب تحليل أقل تفصيلاً ؛

- القدرة على إجراء أي تحليل منطقي وإحصائي خاص بتطبيق معين وحفظه في نموذج يمكن للمستخدم النهائي الوصول إليه ؛

- وصول متعدد المستخدمين إلى البيانات مع دعم آليات القفل المناسبة وأدوات الوصول المصرح بها ؛

- القدرة على الوصول إلى أي معلومات ضرورية بغض النظر عن حجمها ومكان التخزين.

يتكون نظام OLAP من العديد من المكونات. في أعلى مستوى للعرض التقديمي ، يشتمل النظام على مصدر بيانات وقاعدة بيانات متعددة الأبعاد (MDB) توفر القدرة على تنفيذ محرك تقارير OLAP وخادم OLAP وعميل. النظام مبني على مبدأ خادم العميل ويوفر وصولاً عن بعد ومتعدد المستخدمين إلى خادم MDB.

ضع في اعتبارك مكونات نظام OLAP.

مصادر.المصدر في أنظمة OLAP هو الخادم الذي يوفر البيانات للتحليل. اعتمادًا على نطاق منتج OLAP ، يمكن أن يكون المصدر مستودع بيانات وقاعدة بيانات موروثة تحتوي على بيانات عامة ومجموعة

الجداول التي تجمع بين البيانات المالية أو أي مجموعة مما ورد أعلاه.

مخزن البيانات. يتم جمع البيانات الأولية ووضعها في مستودع مصمم وفقًا لمبادئ بناء مستودعات البيانات. القرص المضغوط هو قاعدة بيانات علائقية (RDB). يحتوي جدول البيانات الرئيسي (جدول الحقائق) على القيم العددية للمؤشرات التي تم جمع المعلومات الإحصائية من أجلها.

قاعدة بيانات متعددة الأبعاديعمل مخزن البيانات كموفر معلومات لقاعدة بيانات متعددة الأبعاد ، وهي عبارة عن مجموعة من الكائنات. الفئات الرئيسية لهذه الأشياء هي الأبعاد والمؤشرات. تشمل الأبعاد مجموعات من القيم (المعلمات) التي يتم من خلالها فهرسة البيانات ، على سبيل المثال ، الوقت ، المناطق ، نوع المؤسسة ، إلخ. يتم تعبئة كل بُعد بقيم من الجداول المقابلة لأبعاد مستودع البيانات. تحدد مجموعة القياسات مساحة العملية قيد الدراسة. المقاييس هي مكعبات بيانات متعددة الأبعاد (مكعبات مفرطة). يحتوي المكعب التشعبي على البيانات نفسها ، بالإضافة إلى مجاميع مجمعة للأبعاد التي يتكون منها المؤشر. تشكل المؤشرات المحتوى الرئيسي لبنك التنمية متعدد الأطراف ويتم ملؤها وفقًا لجدول الحقائق. على طول كل محور للمكعب التشعبي ، يمكن تنظيم البيانات في تسلسل هرمي يمثل مستويات مختلفة من التفاصيل. يتيح لك ذلك إنشاء أبعاد هرمية ، والتي وفقًا لها ، أثناء تحليل البيانات اللاحق ، سيتم تجميع أو تحسين عرض البيانات. مثال نموذجي للبعد الهرمي هو قائمة الكائنات الإقليمية التي تم تجميعها حسب المقاطعات والمناطق والمقاطعات.

الخادم.جزء التطبيق من نظام OLAP هو خادم OLAP. يقوم هذا المكون بجميع الأعمال (اعتمادًا على طراز النظام) ، ويخزن جميع المعلومات التي يتم الوصول إليها بنشاط. تخضع بنية الخادم لمفاهيم مختلفة. على وجه الخصوص ، فإن السمة الوظيفية الرئيسية لمنتجات OLAP هي استخدام MDB أو RDB لتخزين البيانات.

تطبيق العميلتتوفر البيانات المهيكلة والمخزنة بشكل مناسب في MDB للتحليل باستخدام تطبيق العميل. يحصل المستخدم على القدرة على الوصول إلى البيانات عن بعد ، وصياغة الاستعلامات المعقدة ، وإنشاء التقارير ، والحصول على مجموعات فرعية عشوائية من البيانات. يرجع الحصول على تقرير إلى اختيار قيم قياس محددة وإنشاء قسم من المكعب التشعبي. يتم تحديد المقطع العرضي من خلال قيم القياس المحددة. تم تلخيص بيانات باقي القياسات.

OLAPعلى العميل وعلى الخادم.يمكن إجراء تحليل البيانات متعدد الأبعاد باستخدام أدوات متنوعة ، والتي يمكن تقسيمها بشكل مشروط إلى أدوات OLAP للعميل والخادم.

أدوات OLAP من جانب العميل (مثل جداول Microsoft المحورية في Excel 2000 أو Knosys 'ProClarity) هي تطبيقات تحسب البيانات المجمعة وتعرضها. في الوقت نفسه ، يتم تضمين البيانات المجمعة نفسها في ذاكرة التخزين المؤقت داخل مساحة العنوان لأداة OLAP.

إذا كانت البيانات المصدر مضمنة في DBMS لسطح المكتب ، يتم تنفيذ حساب البيانات المجمعة بواسطة أداة OLAP نفسها. إذا كان مصدر البيانات الأولية هو خادم DBMS ، فإن العديد من أدوات OLAP للعميل ترسل استعلامات SQL إلى الخادم ، ونتيجة لذلك ، تتلقى بيانات مجمعة محسوبة على الخادم.

كقاعدة عامة ، يتم تنفيذ وظيفة OLAP في أدوات معالجة البيانات الإحصائية وفي بعض جداول البيانات.

تحتوي العديد من أدوات التطوير على مكتبات فئات أو مكونات تتيح لك إنشاء تطبيقات تنفذ أبسط وظائف OLAP (مثل مكونات Decision Cube في Borland Delphi و Borland C ++ Builder). بالإضافة إلى ذلك ، تقدم العديد من الشركات عناصر تحكم ActiveX ومكتبات أخرى توفر وظائف مماثلة.

يتم استخدام أدوات OLAP الخاصة بالعميل ، كقاعدة عامة ، مع عدد صغير من الأبعاد (عادة لا يزيد عن ستة) ومجموعة متنوعة صغيرة من قيم هذه المعلمات - نظرًا لأن البيانات المجمعة الناتجة يجب أن تتلاءم مع مساحة العنوان لهذه أداة ، وعددهم ينمو أضعافا مضاعفة مع زيادة عدد الأبعاد.

تسمح لك العديد من أدوات عميل OLAP بحفظ محتويات ذاكرة التخزين المؤقت للبيانات المجمعة كملف بحيث لا يلزم إعادة حسابها. ومع ذلك ، غالبًا ما تُستخدم هذه الفرصة لعزل البيانات المجمعة من أجل نقلها إلى منظمات أخرى أو للنشر.

تم تطوير فكرة تخزين ذاكرة التخزين المؤقت مع البيانات المجمعة في ملف بشكل أكبر في أدوات OLAP من جانب الخادم (على سبيل المثال ، Oracle Express Server أو Microsoft OLAP Services) ، حيث يتم حفظ البيانات المجمعة وتعديلها ، بالإضافة إلى الحفاظ على التخزين الذي يحتوي عليها ، يتم تنفيذه بواسطة تطبيق منفصل أو عملية تسمى خادم OLAP. يمكن أن تطلب تطبيقات العميل مثل هذا التخزين متعدد الأبعاد وتلقي بعض البيانات استجابة لذلك. قد تقوم بعض تطبيقات العميل أيضًا بإنشاء مثل هذه المتاجر أو تحديثها وفقًا لبيانات المصدر المتغيرة.

تتشابه مزايا استخدام أدوات OLAP للخادم مقارنة بأدوات OLAP الخاصة بالعميل مع مزايا استخدام خادم DBMS مقارنة بأدوات سطح المكتب: في حالة استخدام أدوات الخادم ، يتم حساب وتخزين البيانات المجمعة على الخادم وتطبيق العميل يتلقى فقط نتائج الاستعلامات الموجهة إليهم ، مما يسمح بشكل عام بتقليل حركة مرور الشبكة ، ووقت تنفيذ الطلب ، ومتطلبات الموارد التي يستهلكها تطبيق العميل.

3.5 الجوانب الفنية لتخزين البيانات متعددة الأبعاد

يمكن تقسيم الأبعاد المتعددة في تطبيقات OLAP إلى ثلاثة مستويات:

1. عرض البيانات متعدد الأبعاد- أدوات المستخدم النهائي التي توفر تصورًا متعدد الأبعاد ومعالجة البيانات ؛ طبقة التمثيل متعددة الأبعاد تلخص من البنية المادية للبيانات وتعامل البيانات على أنها متعددة الأبعاد.

    معالجة متعددة الأبعاد- أداة (لغة) لصياغة استعلامات متعددة الأبعاد (لغة SQL العلائقية التقليدية غير مناسبة هنا) ومعالج يمكنه معالجة وتنفيذ مثل هذا الاستعلام.

    تخزين متعدد الأبعاد- وسائل التنظيم المادي للبيانات التي تضمن التنفيذ الفعال للاستعلامات متعددة الأبعاد.

المستويان الأولان إلزاميان في جميع أدوات OLAP. المستوى الثالث ، على الرغم من استخدامه على نطاق واسع ، غير مطلوب ، حيث يمكن أيضًا استرداد بيانات التمثيل متعدد الأبعاد من الهياكل العلائقية العادية. يقوم معالج الاستعلام متعدد الأبعاد ، في هذه الحالة ، بترجمة الاستعلامات متعددة الأبعاد إلى استعلامات SQL التي يتم تنفيذها بواسطة نظام DBMS علاقي.

في أي مستودع بيانات ، تقليدي ومتعدد الأبعاد ، جنبًا إلى جنب مع البيانات التفصيلية المسترجعة من أنظمة التشغيل ، يتم أيضًا تخزين المؤشرات المجمعة (إجمالي المؤشرات) ، مثل مبالغ أحجام المبيعات حسب الأشهر ، حسب فئات المنتجات ، إلخ. الغرض الوحيد من تسريع تنفيذ الاستعلام. بعد كل شيء ، من ناحية ، كقاعدة عامة ، يتم تجميع كمية كبيرة جدًا من البيانات في التخزين ، ومن ناحية أخرى ، لا يهتم المحللون في معظم الحالات بالمؤشرات التفصيلية ، ولكن بالمؤشرات العامة. وإذا كان لابد من تلخيص الملايين من المبيعات الفردية في كل مرة لحساب حجم المبيعات للسنة ، فمن المرجح أن تكون السرعة غير مقبولة. لذلك ، عند تحميل البيانات في قاعدة بيانات متعددة الأبعاد ، يتم حساب وحفظ جميع المؤشرات الإجمالية أو جزء منها.

ومع ذلك ، فإن استخدام البيانات المجمعة محفوف بالعيوب. تتمثل العيوب الرئيسية في الزيادة في كمية المعلومات المخزنة (عند إضافة أبعاد جديدة ، يزداد حجم البيانات التي يتكون منها المكعب بشكل كبير) والوقت الذي يستغرقه تحميلها. علاوة على ذلك ، يمكن أن يزداد حجم المعلومات بعشرات بل ومئات المرات. على سبيل المثال ، في أحد الاختبارات القياسية المنشورة ، تطلب عدد التجميع الكامل لـ 10 ميغا بايت من البيانات الأولية 2.4 جيجا بايت ، أي أن البيانات زادت بمعامل 240!

تعتمد درجة الزيادة في كمية البيانات عند حساب المجاميع على عدد أبعاد المكعب وهيكل هذه الأبعاد ، أي نسبة عدد "الآباء" و "الأطفال" على مستويات مختلفة من البعد. لحل مشكلة تخزين المجاميع ، يتم استخدام المخططات المعقدة التي تسمح ، عند الحساب بعيدًا عن جميع المجاميع الممكنة ، بتحقيق زيادة كبيرة في أداء تنفيذ الاستعلام.

يمكن تخزين كل من البيانات الأولية والمجمعة إما بتنسيق

العلائقية ، أو في هياكل متعددة الأبعاد. في هذا الصدد ، يتم استخدام ثلاث طرق لتخزين البيانات متعددة الأبعاد حاليًا:

MOLAP (OLAP متعدد الأبعاد) - يتم تخزين البيانات المصدر والمجمعة في قاعدة بيانات متعددة الأبعاد. يسمح لك تخزين البيانات في هياكل متعددة الأبعاد بمعالجة البيانات كمصفوفة متعددة الأبعاد ، بحيث تكون سرعة حساب القيم الإجمالية هي نفسها لأي من الأبعاد. ومع ذلك ، في هذه الحالة ، تكون قاعدة البيانات متعددة الأبعاد زائدة عن الحاجة ، نظرًا لأن البيانات متعددة الأبعاد تحتوي تمامًا على البيانات العلائقية الأصلية.

توفر هذه الأنظمة دورة كاملة من معالجة OLAP. تتضمن إما ، بالإضافة إلى مكون الخادم ، واجهة العميل المتكاملة الخاصة بها ، أو تستخدم برامج جداول بيانات خارجية للتواصل مع المستخدم.

رولاب (OLAP العلائقية) - تظل البيانات الأصلية في نفس قاعدة البيانات العلائقية حيث كانت موجودة في الأصل. يتم وضع البيانات المجمعة في جداول الخدمة التي تم إنشاؤها خصيصًا لتخزينها في نفس قاعدة البيانات.

هولاب (OLAP المختلط) - تظل البيانات الأصلية في نفس قاعدة البيانات العلائقية حيث كانت موجودة في الأصل ، بينما يتم تخزين البيانات المجمعة في قاعدة بيانات متعددة الأبعاد.

تدعم بعض أدوات OLAP تخزين البيانات فقط في الهياكل العلائقية ، والبعض الآخر في الهياكل متعددة الأبعاد فقط. ومع ذلك ، تدعم معظم أدوات خادم OLAP الحديثة جميع طرق تخزين البيانات الثلاثة. يعتمد اختيار طريقة التخزين على حجم وهيكل البيانات المصدر ، ومتطلبات سرعة تنفيذ الاستعلام ، وتكرار تحديث مكعبات OLAP.

3.6 التنقيب عن البيانات (بياناتالتعدين)

يشير مصطلح تعدين البيانات إلى عملية البحث عن الارتباطات والاتجاهات والعلاقات من خلال خوارزميات رياضية وإحصائية مختلفة: التجميع ، وتحليل الانحدار والارتباط ، وما إلى ذلك لأنظمة دعم القرار. في الوقت نفسه ، يتم تعميم المعلومات المتراكمة تلقائيًا على المعلومات التي يمكن وصفها بأنها معرفة.

أساس تقنية تعدين البيانات الحديثة هو مفهوم الأنماط التي تعكس الأنماط المتأصلة في العينات الفرعية للبيانات وتشكل ما يسمى بالمعرفة المخفية.

يتم البحث عن الأنماط بالطرق التي لا تستخدم أي افتراضات مسبقة حول هذه العينات الفرعية. من السمات المهمة للتنقيب في البيانات عدم المعايير وعدم وضوح الأنماط التي يتم البحث عنها. بمعنى آخر ، تختلف أدوات التنقيب عن البيانات عن أدوات معالجة البيانات الإحصائية وأدوات OLAP في ذلك بدلاً من التحقق من العلاقات التي يفترضها المستخدمون مسبقًا

بين البيانات ، بناءً على البيانات المتاحة ، يمكنهم العثور بشكل مستقل على مثل هذه العلاقات ، فضلاً عن بناء فرضيات حول طبيعتها.

بشكل عام ، تتكون عملية التنقيب عن البيانات (تنقيب البيانات) من ثلاث مراحل

    تحديد الأنماط (بحث مجاني) ؛

    استخدام الأنماط التي تم الكشف عنها للتنبؤ بقيم غير معروفة (النمذجة التنبؤية) ؛

    تحليل الاستثناء ، مصمم لتحديد وتفسير الحالات الشاذة في الأنماط الموجودة.

في بعض الأحيان ، يتم تمييز مرحلة وسيطة للتحقق من موثوقية الأنماط الموجودة بين اكتشافها واستخدامها (مرحلة التحقق من الصحة) بشكل صريح.

هناك خمسة أنواع قياسية من الأنماط المحددة بواسطة طرق التنقيب في البيانات:

1. الجمعيةيسمح لك بتحديد مجموعات ثابتة من الكائنات التي توجد بينها روابط محددة ضمنيًا. يُطلق على تكرار حدوث عنصر واحد أو مجموعة عناصر ، معبرًا عنها كنسبة مئوية ، الانتشار. يشير معدل الانتشار المنخفض (أقل من جزء من الألف من المائة) إلى أن مثل هذا الارتباط ليس مهمًا. تتم كتابة الجمعيات كقواعد: أ=> ب، أين أ -طَرد، في -عاقبة. لتحديد أهمية كل قاعدة ارتباط ناتجة ، من الضروري حساب قيمة تسمى الثقة أل في(أو علاقة أ و ب).تظهر الثقة كم مرة ومتى أيبدو في.على سبيل المثال ، إذا ربت)\ u003d 20٪ ، هذا يعني أنه عند شراء منتج أفي كل حالة خامسة ، يتم شراء منتج أيضًا في.

مثال نموذجي لتطبيق الجمعية هو تحليل هيكل المشتريات. على سبيل المثال ، عند إجراء مسح في سوبر ماركت ، يمكنك أن تجد أن 65٪ من أولئك الذين اشتروا رقائق البطاطس يأخذون أيضًا Coca-Cola ، وإذا كان هناك خصم لمثل هذه المجموعة ، فإنهم يشترون الكولا في 85٪ من الحالات. هذه النتائج ذات قيمة في تشكيل استراتيجيات التسويق.

2. الاتساق - إنها طريقة لتحديد الارتباطات بمرور الوقت. في هذه الحالة ، يتم تحديد القواعد التي تصف التكرار المتسلسل لمجموعات معينة من الأحداث. هذه القواعد ضرورية لبناء السيناريوهات. بالإضافة إلى ذلك ، يمكن استخدامها ، على سبيل المثال ، لتشكيل مجموعة نموذجية من المبيعات السابقة التي قد تؤدي إلى مبيعات لاحقة لمنتج معين.

3. التصنيف - أداة التعميم. يسمح لك بالانتقال من التفكير في الكائنات الفردية إلى المفاهيم المعممة التي تميز بعض مجموعات الكائنات وتكون كافية للتعرف على الكائنات التي تنتمي إلى هذه المجموعات (الفئات). جوهر عملية تكوين المفاهيم هو العثور على أنماط متأصلة في الفصول الدراسية. يتم استخدام العديد من الميزات (السمات) المختلفة لوصف الأشياء. تمت صياغة مشكلة تكوين المفهوم وفقًا للأوصاف الإرشادية بواسطة M.M. بونغارت. يعتمد حلها على تطبيق إجراءين رئيسيين: التدريب والتحقق. في إجراءات التدريب ، تُبنى قاعدة التصنيف بناءً على معالجة مجموعة العناصر التدريبية. يتكون إجراء التحقق (الفحص) من استخدام قاعدة التصنيف التي تم الحصول عليها للتعرف على الأشياء من عينة (فحص) جديدة. إذا تبين أن نتائج الاختبار مرضية ، فإن عملية التعلم تنتهي ، وإلا فإن قاعدة التصنيف يتم تنقيحها في عملية التعلم المتكرر.

4. التجميع - هذا هو توزيع المعلومات (السجلات) من قاعدة البيانات إلى مجموعات (مجموعات) أو مقاطع مع التعريف المتزامن لهذه المجموعات. على عكس التصنيف ، لا يتطلب التحليل هنا فئات محددة مسبقًا.

5. سلسلة زمنية للتنبؤ هي أداة لتحديد الاتجاهات في سمات الأشياء قيد الدراسة بمرور الوقت. يسمح لك تحليل سلوك السلاسل الزمنية بالتنبؤ بقيم الخصائص المدروسة.

لحل مثل هذه المشاكل ، يتم استخدام طرق وخوارزميات مختلفة لاستخراج البيانات. نظرًا لحقيقة أن التنقيب في البيانات قد تطور ويتطور عند تقاطع التخصصات مثل الإحصاء ، ونظرية المعلومات ، والتعلم الآلي ، ونظرية قواعد البيانات ، فمن الطبيعي تمامًا أن معظم خوارزميات وطرق التنقيب في البيانات قد تم تطويرها بناءً على طرق مختلفة من هذه التخصصات.

من بين مجموعة متنوعة من أساليب التنقيب عن البيانات الحالية ، يمكن التمييز بين ما يلي:

    تحليل الانحدار والتشتت والارتباط(تم تنفيذه في معظم الحزم الإحصائية الحديثة ، ولا سيما في منتجات SAS Institute و StatSoft وما إلى ذلك) ؛

    طرق التحليلفي مجال موضوع معين ، بناءً على النماذج التجريبية (غالبًا ما تستخدم ، على سبيل المثال ، في أدوات التحليل المالي غير المكلفة) ؛

    خوارزميات الشبكة العصبية- طريقة لتقليد العمليات والظواهر تسمح لك بإعادة إنتاج التبعيات المعقدة. تعتمد الطريقة على استخدام نموذج مبسط للدماغ البيولوجي وتكمن في حقيقة أن المعلمات الأولية تعتبر إشارات يتم تحويلها وفقًا للوصلات الموجودة بين "الخلايا العصبية" واستجابة الشبكة بأكملها على البيانات الأولية تعتبر الإجابة الناتجة عن التحليل. يتم إنشاء الروابط في هذه الحالة باستخدام ما يسمى بالتعلم الشبكي من خلال عينة كبيرة تحتوي على كل من البيانات الأصلية والإجابات الصحيحة. تستخدم الشبكات العصبية على نطاق واسع لحل مشاكل التصنيف ؛

    المنطق الضبابيتُستخدم لمعالجة البيانات بقيم الحقيقة الغامضة التي يمكن تمثيلها بواسطة مجموعة متنوعة من المتغيرات اللغوية. يستخدم تمثيل المعرفة الضبابية على نطاق واسع لحل مشاكل التصنيف والتنبؤ ، على سبيل المثال ، في نظام XpertRule Miner (Attar Software Ltd. ، المملكة المتحدة) ، وكذلك في AIS و NeuFuz وما إلى ذلك ؛

    الاستدلالات الاستقرائيةتسمح لك بالحصول على تعميمات للحقائق المخزنة في قاعدة البيانات. في عملية التعلم الاستقرائي ، يمكن للمتخصص الذي يقدم الفرضيات المشاركة. هذه الطريقة تسمى التعلم تحت الإشراف. يمكن إجراء البحث عن قواعد التعميم بدون معلم عن طريق إنشاء الفرضيات تلقائيًا. في أدوات البرمجيات الحديثة ، كقاعدة عامة ، يتم الجمع بين كلتا الطريقتين ، وتستخدم الأساليب الإحصائية لاختبار الفرضيات. مثال على نظام يستخدم خيوط استقرائية هو XpertRule Miner الذي طورته Attar Software Ltd. (بريطانيا العظمى)؛

    المنطق على أساس حالات مماثلة(طريقة "الجار الأقرب") (الاستدلال المستند إلى الحالة - CBR) تستند إلى البحث في قاعدة البيانات عن المواقف التي تتشابه أوصافها في عدد من الميزات مع حالة معينة. يشير مبدأ القياس إلى أن نتائج المواقف المتشابهة ستكون أيضًا قريبة من بعضها البعض. عيب هذا النهج هو أنه لا يخلق أي نماذج أو قواعد تعمم الخبرة السابقة. بالإضافة إلى ذلك ، تعتمد موثوقية النتائج المستخلصة على اكتمال وصف المواقف ، كما هو الحال في عمليات الاستدلال الاستقرائي. أمثلة على الأنظمة التي تستخدم CBR هي: KATE Tools (Acknosoft ، فرنسا) ، ومنضدة التعرف على الأنماط (Unica ، الولايات المتحدة الأمريكية) ؛

    أشجار القرار- طريقة لهيكلة مشكلة في شكل رسم بياني شجرة ، تتوافق رؤوسه مع قواعد الإنتاج التي تسمح بتصنيف البيانات أو تحليل نتائج القرارات. تعطي هذه الطريقة تمثيلًا مرئيًا لنظام قواعد التصنيف ، إذا لم يكن هناك الكثير منها. يتم حل المهام البسيطة باستخدام هذه الطريقة بشكل أسرع بكثير من استخدام الشبكات العصبية. بالنسبة للمشكلات المعقدة وبعض أنواع البيانات ، قد لا تكون أشجار القرار مناسبة. بالإضافة إلى ذلك ، تتميز هذه الطريقة بمشكلة الأهمية. تتمثل إحدى نتائج تجميع البيانات الهرمية في عدم وجود عدد كبير من أمثلة التدريب للعديد من الحالات الخاصة ، وبالتالي لا يمكن اعتبار التصنيف موثوقًا به. يتم تنفيذ أساليب شجرة القرار في العديد من أدوات البرمجيات ، وهي: C5.0 (RuleQuest ، أستراليا) ، كليمنتين (حلول متكاملة ، المملكة المتحدة) ، SIPINA (جامعة ليون ، فرنسا) ، IDIS (اكتشاف المعلومات ، الولايات المتحدة الأمريكية) ؛

    البرمجة التطورية- البحث وإنشاء خوارزمية تعبر عن ترابط البيانات ، بناءً على الخوارزمية المحددة في البداية ، والمعدلة في عملية البحث ؛ في بعض الأحيان يتم البحث عن التبعيات بين أنواع معينة من الوظائف (على سبيل المثال ، كثيرات الحدود) ؛

خوارزميات البحث المحدودة، مجموعات حسابية من الأحداث المنطقية البسيطة في مجموعات فرعية من البيانات.

3.7 التكاملOLAPوبياناتالتعدين

تعد المعالجة التحليلية عبر الإنترنت (OLAP) واستخراج البيانات (تنقيب البيانات) عنصرين من مكونات عملية دعم القرار. اليوم ، ومع ذلك ، تركز معظم أنظمة OLAP فقط على توفير الوصول إلى البيانات متعددة الأبعاد ، ومعظم أدوات استخراج البيانات التي تعمل في مجال الأنماط تتعامل مع منظورات البيانات أحادية البعد. لزيادة كفاءة معالجة البيانات لأنظمة دعم القرار ، يجب الجمع بين هذين النوعين من التحليل.

يظهر المصطلح المركب "OLAP Data Mining" (استخراج البيانات متعدد الأبعاد) للإشارة إلى مثل هذه المجموعة.

هناك ثلاث طرق رئيسية لتكوين "تعدين بيانات OLAP":

    التكعيب ثم التعدين. يجب توفير القدرة على إجراء التحليل الفكري على أي نتيجة لاستعلام لتمثيل مفاهيمي متعدد الأبعاد ، أي على أي جزء من أي إسقاط للمكعب الفائق للمؤشرات.

    التعدين ثم التكعيب. مثل البيانات المسترجعة من المستودع ، يجب تقديم نتائج التعدين في شكل مفرط التكعيبي من أجل التحليل اللاحق متعدد الأبعاد.

    التكعيب أثناء التعدين. تتيح لك طريقة التكامل المرنة هذه تنشيط نفس النوع من آليات المعالجة الفكرية تلقائيًا على نتيجة كل خطوة من خطوات التحليل متعدد الأبعاد (الانتقال) بين مستويات التعميم ، واستخراج جزء المكعب الفائق الجديد ، وما إلى ذلك).

    الصف 11 [نص ... همكيف جزءالجميع الأنظمة ... استاذ مساعد ... تشيبوكساري، 2009. رقم 10. S. 44 -49 .... المؤلفون- المجمعين: ن. ... الملخصاتمحاضرات, ...

  • مساعدة تعليمية

    ... محاضرات. تحضير محاضراتالرياضيات. كتابة خلاصةمحاضرات محاضرات. إستعمال معلومةالتقنيات ...

  • أنشطة بحثية I K Kondaurova s ​​v Lebedev لمعلم الرياضيات المستقبلي المهام الإبداعية في الرياضيات الابتدائية وطرق تدريسها

    مساعدة تعليمية

    ... محاضرات. تحضير محاضراتالرياضيات. كتابة خلاصةمحاضرات. تحضير المعينات البصرية. تقنية القراءة محاضرات. إستعمال معلومةالتقنيات ...

  • M ONITORING MEDIA تحديث التعليم المهني مارس - أغسطس 2011

    ملخص

    ... 11 .08.2011 "Dead Souls-2" في RNIMU هم ... 3,11 -3,44 . ... عام محاضراتالقادة ... تشيبوكساري... والخربشة الملخصاتجمهور - ... معلوماتيةالأنظمةو التقنيات. ... نظامالتعليم ، يقول استاذ مساعد ... المجمعين ... القطعحقيقي محتوى ...

التقنيات التحليلية للعمليات التجارية

أنظمة ذكاء الأعمال - تجمع ذكاء الأعمال (BI) بين الأدوات والتقنيات المختلفة لتحليل ومعالجة البيانات على مستوى المؤسسة. بناءً على هذه الأدوات ، يتم إنشاء أنظمة ذكاء الأعمال ، والغرض منها هو تحسين جودة المعلومات لاتخاذ القرارات الإدارية.

يتضمن BI منتجات برمجية للفئات التالية:

أنظمة المعالجة التحليلية التشغيلية (OLAP) ؛

· وسائل تحليل البيانات الفكرية (DM).

تؤدي منتجات البرامج من كل فئة مجموعة معينة من الوظائف أو العمليات باستخدام تقنيات خاصة.

OLAP (المعالجة التحليلية عبر الإنترنت) - المعالجة التحليلية عبر الإنترنت - ليست اسم منتج معين ، ولكنها اسم تقنية كاملة. يعتمد مفهوم OLAP على تمثيل متعدد الأبعاد للبيانات.

في عام 1993 ، نشر مؤسس نهج قاعدة البيانات العلائقية Edgar Codd وشركاؤه (Edgar Codd ، عالم رياضيات وزميل في شركة IBM) ورقة بحثية بدأتها الشركة بعنوان "توفير OLAP (المعالجة التحليلية عبر الإنترنت) لمستخدمي المحللين" ، والتي تضمنت 12 معيارًا من تقنية OLAP ، والتي أصبحت فيما بعد المحتوى الرئيسي لتقنية جديدة وواعدة جدًا.

في وقت لاحق تمت إعادة صياغتها في اختبار FASMI ، والذي يحدد متطلبات منتجات OLAP:

· سريع (سريع). يجب أن يوفر تطبيق OLAP حدًا أدنى من وقت الوصول إلى البيانات التحليلية - في المتوسط ​​، حوالي 5 ثوانٍ ؛

· تحليل (تحليل). يجب أن يسمح تطبيق OLAP للمستخدم بإجراء تحليل رقمي وإحصائي ؛

مشترك (وصول مشترك). يجب أن يوفر تطبيق OLAP القدرة على التعامل مع المعلومات للعديد من المستخدمين في نفس الوقت ؛

· متعدد الأبعاد (متعدد الأبعاد) ؛

· معلومات (معلومات). يجب أن يسمح تطبيق OLAP للمستخدم بالحصول على ملفات معلومات ضرورية، في أي مكان لتخزين البيانات الإلكترونية.

بناءً على FASMI ، يمكن إعطاء التعريف التالي: تطبيقات OLAP -هذه أنظمة للوصول السريع متعدد المستخدمين إلى المعلومات التحليلية متعددة الأبعاد مع إمكانات التحليل العددي والإحصائي.

تتمثل الفكرة الرئيسية لـ OLAP في إنشاء مكعبات متعددة الأبعاد ستكون متاحة لاستعلامات المستخدم. المكعبات متعددة الأبعاد (الشكل 5.3) مبنية على أساس المصدر والبيانات المجمعة التي يمكن تخزينها في كل من قواعد البيانات العلائقية والمتعددة الأبعاد. لذلك ، توجد حاليًا ثلاث طرق لتخزين البيانات: MOLAP (OLAP متعدد الأبعاد) ، رولاب (OLAP العلائقية) و هولاب (هجين OLAP).

وفقًا لذلك ، يتم تقسيم منتجات OLAP إلى ثلاث فئات متشابهة وفقًا لطريقة تخزين البيانات:

1. في حالة MOLAP ، يتم تخزين المصدر والبيانات متعددة الأبعاد في قاعدة بيانات متعددة الأبعاد أو في مكعب محلي متعدد الأبعاد. تضمن طريقة التخزين هذه سرعة عالية لعمليات OLAP. لكن القاعدة متعددة الأبعاد في هذه الحالة ستكون في أغلب الأحيان زائدة عن الحاجة. يعتمد المكعب المبني على أساسه بشدة على عدد الأبعاد. مع زيادة عدد الأبعاد ، سينمو حجم المكعب بشكل كبير. في بعض الأحيان يمكن أن يؤدي هذا إلى "نمو هائل" في كمية البيانات.

2. في منتجات ROLAP ، يتم تخزين البيانات المصدر في قواعد بيانات علائقية أو في جداول محلية ثابتة على خادم ملفات. يمكن وضع البيانات المجمعة في جداول الخدمة في نفس قاعدة البيانات. يحدث تحويل البيانات من قاعدة بيانات علائقية إلى مكعبات متعددة الأبعاد بناءً على طلب أداة OLAP. في هذه الحالة ، ستعتمد سرعة بناء المكعب بشكل كبير على نوع مصدر البيانات.

3. في حالة استخدام بنية هجينة ، تظل بيانات المصدر في قاعدة البيانات العلائقية ، بينما يتم وضع المجاميع في قاعدة البيانات متعددة الأبعاد. يتم إنشاء مكعب OLAP بناءً على طلب أداة OLAP استنادًا إلى البيانات العلائقية والمتعددة الأبعاد. هذا النهج يتجنب نمو البيانات المتفجرة. في هذه الحالة ، يمكنك تحقيق وقت التنفيذ الأمثل لطلبات العميل.

باستخدام تقنيات OLAP ، يمكن للمستخدم إجراء عرض مرن للمعلومات ، والحصول على شرائح بيانات مختلفة ، وإجراء عمليات تحليلية للتفاصيل ، والتفاف ، والتوزيع الشامل ، والمقارنة بمرور الوقت ، أي إنتاج التقارير والوثائق ونشرها بشكل ديناميكي.

عادة ما يتم تصميم هيكل قاعدة بيانات المستودعات بطريقة تسهل تحليل المعلومات قدر الإمكان. يجب أن تكون البيانات "مرتبة" بشكل ملائم في اتجاهات مختلفة (تسمى الأبعاد). على سبيل المثال ، يريد المستخدم اليوم الاطلاع على ملخص لشحنات الأجزاء حسب المورد لمقارنة أدائها. سيحتاج المستخدم نفسه غدًا إلى صورة للتغييرات في حجم عمليات تسليم الأجزاء حسب الأشهر من أجل تتبع ديناميكيات عمليات التسليم. يجب أن يدعم هيكل قاعدة البيانات هذه الأنواع من التحليلات ، مما يسمح باستخراج البيانات المقابلة لمجموعة معينة من القياسات.

تعتمد معالجة البيانات التحليلية التشغيلية على مبدأ تنظيم المعلومات في نموذج مفرط التكعيبي. يظهر في الشكل أبسط مكعب بيانات ثلاثي الأبعاد لتزويد أجزاء لقاعدة بيانات الاختبار التي تم النظر فيها مسبقًا. 3.11. تتوافق كل خلية من خلاياه مع "حقيقة" - على سبيل المثال ، نطاق تسليم جزء. على طول جانب واحد من المكعب (بعد واحد) هي الأشهر التي تم خلالها تنفيذ عمليات التسليم التي يعكسها المكعب. البعد الثاني هو أنواع الأجزاء ، والبعد الثالث يتوافق مع الموردين. تحتوي كل خلية على كمية التسليم لمجموعة القيم المقابلة عبر جميع الأبعاد الثلاثة. وتجدر الإشارة إلى أنه عند ملء المكعب ، تم إجراء تجميع قيم عمليات التسليم لكل شهر من قاعدة بيانات الاختبار.


3.11. متغير Hypercube المبسط لتحليل توريد الأجزاء

تختلف أنظمة فئات OLAP في طريقة عرض البيانات.

متعدد الأبعاد OLAP (MOLAP) - تعتمد هذه الأنظمة على بنية بيانات متعددة الأبعاد تعتمد على المصفوفات الديناميكية مع طرق الوصول المناسبة. يتم تنفيذ MOLAP على التقنيات الحاصلة على براءة اختراع لتنظيم نظم إدارة قواعد البيانات متعددة الأبعاد. ميزة هذا النهج هي الراحة في إجراء العمليات الحسابية على خلايا hypercube ، منذ ذلك الحين تحت جميع مجموعات القياسات ، يتم إدخال الخلايا المقابلة (كما هو الحال في جدول بيانات). يشمل الممثلون الكلاسيكيون لهذه الأنظمة Oracle Express و SAS Institute MDDB.

OLAP العلائقية (ROLAP)- يدعم النماذج التحليلية متعددة الأبعاد على قواعد البيانات العلائقية. تتضمن هذه الفئة من الأنظمة Meta Cube Informix و Microsoft OLAP Services و Hyperion Solutions و SAS Institute Relational OLAP.

OLAP لسطح المكتب (سطح المكتب OLAP)- أدوات لتوليد استعلامات وتقارير متعددة الأبعاد لأنظمة المعلومات المحلية (جداول بيانات ، ملفات ثابتة). يمكن تمييز الأنظمة التالية - Business Objects و Cognos Power Play.

إي. حدد Codd اثني عشر قاعدة يجب أن يفي بها منتج فئة OLAP ، بما في ذلك التمثيل المفاهيمي متعدد الأبعاد للبيانات ، والشفافية ، وإمكانية الوصول ، والأداء القوي ، وهندسة العميل والخادم ، والمساواة في الأبعاد ، والمعالجة الديناميكية للمصفوفة المتفرقة ، ودعم المستخدمين المتعددين ، والدعم غير المحدود للأبعاد المتقاطعة العمليات ، ومعالجة البيانات بسهولة ، وآلية إعداد التقارير المرنة ، وعدد غير محدود من الأبعاد ومستويات التجميع.



أكثر أنظمة الفئات شيوعًا ROLAP. إنها تسمح لك بتنظيم نموذج معلومات على مساحة تخزين كاملة علائقية لأي هيكل أو عبر سوق بيانات خاص.

أرز. 3.12. قطع غيار العرض التحليلي مارت ستار الرسم التخطيطي

بالنسبة لمعظم مستودعات البيانات ، فإن الطريقة الأكثر فاعلية لنمذجة مكعب الأبعاد N هي "النجمة". على التين. يوضح الشكل 3.11 نموذج المكعب الفائق لتحليل توريد الأجزاء ، حيث يتم دمج المعلومات عبر أربعة أبعاد (المورد ، الجزء ، الشهر ، السنة). يعتمد مخطط النجمة على جدول حقائق. يحتوي جدول الحقائق على عمود يحدد نطاق التسليم ، بالإضافة إلى الأعمدة التي تحدد المفاتيح الخارجية لجميع جداول الأبعاد. يتم تمثيل كل بُعد مكعب بجدول قيم يمثل مرجعًا لجدول الحقائق. لتنظيم مستويات تعميم المعلومات فوق الكتب المرجعية للقياسات ، يتم تنظيم المدخلات الفئوية (على سبيل المثال ، "تفاصيل المواد" ، "مدينة-مورد").

سبب الدائرة في الشكل. 3.12 يسمى "نجمة" ، واضح تماما. نهايات "النجمة" مكونة من جداول الأبعاد ، وارتباطاتها بجدول الحقائق الموجود في أشعة النموذج المركزية. باستخدام تصميم قاعدة البيانات هذا ، تنضم معظم استعلامات تحليل الأعمال إلى جدول حقائق مركزي يحتوي على جدول أبعاد واحد أو أكثر. على سبيل المثال ، قد يبدو طلب البحث للحصول على شحنات من جميع الأجزاء في عام 2004 حسب الشهر مقسمًا حسب البائع كما يلي:

حدد SUM (VALUE) ، SUPPLIER.SUPPLIER_NAME ، FACT.MONTH_ID

من الواقع ، المورد

WHERE FACT.YEAR_ID = 2004

و FACT.SUPPLIER_CODE = SUPPLIER.SUPPLIER_CODE

GROUP_BY SUPPLIER_CODE ، MONTH_ID

ORDER_BY SUPPLIER_CODE ، MONTH_ID.

على التين. يوضح الشكل 3.13 جزءًا من التقرير الذي تم إنشاؤه كنتيجة لاستعلام معين.

شرط المعالجة التحليلية التشغيليةتم ذكر (المعالجة التحليلية عبر الإنترنت- OLAP) لأول مرة في تقرير أعدته شركة Arbor Software Corp. في عام 1993 ، على الرغم من أن تعريف هذا المصطلح ، كما في حالة مستودعات البيانات ، قد تمت صياغته بعد ذلك بكثير. يمكن تعريف المفهوم الذي يشير إليه هذا المصطلح على أنه "عملية تفاعلية لإنشاء البيانات والحفاظ عليها وتحليلها وإصدار التقارير". بالإضافة إلى ذلك ، يُضاف عادةً أنه يجب النظر إلى البيانات المعنية ومعالجتها بنفس الطريقة كما لو تم تخزينها في مجموعة متعددة الأبعاد.ولكن قبل أن ندخل في مناقشة التمثيل متعدد الأبعاد نفسه ، دعونا نلقي نظرة على الأفكار ذات الصلة من حيث جداول SQL التقليدية.

الميزة الأولى هي أن المعالجة التحليلية تتطلب بالضرورة بعض التجميع بيانات،عادة ما يتم إجراؤها مرة واحدة بعدة طرق مختلفة ، أو بعبارة أخرى ، وفقًا للعديد من معايير التجميع المختلفة. في الواقع ، تتمثل إحدى المشكلات الرئيسية للمعالجة التحليلية في عدد الطرق الممكنة للتجميع

يصبح كبيرًا جدًا في وقت قريب جدًا. ومع ذلك ، يحتاج المستخدمون إلى التفكير في كل هذه الأساليب أو جميعها تقريبًا. بالطبع ، يدعم معيار SQL الآن هذا النوع من التجميع ، ولكن أي استعلام SQL معين ينتج جدولًا واحدًا فقط كنتيجة له ​​، وجميع الصفوف في هذا الجدول الناتج لها نفس النموذج ونفس التفسير (على الأقل هذه هي الطريقة التي تعمل بها).

9 للاقتباس من كتاب عن تخزين البيانات: "[إيقاف] التطبيع ... محاولة تطبيع أي من الجداول في قاعدة بيانات متعددة الأبعاد فقط لتوفير مساحة على القرص [هذا صحيح!] مضيعة للوقت ... يجب أن تكون جداول الأبعاد لا يمكن تطبيعها ... تمنع جداول الأبعاد المعيارية المشاهدة. "

10 ما لم يتضمن جدول النتائج هذا أي قيم خالية أو خالية (راجع الفصل 19 ، القسم 19.3 ، "المزيد عن المسندات"). في الواقع ، يمكن وصف تركيبات SQL: 1999 التي يجب وصفها في هذا القسم بأنها "تستند إلى استخدام" أداة SQL هذه التي تم إهمالها بشدة (؟) ؛ في الواقع ، يؤكدون على حقيقة أن القيم الفارغة يمكن أن يكون لها معاني مختلفة في مظاهرها المختلفة ، وبالتالي تسمح بتمثيل العديد من المسندات المختلفة في نفس الجدول (كما هو موضح أدناه).

كان قبل ظهور معيار SQL: 1999). لذلك ، من أجل التنفيذ صطرق مختلفة للتجميع ، ما عليك القيام به صاستعلامات منفصلة وإنشاء جداول منفصلة كنتيجة لذلك. على سبيل المثال ، ضع في اعتبارك التسلسل التالي من الاستعلامات المنفذة على قاعدة بيانات الموردين والأجزاء.

1. تحديد إجمالي عدد الولادات.

2. تحديد العدد الإجمالي للتسليمات من قبل الموردين.

3. تحديد العدد الإجمالي لعمليات التسليم حسب الأجزاء.

4. تحديد العدد الإجمالي للتسليمات من قبل الموردين والأجزاء.

(بالطبع ، الكمية "الإجمالية" لمورد معين ولجزء معين هي ببساطة الكمية الفعلية لمورد معين وجزء معين. سيكون المثال أكثر واقعية إذا تم استخدام قاعدة بيانات للموردين والأجزاء والمشاريع . ولكن للحفاظ على هذا المثال البسيط ، ما زلنا نستقر على قاعدة البيانات المعتادة للموردين والأجزاء.)

افترض الآن أن هناك جزأين فقط ، مرقما P1 و P2 ، وجدول التوريد يبدو هكذا.

قواعد بيانات متعددة الأبعاد

حتى الآن ، من المفترض أن يتم تخزين بيانات OLAP في قاعدة بيانات عادية باستخدام لغة SQL (بصرف النظر عن حقيقة أننا في بعض الأحيان ما زلنا نتطرق إلى المصطلحات ومفهوم قواعد بيانات متعددة الأبعاد).في الواقع ، لقد وصفنا ، دون توضيح صريح ، ما يسمى بالنظام رولاب(علائقية OLAP-علائقية OLAP).ومع ذلك ، يعتقد الكثير أن استخدام النظام MOLAP(متعدد الأبعاد OLAP- OLAP متعدد الأبعاد) - طريقة واعدة أكثر. في هذا القسم الفرعي ، ستتم مناقشة مبادئ بناء أنظمة MOLAP بمزيد من التفصيل.

يحافظ نظام MOLAP على قواعد بيانات متعددة الأبعاد ،حيث يتم تخزين البيانات من الناحية المفاهيمية في خلايا مصفوفة متعددة الأبعاد.

ملحوظة. على الرغم من ارتفاع وقيل عنه المفاهيميطريقة لتنظيم التخزين ، في الواقع التنظيم الماديإدخال المعلومات MOLAPتشبه إلى حد بعيد تنظيمها المنطقي.

يسمى دعم DBMS متعدد الأبعاد.مثل مثال بسيطيمكنك إلقاء مصفوفة ثلاثية الأبعاد تمثل ، على التوالي ، المنتجات والعملاء والفترات الزمنية. يمكن أن تمثل قيمة كل خلية فردية المبلغ الإجمالي للعنصر المحدد المباع للعميل في الفترة الزمنية المحددة. كما هو مذكور أعلاه ، يمكن أيضًا اعتبار الجداول المتقاطعة من القسم الفرعي السابق مثل هذه المصفوفات.

إذا كان هناك فهم واضح بما فيه الكفاية لهيكل مجموعة البيانات ، فيمكن معرفة جميع العلاقات بين البيانات. علاوة على ذلك، المتغيراتيمكن تقسيم هذه المجموعة (ليس بمعنى لغات البرمجة التقليدية) ، تقريبًا ، إلى متكلو مستقل. فيالمثال السابق المنتج ، العميلو فترة من الزمنيمكن اعتبارها متغيرات مستقلة ، و كمية -المتغير التابع الوحيد. بشكل عام ، المتغيرات المستقلة هي المتغيرات التي تحدد قيمها معًا قيم المتغيرات التابعة (تمامًا كما هو الحال ، في المصطلحات العلائقية ، المفتاح المرشح هو مجموعة

الأعمدة التي تحدد قيمها قيم الأعمدة الأخرى). لذلك ، تحدد المتغيرات المستقلة أبعاد المصفوفة التي يتم من خلالها تنظيم البيانات ، وكذلك الشكل مخطط العنونة 11لمجموعة معينة. يتم تخزين قيم المتغيرات التابعة ، التي تمثل البيانات الفعلية ، في خلايا مصفوفة.

ملحوظة. الفرق بين قيم المستقل او الأبعادالمتغيرات،

وقيم المعالين ، أو كبير الحجمالمتغيرات توصف أحيانًا بالفرق بين موقعو محتوى.

"لذلك ، تتم معالجة خلايا المصفوفات بشكل رمزي ، بدلاً من استخدام الفهارس الرقمية ، والتي تُستخدم عادةً للعمل مع المصفوفات.

لسوء الحظ ، فإن التوصيف أعلاه لقواعد البيانات متعددة الأبعاد مبسط للغاية ، حيث تظل معظم مجموعات البيانات في البداية لامدروسة بالكامل. لهذا السبب ، نسعى عادةً إلى تحليل البيانات في المقام الأول من أجل فهمها بشكل أفضل. غالبًا ما يكون الافتقار إلى الفهم كبيرًا لدرجة أنه لا يمكن تحديد المتغيرات المستقلة والتي تعتمد مسبقًا مسبقًا. ثم يتم اختيار المتغيرات التوضيحية وفقًا لوجهة النظر الحالية لها (أي بناءً على بعض الفرضيات) ، وبعد ذلك يتم فحص المصفوفة الناتجة لتحديد مدى جودة اختيار المتغيرات التوضيحية (انظر القسم 22.7). يؤدي هذا النهج إلى حقيقة أن العديد من التكرارات تتم وفقًا لمبدأ التجربة والخطأ. لذلك ، يسمح النظام عادة بتغيير المتغيرات الأبعاد وغير الأبعاد ، وتسمى هذه العملية تغيير محاور الإحداثيات(محوري). تشمل العمليات المدعومة الأخرى تبديل الصفيفو إعادة ترتيب الأبعاد.يجب أن تكون هناك أيضًا طريقة لإضافة الأبعاد.

بالمناسبة ، يجب أن يكون واضحًا من الوصف السابق أن خلايا الصفيف غالبًا ما تكون فارغة (وكلما زادت الأبعاد ، كلما لوحظت هذه الظاهرة في كثير من الأحيان). بمعنى آخر ، المصفوفات عادة ما تكون متناثر.لنفترض ، على سبيل المثال ، أن هذا المنتج ص لم يتم بيعه للعميل ج خلال الفترة الزمنية بأكملها ر.ثم الخلية [ج ، ف ، ر]سيكون فارغًا (أو فارغًا في أحسن الأحوال). تدعم أنظمة إدارة قواعد البيانات متعددة الأبعاد طرقًا مختلفة لتخزين المصفوفات المتناثرة بطريقة أكثر كفاءة وموجزة. لهذا يجب إضافة أن الخلايا الفارغة تتوافق معلومات مفقودةوبالتالي تحتاج الأنظمة إلى توفير بعض الدعم الحسابي للخلايا الفارغة. هذا الدعم متاح بشكل شائع بالفعل ، ولكن لسوء الحظ فإن الأسلوب مشابه لذلك الخاص بلغة SQL. انتبه إلى حقيقة أنه إذا خلية معينةفارغة ، فإما أن المعلومات إما غير معروفة ، أو لم يتم إدخالها ، أو غير قابلة للتطبيق ، أو مفقودة لأسباب أخرى

(انظر الفصل 19).

غالبًا ما ترتبط المتغيرات المستقلة بـ تَسَلسُل،تحديد المسارات التي يمكن أن يحدث على طولها تجميع البيانات التابعة. على سبيل المثال ، هناك مؤقت

تسلسل هرمي يربط الثواني بالدقائق ، والدقائق بالساعات ، والساعات إلى الأيام ، والأيام إلى الأسابيع ، والأسابيع إلى الأشهر ، والشهور إلى السنوات. أو مثال آخر: التسلسل الهرمي ممكن

التراكيب التي تربط الأجزاء بمجموعة من الأجزاء ، ومجموعات الأجزاء ذات العقدة ، والعقد ذات الوحدة النمطية ، والوحدات النمطية مع المنتج. غالبًا ما يمكن تجميع نفس البيانات بعدة طرق مختلفة ، على سبيل المثال يمكن أن ينتمي المتغير المستقل نفسه إلى العديد من التدرجات الهرمية المختلفة. يوفر النظام المشغلين لـ تفويت(حفر) و توريث(التنقل لأسفل) على طول هذا التسلسل الهرمي. تفويتيعني الانتقال من المستوى الأدنى للتجميع إلى المستوى الأعلى ، و توريث -

الانتقال في الاتجاه المعاكس. توجد عمليات أخرى للعمل مع التدرجات الهرمية ، مثل عملية إعادة ترتيب مستويات التدرج الهرمي.

ملحوظة.بين العمليات تفويت(حفر) و تراكم النتائج(لفافة

فوق) هناك اختلاف بسيط واحد: العملية تراكم النتائج -هي عملية تنفيذ

12 لاحظ الاختلاف عن الأنظمة العلائقية. في النظير العلائقي الحقيقي لهذا المثال ، الخط جيم ، ص ،ر) لن يكون هناك "خلية" فارغة من الكمية ، بسبب حقيقة أن السطر (ق ، ص ،ر) ببساطة غائبة. لذلك ، عند استخدام النموذج العلائقي ، على عكس المصفوفات متعددة الأبعاد ، ليست هناك حاجة لدعم "المصفوفات المتفرقة" ، أو بالأحرى "الجداول المتفرقة" ، وبالتالي لا توجد طرق ضغط معقدة مطلوبة للعمل مع هذه الجداول.

الطرق المطلوبة للتجميع والتجميع والعملية تفويت-إنها عملية وصوللنتائج هذه الأساليب. ومثال على العملية توريثيمكن تقديم استعلام مثل: "العدد الإجمالي للشحنات معروف ؛ الحصول على البيانات الإجمالية لكل مورد فردي". بالطبع ، يجب أن تتوفر مستويات بيانات أكثر تفصيلاً (أو قابلة للحساب) للإجابة على هذا الاستعلام.

توفر منتجات قواعد البيانات متعددة الأبعاد أيضًا عددًا من الوظائف الإحصائية والرياضية الأخرى للمساعدة في صياغة واختبار الفرضيات (أي فرضيات حول العلاقات المفترضة). بالإضافة إلى ذلك ، يتم توفير أدوات التصور وإعداد التقارير للمساعدة في حل مثل هذه المشكلات. ولكن ، لسوء الحظ ، لا توجد حتى الآن لغة استعلام قياسية لقواعد البيانات متعددة الأبعاد ، على الرغم من أن الأبحاث جارية لتطوير حساب التفاضل والتكامل الذي يمكن أن يستند إليه مثل هذا المعيار. ولكن ، للأسف ، لا يوجد شيء مثل النظرية العلائقية للتطبيع ، والتي يمكن أن تكون بمثابة أساس علمي لتصميم قواعد بيانات متعددة الأبعاد.

في ختام هذا القسم ، نلاحظ أن بعض المنتجات تجمع بين كلا النهجين - ROLAP و MOLAP. هذه نظام هجين OLAPمُسَمًّى هولاب.هناك مناقشات مستفيضة لمعرفة أي من هذه الأساليب الثلاثة هو الأفضل ، لذلك من المفيد لنا أن نحاول قول بضع كلمات حول هذه المسألة 13. بشكل عام ، توفر أنظمة MOLAP حسابات أسرع ، ولكنها تدعم كميات أصغر من البيانات مقارنة بأنظمة ROLAP ، أي تصبح أقل كفاءة مع زيادة كمية البيانات. وتوفر أنظمة ROLAP قابلية توسعة وتوازي وتحكم أكبر من تلك الموجودة في أنظمة MOLAP. بالإضافة إلى ذلك ، تم تحديث معيار SQL مؤخرًا ليشمل العديد من الوظائف الإحصائية والتحليلية (انظر القسم 22.8). ويترتب على ذلك أن منتجات ROLAP أصبحت الآن قادرة أيضًا على توفير وظائف موسعة.

OLAP (المعالجة التحليلية عبر الإنترنت - المعالجة التحليلية عبر الإنترنت) هي عملية معلومات تتيح للمستخدم الاستعلام عن النظام وإجراء التحليل وما إلى ذلك. عبر الإنترنت (عبر الإنترنت). يتم إنشاء النتائج في غضون ثوان.

تم تصميم أنظمة OLAP للمستخدمين النهائيين ، بينما يتم تصنيع أنظمة OLTP لمستخدمي IS المحترفين. يوفر OLAP أنشطة مثل إنشاء الاستعلامات والاستعلام عن التقارير المخصصة وإجراء التحليل الإحصائي وبناء تطبيقات الوسائط المتعددة.

لتوفير OLAP ، تحتاج إلى العمل مع مستودع بيانات (أو تخزين متعدد الأبعاد) بالإضافة إلى مجموعة أدوات ، عادةً مع إمكانيات متعددة الأبعاد. يمكن أن تكون هذه الأدوات أدوات استعلام وجداول بيانات وأدوات استخراج البيانات وأدوات تصور البيانات وما إلى ذلك.

يعتمد مفهوم OLAP على مبدأ تمثيل البيانات متعددة الأبعاد. نظر E. Codd في أوجه القصور في النموذج العلائقي ، أولاً وقبل كل شيء ، مشيرًا إلى استحالة دمج البيانات وعرضها وتحليلها من وجهة نظر أبعاد متعددة ، أي بأكثر الطرق مفهومة لمحللي الشركات ، وحدد المتطلبات العامة لأنظمة OLAP التي توسع وظائف DBMS العلائقية وتشمل التحليل متعدد الأبعاد كأحد خصائصها.

12 قاعدة يجب أن يفي بها منتج برنامج فئة OLAP. هذه القواعد:

1. التمثيل المفاهيمي متعدد الأبعاد للبيانات.

2. الشفافية.

3. التوفر.

4. أداء ثابت.

5. العميل - بنية الخادم.

6. مساواة القياسات.

7. المعالجة الديناميكية لمصفوفات متفرقة.

8. دعم الوضع المتعدد.

9. دعم غير محدود للعمليات متعددة الأبعاد.

10. معالجة البيانات بشكل بديهي.

11. آلية إبلاغ مرنة.

12. عدد غير محدود من القياسات ومستويات التجميع.

يجب اعتبار مجموعة هذه المتطلبات ، التي كانت بمثابة التعريف الفعلي لـ OLAP ، كتوصية ، ويجب تقييم المنتجات الفردية من خلال درجة التقريب من أجل الامتثال الكامل بشكل مثالي لجميع المتطلبات.


التنقيب عن البيانات (تنقيب البيانات) والمعرفة (التنقيب عن المعرفة). إدارة وتحليل كميات كبيرة من البيانات (البيانات الضخمة). أنظمة ذكاء الأعمال (ذكاء الأعمال ، BI).

استخراج البيانات (DMA) هو مصطلح عام لتحليل البيانات مع الاستخدام النشط للطرق والخوارزميات الرياضية (طرق التحسين ، الخوارزميات الجينية ، التعرف على الأنماط ، الطرق الإحصائية ، التنقيب في البيانات ، إلخ) التي تستخدم نتائج تطبيق طرق تصور البيانات.

بشكل عام ، تتكون عملية IAD من ثلاث مراحل:

1) تحديد الأنماط (بحث مجاني) ؛

2) استخدام الأنماط المكشوفة للتنبؤ بقيم غير معروفة (التنبؤ) ؛

3) تحليل الاستثناءات لتحديد وتفسير الانحرافات في الأنماط الموجودة.

في بعض الأحيان تكون هناك مرحلة وسيطة للتحقق من موثوقية الأنماط التي تم العثور عليها (مرحلة التحقق من الصحة) بين اكتشافها واستخدامها.

جميع طرق IAD ، وفقًا لمبدأ العمل مع البيانات الأولية ، تنقسم إلى مجموعتين:

طرق استدلال حالة الاستخدام - يمكن تخزين البيانات الأولية في شكل حبيبي صريح واستخدامها مباشرة للتنبؤ و / أو تحليل الاستثناءات. عيب هذه المجموعة من الأساليب هو تعقيد استخدامها على كميات كبيرة من البيانات.

طرق تحديد واستخدام الأنماط الرسمية التي تتطلب استخراج المعلومات من البيانات الأولية وتحويلها إلى بعض التركيبات الرسمية ، والتي يعتمد شكلها على طريقة معينة.

تعدين البيانات (DM) هي تقنية لاكتشاف المعرفة غير التافهة والمفيدة عمليًا والتي يمكن الوصول إليها في البيانات الخام غير المعروفة سابقًا ، وهو أمر ضروري لاتخاذ القرارات في مختلف مجالات النشاط البشري. تتطلب الخوارزميات المستخدمة في التنقيب عن البيانات عددًا كبيرًا من العمليات الحسابية ، والتي كانت في السابق عاملاً مقيدًا في التطبيق العملي الواسع لهذه الطرق ، لكن الزيادة في أداء المعالجات الحديثة أزالت خطورة هذه المشكلة.

يتكون سوق ذكاء الأعمال من 5 قطاعات:

1. منتجات OLAP.

2. أدوات التنقيب عن البيانات.

3. أدوات بناء مستودعات البيانات وسوق البيانات (تخزين البيانات).

4. نظم المعلومات الإدارية وتطبيقاتها.

5. أدوات المستخدم النهائي للاستعلام وإعداد التقارير.

حاليًا ، يشمل قادة منصات BI للشركات MicroStrategy و Business Objects و Cognos و Hyperion Solutions و Microsoft و Oracle و SAP و SAS Institute وغيرها (يوفر الملحق B تحليلًا مقارنًا لبعض وظائف أنظمة ذكاء الأعمال).

UDK 621. 37/39. 061.2 / 4

طرق معالجة المعلومات التحليلية

GVOZDINSKYA.N. ، KLIMKO E.G. ، SOROKOVOY A.I.

يتم إجراء مراجعة تحليلية لطرق التنقيب عن البيانات (تسمى أيضًا: IAD ، التنقيب عن البيانات ، اكتشاف المعرفة في قواعد البيانات) ، مع الأخذ في الاعتبار استخدام طريقة معينة لظروف أوكرانيا. يتم النظر في مراجعة طرق المعالجة التحليلية للمعلومات في أنظمة المعلومات المعقدة من وجهة نظر سرعة استخراج البيانات ، وجمع المعلومات المعممة وزيادة موثوقية العملية.

عملية التنقيب عن البيانات هي الدراسة التحليلية لكميات كبيرة من المعلومات من أجل تحديد الأنماط والعلاقات بين المتغيرات التي يمكن بعد ذلك تطبيقها على البيانات الجديدة. يتم تحويل المعلومات الواردة إلى مستوى المعلومات ، والتي تتميز بأنها معرفة. تتكون هذه العملية من ثلاث خطوات رئيسية:

البحث (الكشف عن الأنماط) ؛

استخدام الأنماط المحددة لبناء نموذج ؛

تحليل الاستثناءات لكشف وشرح الانحرافات في الأنماط الموجودة.

العثور على معرفة جديدة عن طريق IAD هو اتجاه جديد وسريع التطور يستخدم أساليب الذكاء الاصطناعي والرياضيات والإحصاء. تتضمن هذه العملية الخطوات التالية:

تعريف المشكلة (بيان المشكلة) ؛

إعداد البيانات

جمع البيانات: تقييمها وتكاملها وتنقيتها واختيارها وتحويلها ؛

بناء النموذج: التقييم والتفسير ، والمصادقة الخارجية ؛

استخدام النموذج

نموذج المراقبة.

لبناء نموذج وتحسين جودته ، يساعد التحقق من صحة البيانات الرسمية من خلال سلسلة من الاستفسارات أو التنقيب الأولي عن البيانات. تتضمن أدوات مثل هذا التحليل الطرق الرئيسية التالية: الشبكات العصبية ، وأشجار القرار ، والخوارزميات الجينية ، بالإضافة إلى مجموعاتها.

تنتمي الشبكات العصبية إلى فئة الأنظمة التكيفية غير الخطية ؛ وهي تشبه في البنية النسيج العصبي للخلايا العصبية.

هذه مجموعة من العقد المتصلة ببعضها البعض والتي تتلقى بيانات الإدخال وتعالجها وتنتج بعض النتائج عند الإخراج. يتم تزويد عقد الطبقة السفلية بقيم معلمات الإدخال ، على أساسها يتم إجراء الحسابات اللازمة لاتخاذ القرارات والتنبؤ بتطور الوضع وما إلى ذلك.

تعتبر هذه القيم بمثابة إشارات يتم إرسالها إلى الطبقة العلوية ، وتتزايد أو تتناقص اعتمادًا على القيم الرقمية (الأوزان) المنسوبة إلى الوصلات الداخلية. عند إخراج الخلايا العصبية للطبقة العليا ، يتم إنشاء قيمة ، والتي تعتبر استجابة ، رد فعل الشبكة بأكملها على القيم الأولية للإدخال. نظرًا لأن كل عنصر من عناصر الشبكة العصبية معزول جزئيًا عن جيرانه ، فإن هذه الخوارزميات لديها القدرة على موازنة الحسابات. على التين. 1 يظهر الشرطي

رسم بياني 1. الشبكة العصبية

يجب أن يتوافق حجم الشبكة وهيكلها مع جوهر الظاهرة قيد الدراسة. تخضع الشبكة المبنية لعملية ما يسمى "التدريب". تعالج الخلايا العصبية للشبكة بيانات الإدخال التي تُعرف من أجلها قيم معلمات الإدخال والإجابات الصحيحة عليها. يتكون التعلم من اختيار أوزان الاتصالات الداخلية التي توفر أكبر قدر من الاقتراب من استجابات الشبكة للإجابات الصحيحة المعروفة. بعد التدريب على البيانات المتاحة ، تكون الشبكة جاهزة للعمل ويمكن استخدامها للتنبؤ بسلوك كائن ما في المستقبل ، بناءً على بيانات تطوره في الماضي ، وإجراء التحليل ، وتحديد الانحرافات وأوجه التشابه. يمكن تكوين تنبؤات موثوقة دون تحديد نوع التبعيات التي تقوم على أساسها.

تستخدم الشبكات العصبية لحل مشاكل التنبؤ أو التصنيف أو التحكم.

ميزة - يمكن للشبكات تقريب أي وظيفة مستمرة ، ليست هناك حاجة لعمل أي افتراضات حول النموذج مقدمًا. قد تكون البيانات قيد التحقيق غير كاملة أو صاخبة.

العيب هو الحاجة إلى الحصول على كمية كبيرة من عينة التدريب. يعتمد القرار النهائي على إعدادات الشبكة الأولية. يجب تحويل البيانات إلى نموذج رقمي. النموذج الناتج لا يشرح المعرفة المكتشفة (ما يسمى بـ "الصندوق الأسود").

تستخدم أشجار القرار تقسيم البيانات إلى مجموعات بناءً على قيم المتغيرات. والنتيجة هي بنية هرمية لعبارات "If ... Then ..." التي تشبه الشجرة. لتصنيف كائن أو موقف ، تحتاج إلى الإجابة على الأسئلة الموجودة في عُقد هذه الشجرة ، بدءًا من جذرها. إذا كانت الإجابة موجبة ، فانتقل إلى العقدة اليمنى للمستوى التالي ، وإذا كانت سلبية - إلى العقدة اليسرى ، وما إلى ذلك. عند الانتهاء من الإجابات ، يصلون إلى إحدى العقد النهائية ، حيث

آر آي ، 2000 ، رقم 4

يشير إلى الفئة التي يجب تعيين الكائن المعني.

تم تصميم أشجار القرار لحل مشاكل التصنيف ، وبالتالي فإن استخدامها محدود للغاية في التمويل والأعمال.

ميزة الطريقة هي عرض بسيط ومفهوم للميزات للمستخدمين. كمتغير مستهدف ، يتم استخدام كل من الميزات المقاسة وغير المقاسة - وهذا يوسع نطاق الطريقة.

العيب هو مشكلة الأهمية. يمكن تقسيم البيانات إلى العديد من الحالات الخاصة ، هناك "شجيرة" للشجرة ، والتي لا يمكن أن تعطي إجابات صحيحة إحصائيًا. يتم الحصول على نتائج مفيدة فقط في حالة الميزات المستقلة.

تحاكي الخوارزميات الجينية عملية الانتقاء الطبيعي في الطبيعة. لحل مشكلة أفضل من وجهة نظر بعض المعايير ، يتم وصف جميع الحلول بمجموعة من الأرقام أو الكميات ذات الطبيعة غير العددية. البحث عن الحل الأمثل مشابه لتطور مجموعة من الأفراد ، والتي يتم تمثيلها من خلال مجموعات الكروموسومات الخاصة بهم. هناك ثلاث آليات تعمل في هذا التطور ، موضحة في الشكل. 2.

يمكن تمييز الآليات التالية:

اختيار أقوى مجموعات الكروموسومات التي تتوافق مع أفضل الحلول ؛

العبور - الحصول على أفراد جدد عن طريق خلط مجموعات كروموسوم لأفراد مختارين ؛

الطفرات هي تغييرات عشوائية في الجينات لدى بعض الأفراد في مجموعة سكانية.

نتيجة لتغير الأجيال ، تم تطوير حل للمشكلة ، والذي لم يعد من الممكن تحسينه أكثر.

ميزة - الطريقة مناسبة لحل مختلف مشاكل التوافقية والتحسين ، ويفضل أكثر كأداة للبحث العلمي.

العيب هو القدرة على صياغة المشكلة بشكل فعال ، وتحديد معيار اختيار الكروموسومات وإجراءات الاختيار نفسها هي إرشادية ولا يستطيع القيام بذلك إلا أخصائي. إن صياغة المشكلة من حيث المصطلحات لا تجعل من الممكن تحليل الأهمية الإحصائية للحل الذي تم الحصول عليه بمساعدتهم.

تتيح تقنيات الكمبيوتر الخاصة بمعالجة البيانات التحليلية الذكية استخدام أساليب الذكاء الاصطناعي والإحصاء ونظرية قواعد البيانات وتجعل من الممكن إنشاء أنظمة ذكية حديثة.

حاليًا ، هناك مشكلة حادة تتعلق بإنشاء مستودعات المعلومات (مستودع البيانات ، مستودع البيانات) - قواعد بيانات منظمة على النحو الأمثل توفر الوصول الأسرع والأكثر ملاءمة إلى المعلومات اللازمة لاتخاذ القرار. يجمع التخزين معلومات موثوقة من مصادر مختلفة على مدار فترة زمنية طويلة ، والتي تظل دون تغيير. يتم تجميع البيانات وتخزينها وفقًا للمجالات التي تصفها (خاصة بالمجال) وتفي بمتطلبات المؤسسة بأكملها (متكاملة).

بالنظر إلى الفترة القصيرة نسبيًا لوجود معظم الشركات المحلية ، وندرة البيانات التي تم تحليلها ، وعدم استقرار المؤسسات التي تخضع للتغيير بسبب التغييرات في الإطار التشريعي، هناك صعوبة في تطوير إستراتيجية فعالة لصنع القرار باستخدام أنظمة التنقيب عن البيانات. لذلك ، من المتوقع أن تكون الخوارزميات الجينية هي الطريقة الأكثر قبولًا للبحث عن البيانات في مجال التمويل والأعمال ، وبالنسبة لمهام تصنيف الصور والحقائق ، فمن الأفضل استخدام أساليب شجرة القرار أو الشبكات العصبية.

الأدب: 1. Shchavelev L.V. بيانات التعدين. http://www.citforum.ru/seminars/cis99/sch_04.shtml ، 2. Burov K. اكتشاف المعرفة في مستودعات البيانات // أنظمة مفتوحة. 1999. رقم 5-6. ، http: / /www.osp.ru/os/l999/05-06/14.htm. 3. Kiselev M ، Solomatin E. وسائل استخراج المعرفة في الأعمال التجارية والتمويل // الأنظمة المفتوحة. 1997. رقم 4. ص 41-44. 4. Krechetov N ، Ivanov P. منتجات لاستخراج البيانات // أسبوع الكمبيوتر - موسكو. 1997. رقم 14-15. ص 32 - 39. 5. Edelstein H. أدوات ذكية لتحليل وعرض البيانات في مستودعات المعلومات // أسبوع الكمبيوتر - موسكو. 1996. رقم 16. ص 32 - 35.

استلمت بهيئة التحرير 2000/06/22

المراجع: دكتور تك. العلوم ، أ. بوتاتين ف.

جفوزدينسكي أناتولي نيكولايفيتش ، دكتوراه. تقنية. العلوم ، أستاذ قسم الذكاء الاصطناعي KhTURE. الاهتمامات العلمية: تقييم فعالية نظم إدارة المعلومات المعقدة. الاهتمامات والهوايات: الموسيقى الكلاسيكية ، السياحة. العنوان: أوكرانيا ، 61166 ، خاركيف ، شارع. أكاد. Lyapunova ، 7 ، شقة. 9 ، هاتف. 32-69-08.

Klimko Elena Genrikhovna ، مساعد القسم تكنولوجيا الكمبيوتروأنظمة المعلومات في جامعة بولتافا التقنية الحكومية التي سميت باسم يوري كوندراتيوك. طالب دراسات عليا (أثناء العمل) في قسم الذكاء الاصطناعي في KhTURE. الاهتمامات العلمية: تحليل البيانات التحليلية. الاهتمامات والهوايات: القراءة والحياكة. العنوان: أوكرانيا ، 36021 ، بولتافا ، شارع. دايموند ، 1-أ ، شقة. 34 ، هاتف. (053-22) 3-43-12.

سوروكوف ألكسندر إيفانوفيتش ، دكتوراه. تقنية. في العلوم ، أستاذ مشارك في قسم تقنيات الكمبيوتر وأنظمة المعلومات ، جامعة يوري كوندراتيوك بولتافا التقنية الحكومية. الاهتمامات البحثية: KDD (اكتشاف المعرفة). الاهتمامات والهوايات: الكلاب. العنوان: أوكرانيا ، 36022 ، بولتافا ، لكل. Broken، 37A، tel. (053-2) 18-60-87، e-mail: [بريد إلكتروني محمي]

4. تصنيف منتجات OLAP.

5. مبادئ تشغيل عملاء OLAP.

7. مجالات تطبيق تقنيات OLAP.

8. مثال على استخدام تقنيات OLAP للتحليل في مجال المبيعات.

1. مكان OLAP في هيكل المعلومات للمؤسسة.

يرتبط مصطلح "OLAP" ارتباطًا وثيقًا بمصطلح "مستودع البيانات" (مستودع البيانات).

تأتي البيانات الموجودة في التخزين من أنظمة التشغيل (أنظمة OLTP) ، المصممة لأتمتة عمليات الأعمال. بالإضافة إلى ذلك ، يمكن تجديد المستودع من مصادر خارجية ، مثل التقارير الإحصائية.

تتمثل مهمة المستودع في توفير "المادة الخام" للتحليل في مكان واحد وبهيكل بسيط ومفهوم.

هناك سبب آخر يبرر ظهور وحدة تخزين منفصلة - الاستعلامات التحليلية المعقدة للمعلومات التشغيلية تبطئ العمل الحالي للشركة ، وتحظر الجداول لفترة طويلة وتستولي على موارد الخادم.

تحت التخزين يمكن فهم أنه ليس بالضرورة تراكمًا هائلًا للبيانات - الشيء الرئيسي هو أن يكون مناسبًا للتحليل.

المركزية والهيكلة الملائمة بعيدة كل البعد عن كل ما يحتاجه المحلل. بعد كل شيء ، لا يزال بحاجة إلى أداة لعرض المعلومات وتصورها. التقارير التقليدية ، حتى التي تم إنشاؤها على أساس مستودع واحد ، تفتقر إلى شيء واحد - المرونة. لا يمكن "تحريفها" أو "توسيعها" أو "طيها" للحصول على العرض المطلوب للبيانات. أتمنى أن يكون لديه مثل هذه الأداة التي من شأنها أن تسمح له بتوسيع البيانات وطيها ببساطة وسهولة! OLAP هي إحدى هذه الأدوات.

على الرغم من أن OLAP ليس سمة ضرورية لمستودع البيانات ، إلا أنه يتم استخدامه بشكل متزايد لتحليل المعلومات المتراكمة في مستودع البيانات هذا.

مكان OLAP في بنية معلومات المؤسسة (الشكل 1).

الصورة 1. مكانOLAP في هيكل المعلومات للمؤسسة

يتم جمع البيانات التشغيلية من مصادر مختلفة وتنظيفها ودمجها ووضعها في متجر علائقي. في الوقت نفسه ، فهي متاحة بالفعل للتحليل باستخدام أدوات إعداد التقارير المختلفة. ثم يتم تحضير البيانات (كليًا أو جزئيًا) لتحليل OLAP. يمكن تحميلها في قاعدة بيانات OLAP خاصة أو تركها في متجر علائقي. أهم عنصر فيها هو البيانات الوصفية ، أي معلومات حول هيكل البيانات وموضعها وتحويلها. بفضلهم ، يتم ضمان التفاعل الفعال لمكونات التخزين المختلفة.

بإيجاز ، يمكننا تعريف OLAP كمجموعة من الأدوات للتحليل متعدد الأبعاد للبيانات المتراكمة في المستودع.

2. معالجة البيانات التحليلية التشغيلية.

يعتمد مفهوم OLAP على مبدأ تمثيل البيانات متعددة الأبعاد. في عام 1993 ، نظر E.F Codd في أوجه القصور في النموذج العلائقي ، أولاً وقبل كل شيء ، مشيرًا إلى استحالة "الجمع بين البيانات وعرضها وتحليلها من حيث الأبعاد المتعددة ، أي بأكثر الطرق مفهومة لمحللي الشركات" ، وحدد متطلبات أنظمة OLAP التي تعمل على توسيع وظائف DBMS العلائقية بما في ذلك التحليل متعدد الأبعاد كأحد خصائصها.

وفقًا لـ Codd ، فإن العرض المفاهيمي متعدد الأبعاد للبيانات هو منظور متعدد ، يتكون من عدة أبعاد مستقلة يمكن من خلالها تحليل مجموعات معينة من البيانات.

يتم تعريف التحليل المتزامن على أبعاد متعددة على أنه تحليل متعدد المتغيرات. يتضمن كل بُعد اتجاهات دمج البيانات ، التي تتكون من سلسلة من المستويات المتتالية من التعميم ، حيث يتوافق كل مستوى أعلى مع درجة أكبر من تجميع البيانات للبعد المقابل.

وبالتالي ، يمكن تحديد بُعد المقاول من خلال اتجاه التوحيد ، الذي يتكون من مستويات التعميم "المؤسسة - التقسيم الفرعي - الإدارة - الموظف". يمكن أن يتضمن بُعد الوقت أيضًا اتجاهين للدمج - "السنة - ربع السنة - الشهر - اليوم" و "الأسبوع - اليوم" ، نظرًا لأن حساب الوقت بالأشهر والأسابيع غير متوافق. في هذه الحالة ، يصبح من الممكن تحديد المستوى المطلوب لتفاصيل المعلومات بشكل تعسفي لكل من القياسات.

تتوافق عملية الهبوط (الحفر لأسفل) مع الحركة من المستويات الأعلى للتوحيد إلى المستويات السفلية ؛ على العكس من ذلك ، فإن عملية الرفع (التدحرج) تعني الانتقال من المستويات الأدنى إلى المستويات الأعلى (الشكل 2).


الشكل 2.أبعاد واتجاهات توحيد البيانات

3. متطلبات وسائل المعالجة التحليلية التشغيلية.

نشأ النهج متعدد الأبعاد بشكل متزامن تقريبًا وبالتوازي مع النهج العلائقي. ومع ذلك ، فقط ابتداء من منتصف التسعينيات ، أو بالأحرى من
1993 ، مصلحة في MDBMSبدأت تصبح عامة. في هذا العام ظهر مقال سياسي جديد لأحد مؤسسي النهج العلائقي E. Codda، حيث صاغ 12 متطلبًا أساسيًا لوسائل التنفيذ OLAP(الجدول 1).

الجدول 1.

عرض البيانات متعدد الأبعاد

يجب أن تدعم الأدوات عرضًا متعدد الأبعاد للبيانات على المستوى المفاهيمي.

الشفافية

لا يحتاج المستخدم إلى معرفة الوسائل المحددة المستخدمة لتخزين البيانات ومعالجتها ، وكيفية تنظيم البيانات ومن أين تأتي.

التوفر

يجب أن تختار الأدوات نفسها أفضل مصدر بيانات وترتبط به لتكوين استجابة لطلب معين. يجب أن توفر الأدوات تخطيطًا آليًا لمخططها المنطقي لمصادر بيانات مختلفة غير متجانسة.

أداء ثابت

يجب أن يكون الأداء مستقلاً عمليًا عن عدد الأبعاد في الاستعلام.

دعم هندسة العميل والخادم

يجب أن تعمل الأدوات في بنية خادم العميل.

المساواة بكل أبعادها

يجب ألا تكون أي من الأبعاد أساسية ، بل يجب أن تكون جميعها متساوية (متناظرة).

التعامل الديناميكي مع المصفوفات المتفرقة

يجب تخزين القيم الخالية ومعالجتها بأكثر الطرق فعالية.

دعم وضع المستخدمين المتعددين للعمل مع البيانات

يجب أن تسمح الأدوات لأكثر من مستخدم بالعمل.

دعم العمليات على أساس القياسات المختلفة

يجب تطبيق جميع العمليات متعددة الأبعاد (مثل التجميع) بشكل موحد ومتسق على أي عدد من أي أبعاد.

سهولة التلاعب بالبيانات

يجب أن تحتوي الأدوات على واجهة المستخدم الأكثر ملاءمة وطبيعية وراحة.

أدوات عرض البيانات المتقدمة

يجب أن تدعم الأدوات طرقًا مختلفة لتصور (تمثيل) البيانات.

عدد غير محدود من الأبعاد ومستويات تجميع البيانات

يجب ألا يكون هناك حد لعدد الأبعاد المدعومة.

قواعد لتقييم منتجات برامج فئة OLAP

يجب اعتبار مجموعة هذه المتطلبات التي كانت بمثابة تعريف فعلي لـ OLAP كتوصيات ، ويجب الحكم على المنتجات الفردية من خلال درجة التقريب للامتثال الكامل بشكل مثالي لجميع المتطلبات.

في وقت لاحق ، تمت إعادة صياغة تعريف Codd إلى ما يسمى باختبار FASMI ، مما يتطلب أن يوفر تطبيق OLAP القدرة على تحليل المعلومات المشتركة متعددة الأبعاد بسرعة.

يعد تذكر قواعد Codd الـ 12 مرهقًا للغاية بالنسبة لمعظم الناس. اتضح أنه يمكنك تلخيص تعريف OLAP بخمس كلمات رئيسية فقط: تحليل سريع للمعلومات المشتركة متعددة الأبعاد - أو باختصار - FASMI (مترجمة من الإنجليزية:F ast أ تحليل س مشترك م فوق أنا معلومة).

تمت صياغة هذا التعريف لأول مرة في أوائل عام 1995 ولم يحتاج إلى مراجعة منذ ذلك الحين.

سريع ( سريع ) - يعني أن النظام يجب أن يوفر غالبية الردود للمستخدمين في غضون خمس ثوانٍ تقريبًا. في الوقت نفسه ، تتم معالجة أبسط الطلبات في غضون ثانية واحدة وقليل جدًا - أكثر من 20 ثانية. أظهرت الأبحاث أن المستخدمين النهائيين يرون أن العملية تفشل إذا لم يتم تلقي النتائج بعد 30 ثانية.

للوهلة الأولى ، قد يبدو مفاجئًا أنه عند تلقي تقرير في دقيقة واحدة ، والذي لم يستغرق أيامًا طويلة ، يشعر المستخدم بالملل بسرعة كبيرة أثناء الانتظار ، ويتبين أن المشروع أقل نجاحًا مما كان عليه في حالة استجابة فورية ، حتى على حساب تحليل أقل تفصيلاً.

تحليل (تحليل)يعني أن النظام يمكنه التعامل مع أي تحليل منطقي وإحصائي خاص بتطبيق معين ويضمن الاحتفاظ به في نموذج يمكن للمستخدم النهائي الوصول إليه.

ليس من المهم جدًا ما إذا كان هذا التحليل يتم إجراؤه في أدوات البائع الخاصة أو في منتج برمجي خارجي ذي صلة مثل جدول البيانات ، فالأمر ببساطة هو أنه يجب توفير جميع وظائف التحليل المطلوبة بطريقة بديهية للمستخدمين النهائيين. يمكن أن تتضمن أدوات التحليل إجراءات محددة مثل تحليل السلاسل الزمنية ، وتخصيص التكلفة ، وتحويلات العملات ، والبحث المستهدف ، وتغيير الهياكل متعددة الأبعاد ، والنمذجة غير الإجرائية ، واكتشاف الاستثناءات ، واستخراج البيانات ، والعمليات الأخرى المعتمدة على التطبيق. تختلف هذه القدرات بشكل كبير بين المنتجات ، اعتمادًا على الاتجاه المستهدف.

مشترك (مشترك) يعني أن النظام يفرض جميع متطلبات حماية السرية (ربما وصولاً إلى مستوى الخلية) ، وإذا كان الوصول المتعدد للكتابة مطلوبًا ، فإنه يفرض قفل التعديل على المستوى المناسب. لا تحتاج جميع التطبيقات إلى إعادة كتابة البيانات. ومع ذلك ، فإن عدد هذه التطبيقات آخذ في الازدياد ويجب أن يكون النظام قادرًا على التعامل مع تعديلات متعددة في الوقت المناسب وبطريقة آمنة.

متعدد الأبعاد - هذا مطلب أساسي. إذا كان علينا تحديد OLAP في كلمة واحدة ، فسنختارها. يجب أن يوفر النظام تمثيلًا مفاهيميًا متعدد الأبعاد للبيانات ، بما في ذلك الدعم الكامل للتسلسلات الهرمية والتسلسلات الهرمية المتعددة ، لأن هذه هي بالتأكيد الطريقة الأكثر منطقية لتحليل الأعمال والمؤسسات. لا يوجد حد أدنى لعدد الأبعاد التي يجب معالجتها لأنها تعتمد أيضًا على التطبيق ، ومعظم منتجات OLAP لها أبعاد كافية للأسواق التي تستهدفها.

معلومة - هذا كل شيء. يجب الحصول على المعلومات الضرورية عند الحاجة. ومع ذلك ، يعتمد الكثير على التطبيق. تُقاس قوة المنتجات المختلفة من حيث مقدار المدخلات التي يمكنها التعامل معها ، وليس من حيث عدد الجيجابايت التي يمكن تخزينها. تختلف قوة المنتجات اختلافًا كبيرًا - يمكن لأكبر منتجات OLAP معالجة بيانات أكثر ألف مرة على الأقل من أصغرها. هناك العديد من العوامل التي يجب مراعاتها في هذا الصدد ، بما في ذلك تكرار البيانات وذاكرة الوصول العشوائي المطلوبة واستخدام مساحة القرص والأداء والتكامل مع مخازن المعلومات وما إلى ذلك.

اختبار FASMI هو تعريف معقول ومفهوم للأهداف التي يركز عليها OLAP.

4. التصنيفOLAP- منتجات.

لذا ، فإن جوهر OLAP يكمن في حقيقة أن المعلومات الأولية للتحليل مقدمة في شكل مكعب متعدد الأبعاد ، ومن الممكن التلاعب بها بشكل تعسفي والحصول على أقسام المعلومات اللازمة - التقارير. في الوقت نفسه ، يرى المستخدم النهائي المكعب كجدول ديناميكي متعدد الأبعاد يلخص البيانات (الحقائق) تلقائيًا في أقسام مختلفة (أبعاد) ، ويسمح لك بإدارة العمليات الحسابية وشكل التقرير بشكل تفاعلي. يتم تنفيذ هذه العمليات OLAP آلة (أو آلة OLAP الحوسبة).

حتى الآن ، تم تطوير العديد من المنتجات في العالم التي تنفذ OLAP - التقنيات. لتسهيل التنقل بينها ، استخدم التصنيفات OLAP -المنتجات: عن طريق تخزين البيانات للتحليل والموقع OLAP -السيارات. دعونا نلقي نظرة فاحصة على كل فئة.منتجات OLAP.

التصنيف حسب طريقة تخزين البيانات

يتم إنشاء المكعبات متعددة الأبعاد على أساس البيانات المصدر والمجمعة. يمكن تخزين كل من البيانات المصدر والمجمعة للمكعبات في قواعد البيانات العلائقية والمتعددة الأبعاد. لذلك ، توجد حاليًا ثلاث طرق لتخزين البيانات: MOLAP (OLAP متعدد الأبعاد) و ROLAP (العلائقية OLAP) و HOLAP (OLAP المختلط ). على التوالى، OLAP - تنقسم المنتجات حسب طريقة تخزين البيانات إلى ثلاث فئات متشابهة:

1. في حالة MOLAP والمصدر والبيانات المجمعة مخزنة في قاعدة بيانات متعددة الأبعاد أو في مكعب محلي متعدد الأبعاد.

2. في ROLAP -المنتجات ، يتم تخزين البيانات المصدر في قواعد البيانات العلائقية أو في جداول محلية ثابتة على خادم الملفات. يمكن وضع البيانات المجمعة في جداول الخدمة في نفس قاعدة البيانات. يتم تحويل البيانات من قاعدة بيانات علائقية إلى مكعبات متعددة الأبعاد عند الطلبأدوات OLAP.

3. في حالة الاستخدامهولاب البنية ، تظل بيانات المصدر في قاعدة البيانات العلائقية ، بينما يتم وضع المجاميع في قاعدة البيانات متعددة الأبعاد. مبنى OLAP -مكعب عند الطلب OLAP - الأدوات القائمة على البيانات العلائقية والمتعددة الأبعاد.

تصنيف الموقع OLAP-السيارات.

على هذا الأساس OLAP - تنقسم المنتجات إلىخوادم OLAP وعملاء OLAP:

· في خادم OLAP - يتم تنفيذ وسائل حساب وتخزين البيانات المجمعة من خلال عملية منفصلة - الخادم. يتلقى تطبيق العميل فقط نتائج الاستعلامات مقابل المكعبات متعددة الأبعاد المخزنة على الخادم. بعض OLAP - تدعم الخوادم تخزين البيانات فقط في قواعد البيانات العلائقية ، وبعضها - فقط في القواعد متعددة الأبعاد. كثير حديث OLAP - تدعم الخوادم الطرق الثلاث لتخزين البيانات:MOLAP و ROLAP و HOLAP.

MOLAP.

MOLAP هو معالجة تحليلية متعددة الأبعاد عبر الإنترنت ،أي OLAP متعدد الأبعاد.هذا يعني أن الخادم يستخدم قاعدة بيانات متعددة الأبعاد (MBD) لتخزين البيانات. معنى استخدام MDB واضح. يمكنه تخزين البيانات ذات الطبيعة المتعددة الأبعاد بكفاءة ، مما يوفر وسيلة لخدمة استعلامات قاعدة البيانات بسرعة. يتم نقل البيانات من مصدر البيانات إلى قاعدة البيانات متعددة الأبعاد ، ثم يتم تجميع قاعدة البيانات. الحساب المسبق هو ما يسرع استعلامات OLAP لأنه تم بالفعل حساب بيانات التلخيص. يصبح وقت الاستعلام دالة فقط للوقت المطلوب للوصول إلى جزء معين من البيانات وإجراء عملية حسابية. تدعم هذه الطريقة مفهوم أن العمل يتم مرة واحدة ، ثم يتم استخدام النتائج مرارًا وتكرارًا. تعد قواعد البيانات متعددة الأبعاد تقنية جديدة نسبيًا. استخدام MDB له نفس عيوب معظم التقنيات الجديدة. وهي ليست مستقرة مثل قواعد البيانات العلائقية (RDBs) ، ولم يتم تحسينها بنفس الدرجة. نقطة ضعف أخرى في MDB هي عدم القدرة على استخدام معظم قواعد البيانات متعددة الأبعاد في عملية تجميع البيانات ، لذلك يستغرق الأمر وقتًا حتى تصبح المعلومات الجديدة متاحة للتحليل.

رولاب.

ROLAP هو المعالجة التحليلية العلائقية على الخط ،أي OLAP العلائقية.يعني مصطلح ROLAP أن خادم OLAP يعتمد على قاعدة بيانات علائقية. يتم إدخال بيانات المصدر في قاعدة بيانات علائقية ، عادةً في مخطط نجمة أو ندفة الثلج ، للمساعدة في تقليل أوقات الاسترجاع. يوفر الخادم نموذج بيانات متعدد الأبعاد باستخدام استعلامات SQL محسّنة.

هناك عدد من الأسباب لاختيار قاعدة بيانات علائقية على قاعدة بيانات متعددة الأبعاد. RDB هي تقنية راسخة مع العديد من الفرص للتحسين. أدى استخدام العالم الحقيقي إلى منتج أكثر نضجًا. بالإضافة إلى ذلك ، تدعم RDBs كميات أكبر من البيانات من بنوك التنمية المتعددة الأطراف. إنها مصممة فقط لمثل هذه الأحجام. الحجة الرئيسية ضد RDBs هي تعقيد الاستعلامات المطلوبة لاسترداد المعلومات من قاعدة بيانات كبيرة باستخدام SQL. يمكن لمبرمج SQL الذي يفتقر إلى الخبرة أن يثقل كاهل موارد النظام القيّمة بسهولة من خلال محاولة تنفيذ بعض مثل هذه الاستعلامات ، والتي يسهل تنفيذها في MDB.

البيانات المُجمَّعة / المُجمَّعة مسبقًا.

يعد تنفيذ الاستعلام السريع أمرًا ضروريًا لـ OLAP. هذا هو أحد المبادئ الأساسية لـ OLAP - تتطلب القدرة على معالجة البيانات بشكل حدسي استرجاع المعلومات بسرعة. بشكل عام ، كلما زاد عدد العمليات الحسابية التي يجب إجراؤها للحصول على جزء من المعلومات ، كانت الاستجابة أبطأ. لذلك ، من أجل توفير وقت تنفيذ استعلام صغير ، يتم تجميع أجزاء المعلومات التي يتم الوصول إليها عادةً في أغلب الأحيان ، ولكنها تتطلب حسابًا ، مسبقًا. أي أنه يتم عدها ثم تخزينها في قاعدة البيانات كبيانات جديدة. من الأمثلة على نوع البيانات التي يمكن حسابها مسبقًا بيانات الملخص ، مثل أرقام المبيعات الشهرية أو الفصلية أو السنوية ، والتي تكون البيانات الفعلية المدخلة هي الأرقام اليومية.

لدى البائعين المختلفين طرقًا مختلفة لاختيار المعلمات ، والتي تتطلب التجميع المسبق وعددًا من القيم المحسوبة مسبقًا. يؤثر أسلوب التجميع على قاعدة البيانات ووقت تنفيذ الاستعلامات. إذا تم حساب المزيد من القيم ، فإن احتمال أن يطلب المستخدم القيمة المحسوبة بالفعل يزداد ، وبالتالي سيتم تقليل وقت الاستجابة ، حيث لن يلزم طلب القيمة الأولية للحساب. ومع ذلك ، إذا قمت بحساب جميع القيم الممكنة - ليس هذا هو الحل الأفضل - في هذه الحالة ، سيزداد حجم قاعدة البيانات بشكل كبير ، مما يجعلها غير قابلة للإدارة ، وسيكون وقت التجميع طويلاً للغاية. بالإضافة إلى ذلك ، عند إضافة القيم الرقمية إلى قاعدة البيانات ، أو إذا تم تغييرها ، يجب أن تنعكس هذه المعلومات في القيم المحسوبة مسبقًا والتي تعتمد على البيانات الجديدة. وبالتالي ، يمكن أن يستغرق تحديث قاعدة البيانات أيضًا وقتًا طويلاً في حالة وجود عدد كبير من القيم المحسوبة مسبقًا. نظرًا لأن قاعدة البيانات تعمل عادةً دون اتصال أثناء التجميع ، فمن المستحسن ألا يكون وقت التجميع طويلاً جدًا.

OLAP تم تكوين العميل بشكل مختلف. بناء مكعب متعدد الأبعاد و OLAP - يتم إجراء الحسابات في ذاكرة الكمبيوتر العميل.OLAP - ينقسم العملاء أيضًا إلى ROLAP و MOLAP.وقد يدعم البعض كلا خياري الوصول إلى البيانات.

كل من هذه الأساليب لها مزاياها وعيوبها. خلافًا للاعتقاد الشائع حول مزايا أدوات الخادم مقارنة بأدوات العميل ، في عدد من الحالات ، يتم استخدام OLAP - يمكن أن يكون العميل أكثر كفاءة وربحية للاستخدامخوادم OLAP.

يعد تطوير التطبيقات التحليلية باستخدام أدوات OLAP للعميل عملية سريعة ولا تتطلب تدريبًا خاصًا للقائم بالأداء. يمكن للمستخدم الذي يعرف التنفيذ المادي لقاعدة البيانات أن يطور تطبيقًا تحليليًا بمفرده ، دون إشراك متخصص في تكنولوجيا المعلومات.

عند استخدام خادم OLAP ، تحتاج إلى تعلم نظامين مختلفين ، أحيانًا من بائعين مختلفين ، لإنشاء مكعبات على الخادم ، ولتطوير تطبيق عميل.

يوفر عميل OLAP واجهة مرئية واحدة لوصف المكعبات وتخصيص واجهات المستخدم لها.

لذا ، في أي الحالات يمكن أن يكون استخدام عميل OLAP للمستخدمين أكثر كفاءة وفائدة من استخدام خادم OLAP؟

· الجدوى الاقتصادية للتطبيق OLAP - يحدث الخادم عندما تكون كمية البيانات كبيرة جدًا ولا تطاق OLAP - العميل ، وإلا فإن استخدام هذا الأخير له ما يبرره. في هذه الحالة OLAP - يجمع العميل بين خصائص الأداء العالي والتكلفة المنخفضة.

· تعد أجهزة الكمبيوتر المحلل القوية حجة أخرى لصالح OLAP -عملاء. عند تطبيقها OLAP - لا يتم استخدام هذه القدرات الخادم.

تشمل المزايا الأخرى لعملاء OLAP ما يلي:

· تكاليف التنفيذ والصيانة OLAP - العميل أقل بكثير من تكلفةخادم OLAP.

· استخدام OLAP -العميل مع نقل بيانات الجهاز المدمج عبر الشبكة يتم مرة واحدة. عن طريق القيام OLAP - عمليات لا يتم إنشاء تدفقات البيانات الجديدة.

5. مبادئ التشغيل OLAP-عملاء.

ضع في اعتبارك عملية إنشاء تطبيق OLAP باستخدام أداة العميل (الشكل 1).

الصورة 1.قم بإنشاء تطبيق OLAP باستخدام أداة عميل ROLAP

مبدأ تشغيل عملاء ROLAP هو وصف أولي للطبقة الدلالية ، والتي يتم إخفاء البنية المادية لبيانات المصدر خلفها. في هذه الحالة ، يمكن أن تكون مصادر البيانات: الجداول المحلية ، RDBMS. يتم تحديد قائمة مصادر البيانات المدعومة بواسطة منتج البرنامج المحدد. بعد ذلك ، يمكن للمستخدم التعامل بشكل مستقل مع الكائنات التي يفهمها من حيث مجال الموضوع لإنشاء مكعبات وواجهات تحليلية.

مبدأ تشغيل عميل خادم OLAP مختلف. في خادم OLAP ، عند إنشاء المكعبات ، يقوم المستخدم بمعالجة الأوصاف المادية لقاعدة البيانات. يؤدي هذا إلى إنشاء أوصاف مخصصة في المكعب نفسه. تم تكوين عميل OLAP Server للمكعب فقط.

عند إنشاء طبقة دلالية ، يتم وصف مصادر البيانات - جداول المبيعات والصفقات - بعبارات مفهومة للمستخدم النهائي وتتحول إلى "منتجات" و "صفقات". تمت إعادة تسمية الحقل "ID" من الجدول "Products" إلى "Code" ، و "Name" - إلى "Product" ، إلخ.

ثم يتم إنشاء كائن أعمال المبيعات. عنصر الأعمال هو جدول مسطح يتم على أساسه تكوين مكعب متعدد الأبعاد. عند إنشاء كائن أعمال ، يتم دمج الجدولين "المنتجات" و "العروض" بواسطة الحقل "الرمز" للمنتج.نظرًا لأن جميع حقول الجداول لن تكون مطلوبة لعرضها في التقرير ، فإن كائن الأعمال يستخدم فقط الحقول "العنصر" و "التاريخ" و "المبلغ".

في مثالنا ، بناءً على كائن الأعمال "المبيعات" ، تم إنشاء تقرير عن مبيعات البضائع حسب الأشهر.

عند العمل بتقرير تفاعلي ، يمكن للمستخدم تعيين شروط التصفية والتجميع بنفس حركات الماوس البسيطة. في هذه المرحلة ، يصل عميل ROLAP إلى البيانات الموجودة في ذاكرة التخزين المؤقت. يقوم عميل خادم OLAP بإنشاء استعلام جديد لقاعدة البيانات متعددة الأبعاد. على سبيل المثال ، من خلال تطبيق مرشح منتج في تقرير المبيعات ، يمكنك الحصول على تقرير عن مبيعات المنتجات التي تهمنا.

يمكن تخزين جميع الإعدادات الخاصة بتطبيق OLAP في مستودع بيانات تعريف مخصص ، أو في تطبيق ، أو في مستودع نظام قاعدة بيانات متعدد الأبعاد.يعتمد التنفيذ على منتج البرنامج المحدد.

كل ما يتم تضمينه في هذه التطبيقات هو عرض قياسي للواجهة ، ووظائف وهيكل محدد مسبقًا ، وإصلاحات سريعة لمواقف قياسية أكثر أو أقل. على سبيل المثال ، الحزم المالية شائعة. ستسمح التطبيقات المالية المعدة مسبقًا للمهنيين باستخدام الأدوات المالية المألوفة دون الحاجة إلى تصميم هيكل قاعدة بيانات أو نماذج وتقارير مشتركة.

الإنترنت هو شكل جديد من أشكال العملاء. بالإضافة إلى ذلك ، يحمل طابع التقنيات الجديدة ؛ مجموعة من حلول الإنترنتتختلف بشكل كبير في قدراتها بشكل عام وفي جودة حل OLAP بشكل خاص. هناك العديد من المزايا لإنشاء تقارير OLAP عبر الإنترنت. الأهم هو عدم الحاجة إلى برامج متخصصة للوصول إلى المعلومات. هذا يوفر على الشركة الكثير من الوقت والمال.

6. اختيار بنية تطبيق OLAP.

عند تنفيذ نظام تحليل المعلومات ، من المهم عدم ارتكاب خطأ في اختيار بنية تطبيق OLAP. غالبًا ما تؤخذ الترجمة الحرفية لمصطلح عملية التحليل عبر الإنترنت - "المعالجة التحليلية عبر الإنترنت" - حرفيًا بمعنى أن البيانات التي تدخل النظام يتم تحليلها بسرعة. هذا وهم - كفاءة التحليل ليست مرتبطة بأي حال من الأحوال بالوقت الحقيقي لتحديث البيانات في النظام. تشير هذه الخاصية إلى وقت استجابة نظام OLAP لطلبات المستخدم. في الوقت نفسه ، غالبًا ما تكون البيانات التي تم تحليلها لقطة من المعلومات "للأمس" ، على سبيل المثال ، إذا تم تحديث البيانات الموجودة في المخازن مرة واحدة يوميًا.

في هذا السياق ، تكون ترجمة OLAP كـ "معالجة تحليلية تفاعلية" أكثر دقة. إنها القدرة على تحليل البيانات في الوضع التفاعلي الذي يميز أنظمة OLAP عن أنظمة إعداد التقارير المنظمة.

ميزة أخرى للمعالجة التفاعلية في صياغة سلف OLAP ، E. Codd ، هي القدرة على "دمج البيانات وعرضها وتحليلها من حيث الأبعاد المتعددة ، أي بالطريقة الأكثر مفهومة لمحللي الشركات." بالنسبة إلى Codd نفسه ، يشير مصطلح OLAP إلى طريقة محددة للغاية لتقديم البيانات على مستوى مفاهيمي - متعدد الأبعاد. على المستوى المادي ، يمكن تخزين البيانات في قواعد البيانات العلائقية ، ولكن في الواقع ، تميل أدوات OLAP إلى العمل مع قواعد البيانات متعددة الأبعاد التي يتم فيها تنظيم البيانات في شكل مكعب مفرط (الشكل 1).

الصورة 1. OLAP- مكعب (hypercube ، ميتاكوب)

في الوقت نفسه ، يتم تحديد أهمية هذه البيانات في اللحظة التي يمتلئ فيها المكعب الفائق ببيانات جديدة.

من الواضح أن وقت تكوين قاعدة بيانات متعددة الأبعاد يعتمد بشكل كبير على كمية البيانات المحملة فيها ، لذلك من المعقول تحديد هذا المقدار. ولكن كيف لا يتم تضييق إمكانيات التحليل وحرمان المستخدم من الوصول إلى كافة المعلومات التي تهمه؟ هناك مساران بديلين: التحليل ثم الاستعلام ("التحليل أولاً - ثم طلب معلومات إضافية") والاستعلام ثم التحليل ("الاستعلام أولاً عن البيانات - ثم التحليل").

يقترح أتباع المسار الأول تحميل المعلومات المعممة في قاعدة بيانات متعددة الأبعاد ، على سبيل المثال ، النتائج الشهرية والفصلية والسنوية للأقسام. وإذا كان من الضروري تحسين البيانات ، يُطلب من المستخدم إنشاء تقرير عن قاعدة بيانات علائقية تحتوي على التحديد المطلوب ، على سبيل المثال ، حسب الأيام لقسم معين أو حسب الأشهر وموظفي القسم المحدد.

على العكس من ذلك ، يقترح مؤيدو الطريقة الثانية أن يقرر المستخدم ، أولاً وقبل كل شيء ، البيانات التي سيقوم بتحليلها وتحميلها في مكعب صغير - قاعدة بيانات صغيرة متعددة الأبعاد. كلا النهجين يختلفان على المستوى المفاهيمي ولهما مزايا وعيوب.

تشمل مزايا الطريقة الثانية "حداثة" المعلومات التي يتلقاها المستخدم في شكل تقرير متعدد الأبعاد - "المكعب الصغير". يتكون المكعب الصغير بناءً على المعلومات المطلوبة للتو من قاعدة البيانات العلائقية الفعلية. يتم تنفيذ العمل باستخدام المكعب الصغير في وضع تفاعلي - حيث يتم الحصول على شرائح من المعلومات وتفاصيلها في إطار المكعب الصغير على الفور. نقطة إيجابية أخرى هي أن تصميم الهيكل وتعبئة المكعب الصغير يتم تنفيذه بواسطة المستخدم "أثناء التنقل" ، دون مشاركة مسؤول قاعدة البيانات. ومع ذلك ، فإن النهج يعاني أيضًا من أوجه قصور خطيرة. لا يرى المستخدم الصورة الكبيرة ويجب أن يقرر مسبقًا اتجاه بحثه. وبخلاف ذلك ، قد يكون المكعب الصغير المطلوب صغيرًا جدًا ولا يحتوي على جميع البيانات ذات الأهمية ، وسيتعين على المستخدم أن يطلب مكعبًا جديدًا ، ثم جديدًا ، ثم آخر ، وآخر. يطبق نهج الاستعلام ثم التحليل أداة BusinessObjects الخاصة بالشركة التي تحمل الاسم نفسه وأدوات منصة كونتور الشركةIntersoftمختبر.

باستخدام نهج التحليل ثم الاستعلام ، يمكن أن تكون كمية البيانات التي يتم تحميلها في قاعدة بيانات متعددة الأبعاد كبيرة جدًا ، ويجب أن يتم الملء وفقًا للقواعد ويمكن أن يستغرق الكثير من الوقت. ومع ذلك ، فإن كل هذه العيوب تؤتي ثمارها لاحقًا ، عندما يتمكن المستخدم من الوصول إلى جميع البيانات الضرورية تقريبًا في أي مجموعة. تتم الإشارة إلى البيانات الأصلية في قاعدة البيانات العلائقية فقط كملاذ أخير ، عند الحاجة إلى معلومات مفصلة ، على سبيل المثال ، في فاتورة محددة.

عمليا لا يتأثر تشغيل قاعدة بيانات واحدة متعددة الأبعاد بعدد المستخدمين الذين يصلون إليها. إنهم يقرؤون فقط البيانات المتاحة هناك ، على عكس نهج الاستعلام ثم التحليل ، حيث يمكن أن ينمو عدد الأنابيب الدقيقة في حالة الحد بنفس معدل عدد المستخدمين.

مع هذا النهج ، يزداد العبء على خدمات تكنولوجيا المعلومات ، والتي ، بالإضافة إلى الخدمات العلائقية ، تضطر أيضًا إلى خدمة قواعد البيانات متعددة الأبعاد.هذه الخدمات هي المسؤولة عن التحديث التلقائي للبيانات في قواعد البيانات متعددة الأبعاد في الوقت المناسب.

أبرز ممثلي أسلوب "التحليل ثم الاستعلام" هم أدوات PowerPlay و Impromptu من Cognos.

يعتمد اختيار كل من النهج والأداة التي تنفذها بشكل أساسي على الهدف المنشود: عليك دائمًا تحقيق التوازن بين توفير الميزانية وتحسين جودة خدمة المستخدم النهائي. في الوقت نفسه ، يجب أن يؤخذ في الاعتبار أن إنشاء نظم المعلومات والتحليل ، في الخطة الإستراتيجية ، يتبع هدف تحقيق ميزة تنافسية ، وليس تجنب تكلفة الأتمتة. على سبيل المثال ، يمكن لنظام المعلومات والتحليل المؤسسي أن يوفر المعلومات الضرورية وفي الوقت المناسب والموثوقة عن الشركة ، والتي سيضمن نشرها للمستثمرين المحتملين شفافية هذه الشركة وإمكانية التنبؤ بها ، والتي ستصبح حتماً شرطاً لجاذبيتها الاستثمارية.

7. مجالات تطبيق تقنيات OLAP.

OLAP قابل للتطبيق أينما كانت هناك مهمة لتحليل البيانات متعددة العوامل. بشكل عام ، إذا كان لديك جدول يحتوي على بيانات تحتوي على عمود وصفي واحد على الأقل (بُعد) وعمود واحد به أرقام (مقاييس أو حقائق) ، فستكون أداة OLAP عادةً أداة فعالة لتحليل التقارير وإنشاؤها.

ضع في اعتبارك بعض مجالات تطبيق تقنيات OLAP المأخوذة من الحياة الواقعية.

1. المبيعات.

بناءً على تحليل هيكل المبيعات ، يتم حل المشكلات اللازمة لاتخاذ القرارات الإدارية: تغيير نطاق السلع ، والأسعار ، وإغلاق المتاجر وفتحها ، والفروع ، وإنهاء العقود وتوقيعها مع التجار ، وإجراء الحملات الإعلانية أو إنهاؤها ، إلخ.

2. الشراء.

المهمة هي عكس تحليل المبيعات. تشتري العديد من الشركات المكونات والمواد من الموردين. التجار يشترون البضائع لإعادة بيعها. هناك العديد من المهام الممكنة في تحليل الشراء ، بدءًا من التخطيط النقدي استنادًا إلى الخبرة السابقة وحتى السيطرة على المديريناختيار الموردين.

3. الأسعار.

يدمج تحليل المشتريات مع تحليل أسعار السوق. الغرض من هذا التحليل هو تحسين التكاليف واختيار العروض الأكثر فائدة.

4. التسويق.

من خلال تحليل التسويق ، فإننا نعني فقط مجال تحليل المشترين أو العملاء والمستهلكين للخدمات. تتمثل مهمة هذا التحليل في تحديد الموقع الصحيح للبضائع ، وتحديد مجموعات المشترين للإعلان المستهدف ، وتحسين المجموعة المتنوعة. تتمثل مهمة OLAP في هذه الحالة في منح المستخدم أداة بسرعة ، وبسرعة التفكير ، للحصول على إجابات للأسئلة التي تنشأ بشكل حدسي في سياق تحليل البيانات.

5. المستودع.

من الممكن تحليل هيكل أرصدة المخزون في المستودع حسب أنواع البضائع والمستودعات وتحليل العمر الافتراضي للبضائع وتحليل الشحن من قبل المستلمين والعديد من أنواع التحليل الأخرى المهمة للمؤسسة إذا كان لدى المنظمة محاسبة المستودعات.

6. التدفق النقدي.

هذا مجال كامل للتحليل يحتوي على العديد من المدارس والأساليب. يمكن أن تعمل تقنية OLAP كأداة لتنفيذ أو تحسين هذه التقنيات ، ولكن ليس بديلاً لها. يتم تحليل التدفقات النقدية للأموال غير النقدية والنقدية في سياق العمليات التجارية والأطراف المقابلة والعملات والوقت من أجل تحسين التدفقات وضمان السيولة وما إلى ذلك. يعتمد تكوين القياسات بشدة على خصائص الأعمال والصناعة والمنهجية.

7. الميزانية.

أحد أكثر المجالات خصوبة لتطبيق تقنيات OLAP. ليس من قبيل الصدفة عدم اعتبار أي نظام موازنة حديث مكتمل بدون وجود مجموعة أدوات OLAP لتحليل الميزانية في تكوينها. يتم إنشاء معظم تقارير الموازنة بسهولة على أساس أنظمة OLAP. في الوقت نفسه ، تجيب التقارير على مجموعة واسعة جدًا من الأسئلة: تحليل هيكل النفقات والدخل ، ومقارنة النفقات لعناصر معينة في أقسام مختلفة ، وتحليل ديناميكيات واتجاهات النفقات لعناصر معينة ، وتحليل التكلفة و ربح.

8. الحسابات المحاسبية.

يمكن تحليل الميزانية العمومية الكلاسيكية التي تتكون من رقم حساب وتحتوي على أرصدة واردة ودوران وأرصدة صادرة بشكل مثالي في نظام OLAP. بالإضافة إلى ذلك ، يمكن لنظام OLAP تلقائيًا وبسرعة كبيرة حساب الأرصدة المجمعة لمؤسسة متعددة الفروع ، وأرصدة شهرية وربع سنوية وسنوية ، وأرصدة مجمعة حسب التسلسل الهرمي للحساب ، والأرصدة التحليلية بناءً على الخصائص التحليلية.

9. التقارير المالية.

إن نظام إعداد التقارير الذي تم إنشاؤه تقنيًا ليس أكثر من مجموعة من المؤشرات المسماة بقيم التاريخ التي تحتاج إلى تجميعها وتلخيصها في أقسام مختلفة للحصول على تقارير محددة. في هذه الحالة ، يتم تنفيذ عرض التقارير وطباعتها بسهولة وبتكلفة زهيدة في أنظمة OLAP. على أي حال ، فإن نظام التقارير الداخلية للمؤسسة ليس متحفظًا ويمكن إعادة تصميمه لتوفير المال على العمل الفني لإنشاء التقارير واكتساب قدرات التحليل التشغيلي متعددة الأبعاد.

10. حركة الموقع.

يعد ملف سجل خادم الإنترنت متعدد الأبعاد بطبيعته ، وبالتالي فهو مناسب لتحليل OLAP. الحقائق هي: عدد الزيارات وعدد مرات الدخول والوقت المستغرق في الصفحة والمعلومات الأخرى المتوفرة في السجل.

11. حجم الإنتاج.

هذا مثال آخر على التحليل الإحصائي. وبالتالي ، من الممكن تحليل أحجام البطاطس المزروعة ، والصلب المصهور ، والسلع المصنعة.

12. استهلاك المواد الاستهلاكية.

تخيل مصنعًا يتكون من عشرات الورش التي تستهلك المبردات وسوائل التنظيف والزيوت والخرق وورق الصنفرة - مئات العناصر الاستهلاكية. يتطلب التخطيط الدقيق وتحسين التكلفة تحليلاً شاملاً للاستهلاك الفعلي للمواد الاستهلاكية.

13. استخدام الأماكن.

نوع آخر من التحليل الإحصائي. أمثلة: تحليل عبء العمل في الفصول الدراسية ، والمباني والمباني المستأجرة ، واستخدام قاعات الاجتماعات ، وما إلى ذلك.

14. دوران الموظفين في المؤسسة.

تحليل دوران الموظفين في المؤسسة في سياق الفروع والإدارات والمهن ومستوى التعليم والجنس والعمر والوقت.

15. نقل الركاب.

تحليل عدد التذاكر المباعة والمبالغ حسب الموسم والوجهة وأنواع العربات (الفئات) وأنواع القطارات (الطائرات).

لا تقتصر هذه القائمة على مجالات التطبيق. OLAP - التقنيات. على سبيل المثال ، ضع في اعتبارك التكنولوجيا OLAP - تحليل المبيعات.

8. مثال على الاستخدام OLAP - تقنيات التحليل في مجال البيع.

تصميم تمثيل بيانات متعدد الأبعاد لـ OLAP - يبدأ التحليل بتشكيل خريطة للقياسات. على سبيل المثال ، عند تحليل المبيعات ، قد يكون من المفيد تحديد قطاعات السوق الفردية (النامية ، والمستقرة ، والعملاء الكبار والصغار ، واحتمال وجود عملاء جدد ، وما إلى ذلك) وتقييم أحجام المبيعات حسب المنتجات والأقاليم والعملاء وقطاعات السوق والتوزيع قنوات وأحجام الطلب. تشكل هذه الاتجاهات الشبكة الإحداثية للتمثيل متعدد الأبعاد للمبيعات - هيكل أبعادها.

نظرًا لأن نشاط أي مؤسسة يستمر في الوقت المناسب ، فإن السؤال الأول الذي يطرح نفسه في التحليل هو مسألة ديناميكيات تطوير الأعمال. سيوفر التنظيم الصحيح لمحور الوقت إجابة نوعية على هذا السؤال. عادة ما يتم تقسيم محور الوقت إلى سنوات وأرباع وأشهر. ربما أكثر انقسامًا إلى أسابيع وأيام. يتم تشكيل هيكل البعد الزمني مع الأخذ في الاعتبار تواتر استلام البيانات ؛ يمكن تحديده أيضًا من خلال تكرار طلب المعلومات.

تم تصميم بُعد "مجموعة السلع" ليعكس هيكل المنتجات المباعة قدر الإمكان. في الوقت نفسه ، من المهم الحفاظ على توازن معين من أجل تجنب الإفراط في التفاصيل (يجب أن يكون عدد المجموعات مرئيًا) من ناحية ، ومن ناحية أخرى ، عدم تفويت جزء كبير من السوق.

يعكس بُعد "العملاء" هيكل المبيعات حسب المنطقة الجغرافية. يمكن أن يكون لكل بُعد تسلسلات هرمية خاصة به ، على سبيل المثال ، في هذا البعد يمكن أن يكون هيكلًا: البلدان - المناطق - المدن - العملاء.

لتحليل أداء الأقسام ، يجب عليك إنشاء البعد الخاص بك. على سبيل المثال ، يمكن التمييز بين مستويين من التسلسل الهرمي: الإدارات والأقسام المدرجة فيها ، والتي ينبغي أن تنعكس في بُعد "الأقسام الفرعية".

في الواقع ، تحدد أبعاد "الوقت" و "المنتجات" و "العملاء" تمامًا مساحة مجال الموضوع.

بالإضافة إلى ذلك ، من المفيد تقسيم هذه المساحة إلى مناطق شرطية ، مع أخذ الخصائص المحسوبة كأساس ، على سبيل المثال ، نطاقات حجم المعاملات من حيث القيمة. ثم يمكن تقسيم العمل بأكمله إلى عدد من نطاقات التكلفة التي يتم تنفيذها فيها. في هذا المثال ، يمكنك قصر نفسك على المؤشرات التالية: مقدار مبيعات البضائع ، وعدد البضائع المباعة ، ومقدار الدخل ، وعدد المعاملات ، وعدد العملاء ، وحجم المشتريات من الشركات المصنعة.

OLAP - سيبدو مكعب التحليل (الشكل 2):


الشكل 2.OLAP- مكعب لتحليل حجم المبيعات

إنها على وجه التحديد مصفوفة ثلاثية الأبعاد من حيث OLAP تسمى المكعب. في الواقع ، من وجهة نظر الرياضيات الصارمة ، لن تكون هذه المصفوفة دائمًا مكعبًا: بالنسبة للمكعب الحقيقي ، يجب أن يكون عدد العناصر في جميع الأبعاد هو نفسه ، بينما لا تحتوي مكعبات OLAP على مثل هذا القيد. لا يجب أن يكون مكعب OLAP ثلاثي الأبعاد على الإطلاق. يمكن أن تكون ثنائية الأبعاد ومتعددة الأبعاد - اعتمادًا على المشكلة التي يتم حلها. تم تصميم منتجات OLAP الجادة لحوالي 20 بُعدًا.تدعم تطبيقات سطح المكتب الأبسط حوالي 6 أبعاد.

بعيدًا عن كل عناصر المكعب يجب ملؤها: إذا لم تكن هناك معلومات حول مبيعات المنتج 2 للعميل 3 في الربع الثالث ، فلن يتم تحديد القيمة في الخلية المقابلة.

ومع ذلك ، فإن المكعب نفسه غير مناسب للتحليل. إذا كان لا يزال من الممكن تمثيل أو تصوير مكعب ثلاثي الأبعاد بشكل مناسب ، فحينئذٍ من ستة أو تسعة عشر بعداالأمور أسوأ بكثير. لذلك ، يتم استخراج الجداول العادية ثنائية الأبعاد من مكعب متعدد الأبعاد قبل الاستخدام. هذه العملية تسمى "قطع" المكعب. المحلل ، كما كان ، يأخذ أبعاد المكعب و "يقطعها" حسب العلامات التي تهمه. بهذه الطريقة ، يتلقى المحلل شريحة ثنائية الأبعاد من المكعب (تقرير) ويعمل معها. يظهر هيكل التقرير في الشكل 3.

الشكل 3هيكل التقرير التحليلي

دعنا نقطع OLAP - cube ونحصل على تقرير مبيعات للربع الثالث ، سيبدو هكذا (الشكل 4).

الشكل 4تقرير مبيعات الربع الثالث

يمكنك قص المكعب على طول المحور الآخر والحصول على تقرير عن مبيعات مجموعة المنتجات 2 خلال العام (الشكل 5).

الشكل 5التقرير ربع السنوي لمبيعات المنتج 2

وبالمثل ، يمكنك تحليل العلاقة مع العميل 4 ، قطع المكعب حسب تسمية العملاء(الشكل 6)

الشكل 6تقرير عن توريد البضائع للعميل 4

يمكنك تفصيل التقرير حسب الشهر أو التحدث عن توريد البضائع لفرع معين من العميل.