بيت / بواسطة/ مشاكل العلم والتعليم الحديثة. المقاييس في مشاكل التصنيف إطار عمل تعلم الآلة

مشاكل العلم والتعليم الحديثة. المقاييس في مشاكل التصنيف إطار عمل تعلم الآلة

في السنوات الأخيرة ، تم إيلاء الكثير من الاهتمام لإعادة بناء الصورة ؛ لذلك ، يعد تقييم الجودة مهمة مهمة لمقارنة طرق استعادة الصور المختلفة. في كثير من الحالات ، تؤدي تقنيات إعادة الإعمار إلى تشويش البنية والبنية عند إعادة بناء مساحات كبيرة بقيم بكسل مشوهة. لا يوجد حاليًا أي تقييم كمي موضوعي لنتائج الاستعادة ، وبالتالي ، في العديد من الأساليب ، يتم استخدام تقييم الخبراء. تناقش هذه المقالة طريقة جديدة لتقييم جودة استعادة الصورة بناءً على التعلم الآلي باستخدام نموذج الرؤية البشرية ، والذي يكمن في حقيقة أن المناطق المحلية من الصور يمكن تمثيلها بواسطة الواصفات في شكل بعض التوزيعات البارامترية. علاوة على ذلك ، تتيح آلة متجه دعم الانحدار إمكانية التنبؤ بالجودة المتصورة للصور المعاد بناؤها وفقًا لتقدير الخبراء. توضح الورقة أن نقاط الجودة التي تم الحصول عليها باستخدام النهج أعلاه ترتبط بدرجة الجودة الذاتية.

التعلم الالي

جودة بصرية

إعادة الإعمار

معالجة الصورة

1. Gastaldo P. حلول التعلم الآلي لتقييم موضوعي للجودة المرئية / ورشة العمل الدولية السادسة حول معالجة الفيديو ومقاييس الجودة للإلكترونيات الاستهلاكية ، VPQM. - المجلد. 12. - 2012.

2. Bertalmio M. ، Bertozzi A. ، Sapiro G. Navier-Stokes ، ديناميات السوائل ، ورسومات الصور والفيديو / هاواي: Proc. IEEE Computer Vision والتعرف على الأنماط (CVPR). - 2001. - ص. 213 - 226.

3. Criminisi A.، Perez P.، Toyama K. Region lling وكائنالإزالة عن طريق الرسم المستند إلى النموذج / IEEE Trans. معالجة الصورة. - 13 (9). - 2004. - ص. 28 - 34.

4. Vijay M.، Cheung، S.S. صورة إدراكية قائمة على تتبع العين في تحليل جودة الطلاء / معالجة الصور (ICIP) ، المؤتمر الدولي السابع عشر IEEE على IEEE. - 2010. - ص. 1109 - 1112.

5. Ardis P.A.، Singhal A. مقاييس البروز البصري لرسومات الصور / التصوير الإلكتروني SPIE. الجمعية الدولية للبصريات والضوئيات. - 2009.

6. Cheung SS، Zhao J.، Venkatesh V. كفاءة الفيديو المعتمد على الكائن في الرسم / معالجة الصور ، 2006 المؤتمر الدولي IEEE في. - 2006. - ص. 705-708.

7. Peretyagin G.I. تمثيل الصور بواسطة الحقول العشوائية الغاوسية / القياس الآلي. - رقم 6. - 1984. - ص 42 - 48.

8. Frantc V.A.، Voroni V.V.، Marchuk V.I.، Sherstobitov A.I.، Agaian S.، Egiazarian K. SPIE 9120 ، الوسائط المتعددة المتنقلة / معالجة الصور والأمن والتطبيقات. - المجلد. 91200 ثانية. - 2014.

9. بول أ ، سينغال أ ، و. براون سي. تقييم جودة الرسم / مجلة التصوير الإلكتروني. - المجلد. 19. - 2010. - ص. 011002-011002.

يعد مقياس جودة الصورة الموضوعي جزءًا مهمًا من أنظمة معالجة الصور. واحد من تطبيقات مهمةالمقياس الموضوعي لتقييم جودة الصورة هو تقييم فعالية خوارزميات وأنظمة معالجة الصور. على الرغم من العدد الكبير من المنشورات حول هذا الموضوع ، فإن مشكلة تقييم جودة الصور المعاد بناؤها لا يتم تناولها إلا في القليل. في الوقت نفسه ، حظيت مشكلة استعادة مناطق الصورة المفقودة باهتمام كبير مؤخرًا.

هناك طريقتان لتقييم جودة الصورة: القياس الكمي باستخدام الطرق الرياضية(متوسط الخطأ التربيعي ، Lp-norm ، المقاييس التي تأخذ في الاعتبار خصائص إدراك الصورة بواسطة النظام البصري البشري) والتقييم الذاتي بناءً على تقييمات الخبراء.

قد يختلف تقييم الجودة الذي تم الحصول عليه باستخدام الأساليب الحالية بشكل كبير عن التقييم الذي تم الحصول عليه بمساعدة الخبراء البشريين. تستخدم معظم الأساليب الحالية لتقييم الجودة صورة مرجعية. لكن ، للأسف ، في كثير من الحالات لا تتوفر الصورة المرجعية. تتضمن هذه المهام مشكلة إعادة بناء وحدات البكسل المفقودة. وبالتالي ، فإن مهمة تطوير مقياس كمي لتقييم جودة الصور المعاد بناؤها مهمة.

تم إحراز تقدم كبير في تطوير التقييمات الكمية لجودة الصورة. ومع ذلك ، فإن المعايير المقدمة ليست مثالية بما فيه الكفاية. تتعلق معظم محاولات العثور على تقديرات مقبولة لجودة الصورة بحالات خاصة. يتم اقتراح تقييم معين بناءً على بعض المتطلبات الفسيولوجية ، وغالبًا ما يكون مناسبًا فقط للتحليل والحسابات ، ثم يتم تقييم خصائصه. يرتبط إنشاء تقييمات أفضل لجودة الصورة بدراسة أعمق لخصائص النظام البصري البشري.

الغرض من هذا العملهو تطوير مقياس لتقييم جودة الصور أثناء المعالجة بواسطة طرق إعادة البناء القائمة على التعلم الآلي.

نموذج رياضي

تستخدم المقالة تدوينًا مشابهًا للترميز المعتمد في العمل. تتكون الصورة بأكملها من منطقتين غير متداخلتين: المنطقة المعاد بناؤها والمنطقة المعروفة. يوضح الشكل 1 مثالاً على موقع هذه المناطق.

الشكل 1. نموذج الصورة

الصورة والمنطقة Ω بداخلها معروفان. تتمثل مهمة إعادة البناء في تعديل قيم البكسل للصورة داخل المنطقة Ω ، بحيث لا تبرز المنطقة على خلفية الصورة المحيطة. قد يكون الغرض من إعادة البناء هو إصلاح الأجزاء التالفة من الصورة (مثل الخدوش والشقوق في الصور الفوتوغرافية القديمة) أو إزالة الأشياء غير المرغوب فيها في الصورة. دائمًا ما تكون المنطقة Ω الموضحة في الشكل 1 محددة من قبل المستخدم ، أي تعريف المجال Ω ليس جزءًا من مشكلة إعادة الإعمار.

خوارزمية لتقييم جودة استعادة الصورة

بشكل عام ، لبناء مقياس جودة الصورة بنجاح بناءً على التعلم الآلي ، فإن المهام الثلاث التالية مطلوبة:

1. تحديد مساحة المعالم ، والتي تكون بمثابة وصف لإشارات الإدخال.

2. اختيار وظيفة رسم الخرائط من مساحة الميزات إلى مساحة تقييمات الجودة.

3. تدريب النظام والتحقق من ثباته (التحقق من إعادة التدريب ، إلخ).

يظهر الرسم التخطيطي للنهج المختار في الشكل 2 ويحتوي على الخطوات التالية:

1. تحديد مجال الاهتمام (باستخدام خريطة الاهتمام) ؛

2. حساب ميزات منخفضة المستوى للصورة.

3. بناء واصف المنطقة المستعادة بناءً على ميزات منخفضة المستوى ؛

4. حل مشكلة الانحدار للحصول على تقدير عددي للجودة بناءً على متجه التوصيف الذي تم الحصول عليه.

أرز. 2. مخطط كتلة الخوارزمية

تظهر الورقة أن الانتباه البصري يلعب دورًا مهمًا في الإدراك البصري البشري. في كل لحظة من الزمن عين الانسانيرى فقط جزءًا صغيرًا من المشهد بوضوح ، بينما يُنظر إلى مساحة أكبر بكثير من المشهد على أنها "غير واضحة". هذه "المعلومات الغامضة" كافية لتقييم أهمية مناطق مختلفة من المشهد ولفت الانتباه إلى مناطق مهمة في المجال البصري. تسمح لك معظم الطرق بالحصول على خريطة الانتباه - صورة ثنائية الأبعاد ترتبط فيها قيمة كل بكسل بأهمية المنطقة المقابلة.

للحصول على خرائط الانتباه ، يتم استخدام Saliency Toolbox ، الموضحة في. تستخدم هذه المجموعة من الأدوات نموذجًا للنظام البصري البشري. من المهم ملاحظة أنه ليس من المنطقي مقارنة المنطقة المستعادة على الصورة الأصلية والصورة المستعادة ، لأن المحتوى العام قد يتغير بشكل كبير. لتحديد مجالات الاهتمام ، يُقترح استخدام التعبير التالي:

هنا ، هي خريطة الانتباه للصورة المعاد بناؤها ، وقيمة خريطة الانتباه المقابلة للبكسل. في التعبير أعلاه ، يتم حساب كثافة النظرة داخل وخارج منطقة الصورة المعاد بناؤها. تُستخدم القيمة كقيمة حدية في تحديد أجزاء الصورة التي سيتم استخدامها في التقييم وأيها لن يتم استخدامه. فقط المناطق التي.

كما يتم استخدام علامات منخفضة المستوى للمناطق المحلية التمثيلات الطيفية. بعد ذلك ، نقترح تحليل قواعد فورييه ، والش ، هار باستخدام متجه الكفاءة. من أجل الحساب الصحيح لمكونات معيار كفاءة النظام في وجود التداخل والتشويه ، يلزم إجراء متوسط إحصائي.

في تركيب خوارزميات وأنظمة معالجة الإشارات ، غالبًا ما يستخدم معيار الحد الأدنى لمتوسط المخاطر ، مما يسمح بمراعاة إحصائيات التداخل والإشارات. عند تنفيذ تحويلات التردد وتقدير التكاليف الحسابية ، يعد اختيار أساس التحلل الطيفي أمرًا ضروريًا. لتحسين اختيار أساس تحلل الإشارة ، يُنصح باستخدام معيار الحد الأدنى لمتوسط المخاطر. لهذا ، من الضروري إعطاء فئة الإشارات والعمليات المستخدمة ومعرفة خصائصها الاحتمالية.

بالنسبة لفئة معينة من العمليات ثنائية الأبعاد ، يُفترض أن يكون احتمال كل فئة من الفئات الفرعية معروفًا ، حيث يكون الفهرس هو رقم الفئة الفرعية مع بعض الخصائص المشتركة، وهو رقم تنفيذ عملية الفئة الفرعية -th. سنقارن مجموعة معينة من الأنظمة الأساسية التوسع في سلسلة فورييه المعممة فيما يتعلق بنظام الأساس i في نظرة عامةيشبه: .

مع وجود عدد محدود من أعضاء سلسلة فورييه ، يمكن تمييزها بخطأ: أين المسافة في بعض المقاييس ، هي المجموع الجزئي لأعضاء سلسلة فورييه.

يرتبط تحديد الأجهزة لمعاملات سلسلة فورييه أو حسابها بتكاليف حسابية معينة. نقدم وظيفة خسارة تأخذ في الاعتبار الخسائر المرتبطة بخطأ القطع لسلسلة فورييه وتكاليف الأجهزة وموارد الحوسبة:

تعتمد قيمة الخطر الشرطي على كل من الفئة الفرعية للإشارة والأساس ويتم حسابها عن طريق حساب متوسط دالة الخسارة على عمليات التنفيذ:

أين كثافة احتمالية الإشارات والضوضاء التي تم تحليلها ؛ وتشير الأقواس الزاوية إلى عملية حساب المتوسط الإحصائي.

يتم تحديد متوسط المخاطر من خلال حساب متوسط الخطر الشرطي على الفئات الفرعية للإشارة:

أين هو احتمال الفئة الفرعية من الإشارات.

وفقًا لمعيار الحد الأدنى لمتوسط المخاطر ، يتم اختيار الأساس الذي يكون متوسط الخطر عنده ضئيلاً من القواعد.

لتقييم فعالية معيار النظام لجودة معالجة الصور ، فإننا نعتبر صور الاختبار في شكل مواد تم الحصول عليها على أساس نمذجة الحقول الغاوسية مع وظائف ارتباط معينة. يتم إنشاء الحقول العشوائية العادية المتجانسة ، بالإضافة إلى العمليات العشوائية العادية الثابتة ، ببساطة عن طريق طريقة مرشح التشكيل.

على سبيل المثال ، تتناول المقالة تمثيل عمليات الإدراك العشوائية مع وظائف الارتباط المختلفة في قواعد الدوال المثلثية (فورييه) ، والش ، وهار. لنقم بإجراء التحليل في القواعد المحددة لنماذج الصور التي تم إنشاؤها بحجم 256 × 256 بكسل. وضعنا لأنفسنا أيضًا ثلاثة أنواع من توزيع احتمالية الفئة الفرعية: 1) الزي الموحد: ؛ 2) تناقص: ؛
3) زيادة:. نختار دالة التكلفة بالشكل: .

يتم تحديد متوسط المخاطر من خلال حساب متوسط الخطر الشرطي على الفئات الفرعية للإشارة باستخدام الاحتمالات المقبولة مسبقًا للفئات الفرعية للإشارة ، ويتم عرض القيم المحسوبة في الجدول 1.

الجدول 1

متوسط قيم المخاطر

	أنواع التوزيع الاحتمالي

تظهر نتائج الحساب المعروضة في الجدول أنه بالنسبة للنماذج المقبولة للإشارات ثنائية الأبعاد وتوزيعاتها الاحتمالية ، فإن أساس Haar لديه أدنى متوسط مخاطرة ، وقاعدة فورييه هي الأعلى.

بناءً على التحليل الذي تم إجراؤه ، نختار أساس Haar لتمثيل مناطق الصور المحلية. وتجدر الإشارة إلى أن حجم المنطقة التي أعيد بناؤها يختلف باختلاف الصور. في هذا الصدد ، بناءً على ميزات المستوى المنخفض ، يجب تشكيل تمثيل عالي المستوى بحجم ثابت. يتم استخدام نهج "حقيبة الكلمات" كتمثيل رفيع المستوى. يتكون الإجراء الخاص بإنشاء واصف (توقيع) للمنطقة المعاد بناؤها من خطوتين. الخطوة الأولى هي بناء قاموس. لهذا الغرض ، يتم استخدام ميزات المستوى المنخفض المستخرجة من جميع صور مجموعة الصور التدريبية. لإنشاء قاموس ، يتم تقسيم الميزات المستخرجة إلى 100 فئة باستخدام خوارزمية تجميع الوسائل k. كل عنصر من عناصر القاموس هو نقطة مركزية لإحدى الفئات التي تم العثور عليها بواسطة إجراء التجميع. كل كلمة في القاموس تمثل تحويل Haar في كتلة صور 8x8. يتم استخدام القاموس الناتج في المرحلة الثانية عند إنشاء الرسوم البيانية للتردد للكلمات من القاموس كمتجه للميزة - واصف المنطقة المعاد بناؤها (الشكل 3). يتم استخدام مجموعة الواصفات الناتجة لتدريب آلة الانحدار (Support Vector Regression). للحصول على رسم بياني لترددات الكلمات ، يتم استخراج جميع المناطق الملحوظة بصريًا (يتم تحديد الرؤية باستخدام خرائط الانتباه) لصورة معينة من القاموس. ثم يتم تطبيق تحويل Haar على كل من الكتل المستخرجة ويتم تصنيفها وفقًا للقاموس الناتج بناءً على المسافة الإقليدية.

تحتوي كل حاوية من المدرج التكراري الناتج على عدد من الميزات منخفضة المستوى لفئة معينة في منطقة معينة أعيد بناؤها. بعد تطبيع الرسم البياني ، يتم الحصول على "توقيع" الصورة - تمثيل عالي المستوى للمنطقة التي أعيد بناؤها.

تين. 3. بناء الرسم البياني

تقييم كفاءة الخوارزمية في تقييم جودة استعادة الصورة

من أجل تقييم فعالية المقياس المطور ، تم استخدام مجموعة من الصور الاختبارية. المجموعة تتكون من 300 صورة. تم اختيار الطرق التالية كطرق استعادة: طريقة تعتمد على البحث عن مناطق متشابهة ، طريقة تعتمد على التحويلات الطيفية ، طريقة تعتمد على حساب المشتقات الجزئية. لكل صورة ، تم الحصول على تقييم خبير ، بمشاركة 30 شخصًا. تم تقسيم النتائج إلى مجموعتين غير متداخلة. تم استخدام الأول للتدريب ، والثاني للتحقق من النتيجة.

صنف الخبراء الجودة على مقياس حيث 5 يتوافق مع "ممتاز" والواحد يتوافق مع "سيئ جدًا". لتقييم فعالية المقاييس التي تم الحصول عليها ، يتم استخدام معامل الارتباط بين المتجهات التي تم الحصول عليها باستخدام المقاييس الموضوعية وطريقة الخبراء لتقييم الجودة. يوضح تحليل النتائج في الجدول 2 أن النهج المقترح يتفوق على مقاييس الجودة المعروفة في مجموعة بيانات الاختبار المحددة.

الجدول 2

معامل الارتباط لطرق مختلفة لحساب الهدف
مقاييس جودة الصورة

			النهج المقترح

خاتمة

تقدم المقالة مقياسًا موضوعيًا لتقييم جودة الصورة بناءً على التعلم الآلي. تعتبر المقاييس الكمية لجودة الصورة ضرورية لتصميم وتقييم أنظمة إعادة إنتاج الصور. ستساعد هذه التدابير إلى حد كبير في التخلص من الأساليب الحديثة الشاقة وغير الدقيقة لتقييم الصور من خلال الفحص الذاتي. بالإضافة إلى ذلك ، على أساس المقاييس الكمية ، من الممكن تطوير طرق لتحسين أنظمة معالجة الصور. يتضح أن نقاط الجودة التي تم الحصول عليها باستخدام النهج أعلاه ترتبط بدرجة الجودة الذاتية.

تم دعم العمل من قبل وزارة التعليم والعلوم في روسيا في إطار برنامج الهدف الفيدرالي "البحث والتطوير في المجالات ذات الأولوية لتطوير المجمع العلمي والتكنولوجي لروسيا للفترة 2014-2020" (الاتفاقية رقم 14.586.21.0013 ).

المراجعون:

Fedosov V.P. ، دكتوراه في العلوم التقنية ، أستاذ ، رئيس قسم أعلى أكاديمية الهندسة والتكنولوجيا في الجامعة الفيدرالية الجنوبية ، روستوف أون دون ؛

Marchuk V.I. ، دكتوراه في العلوم التقنية ، أستاذ ، رئيس قسم الأنظمة والمجمعات الإلكترونية والكهربائية ، ISOiP (فرع DSTU) ، شاختي.

رابط ببليوغرافي

Voronin V.V. تقييم جودة استرداد الصورة على أساس التعلم الآلي // المشكلات الحديثة في العلوم والتعليم. - 2014. - رقم 6 .؛
URL: http://science-education.ru/ru/article/view؟id=16294 (تاريخ الوصول: 01.02.2020). نلفت انتباهكم إلى المجلات التي تصدرها دار النشر "أكاديمية التاريخ الطبيعي".

في مهام التعلم الآلي ، تُستخدم المقاييس لتقييم جودة النماذج ومقارنة الخوارزميات المختلفة ، واختيارها وتحليلها جزء لا غنى عنه من عمل عالم البيانات.

في هذه المقالة ، سنلقي نظرة على بعض معايير الجودة في مشاكل التصنيف ، ونناقش ما هو مهم عند اختيار مقياس وما يمكن أن يحدث خطأ.

المقاييس في مشاكل التصنيف

لإثبات الميزات المفيدة sklearnوتمثيلًا مرئيًا للمقاييس ، سنستخدم مجموعة بيانات عميل مشغل الاتصالات لدينا ، والتي التقينا بها في المقالة الأولى من الدورة التدريبية.

قم بتنزيل المكتبات الضرورية وإلقاء نظرة على البيانات

استيراد الباندا كـ pd import matplotlib.pyplot as plt from matplotlib.pylab import rc، plot import seaborn as sns from sklearn.preprocessing import LabelEncoder، OneHotEncoder من sklearn.model_selection استيراد cross_val_score من sklearn.linear_megodel import oosting المصنف من sklearn.metrics استيراد دقيق_recall_curve وتصنيف_تقرير من sklearn.model_selection استيراد train_test_split df = pd.read_csv ("../../ data / telecom_churn.csv")

دي اف.هيد (5)

معالجة البيانات

# عيّن الأعمدة الثنائية # ورمز الوهمي للحالة (للتبسيط ، من الأفضل عدم القيام بذلك للنماذج الخشبية) d = ("نعم": 1 ، "لا": 0) df ["الخطة الدولية"] = df ["الخطة الدولية"]. الخريطة (د) df ["خطة البريد الصوتي"] = df ["خطة البريد الصوتي"]. الخريطة (د) df ["Churn"] = df ["Churn"]. astype (" int64 ") le = LabelEncoder () df [" State "] = le.fit_transform (df [" State "]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df [" State "]. values.reshape (- 1 ، 1)) tmp = pd.DataFrame (encoded_state ، الأعمدة = ["state" + str (i) لـ i في النطاق (encoded_state.shape)]) df = pd.concat (، المحور = 1)

الدقة والدقة والاستدعاء

قبل الانتقال إلى المقاييس نفسها ، يجب تقديم مفهوم مهم لوصف هذه المقاييس من حيث أخطاء التصنيف - الارتباك مصفوفة(مصفوفة الخطأ).
لنفترض أن لدينا فئتين وخوارزمية تتنبأ بما إذا كان كل كائن ينتمي إلى إحدى الفئات ، فإن مصفوفة خطأ التصنيف ستبدو كما يلي:


	إيجابي حقيقي (TP)	إيجابية كاذبة (FP)
	سلبي كاذب (FN)	سلبي حقيقي (TN)

هنا ، هي استجابة الخوارزمية على الكائن ، وهي التسمية الحقيقية للفئة على هذا الكائن.
وبالتالي ، هناك نوعان من أخطاء التصنيف: False Negative (FN) و False Positive (FP).

تدريب الخوارزمية وبناء مصفوفة الخطأ

X = df.drop ("Churn" ، المحور = 1) y = df ["Churn"] # قسّم العينة إلى قطار واختبار ، سيتم تقييم جميع المقاييس على مجموعة بيانات الاختبار X_train ، X_test ، y_train ، y_test = train_test_split ( X، y، stratify = y، test_size = 0.33، random_state = 42) # تدريب الانحدار اللوجستي الأصلي lr = LogisticRegression (random_state = 42) lr.fit (X_train، y_train) # استخدم الوظيفة لبناء مصفوفة الخطأ من وثائق sklearn def plot_confusion_matrix (سم ، فئات ، تسوية = خطأ ، العنوان = "(! LANG: مصفوفة الارتباك", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="الارتباك مصفوفة") plt.savefig("conf_matrix.png") plt.show()!}

دقة

المقياس البديهي والواضح وغير المستخدم تقريبًا هو الدقة - النسبة المئوية للإجابات الصحيحة للخوارزمية:

هذا المقياس عديم الفائدة في مشاكل الطبقات غير المتكافئة ويسهل إظهاره بمثال.

لنفترض أننا نريد تقييم أداء عامل تصفية البريد الإلكتروني العشوائي. لدينا 100 رسالة بريد إلكتروني غير مرغوب فيها ، 90 منها تم تحديدها بشكل صحيح (سلبي حقيقي = 90 ، خطأ إيجابي = 10) و 10 رسائل بريد إلكتروني غير مرغوب فيها ، 5 منها تم تحديدها بشكل صحيح بواسطة المصنف (إيجابي حقيقي = 5 ، سلبي خطأ = 5).
ثم الدقة:

ومع ذلك ، إذا توقعنا أن جميع رسائل البريد الإلكتروني ليست بريدًا عشوائيًا ، فإننا نحصل على دقة أعلى:

في الوقت نفسه ، لا يتمتع نموذجنا بأي قوة تنبؤية على الإطلاق ، لأننا أردنا في البداية تحديد رسائل البريد الإلكتروني العشوائية. سيساعدنا الانتقال من مقياس مشترك لجميع الفئات إلى المؤشرات الفردية لجودة الفصل في التغلب على هذا.

الدقة والاستدعاء والقياس F.

لتقييم جودة الخوارزمية في كل فئة من الفئات ، نقدم بشكل منفصل دقة المقاييس (الدقة) والتذكر (الاكتمال).

يمكن تفسير الدقة على أنها نسبة الكائنات التي يطلق عليها المصنف إيجابية وفي نفس الوقت تكون إيجابية حقًا ، ويوضح الاسترجاع نسبة الكائنات من فئة إيجابية من جميع الكائنات من فئة إيجابية وجدت الخوارزمية.

إن إدخال الدقة هو الذي لا يسمح لنا بكتابة جميع الكائنات في فئة واحدة ، حيث أننا في هذه الحالة نحصل على زيادة في المستوى الإيجابي الكاذب. يوضح Recall قدرة الخوارزمية على الكشف فئة معينةبشكل عام ، والدقة هي القدرة على تمييز هذه الفئة عن الفئات الأخرى.

كما أشرنا سابقًا ، هناك نوعان من أخطاء التصنيف: إيجابية كاذبة وسلبية كاذبة. في الإحصاء ، يُسمى النوع الأول خطأ من النوع الأول ، ويسمى النوع الثاني خطأ من النوع الثاني. في مهمتنا المتمثلة في تحديد التدفق الخارج للمشتركين ، سيكون الخطأ من النوع الأول هو خطأ المشترك المخلص لمشترك مغادر ، لأن فرضيتنا الصفرية هي أن لا أحد من المشتركين يغادر ، ونحن نرفض هذه الفرضية. وفقًا لذلك ، سيكون الخطأ من النوع الثاني هو "مرور" المشترك الصادر والقبول الخاطئ للفرضية الصفرية.

لا تعتمد الدقة والاسترجاع ، على عكس الدقة ، على نسبة الفئات ، وبالتالي فهي قابلة للتطبيق في ظروف العينات غير المتوازنة.
غالبًا في الممارسة الحقيقية ، تتمثل المهمة في إيجاد التوازن الأمثل (للعميل) بين هذين المقياسين. المثال الكلاسيكي هو مشكلة تحديد التدفق الخارجي للعملاء.
من الواضح أننا لا نستطيع أن نجد الجميعالعملاء المخضضين و فقطهُم. ولكن بعد تحديد الإستراتيجية والمورد للاحتفاظ بالعملاء ، يمكننا تحديد الحدود اللازمة للدقة والاستدعاء. على سبيل المثال ، يمكننا التركيز على الاحتفاظ بالعملاء ذوي الهامش المرتفع فقط أو أولئك الذين من المرجح أن يغادروا ، نظرًا لأن موارد مركز الاتصال محدودة.

عادةً ، عند تحسين المعلمات الفائقة لخوارزمية ما (على سبيل المثال ، في حالة التكرار عبر شبكة GridSearchCV) يستخدم مقياسًا واحدًا ، نتوقع أن نرى التحسين في عينة الاختبار.
هناك العديد طرق مختلفةالجمع بين الدقة والاستدعاء في معيار الجودة الإجمالي. قياس F (بشكل عام) - متوسط الدقة التوافقي والتذكر:

في هذه الحالة ، يحدد وزن الدقة في المقياس ، وفي نفس الوقت المتوسط التوافقي (مع عامل 2 ، بحيث في حالة الدقة = 1 والتذكر = 1 يكون)
يصل مقياس F إلى الحد الأقصى عند الاسترجاع والدقة تساوي واحدًا ويقترب من الصفر إذا كانت إحدى الوسيطات قريبة من الصفر.
sklearn لديه ميزة يدوية _metrics.classification تقريرالتي تُرجع الاستدعاء والدقة وقياس F لكل فئة من الفئات ، بالإضافة إلى عدد مثيلات كل فئة.

Report = rating_report (y_test، lr.predict (X_test)، target_names = ["Non-churned"، "Churned"]) print (report)

فصل	دقة	يتذكر	النتيجة f1	يدعم
غير مخضض	0.88	0.97	0.93	941
ممخض	0.60	0.25	0.35	159
متوسط / إجمالي	0.84	0.87	0.84	1100

وتجدر الإشارة هنا إلى أنه في حالة المشكلات المتعلقة بالفئات غير المتوازنة التي تسود في الممارسة الحقيقية ، غالبًا ما يكون من الضروري اللجوء إلى تقنيات تعديل مجموعة البيانات الاصطناعية لمعادلة نسبة الفئة. هناك الكثير منها ولن نتطرق إليها ، يمكنك إلقاء نظرة على بعض الطرق واختيار الطريقة التي تناسب مهمتك.

AUC-ROC و AUC-PR

عند تحويل الاستجابة الحقيقية للخوارزمية (عادةً احتمال الانتماء إلى فئة ، انظر SVM بشكل منفصل) إلى تسمية ثنائية ، يجب أن نختار بعض العتبة التي يصبح عندها 0 1. الحد الأدنى 0.5 يبدو طبيعيًا وقريبًا ، لكنه كذلك لا يتبين دائمًا أنه الأفضل ، على سبيل المثال ، في حالة عدم توازن الفصل السابق ذكره.

إحدى الطرق لتقييم النموذج ككل ، دون التقيد بحد معين ، هي AUC-ROC (أو ROC AUC) - المنطقة ( أريا يو nder ج urve) تحت منحنى الخطأ ( صسيفير اتجول جمنحنى مميز). هذا المنحنى عبارة عن خط من (0.0) إلى (1.1) في إحداثيات المعدل الإيجابي الحقيقي (TPR) والمعدل الإيجابي الكاذب (FPR):

نحن نعلم بالفعل TPR ، هذا هو الاكتمال ، ويظهر FPR نسبة كائنات الفئة السلبية التي تنبأت بها الخوارزمية بشكل غير صحيح. في الحالة المثالية ، عندما لا يرتكب المصنف أي أخطاء (FPR = 0 ، TPR = 1) ، سنحصل على مساحة تحت المنحنى تساوي واحدًا ؛ خلاف ذلك ، عندما يقوم المصنف بإخراج احتمالات الفئة بشكل عشوائي ، فإن AUC-ROC سوف تميل إلى 0.5 لأن المصنف سيخرج نفس المقدار من TP و FP.
تتوافق كل نقطة على الرسم البياني مع اختيار بعض العتبة. تُظهر المنطقة الواقعة أسفل المنحنى في هذه الحالة جودة الخوارزمية (الأكثر هو الأفضل) ، بالإضافة إلى أن انحدار المنحنى نفسه مهم - نريد تعظيم TPR مع تقليل FPR ، مما يعني أن منحنىنا يجب أن يميل بشكل مثالي إلى النقطة (0،1).

كود رسم منحنى ROC

sns.set (font_scale = 1.5) sns.set_color_codes ("muted") plt.figure (figsize = (10، 8)) fpr، tpr، thresholds = roc_curve (y_test، lr.predict_proba (X_test) [:، 1]، pos_label = 1) lw = 2 plt.plot (fpr، tpr، lw = lw، label = "منحنى ROC") plt.plot (،) plt.xlim () plt.ylim () plt.xlabel ("معدل موجب كاذب ") plt.ylabel (" معدل إيجابي حقيقي ") plt.title (" منحنى ROC ") plt.savefig (" ROC.png ") plt.show ()

معيار AUC-ROC مقاوم للفئات غير المتوازنة (المفسد: للأسف ، ليس كل شيء بهذه البساطة) ويمكن تفسيره على أنه احتمال أن يتم تصنيف كائن إيجابي تم اختياره عشوائيًا بواسطة المصنف (سيكون لديه احتمال أعلى ليكون إيجابيًا ) من كائن سلبي تم اختياره عشوائيًا.

ضع في اعتبارك المشكلة التالية: نحتاج إلى تحديد 100 وثيقة ذات صلة من مليون مستند. لدينا خوارزميتان تعلمناه آليًا:

الخوارزمية 1يُرجع 100 مستند ، 90 منها ذات صلة. هكذا،

الخوارزمية 2إرجاع 2000 مستند ، 90 منها ذات صلة. هكذا،

على الأرجح ، سنختار الخوارزمية الأولى ، التي تنتج عددًا قليلاً جدًا من الإيجابيات الكاذبة مقارنةً بمنافستها. لكن الاختلاف في المعدل الإيجابي الكاذب بين هاتين الخوارزميتين لأقصى حدصغير - 0.0019. هذا نتيجة لحقيقة أن AUC-ROC تقيس نسبة الخطأ الإيجابي بالنسبة إلى السلبية الحقيقية ، وفي المهام التي لا تكون فيها الفئة الثانية (الأكبر) مهمة جدًا بالنسبة لنا ، فقد لا تعطي صورة مناسبة تمامًا عند مقارنة الخوارزميات .

لتصحيح الموقف ، دعنا نعود إلى الاكتمال والدقة:

الخوارزمية 1

الخوارزمية 2

يوجد بالفعل فرق كبير بين الخوارزميتين - 0.855 في الدقة!

تُستخدم الدقة والاستدعاء أيضًا لرسم المنحنى ، وعلى غرار AUC-ROC ، ابحث عن المنطقة الموجودة تحته.

يمكن الإشارة هنا إلى أنه في مجموعات البيانات الصغيرة ، يمكن أن تكون المنطقة الواقعة أسفل منحنى العلاقات العامة شديدة التفاؤل ، لأنه يتم حسابها باستخدام طريقة شبه منحرف ، ولكن عادةً ما يكون هناك بيانات كافية في مثل هذه المهام. للحصول على تفاصيل حول العلاقة بين AUC-ROC و AUC-PR ، انظر هنا.

خسارة لوجستية

الوقوف على حدة هو وظيفة الخسارة اللوجستية ، والتي تُعرف على النحو التالي:

هذه هي استجابة الخوارزمية على الكائن -th ، وتسمية الفئة الحقيقية على الكائن -th ، وحجم العينة.

تمت كتابة تفاصيل حول التفسير الرياضي لوظيفة الفقد اللوجستي بالفعل في المنشور حول النماذج الخطية.
لا يظهر هذا المقياس غالبًا في متطلبات العمل ، ولكن غالبًا في مهام kaggle.
حدسيًا ، يمكن للمرء أن يفكر في تقليل الخسارة إلى الحد الأدنى كمشكلة تعظيم الدقة من خلال معاقبة الأخطاء التوقعية. ومع ذلك ، تجدر الإشارة إلى أن logloss يعاقب بشدة ثقة المصنف في الإجابة الخاطئة.

فكر في مثال:

Def logloss_crutch (y_true، y_pred، eps = 1e-15): رجوع - (y_true * np.log (y_pred) + (1 - y_true) * np.log (1 - y_pred)) طباعة ("Logloss مع تصنيف غير مؤكد٪ f "٪ logloss_crutch (1، 0.5)) >> لوغلوس مع تصنيف غير مؤكد طباعة 0.693147 (" لوغلوس مع تصنيف واثق وإجابة صحيحة٪ f "٪ logloss_crutch (1 ، 0.9)) >> لوغلوس مع تصنيف واثق وإجابة صحيحة 0.105361 طباعة (" فقدان لوغرتمي لتصنيف أكيد وإجابة خاطئة٪ f "٪ logloss_crutch (1، 0.1)) >> لوغلوس لتصنيف أكيد وإجابة خاطئة 2.302585

لاحظ كيف زاد اللوغاريتم بشكل كبير مع الإجابة الخاطئة والتصنيف الواثق!
لذلك ، يمكن أن يؤدي الخطأ في كائن واحد إلى تدهور كبير في الخطأ الكلي في العينة. غالبًا ما تكون هذه الكائنات قيمًا متطرفة يجب تذكرها للتصفية أو النظر بشكل منفصل.
كل شيء يقع في مكانه إذا قمت برسم رسم بياني لوغلوس:

يمكن ملاحظة أنه كلما اقتربت إجابة الخوارزمية للحقيقة الأساسية من الصفر = 1 ، زادت قيمة الخطأ وزادت حدة المنحنى.

كي تختصر:

في حالة التصنيف متعدد الفئات ، تحتاج إلى مراقبة مقاييس كل فئة بعناية واتباع منطق الحل مهام، بدلاً من تحسين المقياس
في حالة الفصول غير المتكافئة ، من الضروري تحديد رصيد من الفصول للتدريب ومقياس يعكس بشكل صحيح جودة التصنيف

على العناصر داخل كل قائمة. عادةً ما يتم تحديد الترتيب الجزئي عن طريق تحديد درجة لكل عنصر (على سبيل المثال ، "ذي صلة" أو "غير ذي صلة" ؛ من الممكن استخدام أكثر من تدريجين). الغرض من نموذج الترتيب هو أفضل طريقة(بمعنى ما) لتقريب وتعميم طريقة الترتيب في عينة التدريب على البيانات الجديدة.

لا يزال ترتيب التعلم مجالًا بحثيًا شابًا وسريع التطور نشأ في العقد الأول من القرن الحادي والعشرين مع ظهور الاهتمام بمجال استرجاع المعلومات في تطبيق أساليب التعلم الآلي على مشاكل الترتيب.

موسوعي يوتيوب

1 / 5
أثناء تدريب نموذج الترتيب وأثناء تشغيله ، تتم ترجمة كل زوج طلب مستند إلى متجه رقمي لخصائص التصنيف (تسمى أيضًا عوامل الترتيب أو الإشارات) التي تميز خصائص المستند والاستعلام والعلاقة بينهما. يمكن تقسيم هذه العلامات إلى ثلاث مجموعات:

فيما يلي بعض الأمثلة على ميزات التصنيف المستخدمة في مجموعة بيانات LETOR المعروفة في هذا المجال:
- قيم المقاييس TF و TF-IDF و BM25 ونموذج اللغة لمطابقة طلب مناطق المستندات المختلفة (العنوان وعنوان URL والنص الأساسي ونص الارتباط) ؛
- أطوال ومجاميع جيش الدفاع الإسرائيلي لمناطق الوثائق ؛
- تم الحصول على تصنيفات المستندات من خلال مجموعة متنوعة من خوارزميات ترتيب الروابط مثل PageRank و HITS.
تصنيف مقاييس الجودة

هناك العديد من المقاييس التي تقيم وتقارن أداء خوارزميات الترتيب على عينة بمراجعات الأقران. غالبًا ما يتم تعديل معلمات نموذج الترتيب بطريقة تزيد من قيمة أحد هذه المقاييس.
أمثلة على المقاييس:

تصنيف الخوارزميات

في مقالته "تعلم الترتيب لاسترجاع المعلومات" والخطب في المؤتمرات المواضيعية ، حلل تاي يان ليو من Microsoft Research Asia الطرق المتاحة حاليًا لحل مشكلة تعلم الترتيب واقترح تصنيفها إلى ثلاثة مناهج ، اعتمادًا على المدخلات التمثيل يستخدم البيانات ويعمل بشكل جيد:

نهج Pointwise

ملحوظات
1. تاي يان ليو (2009) تعلم الترتيب لاسترجاع المعلومات، أسس واتجاهات في استرجاع المعلومات: المجلد. 3: لا 3 ، ص. 225-331، ISBN 978-1-60198-244-5، DOI 10.1561 / 1500000016. تتوفر شرائح من خطاب T. Lew في مؤتمر WWW 2009.
حسب تدفق عملاء مشغل الاتصالات.

قم بتنزيل المكتبات الضرورية وإلقاء نظرة على البيانات
استيراد الباندا كـ pd import matplotlib.pyplot as plt from matplotlib.pylab import rc، plot import seaborn as sns from sklearn. preprocessing from sklearn.metrics import resolution_recall_curve، rating_report from sklearn.model_selection import train_test_split dfcs = pd.read ../data/telecom_churn.csv ")

دي اف.هيد (5)
معالجة البيانات
# عيّن الأعمدة الثنائية # ورمز الوهمي للحالة (للتبسيط ، من الأفضل عدم القيام بذلك للنماذج الخشبية) d = ("نعم": 1 ، "لا": 0) df ["الخطة الدولية"] = df ["الخطة الدولية"]. الخريطة (د) df ["خطة البريد الصوتي"] = df ["خطة البريد الصوتي"]. الخريطة (د) df ["Churn"] = df ["Churn"]. astype (" int64 ") le = LabelEncoder () df [" State "] = le.fit_transform (df [" State "]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df [" State "]. values.reshape (- 1 ، 1)) tmp = pd.DataFrame (encoded_state ، الأعمدة = ["state" + str (i) لـ i في النطاق (encoded_state.shape)]) df = pd.concat (، المحور = 1)
الدقة والدقة والاستدعاء
قبل الانتقال إلى المقاييس نفسها ، يجب تقديم مفهوم مهم لوصف هذه المقاييس من حيث أخطاء التصنيف - الارتباك مصفوفة(مصفوفة الخطأ).
لنفترض أن لدينا فئتين وخوارزمية تتنبأ بما إذا كان كل كائن ينتمي إلى إحدى الفئات ، فإن مصفوفة خطأ التصنيف ستبدو كما يلي:

إيجابي حقيقي (TP) إيجابية كاذبة (FP)
سلبي كاذب (FN) سلبي حقيقي (TN)

هنا ، هي استجابة الخوارزمية على الكائن ، وهي التسمية الحقيقية للفئة على هذا الكائن.
وبالتالي ، هناك نوعان من أخطاء التصنيف: False Negative (FN) و False Positive (FP).

تدريب الخوارزمية وبناء مصفوفة الخطأ
X = df.drop ("Churn" ، المحور = 1) y = df ["Churn"] # قسّم العينة إلى قطار واختبار ، سيتم تقييم جميع المقاييس على مجموعة بيانات الاختبار X_train ، X_test ، y_train ، y_test = train_test_split ( X، y، stratify = y، test_size = 0.33، random_state = 42) # تدريب الانحدار اللوجستي الأصلي lr = LogisticRegression (random_state = 42) lr.fit (X_train، y_train) # استخدم الوظيفة لبناء مصفوفة الخطأ من وثائق sklearn def plot_confusion_matrix (سم ، فئات ، تسوية = خطأ ، العنوان = "(! LANG: مصفوفة الارتباك", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="الارتباك مصفوفة") plt.savefig("conf_matrix.png") plt.show()!}

دقة
المقياس البديهي والواضح وغير المستخدم تقريبًا هو الدقة - النسبة المئوية للإجابات الصحيحة للخوارزمية:

هذا المقياس عديم الفائدة في مشاكل الطبقات غير المتكافئة ، وهذا من السهل إظهاره بمثال.

لنفترض أننا نريد تقييم أداء عامل تصفية البريد الإلكتروني العشوائي. لدينا 100 رسالة بريد إلكتروني غير مرغوب فيها ، 90 منها تم تحديدها بشكل صحيح (سلبي حقيقي = 90 ، خطأ إيجابي = 10) ، و 10 رسائل بريد إلكتروني غير مرغوب فيها ، 5 منها تم تحديدها بشكل صحيح بواسطة المصنف (إيجابي حقيقي = 5 ، سلبي كاذب = 5).
ثم الدقة:

ومع ذلك ، إذا توقعنا أن جميع رسائل البريد الإلكتروني ليست بريدًا عشوائيًا ، فإننا نحصل على دقة أعلى:

في الوقت نفسه ، لا يتمتع نموذجنا بأي قوة تنبؤية على الإطلاق ، حيث أردنا في البداية تحديد رسائل البريد الإلكتروني العشوائية. سيساعدنا الانتقال من مقياس مشترك لجميع الفئات إلى المؤشرات الفردية لجودة الفصل في التغلب على هذا.
الدقة والاستدعاء والقياس F.
لتقييم جودة الخوارزمية في كل فئة من الفئات ، نقدم بشكل منفصل دقة المقاييس (الدقة) والتذكر (الاكتمال).

يمكن تفسير الدقة على أنها نسبة الكائنات التي يطلق عليها المصنف إيجابية وفي نفس الوقت تكون إيجابية حقًا ، ويوضح الاسترجاع نسبة الكائنات من فئة إيجابية من جميع الكائنات من فئة إيجابية وجدت الخوارزمية.

إن إدخال الدقة هو الذي لا يسمح لنا بكتابة جميع الكائنات في فئة واحدة ، حيث أننا في هذه الحالة نحصل على زيادة في المستوى الإيجابي الكاذب. يوضح Recall قدرة الخوارزمية على اكتشاف فئة معينة على الإطلاق ، بينما توضح الدقة القدرة على تمييز هذه الفئة عن الفئات الأخرى.

كما أشرنا سابقًا ، هناك نوعان من أخطاء التصنيف: إيجابية كاذبة وسلبية كاذبة. في الإحصاء ، يُسمى النوع الأول خطأ من النوع الأول ، ويسمى النوع الثاني خطأ من النوع الثاني. في مهمتنا المتمثلة في تحديد التدفق الخارج للمشتركين ، سيكون الخطأ من النوع الأول هو خطأ المشترك المخلص لمشترك مغادر ، لأن فرضيتنا الصفرية هي أن لا أحد من المشتركين يغادر ، ونحن نرفض هذه الفرضية. وفقًا لذلك ، سيكون الخطأ من النوع الثاني هو "مرور" المشترك الصادر والقبول الخاطئ للفرضية الصفرية.

لا تعتمد الدقة والاسترجاع ، على عكس الدقة ، على نسبة الفئات ، وبالتالي فهي قابلة للتطبيق في ظروف العينات غير المتوازنة.
غالبًا في الممارسة الحقيقية ، تتمثل المهمة في إيجاد التوازن الأمثل (للعميل) بين هذين المقياسين. المثال الكلاسيكي هو مشكلة تحديد التدفق الخارجي للعملاء.
من الواضح أننا لا نستطيع أن نجد الجميعالعملاء المخضضين و فقطهُم. ولكن ، بعد تحديد الإستراتيجية والمورد للاحتفاظ بالعملاء ، يمكننا تحديد الحدود اللازمة للدقة والاستدعاء. على سبيل المثال ، يمكننا التركيز على الاحتفاظ بالعملاء ذوي الهامش المرتفع فقط أو أولئك الذين من المرجح أن يغادروا ، نظرًا لأن موارد مركز الاتصال محدودة.

عادةً ، عند تحسين المعلمات الفائقة لخوارزمية ما (على سبيل المثال ، في حالة التكرار عبر شبكة GridSearchCV) يستخدم مقياسًا واحدًا ، نتوقع أن نرى التحسين في عينة الاختبار.
هناك عدة طرق مختلفة للجمع بين الدقة والاستدعاء في مقياس الجودة الإجمالي. قياس F (بشكل عام) - متوسط الدقة التوافقي والتذكر:

في هذه الحالة ، يحدد وزن الدقة في المقياس ، وفي نفس الوقت المتوسط التوافقي (مع عامل 2 ، بحيث في حالة الدقة = 1 والتذكر = 1 يكون)
يصل مقياس F إلى الحد الأقصى عند الاسترجاع والدقة تساوي واحدًا ويقترب من الصفر إذا كانت إحدى الوسيطات قريبة من الصفر.
لدى sklearn دالة _metrics.classification سهلة الاستخدام تقرير، والتي تُرجع الاستدعاء والدقة وقياس F لكل فئة من الفئات ، بالإضافة إلى عدد مثيلات كل فئة.

report = rating_report (y_test، lr.predict (X_test)، target_names = ["Non-churned"، "Churned"]) طباعة (تقرير)
فصل دقة يتذكر النتيجة f1 يدعم
غير مخضض 0.88 0.97 0.93 941
ممخض 0.60 0.25 0.35 159
متوسط / إجمالي 0.84 0.87 0.84 1100

وتجدر الإشارة هنا إلى أنه في حالة المشكلات المتعلقة بالفئات غير المتوازنة التي تسود في الممارسة الحقيقية ، غالبًا ما يكون من الضروري اللجوء إلى تقنيات تعديل مجموعة البيانات الاصطناعية لمعادلة نسبة الفئة. هناك الكثير منها ولن نتطرق إليها ، يمكنك إلقاء نظرة على بعض الأساليب واختيار الطريقة التي تناسب مهمتك.
AUC-ROC و AUC-PR
عند تحويل الاستجابة الحقيقية للخوارزمية (عادةً احتمال الانتماء إلى فئة ، انظر SVM بشكل منفصل) إلى تسمية ثنائية ، يجب أن نختار بعض العتبة التي يصبح عندها 0 1. الحد الأدنى 0.5 يبدو طبيعيًا وقريبًا ، لكنه كذلك لا يتبين دائمًا أنه الأفضل ، على سبيل المثال ، في حالة عدم توازن الفصل السابق ذكره.

إحدى الطرق لتقييم النموذج ككل ، دون التقيد بحد معين ، هي AUC-ROC (أو ROC AUC) - المنطقة ( أريا يو nder ج urve) تحت منحنى الخطأ ( صسيفير اتجول جمنحنى مميز). هذا المنحنى عبارة عن خط من (0.0) إلى (1.1) في إحداثيات المعدل الإيجابي الحقيقي (TPR) والمعدل الإيجابي الكاذب (FPR):

نحن نعلم بالفعل TPR ، هذا هو الاكتمال ، ويظهر FPR نسبة كائنات الفئة السلبية التي تنبأت بها الخوارزمية بشكل غير صحيح. في الحالة المثالية ، عندما لا يرتكب المصنف أي أخطاء (FPR = 0 ، TPR = 1) ، سنحصل على مساحة تحت المنحنى تساوي واحدًا ؛ خلاف ذلك ، عندما يقوم المصنف بإخراج احتمالات الفئة بشكل عشوائي ، فإن AUC-ROC سوف تميل إلى 0.5 لأن المصنف سيخرج نفس المقدار من TP و FP.
تتوافق كل نقطة على الرسم البياني مع اختيار بعض العتبة. تُظهر المنطقة الواقعة أسفل المنحنى في هذه الحالة جودة الخوارزمية (الأكثر هو الأفضل) ، بالإضافة إلى أن انحدار المنحنى نفسه مهم - نريد تعظيم TPR مع تقليل FPR ، مما يعني أن منحنىنا يجب أن يميل بشكل مثالي إلى النقطة (0،1).

كود رسم منحنى ROC
sns.set (font_scale = 1.5) sns.set_color_codes ("muted") plt.figure (figsize = (10، 8)) fpr، tpr، thresholds = roc_curve (y_test، lr.predict_proba (X_test) [:، 1]، pos_label = 1) lw = 2 plt.plot (fpr، tpr، lw = lw، label = "منحنى ROC") plt.plot (،) plt.xlim () plt.ylim () plt.xlabel ("معدل موجب كاذب ") plt.ylabel (" معدل إيجابي حقيقي ") plt.title (" منحنى ROC ") plt.savefig (" ROC.png ") plt.show ()

معيار AUC-ROC مقاوم للفئات غير المتوازنة (المفسد: للأسف ، ليس كل شيء بهذه البساطة) ويمكن تفسيره على أنه احتمال أن يتم تصنيف كائن إيجابي تم اختياره عشوائيًا بواسطة المصنف (سيكون لديه احتمال أعلى ليكون إيجابيًا ) من كائن سلبي تم اختياره عشوائيًا.

ضع في اعتبارك المشكلة التالية: نحتاج إلى تحديد 100 وثيقة ذات صلة من مليون مستند. لدينا خوارزميتان تعلمناه آليًا:
- الخوارزمية 1يُرجع 100 مستند ، 90 منها ذات صلة. هكذا،
- الخوارزمية 2إرجاع 2000 مستند ، 90 منها ذات صلة. هكذا،
على الأرجح ، سنختار الخوارزمية الأولى ، التي تنتج عددًا قليلاً جدًا من الإيجابيات الكاذبة مقارنةً بمنافستها. لكن الاختلاف في المعدل الإيجابي الكاذب بين هاتين الخوارزميتين لأقصى حدصغير - 0.0019. هذا نتيجة لحقيقة أن AUC-ROC تقيس نسبة الخطأ الإيجابي بالنسبة إلى السلبية الحقيقية ، وفي المهام التي لا تكون فيها الفئة الثانية (الأكبر) مهمة جدًا بالنسبة لنا ، فقد لا تعطي صورة مناسبة تمامًا عند مقارنة الخوارزميات .

لتصحيح الموقف ، دعنا نعود إلى الاكتمال والدقة:
- الخوارزمية 1
- الخوارزمية 2
يوجد بالفعل فرق كبير بين الخوارزميتين - 0.855 في الدقة!

تُستخدم الدقة والاستدعاء أيضًا لرسم المنحنى ، وعلى غرار AUC-ROC ، ابحث عن المنطقة الموجودة تحته.

يمكن الإشارة هنا إلى أنه في مجموعات البيانات الصغيرة ، يمكن أن تكون المنطقة الواقعة أسفل منحنى العلاقات العامة شديدة التفاؤل ، لأنه يتم حسابها باستخدام طريقة شبه منحرف ، ولكن عادةً ما يكون هناك بيانات كافية في مثل هذه المهام. للحصول على تفاصيل حول العلاقة بين AUC-ROC و AUC-PR ، انظر هنا.
خسارة لوجستية
الوقوف على حدة هو وظيفة الخسارة اللوجستية ، والتي تُعرف على النحو التالي:

أين هي استجابة الخوارزمية على الكائن من الدرجة الأولى ، وهي تسمية الفئة الحقيقية على الكائن من الدرجة الأولى ، وهي حجم العينة.

تمت كتابة تفاصيل حول التفسير الرياضي لوظيفة الفقد اللوجستي بالفعل في المنشور حول النماذج الخطية.
لا يظهر هذا المقياس غالبًا في متطلبات العمل ، ولكن غالبًا في مهام kaggle.
حدسيًا ، يمكن للمرء أن يفكر في تقليل الخسارة إلى الحد الأدنى كمشكلة تعظيم الدقة من خلال معاقبة الأخطاء التوقعية. ومع ذلك ، تجدر الإشارة إلى أن logloss يعاقب بشدة ثقة المصنف في الإجابة الخاطئة.

فكر في مثال:

def logloss_crutch (y_true، y_pred، eps = 1e-15): إرجاع - (y_true * np.log (y_pred) + (1 - y_true) * np.log (1 - y_pred)) طباعة ("لوغان مع تصنيف غير مؤكد٪ f "٪ logloss_crutch (1، 0.5)) >> لوغلوس مع تصنيف غير مؤكد طباعة 0.693147 (" لوغلوس مع تصنيف واثق وإجابة صحيحة٪ f "٪ logloss_crutch (1 ، 0.9)) >> لوغلوس مع تصنيف واثق وإجابة صحيحة 0.105361 طباعة (" فقدان لوغرتمي لتصنيف أكيد وإجابة خاطئة٪ f "٪ logloss_crutch (1، 0.1)) >> لوغلوس لتصنيف أكيد وإجابة خاطئة 2.302585
لاحظ كيف زاد اللوغاريتم بشكل كبير مع الإجابة الخاطئة والتصنيف الواثق!
لذلك ، يمكن أن يؤدي الخطأ في كائن واحد إلى تدهور كبير في الخطأ الكلي في العينة. غالبًا ما تكون هذه الكائنات قيمًا متطرفة يجب تذكرها للتصفية أو النظر بشكل منفصل.
كل شيء يقع في مكانه إذا قمت برسم رسم بياني لوغلوس:

يمكن ملاحظة أنه كلما اقتربت إجابة الخوارزمية للحقيقة الأساسية من الصفر = 1 ، زادت قيمة الخطأ وزادت حدة المنحنى.
كي تختصر:
- في حالة التصنيف متعدد الفئات ، تحتاج إلى مراقبة مقاييس كل فئة بعناية واتباع منطق الحل مهام، بدلاً من تحسين المقياس
- في حالة الفصول غير المتكافئة ، من الضروري تحديد رصيد من الفصول للتدريب ومقياس يعكس بشكل صحيح جودة التصنيف
يقدم هذا الفصل طرقًا شائعة لتقييم جودة نموذج التصنيف ، والتي تُستخدم أيضًا في أعمال أخرى حول هذا الموضوع. تم تقديم وصفهم وإثبات المقاييس المستخدمة في هذا التقييم.

مقاييس تقييم الجودة

دقة كاملة (دقة)

هذا المقياس هو واحد من أبسط المقاييس العالمية وفي نفس الوقت لتقييم جودة خوارزميات التصنيف. يتم حساب قيمة هذا المعامل كنسبة الكائنات المصنفة بشكل صحيح من إجمالي عدد الكائنات في العينة. هذا المقياس شائع بسبب بساطته وقدرته على التوسع إلى أي عدد من الفئات. يتمثل العيب الرئيسي لهذا المقياس في أنه يمنح نفس الوزن لجميع المستندات ، وهو ما قد لا يكون صحيحًا في حالة وجود انحياز قوي للوثائق في عينة التدريب تجاه فصل واحد أو أكثر. قد يكون لهذا المقياس قيمة عالية ، لكن المصنف ضمن نفس الفئة قد يُظهر جودة عمل منخفضة للغاية. في الوقت نفسه ، لا يشير المقياس إلى هذا بأي شكل من الأشكال.

الدقة والاستدعاء والقياس F.

أصبحت المقاييس مثل الدقة (الدقة) والاستدعاء (الاسترجاع) لأول مرة تستخدم على نطاق واسع في تقييم جودة عمل الأنظمة التي تحل مشكلة استرجاع المعلومات. دقة النظام ضمن فئة واحدة هي نسبة العناصر التي تنتمي بالفعل إلى فئة معينة بالنسبة لجميع الكائنات التي يعينها النظام لهذه الفئة. يتم التعبير عن الاكتمال على أنه نسبة الأشياء التي وجدها المصنف المنتمي إلى الفئة بالنسبة لجميع كائنات هذه الفئة. الجدول 4 هو جدول طوارئ من فئة منفصلة ، حيث TP (إيجابي حقيقي) هو حل إيجابي حقيقي ، TN (سلبي حقيقي) هو حل سلبي حقيقي ، FP (إيجابي كاذب) هو حل إيجابي كاذب و FN (سلبي كاذب) قرار سلبي كاذب.

الجدول 1 - جدول طوارئ فئة الكائن

لذلك يتم حساب الدقة والاستدعاء على النحو التالي:

يجمع مقياس F بين المعلومات حول دقة واكتمال الخوارزمية التي يتم تقييمها. يتم حسابه على أنه المتوسط التوافقي للدقة ومؤشرات الاسترجاع:

نظرًا لحقيقة أن مقياس F يتم حسابه بشكل منفصل لكل فئة ، فمن الملائم استخدامه للبحث عن أخطاء خوارزمية محددة وتحليلها ، ولتقييم تصنيف بعدة فئات. في الوقت نفسه ، في حالة وجود عدد كبير من الفئات ، هناك حاجة إلى خاصية من شأنها أن تجمع الاكتمال والدقة على جميع الفئات وتميز السلوك العام للنظام. في هذا العمل ، يتم استخدام القيم المجمعة التالية لهذا الغرض: الدقة الكلية ، والتي يتم حسابها على أنها المتوسط الحسابي للدقة لجميع الفئات ، واستدعاء الماكرو ، والذي يتم حسابه على أنه المتوسط الحسابي للاسترجاع لجميع الفئات ، و الماكرو F- مقياس (ماكرو F- درجة) ، وهو الوسط التوافقي بينهما.

عبر المصادقة

يعد التحقق المتبادل من أكثر الطرق شيوعًا لإجراء اختبار كامل وتقييم أداء مختلف خوارزميات التعلم الآلي. بالنسبة لعينة مستقلة ، تسمح لك هذه الطريقة بالحصول على تقدير غير متحيز لاحتمال الخطأ ، على عكس متوسط الخطأ في عينة التدريب ، والذي يمكن أن يكون تقديرًا متحيزًا لاحتمال الخطأ بسبب فرط تجهيز الخوارزمية. ميزة أخرى لهذا الإجراء هي القدرة على الحصول على تقدير لاحتمال خطأ الخوارزمية ، في حالة عدم وجود عينة تحكم مصممة خصيصًا للاختبار.

لنفترض أن هذه مجموعة من أوصاف الميزات للكائنات ، والتي يتم تحديد عينة محدودة من السوابق فيها ، حيث توجد مجموعة محدودة من الفئات. يتم إعطاء مخطط يربط عينة عشوائية من السوابق بخوارزمية. ثم يتم تقدير أداء الخوارزمية لعينة عشوائية من السوابق باستخدام وظيفة الجودة:

أين هي بعض الوظائف غير السالبة التي ترجع قيمة الخطأ للخوارزمية وفقًا لتسمية الفئة الصحيحة.

مشاكل العلم والتعليم الحديثة. المقاييس في مشاكل التصنيف إطار عمل تعلم الآلة

رابط ببليوغرافي

المقاييس في مشاكل التصنيف