قائمة طعام
مجاني
التسجيل
الصفحة الرئيسية  /  التثبيت والتكوين/ برامج التعرف على الصور على الشبكات العصبية. تطوير نظام التعرف على الصور بالاعتماد على جهاز الشبكات العصبية الاصطناعية

برامج التعرف على الصور على الشبكات العصبية. تطوير نظام التعرف على الصور بالاعتماد على جهاز الشبكات العصبية الاصطناعية

1

الشبكة العصبية هي نموذج رياضي ويتم تنفيذه في شكل برنامج أو تنفيذ برامج الأجهزة ، والذي يعتمد على نمذجة نشاط الشبكات العصبية البيولوجية ، وهي شبكات من الخلايا العصبية في كائن حي بيولوجي. نشأ الاهتمام العلمي بهذا الهيكل لأن دراسة نموذجه تسمح للشخص بالحصول على معلومات حول نظام معين. أي أن مثل هذا النموذج يمكن أن يكون له تطبيق عملي في عدد من فروع العلوم والتكنولوجيا الحديثة. يناقش المقال القضايا المتعلقة باستخدام الشبكات العصبية لبناء أنظمة تعريف الصور المستخدمة على نطاق واسع في أنظمة الأمان. يتم التحقيق في القضايا المتعلقة بموضوع خوارزمية التعرف على الصور وتطبيقها بالتفصيل. يقدم بإيجاز معلومات عن منهجية تدريب الشبكات العصبية.

الشبكات العصبية

التعلم مع الشبكات العصبية

التعرف على الصور

نموذج الإدراك المحلي

انظمة حماية

1. Yann LeCun، J.S. دينكر ، سولا ، R.E. Howard and L.D. Jackel: Optimal Brain Damage، in Touretzky، David (Eds)، Advances in Neural Information Processing Systems 2 (NIPS * 89). - 2000. - 100 ص.

2. Zhigalov K.Yu. طريقة التوجيه الواقعي لبيانات مدى الليزر للاستخدام الإضافي في GIS // Izvestiya vysshikh uchebnykh zavod. الجيوديسيا والتصوير الجوي. - 2007. - رقم 6. - ص 285-287.

3. رانزاتو مارك أوريليو وكريستوفر بولتني وسوميت شوبرا ويان ليكون: التعلم الفعال للتمثيلات المتفرقة باستخدام نموذج قائم على الطاقة ، في J. Platt et al. (محرران) ، التطورات في أنظمة معالجة المعلومات العصبية (NIPS 2006). - 2010. - 400 ص.

4. Zhigalov K.Yu. تجهيز المعدات لاستخدامها في الأنظمة التحكم الآليبناء الطرق // العلوم الطبيعية والتقنية. - م ، 2014. - رقم 1 (69). - س 285 - 287.

5. Y. LeCun و Y. Bengio: الشبكات التلافيفية للصور والكلام والسلاسل الزمنية ، في Arbib ، M.A (محرران) // دليل نظرية الدماغ والشبكات العصبية. - 2005. - 150 ص.

6. Y. LeCun، L.Butou، G. Orr and K. Muller: Efficient BackProp، in Orr، G. and K. Muller (Eds) // Neural Networks: Tricks of the trade. - 2008. - 200 ص.

اليوم ، التقدم التكنولوجي والبحثي يغطي جميع الآفاق الجديدة ، ويتقدم بسرعة. واحد منهم هو نمذجة العالم الطبيعي المحيط باستخدام خوارزميات رياضية. في هذا الجانب ، هناك تافهة ، على سبيل المثال ، نمذجة اهتزازات البحر ، ومهام معقدة للغاية وغير تافهة ومتعددة المكونات ، على سبيل المثال ، نمذجة عمل الدماغ البشري. في عملية دراسة هذه المشكلة ، تم تحديد مفهوم منفصل - الشبكة العصبية. الشبكة العصبية هي نموذج رياضي ويتم تنفيذه في شكل برنامج أو تنفيذ برامج الأجهزة ، والذي يعتمد على نمذجة نشاط الشبكات العصبية البيولوجية ، وهي شبكات من الخلايا العصبية في كائن حي بيولوجي. نشأ الاهتمام العلمي بهذا الهيكل لأن دراسة نموذجه تسمح للشخص بالحصول على معلومات حول نظام معين. أي أن مثل هذا النموذج يمكن أن يكون له تطبيق عملي في عدد من فروع العلوم والتكنولوجيا الحديثة.

تاريخ موجز لتطور الشبكات العصبية

وتجدر الإشارة إلى أن مفهوم "الشبكة العصبية" نشأ في البداية في عمل علماء الرياضيات واللغويات العصبية وعلماء النفس العصبي الأمريكيين دبليو ماكولوتش و دبليو بيتس (1943) ، حيث ذكرها المؤلفون لأول مرة ، وحددوها وقاموا بالمحاولة الأولى بناء نموذج الشبكة العصبية... في عام 1949 ، اقترح د. هب أول خوارزمية تعليمية. ثم كان هناك عدد من الدراسات في مجال التعلم العصبي ، وظهرت النماذج الأولية للعمل حوالي 1990-1991. القرن الماضي. ومع ذلك ، فإن القوة الحاسوبية للمعدات في ذلك الوقت لم تكن كافية للتشغيل السريع الكافي للشبكات العصبية. بحلول عام 2010 ، زادت قوة بطاقات الفيديو GPU بشكل كبير وظهر مفهوم البرمجة مباشرة على بطاقات الفيديو ، مما زاد بشكل كبير (3-4 مرات) من أداء أجهزة الكمبيوتر. في عام 2012 ، فازت الشبكات العصبية ببطولة ImageNet للمرة الأولى ، والتي ميزت تطورها السريع وظهور مصطلح التعلم العميق.

الخامس العالم الحديثتتمتع الشبكات العصبية بتغطية هائلة ، ويعتبر العلماء أن البحث الذي تم إجراؤه في مجال دراسة الخصائص والحالات السلوكية للشبكات العصبية واعد للغاية. قائمة المجالات التي وجدت فيها الشبكات العصبية تطبيقات ضخمة. وهذا يشمل التعرف على الأنماط وتصنيفها ، والتنبؤ ، وحل مشاكل التقريب ، وبعض جوانب ضغط البيانات ، وتحليل البيانات ، وبالطبع ، التطبيق في أنظمة الأمان ذات الطبيعة المختلفة.

تجري دراسة الشبكات العصبية بنشاط في المجتمعات العلمية اليوم. دول مختلفة... في مثل هذا الاعتبار ، يتم تقديمه كحالة خاصة لعدد من طرق التعرف على الأنماط والتحليل التمييزي وطرق التجميع.

وتجدر الإشارة أيضًا إلى أنه خلال العام الماضي ، تم تخصيص التمويل للشركات الناشئة في مجال أنظمة التعرف على الصور لأكثر من 5 سنوات سابقة ، مما يشير إلى ارتفاع الطلب إلى حد ما على هذا النوع من التطوير في السوق النهائية.

تطبيق الشبكات العصبية للتعرف على الصور

ضع في اعتبارك المهام القياسية التي تحلها الشبكات العصبية عند تطبيقها على الصور:

● تحديد الأشياء ؛

● التعرف على أجزاء من الأشياء (على سبيل المثال ، الوجوه والذراعين والساقين وما إلى ذلك) ؛

● التعريف الدلالي لحدود الكائنات (يسمح لك بترك حدود الكائنات في الصورة فقط) ؛

● التجزئة الدلالية (يسمح لك بتقسيم الصورة إلى كائنات منفصلة مختلفة) ؛

● اختيار القواعد السطحية (يسمح لك بتحويل الصور ثنائية الأبعاد إلى صور ثلاثية الأبعاد) ؛

● تسليط الضوء على الأشياء محل الاهتمام (يسمح لك بتحديد ما سوف ينتبه الشخص في صورة معينة).

وتجدر الإشارة إلى أن مشكلة التعرف على الصور لها طابع ملفت للنظر ، وحل هذه المشكلة عملية معقدة وغير عادية. عند إجراء التعرف ، يمكن أن يكون الكائن وجهًا بشريًا ، ورقمًا مكتوبًا بخط اليد ، بالإضافة إلى العديد من الكائنات الأخرى التي تتميز بعدد من الميزات الفريدة ، مما يعقد بشكل كبير عملية تحديد الهوية.

في هذه الدراسة ، سيتم النظر في خوارزمية لإنشاء وتعلم التعرف على الرموز المكتوبة بخط اليد للشبكة العصبية. ستتم قراءة الصورة بواسطة أحد مداخل الشبكة العصبية ، وسيتم استخدام أحد المخرجات لإخراج النتيجة.

في هذه المرحلة ، من الضروري الإسهاب بإيجاز في تصنيف الشبكات العصبية. يوجد اليوم ثلاثة أنواع رئيسية:

● الشبكات العصبية التلافيفية (CNN) ؛

● الشبكات المتكررة (التعلم العميق) ؛

● التعلم المعزز.

أحد الأمثلة الأكثر شيوعًا لبناء شبكة عصبية هو طوبولوجيا الشبكة العصبية الكلاسيكية. يمكن تمثيل هذه الشبكة العصبية كرسم بياني متصل بالكامل ، وتتمثل ميزتها المميزة في الانتشار الأمامي للمعلومات والانتشار الخلفي لإشارات الخطأ. هذه التكنولوجياليس له خصائص متكررة. يمكن تصوير شبكة عصبية توضيحية بطوبولوجيا كلاسيكية في الشكل. 1.

أرز. 1. شبكة عصبية بأبسط طوبولوجيا

أرز. 2. شبكة عصبية ذات 4 طبقات من الخلايا العصبية المخفية

من الواضح أن أحد العيوب المهمة لطوبولوجيا الشبكة هذه هو التكرار. بسبب التكرار عند توفير البيانات في شكل ، على سبيل المثال ، مصفوفة ثنائية الأبعاد للمدخلات ، يمكن الحصول على متجه أحادي البعد. لذلك ، بالنسبة لصورة حرف لاتيني مكتوب بخط اليد موصوف باستخدام مصفوفة 34 × 34 ، يلزم 1156 إدخالاً. هذا يشير إلى أن القدرة الحاسوبيةإنفاقها على تنفيذ الأجهزة والبرامج لحل هذه الخوارزمية سيكون كبيرًا جدًا.

تم حل المشكلة من قبل العالم الأمريكي إيان لو كون ، الذي قام بتحليل أعمال الفائزين بجائزة نوبل في الطب ت. كجزء من دراستهم ، كان الهدف من الدراسة هو القشرة البصرية لدماغ القط. أظهر تحليل النتائج أن القشرة تحتوي على عدد من الخلايا البسيطة وكذلك عدد من الخلايا المعقدة. استجابت الخلايا البسيطة لصورة الخطوط المستقيمة المستلمة من المستقبلات البصرية ، والخلايا المعقدة للحركة الانتقالية في اتجاه واحد. نتيجة لذلك ، تم تطوير مبدأ بناء الشبكات العصبية ، والتي تسمى التلافيف. كانت فكرة هذا المبدأ هي تنفيذ عمل الشبكة العصبية ، وتناوب الطبقات التلافيفية ، والتي يشار إليها عادةً باسم C - Layers ، وطبقات فرعية S - Layers ، وطبقات متصلة بالكامل F - طبقات عند الإخراج من الشبكة العصبية المستخدمة.

في قلب بناء شبكة من هذا النوع ، توجد ثلاثة نماذج - نموذج الإدراك المحلي ، ونموذج الأوزان المشتركة ونموذج الاختزال الجزئي.

إن جوهر نموذج الإدراك المحلي هو أنه لا يتم تغذية مصفوفة الصورة بأكملها لكل خلية عصبية مدخلة ، بل جزء منها. يتم تغذية بقية الأجزاء إلى الخلايا العصبية المدخلة الأخرى. في هذه الحالة ، يمكنك ملاحظة آلية الموازاة ، باستخدام هذه الطريقة ، يمكنك حفظ طوبولوجيا الصورة من طبقة إلى أخرى ، ومعالجتها متعددة الأبعاد ، أي يمكن استخدام عدد من الشبكات العصبية أثناء المعالجة.

يقترح نموذج الأوزان المشتركة أنه يمكن استخدام مجموعة صغيرة من الأوزان لعلاقات متعددة. وتسمى هذه المجموعات أيضًا "النوى". بالنسبة للنتيجة النهائية لمعالجة الصور ، يمكننا القول أن الأوزان المشتركة لها تأثير إيجابي على خصائص الشبكة العصبية ، ودراسة سلوكها تزيد من القدرة على إيجاد الثوابت في الصور وتصفية مكونات الضوضاء دون معالجتها.

بناءً على ما سبق ، يمكننا أن نستنتج أنه عند تطبيق إجراء طي الصورة على أساس النواة ، ستظهر صورة ناتجة ، ستكون عناصرها هي السمة الرئيسية لدرجة التطابق مع المرشح ، أي سيتم إنشاء خريطة المعالم. هذه الخوارزميةيظهر في الشكل. 3.

أرز. 3. خوارزمية لتوليد خريطة المعالم

نموذج الاختزال الفرعي هو أن صورة الإدخال يتم تقليلها عن طريق تقليل البعد المكاني لمكافئها الرياضي - مصفوفة ذات أبعاد n. يتم التعبير عن الحاجة إلى أخذ عينات فرعية في الثبات لمقياس الصورة الأصلية. عند تطبيق تقنية الطبقات البديلة ، يصبح من الممكن إنشاء خرائط معالم جديدة من الخرائط الموجودة ، أي تطبيق عملي هذه الطريقةتكمن في حقيقة أنه سيتم اكتساب القدرة على تحويل مصفوفة متعددة الأبعاد إلى متجه ، ثم إلى قيمة عددية بالكامل.

تنفيذ تدريب الشبكة العصبية

تنقسم الشبكات الحالية إلى 3 فئات من البنى من حيث التعلم:

● التعلم تحت الإشراف (الإدراك) ؛

● التعلم غير الخاضع للإشراف (شبكات الرنين التكيفية) ؛

● التعلم المدمج (شبكات من الوظائف ذات الأساس الشعاعي).

تعد جودة التعرف على الصور من أهم معايير تقييم أداء الشبكة العصبية في حالة التعرف على الصور. تجدر الإشارة إلى أنه من أجل التقييم الكمي لجودة التعرف على الصور باستخدام عمل الشبكة العصبية ، غالبًا ما يتم استخدام خوارزمية خطأ الجذر التربيعي:

(1)

في هذا الاعتماد ، Ep هو خطأ التعرف p لزوج من الخلايا العصبية ،

Dp هي نتيجة الإخراج المتوقعة للشبكة العصبية (عادةً يجب أن تسعى الشبكة جاهدة للحصول على اعتراف بنسبة 100٪ ، لكن هذا لا يحدث في الممارسة) ، والبناء O (Ip ، W) 2 هو مربع إخراج الشبكة ، والذي يعتمد على على المدخلات p-th والمجموعة المحددة معاملات الوزن W. يتضمن هذا البناء كلاً من نواة الالتفاف ومعاملات الوزن لجميع الطبقات. يتكون حساب الخطأ من حساب قيمة المتوسط ​​الحسابي لجميع أزواج الخلايا العصبية.

نتيجة للتحليل ، تم اشتقاق انتظام بأن القيمة الاسمية للوزن ، عندما تكون قيمة الخطأ في حدها الأدنى ، يمكن حسابها بناءً على التبعية (2):

(2)

من هذا الاعتماد ، يمكننا القول أن مشكلة حساب الوزن الأمثل هي الفرق الحسابي لمشتق دالة الخطأ من الدرجة الأولى فيما يتعلق بالوزن ، مقسومًا على مشتق دالة الخطأ من الدرجة الثانية.

تجعل التبعيات المعطاة من الممكن حساب الخطأ الموجود في طبقة الإخراج بشكل تافه. يمكن تنفيذ حساب الخطأ في الطبقات المخفية من الخلايا العصبية باستخدام طريقة الانتشار العكسي للخطأ. الفكرة الرئيسية لهذه الطريقة هي نشر المعلومات ، في شكل إرسال إشارة إلى خطأ ، من الخلايا العصبية الناتجة إلى الخلايا العصبية المدخلة ، أي في الاتجاه المعاكس لانتشار الإشارات عبر الشبكة العصبية.

وتجدر الإشارة أيضًا إلى أن تدريب الشبكة يتم على قواعد بيانات معدة خصيصًا للصور مصنفة في عدد كبير من الفصول ، ويستغرق وقتًا طويلاً.
أكبر قاعدة بيانات اليوم هي ImageNet (www.image_net.org). انها لديها حرية الوصولللمؤسسات الأكاديمية.

استنتاج

نتيجة لما سبق ، تجدر الإشارة إلى أن الشبكات والخوارزميات العصبية ، المطبقة على مبدأ عملها ، يمكن استخدامها في أنظمة التعرف على بطاقة بصمات الأصابع لهيئات الشؤون الداخلية. في كثير من الأحيان هو كذلك مكون البرنامجإن مجمع البرامج والأجهزة الذي يهدف إلى التعرف على مثل هذه الصورة المعقدة الفريدة مثل الرسم ، وهو عبارة عن بيانات تعريف ، لا يحل بشكل كامل المهام الموكلة إليه. سيكون البرنامج الذي يعتمد على الخوارزميات القائمة على شبكة عصبية أكثر كفاءة.

للتلخيص ، يمكننا تلخيص ما يلي:

● يمكن للشبكات العصبية أن تجد التطبيق ، سواء في مسألة التعرف على الصور والنصوص ؛

● تتيح هذه النظرية إمكانية الحديث عن إنشاء فئة واعدة جديدة من النماذج ، أي النماذج القائمة على النمذجة الذكية ؛

● الشبكات العصبية قادرة على التعلم ، مما يشير إلى إمكانية تحسين العملية من العمل. هذه القدرة هي خيار مهم للغاية ل التنفيذ العمليالخوارزمية.

● يمكن أن يكون لتقييم خوارزمية التعرف على الأنماط باستخدام دراسة الشبكة العصبية قيمة كمية ، على التوالي ، هناك آليات لضبط المعلمات على القيمة المطلوبة عن طريق حساب معاملات الوزن المطلوبة.

اليوم ، يبدو أن المزيد من البحث عن الشبكات العصبية هو مجال بحث واعد سيتم تطبيقه بنجاح في المزيد من فروع العلوم والتكنولوجيا ، وكذلك في الأنشطة البشرية. التركيز على التنمية الأنظمة الحديثةيتحول التعرف الآن إلى مجال التجزئة الدلالية للصور ثلاثية الأبعاد في الجيوديسيا والطب والنماذج الأولية وغيرها من مجالات النشاط البشري - هذه خوارزميات معقدة للغاية وهذا يرجع إلى:

● عدم وجود عدد كاف من قواعد البيانات للصور المرجعية ؛

● عدم وجود عدد كاف من الخبراء بالمجان للتدريب الأولي للنظام ؛

● لا يتم تخزين الصور بالبكسل ، الأمر الذي يتطلب موارد إضافية من كل من الكمبيوتر والمطورين.

وتجدر الإشارة أيضًا إلى أنه يوجد اليوم عدد كبير من البنى القياسية لبناء الشبكات العصبية ، مما يسهل إلى حد كبير مهمة بناء شبكة عصبية من الصفر ويقللها إلى اختيار مناسب. مهمة محددةهيكل الشبكة.

يوجد حاليًا عدد كبير جدًا من الشركات المبتكرة في السوق التي تعمل في التعرف على الصور باستخدام تقنيات تعلم الشبكة العصبية للنظام. من المعروف على وجه اليقين أنهم حققوا دقة التعرف على الصور في المنطقة بنسبة 95٪ باستخدام قاعدة بيانات تضم 10000 صورة. ومع ذلك ، فإن جميع الإنجازات تتعلق بالصور الثابتة ، مع وجود تسلسلات فيديو بتنسيق حالياكل شيء أكثر تعقيدًا.

مرجع ببليوغرافي

Markova S.V. ، Zhigalov K.Yu. تطبيق الشبكة العصبية لإنشاء نظام التعرف على الصور // بحث أساسي. - 2017. - رقم 8-1. - س 60-64 ؛
URL: http://fundamental-research.ru/ru/article/view؟id=41621 (تاريخ الوصول: 03.24.24. نلفت انتباهكم إلى المجلات التي تصدرها "أكاديمية العلوم الطبيعية"

لقد قيل الكثير بالفعل كأحد أدوات حل المهام التي يصعب إضفاء الطابع الرسمي عليها. وهنا ، في حبري ، تم توضيح كيفية استخدام هذه الشبكات للتعرف على الصور ، فيما يتعلق بمهمة كسر كلمة التحقق. ومع ذلك ، هناك أنواع قليلة جدًا من الشبكات العصبية. وهل الشبكة العصبية الكلاسيكية المتصلة بالكامل (PNN) جيدة جدًا لمشكلة التعرف على الصور (التصنيف)؟

1. المهمة

لذلك ، سنحل مشكلة التعرف على الصور. يمكن أن يكون هذا التعرف على الوجوه والأشياء والرموز وما إلى ذلك. أقترح أن أبدأ بالنظر في مشكلة التعرف على الأرقام المكتوبة بخط اليد. هذه المهمة جيدة لعدد من الأسباب:

    للتعرف على شخصية مكتوبة بخط اليد ، من الصعب إلى حد ما تكوين خوارزمية رسمية (غير ذكية) ، وهذا يصبح واضحًا ، عليك فقط النظر إلى نفس الرقم الذي كتبه أشخاص مختلفون

    المهمة وثيقة الصلة بالموضوع وتتعلق بـ OCR (التعرف البصري على الأحرف)

    تتوفر قاعدة بيانات مجانية للرموز المكتوبة بخط اليد للتنزيل والتجربة

    هناك عدد غير قليل من المقالات حول هذا الموضوع ومن السهل والمريح مقارنة الأساليب المختلفة.

يُقترح استخدام قاعدة بيانات MNIST كبيانات إدخال. تحتوي قاعدة البيانات هذه على 60.000 زوج تدريب (صورة - ملصق) و 10000 زوج اختبار (صور بدون ملصقات). يتم تطبيع الصور في الحجم وتوسيطها. حجم كل رقم لا يزيد عن 20x20 ، لكنها منقوشة في مربع 28x28. يظهر مثال على أول 12 رقمًا من مجموعة التدريب لقاعدة بيانات MNIST في الشكل:

وعليه فإن المهمة تصاغ على النحو التالي: إنشاء وتدريب شبكة عصبية للتعرف على الأحرف المكتوبة بخط اليد ، مع أخذ صورهم كمدخلات وتفعيل أحد المخرجات العشرة... من خلال التنشيط نعني القيمة 1 عند الإخراج. في هذه الحالة ، يجب أن تكون قيم المخرجات الأخرى (بشكل مثالي) مساوية لـ -1. سأشرح لاحقًا سبب عدم استخدام المقياس.

2. الشبكات العصبية "العادية".

يفهم معظم الناس من خلال الشبكات العصبية "العادية" أو "الكلاسيكية" المتصلة تمامًا بالشبكات العصبية الأمامية المغذية مع انتشار عكسي للخطأ:

كما يوحي الاسم ، في مثل هذه الشبكة ، يتم توصيل كل خلية عصبية بكل منها ، وتنتقل الإشارة فقط في الاتجاه من طبقة الإدخال إلى الإخراج ، ولا توجد تكرارات. سوف نسمي مثل هذه الشبكة في شكل مختصر PNS.

أولاً ، عليك أن تقرر كيفية إرسال البيانات إلى الإدخال. الحل الأبسط وغير المتنازع عليه تقريبًا لـ PNS هو التعبير عن مصفوفة الصورة ثنائية الأبعاد كمتجه أحادي البعد. أولئك. بالنسبة لصورة شخصية مكتوبة بخط اليد بحجم 28 × 28 ، سيكون لدينا 784 مدخلًا ، وهو عدد كبير جدًا بالفعل. ثم ما يحدث هو أن العديد من العلماء المحافظين لا يحبون علماء الشبكات العصبية وطرقهم - اختيار الهندسة المعمارية. وهم لا يحبون ذلك ، لأن اختيار العمارة هو الشامانية الخالصة. حتى الآن ، لا توجد طرق تسمح بتحديد بنية الشبكة العصبية وتكوينها بشكل لا لبس فيه بناءً على وصف المشكلة. في الدفاع ، سأقول إن مثل هذه الطريقة لن يتم إنشاؤها على الإطلاق للمهام التي يصعب إضفاء الطابع الرسمي عليها. بالإضافة إلى ذلك ، هناك العديد من تقنيات الحد من الشبكات المختلفة (مثل OBD) بالإضافة إلى الأساليب التجريبية المختلفة والقواعد العامة. تنص إحدى هذه القواعد على أن عدد الخلايا العصبية في الطبقة المخفية يجب أن يكون على الأقل أكبر من عدد المدخلات بترتيب من حيث الحجم. إذا أخذنا في الاعتبار أن التحول من صورة إلى مؤشر فئة بحد ذاته معقد إلى حد ما وغير خطي بشكل أساسي ، فإن طبقة واحدة ليست كافية هنا. بناءً على ما سبق ، نقدر تقريبًا أن عدد الخلايا العصبية في الطبقات المخفية سيكون بترتيب 15000 (10000 في الطبقة الثانية و 5000 في الطبقة الثالثة). علاوة على ذلك ، للتكوين مع طبقتين مخفيتين ، الرقم روابط قابلة للتخصيص وقابلة للتدريبسيكون هناك 10 ملايين بين المدخلات والطبقة المخفية الأولى + 50 مليون بين الأولى والثانية + 50 ألف بين الثانية وعطلة نهاية الأسبوع ، إذا افترضنا أن لدينا 10 مخرجات ، كل منها يشير إلى رقم من 0 إلى 9. المجموع تقريبا 60.000.000 اتصال... لم يكن عبثًا أنني ذكرت أنها قابلة للتخصيص ، مما يعني أنه أثناء التدريب ، ستحتاج إلى حساب تدرج الخطأ لكل منها.

ماذا يمكنك أن تفعل هنا ، جمال الذكاء الاصطناعي يتطلب التضحية. ولكن إذا فكرت في الأمر ، يتبادر إلى الذهن أنه عندما نقوم بتحويل صورة إلى سلسلة خطية من البايتات ، فإننا نفقد شيئًا ما بشكل لا رجعة فيه. علاوة على ذلك ، مع كل طبقة ، تزداد هذه الخسارة سوءًا. هذا صحيح - نفقد طوبولوجيا الصورة ، أي العلاقة بين أجزائه الفردية. بالإضافة إلى ذلك ، تتضمن مهمة التعرف على قدرة الشبكة العصبية على مقاومة التحولات والتناوب والتغييرات الصغيرة في مقياس الصورة ، أي يجب أن يستخرج من البيانات بعض الثوابت التي لا تعتمد على خط يد شخص معين. إذن ما الذي يجب أن تكون عليه الشبكة العصبية حتى لا تكون معقدة للغاية من الناحية الحسابية ، وفي الوقت نفسه ، أكثر ثباتًا في تشوهات الصور المختلفة؟

3. الشبكات العصبية التلافيفية

تم العثور على حل لهذه المشكلة من قبل العالم الفرنسي الأمريكي إيان ليكون ، مستوحى من عمل الحائزين على جائزة نوبل في مجال الطب تورستن نيلز ويزل وديفيد إتش هوبل. قام هؤلاء العلماء بفحص القشرة البصرية لدماغ القط ووجدوا أن هناك ما يسمى بالخلايا البسيطة التي تتفاعل بقوة بشكل خاص مع الخطوط المستقيمة بزوايا مختلفة والخلايا المعقدة التي تستجيب لحركة الخطوط في اتجاه واحد. اقترح Yang LeCun استخدام ما يسمى بالشبكات العصبية التلافيفية.

6. النتائج

يشتمل برنامج matlabcentral على ملف لشبكة عصبية مدربة بالفعل ، بالإضافة إلى واجهة مستخدم رسومية لإظهار نتائج العمل. فيما يلي أمثلة على الاعتراف:



يحتوي الارتباط على جدول مقارنة لطرق التعرف على أساس MNIST. المركز الأول للشبكات العصبية التلافيفية نتيجة أخطاء التعرف بنسبة 0.39٪. معظم هذه الصور التي تم التعرف عليها بشكل خاطئ لا يتم التعرف عليها بشكل صحيح من قبل الجميع. بالإضافة إلى ذلك ، تم استخدام التشوهات المرنة لصور الإدخال في العمل ، بالإضافة إلى التدريب الأولي غير الخاضع للإشراف. لكن عن هذه الأساليب كشيء آخر في مقال آخر.

الروابط.

  1. Yann LeCun، J. S. Denker، S. Solla، R. E.Howard and L.D Jackel: Optimal Brain Damage، in Touretzky، David (Eds)، Advances in Neural Information Processing Systems 2 (NIPS * 89)، Morgan Kaufman، Denver، CO، 1990
  2. Y. LeCun و Y. Bengio: شبكات تلافيفية للصور والكلام والسلسلة الزمنية ، في Arbib ، M.A (محرران) ، دليل نظرية الدماغ والشبكات العصبية ، مطبعة معهد ماساتشوستس للتكنولوجيا ، 1995
  3. Y. LeCun، L.Butou، G. Orr and K. Muller: Efficient BackProp، in Orr، G. and Muller K. (Eds)، Neural Networks: Tricks of the trade، Springer، 1998
  4. رانزاتو مارك "أوريليو وكريستوفر بولتني وسوميت تشوبرا ويان ليكون: التعلم الفعال للتمثيلات المتفرقة باستخدام نموذج قائم على الطاقة ، في J. Platt et al. (محرران) ، التطورات في أنظمة معالجة المعلومات العصبية (NIPS 2006) ، مطبعة معهد ماساتشوستس للتكنولوجيا ، 2006

أصدقائي ، نواصل القصة حول الشبكات العصبية ، والتي بدأناها في المرة الأخيرة ، وحولها.

ما هي الشبكة العصبية

في أبسط الحالات ، الشبكة العصبية هي نموذج رياضي يتكون من عدة طبقات من العناصر التي تؤدي عمليات حسابية متوازية. في البداية ، تم إنشاء مثل هذه البنية عن طريق القياس مع أصغر عناصر الحوسبة في الدماغ البشري - الخلايا العصبية. أصغر العناصر الحسابية للشبكة العصبية الاصطناعية تسمى أيضًا الخلايا العصبية. تتكون الشبكات العصبية عادةً من ثلاث طبقات أو أكثر: طبقة إدخال ، وطبقة مخفية (أو طبقات) وطبقة إخراج (الشكل 1) ، وفي بعض الحالات لا تؤخذ طبقات الإدخال والإخراج في الاعتبار ، ثم عدد الطبقات يتم حساب الطبقات في الشبكة بعدد الطبقات المخفية. يُطلق على هذا النوع من الشبكات العصبية اسم المدرك.

أرز. 1. أبسط مدرك

من السمات المهمة للشبكة العصبية قدرتها على التعلم بالقدوة ، وهذا ما يسمى التعلم تحت الإشراف. يتم تدريب الشبكة العصبية على عدد كبير من الأمثلة التي تتكون من أزواج المدخلات والمخرجات (المدخلات والمخرجات تتوافق مع بعضها البعض). في مشاكل التعرف على الكائن ، سيكون هذا الزوج هو صورة الإدخال والتسمية المقابلة - اسم الكائن. تدريب الشبكة العصبية هو عملية تكرارية تقلل من انحراف ناتج الشبكة عن "إجابة المعلم" المعطاة - تسمية مطابقة لصورة معينة (الشكل 2). تتكون هذه العملية من خطوات ، تسمى فترات التعلم (عادة ما تكون بالآلاف) ، يتم في كل منها تعديل "أوزان" الشبكة العصبية - معلمات الطبقات المخفية للشبكة. عند الانتهاء من عملية التدريب ، عادة ما تكون جودة الشبكة العصبية جيدة بما يكفي لأداء المهمة التي تم تدريبها من أجلها ، على الرغم من أنه غالبًا ما يكون من المستحيل العثور على المجموعة المثلى من المعلمات التي تتعرف بشكل مثالي على جميع الصور.


أرز. 2. تدريب الشبكة العصبية

ما هي الشبكات العصبية العميقة

الشبكات العصبية العميقة أو العميقة عبارة عن شبكات عصبية تتكون من عدة طبقات مخفية (الشكل 3). هذا الرقم هو صورة لشبكة عصبية عميقة ، مما يعطي القارئ فكرة عامة عن شكل الشبكة العصبية. ومع ذلك ، فإن البنية الحقيقية للشبكات العصبية العميقة أكثر تعقيدًا.


أرز. 3. شبكة عصبية بها العديد من الطبقات المخفية

بالطبع ، كان مبدعو الشبكات العصبية التلافيفية مستوحين في البداية من الهياكل البيولوجية للنظام البصري. تُعرف النماذج الحسابية الأولى القائمة على مفهوم التنظيم الهرمي للتدفق البصري للرئيسيات باسم فوكوشيما نيوكوجنيترون (الشكل 4). يشبه الفهم الحديث لفيزيولوجيا النظام البصري نوع معالجة المعلومات في الشبكات التلافيفية ، على الأقل من أجل التعرف السريع على الأشياء.


أرز. 4. رسم تخطيطي يوضح الروابط بين الطبقات في نموذج Neocognitron.

في وقت لاحق ، تم تنفيذ هذا المفهوم من قبل الباحث الكندي Ian LeCoon في شبكته العصبية التلافيفية ، التي أنشأها للتعرف على الأحرف المكتوبة بخط اليد. تتكون هذه الشبكة العصبية من نوعين من الطبقات: طبقات تلافيفية وطبقات اختزال فرعية (أو طبقات تجميع). تحتوي كل طبقة فيها على بنية طبوغرافية ، أي أن كل خلية عصبية مرتبطة بنقطة ثابتة من الصورة الأصلية ، وكذلك مع مجال تقبلي (منطقة من الصورة المدخلة تتم معالجتها بواسطة هذه الخلية العصبية). في كل موقع في كل طبقة ، يوجد عدد من الخلايا العصبية المختلفة ، لكل منها مجموعتها الخاصة من أوزان الإدخال المرتبطة بالخلايا العصبية في الشريحة المستطيلة من الطبقة السابقة. ترتبط شظايا مستطيلة الإدخال المختلفة بنفس مجموعة الأوزان بخلايا عصبية من مواقع مختلفة.

يوضح الشكل 5 العمارة العامة لشبكة عصبية عميقة للتعرف على الأنماط. ويتم تمثيل صورة الإدخال كمجموعة من وحدات البكسل أو مناطق صغيرة من الصورة (على سبيل المثال ، 5 × 5 بكسل)


أرز. 5. مخطط الشبكة العصبية التلافيفية

كقاعدة عامة ، يتم تصوير الشبكات العصبية العميقة في شكل مبسط: كمراحل معالجة ، والتي تسمى أحيانًا المرشحات. تختلف كل مرحلة عن الأخرى في عدد من الخصائص ، مثل حجم المجال الاستقبالي ، ونوع الميزات التي تتعلم الشبكة التعرف عليها في طبقة معينة ، ونوع الحساب الذي يتم إجراؤه في كل مرحلة.

مجالات تطبيق الشبكات العصبية العميقة ، بما في ذلك الشبكات التلافيفية ، لا تقتصر على التعرف على الوجوه. تستخدم على نطاق واسع في التعرف على إشارات الصوت والكلام ، ومعالجة القراءات من أنواع مختلفةأجهزة الاستشعار أو لتجزئة الصور المعقدة متعددة الطبقات (مثل خرائط الأقمار الصناعية) أو الصور الطبية (الأشعة السينية ، صور الرنين المغناطيسي الوظيفي - انظر).

الشبكات العصبية في القياسات الحيوية والتعرف على الوجوه

لتحقيق دقة التعرف العالية ، يتم تدريب الشبكة العصبية مسبقًا على مجموعة كبيرة من الصور ، على سبيل المثال ، كما هو الحال في قاعدة بيانات MegaFace. هذه هي طريقة التدريب الرئيسية للتعرف على الوجوه.


أرز. 6. تحتوي قاعدة بيانات MegaFace على مليون صورة لأكثر من 690 ألف شخص

بعد تدريب الشبكة على التعرف على الوجوه ، يمكن وصف عملية التعرف على الوجوه على النحو التالي (الشكل 7). أولاً ، تتم معالجة الصورة باستخدام كاشف الوجه: خوارزمية تكتشف جزءًا مستطيلاً من الصورة ذي وجه. يتم تطبيع هذا الجزء لتسهيل معالجة الشبكة العصبية: سيتم تحقيق أفضل نتيجة إذا كانت جميع الصور المدخلة نفس الحجم، اللونية ، إلخ. يتم تغذية الصورة المقيسة إلى مدخلات الشبكة العصبية للمعالجة بواسطة الخوارزمية. عادة ما تكون هذه الخوارزمية تطويرًا فريدًا للشركة لتحسين جودة التعرف ، ولكن هناك أيضًا حلول "قياسية" لهذه المشكلة. تبني الشبكة العصبية متجهًا فريدًا للميزات ، والذي يتم نقله بعد ذلك إلى قاعدة البيانات. نظام البحثيقارنها بجميع نواقل الميزات المخزنة في قاعدة البيانات ، ويعطي نتيجة البحث في شكل عدد معين من الأسماء أو ملفات تعريف المستخدمين بسمات وجه متشابهة ، يتم تخصيص رقم معين لكل منها. يمثل هذا الرقم درجة تشابه ناقل الميزات الخاص بنا مع المتجه الموجود في قاعدة البيانات.


أرز. 7. عملية التعرف على الوجوه

تحديد جودة الخوارزمية

صحة

عندما نختار الخوارزمية التي نطبقها على كائن أو مشكلة التعرف على الوجوه ، يجب أن يكون لدينا وسيلة لمقارنة فعالية الخوارزميات المختلفة. سنصف في هذا الجزء الأدوات التي يتم بها ذلك.

يتم تقييم جودة نظام التعرف على الوجوه باستخدام مجموعة من المقاييس التي تتوافق مع السيناريوهات النموذجية لاستخدام النظام للمصادقة باستخدام القياسات الحيوية.

كقاعدة عامة ، يمكن قياس أداء أي شبكة عصبية من حيث الدقة: بعد تحديد المعلمات وإكمال عملية التدريب ، يتم اختبار الشبكة على مجموعة اختبار ، والتي لدينا استجابة من المعلم ، ولكنها منفصلة عن مجموعة التدريب. عادةً ما تكون هذه المعلمة مقياسًا كميًا: رقم (غالبًا كنسبة مئوية) يشير إلى مدى قدرة النظام على التعرف على الكائنات الجديدة. مقياس شائع آخر هو الخطأ (يمكن التعبير عنه كنسبة مئوية أو في معادل رقمي). ومع ذلك ، هناك تدابير أكثر دقة للقياسات الحيوية.

في القياسات الحيوية بشكل عام والقياسات الحيوية للتعرف على الوجوه بشكل خاص ، هناك نوعان من التطبيقات: التحقق وتحديد الهوية. التحقق هو عملية تأكيد هوية معينة من خلال مقارنة صورة فرد (متجه لسمات الوجه أو متجه آخر للسمات ، على سبيل المثال ، شبكية العين أو بصمات الأصابع) مع واحد أو أكثر من القوالب المحفوظة مسبقًا. تحديد الهوية هو عملية تحديد هوية الفرد. يتم جمع عينات القياسات الحيوية ومقارنتها مع جميع النماذج الموجودة في قاعدة البيانات. يوجد تعريف في مجموعة مغلقة من الميزات إذا تم افتراض وجود شخص في قاعدة البيانات. وبالتالي ، فإن الاعتراف يجمع بين أحد المصطلحين أو كليهما - التحقق وتحديد الهوية.

في كثير من الأحيان ، بالإضافة إلى النتيجة المباشرة للمقارنة ، من المطلوب تقييم مستوى "ثقة" النظام في قراره. تسمى هذه القيمة "درجة التشابه" (أو درجة التشابه). تشير درجة التشابه الأعلى إلى أن عينتي القياسات الحيوية المقارنة أكثر تشابهًا.

هناك عدد من الطرق لتقييم جودة النظام (لمهمة التحقق وتحديد الهوية). سنتحدث عنهم في المرة القادمة. وتبقى معنا ولا تتردد في ترك التعليقات وطرح الأسئلة.

ملحوظات

  1. فوكوشيما (1980) "Neocognitron: نموذج شبكة عصبية ذاتية التنظيم لآلية التعرف على الأنماط غير متأثرة بالتغير في الموضع" علم التحكم الآلي البيولوجي.
  2. LeCun ، B. Boser ، J.S. دنكر ، د. هندرسون ، R.E. هوارد و دبليو هوبارد و L.D. Jackel (1989) "Backpropagation المطبق على التعرف على الرمز البريدي المكتوب بخط اليد" ، الحساب العصبي ، المجلد. 1 ، ص 541-551.
  3. Jiaxuan You ، Xiaocheng Li ، Melvin Low ، David Lobell ، Stefano Ermon Deep Gaussian Process للتنبؤ بإنتاجية المحاصيل بناءً على بيانات الاستشعار عن بعد.
  4. إيان جودفيلو ، يوشوا بنجيو ، آرون كورفيل (2016) التعلم العميق. الصحافة MIT.
  5. بوه ، سي إتش. تشان ، ج. كيتلر ، جوليان فيريز (UAM) ، وخافيير جالبالي (UAM) (2012) وصف المقاييس لتقييم الأداء البيومتري.

AlexNet هي شبكة عصبية تلافيفية كان لها تأثير كبير على تطوير التعلم الآلي ، وخاصة خوارزميات رؤية الكمبيوتر. فازت الشبكة بمسابقة التعرف على الصور ImageNet LSVRC-2012 بهامش كبير في عام 2012 (مع وجود أخطاء بنسبة 15.3٪ مقابل 26.2٪ في المركز الثاني).

تشبه بنية AlexNet تلك الموجودة في Yann LeCum's LeNet. ومع ذلك ، يحتوي AlexNet على المزيد من المرشحات لكل طبقة وطبقات تلافيفية متداخلة. تتضمن الشبكة التلافيف ، والتجميع الأقصى ، والتسرب ، وزيادة البيانات ، ووظائف تنشيط ReLU ، ونسب التدرج العشوائي.

ميزات AlexNet

  1. كدالة تنشيط ، يتم استخدام Relu بدلاً من قوس ظل لإضافة اللاخطية إلى النموذج. نتيجة لهذا ، وبنفس دقة الطريقة ، تصبح السرعة أسرع 6 مرات.
  2. استخدام التسرب بدلاً من التنظيم يحل مشكلة فرط التجهيز. ومع ذلك ، يتضاعف وقت التدريب بمعدل تسرب 0.5.
  3. يتم تنفيذ الصلات المتداخلة لتقليل حجم الشبكة. نتيجة لذلك ، تم تقليل مستوى أخطاء المستويين الأول والخامس إلى 0.4٪ و 0.3٪ على التوالي.

مجموعة بيانات ImageNet

ImageNet عبارة عن مجموعة من 15 مليون صورة ذات علامات دقة عاليةمقسمة إلى 22000 فئة. تم جمع الصور عبر الإنترنت ووضع علامات عليها يدويًا باستخدام التعهيد الجماعي لشركة Amazon's Mechanical Turk. منذ عام 2010 ، عُقد تحدي التعرف البصري على نطاق واسع على ImageNet السنوي (ILSVRC) كجزء من تحدي Pascal Visual Object Challenge. يستخدم التحدي جزءًا من مجموعة بيانات ImageNet مع 1000 صورة في كل فئة من الفئات البالغ عددها 1000. تم الحصول على إجمالي 1.2 مليون صورة للتدريب ، و 50000 صورة للتحقق من الصحة ، و 150.000 صورة للاختبار. تتكون ImageNet من صور ذات دقة مختلفة. لذلك ، بالنسبة للمنافسة ، يتم تحجيمها إلى دقة ثابتة 256 × 256. إذا كانت الصورة الأصلية مستطيلة ، يتم اقتصاصها إلى مربع في وسط الصورة.

هندسة معمارية

الصورة 1

تظهر بنية الشبكة في الشكل 1. تحتوي AlexNet على ثماني طبقات مرجحة. الخمسة الأولى منهم تلافيفية ، والثلاثة الآخرون متصلون بالكامل. يتم تمرير الإخراج من خلال دالة فقد softmax التي تنشئ توزيعًا لـ 1000 ملصق فئة. تزيد الشبكة من الانحدار اللوجستي متعدد الخطوط ، وهو ما يعادل تعظيم المتوسط ​​في جميع حالات التدريب للوغاريتم لاحتمال وضع العلامات الصحيحة على توزيع التوقعات. ترتبط نوى الطبقات التلافيفية الثانية والرابعة والخامسة فقط بخرائط النواة الموجودة في الطبقة السابقة الموجودة على نفس وحدة معالجة الرسومات. ترتبط حبات الطبقة التلافيفية الثالثة بجميع خرائط حبات الطبقة الثانية. ترتبط الخلايا العصبية في الطبقات المتصلة بالكامل بجميع الخلايا العصبية في الطبقة السابقة.

وهكذا ، يحتوي AlexNet على 5 طبقات تلافيفية و 3 طبقات متصلة بالكامل. يتم تطبيق Relu بعد كل طبقة تلافيفية ومتصلة بالكامل. يتم تطبيق التسرب قبل الطبقات الأولى والثانية المتصلة بالكامل. تحتوي الشبكة على 62.3 مليون معلمة وتتطلب 1.1 مليار عملية حسابية على تمرير إلى الأمام. تقوم الطبقات التلافيفية ، التي تمثل 6٪ من جميع المعلمات ، بإجراء 95٪ من الحسابات.

تعليم

يمر AlexNet عبر 90 عصرًا. يستغرق التدريب 6 أيام في نفس الوقت لمدة يومين وحدات معالجة الرسومات نفيديا غيفورسي GTX 580 وهذا هو سبب انقسام الشبكة إلى قسمين. يستخدم النسب المتدرج العشوائي بمعدل تعلم 0.01 ، ونبضة 0.9 ، وانحلال الأوزان 0.0005. معدل التعلم قابل للقسمة على 10 بعد تشبع الدقة ، وينخفض ​​بمعامل 3 خلال فترة التدريب. مخطط تحديث معامل الترجيح ثيشبه:

أين أنا- رقم التكرار ، الخامسهو متغير الدافع ، و إبسيلون- معدل التعليم. خلال مرحلة التدريب بأكملها ، تم اختيار معدل التعلم بالتساوي لجميع الطبقات وتعديله يدويًا. كان من الإجراءات التجريبية اللاحقة تقسيم معدل التعلم على 10 عندما توقف عدد أخطاء التحقق من الصحة عن التناقص.

أمثلة على الاستخدام والتنفيذ

تظهر النتائج أن الشبكة العصبية التلافيفية الكبيرة والعميقة قادرة على تحقيق نتائج قياسية على مجموعات البيانات المعقدة للغاية باستخدام التعلم الخاضع للإشراف فقط. بعد عام واحد من نشر AlexNet ، بدأ جميع المتسابقين في ImageNet باستخدام الشبكات العصبية التلافيفية لحل مشكلة التصنيف. كان AlexNet أول تطبيق للشبكات العصبية التلافيفية وبشر بعصر جديد من البحث. الآن أصبح من الأسهل تنفيذ AlexNet باستخدام مكتبات التعلم العميق: PyTorch و TensorFlow و Keras.

نتيجة

تحقق الشبكة مستويات الأخطاء التالية من المستويين الأول والخامس: 37.5٪ و 17.0٪ على التوالي. كان أفضل أداء تم تحقيقه في مسابقة ILSVRC-2010 هو 47.1٪ و 28.2٪ باستخدام نهج يقيس متوسط ​​التنبؤات من ستة نماذج تشفير متفرقة تم تدريبها على متجهات ميزات مختلفة. منذ ذلك الحين ، تم تحقيق النتائج: 45.7٪ و 25.7٪ باستخدام نهج متوسط ​​تنبؤات اثنين من المصنفين المدربين على ناقلات فيشر. تظهر نتائج ILSVRC-2010 في الجدول 1.


اليسار: ثماني صور اختبار ILSVRC-2010 وخمس علامات يعتقد النموذج أنها مرجحة. تتم كتابة التسمية الصحيحة أسفل كل صورة ، ويظهر الاحتمال بشريط أحمر إذا كان في الخمسة الأوائل. إلى اليمين: خمس صور اختبار ILSVRC-2010 في العمود الأول. تظهر الأعمدة المتبقية ست صور تدريبية.