بيت / مشاكل/ 8 ما نوع العمل الذي تقوم به روبوتات محركات البحث. البحث عن المعلومات على الويب

8 ما هو العمل الذي تقوم به روبوتات محرك البحث. البحث عن المعلومات على الويب

التعليم العالي متاح - تدريب المعالج بالتدليك.

هناك أكثر من مائة مليون مصدر على الإنترنت ، ولن نعرف أبدًا ملايين الصفحات الضرورية. كيف نجد القطرة التي نحتاجها في هذا المحيط؟ هذا هو المكان الذي يأتي لمساعدتنا. يبحثآلة آه. هذا العنكبوت، وهو فقط يعرف ماذا وفي أي مكان على الويب لديه.

يبحثآلات جديدة إنترنتولكن هذه مواقع مصممة خصيصًا لمساعدتك في العثور على المعلومات التي تحتاجها شبكة عالميةشبكة الانترنت. هناك ثلاث وظائف رئيسية ، نفس الشيء بالنسبة للجميع يبحثآلات جديدة:

- يبحث oviks على الكلمات الرئيسية المحددة "بحث" الإنترنت ؛
- عناوين مفهرسة يبحث ovikami مع الكلمات ؛
- تشكل صفحات الويب المفهرسة القاعدة التي يبحثيوفر Oviki للمستخدمين ملفات يبحثوكلمات رئيسية أو مجموعات منها.

أولاً يبحثتلقى Hoviki ما يصل إلى 2000 طلب يوميًا وقام بفهرسة مئات الآلاف من الصفحات. اليوم ، يصل عدد الطلبات اليومية إلى مئات الملايين من الصفحات وعشرات الملايين.

صمحركات البحث تصل إلى شبكة الانترنت.

أولاً يبحثأوفيكامي إنترنتوكان هناك برامج "غوفر" و "أرشي". قاموا بفهرسة الملفات الموجودة على الاتصال إنترنتالخوادم ، مما يقلل بشكل متكرر من الوقت لـ يبحثالمستندات اللازمة. في أواخر الثمانينيات ، كانت القدرة على العمل إنترنتلم ينزل إلى القدرة على استخدام Archie و gopher و Veronica وما شابه يبحثبرامج جديدة.

اليوم الويبأصبح الجزء الأكثر طلبًا إنترنتوالأغلبية إنترنتالمستخدمين يبحثفقط في شبكة الانترنت (www).

إنسان آلي- العنكبوت

برنامج الروبوت المستخدم في يبحثآلات جديدة ، كما يطلق عليه "العنكبوت" ، العنكبوت(عنكبوت)، ينفذ عملية إنشاء قائمة بالكلمات الموجودة في صفحة موارد الأربعاء. هذه العملية تسمى زحف الويب(زحف). يبحثجديد العنكبوتيبحث في الكثير من الصفحات الأخرى ، ويبني ويصلح قائمة بالكلمات المفيدة ، على سبيل المثال لها بعض المعنى ، الوزن.

رحلة عبر يبحثش على الشبكة العنكبوت (العنكبوت) يبدأ بأكبر خادم وأشهر صفحات الويب. بعد تجاوز هذا الموقع وفهرسة جميع الكلمات الموجودة ، ينتقل إلى الزحف إلى المواقع الأخرى باستخدام الروابط الموجودة. بهذه الطريقة ، الروبوت العنكبوتيلتقط مساحة الويب بأكملها.

يقدم مؤسسو Google ، سيرجي برين ولورنس بيج ، مثالاً على عمل Google العنكبوتاوف. هناك العديد. يبحثيبدأ ثلاثة العنكبوتعامي. واحد العنكبوتيدعم ما يصل إلى 300 صفحة اتصال في نفس الوقت. تحميل الذروة ، أربعة العنكبوتوقادرة على معالجة ما يصل إلى مائة صفحة في الثانية ، مع توليد حركة مرور تبلغ حوالي 600 كيلوبايت / ثانية. على هذه اللحظة، عندما تقرأ هذا ، ربما تبدو الأرقام سخيفة بالنسبة لك.

الكلمات الرئيسية لمحرك البحث الروبوت

عادةً ما يريد مالك مورد الويب أن يتم تضمينه في يبحثنتائج جديدة للمطلوب يبحثكلمات آه. هذه الكلمات تسمى مفتاحس. كليوتشيفتحدد الكلمات جوهر محتوى صفحة الويب. وتساعد العلامات الوصفية في ذلك. ثم يعرضون على روبوت البحث خيارًا مفتاحالكلمات المستخدمة في فهرسة الصفحة. لكننا لا نوصي بإضافة العلامات الوصفية إلى الاستعلامات الشائعة التي لا تتعلق بمحتوى الصفحة نفسها. تحارب روبوتات محركات البحث هذه الظاهرة ، وستكون محظوظًا إذا أغفلت العلامات الوصفية مع مفتاحبمعنى آخر ، لا يتوافق مع محتوى الصفحات.

تعد العلامات الوصفية أداة مفيدة جدًا عندما تكون مفتاحتتكرر الكلمات الأولى منها عدة مرات في نص الصفحة. لكن لا تفرط في ذلك ، فهناك احتمال أن يأخذ الروبوت الصفحة إلى مدخل.

خوارزميات فهرسة محرك البحث

الخوارزميات يبحثيركز Hoviks على فعالية النتيجة النهائية ، لكن لكل شخص منهجيات مختلفة لذلك. ليكوس يبحثكلمات فهرس الروبوتات الجديدة في العنوان (العنوان) والروابط (الروابط) وما يصل إلى مائة كلمة مستخدمة بشكل متكرر على الصفحة وكل كلمة من أول 20 سطرًا من محتوى الصفحة.

يأخذ Googlebot في الاعتبار موقع الكلمة على الصفحة (في عنصر النص الأساسي). كلمات أقسام الخدمة مثل ترجمات العنوان والعلامات الوصفيةوآخرون. تشير إلى أهمية خاصة ، باستثناء المداخلات "أ" و "أ" و ".".

آخر يبحثقد يكون لـ oviki طريقة مختلفة قليلاً في الاقتراب من فهرسة الكلمات المستخدمة يبحثطلبات جديدة من قبل المستخدمين.

مجموعات الروابط المواضيعية هي قوائم تم تجميعها بواسطة مجموعة من المهنيين أو حتى جامعين فرديين. في كثير من الأحيان ، يمكن تغطية موضوع متخصص للغاية من قبل متخصص واحد بشكل أفضل من مجموعة من الموظفين في كتالوج كبير. هناك العديد من المجموعات المواضيعية على الويب بحيث لا معنى لإعطاء عناوين محددة.

اختيار اسم المجال

فهرس - نظام مناسبالبحث ، ومع ذلك ، من أجل الوصول إلى الخادم مايكروسوفتأو IBM ، فمن غير المنطقي الإشارة إلى الدليل. ليس من الصعب تخمين اسم الموقع المقابل: www.microsoft.com أو www.ibm.com أو www.microsoft.ru ، www.ibm.ru - مواقع المكاتب التمثيلية الروسية لهذه الشركات.

وبالمثل ، إذا احتاج المستخدم إلى موقع مخصص لطقس العالم ، فمن المنطقي البحث عنه على خادم www.weather.com. في معظم الحالات ، يكون البحث عن موقع يحتوي على كلمة أساسية في العنوان أكثر فاعلية من البحث عن مستند في النص الذي تُستخدم فيه هذه الكلمة. إذا كانت شركة تجارية غربية (أو مشروع) لها اسم أحادي المقطع وتقوم بتنفيذ خادمها الخاص على الويب ، فمن المحتمل جدًا أن يتناسب اسمها مع تنسيق www.name.com ، وبالنسبة إلى Runet (الجزء الروسي من الويب) - www.name.ru ، حيث الاسم - اسم الشركة أو المشروع. يمكن أن يتنافس تخمين العنوان بنجاح مع طرق البحث الأخرى ، لأنه مع نظام مشابهمحرك البحث ، يمكنك إنشاء اتصال بخادم غير مسجل في أي محرك بحث. ومع ذلك ، إذا لم تتمكن من العثور على الاسم الذي تبحث عنه ، فسيتعين عليك الرجوع إلى محرك البحث.

محركات البحث

قل لي ما الذي تبحث عنه على الإنترنت وسأخبرك من أنت

إذا كان الكمبيوتر نظامًا ذكيًا للغاية يمكنه بسهولة شرح ما تبحث عنه ، فسيعطيك وثيقتان أو ثلاث مستندات - وهي المستندات التي تحتاجها بالضبط. لكن ، للأسف ، ليس هذا هو الحال ، واستجابة لطلب ما ، يتلقى المستخدم عادةً قائمة طويلة من المستندات ، وكثير منها لا علاقة له بما سأل عنه. تسمى هذه المستندات غير ذات صلة (من اللغة الإنجليزية ذات الصلة - المناسبة ، ذات الصلة). وبالتالي ، فإن المستند ذي الصلة هو المستند الذي يحتوي على المعلومات التي تبحث عنها. من الواضح أن النسبة المئوية للمستندات ذات الصلة المستلمة تعتمد على القدرة على إصدار طلب بكفاءة. نسبة المستندات ذات الصلة في قائمة جميع المستندات التي عثر عليها محرك البحث تسمى دقة البحث. تسمى المستندات غير ذات الصلة الضوضاء. إذا كانت جميع المستندات التي تم العثور عليها ذات صلة (بدون ضوضاء) ، فإن دقة البحث تكون 100٪. إذا تم العثور على جميع الوثائق ذات الصلة ، فإن اكتمال البحث يكون 100٪.

وبالتالي ، يتم تحديد جودة البحث من خلال عاملين مترابطين: دقة البحث واكتماله. زيادة اكتمال البحث يقلل من الدقة والعكس صحيح.

كيف يعمل محرك البحث

يمكن مقارنة محركات البحث بمكتب المساعدة ، الذي يتجول وكلائه حول الأعمال التجارية لجمع المعلومات في قاعدة بيانات (الشكل 4.21). عند الاتصال بالخدمة ، يتم إصدار المعلومات من قاعدة البيانات هذه. تصبح البيانات الموجودة في قاعدة البيانات قديمة ، لذلك يقوم الوكلاء بتحديثها بشكل دوري. ترسل بعض المؤسسات نفسها بيانات عن نفسها ، ولا يتعين على الوكلاء القدوم إليها. بمعنى آخر ، لمكتب المساعدة وظيفتان: إنشاء البيانات وتحديثها باستمرار في قاعدة البيانات والبحث عن المعلومات في قاعدة البيانات بناءً على طلب العميل.

أرز. 4.21.

على نفس المنوال، محرك البحثيتكون من جزأين: ما يسمى بالروبوت (أو العنكبوت) ، والذي يتجاوز خوادم الويب ويشكل قاعدة بيانات لمحرك البحث.

يتم تشكيل قاعدة الروبوت بشكل أساسي بنفسه (يجد الروبوت نفسه روابط لموارد جديدة) وبدرجة أقل - بواسطة مالكي الموارد الذين يسجلون مواقعهم في محرك البحث. بالإضافة إلى الروبوت (وكيل الشبكة ، العنكبوت ، الدودة) الذي يشكل قاعدة البيانات ، هناك برنامج يحدد تصنيف الروابط الموجودة.

مبدأ تشغيل محرك البحث هو أنه يستعلم عن دليله الداخلي (قاعدة البيانات) للكلمات الرئيسية التي يحددها المستخدم في حقل الاستعلام وينتج قائمة من الروابط مرتبة حسب الصلة.

وتجدر الإشارة إلى أنه عند معالجة طلب مستخدم معين ، يعمل محرك البحث بدقة مع الموارد الداخلية (ولا يشرع في رحلة عبر الويب ، كما يعتقد المستخدمون عديم الخبرة) ، والموارد الداخلية محدودة بطبيعة الحال. على الرغم من تحديث قاعدة بيانات محرك البحث باستمرار ، محرك البحثلا يمكن فهرسة كافة مستندات الويب: عددها كبير جدًا. لذلك ، هناك دائمًا احتمال أن المورد الذي تبحث عنه غير معروف ببساطة لمحرك بحث معين.

هذه الفكرة موضحة بوضوح في الشكل. 4.22. يحدد Ellipse 1 مجموعة جميع مستندات الويب الموجودة في وقت ما ، والقطع الناقص 2 - جميع المستندات المفهرسة بواسطة محرك البحث هذا ، والقطع الناقص 3 - المستندات المطلوبة. وبالتالي ، باستخدام محرك البحث هذا ، يمكنك فقط العثور على ذلك الجزء من المستندات المطلوبة المفهرسة بواسطته.

أرز. 4.22.

لا تكمن مشكلة عدم اكتمال البحث في الموارد الداخلية المحدودة لمحرك البحث فحسب ، بل تكمن أيضًا في حقيقة أن سرعة الروبوت محدودة ، وأن عدد مستندات الويب الجديدة يتزايد باستمرار. لا يمكن أن تؤدي زيادة الموارد الداخلية لمحرك البحث إلى حل المشكلة تمامًا ، نظرًا لأن سرعة الزحف إلى الموارد بواسطة الروبوت محدودة.

في نفس الوقت ، افترض ذلك محرك البحثيحتوي على نسخة من موارد الإنترنت الأصلية سيكون خاطئًا. معلومات كاملة(المستندات المصدر) لا يتم تخزينها دائمًا ، وفي كثير من الأحيان يتم تخزين جزء منها فقط - ما يسمى بالقائمة المفهرسة ، أو الفهرس ، وهو أكثر إحكاما من نص المستندات ويسمح لك بالرد بسرعة على استفسارات البحث.

لإنشاء فهرس ، يتم تحويل البيانات المصدر بحيث يكون حجم قاعدة البيانات في حده الأدنى ، ويكون البحث سريعًا جدًا ويعطي الحد الأقصى معلومات مفيدة. شرح ماهية القائمة المفهرسة ، يمكن للمرء أن يرسم موازاة مع نظيرتها الورقية - ما يسمى بالتوافق ، أي قاموس يسرد الكلمات التي يستخدمها كاتب معين بالترتيب الأبجدي ، وكذلك الإشارات إليها وتكرار استخدامها في أعماله.

من الواضح أن التوافق (القاموس) أكثر إحكاما من النصوص الأصلية للأعمال وإيجاد الكلمة الصحيحة فيه أسهل بكثير من التقليب في الكتاب على أمل العثور على الكلمة الصحيحة.

بناء الفهرس

يظهر مخطط إنشاء الفهرس في الشكل. 4.23. وكلاء الويب ، أو روبوتات العنكبوت ، "تزحف" عبر الويب ، وتحلل محتوى صفحات الويب وتجمع معلومات حول ما تم العثور عليه في أي صفحة.

أرز. 4.23.

عند العثور على صفحة HTML التالية ، تلتقط معظم محركات البحث الكلمات والصور والروابط والعناصر الأخرى الموجودة بها (في محركات البحث المختلفة بطرق مختلفة). علاوة على ذلك ، عند تتبع الكلمات على الصفحة ، لا يتم تسجيل وجودها فحسب ، بل يتم تسجيل موقعها أيضًا ، أي مكان وجود هذه الكلمات: في العنوان (العنوان) ، والعناوين الفرعية (الترجمات) ، وفي العلامات الوصفية 1 العلامات الوصفية هي علامات خدمة تسمح للمطورين بوضع معلومات الخدمة على صفحات الويب ، بما في ذلك من أجل توجيه محرك البحث.(العلامات الوصفية) أو في أي مكان آخر. في هذه الحالة ، عادةً ما يتم إصلاح الكلمات المهمة ، ويتم تجاهل أدوات الاقتران والتدخلات مثل "أ" ، "لكن" و "أو". تسمح العلامات الوصفية لأصحاب الصفحات بتحديد الكلمات الدالةوالموضوعات التي يتم فهرسة الصفحة عليها. قد يكون هذا مناسبًا عندما يكون للكلمات الرئيسية معانٍ متعددة. يمكن للعلامات الوصفية أن توجه محرك البحث عند الاختيار من عدة معان لكلمة إلى المعنى الوحيد الصحيح. ومع ذلك ، تعمل العلامات الوصفية بشكل موثوق فقط عندما يتم ملؤها من قبل مالكي المواقع الصادقين. يضع أصحاب مواقع الويب عديمي الضمير في العلامات الوصفية الكلمات الأكثر شيوعًا على الويب والتي لا علاقة لها بموضوع الموقع. نتيجة لذلك ، يصل الزوار إلى مواقع غير مرغوب فيها ، وبالتالي يزيد ترتيبهم. هذا هو السبب في أن العديد من محركات البحث الحديثة إما تتجاهل العلامات الوصفية أو تعتبرها إضافية إلى نص الصفحة. يحتفظ كل روبوت بقائمته الخاصة بالموارد التي تمت معاقبتها بسبب الدعاية غير العادلة.

من الواضح ، إذا كنت تبحث عن مواقع باستخدام الكلمة المفتاحية "كلب" ، فإن محرك البحث لا يجب أن يعثر فقط على جميع الصفحات التي تم ذكر كلمة "كلب" فيها ، ولكن تلك التي ترتبط فيها هذه الكلمة بموضوع الموقع. من أجل تحديد مدى صلة كلمة معينة بملف تعريف صفحة ويب معينة ، من الضروري تقييم عدد مرات ظهورها على الصفحة ، سواء كانت هناك روابط لصفحات أخرى لهذه الكلمة أم لا. باختصار ، من الضروري ترتيب الكلمات الموجودة في الصفحة حسب الأهمية. يتم تعيين أوزان للكلمات بناءً على عدد المرات ومكان ظهورها (في عنوان الصفحة ، في بداية الصفحة أو نهايتها ، في رابط ، في علامة وصفية ، وما إلى ذلك). كل محرك بحث له خوارزمية الترجيح الخاصة به - وهذا هو أحد الأسباب التي تجعل محركات البحث تقدم قوائم مختلفة من الموارد لنفس الكلمة الرئيسية. لأن الصفحات يتم تحديثها باستمرار ، يجب أن تكون عملية الفهرسة مستمرة. تقوم Spiderbots باجتياز الروابط وإنشاء ملف يحتوي على فهرس ، والذي يمكن أن يكون كبيرًا جدًا. لتقليل حجمه ، يلجأون إلى تقليل كمية المعلومات وضغط الملف. باستخدام روبوتات متعددة ، يمكن لمحرك البحث معالجة مئات الصفحات في الثانية. اليوم ، تخزن محركات البحث القوية مئات الملايين من الصفحات وتتلقى عشرات الملايين من الاستفسارات يوميًا.

عند إنشاء فهرس ، يتم أيضًا حل مشكلة تقليل عدد التكرارات - وهي مهمة غير تافهة ، نظرًا لأنه لإجراء مقارنة صحيحة ، يجب أولاً تحديد تشفير المستند. المهمة الأكثر صعوبة هي فصل المستندات المتشابهة جدًا (تسمى "مكررة تقريبًا") ، مثل تلك التي يختلف فيها العنوان فقط ويتكرر النص. هناك الكثير من الوثائق المماثلة على الويب - على سبيل المثال ، قام شخص ما بشطب ملخص ونشره على الموقع بتوقيعه. تسمح لك محركات البحث الحديثة بحل مثل هذه المشاكل.

كيف عمل محركات البحث؟ أحد الأشياء الرائعة حول الإنترنت هو وجود مئات الملايين من موارد الويب في انتظارك وجاهزة لتقديمها إلينا. لكن الشيء السيئ هو أن هناك نفس الملايين من الصفحات التي ، حتى لو كنا بحاجة إليها ، لن تظهر أمامنا ، لأن. ببساطة غير معروفة لنا. كيف تعرف ماذا وأين يمكن العثور عليه على الإنترنت؟ عادة ما نطلب المساعدة من أجل هذا. محركات البحث.

محركات البحث على الإنترنت هي مواقع خاصة على الشبكة العالمية مصممة لمساعدة الأشخاص في العثور عليها شبكة الانترنتالمعلومات التي يحتاجونها. توجد اختلافات في طريقة أداء محركات البحث لوظائفها ، ولكن بشكل عام هناك 3 وظائف أساسية ومتطابقة:

كلهم "يبحثون" في الإنترنت (أو بعض قطاعات الإنترنت) - بناءً على كلمات رئيسية معينة ؛
- تقوم جميع محركات البحث بفهرسة الكلمات التي يبحثون عنها والأماكن التي يجدونها فيها ؛
- تسمح جميع محركات البحث للمستخدمين بالبحث عن كلمات أو مجموعات من الكلمات الرئيسية على أساس صفحات الويب المفهرسة بالفعل والمُدخلة في قواعد البيانات الخاصة بهم.

قامت محركات البحث الأولى بفهرسة ما يصل إلى عدة مئات الآلاف من الصفحات واستقبلت ما بين 1000 إلى 2000 استفسار يوميًا. اليوم ، قامت أفضل محركات البحث بفهرسة مئات الملايين من الصفحات وفهرستها باستمرار ، ومعالجة عشرات الملايين من الطلبات يوميًا. فيما يلي سنتحدث عن كيفية عمل محركات البحث وكيف "تضيف" جميع أجزاء المعلومات الموجودة حتى نتمكن من الإجابة على أي سؤال يهمنا.

لنلق نظرة على الويب

عندما يتحدث الناس عن محركات البحث على الإنترنتالآلات ، فهي تعني حقًا محركات البحث شبكة الانترنت. قبل أن يصبح الويب أكثر جزء مرئيالإنترنت ، كانت هناك بالفعل محركات بحث تساعد الأشخاص في العثور على المعلومات على الويب. تمكنت البرامج المسماة "gopher" و "Archie" من فهرسة الملفات المستضافة على خوادم مختلفة متصلة بها الإنترنت الإنترنتوقلل بشكل متكرر الوقت الذي يقضيه في البحث البرامج المرغوبةأو المستندات. في أواخر الثمانينيات من القرن الماضي ، كان مرادف "القدرة على العمل على الإنترنت" هو القدرة على استخدام gopher و Archie و Veronica ، إلخ. برامج البحث. اليوم ، يقصر معظم مستخدمي الإنترنت بحثهم على شبكة الويب العالمية ، أو WWW.

بداية صغيرة

قبل أن يجيب عليك أين تجد المستند المطلوبأو ملف ، يجب العثور على هذا الملف أو المستند بالفعل في وقت ما. للعثور على معلومات حول مئات الملايين من صفحات الويب الموجودة ، يستخدم محرك البحث برنامج روبوت خاص. يُطلق على هذا البرنامج أيضًا اسم العنكبوت ("العنكبوت" ، العنكبوت) ويستخدم لبناء قائمة بالكلمات الموجودة في الصفحة. تسمى عملية بناء مثل هذه القائمة زحف الويب(زحف الويب). لبناء المزيد من قائمة الكلمات "المفيدة" (ذات المعنى) وتنفيذها ، يجب على عنكبوت البحث "تمرير" الكثير من الصفحات الأخرى.

كيف يبدأ أي شخص؟ العنكبوت(العنكبوت) رحلتك على الويب؟ عادةً ما تكون نقطة البداية هي أكبر الخوادم وصفحات الويب المشهورة جدًا في العالم. يبدأ العنكبوت رحلته من هذا الموقع ، ويقوم بفهرسة جميع الكلمات التي تم العثور عليها ويواصل حركته بشكل أكبر ، متتبعًا الروابط المؤدية إلى مواقع أخرى. وهكذا ، يبدأ الروبوت العنكبوت في تغطية جميع "القطع" الكبيرة من مساحة الويب. بدأ موقع Google.com كمحرك بحث أكاديمي. في مقال يصف كيفية إنشاء محرك البحث هذا ، قدم سيرجي برين ولورنس بيج (مؤسسا ومالكو Google) مثالاً على مدى سرعة عمل عناكب Google. يوجد العديد منهم وعادة ما يبدأ البحث باستخدام 3 عناكب. يحافظ كل عنكبوت على ما يصل إلى 300 اتصال مفتوح متزامن بصفحات الويب. في ذروة التحميل ، باستخدام 4 عناكب ، يكون نظام Google قادرًا على معالجة 100 صفحة في الثانية ، مما ينتج عنه حركة مرور تبلغ حوالي 600 كيلوبايت / ثانية.

لتزويد العناكب بالبيانات التي تحتاج إلى معالجتها ، اعتاد Google على امتلاك خادم لا يفعل شيئًا سوى "إلقاء" العناكب بمزيد والمزيد من عناوين URL. من أجل عدم الاعتماد على مزودي خدمة الإنترنت من حيث خوادم أسماء المجال (DNS) التي تترجم عنوان url إلى عنوان IP ، فقد حصلت Google على ملكيتها الخاصة خادم DNS، مما يقلل الوقت المستغرق في فهرسة الصفحات إلى الحد الأدنى.

عندما يزور Googlebot صفحة HTML ، فإنه يأخذ في الاعتبار شيئين:

كلمات (نص) في كل صفحة ؛
- موقعهم (في أي جزء من نص الصفحة).

الكلمات الموجودة مع أقسام الخدمة مثل العنوان والترجمات والعلامات الوصفيةوآخرون ، باعتبارهم مهمين بشكل خاص لطلبات بحث المستخدم. تم إنشاء عنكبوت Google لفهرسة كل كلمة متشابهة في الصفحة ، باستثناء المداخلات مثل "a" و "an" و ".". محركات البحث الأخرى لديها نهج مختلف قليلاً في الفهرسة.

تهدف جميع طرق وخوارزميات محركات البحث في النهاية إلى جعل روبوتات العنكبوت تعمل بشكل أسرع وأكثر كفاءة. على سبيل المثال ، تتعقب بعض روبوتات البحث عند فهرسة الكلمات الموجودة في العنوان والروابط وما يصل إلى 100 كلمة من الكلمات الأكثر استخدامًا في الصفحة ، وحتى كل كلمة من أول 20 سطرًا من محتوى نص الصفحة. هذه هي خوارزمية الفهرسة ، على وجه الخصوص ، لـ Lycos.

تسير محركات البحث الأخرى ، مثل AltaVista ، في الاتجاه الآخر ، وتفهرس كل منها كلمة واحدةالصفحات ، بما في ذلك "a" و "an" و "the" وغيرها من الكلمات غير المهمة.

العلامات الفوقية

تسمح العلامات الوصفية لمالك صفحة الويب بتحديد الكلمات الرئيسية والمفاهيم التي تحدد جوهر محتواها. هذه أداة مفيدة للغاية ، خاصةً عندما يمكن تكرار هذه الكلمات الرئيسية حتى مرتين أو ثلاث مرات في نص الصفحة. في هذه الحالة ، يمكن للعلامات الوصفية "توجيه" الزاحف إلى الاختيار الصحيحالكلمات الرئيسية لفهرسة الصفحات. هناك احتمال "غش" في العلامات الوصفية التي تتجاوز استعلامات البحث الشائعة والمفاهيم التي لا علاقة لها بمحتوى الصفحة نفسها. يمكن لروبوتات البحث التعامل مع هذا ، على سبيل المثال ، من خلال تحليل الارتباط بين العلامات الوصفية ومحتوى صفحة الويب ، و "التخلص من" تلك العلامات الوصفية (على التوالي الكلمات الرئيسية) التي لا تتطابق مع محتوى الصفحات.

كل هذا ينطبق على تلك الحالات التي يريد فيها مالك مورد الويب حقًا أن يتم تضمينه في نتائج البحث عن كلمات البحث المطلوبة. ولكن غالبًا ما يحدث أن المالك لا يريد أن يقوم الروبوت بالفهرسة على الإطلاق. لكن مثل هذه الحالات لا تنتمي إلى موضوع مقالتنا.

بناء الفهرس

بمجرد أن تنتهي العناكب من مهمتها في العثور على صفحات ويب جديدة ، يجب أن تضع محركات البحث جميع المعلومات التي يعثرون عليها بطريقة يسهل استخدامها لاحقًا. هناك مكونان رئيسيان مهمان هنا:

المعلومات المخزنة مع البيانات ؛
- طريقة فهرسة هذه المعلومات.

في أبسط الحالات ، يمكن لمحرك البحث ببساطة وضع الكلمة وعنوان URL في مكان العثور عليها. لكن هذا من شأنه أن يجعل محرك البحث أداة بدائية للغاية ، حيث لا توجد معلومات حول أي جزء من المستند توجد هذه الكلمة فيه (العلامات الوصفية ، أو في نص عادي) ، سواء تم استخدام هذه الكلمة مرة واحدة أو بشكل متكرر ، وما إذا كانت موجود في ارتباط إلى مصدر آخر مهم وذات صلة. بمعنى آخر ، لن تسمح لك هذه الطريقة بتصنيف المواقع ، ولن تزود المستخدمين بالنتائج ذات الصلة ، وما إلى ذلك.

لتزويدنا ببيانات مفيدة ، تخزن محركات البحث أكثر من مجرد معلومات من كلمة وعنوان URL الخاص بها. يمكن لمحرك البحث حفظ بيانات عن عدد (تكرار) إشارات كلمة ما على الصفحة ، وتعيين "وزن" للكلمة ، مما سيساعد بشكل أكبر في إصدار قوائم البحث (النتائج) بناءً على تصنيف الوزن لهذه الكلمة ، مع الأخذ في الاعتبار موقعه (في الروابط والعلامات الوصفية وعنوان الصفحة) وما إلى ذلك.). لكل محرك بحث تجاري صيغته الخاصة لحساب "وزن" الكلمات الرئيسية عند الفهرسة. هذا هو أحد أسباب ذلك استعلام بحثتعطي محركات البحث نتائج مختلفة جدًا.

التالي نقطة مهمةعند معالجة المعلومات التي تم العثور عليها - ترميزها لتقليل مقدار مساحة القرص لتخزينها. على سبيل المثال ، في مقالة Google الأصلية ، تم وصف أنه يتم استخدام 2 بايت (8 بت لكل منهما) لتخزين بيانات وزن الكلمات - وهذا يأخذ في الاعتبار نوع الكلمة (الأحرف الكبيرة أو الكبيرة) ، وحجم الحروف نفسها (حجم الخط) ، وغيرها من المعلومات التي تساعد على ترتيب الموقع. تتطلب كل "قطعة" من المعلومات 2-3 بتات من البيانات في مجموعة كاملة من 2 بايت. نتيجة لذلك ، يمكن تخزين كمية هائلة من المعلومات في شكل مضغوط للغاية. بعد "ضغط" المعلومات ، حان الوقت لبدء الفهرسة.

الهدف من الفهرسة هو نفسه: توفير الحد الأقصى بحث سريع معلومات ضرورية. توجد عدة طرق لإنشاء الفهارس ، ولكن الطريقة الأكثر فاعلية هي الإنشاء جداول التجزئة(جدول التجزئة). يستخدم التجزئة صيغة تقوم بتعيين قيمة عددية لكل كلمة.

في أي لغة ، هناك أحرف تبدأ بكلمات أكثر بكثير من بقية الأحرف الأبجدية. على سبيل المثال ، هناك عدد أكبر من الكلمات التي تبدأ بالحرف "M" في قسم قاموس اللغة الإنجليزية أكثر من تلك التي تبدأ بالحرف "X". هذا يعني أن البحث عن كلمة تبدأ بالحرف الأكثر شيوعًا سيستغرق وقتًا أطول من أي كلمة أخرى. تجزئة(Hashing) يوازي هذا الاختلاف ويقلل من متوسط وقت البحث ، ويفصل أيضًا الفهرس نفسه عن البيانات الحقيقية. يحتوي جدول التجزئة على قيم التجزئة جنبًا إلى جنب مع مؤشر للبيانات المقابلة لتلك القيمة. توفر الفهرسة الفعالة + التنسيب الفعال معًا سرعة بحث عالية ، حتى إذا قام المستخدم بتعيين استعلام بحث معقد للغاية.

مستقبل محركات البحث

البحث القائم على عوامل التشغيل المنطقية ("و" ، "أو" ، "ليس") هو بحث حرفي - يحصل محرك البحث على كلمات البحث تمامًا كما تم إدخالها. يمكن أن يسبب هذا مشكلة عندما ، على سبيل المثال ، الكلمة التي تم إدخالها لها معاني متعددة. "المفتاح" ، على سبيل المثال ، قد يعني "يعني فتح باب" ، أو قد يعني "كلمة المرور" للدخول إلى الخادم. إذا كنت مهتمًا فقط بمعنى واحد للكلمة ، فمن الواضح أنك لن تحتاج إلى بيانات عن معناها الثاني. يمكنك بالطبع إنشاء استعلام حرفي يسمح لك باستبعاد إخراج البيانات من المعنى غير الضروري للكلمة ، ولكن سيكون من الجيد أن يساعدك محرك البحث.

أحد مجالات البحث في خوارزميات محرك البحث المستقبلية هو استرجاع المعلومات المفاهيمية. هذه خوارزميات حيث يتم استخدام التحليل الإحصائي للصفحات التي تحتوي على كلمة رئيسية أو عبارة بحث معينة للعثور على البيانات ذات الصلة. من الواضح أن مثل هذا "محرك البحث المفاهيمي" سيحتاج إلى مساحة تخزين أكبر لكل صفحة ومزيد من الوقت لمعالجة كل طلب. يعمل العديد من الباحثين حاليًا على هذه المشكلة.

ما لا يقل عن عمل مكثف في مجال تطوير خوارزميات البحث على أساس الاستفسارات. لغة طبيعية(استعلام لغة طبيعية).

تكمن الفكرة وراء الاستعلامات الطبيعية في أنه يمكنك كتابة استعلام كما لو كنت تطلب من زميل يجلس مقابلك. لا داعي للقلق بشأن العوامل المنطقية أو عناء التأليف استعلام معقد. أكثر مواقع البحث عن لغة البحث الطبيعية شيوعًا اليوم هو AskJeeves.com. يقوم بتحويل الاستعلام إلى كلمات رئيسية ، والتي يستخدمها بعد ذلك عند فهرسة المواقع. هذا النهج يعمل فقط إذا طلبات بسيطة. ومع ذلك ، فإن التقدم لا يزال قائما ، فمن الممكن أن "نتحدث" في القريب العاجل مع محركات البحث "بلغتنا البشرية".

1.1.1. مكونات محرك البحث

لا يتم تجديد المعلومات الموجودة على الويب فحسب ، بل تتغير أيضًا باستمرار ، ولكن لا أحد يخبر أي شخص بهذه التغييرات. غائب نظام واحدإدخال المعلومات المتوفرة في نفس الوقت لجميع مستخدمي الإنترنت. لذلك ، من أجل تنظيم المعلومات ، وتزويد المستخدمين بوسائل ملائمة للبحث عن البيانات ، تم إنشاء محركات البحث.

محركات البحث أنواع مختلفة. يبحث بعضهم عن معلومات بناءً على ما يضعه الناس فيها. يمكن أن تكون هذه الدلائل حيث المعلومات حول المواقع ، الخاصة بهم وصف قصيرأو يتم إدخال المراجعات من قبل المحررين. يتم البحث عنها بين هذه الأوصاف.

يقوم الأخير بجمع المعلومات على الويب باستخدام برامج خاصة. هذه محركات بحث تتكون ، كقاعدة عامة ، من ثلاثة مكونات رئيسية:

فِهرِس؛

محرك البحث.

عامل، أو بشكل أكثر شيوعًا - عنكبوت ، روبوت (في الأدب الإنجليزي - عنكبوت ، زاحف) ، في البحث عن معلومات يتجاوز الشبكة أو جزء معين منها. يحتفظ هذا الروبوت بقائمة من العناوين (عناوين URL) التي يمكنه زيارتها وفهرستها ، ويقوم بتنزيل المستندات المقابلة للروابط ويحللها على فترات منتظمة لكل محرك بحث. يتم حفظ المحتوى الناتج للصفحات بواسطة الروبوت في شكل أكثر إحكاما ويتم نقله إلى الفهرس. إذا تم العثور عليها أثناء تحليل الصفحة (الوثيقة) رابط جديدسيقوم الروبوت بإضافته إلى قائمته. لذلك ، يمكن العثور على أي مستند أو موقع يحتوي على روابط بواسطة الروبوت. والعكس صحيح إذا كان الموقع أو أي جزء منه لا يحتوي على أي منها روابط خارجية، قد لا يجدها الروبوت.

الروبوت ليس مجرد جامع معلومات. لديه "ذكاء" متطور إلى حد ما. يمكن للروبوتات البحث عن مواقع لموضوع معين ، وإنشاء قوائم بالمواقع مرتبة حسب حركة المرور ، واستخراج المعلومات ومعالجتها من قواعد البيانات الموجودة ، ويمكنها تتبع روابط ذات أعماق متداخلة مختلفة. لكن على أي حال ، فإنهم يمررون جميع المعلومات الموجودة إلى قاعدة البيانات (الفهرس) لمحرك البحث.

روبوتات البحث هي أنواع مختلفة:

? العنكبوت(العنكبوت) هو برنامج يقوم بتنزيل صفحات الويب بنفس طريقة متصفح المستخدم. الفرق هو أن المستعرض يعرض المعلومات الواردة في الصفحة (نصوص ، رسومات ، إلخ) ، بينما لا يحتوي العنكبوت على أي مكونات مرئية ويعمل مباشرة مع نص HTML للصفحة (على غرار ما ستراه إذا قم بتشغيل عرض كود HTML في متصفحك).

? الزاحف(crawler، "travel" spider) - يميز جميع الروابط الموجودة في الصفحة. وتتمثل مهمتها في تحديد المكان الذي يجب أن ينتقل إليه العنكبوت بعد ذلك ، بناءً على الروابط أو بناءً على قائمة عناوين محددة مسبقًا. يبحث الزاحف ، بعد الروابط التي تم العثور عليها ، عن المستندات الجديدة التي لا تزال غير معروفة لمحرك البحث.

? مفهرسيوزع الصفحة إلى الأجزاء المكونة لها ويحللها. يتم تحديد عناصر الصفحة المختلفة وتحليلها ، مثل النص والعناوين والميزات الهيكلية والأسلوب وعلامات HTML للخدمة الخاصة وما إلى ذلك.

فِهرِس- هذا هو جزء محرك البحث الذي يتم فيه البحث عن المعلومات. يحتوي الفهرس على جميع البيانات التي تم تمريرها إليه بواسطة الروبوتات ، وبالتالي يمكن أن يصل حجم الفهرس إلى مئات الجيجابايت. في الواقع ، يحتوي الفهرس على نسخ من جميع الصفحات التي تمت زيارتها بواسطة الروبوتات. إذا اكتشف الروبوت تغييرًا في صفحة قام بفهرستها بالفعل ، فإنه يرسل معلومات محدثة إلى الفهرس. يجب أن تحل محل الصفحة الحالية ، ولكن في بعض الحالات لا تظهر صفحة جديدة فقط في الفهرس ، ولكن تظل الصفحة القديمة أيضًا.

محرك البحثهي الواجهة ذاتها التي يتفاعل من خلالها الزائر مع الفهرس. من خلال الواجهة ، يقوم المستخدمون بإدخال طلباتهم وتلقي الردود ، ويقوم أصحاب الموقع بتسجيلها (وهذا التسجيل طريقة أخرى لنقل عنوان موقعك إلى الروبوت). عند معالجة استعلام ، يقوم محرك البحث بتحديد الصفحات والمستندات المقابلة من بين الملايين العديدة من الموارد المفهرسة وترتيبها حسب الأهمية أو الصلة بالاستعلام.

خلافًا للاعتقاد الشائع ، لا يشارك الروبوت بشكل مباشر في أي معالجة للمستندات الممسوحة ضوئيًا. إنه يقرأها ويحفظها فقط ، ثم تقوم البرامج الأخرى بمعالجتها. يمكن الحصول على تأكيد مرئي من خلال تحليل سجلات الموقع المفهرس لأول مرة. في الزيارة الأولى ، يطلب الروبوت أولاً ملف robots.txt ، ثم الصفحة الرئيسية للموقع. أي أنه يتبع الرابط الوحيد المعروف له. هذا هو المكان الذي تنتهي فيه دائمًا الزيارة الأولى للروبوت. بعد مرور بعض الوقت (عادةً في اليوم التالي) ، يطلب الروبوت الصفحات التالية - باستخدام الروابط الموجودة في الصفحة التي تمت قراءتها بالفعل. ثم تستمر العملية بنفس الترتيب: طلب الصفحات ، الروابط التي تم العثور عليها بالفعل - وقفة لمعالجة المستندات المقروءة - الجلسة التالية مع طلب الروابط التي تم العثور عليها.

قد يعني تحليل الصفحات "أثناء التنقل" أكثر من ذلك بكثير ازيادة كثافة موارد الروبوت وضياع الوقت. يقوم كل خادم مسح ضوئي بتشغيل العديد من عمليات الروبوت بالتوازي. يجب أن يتصرفوا بأسرع ما يمكن من أجل الحصول على الوقت لقراءة الصفحات الجديدة وإعادة قراءة الصفحات المعروفة بالفعل. لذلك ، تقوم الروبوتات بقراءة المستندات وحفظها فقط. يتم وضع كل ما يحفظونه في قائمة الانتظار للمعالجة (تفكيك الكود). يتم وضع الروابط التي تم العثور عليها أثناء معالجة الصفحة في قائمة انتظار المهام لبرامج الروبوت. لذلك هناك فحص مستمر للشبكة بأكملها. الشيء الوحيد الذي يستطيع الروبوت ويجب عليه تحليله بسرعة هو ملف robots.txt ، حتى لا يطلب عناوين محظورة فيه. أثناء كل جلسة من جلسات الزحف إلى الموقع ، يطلب الروبوت أولاً هذا الملف ، وبعده - كل أولئك الموجودين في قائمة الانتظار لفحص الصفحة.

أنواع روبوتات البحث

لكل محرك بحث مجموعته الخاصة من الروبوتات لأغراض مختلفة.
في الأساس ، تختلف في غرضها الوظيفي ، على الرغم من أن الحدود مشروطة للغاية ، وكل محرك بحث يفهمها بطريقته الخاصة. بالنسبة لأنظمة البحث عن نص كامل فقط ، يكفي روبوت واحد لجميع المناسبات. بالنسبة لمحركات البحث التي لا تنشغل بالنصوص فقط ، يتم تقسيم برامج الروبوت إلى فئتين على الأقل: للنصوص والصور. هناك أيضًا روبوتات منفصلة مخصصة لأنواع معينة من المحتوى - الجوال ، والمدونة ، والأخبار ، والفيديو ، وما إلى ذلك.

روبوتات جوجل

تُعرف جميع برامج تتبع Google مجتمعة باسم Googlebot. مفهرس الروبوت الرئيسي "يمثل نفسه" على النحو التالي:

Mozilla / 5.0 (متوافق ؛ Googlebot / 2.1 ؛ + http: //www.google.com/bot.html)

هذا الروبوت مشغول بمسح صفحات HTML والمستندات الأخرى للصفحة الرئيسية بحث جوجل. يقرأ أيضًا ملفات CSS و JS من وقت لآخر - يمكنك غالبًا ملاحظة ذلك في مرحلة مبكرة من فهرسة الموقع ، بينما يزحف الروبوت إلى الموقع لأول مرة. أنواع المحتويات المقبولة كلها (Accept: * / *).

ثاني الروبوتات الرئيسية مشغول بمسح الصور من الموقع. إنها "تظهر" ببساطة:

Googlebot-Image / 1.0

كما شوهدت ثلاث روبوتات على الأقل في السجلات ، مشغولة بجمع المحتوى لـ اصدار المحموليبحث. ينتهي حقل User-agent لجميع العناصر الثلاثة بالسطر:

(متوافق ؛ Googlebot-Mobile / 2.1 ؛ + http: //www.google.com/bot.html)

قبل هذا الخط - النموذج تليفون محمولالتي يتوافق معها هذا الروبوت. لدى الروبوتات الملحوظة هذه النماذج هواتف نوكياو Samsung و iPhone. أنواع المحتويات المقبولة كلها ، لكن ذات أولوية:

قبول: application / vnd.wap.xhtml + xml ، application / xhtml + xml ؛ q = 0.9 ، text / vnd.wap.wml ؛ q = 0.8 ، text / html ؛ q = 0.7 ، * / * ؛ q = 0.6

الروبوتات Yandex

من بين محركات البحث النشطة في Runet ، تمتلك Yandex أكبر مجموعة من برامج الروبوت. راجع قسم تعليمات مشرفي المواقع للحصول على قائمة رسمية لجميع أفراد العنكبوت. ليس من المنطقي إعطائها هنا بالكامل ، حيث تحدث التغييرات بشكل دوري في هذه القائمة.
ومع ذلك ، يجب ذكر أهم روبوتات Yandex بالنسبة لنا بشكل منفصل.
روبوت الفهرسة الرئيسييسمى حاليا

Mozilla / 5.0 (متوافق ؛ YandexBot / 3.0 ؛ + http: //yandex.com/bots)

قدمت سابقا باسم

Yandex / 1.01.001 (متوافق ؛ Win16 ؛ I)

يقرأ صفحات HTMLالموقع والمستندات الأخرى للفهرسة. كانت قائمة أنواع الوسائط المقبولة مقصورة سابقًا على:

قبول: text / html ، application / pdf ؛ q = 0.1 ، application / rtf ؛ q = 0.1 ، text / rtf ؛ q = 0.1 ، application / msword ؛ q = 0.1 ، application / x-shockwave-flash ؛ q = 0.1 ، التطبيق / vnd.ms-excel ؛ q = 0.1 ، التطبيق / vnd.ms-powerpoint ؛ q = 0.1

منذ 31 يوليو 2009 ، لوحظ توسع كبير في هذه القائمة (تضاعف عدد الأنواع تقريبًا) ، ومنذ 10 نوفمبر 2009 ، تم اختصار القائمة إلى * / * (جميع الأنواع).
يهتم هذا الروبوت بشدة بمجموعة محددة جدًا من اللغات: الروسية ، وأقل من الأوكرانية والبيلاروسية ، وقليلًا من اللغة الإنجليزية ، والقليل جدًا - جميع اللغات الأخرى.

قبول اللغة: ru، uk؛ q = 0.8، be؛ q = 0.8، en؛ q = 0.7، *؛ q = 0.01

روبوت الماسح الضوئي للصوريحمل السلسلة التالية في حقل User-agent:

Mozilla / 5.0 (متوافق ؛ YandexImages / 3.0 ؛ + http: //yandex.com/bots)

مسح الرسومات تنسيقات مختلفةللبحث في الصور.

على عكس Google ، لدى Yandex برامج روبوت منفصلة لخدمة بعض وظائف البحث العامة الخاصة.
روبوت "مرآة"

Mozilla / 5.0 (متوافق ؛ YandexBot / 3.0 ؛ MirrorDetector ؛ + http: //yandex.com/bots)

لا يقوم بأي شيء معقد بشكل خاص - فهو يظهر بشكل دوري ويتحقق مما إذا كانت الصفحة الرئيسية للموقع تتطابق مع www عند الوصول إلى المجال. ودون. يتحقق أيضًا من المجالات "المتطابقة" المتوازية للمطابقة. على ما يبدو ، يتم التعامل مع المرايا والشكل المتعارف عليه للنطاقات في Yandex بواسطة وحدة منفصلة حزمة البرامجأ الذي لا يرتبط مباشرة بالفهرسة. خلاف ذلك ، لا يوجد أي شيء على الإطلاق يفسر وجود روبوت منفصل لهذا الغرض.

منتقي الرموز favicon.ico

Mozilla / 5.0 (متوافق ؛ YandexFavicons / 1.0 ؛ + http: //yandex.com/bots)

يظهر بشكل دوري ويطلب رمز favicon.ico ، والذي يظهر بعد ذلك في نتائج البحث بجوار رابط الموقع. للأسباب التي تجعل منتقي الصور لا يجمع هذا الواجب غير معروف. على ما يبدو ، هناك أيضًا حزمة برامج منفصلة.

تحقق من البوتللمواقع الجديدة ، يعمل عند إضافته إلى نموذج AddURL

Mozilla / 5.0 (متوافق ؛ YandexWebmaster / 2.0 ؛ + http: //yandex.com/bots)

يتحقق هذا الروبوت من استجابة الموقع عن طريق إرسال طلب HEAD إلى عنوان URL الجذر. هذا يتحقق من وجود الصفحة الرئيسيةفي المجال وتحليل رؤوس HTTP لتلك الصفحة. يطلب الروبوت أيضًا ملف robots.txt في جذر الموقع. وبالتالي ، بعد إرسال ارتباط إلى AddURL ، تم تحديد أن الموقع موجود ولا تمنع رؤوس robots.txt ولا HTTP الوصول إلى الصفحة الرئيسية.

روبوت رامبلر

لم يعد يعمل حاليا، لأن Rambler يستخدم الآن بحث Yandex
من السهل التعرف على روبوت فهرسة Rambler في السجلات بواسطة حقل User-agent

StackRambler / 2.0 (MSIE غير متوافق)

بالمقارنة مع "زملائه" من محركات البحث الأخرى ، يبدو هذا الروبوت بسيطًا للغاية: فهو لا يحدد قائمة بأنواع الوسائط (على التوالي ، يتلقى المستند المطلوب من أي نوع) ، وحقل قبول اللغة مفقود في الطلب ، كما لم يتم العثور على حقل If-Modified-since في طلبات الروبوت.

روبوت Mail.Ru

لا يُعرف الكثير عن هذا الروبوت. تقوم بوابة Mail.Ru بتطوير البحث الخاص بها لفترة طويلة ، لكنها لا تزال لن تبدأ هذا البحث. لذلك ، لا يُعرف إلا اسم الروبوت في User-agent - Mail.Ru/2.0 (سابقًا - Mail.Ru/1.0). لم يتم نشر اسم الروبوت لتوجيهات ملف robors.txt في أي مكان ، وهناك افتراض بأن الروبوت يجب أن يسمى Mail.Ru.

روبوتات أخرى

البحث في الإنترنت ، بالطبع ، لا يقتصر على اثنين محركات البحث. لذلك ، هناك روبوتات أخرى - على سبيل المثال ، روبوت Bing - محرك بحث من Microsoft وروبوتات أخرى. لذلك ، على وجه الخصوص ، يوجد في الصين محرك بحث وطني Baidu - لكن من غير المرجح أن يصل الروبوت الخاص به إلى منتصف النهر ويصل إلى الموقع الروسي.

بالإضافة إلى ذلك ، فقد ولدت العديد من الخدمات مؤخرًا - على وجه الخصوص solomono - والتي ، على الرغم من أنها ليست محركات بحث ، إلا أنها تقوم أيضًا بفحص المواقع. غالبًا ما تكون قيمة نقل المعلومات حول الموقع إلى مثل هذه الأنظمة موضع شك ، وبالتالي يمكن حظر الروبوتات الخاصة بهم