Menú
Gratis
Registro
hogar  /  Consejos/ Qué hacen las arañas de los motores de búsqueda de empleo. Rastreador de Google: qué hace

¿Qué trabajo hacen las arañas de los motores de búsqueda? Rastreador de Google: qué hace

¿Cómo funcionan los motores de búsqueda? Una de las mejores cosas de Internet es que hay cientos de millones de recursos web esperando y listos para ser presentados ante nosotros. Pero lo malo es que existen los mismos millones de páginas que, aunque las necesitemos, no aparecerán ante nosotros, porque. son simplemente desconocidos para nosotros. ¿Cómo saber qué y dónde se puede encontrar en Internet? Por lo general, recurrimos a los motores de búsqueda para esto.

Los motores de búsqueda de Internet son sitios especiales en red global, que están diseñados para ayudar a las personas a encontrar World Wide Web la información que necesitan. Existen diferencias en la forma en que los motores de búsqueda realizan sus funciones, pero en general existen 3 funciones básicas e idénticas:

Todos ellos "buscan" en Internet (o en algún sector de Internet), basándose en palabras clave dadas;
- todos los motores de búsqueda indexan las palabras que buscan y los lugares donde las encuentran;
- todos los motores de búsqueda permiten a los usuarios buscar palabras o combinaciones de palabras clave basadas en páginas web ya indexadas e ingresadas en sus bases de datos.

Los primeros motores de búsqueda indexaron hasta varios cientos de miles de páginas y recibieron de 1000 a 2000 consultas por día. Hoy en día, los principales motores de búsqueda han indexado y están indexando continuamente cientos de millones de páginas, procesando decenas de millones de solicitudes por día. A continuación hablaremos de cómo funcionan los buscadores y cómo "añaden" toda la información que encuentran para poder responder a cualquier pregunta que nos interese.

echemos un vistazo a la red

Cuando la gente habla de buscadores de internet máquinas, en realidad se refieren a motores de búsqueda World Wide Web. Antes de que la Web se convirtiera en la más parte visible Internet, ya existían motores de búsqueda que ayudaban a las personas a encontrar información en la web. Los programas llamados "gopher" y "Archie" pudieron indexar archivos alojados en diferentes servidores conectados a internet internet y redujo repetidamente el tiempo dedicado a la búsqueda programas deseados o documentos. A fines de los años 80 del siglo pasado, el sinónimo de "la capacidad de trabajar en Internet" era la capacidad de usar Gopher, Archie, Veronica, etc. buscar programas Hoy en día, la mayoría de los usuarios de Internet limitan sus búsquedas a la World Wide Web o WWW.

pequeño comienzo

Antes de responderte donde encontrar documento deseado o archivo, este archivo o documento ya debe encontrarse en algún momento. Para encontrar información sobre cientos de millones de páginas WEB existentes, el motor de búsqueda utiliza un programa de robot especial. Este programa también se llama araña ("araña", araña) y se usa para construir una lista de palabras que se encuentran en la página. El proceso de construcción de dicha lista se llama rastreo web(Rastreo web). Para construir y confirmar aún más una lista de palabras "útil" (significativa), la araña de búsqueda debe "desplazarse" por muchas otras páginas.

¿Cómo empieza alguien? araña(araña) tu viaje web? Por lo general, el punto de partida son los servidores más grandes del mundo y las páginas web más populares. La araña comienza su viaje desde dicho sitio, indexa todas las palabras encontradas y continúa su movimiento, siguiendo enlaces a otros sitios. Por lo tanto, el robot araña comienza a cubrir todas las "piezas" grandes del espacio web. Google.com comenzó como un motor de búsqueda académico. En un artículo que describe cómo se creó este motor de búsqueda, Sergey Brin y Laurence Page (fundadores y propietarios de Google) dieron un ejemplo de cuán rápido funcionan las arañas de Google. Hay varios de ellos y, por lo general, la búsqueda comienza con el uso de 3 arañas. Cada araña mantiene hasta 300 conexiones abiertas simultáneas a páginas web. En pico de carga, utilizando 4 arañas, el sistema de Google es capaz de procesar 100 páginas por segundo, generando un tráfico de unos 600 kilobytes/seg.

Para proporcionar a las arañas los datos que necesitan procesar, Google solía tener un servidor que no hacía más que "lanzar" a las arañas con más y más URL. Para no depender de los proveedores de servicios de Internet en términos de servidores de nombres de dominio (DNS) que traducen url a dirección IP, Google ha adquirido su propio servidor DNS, reduciendo al mínimo todo el tiempo dedicado a la indexación de páginas.

Cuando Googlebot visita una página HTML, tiene en cuenta 2 cosas:

Palabras (texto) por página;
- su ubicación (en qué parte del cuerpo de la página).

Palabras ubicadas con secciones de servicio como título, subtítulos, metaetiquetas et al., fueron señalados como particularmente importantes para las búsquedas de los usuarios. La araña de Google se creó para indexar todas las palabras similares en una página, con la excepción de interjecciones como "a", "an" y "the". Otros motores de búsqueda tienen un enfoque ligeramente diferente a la indexación.

Todos los enfoques y algoritmos de los motores de búsqueda están destinados en última instancia a hacer que los robots araña funcionen de manera más rápida y eficiente. Por ejemplo, algunos robots de búsqueda rastrean al indexar las palabras del título, los enlaces y hasta 100 de las palabras más utilizadas en la página, e incluso cada una de las palabras de las primeras 20 líneas del contenido de texto de la página. Este es el algoritmo de indexación, en particular, para Lycos.

Otros motores de búsqueda, como AltaVista, van en la otra dirección, indexando cada Una sola palabra páginas, incluyendo "un", "un", "el" y otras palabras sin importancia.

Metaetiquetas

Las metaetiquetas permiten al propietario de una página web especificar palabras clave y conceptos que definen la esencia de su contenido. Esta es una herramienta muy útil, especialmente cuando estas palabras clave se pueden repetir hasta 2-3 veces en el texto de la página. En este caso, las etiquetas meta pueden "dirigir" al rastreador a la elección correcta palabras clave para la indexación de páginas. Existe la posibilidad de "engañar" las etiquetas meta en exceso de las consultas de búsqueda populares y los conceptos que no tienen nada que ver con el contenido de la página en sí. Los robots de búsqueda pueden lidiar con esto, por ejemplo, analizando la correlación de las metaetiquetas y el contenido de la página web, "desechando" aquellas metaetiquetas (palabras clave respectivamente) que no coinciden con el contenido de las páginas.

Todo esto se aplica a aquellos casos en los que el propietario de un recurso web realmente quiere ser incluido en los resultados de búsqueda de las palabras de búsqueda deseadas. Pero a menudo sucede que el propietario no quiere que el robot lo indexe en absoluto. Pero tales casos no pertenecen al tema de nuestro artículo.

edificio de índice

Una vez que las arañas han terminado su trabajo de encontrar nuevas páginas web, los motores de búsqueda deben colocar toda la información que encuentran de una manera que sea fácil de usar más tarde. Hay 2 componentes clave que importan aquí:

Información almacenada con datos;
- el método por el cual se indexa esta información.

En el caso más sencillo, el buscador podría simplemente colocar la palabra y la URL donde se encuentra. Pero esto convertiría al motor de búsqueda en una herramienta muy primitiva, ya que no hay información sobre en qué parte del documento se encuentra esta palabra (metaetiquetas o en texto sin formato), si esta palabra se usa una vez o repetidamente, y si está contenido en un enlace a otro recurso importante y relacionado. En otras palabras, este método no le permitirá clasificar sitios, no proporcionará a los usuarios resultados relevantes, etc.

Para brindarnos datos útiles, los motores de búsqueda almacenan más que solo información de una palabra y su URL. El motor de búsqueda puede guardar datos sobre el número (frecuencia) de menciones de una palabra en una página, asignar un "peso" a la palabra, lo que ayudará aún más a generar listados de búsqueda (resultados) basados ​​en la clasificación de peso para esta palabra, teniendo en cuenta su ubicación (en enlaces, metaetiquetas, título de la página, etc.). Cada motor de búsqueda comercial tiene su propia fórmula para calcular el "peso" de las palabras clave al indexar. Esta es una de las razones por las que los motores de búsqueda dan resultados muy diferentes para la misma consulta de búsqueda.

Próximo punto importante al procesar la información encontrada, su codificación para reducir la cantidad de espacio en disco para su almacenamiento. Por ejemplo, en el artículo original de Google, se describe que se utilizan 2 bytes (8 bits cada uno) para almacenar los datos de peso de las palabras; esto tiene en cuenta el tipo de palabra (letras mayúsculas o minúsculas), el tamaño de la letras en sí (Tamaño de fuente) y otra información, que ayuda a clasificar el sitio. Cada "pieza" de información requiere de 2 a 3 bits de datos en un conjunto completo de 2 bytes. Como resultado, se puede almacenar una gran cantidad de información en una forma muy compacta. Después de "comprimir" la información, es hora de comenzar a indexar.

El objetivo de la indexación es el mismo: proporcionar la máxima búsqueda rápida Información necesaria. Hay varias formas de construir índices, pero la más eficiente es construir tablas hash(tabla de picadillo). Hashing utiliza una fórmula que asigna un valor numérico a cada palabra.

En cualquier idioma, hay letras que comienzan con muchas más palabras que con el resto de las letras del abecedario. Por ejemplo, hay significativamente más palabras que comienzan con las letras "M" en la sección del diccionario de inglés que aquellas que comienzan con la letra "X". Esto significa que buscar una palabra que comience con la letra más popular llevará más tiempo que cualquier otra palabra. hash(Hashing) iguala esta diferencia y reduce el tiempo promedio de búsqueda, y también separa el índice en sí de los datos reales. La tabla hash contiene los valores hash junto con un puntero a los datos correspondientes a ese valor. La indexación eficiente + la ubicación eficiente juntas brindan una alta velocidad de búsqueda, incluso si el usuario establece una consulta de búsqueda muy compleja.

El futuro de los motores de búsqueda

Una búsqueda basada en operadores booleanos ("y", "o", "no") es una búsqueda literal: el motor de búsqueda obtiene las palabras de búsqueda exactamente como se ingresan. Esto puede causar un problema cuando, por ejemplo, la palabra ingresada tiene múltiples significados. "Clave", por ejemplo, podría significar "significa abrir una puerta" o podría significar "contraseña" para ingresar a un servidor. Si solo está interesado en un significado de una palabra, obviamente no necesitará datos sobre su segundo significado. Por supuesto, puede crear una consulta literal que le permita excluir la salida de datos sobre el significado innecesario de la palabra, pero sería bueno que el motor de búsqueda pudiera ayudarlo.

Un área de investigación en futuros algoritmos de motores de búsqueda es la recuperación de información conceptual. Estos son algoritmos en los que se utiliza el análisis estadístico de páginas que contienen una palabra clave o frase de búsqueda determinada para encontrar datos relevantes. Claramente, tal "motor de búsqueda conceptual" necesitaría mucho más almacenamiento para cada página y más tiempo para procesar cada solicitud. Muchos investigadores están trabajando actualmente en este problema.

No menos intenso se está trabajando en el campo del desarrollo de algoritmos de búsqueda basados ​​en consultas. lenguaje natural(Consulta en lenguaje natural).

La idea detrás de las consultas naturales es que puede escribir una consulta como si le estuviera preguntando a un colega sentado frente a usted. No hay necesidad de preocuparse por los operadores booleanos o molestarse en componer consulta compleja. El sitio de búsqueda de lenguaje de búsqueda natural más popular hoy en día es AskJeeves.com. Convierte la consulta en palabras clave, que luego utiliza al indexar sitios. Este enfoque solo funciona si consultas simples. Sin embargo, el progreso no se detiene, es posible que muy pronto "hablamos" con los motores de búsqueda en su propio "lenguaje humano".

ser parte integral motor de búsqueda y diseñado para enumerar páginas de Internet con el fin de ingresar información sobre ellas en la base de datos del motor de búsqueda. En principio, la araña se parece a un navegador normal. Analiza el contenido de la página, lo almacena de alguna forma especial en el servidor del motor de búsqueda al que pertenece y lo envía a enlaces a las siguientes páginas. Los propietarios de motores de búsqueda a menudo limitan la profundidad de penetración de la araña en el sitio y talla máxima texto escaneado, por lo que es posible que el motor de búsqueda no indexe completamente los sitios que son demasiado grandes. Además de las arañas ordinarias, existen las llamadas " pájaros carpinteros" - robots que "tocan" el sitio indexado para determinar si está disponible.

Los algoritmos de recuperación de información determinan el orden de rastreo de las páginas, la frecuencia de las visitas, la protección contra bucles y los criterios para resaltar información importante.

En la mayoría de los casos, la transición de una página a otra se realiza mediante enlaces contenidos en la primera y siguientes páginas.

Además, muchos motores de búsqueda brindan al usuario la oportunidad de agregar el sitio de forma independiente a la cola para la indexación. Por lo general, esto acelera significativamente la indexación del sitio y, en los casos en que no enlaces externos no conducen al sitio, en general resulta ser prácticamente la única forma de indicar su existencia. Otra forma de indexar rápidamente un sitio es agregar sistemas de análisis web propiedad de servicios de busqueda. Por ejemplo, como Google Analytics, Yandex.Metrika y [email protected] de Google, Yandex y Mail.Ru, respectivamente.

Puede limitar la indexación del sitio utilizando el archivo robots.txt. La protección total contra la indexación se puede proporcionar mediante otros mecanismos, como establecer una contraseña en la página o solicitarle que complete un formulario de registro antes de acceder al contenido.

YouTube enciclopédico

  • 1 / 3

    Puntos de vista:

Los robots de motores de búsqueda, a veces llamados "spiders" o "crawlers" (rastreadores), son módulos de software que buscan páginas web. ¿Cómo trabajan? ¿Qué están haciendo realmente? ¿Por qué son importantes?

Teniendo en cuenta todo el ruido alrededor optimización de motores de búsqueda y bases de datos de índices de motores de búsqueda, probablemente pienses que los robots deben ser seres grandes y poderosos. No es verdad. Los bots de los motores de búsqueda solo tienen características básicas similares a las de los primeros navegadores en términos de qué información pueden reconocer en un sitio. Al igual que los primeros navegadores, los robots simplemente no pueden hacer ciertas cosas. Los robots no entienden los marcos animaciones flash, imágenes o JavaScript. No pueden ingresar a las secciones protegidas con contraseña y no pueden hacer clic en todos los botones que se encuentran en el sitio. Pueden "callarse" en el proceso de indexación direcciones dinámicas URL y funcionan muy lentamente, hasta el punto de detenerse e impotencia sobre la navegación de JavaScript.

¿Cómo funcionan los robots de los motores de búsqueda?

Los rastreadores web deben considerarse como programas automatizados de extracción de datos que navegan por la web en busca de información y enlaces a información.

Cuando va a la página "Enviar una URL", registra otra página web en el motor de búsqueda, el robot agrega una nueva URL a la cola para ver sitios. Incluso si no registra una página, muchos robots encontrarán su sitio porque hay enlaces de otros sitios que enlazan con el suyo. Esta es una de las razones por las que es importante generar popularidad de enlaces y colocar enlaces en otros recursos temáticos.

Cuando llegan a su sitio, los robots primero verifican si hay un archivo robots.txt. Este archivo le dice a los robots qué secciones de su sitio no deben indexarse. Por lo general, estos pueden ser directorios que contienen archivos que no le interesan al robot o que no debería conocer.

Los robots almacenan y recopilan enlaces de cada página que visitan y luego siguen esos enlaces a otras páginas. Toda la red mundial está construida de enlaces. La idea inicial de crear la red de Internet era que fuera posible seguir enlaces de un lugar a otro. Así se mueven los robots.

Lo "ingenioso" de la indexación de páginas en tiempo real depende de los ingenieros de motores de búsqueda que inventaron los métodos utilizados para evaluar la información recuperada por los rastreadores de motores de búsqueda. Una vez integrada en la base de datos de un motor de búsqueda, la información está disponible para los usuarios que realizan búsquedas. Cuando un usuario del motor de búsqueda ingresa un término de búsqueda, se realizan una serie de cálculos rápidos para garantizar que se devuelva el resultado real. conjunto correcto sitios para la respuesta más relevante.

Puede ver qué páginas de su sitio ya han sido visitadas por el robot de búsqueda, guiado por los archivos de registro del servidor o los resultados del procesamiento estadístico del archivo de registro. Al identificar a los robots, puede ver cuándo visitaron su sitio, qué páginas y con qué frecuencia. Algunos robots se identifican fácilmente por sus nombres, como "Googlebot" de Google. Otros están más ocultos, como "Slurp" de Inktomi. También se pueden encontrar otros robots en los registros y es posible que no pueda identificarlos inmediatamente; algunos de ellos pueden incluso ser navegadores controlados por humanos.

Además de identificar rastreadores únicos y contar la cantidad de visitas que tienen, las estadísticas también pueden mostrarle rastreadores agresivos que consumen ancho de banda o rastreadores que no desea que visiten su sitio.

¿Cómo leen las páginas de su sitio web?

Cuando un rastreador visita una página, escanea su texto visible, el contenido de varias etiquetas en código fuente su página (etiqueta de título, etiquetas meta, etc.), así como hipervínculos en la página. A juzgar por las palabras de los enlaces, el motor de búsqueda decide de qué trata la página. Hay muchos factores que se utilizan para calcular los puntos clave de una página "desempeñando un papel". Cada motor de búsqueda tiene su propio algoritmo para evaluar y procesar la información. Dependiendo de cómo esté configurado el robot, la información se indexa y luego se envía a la base de datos del motor de búsqueda.

Después de eso, la información entregada a las bases de datos del índice del motor de búsqueda se convierte en parte del motor de búsqueda y del proceso de clasificación de la base de datos. Cuando un visitante realiza una consulta, el motor de búsqueda revisa toda la base de datos para devolver una lista final que sea relevante para la consulta de búsqueda.

Las bases de datos de los motores de búsqueda se procesan y alinean cuidadosamente. Si ya está en la base de datos, los robots lo visitarán periódicamente para recopilar cualquier cambio en las páginas y asegurarse de que tengan la información más reciente. El número de visitas depende de la configuración del motor de búsqueda, que puede variar según su tipo y finalidad.

A veces, los robots de búsqueda no pueden indexar un sitio web. Si su sitio se bloqueó o una gran cantidad de visitantes visitan el sitio, el robot puede ser incapaz de intentar indexarlo. Cuando esto sucede, el sitio no se puede volver a indexar, dependiendo de la frecuencia con la que el robot lo visite. En la mayoría de los casos, los robots que no pudieron acceder a sus páginas lo intentarán más tarde, con la esperanza de que su sitio esté disponible pronto.

Muchos rastreadores no se pueden identificar cuando ve los registros. Es posible que lo estén visitando, pero los registros dicen que alguien está usando el navegador de Microsoft, etc. Algunos robots se identifican con el nombre de un motor de búsqueda (googlebot) o su clon (Scooter = AltaVista).

Dependiendo de cómo esté configurado el robot, la información se indexa y luego se envía a las bases de datos del motor de búsqueda.

Las bases de datos de los motores de búsqueda están sujetas a modificaciones en varios momentos. Incluso los directorios que tienen resultados de búsqueda secundarios utilizan datos de robots como contenido de su sitio web.

En realidad, los motores de búsqueda no utilizan los robots solo para lo anterior. Hay robots que verifican las bases de datos en busca de contenido nuevo, visitan el contenido de la base de datos anterior, verifican si los enlaces han cambiado, descargan sitios completos para navegar, etc.

Por esta razón, leer los archivos de registro y realizar un seguimiento de los resultados del motor de búsqueda le ayuda a controlar la indexación de sus proyectos.

Su trabajo es analizar cuidadosamente el contenido de las páginas de los sitios presentados en Internet y enviar los resultados del análisis al motor de búsqueda.

El robot de búsqueda pasa por alto las páginas nuevas durante un tiempo, pero luego se indexan y, en ausencia de sanciones de los motores de búsqueda, se pueden mostrar en los resultados de búsqueda.

Principio de operación

La acción de los robots de búsqueda se basa en el mismo principio que el funcionamiento de un navegador ordinario. Al visitar este o aquel sitio, pasan por alto parte de sus páginas o todas las páginas sin excepción. Envían la información recibida sobre el sitio al índice de búsqueda. Esta información aparece en los resultados de búsqueda correspondientes a una consulta en particular.

Debido al hecho de que los robots de búsqueda pueden visitar solo una parte de las páginas, pueden surgir problemas con la indexación de sitios grandes. Pueden surgir exactamente los mismos problemas debido a la mala calidad.

Las interrupciones en su trabajo hacen que algunas páginas sean inaccesibles para el análisis. Un archivo robots.txt correctamente compuesto y bien configurado juega un papel importante en la evaluación del sitio por parte de los robots de búsqueda.

La profundidad del análisis de recursos y la frecuencia de rastreo de sitios por parte de los robots de búsqueda depende de:

  • Algoritmos de motores de búsqueda.
  • Frecuencia de actualización del sitio.
  • Estructuras del sitio.

Índice de búsqueda

La base de datos de información recopilada por los rastreadores web se denomina índice de búsqueda. Esta base se utiliza los motores de búsqueda para formar los resultados de la emisión de específicos.

El índice no solo contiene información sobre sitios: los robots de búsqueda pueden reconocer imágenes, archivos multimedia y documentos en varios formatos electrónicos(.docx, .pdf, etc.).

Uno de los robots de búsqueda más activos del sistema Yandex es un bot rápido. Escanea constantemente recursos de noticias y otros sitios que se actualizan con frecuencia. , que no es visto por el swiftbot, no tiene sentido.

Puede atraerlo con la ayuda de herramientas especiales, y son efectivos para sitios de diversos propósitos. Para verificar la accesibilidad de los sitios, analizar sus características individuales, indexar imágenes y documentos en los motores de búsqueda, hay robots separados.

Contrariamente a la creencia popular, el robot no está directamente involucrado en ningún procesamiento de documentos escaneados. Él solo los lee y guarda, luego otros programas realizan su procesamiento. Se puede obtener una confirmación visual analizando los registros de un sitio que se indexa por primera vez. En la primera visita, el bot primero solicita el archivo robots.txt, luego la página principal del sitio. Es decir, sigue el único vínculo que conoce. Aquí es donde siempre termina la primera visita del bot. Después de un tiempo (generalmente al día siguiente), el bot solicita las siguientes páginas, utilizando los enlaces que se encuentran en la página ya leída. Luego, el proceso continúa en el mismo orden: una solicitud de páginas cuyos enlaces ya se han encontrado, una pausa para procesar los documentos leídos, la próxima sesión con una solicitud de enlaces encontrados.

Analizar páginas "sobre la marcha" significaría mucho más O mayor intensidad de recursos del robot y pérdida de tiempo. Cada Scan Server ejecuta muchos procesos de bot en paralelo. Deben actuar lo más rápido posible para tener tiempo de leer nuevas páginas y releer las ya conocidas. Por lo tanto, los bots solo leen y guardan documentos. Todo lo que guardan se pone en cola para su procesamiento (desmontaje del código). Los enlaces encontrados durante el procesamiento de la página se colocan en la cola de tareas para los bots. Entonces hay un escaneo continuo de toda la red. Lo único que el bot puede y debe analizar sobre la marcha es el archivo robots.txt, para no solicitar direcciones que en él están prohibidas. Durante cada sesión de rastreo del sitio, el robot primero solicita este archivo y, después, todos los que están en cola para escanear la página.

Tipos de robots de búsqueda

Cada motor de búsqueda tiene su propio conjunto de robots para diferentes propósitos.
Básicamente, difieren en su propósito funcional, aunque los límites son muy condicionales, y cada motor de búsqueda los entiende a su manera. Para los sistemas de solo búsqueda de texto completo, un robot es suficiente para todas las ocasiones. Para aquellos motores de búsqueda que no solo se ocupan de texto, los bots se dividen en al menos dos categorías: para textos e imágenes. También hay bots separados dedicados a tipos específicos de contenido: móvil, blog, noticias, video, etc.

robots de Google

Todos los bots de Google se conocen colectivamente como Googlebot. El indexador de robot principal "se representa a sí mismo" de la siguiente manera:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Este bot está ocupado escaneando páginas HTML y otros documentos para el principal búsqueda de Google. También lee archivos CSS y JS de vez en cuando; en su mayoría, puede notar esto en una etapa temprana de la indexación del sitio, mientras el bot rastrea el sitio por primera vez. Los tipos de contenido aceptados son todos (Aceptar: */*).

El segundo de los bots principales está ocupado escaneando imágenes del sitio. Simplemente "aparece":

Googlebot-Imagen/1.0

También se vieron al menos tres bots en los registros, ocupados recopilando contenido para version móvil buscar. El campo User-agent de los tres termina con la línea:

(compatible; Googlebot-Móvil/2.1; +http://www.google.com/bot.html)

Antes de esta línea - modelo teléfono móvil con el que este bot es compatible. Los bots notados tienen estos modelos. telefonos nokia, Samsung y iPhone. Los tipos de contenido aceptados son todos, pero priorizados:

Aceptar: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robots Yandex

De los motores de búsqueda activos en Runet, Yandex tiene la mayor colección de bots. Consulte la sección de ayuda para webmasters para obtener una lista oficial de todo el personal de araña. No tiene sentido darlo aquí completo, ya que periódicamente se producen cambios en esta lista.
Sin embargo, los robots Yandex más importantes para nosotros deben mencionarse por separado.
Robot indexador principal llamado actualmente

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Previamente presentado como

Yandex/1.01.001 (compatible; Win16; yo)

Lee páginas HTML sitio y otros documentos para la indexación. La lista de tipos de medios aceptados anteriormente se limitaba a:

Aceptar: texto/html, aplicación/pdf;q=0.1, aplicación/rtf;q=0.1, texto/rtf;q=0.1, aplicación/msword;q=0.1, aplicación/x-shockwave-flash;q=0.1, aplicación/vnd.ms-excel;q=0.1, aplicación/vnd.ms-powerpoint;q=0.1

Desde el 31 de julio de 2009, se ha notado una expansión significativa en esta lista (el número de tipos casi se ha duplicado), y desde el 10 de noviembre de 2009, la lista se ha reducido a */* (todos los tipos).
Este robot está muy interesado en un conjunto muy específico de idiomas: ruso, un poco menos ucraniano y bielorruso, un poco menos inglés y muy poco, todos los demás idiomas.

Aceptar idioma: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot escáner de imágenes lleva la siguiente cadena en el campo User-agent:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Escaneo de gráficos diferentes formatos para buscar en imágenes.

A diferencia de Google, Yandex tiene bots separados para servir algunas funciones especiales de búsqueda general.
Robot "espejo"

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

No hace nada especialmente complicado: aparece periódicamente y comprueba si la página principal del sitio coincide con www al acceder al dominio. y sin. También comprueba los dominios "espejos" paralelos en busca de coincidencias. Aparentemente, los espejos y la forma canónica de dominios en Yandex son manejados por un paquete de software A que no está directamente relacionado con la indexación. De lo contrario, no hay absolutamente nada que explique la existencia de un bot separado para este propósito.

selector de iconos favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Periódicamente aparece y solicita el icono de favicon.ico, que luego aparece en los resultados de búsqueda junto al enlace al sitio. Se desconoce por qué razones el selector de imágenes no combina este deber. Aparentemente, también hay un paquete de software separado.

Comprobar robot para sitios nuevos, funciona cuando se agrega al formulario AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Este bot verifica la respuesta del sitio enviando una solicitud HEAD a la URL raíz. Esto comprueba la existencia página de inicio en el dominio y analizar los encabezados HTTP de esa página. El bot también solicita el archivo robots.txt en la raíz del sitio. Por lo tanto, después de enviar un enlace a AddURL, se determina que el sitio existe y que ni los encabezados robots.txt ni HTTP prohíben el acceso a la página principal.

Caminante robot

Actualmente ya no funciona, porque Rambler ahora usa la búsqueda de Yandex
El robot de indexación Rambler es fácil de identificar en los registros por el campo Usuario-agente

StackRambler/2.0 (MSIE incompatible)

En comparación con sus "colegas" de otros motores de búsqueda, este bot parece bastante simple: no especifica una lista de tipos de medios (respectivamente, recibe el documento solicitado de cualquier tipo), falta el campo Aceptar-Idioma en la solicitud, y el campo If-Modified-since tampoco se encuentra en las solicitudes del bot.

Robot Mail.Ru

Poco se sabe sobre este robot. El portal Mail.Ru ha estado desarrollando su propia búsqueda durante mucho tiempo, pero aún no va a lanzar esta búsqueda. Por lo tanto, solo se conoce de manera confiable el nombre del bot en el agente de usuario: Mail.Ru/2.0 (anteriormente, Mail.Ru/1.0). El nombre del bot para las directivas del archivo robors.txt no se ha publicado en ninguna parte, se supone que el bot debería llamarse Mail.Ru.

Otros robots

La búsqueda en Internet, por supuesto, no se limita a dos motores de búsqueda. Por lo tanto, hay otros robots, por ejemplo, el robot Bing, un motor de búsqueda de Microsoft y otros robots. Entonces, en particular, en China hay un motor de búsqueda nacional Baidu, pero es poco probable que su robot llegue a la mitad del río y llegue al sitio ruso.

Además, recientemente han surgido muchos servicios, en particular solomono, que, aunque no son motores de búsqueda, también escanean sitios. A menudo, el valor de pasar información sobre el sitio a dichos sistemas es cuestionable y, por lo tanto, sus robots pueden prohibirse en