hogar / Problemas/ 8 qué tipo de trabajo hacen los robots de los motores de búsqueda. Búsqueda de información en la Web

8 qué trabajo hacen los robots de los motores de búsqueda. Búsqueda de información en la Web

Educación superior disponible - formación de terapeuta de masaje.

Hay más de cien millones de recursos en Internet, y millones de páginas necesarias nunca las conoceremos. ¿Cómo encontrar la gota que necesitamos en este océano? Aquí es donde se trata de nuestra ayuda. Búsqueda uy máquina. eso araña, y solo él sabe qué y en qué lugar de la web tiene.

Búsqueda maquinas nuevas Internet y estos son sitios creados especialmente para ayudarlo a encontrar la información que necesita en la red global de la World Wide Web. Hay tres funciones principales, las mismas para todos Búsqueda máquinas nuevas:

- Búsqueda oviks en las palabras clave dadas "buscar" en Internet;
- direcciones indexadas Búsqueda ovikami junto con palabras;
- las páginas web indexadas forman la base, que Búsqueda oviki proporciona a los usuarios Búsqueda y palabras clave o combinaciones de ellas.

Primero Búsqueda Hoviki recibió hasta 2000 solicitudes por día e indexó cientos de miles de páginas. Hoy, la cantidad de solicitudes por día asciende a cientos de millones de páginas y decenas de millones.

PAGS motores de búsqueda hasta World Wide Web.

Primero Búsqueda ovikami Internet y había programas "gopher" y "Archie". Ellos indexaron archivos ubicados en conectados Internet servidores, reduciendo repetidamente el tiempo de Búsqueda los documentos necesarios. A fines de la década de 1980, la capacidad de trabajar en Internet no se redujo a la capacidad de usar Archie, Gopher, Veronica y similares Búsqueda nuevos programas

Este Dia web se convirtió en la parte más solicitada Internet y la mayoria Internet los usuarios realizan Búsqueda solo en World Wide Web (www).

Robot- araña

El programa de robot utilizado en Búsqueda máquinas nuevas, también se le llama "araña", araña(araña), realiza el proceso de creación de una lista de palabras que se encuentran en la página de recursos para bodas. El proceso se llama rastreo web(gateando). Búsqueda nuevo araña mira a través de muchas otras páginas, crea y corrige una lista de palabras útiles, es decir, tener algún significado, peso.

Viaje a través Búsqueda tu en la red araña (spider) comienza con el servidor más grande y las páginas web más populares. Habiendo pasado por alto dicho sitio e indexado todas las palabras encontradas, rastrea otros sitios utilizando los enlaces encontrados. De esta forma, el robot araña captura todo el espacio web.

Los fundadores de Google, Sergey Brin y Laurence Page, dan un ejemplo del trabajo de Google araña ov. Hay varios. Búsqueda comienza tres araña amigo Una araña admite hasta 300 conexiones de página al mismo tiempo. Carga máxima, cuatro araña y son capaces de procesar hasta cien páginas por segundo, mientras generan un tráfico de unos 600 kilobytes/seg. De momento, cuando leas esto, los números te pueden parecer ridículos.

Palabras clave para el robot del motor de búsqueda

Por lo general, el propietario de un recurso web quiere ser incluido en Búsqueda nuevos resultados para los requeridos Búsqueda Vaya palabras. Estas palabras se llaman llave s. Klyuchev Las palabras definen la esencia del contenido de una página web. Y las metaetiquetas ayudan con esto. Luego le ofrecen al robot de búsqueda una opción llave th palabras utilizadas para indexar la página. Pero no recomendamos agregar etiquetas meta a consultas populares que no estén relacionadas con el contenido de la página en sí. Los robots de los motores de búsqueda luchan contra este fenómeno, y tendrá suerte si simplemente omite metaetiquetas con llave es decir, no corresponder al contenido de las páginas.

Las etiquetas meta son una herramienta muy útil cuando llave Las primeras palabras de ellos se repiten varias veces en el texto de la página. Pero no exagere, existe la posibilidad de que el robot tome la página como una puerta.

Algoritmos de indexación de motores de búsqueda

Algoritmos Búsqueda Los hoviks se enfocan en la efectividad del resultado final, pero todos tienen diferentes enfoques al respecto. Lycos Búsqueda Los nuevos robots indexan palabras en el título (título), enlaces (links) y hasta cien palabras de uso frecuente en la página y cada palabra de las primeras 20 líneas del contenido de la página.

Googlebot tiene en cuenta la ubicación de la palabra en la página (en el elemento del cuerpo). Palabras de secciones de servicio, como subtitulos, título, etiquetas meta et al., marca como especialmente importante, excluyendo las interjecciones "a", "an" y "the.".

Otro Búsqueda oviki puede tener una forma ligeramente diferente de abordar la indexación de palabras utilizadas para Búsqueda nuevas solicitudes de los usuarios.

Las colecciones de enlaces temáticos son listas compiladas por un grupo de profesionales o incluso por coleccionistas individuales. Muy a menudo, un tema altamente especializado puede ser cubierto mejor por un especialista que por un grupo de empleados de un gran catálogo. Hay tantas colecciones temáticas en la Web que no tiene sentido dar direcciones específicas.

Selección de nombre de dominio

El catálogo es un sistema de búsqueda conveniente, sin embargo, para llegar al servidor de Microsoft o IBM, apenas tiene sentido consultar el catálogo. No es difícil adivinar el nombre del sitio correspondiente: www.microsoft.com , www.ibm.com o www.microsoft.ru , www.ibm.ru - sitios de las oficinas de representación rusas de estas empresas.

Del mismo modo, si un usuario necesita un sitio dedicado al clima mundial, es lógico que lo busque en el servidor www.weather.com. En la mayoría de los casos, buscar un sitio con una palabra clave en el título es más eficiente que buscar un documento en cuyo texto se usa esta palabra. Si una empresa (o proyecto) comercial occidental tiene un nombre monosilábico e implementa su propio servidor en la Web, es muy probable que su nombre encaje en el formato www.name.com, y para Runet (la parte rusa de la Web) - www.name.ru, donde nombre - el nombre de la empresa o proyecto. La adivinación de direcciones puede competir con éxito con otros métodos de búsqueda, porque con dicho motor de búsqueda, puede establecer una conexión con un servidor que no está registrado con ningún motor de búsqueda. Sin embargo, si no encuentras el nombre que buscas, tendrás que recurrir al buscador.

los motores de búsqueda

Dime qué buscas en Internet y te diré quién eres

Si la computadora fuera un sistema altamente inteligente que pudiera explicar fácilmente lo que está buscando, le daría dos o tres documentos, exactamente los que necesita. Pero, lamentablemente, no es así, y en respuesta a una solicitud, el usuario suele recibir una larga lista de documentos, muchos de los cuales no tienen nada que ver con lo que solicitó. Dichos documentos se denominan irrelevantes (del inglés relevante - apropiado, relevante). Por lo tanto, el documento relevante es el documento que contiene la información que está buscando. Obviamente, el porcentaje de documentos relevantes recibidos depende de la capacidad de emitir una solicitud de manera competente. La proporción de documentos relevantes en la lista de todos los documentos encontrados por el motor de búsqueda se denomina precisión de búsqueda. Los documentos irrelevantes se denominan ruido. Si todos los documentos encontrados son relevantes (sin ruido), la precisión de la búsqueda es del 100 %. Si se encuentran todos los documentos relevantes, entonces la integridad de la búsqueda es del 100%.

Por lo tanto, la calidad de la búsqueda está determinada por dos parámetros interdependientes: la precisión y la exhaustividad de la búsqueda. Aumentar la integridad de la búsqueda reduce la precisión y viceversa.

Cómo funciona un motor de búsqueda

Los motores de búsqueda se pueden comparar con una mesa de ayuda, cuyos agentes recorren las empresas recopilando información en una base de datos (Figura 4.21). Al contactar con el servicio, la información se emite desde esta base de datos. Los datos de la base de datos quedan obsoletos, por lo que los agentes los actualizan periódicamente. Algunas empresas envían datos sobre ellas mismas y los agentes no tienen que acudir a ellas. En otras palabras, la mesa de ayuda tiene dos funciones: crear y actualizar constantemente datos en la base de datos y buscar información en la base de datos a pedido del cliente.

Arroz. 4.21.

Igualmente, buscador consta de dos partes: el llamado robot (o araña), que pasa por alto los servidores web y forma una base de datos del motor de búsqueda.

La base del robot está formada principalmente por él mismo (el propio robot encuentra enlaces a nuevos recursos) y, en mucha menor medida, por los propietarios de los recursos que registran sus sitios en el motor de búsqueda. Además del robot (agente de red, araña, gusano) que forma la base de datos, existe un programa que determina la calificación de los enlaces encontrados.

El principio de funcionamiento de un motor de búsqueda es que consulta en su directorio interno (base de datos) las palabras clave que el usuario especifica en el campo de consulta y produce una lista de enlaces clasificados por relevancia.

Cabe señalar que, al procesar la solicitud de un usuario específico, el motor de búsqueda opera precisamente con recursos internos (y no se embarca en un viaje a través de la Web, como suelen creer los usuarios inexpertos), y los recursos internos son naturalmente limitados. Aunque la base de datos del motor de búsqueda se actualiza constantemente, buscador no puede indexar todos los documentos web: su número es demasiado grande. Por lo tanto, siempre existe la posibilidad de que el recurso que está buscando sea simplemente desconocido para un motor de búsqueda en particular.

Esta idea se ilustra claramente en la Fig. 4.22. La elipse 1 limita el conjunto de todos los documentos web que existen en algún momento, la elipse 2 - todos los documentos indexados por este motor de búsqueda y la elipse 3 - los documentos requeridos. Por lo tanto, utilizando este motor de búsqueda, puede encontrar solo la parte de los documentos requeridos que están indexados por él.

Arroz. 4.22.

El problema de una búsqueda insuficiente no es solo los recursos internos limitados del motor de búsqueda, sino también el hecho de que la velocidad del robot es limitada y la cantidad de nuevos documentos web crece constantemente. Aumentar los recursos internos del motor de búsqueda no puede resolver completamente el problema, ya que la velocidad de rastreo de recursos por parte del robot es finita.

Al mismo tiempo, suponga que buscador contiene una copia de los recursos originales de Internet estaría mal. La información completa (documentos de origen) no siempre se almacena, la mayoría de las veces solo se almacena una parte de ella: la llamada lista indexada o índice, que es mucho más compacto que el texto de los documentos y le permite responder rápidamente a consultas de búsqueda.

Para crear un índice, los datos de origen se transforman para que el volumen de la base de datos sea mínimo y la búsqueda sea muy rápida y proporcione la máxima información útil. Al explicar qué es una lista indexada, se puede trazar un paralelo con su contraparte en papel: la llamada concordancia, es decir. un diccionario que enumera en orden alfabético las palabras utilizadas por un escritor en particular, así como las referencias a ellas y la frecuencia de su uso en sus obras.

Obviamente, la concordancia (diccionario) es mucho más compacta que los textos originales de las obras y encontrar la palabra correcta en ella es mucho más fácil que hojear el libro esperando encontrar la palabra correcta.

edificio de índice

El esquema de construcción del índice se muestra en la fig. 4.23. Los agentes web, o robots araña, se "rastrean" por la web, analizan el contenido de las páginas web y recopilan información sobre qué se encontró en qué página.

Arroz. 4.23.

Al encontrar la siguiente página HTML, la mayoría de los motores de búsqueda capturan las palabras, imágenes, enlaces y otros elementos (en diferentes motores de búsqueda de diferentes maneras) que contiene. Además, al rastrear palabras en una página, no solo se registra su presencia, sino también su ubicación, es decir, donde se ubican estas palabras: en el titulo (title), subtitulos (subtitles), en meta tags 1 Las metaetiquetas son etiquetas de servicio que permiten a los desarrolladores colocar información de servicio en páginas web, incluso para orientar el motor de búsqueda.(etiquetas meta) o en cualquier otro lugar. En este caso, las palabras significativas suelen ser fijas y se ignoran las conjunciones e interjecciones como "a", "pero" y "o". Las metaetiquetas permiten a los propietarios de las páginas definir las palabras clave y los temas para los que se indexa una página. Esto puede ser relevante cuando las palabras clave tienen múltiples significados. Las etiquetas meta pueden guiar al motor de búsqueda a la hora de elegir entre varios significados de una palabra hasta el único correcto. Sin embargo, las etiquetas meta solo funcionan de manera confiable cuando las completan propietarios de sitios honestos. Los propietarios de sitios Web sin escrúpulos colocan en sus etiquetas meta las palabras más populares en la Web que no tienen nada que ver con el tema del sitio. Como resultado, los visitantes llegan a sitios no solicitados, lo que aumenta su clasificación. Es por eso que muchos motores de búsqueda modernos ignoran las metaetiquetas o las consideran adicionales al texto de la página. Cada robot mantiene su propia lista de recursos sancionados por publicidad desleal.

Obviamente, si busca sitios usando la palabra clave "perro", entonces el motor de búsqueda debería encontrar no solo todas las páginas donde se menciona la palabra "perro", sino también aquellas donde esta palabra está relacionada con el tema del sitio. Para determinar hasta qué punto una palabra en particular es relevante para el perfil de una determinada página web, es necesario evaluar con qué frecuencia aparece en la página, si hay enlaces a otras páginas para esta palabra o no. En resumen, es necesario clasificar las palabras que se encuentran en la página en orden de importancia. A las palabras se les asignan pesos según cuántas veces y dónde aparecen (en el título de la página, al principio o al final de la página, en un enlace, en una metaetiqueta, etc.). Cada motor de búsqueda tiene su propio algoritmo de ponderación; esta es una de las razones por las que los motores de búsqueda dan diferentes listas de recursos para la misma palabra clave. Debido a que las páginas se actualizan constantemente, el proceso de indexación debe ser continuo. Los Spiderbots atraviesan enlaces y crean un archivo que contiene un índice, que puede ser bastante grande. Para reducir su tamaño, recurren a minimizar la cantidad de información y comprimir el archivo. Con varios robots, un motor de búsqueda puede procesar cientos de páginas por segundo. Hoy en día, los potentes motores de búsqueda almacenan cientos de millones de páginas y reciben decenas de millones de consultas al día.

Al construir un índice, también se resuelve el problema de reducir el número de duplicados, una tarea no trivial, dado que para una comparación correcta, primero debe determinar la codificación del documento. Una tarea aún más difícil es separar documentos que son muy similares (llamados "casi duplicados"), como aquellos en los que solo difiere el título y el texto está duplicado. Hay muchos documentos similares en la Web; por ejemplo, alguien escribió un resumen y lo publicó en el sitio con su firma. Los motores de búsqueda modernos le permiten resolver tales problemas.

¿Cómo funcionan los motores de búsqueda? Una de las mejores cosas de Internet es que hay cientos de millones de recursos web esperando y listos para ser presentados ante nosotros. Pero lo malo es que existen los mismos millones de páginas que, aunque las necesitemos, no aparecerán ante nosotros, porque. son simplemente desconocidos para nosotros. ¿Cómo saber qué y dónde se puede encontrar en Internet? Por lo general, recurrimos a los motores de búsqueda para esto.

Los motores de búsqueda de Internet son sitios especiales en la red global que están diseñados para ayudar a las personas a encontrar la información que necesitan en la World Wide Web. Existen diferencias en la forma en que los motores de búsqueda realizan sus funciones, pero en general existen 3 funciones básicas e idénticas:

Todos ellos "buscan" en Internet (o en algún sector de Internet), basándose en palabras clave dadas;
- todos los motores de búsqueda indexan las palabras que buscan y los lugares donde las encuentran;
- todos los motores de búsqueda permiten a los usuarios buscar palabras o combinaciones de palabras clave basadas en páginas web ya indexadas e ingresadas en sus bases de datos.

Los primeros motores de búsqueda indexaron hasta varios cientos de miles de páginas y recibieron de 1000 a 2000 consultas por día. Hoy en día, los principales motores de búsqueda han indexado y están indexando continuamente cientos de millones de páginas, procesando decenas de millones de solicitudes por día. A continuación hablaremos de cómo funcionan los buscadores y cómo "añaden" toda la información que encuentran para poder responder a cualquier pregunta que nos interese.

echemos un vistazo a la red

Cuando la gente habla de motores de búsqueda en Internet, en realidad se refiere a motores de búsqueda. World Wide Web. Antes de que la Web se convirtiera en la parte más visible de Internet, ya existían motores de búsqueda para ayudar a las personas a encontrar información en la Web. Los programas llamados "gopher" y "Archie" pudieron indexar archivos alojados en diferentes servidores conectados a Internet y redujeron significativamente el tiempo dedicado a buscar los programas o documentos correctos. A fines de los años 80 del siglo pasado, el sinónimo de "la capacidad de trabajar en Internet" era la capacidad de usar Gopher, Archie, Veronica, etc. buscar programas Hoy en día, la mayoría de los usuarios de Internet limitan sus búsquedas a la World Wide Web o WWW.

pequeño comienzo

Antes de responderle dónde encontrar el documento o archivo deseado, este archivo o documento ya debe haber sido encontrado en algún momento. Para encontrar información sobre cientos de millones de páginas WEB existentes, el motor de búsqueda utiliza un programa de robot especial. Este programa también se llama araña ("araña", araña) y se usa para construir una lista de palabras que se encuentran en la página. El proceso de construcción de dicha lista se llama rastreo web(Rastreo web). Para construir y confirmar aún más una lista de palabras "útil" (significativa), la araña de búsqueda debe "desplazarse" por muchas otras páginas.

¿Cómo empieza alguien? araña(araña) tu viaje web? Por lo general, el punto de partida son los servidores más grandes del mundo y las páginas web más populares. La araña comienza su viaje desde dicho sitio, indexa todas las palabras encontradas y continúa su movimiento, siguiendo enlaces a otros sitios. Por lo tanto, el robot araña comienza a cubrir todas las "piezas" grandes del espacio web. Google.com comenzó como un motor de búsqueda académico. En un artículo que describe cómo se creó este motor de búsqueda, Sergey Brin y Laurence Page (fundadores y propietarios de Google) dieron un ejemplo de cuán rápido funcionan las arañas de Google. Hay varios de ellos y, por lo general, la búsqueda comienza con el uso de 3 arañas. Cada araña mantiene hasta 300 conexiones abiertas simultáneas a páginas web. En pico de carga, utilizando 4 arañas, el sistema de Google es capaz de procesar 100 páginas por segundo, generando un tráfico de unos 600 kilobytes/seg.

Para proporcionar a las arañas los datos que necesitan procesar, Google solía tener un servidor que no hacía más que "lanzar" a las arañas con más y más URL. Para no depender de los proveedores de servicios de Internet en términos de servidores de nombres de dominio (DNS) que traducen URL a direcciones IP, Google ha adquirido su propio servidor DNS, lo que reduce al mínimo todo el tiempo dedicado a la indexación de páginas.

Cuando Googlebot visita una página HTML, tiene en cuenta 2 cosas:

Palabras (texto) por página;
- su ubicación (en qué parte del cuerpo de la página).

Palabras ubicadas con secciones de servicio como título, subtítulos, metaetiquetas et al., fueron señalados como particularmente importantes para las búsquedas de los usuarios. La araña de Google se creó para indexar todas las palabras similares en una página, con la excepción de interjecciones como "a", "an" y "the". Otros motores de búsqueda tienen un enfoque ligeramente diferente a la indexación.

Todos los enfoques y algoritmos de los motores de búsqueda están destinados en última instancia a hacer que los robots araña funcionen de manera más rápida y eficiente. Por ejemplo, algunos robots de búsqueda rastrean al indexar las palabras del título, los enlaces y hasta 100 de las palabras más utilizadas en la página, e incluso cada una de las palabras de las primeras 20 líneas del contenido de texto de la página. Este es el algoritmo de indexación, en particular, para Lycos.

Otros motores de búsqueda, como AltaVista, van en la otra dirección, indexando cada palabra en una página, incluyendo "a", "an", "the" y otras palabras sin importancia.

Metaetiquetas

Las etiquetas meta permiten al propietario de una página web especificar palabras clave y conceptos que definen la esencia de su contenido. Esta es una herramienta muy útil, especialmente cuando estas palabras clave se pueden repetir hasta 2-3 veces en el texto de la página. En este caso, las etiquetas meta pueden "dirigir" al robot de búsqueda a la elección correcta de palabras clave para indexar la página. Existe la posibilidad de "engañar" las etiquetas meta en exceso de las consultas de búsqueda populares y los conceptos que no tienen nada que ver con el contenido de la página en sí. Los robots de búsqueda pueden lidiar con esto, por ejemplo, analizando la correlación de las metaetiquetas y el contenido de la página web, "desechando" aquellas metaetiquetas (palabras clave respectivamente) que no coinciden con el contenido de las páginas.

Todo esto se aplica a aquellos casos en los que el propietario de un recurso web realmente quiere ser incluido en los resultados de búsqueda de las palabras de búsqueda deseadas. Pero a menudo sucede que el propietario no quiere que el robot lo indexe en absoluto. Pero tales casos no pertenecen al tema de nuestro artículo.

edificio de índice

Una vez que las arañas han terminado su trabajo de encontrar nuevas páginas web, los motores de búsqueda deben colocar toda la información que encuentran de una manera que sea fácil de usar más adelante. Hay 2 componentes clave que importan aquí:

Información almacenada con datos;
- el método por el cual se indexa esta información.

En el caso más sencillo, el buscador podría simplemente colocar la palabra y la URL donde se encuentra. Pero esto convertiría al motor de búsqueda en una herramienta muy primitiva, ya que no hay información sobre en qué parte del documento se encuentra esta palabra (metaetiquetas o en texto sin formato), si esta palabra se usa una vez o repetidamente, y si está contenido en un enlace a otro recurso importante y relacionado. En otras palabras, este método no le permitirá clasificar sitios, no proporcionará a los usuarios resultados relevantes, etc.

Para brindarnos datos útiles, los motores de búsqueda almacenan más que solo información de una palabra y su URL. El motor de búsqueda puede guardar datos sobre el número (frecuencia) de menciones de una palabra en una página, asignar un "peso" a la palabra, lo que ayudará aún más a generar listados de búsqueda (resultados) basados en la clasificación de peso para esta palabra, teniendo en cuenta su ubicación (en enlaces, meta tags, título de la página, etc.). Cada motor de búsqueda comercial tiene su propia fórmula para calcular el "peso" de las palabras clave al indexar. Esta es una de las razones por las que los motores de búsqueda dan resultados muy diferentes para la misma consulta de búsqueda.

El siguiente punto importante en el procesamiento de la información encontrada es su codificación para reducir la cantidad de espacio en disco para su almacenamiento. Por ejemplo, en el artículo original de Google, se describe que se utilizan 2 bytes (8 bits cada uno) para almacenar los datos de peso de las palabras; esto tiene en cuenta el tipo de palabra (letras mayúsculas o minúsculas), el tamaño de la letras en sí (Tamaño de fuente) y otra información, que ayuda a clasificar el sitio. Cada "pieza" de información requiere de 2 a 3 bits de datos en un conjunto completo de 2 bytes. Como resultado, se puede almacenar una gran cantidad de información en una forma muy compacta. Después de "comprimir" la información, es hora de comenzar a indexar.

El propósito de la indexación es el mismo: proporcionar la búsqueda más rápida posible de la información necesaria. Hay varias formas de construir índices, pero la más eficiente es construir tablas hash(tabla de picadillo). Hashing utiliza una fórmula que asigna un valor numérico a cada palabra.

En cualquier idioma, hay letras que comienzan con muchas más palabras que con el resto de las letras del abecedario. Por ejemplo, hay significativamente más palabras que comienzan con las letras "M" en la sección del diccionario de inglés que aquellas que comienzan con la letra "X". Esto significa que buscar una palabra que comience con la letra más popular llevará más tiempo que cualquier otra palabra. hash(Hashing) iguala esta diferencia y reduce el tiempo promedio de búsqueda, y también separa el índice en sí de los datos reales. La tabla hash contiene los valores hash junto con un puntero a los datos correspondientes a ese valor. La indexación eficiente + la ubicación eficiente juntas brindan una alta velocidad de búsqueda, incluso si el usuario establece una consulta de búsqueda muy compleja.

El futuro de los motores de búsqueda

Una búsqueda basada en operadores booleanos ("y", "o", "no") es una búsqueda literal: el motor de búsqueda obtiene las palabras de búsqueda exactamente como se ingresan. Esto puede causar un problema cuando, por ejemplo, la palabra ingresada tiene múltiples significados. "Clave", por ejemplo, podría significar "significa abrir una puerta" o podría significar "contraseña" para ingresar a un servidor. Si solo está interesado en un significado de una palabra, obviamente no necesitará datos sobre su segundo significado. Por supuesto, puede crear una consulta literal que le permita excluir la salida de datos sobre el significado innecesario de la palabra, pero sería bueno que el motor de búsqueda pudiera ayudarlo.

Un área de investigación en futuros algoritmos de motores de búsqueda es la recuperación de información conceptual. Estos son algoritmos en los que se utiliza el análisis estadístico de páginas que contienen una palabra clave o frase de búsqueda determinada para encontrar datos relevantes. Claramente, tal "motor de búsqueda conceptual" necesitaría mucho más almacenamiento para cada página y más tiempo para procesar cada solicitud. Muchos investigadores están trabajando actualmente en este problema.

No menos intenso se está trabajando en el campo del desarrollo de algoritmos de búsqueda basados en consultas. lenguaje natural(Consulta en lenguaje natural).

La idea detrás de las consultas naturales es que puede escribir una consulta como si le estuviera preguntando a un colega sentado frente a usted. No tiene que preocuparse por los operadores booleanos ni pasar por la molestia de crear una consulta compleja. El sitio de búsqueda de lenguaje de búsqueda natural más popular hoy en día es AskJeeves.com. Convierte la consulta en palabras clave, que luego utiliza al indexar sitios. Este enfoque solo funciona para consultas simples. Sin embargo, el progreso no se detiene, es posible que muy pronto "hablemos" con los motores de búsqueda en nuestro propio "lenguaje humano".

1.1.1. Componentes del motor de búsqueda

La información en la Web no solo se repone, sino que también cambia constantemente, pero nadie le cuenta a nadie sobre estos cambios. No existe un sistema único de ingreso de información que esté disponible simultáneamente para todos los usuarios de Internet. Por lo tanto, para estructurar la información y proporcionar a los usuarios medios convenientes para buscar datos, se crearon motores de búsqueda.

Los motores de búsqueda son de diferentes tipos. Algunos de ellos buscan información en función de lo que la gente pone en ellos. Estos pueden ser directorios donde los editores ingresan información sobre sitios, sus breves descripciones o reseñas. Se buscan entre estas descripciones.

Estos últimos recopilan información en la Web mediante programas especiales. Estos son motores de búsqueda, que consisten, por regla general, en tres componentes principales:

Índice;

buscador.

Agente, o más comúnmente: una araña, un robot (en la literatura inglesa: araña, rastreador), en busca de información, pasa por alto la red o una parte determinada de ella. Este robot mantiene una lista de direcciones (URL) que puede visitar e indexar, descarga los documentos correspondientes a los enlaces y los analiza a intervalos regulares para cada motor de búsqueda. El robot guarda el contenido resultante de las páginas en una forma más compacta y lo transfiere al índice. Si se encuentra un nuevo enlace durante el análisis de la página (documento), el robot lo agregará a su lista. Por lo tanto, cualquier documento o sitio que tenga enlaces puede ser encontrado por el robot. Por el contrario, si no hay enlaces externos al sitio o cualquier parte del mismo, es posible que el robot no lo encuentre.

Un robot no es solo un recolector de información. Tiene una "inteligencia" bastante desarrollada. Los robots pueden buscar sitios de un tema determinado, generar listas de sitios ordenados por tráfico, extraer y procesar información de bases de datos existentes y pueden seguir enlaces de varias profundidades de anidamiento. Pero en cualquier caso, pasan toda la información encontrada a la base de datos (Índice) del buscador.

Los robots de búsqueda son de varios tipos:

? Araña(spider) es un programa que descarga páginas web de la misma forma que el navegador del usuario. La diferencia es que el navegador muestra la información contenida en la página (texto, gráficos, etc.), mientras que la araña no tiene ningún componente visual y trabaja directamente con el texto HTML de la página (similar a lo que verá si active la vista de código HTML en su navegador).

? Tractor(rastreador, araña "viajera"): resalta todos los enlaces presentes en la página. Su tarea es determinar a dónde debe ir la araña a continuación, basándose en enlaces o en una lista predefinida de direcciones. El rastreador, siguiendo los enlaces encontrados, busca nuevos documentos que aún son desconocidos para el motor de búsqueda.

? indexador analiza la página en sus componentes y los analiza. Se seleccionan y analizan varios elementos de la página, como texto, encabezados, características estructurales y de estilo, etiquetas HTML de servicios especiales, etc.

Índice- esta es la parte del motor de búsqueda en la que se busca información. El índice contiene todos los datos que le pasaron los robots, por lo que el tamaño del índice puede alcanzar cientos de gigabytes. De hecho, el índice contiene copias de todas las páginas visitadas por robots. Si el robot detecta un cambio en una página que ya ha indexado, envía información actualizada al Índice. Debería reemplazar a la existente, pero en algunos casos no solo aparece una nueva página en el Índice, sino que también se mantiene la página anterior.

buscador es la interfaz misma por la cual el visitante interactúa con el Índice. A través de la interfaz, los usuarios ingresan sus solicitudes y reciben respuestas, y los propietarios del sitio los registran (y este registro es otra forma de transmitir la dirección de su sitio al robot). Al procesar una consulta, el motor de búsqueda selecciona las páginas y los documentos correspondientes entre los muchos millones de recursos indexados y los organiza en orden de importancia o relevancia para la consulta.

Contrariamente a la creencia popular, el robot no está directamente involucrado en ningún procesamiento de documentos escaneados. Él solo los lee y guarda, luego otros programas realizan su procesamiento. Se puede obtener una confirmación visual analizando los registros de un sitio que se indexa por primera vez. En la primera visita, el bot primero solicita el archivo robots.txt, luego la página principal del sitio. Es decir, sigue el único vínculo que conoce. Aquí es donde siempre termina la primera visita del bot. Después de un tiempo (generalmente al día siguiente), el bot solicita las siguientes páginas, utilizando los enlaces que se encuentran en la página ya leída. Luego, el proceso continúa en el mismo orden: una solicitud de páginas cuyos enlaces ya se han encontrado, una pausa para procesar los documentos leídos, la próxima sesión con una solicitud de enlaces encontrados.

Analizar páginas "sobre la marcha" significaría mucho más sobre mayor intensidad de recursos del robot y pérdida de tiempo. Cada Scan Server ejecuta muchos procesos de bot en paralelo. Deben actuar lo más rápido posible para tener tiempo de leer nuevas páginas y releer las ya conocidas. Por lo tanto, los bots solo leen y guardan documentos. Todo lo que guardan se pone en cola para su procesamiento (desmontaje del código). Los enlaces encontrados durante el procesamiento de la página se colocan en la cola de tareas para los bots. Entonces hay un escaneo continuo de toda la red. Lo único que el bot puede y debe analizar sobre la marcha es el archivo robots.txt, para no solicitar direcciones que en él están prohibidas. Durante cada sesión de rastreo del sitio, el robot primero solicita este archivo y, después, todos los que están en cola para escanear la página.

Tipos de robots de búsqueda

Cada motor de búsqueda tiene su propio conjunto de robots para diferentes propósitos.
Básicamente, difieren en su propósito funcional, aunque los límites son muy condicionales, y cada motor de búsqueda los entiende a su manera. Para los sistemas de solo búsqueda de texto completo, un robot es suficiente para todas las ocasiones. Para aquellos motores de búsqueda que no solo se ocupan de texto, los bots se dividen en al menos dos categorías: para textos e imágenes. También hay bots separados dedicados a tipos específicos de contenido: móvil, blog, noticias, video, etc.

robots de Google

Todos los bots de Google se conocen colectivamente como Googlebot. El indexador de robot principal "se representa a sí mismo" de la siguiente manera:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Este bot está ocupado rastreando páginas HTML y otros documentos para la búsqueda principal de Google. También lee archivos CSS y JS de vez en cuando; en su mayoría, puede notar esto en una etapa temprana de la indexación del sitio, mientras el bot rastrea el sitio por primera vez. Los tipos de contenido aceptados son todos (Aceptar: */*).

El segundo de los bots principales está ocupado escaneando imágenes del sitio. Simplemente "aparece":

Googlebot-Imagen/1.0

Incluso en los registros, se vieron al menos tres bots recopilando contenido para la versión móvil de la búsqueda. El campo User-agent de los tres termina con la línea:

(compatible; Googlebot-Móvil/2.1; +http://www.google.com/bot.html)

Antes de esta línea está el modelo de móvil con el que es compatible este bot. Los bots notados tienen modelos de teléfonos Nokia, Samsung y iPhone. Los tipos de contenido aceptados son todos, pero priorizados:

Aceptar: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Robots Yandex

De los motores de búsqueda activos en Runet, Yandex tiene la mayor colección de bots. Consulte la sección de ayuda para webmasters para obtener una lista oficial de todo el personal de araña. No tiene sentido darlo aquí completo, ya que periódicamente se producen cambios en esta lista.
Sin embargo, los robots Yandex más importantes para nosotros deben mencionarse por separado.
Robot indexador principal llamado actualmente

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Previamente presentado como

Yandex/1.01.001 (compatible; Win16; yo)

Lee páginas HTML de sitios web y otros documentos para su indexación. La lista de tipos de medios aceptados anteriormente se limitaba a:

Aceptar: texto/html, aplicación/pdf;q=0.1, aplicación/rtf;q=0.1, texto/rtf;q=0.1, aplicación/msword;q=0.1, aplicación/x-shockwave-flash;q=0.1, aplicación/vnd.ms-excel;q=0.1, aplicación/vnd.ms-powerpoint;q=0.1

Desde el 31 de julio de 2009, se ha notado una expansión significativa en esta lista (el número de tipos casi se ha duplicado), y desde el 10 de noviembre de 2009, la lista se ha reducido a */* (todos los tipos).
Este robot está muy interesado en un conjunto muy específico de idiomas: ruso, un poco menos ucraniano y bielorruso, un poco menos inglés y muy poco, todos los demás idiomas.

Aceptar idioma: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Robot escáner de imágenes lleva la siguiente cadena en el campo User-agent:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Dedicado a escanear gráficos de diferentes formatos para buscar en imágenes.

A diferencia de Google, Yandex tiene bots separados para servir algunas funciones especiales de búsqueda general.
Robot "espejo"

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

No hace nada particularmente complicado: aparece periódicamente y verifica si la página principal del sitio coincide con www al acceder al dominio. y sin. También comprueba los dominios "espejos" paralelos en busca de coincidencias. Aparentemente, un paquete de software separado que no está directamente relacionado con la indexación se ocupa de los espejos y la forma canónica de dominios en Yandex. De lo contrario, no hay absolutamente nada que explique la existencia de un bot separado para este propósito.

selector de iconos favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Periódicamente aparece y solicita el icono de favicon.ico, que luego aparece en los resultados de búsqueda junto al enlace al sitio. Se desconoce por qué razones el selector de imágenes no combina este deber. Aparentemente, también hay un paquete de software separado.

Comprobar robot para sitios nuevos, funciona cuando se agrega al formulario AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Este bot verifica la respuesta del sitio enviando una solicitud HEAD a la URL raíz. Por lo tanto, se comprueba la existencia de una página maestra en el dominio y se analizan los encabezados HTTP de esta página. El bot también solicita el archivo robots.txt en la raíz del sitio. Por lo tanto, después de enviar un enlace a AddURL, se determina que el sitio existe y que ni los encabezados robots.txt ni HTTP prohíben el acceso a la página principal.

Caminante robot

Actualmente ya no funciona, porque Rambler ahora usa la búsqueda de Yandex
El robot de indexación Rambler es fácil de identificar en los registros por el campo Usuario-agente

StackRambler/2.0 (MSIE incompatible)

En comparación con sus "colegas" de otros motores de búsqueda, este bot parece bastante simple: no especifica una lista de tipos de medios (respectivamente, recibe el documento solicitado de cualquier tipo), falta el campo Aceptar-Idioma en la solicitud, y el campo If-Modified-since tampoco se encuentra en las solicitudes del bot.

Robot Mail.Ru

Poco se sabe sobre este robot. El portal Mail.Ru ha estado desarrollando su propia búsqueda durante mucho tiempo, pero aún no va a lanzar esta búsqueda. Por lo tanto, solo se conoce de manera confiable el nombre del bot en el agente de usuario: Mail.Ru/2.0 (anteriormente, Mail.Ru/1.0). El nombre del bot para las directivas del archivo robors.txt no se ha publicado en ninguna parte, se supone que el bot debería llamarse Mail.Ru.

Otros robots

La búsqueda en Internet, por supuesto, no se limita a dos motores de búsqueda. Por lo tanto, hay otros robots, por ejemplo, el robot Bing, un motor de búsqueda de Microsoft y otros robots. Entonces, en particular, en China hay un motor de búsqueda nacional Baidu, pero es poco probable que su robot llegue a la mitad del río y llegue al sitio ruso.

Además, recientemente han surgido muchos servicios, en particular solomono, que, aunque no son motores de búsqueda, también escanean sitios. A menudo, el valor de pasar información sobre el sitio a dichos sistemas es cuestionable y, por lo tanto, sus robots pueden prohibirse en