Ev / tavsiye/ Arama motoru örümceklerinin yaptığı iş. Google tarayıcısı: ne yapar?

Arama motoru örümcekleri ne iş yapar? Google tarayıcısı: ne yapar?

Arama motorları nasıl çalışır? İnternetin en güzel yanlarından biri, bize sunulmayı bekleyen yüz milyonlarca web kaynağının olmasıdır. Ama kötü olan şey şu ki, onlara ihtiyacımız olsa bile önümüzde görünmeyecek aynı milyonlarca sayfa var, çünkü. bizim için bilinmiyor. İnternette neyin ve nerede bulunabileceğini nasıl öğrenebilirim? Bunun için genellikle arama motorlarına yöneliriz.

İnternet arama motorları özel sitelerdir. küresel ağ, insanların bulmasına yardımcı olmak için tasarlanmış Dünya çapında Ağ ihtiyaç duydukları bilgiler. Arama motorlarının işlevlerini yerine getirme biçiminde farklılıklar vardır, ancak genel olarak 3 temel ve aynı işlev vardır:

Hepsi, verilen anahtar kelimelere göre İnternet'te (veya İnternet'in bazı sektörlerinde) "arama" yapar;
- tüm arama motorları aradıkları kelimeleri ve onları buldukları yerleri dizine ekler;
- tüm arama motorları, kullanıcıların zaten indekslenmiş ve veritabanlarına girilmiş web sayfalarını temel alarak kelimeleri veya anahtar kelime kombinasyonlarını aramasına izin verir.

İlk arama motorları birkaç yüz bin sayfayı indeksledi ve günde 1.000 ila 2.000 sorgu aldı. Bugün, en iyi arama motorları yüz milyonlarca sayfayı dizine ekledi ve sürekli olarak dizine ekleyerek günde on milyonlarca isteği işliyor. Aşağıda, arama motorlarının nasıl çalıştığından ve bizi ilgilendiren herhangi bir soruya cevap verebilmek için bulunan tüm bilgileri nasıl "eklediklerinden" bahsedeceğiz.

Web'e bakalım

İnsanlar hakkında konuştuğunda İnternet arama motorları makineler, gerçekten arama motorlarını kastediyorlar Dünya çapında Ağ. Web en çok haline gelmeden önce görünen kısımİnternet, insanların web'de bilgi bulmasına yardımcı olan arama motorları zaten vardı. "Gopher" ve "Archie" adlı programlar, bağlı farklı sunucularda barındırılan dosyaları indeksleyebildi. internet interneti ve aramaya harcanan zamanı defalarca azalttı istenilen programlar veya belgeler. Geçen yüzyılın 80'li yıllarının sonlarında, "İnternette çalışma yeteneği" ile eşanlamlı, sincap, Archie, Veronica vb. arama programları Bugün, çoğu İnternet kullanıcısı aramalarını World Wide Web veya WWW ile sınırlandırmaktadır.

küçük başlangıç

Nerede bulacağınızı cevaplamadan önce istenen belge veya dosya, bu dosya veya belge zaten bir noktada bulunmalıdır. Arama motoru, yüz milyonlarca mevcut WEB sayfası hakkında bilgi bulmak için özel bir robot programı kullanır. Bu program aynı zamanda örümcek ("örümcek", örümcek) olarak da adlandırılır ve sayfada bulunan kelimelerin bir listesini oluşturmak için kullanılır. Böyle bir liste oluşturma işlemine denir. web taraması(Web taraması). "Yararlı" (anlamlı) bir kelime listesi oluşturmak ve uygulamak için, arama örümceğinin birçok başka sayfayı "kaydırması" gerekir.

Herkes nasıl başlar? örümcek(örümcek) web yolculuğunuz? Genellikle çıkış noktası dünyanın en büyük sunucuları ve çok popüler web sayfalarıdır. Örümcek, yolculuğuna böyle bir siteden başlar, bulduğu tüm kelimeleri indeksler ve diğer sitelere verilen bağlantıları izleyerek hareketini daha da sürdürür. Böylece örümcek robot, ağ alanının tüm büyük "parçalarını" kaplamaya başlar. Google.com akademik bir arama motoru olarak başladı. Bu arama motorunun nasıl oluşturulduğunu anlatan bir makalede, Sergey Brin ve Laurence Page (Google'ın kurucuları ve sahipleri), Google örümceklerinin ne kadar hızlı çalıştığına dair bir örnek verdiler. Birkaç tane var ve genellikle arama 3 örümceğin kullanılmasıyla başlar. Her örümcek, web sayfalarına 300 adede kadar eşzamanlı açık bağlantı sağlar. En yüksek yükte, 4 örümcek kullanan Google sistemi saniyede 100 sayfa işleyebilir ve yaklaşık 600 kilobayt/sn trafik oluşturur.

Örümceklere işlemeleri gereken verileri sağlamak için Google, örümcekleri giderek daha fazla URL ile "atmaktan" başka bir şey yapmayan bir sunucuya sahipti. Google, url'yi IP adresine çeviren alan adı sunucuları (DNS) konusunda İnternet servis sağlayıcılarına bağımlı kalmamak için kendi Dns sunucusu, sayfaları indekslemek için harcanan tüm zamanı en aza indirir.

Googlebot bir HTML sayfasını ziyaret ettiğinde 2 şeyi hesaba katar:

Sayfa başına kelime (metin);
- konumları (sayfanın gövdesinin hangi bölümünde).

gibi hizmet bölümleriyle birlikte bulunan kelimeler başlık, alt yazılar, meta etiketler ve diğerleri, kullanıcı arama sorguları için özellikle önemli olarak işaretlendi. Google örümceği, "a", "an" ve "the." Diğer arama motorlarının indeksleme konusunda biraz farklı bir yaklaşımı vardır.

Arama motorlarının tüm yaklaşımları ve algoritmaları, nihayetinde örümcek robotların daha hızlı ve daha verimli çalışmasını sağlamayı amaçlamaktadır. Örneğin, bazı arama robotları başlıktaki kelimeleri, bağlantıları ve sayfada en sık kullanılan 100'e kadar kelimeyi ve hatta sayfanın metin içeriğinin ilk 20 satırındaki kelimelerin her birini indekslerken izler. Bu, özellikle Lycos için indeksleme algoritmasıdır.

AltaVista gibi diğer arama motorları, her birini dizine ekleyerek diğer yöne gider. tek kelime"a", "an", "the" ve diğer önemsiz sözcükleri içeren sayfalar.

Meta etiketleri

Meta etiketler, bir web sayfasının sahibinin belirtmesine izin verir. anahtar kelimeler ve içeriğinin özünü tanımlayan kavramlar. Bu, özellikle bu anahtar kelimeler sayfa metninde 2-3 defaya kadar tekrar edilebildiğinde çok kullanışlı bir araçtır. Bu durumda, meta etiketler tarayıcıyı şuraya "yönlendirebilir": doğru seçim sayfa indeksleme için anahtar kelimeler. Sayfanın içeriğiyle hiçbir ilgisi olmayan popüler arama sorguları ve kavramlarından çok daha fazla meta etiketi "aldatma" olasılığı vardır. Arama robotları, örneğin, meta etiketlerin ve web sayfası içeriğinin korelasyonunu analiz ederek, sayfaların içeriğiyle eşleşmeyen meta etiketleri (sırasıyla anahtar sözcükleri) "atarak" bununla başa çıkabilir.

Tüm bunlar, bir web kaynağının sahibinin gerçekten istenen arama kelimeleri için arama sonuçlarına dahil edilmek istediği durumlar için geçerlidir. Ancak çoğu zaman, mal sahibinin robot tarafından dizine eklenmek istemediği de olur. Ancak bu tür durumlar makalemizin konusuna ait değildir.

dizin oluşturma

Örümcekler yeni web sayfaları bulma işini bitirdikten sonra, arama motorları buldukları tüm bilgileri daha sonra kullanımı kolay bir şekilde yerleştirmelidir. Burada önemli olan 2 temel bileşen vardır:

Verilerle saklanan bilgiler;
- bu bilgilerin dizine eklendiği yöntem.

En basit durumda, arama motoru kelimeyi ve bulunduğu URL'yi basitçe yerleştirebilir. Ancak bu, arama motorunu çok ilkel bir araç haline getirecektir, çünkü bu kelimenin belgenin hangi bölümünde bulunduğu (meta etiketler veya düz metin olarak), bu kelimenin bir kez mi yoksa tekrar tekrar mı kullanıldığı ve olup olmadığı hakkında hiçbir bilgi yoktur. başka bir önemli ve ilgili kaynağa giden bağlantıda bulunur. Başka bir deyişle, bu yöntem siteleri sıralamanıza izin vermeyecek, kullanıcılara alakalı sonuçlar vb.

Bize faydalı veriler sağlamak için, arama motorları bir kelimeden ve onun URL'sinden gelen bilgilerden daha fazlasını depolar. Arama motoru, bir kelimenin bir sayfada geçtiği sayı (sıklık) verilerini kaydedebilir, kelimeye bir "ağırlık" atayabilir, bu da bu kelimenin ağırlık sıralamasına göre arama listelerinin (sonuçların) yayınlanmasına yardımcı olur konumunu dikkate alarak (bağlantılarda, meta etiketlerde, sayfa başlığında) vb.). Her ticari arama motorunun, indeksleme sırasında anahtar kelimelerin "ağırlığını" hesaplamak için kendi formülü vardır. Arama motorlarının aynı arama sorgusu için çok farklı sonuçlar vermesinin nedenlerinden biri de budur.

Sonraki önemli nokta bulunan bilgileri işlerken - depolaması için disk alanı miktarını azaltmak için kodlaması. Örneğin, orijinal Google makalesinde, kelimelerin ağırlık verilerini depolamak için 2 baytın (her biri 8 bit) kullanıldığı açıklanmaktadır - bu, kelimenin türünü (büyük veya büyük harfler), boyutunu dikkate alır. harflerin kendileri (Yazı Tipi-Boyutu) ve siteyi sıralamaya yardımcı olan diğer bilgiler. Bu tür her bilgi "parçası", tam bir 2 baytlık sette 2-3 bitlik veri gerektirir. Sonuç olarak, çok büyük miktarda bilgi çok kompakt bir biçimde saklanabilir. Bilgiler "sıkıştırıldıktan" sonra indekslemeye başlama zamanı.

İndekslemenin amacı aynıdır: maksimum sağlamak hızlı arama gerekli bilgi. Dizin oluşturmanın birkaç yolu vardır, ancak en etkili olanı, dizin oluşturmaktır. hash tabloları(karma tablo). Hashing, her kelimeye sayısal bir değer atayan bir formül kullanır.

Herhangi bir dilde, alfabenin geri kalan harflerinden çok daha fazla kelimeyle başlayan harfler vardır. Örneğin, İngilizce sözlük bölümünde "M" harfleriyle başlayan kelimeler, "X" harfiyle başlayan kelimelere göre önemli ölçüde daha fazladır. Bu, en popüler harfle başlayan bir kelimeyi aramanın diğer herhangi bir kelimeden daha uzun süreceği anlamına gelir. karma(Hashing) bu farkı eşitleyerek ortalama arama süresini azaltır ve aynı zamanda indeksin kendisini gerçek verilerden ayırır. Hash tablosu, hash değerlerini ve bu değere karşılık gelen verilere bir işaretçi içerir. Verimli indeksleme + verimli yerleştirme birlikte, kullanıcı çok karmaşık bir arama sorgusu ayarlasa bile yüksek arama hızı sağlar.

Arama motorlarının geleceği

Boole işleçlerine ("ve", "veya", "değil") dayalı bir arama değişmez bir aramadır -- arama motoru, arama sözcüklerini tam olarak girildikleri gibi alır. Bu, örneğin girilen kelimenin birden çok anlamı olduğunda bir soruna neden olabilir. Örneğin "anahtar", "bir kapıyı açmak" anlamına gelebilir veya bir sunucuya girmek için "şifre" anlamına gelebilir. Bir kelimenin yalnızca bir anlamı ile ilgileniyorsanız, ikinci anlamıyla ilgili verilere ihtiyacınız olmayacağı açıktır. Elbette, kelimenin gereksiz anlamına ilişkin verilerin çıktısını hariç tutmanıza izin verecek bir hazır bilgi sorgusu oluşturabilirsiniz, ancak arama motorunun size yardımcı olması iyi olur.

Gelecekteki arama motoru algoritmalarında bir araştırma alanı, kavramsal bilgi almadır. Bunlar, ilgili verileri bulmak için belirli bir arama anahtar kelimesini veya kelime öbeğini içeren sayfaların istatistiksel analizinin kullanıldığı algoritmalardır. Böyle bir "kavramsal arama motorunun" her sayfa için çok daha fazla depolamaya ve her talebi işlemek için daha fazla zamana ihtiyaç duyacağı açıktır. Birçok araştırmacı şu anda bu sorun üzerinde çalışıyor.

Sorgulara dayalı arama algoritmaları geliştirme alanında daha az yoğun çalışma yapılmamaktadır. Doğal lisan(Doğal Dil sorgusu).

Doğal sorguların arkasındaki fikir, sanki karşınızda oturan bir meslektaşınıza soruyormuş gibi bir sorgu yazabilmenizdir. Boole operatörleri hakkında endişelenmenize veya oluşturma zahmetine girmenize gerek yok karmaşık sorgu. Günümüzün en popüler doğal arama dili arama sitesi AskJeeves.com'dur. Sorguyu, siteleri dizine eklerken kullandığı anahtar sözcüklere dönüştürür. Bu yaklaşım yalnızca şu durumlarda işe yarar: basit istekler. Ancak ilerleme durmuyor, çok yakında "konuşmamız" mümkün. arama motorları kendi "insan dilinde".

yapı ayrılmaz parça arama motoru ve arama motoru veri tabanına onlar hakkında bilgi girmek için İnternet sayfalarını numaralandırmak için tasarlanmıştır. Prensip olarak, örümcek normal bir tarayıcıya benzer. Sayfanın içeriğini analiz eder, ait olduğu arama motorunun sunucusunda özel bir biçimde saklar ve sonraki sayfalara giden bağlantılara gönderir. Arama motoru sahipleri genellikle örümceğin siteye girme derinliğini sınırlar ve en büyük boy taranan metin, bu nedenle çok büyük siteler arama motoru tarafından tam olarak dizine eklenemeyebilir. Sıradan örümceklere ek olarak, " ağaçkakanlar" - müsait olup olmadığını belirlemek için dizine eklenmiş siteye "dokunan" robotlar.

Tarama sayfalarının sırası, ziyaret sıklığı, döngü koruması ve ayrıca önemli bilgileri vurgulama kriterleri, bilgi alma algoritmaları tarafından belirlenir.

Çoğu durumda, bir sayfadan diğerine geçiş, ilk ve sonraki sayfalarda bulunan bağlantılarla gerçekleştirilir.

Ayrıca, birçok arama motoru, kullanıcıya siteyi indeksleme için bağımsız olarak sıraya ekleme fırsatı sağlar. Genellikle bu, sitenin dizine eklenmesini önemli ölçüde hızlandırır ve olmadığı durumlarda Dış bağlantılar siteye yönlendirmeyin, genel olarak varlığını göstermenin pratikte tek yolu olduğu ortaya çıkıyor. Bir siteyi hızlı bir şekilde dizine eklemenin başka bir yolu da, arama hizmetleri. Örneğin, sırasıyla Google, Yandex ve Mail.Ru'dan Google Analytics , Yandex.Metrika ve [email protected] gibi.

Robots.txt dosyasını kullanarak site dizine eklemeyi sınırlayabilirsiniz. Dizine eklemeye karşı tam koruma, sayfada bir parola belirlemek veya içeriğe erişmeden önce bir kayıt formu doldurmanızı istemek gibi başka mekanizmalarla sağlanabilir.

Ansiklopedik YouTube

1 / 3
Görüntüleme:

Bazen "örümcekler" veya "gezginler" (gezginler) olarak adlandırılan arama motoru robotları, web sayfalarını arayan yazılım modülleridir. Nasıl çalışırlar? Gerçekten ne yapıyorlar? Neden önemlidirler?

Etraftaki tüm gürültüyü dikkate alarak Arama motoru optimizasyonu ve arama motoru dizin veritabanları, muhtemelen robotların harika ve güçlü varlıklar olması gerektiğini düşünüyorsunuz. Doğru değil. Arama motoru botları, bir sitede tanıyabilecekleri bilgiler açısından yalnızca eski tarayıcılarınkine benzer temel özelliklere sahiptir. İlk tarayıcılar gibi, robotlar da belirli şeyleri yapamaz. Robotlar çerçeveleri anlamıyor Flash animasyonlar, resimler veya JavaScript. Şifreli bölümlere giremezler ve sitedeki tüm butonlara tıklayamazlar. İndeksleme sürecinde "çenelerini kapatabilirler" dinamik adresler URL ve JavaScript gezinme üzerinde durma ve güçsüzlük noktasına kadar çok yavaş çalışır.

Arama motoru robotları nasıl çalışır?

Web tarayıcıları, bilgi ve bilgiye bağlantı aramak için internette gezinen otomatikleştirilmiş veri madenciliği programları olarak düşünülmelidir.

“URL Gönder” sayfasına gittiğinizde, arama motoruna başka bir web sayfası kaydedersiniz, robot tarafından siteleri görüntülemek için sıraya yeni bir URL eklenir. Bir sayfa kaydetmeseniz bile, başka sitelerden sizin sitenize bağlantı veren bağlantılar olduğu için birçok robot sitenizi bulacaktır. Bağlantı popülerliği oluşturmanın ve diğer tematik kaynaklara bağlantılar yerleştirmenin önemli olmasının nedenlerinden biri de budur.

Robotlar sitenize geldiklerinde öncelikle bir robots.txt dosyası olup olmadığını kontrol ederler. Bu dosya, robotlara sitenizin hangi bölümlerinin dizine eklenemeyeceğini söyler. Genellikle bunlar, robotun ilgilenmediği veya bilmemesi gereken dosyaları içeren dizinler olabilir.

Robotlar, ziyaret ettikleri her sayfadan bağlantıları saklar ve toplar ve daha sonra bu bağlantıları diğer sayfalara yönlendirir. Tüm dünya çapındaki ağ, bağlantılardan oluşur. İnternet ağını yaratmanın ilk fikri, bir yerden başka bir yere giden bağlantıları takip etmenin mümkün olacağıydı. Robotlar böyle hareket eder.

Gerçek zamanlı sayfa indekslemenin "esprili" olması, arama motoru tarayıcıları tarafından alınan bilgileri değerlendirmek için kullanılan yöntemleri icat eden arama motoru mühendislerine bağlıdır. Bir arama motoru veri tabanına gömüldükten sonra, bilgi, arama yapan kullanıcılar tarafından kullanılabilir. Bir arama motoru kullanıcısı bir arama terimi girdiğinde, gerçek sonucun döndürülmesini sağlamak için bir dizi hızlı hesaplama yapılır. doğru set en alakalı cevap için siteler.

Arama robotunun sitenizin hangi sayfalarını ziyaret ettiğini, sunucu günlük dosyalarının rehberliğinde veya günlük dosyasının istatistiksel olarak işlenmesinin sonuçlarını görüntüleyebilirsiniz. Robotları tanımlayarak sitenizi ne zaman, hangi sayfalarda ve ne sıklıkta ziyaret ettiklerini görebilirsiniz. Google'ın "Googlebot"u gibi bazı robotlar adlarıyla kolayca tanınır. Diğerleri, Inktomi'nin "Slurp" gibi daha gizlidir. Günlüklerde başka robotlar da bulunabilir ve onları hemen tanımlayamamanız mümkündür; hatta bazıları insan kontrollü tarayıcılar olabilir.

İstatistikler, benzersiz tarayıcıları tanımlamanın ve sahip oldukları ziyaret sayısını saymanın yanı sıra size saldırgan, bant genişliği tüketen tarayıcıları veya sitenizi ziyaret etmek istemediğiniz tarayıcıları da gösterebilir.

Web sitenizin sayfalarını nasıl okuyorlar?

Bir tarayıcı bir sayfayı ziyaret ettiğinde, görünür metnini, çeşitli etiketlerin içeriğini tarar. kaynak kodu sayfanızın (başlık etiketi, meta etiketleri vb.) yanı sıra sayfadaki köprüler. Bağlantıların kelimelerine göre, arama motoru sayfanın ne hakkında olduğuna karar verir. "Rol oynayan" bir sayfanın kilit noktalarını hesaplamak için kullanılan birçok faktör vardır. Her arama motorunun, bilgileri değerlendirmek ve işlemek için kendi algoritması vardır. Robotun nasıl yapılandırıldığına bağlı olarak bilgiler dizine eklenir ve ardından arama motoru veritabanına iletilir.

Bundan sonra, arama motoru dizin veritabanlarına iletilen bilgiler, arama motorunun ve veritabanı sıralama sürecinin bir parçası haline gelir. Bir ziyaretçi bir sorgu yaptığında, arama motoru, arama sorgusuyla alakalı nihai bir liste döndürmek için tüm veritabanını gözden geçirir.

Arama motoru veritabanları dikkatlice işlenir ve hizalanır. Halihazırda veritabanındaysanız, robotlar sayfalardaki değişiklikleri toplamak ve en son bilgilere sahip olduklarından emin olmak için sizi düzenli aralıklarla ziyaret edecektir. Ziyaret sayısı, türüne ve amacına göre değişebilen arama motorunun ayarlarına bağlıdır.

Bazen arama robotları bir web sitesini dizine ekleyemez. Siteniz çöktüyse veya siteyi çok sayıda ziyaretçi ziyaret ediyorsa, robot sitenizi dizine eklemeye çalışırken güçsüz olabilir. Bu olduğunda, robotun siteyi ne sıklıkta ziyaret ettiğine bağlı olarak site yeniden dizine eklenemez. Çoğu durumda, sayfalarınıza ulaşamayan robotlar, sitenizin yakında kullanılabilir olması umuduyla daha sonra deneyecektir.

Günlükleri görüntülediğinizde birçok gezgin tanımlanamaz. Sizi ziyaret ediyor olabilirler, ancak günlükler birinin Microsoft tarayıcısını vb. kullandığını söylüyor. Bazı robotlar kendilerini bir arama motorunun adını (googlebot) veya klonunu (Scooter = AltaVista) kullanarak tanımlar.

Robotun nasıl yapılandırıldığına bağlı olarak bilgiler dizine eklenir ve ardından arama motoru veritabanlarına iletilir.

Arama motoru veritabanları çeşitli zamanlarda değişikliğe tabidir. İkincil arama sonuçlarına sahip dizinler bile web sitelerinin içeriği olarak robot verilerini kullanır.

Aslında robotlar arama motorları tarafından sadece yukarıdakiler için kullanılmıyor. Yeni içerik için veritabanlarını kontrol eden, eski veritabanı içeriğini ziyaret eden, bağlantıların değişip değişmediğini kontrol eden, göz atmak için tüm siteleri indiren vb. robotlar vardır.

Bu nedenle günlük dosyalarını okumak ve arama motoru sonuçlarını takip etmek, projelerinizin indekslenmesini takip etmenize yardımcı olur.

Görevi, internette sunulan sitelerin sayfalarının içeriğini dikkatlice analiz etmek ve analiz sonuçlarını arama motoruna göndermektir.

Arama robotu yeni sayfaları bir süre atlar, ancak daha sonra dizine eklenir ve arama motorlarından herhangi bir yaptırım olmadığında arama sonuçlarında görüntülenebilir.

çalışma prensibi

Arama robotlarının eylemi, sıradan bir tarayıcının çalışmasıyla aynı prensibe dayanmaktadır. Şu veya bu siteyi ziyaret ederek, sayfalarının bir kısmını veya istisnasız tüm sayfalarını atlarlar. Site hakkında alınan bilgileri arama dizinine gönderirler. Bu bilgi, belirli bir sorguya karşılık gelen arama sonuçlarında görünür.

Arama robotları sayfaların sadece bir kısmını ziyaret edebildiği için büyük sitelerin indekslenmesinde sorunlar çıkabilmektedir. Kalitesizlik nedeniyle aynı kesin sorunlar ortaya çıkabilir.

Çalışmasındaki kesintiler, bazı sayfaları analiz için erişilemez hale getirir. Sitenin arama robotları tarafından değerlendirilmesinde önemli bir rol, uygun şekilde oluşturulmuş ve iyi yapılandırılmış bir robots.txt dosyası tarafından oynanır.

Kaynak taramanın derinliği ve arama robotları tarafından sitelerin taranma sıklığı şunlara bağlıdır:

Arama motoru algoritmaları.
Site güncelleme sıklığı.
Site yapıları.

Arama dizini

Web tarayıcıları tarafından toplanan bilgi veritabanına arama dizini denir. Bu taban kullanılır arama motorları belirli verilmesi sonuçlarını oluşturmak için.

Dizin yalnızca siteler hakkında bilgi içermez: arama robotları çeşitli biçimlerde görüntüleri, multimedya dosyalarını ve belgeleri tanıyabilir. elektronik formatlar(.docx, .pdf vb.).

Yandex sisteminin en aktif arama robotlarından biri hızlı bir bottur. Haber kaynaklarını ve diğer sık güncellenen siteleri sürekli olarak tarar. Swiftbot tarafından görülmeyen , mantıklı değil.

Özel araçlar yardımıyla çekebilirsiniz ve bunlar çeşitli amaçlara sahip siteler için etkilidir. Siteleri erişilebilirlik açısından kontrol etmek, bireysel özelliklerini analiz etmek, resimleri ve belgeleri arama motorlarında dizine eklemek için ayrı robotlar vardır.

Popüler inanışın aksine robot, taranan belgelerin herhangi bir işlenmesine doğrudan dahil değildir. Bunları yalnızca okur ve kaydeder, ardından diğer programlar işlemlerini gerçekleştirir. İlk defa indekslenen bir sitenin logları incelenerek görsel doğrulama elde edilebilir. İlk ziyarette bot önce robots.txt dosyasını, ardından sitenin ana sayfasını ister. Yani, bildiği tek bağlantıyı takip ediyor. Botun ilk ziyaretinin her zaman bittiği yer burasıdır. Bir süre sonra (genellikle ertesi gün), bot, zaten okunan sayfada bulunan bağlantıları kullanarak sonraki sayfaları ister. Ardından süreç aynı sırayla devam eder: daha önce bulunan bağlantılar olan sayfalar için bir istek - okunan belgelerin işlenmesi için bir duraklama - bulunan bağlantılar için bir istek içeren bir sonraki oturum.

Sayfaları "anında" ayrıştırmak çok daha fazlasını ifade eder Ö robotun daha fazla kaynak yoğunluğu ve zaman kaybı. Her Tarama Sunucusu birçok bot işlemini paralel olarak çalıştırır. Yeni sayfaları okumaya ve zaten bilinenleri yeniden okumaya zaman ayırmak için olabildiğince çabuk hareket etmeleri gerekir. Bu nedenle, botlar yalnızca belgeleri okur ve kaydeder. Kaydettikleri her şey işlenmek üzere sıraya alınır (kod ayrıştırma). Sayfa işleme sırasında bulunan bağlantılar, botlar için görev kuyruğuna yerleştirilir. Yani tüm ağın sürekli bir taraması var. Botun anında analiz edebileceği ve etmesi gereken tek şey, içinde yasak olan adresleri talep etmemek için robots.txt dosyasıdır. Siteyi taramanın her oturumunda, robot her şeyden önce bu dosyayı ve ondan sonra - sayfayı taramak için sıraya girenlerin hepsini ister.

Arama robotu türleri

Her arama motorunun farklı amaçlar için kendi robot seti vardır.
Temel olarak, sınırlar çok şartlı olmasına ve her arama motoru bunları kendi yolunda anlamasına rağmen, işlevsel amaçları bakımından farklılık gösterirler. Yalnızca tam metin arama sistemleri için, tüm durumlar için bir robot yeterlidir. Yalnızca metinle meşgul olmayan arama motorları için botlar en az iki kategoriye ayrılır: metinler ve resimler için. Belirli içerik türlerine (mobil, blog, haber, video vb.) ayrılmış ayrı botlar da vardır.

Google robotları

Tüm Google botları topluca Googlebot olarak bilinir. Ana robot indeksleyici şu şekilde "kendini temsil eder":

Mozilla/5.0 (uyumlu; Googlebot/2.1; +http://www.google.com/bot.html)

Bu bot, ana amaç için HTML sayfalarını ve diğer belgeleri taramakla meşgul. Google arama. Ayrıca zaman zaman CSS ve JS dosyalarını da okur - bunu çoğunlukla site indekslemenin erken bir aşamasında, bot siteyi ilk kez tararken fark edebilirsiniz. Kabul edilen içerik türlerinin tümü (Kabul: */*).

Ana botlardan ikincisi, siteden görüntüleri taramakla meşgul. Basitçe "görünür":

Googlebot-Resim/1.0

Günlüklerde içerik toplamakla meşgul en az üç bot da görüldü. mobil versiyon aramak. Üçünün de User-agent alanı şu satırla biter:

(uyumlu; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Bu satırdan önce - model cep telefonu bu botun uyumlu olduğu. Fark edilen botlar bu modellere sahip nokia telefonlar, Samsung ve iPhone. Kabul edilen içerik türlerinin tümü, ancak önceliklidir:

Kabul et: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Yandex robotları

Runet'te aktif olan arama motorları arasında Yandex, en büyük bot koleksiyonuna sahiptir. Tüm örümcek personelinin resmi listesi için web yöneticisi yardım bölümüne bakın. Bu listede periyodik olarak değişiklikler meydana geldiğinden, burada tam olarak vermenin bir anlamı yoktur.
Yine de bizim için en önemli Yandex robotlarından ayrıca bahsetmek gerekiyor.
Ana indeksleme robotuşu anda aranıyor

Mozilla/5.0 (uyumlu; YandexBot/3.0; +http://yandex.com/bots)

Daha önce şu şekilde sunuldu:

Yandex/1.01.001 (uyumlu; Win16; I)

okur HTML sayfaları indeksleme için site ve diğer belgeler. Kabul edilen ortam türlerinin listesi daha önce aşağıdakilerle sınırlıydı:

Kabul et: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, uygulama/vnd.ms-excel;q=0.1, uygulama/vnd.ms-powerpoint;q=0.1

31 Temmuz 2009'dan bu yana bu listede önemli bir genişleme fark edildi (tür sayısı neredeyse iki katına çıktı) ve 10 Kasım 2009'dan bu yana liste */* (tüm türler) olarak kısaltıldı.
Bu robot, çok özel bir dizi dille yakından ilgileniyor: Rusça, biraz daha az Ukraynaca ve Belarusça, biraz daha az İngilizce ve çok az - diğer tüm diller.

Kabul Dili: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Görüntü tarayıcı robotu User-agent alanında şu dizeyi taşır:

Mozilla/5.0 (uyumlu; YandexImages/3.0; +http://yandex.com/bots)

Grafik tarama farklı formatlar resimlerde aramak için

Google'ın aksine, Yandex'in bazı özel genel arama işlevlerine hizmet eden ayrı botları vardır.
Robot "ayna"

Mozilla/5.0 (uyumlu; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Özellikle karmaşık bir şey yapmaz - periyodik olarak görünür ve etki alanına erişirken sitenin ana sayfasının www ile eşleşip eşleşmediğini kontrol eder. Ve olmadan. Ayrıca bir eşleşme için paralel "ayna" etki alanlarını denetler. Görünüşe göre, Yandex'deki alan adlarının yansıları ve kanonik biçimi ayrı bir birim tarafından ele alınıyor. yazılım paketiİndeksleme ile doğrudan ilgili olmayan A. Aksi takdirde, bu amaç için ayrı bir botun varlığını açıklayacak kesinlikle hiçbir şey yoktur.

favicon.ico simge seçici

Mozilla/5.0 (uyumlu; YandexFavicons/1.0; +http://yandex.com/bots)

Periyodik olarak görünür ve arama sonuçlarında site bağlantısının yanında görünen favicon.ico simgesini ister. Görüntü seçicinin bu görevi hangi nedenlerle birleştirmediği bilinmiyor. Görünüşe göre ayrı bir yazılım paketi de var.

Botu Kontrol Et yeni siteler için, AddURL formuna eklendiğinde çalışır

Mozilla/5.0 (uyumlu; YandexWebmaster/2.0; +http://yandex.com/bots)

Bu bot, kök URL'ye bir HEAD isteği göndererek site yanıtını kontrol eder. Bu varlığını kontrol eder ana sayfa etki alanında ve o sayfanın HTTP başlıklarını ayrıştırın. Bot ayrıca sitenin kök dizinindeki robots.txt dosyasını da ister. Böylece, AddURL'ye bir bağlantı gönderdikten sonra sitenin var olduğu belirlenir ve ne robots.txt ne de HTTP başlıkları ana sayfaya erişimi yasaklar.

Robot Gezici

Şu anda artık çalışmıyor, çünkü Rambler artık Yandex aramasını kullanıyor
Rambler indeksleme robotu, User-agent alanı ile günlüklerde kolayca tanımlanabilir

StackRambler/2.0 (MSIE uyumsuz)

Diğer arama motorlarındaki "meslektaşları" ile karşılaştırıldığında, bu bot oldukça basit görünüyor: bir medya türleri listesi belirtmiyor (sırasıyla, istenen herhangi bir belgeyi alıyor), istekte Dil Kabul Et alanı eksik, ve If-Modified-since alanı da botun isteklerinde bulunmaz.

Mail.Ru robotu

Bu robot hakkında çok az şey biliniyor. Mail.Ru portalı uzun süredir kendi aramasını geliştiriyor, ancak yine de bu aramayı başlatmayacak. Bu nedenle, yalnızca User-agent'taki botun adı güvenilir bir şekilde biliniyor - Mail.Ru/2.0 (önceden - Mail.Ru/1.0). Robors.txt dosyasının yönergeleri için botun adı hiçbir yerde yayınlanmadı, botun Mail.Ru olarak adlandırılması gerektiği varsayımı var.

Diğer robotlar

İnternette arama yapmak elbette iki arama motoruyla sınırlı değil. Bu nedenle, başka robotlar da var - örneğin, Bing robotu - Microsoft'tan bir arama motoru ve diğer robotlar. Bu nedenle, özellikle Çin'de ulusal bir Baidu arama motoru var - ancak robotunun nehrin ortasına ulaşması ve Rus sitesine ulaşması pek olası değil.

Ek olarak, son zamanlarda arama motorları olmasalar da siteleri de tarayan birçok hizmet - özellikle solomono - üretti. Genellikle site hakkında bu tür sistemlere bilgi aktarmanın değeri sorgulanabilir ve bu nedenle robotları yasaklanabilir.