Google gibi arama motorları nasıl çalışıyor? Crawling, ranking gibi terimler ne anlama geliyor?
World Wide Web'in icadından bir sonraki en büyük icat, Google olsa gerek. BirçoÄŸumuz için internetin ta kendisi olan Google, gazetelerden dergilere tüm internetteki içeriÄŸi kolaylıkla bulunabilir bir hale getiriyor. Hatta bazılarımız, site adreslerini bilsek bile bunun yerine sitenin adını Google'da aratma yolunu tercih ediyoruz.
Arama motorlarının en temel aÅŸaması, "crawling" adı verilen web sitelerindeki içerikleri taramaktan ve verilerin analiz edilerek dev veritabanlarında depolanmasından oluÅŸuyor.
Crawling
Crawling adı verilen iÅŸlem, arama motorunun web sitelerini ziyaret ederek orada bulduÄŸu her ÅŸeyin bir listesini kaydetmesi anlamına geliyor. Bunlar arasında en az sayfa baÅŸlığı, resimler, anahtar sözcükler ve diÄŸer sayfalara verilen baÄŸlantılar bulunuyor. Bazı arama motorları, tüm web sayfasını kendi üzerinde depolayabiliyorlar, reklamların, baÄŸlantıların sayfanın neresinde olduÄŸunu tarayabiliyorlar.
Crawling iÅŸlemi, otomatik olarak bilgisayarlar tarafından gerçekleÅŸtiriliyor. Bu sırada web sitesindeki her sayfa tek tek ziyaret ediliyor, ancak bu iÅŸlem bir insanın yapabileceÄŸinden çok daha hızlı yerine getiriliyor. Crawling, sonu olmayan bir iÅŸlem, yani arama motorları belirli aralıklarla web sitelerini tekrar tekrar tarıyorlar.
Arama motorunun taradığı web sitelerindeki herhangi bir yeni web sitesine verilen baÄŸlantı, bu yeni web sitesinin de taranmasıyla sonuçlanır. Crawling iÅŸlemin sıklığı ve derinliÄŸi, siteden siteye deÄŸiÅŸmektedir.
İndeksleme
İndekslemeyi bir kütüphanede bulunan tüm kitapların sahibini, sayfa numarasını bir listeye kaydetmeye benzetebiliriz. Ancak Google'ın indeksleme için çok daha büyük, yüzlerce petabayt'lık verilerle çalıştığını söyleyelim. Bunun yanında indekslerde sadece sayfa baÅŸlığı ve sayısı deÄŸil, sayfaların içeriÄŸine dair bilgiler de yer alır.
Sıralama/puanlandırma ve geri getirme
Bir arama motorunda arama yaptığınızda, karşınıza bu aramanızla en ilgili sonucun gelmesi gerekir. Bu, arama motorları için en karmaşık adımdır ve arama hizmetleri, bu alanda farklılaÅŸmaktadırlar.
Sıralama (ranking) algoritması, sorgunuzu milyarlarca sayfa ile karşılaÅŸtırarak hangisinin daha uygun sonuç olduÄŸunu bulmaya çalışır. Bu iÅŸlem çok karmaşık olduÄŸundan, ÅŸirketler kendi sıralama algoritmalarını endüstri sırrı olarak patentlerler. Bunun iki nedeni vardır. Birincisi, aramalarda en iyi sonucu vererek pazarın lideri olmayı sürdürebilirsiniz. İkincisi ise algoritmayı bilmeyen siteler, onu "kandırarak" birbirlerine haksız bir üstünlük saÄŸlayamazlar
chip.com.tr
|