Zlepšení výběru stránek ke crawlování a indexaci

Tým Vyhledávání 4. července 2018

Výběr stránek, které SeznamBot crawluje a indexuje, má podobu skórování všech stránek, které SeznamBot zná a jejich následného řazení podle hodnot skóre. V uplynulých týdnech jsme provedli úpravy tohoto skórování, které se projeví následujícími změnami při výběru dokumentů ke crawlování a indexaci.

  • Lepší predikce kvality stránky podle URL – URL stránky je pro robota jeden ze signálů při rozhodování, zda danou stránku crawlovat, nebo ne – zejména pokud ještě nikdy předtím crawlovaná nebyla a není známo, jak kvalitní obsah na ní očekávat. Nový model predikce kvality stránky z URL umí tuto skutečnost odhadovat mnohem lépe, i jeho výstup má na finální rozhodnutí o (ne)crawlování větší vliv. Změna v nějaké míře zasáhne cca 15 % ze všech URL, které SeznamBot zná.
  • Větší důležitost URL, které jsou v sitemapě – Zejména u URL z méně populárních a izolovaných webů s malým počtem zpětných odkazů se stala jejich přítomnost v sitemapě pro SeznamBota důležitějším signálem u rozhodování, zda je crawlovat.
  • Stabilnější indexace stránek s nestabilní návštěvností – Některé stránky jsou navštěvované pravidelně jenom v určitém období (např. o Vánocích, v době nějaké společenské, sportovní nebo jiné události atd.). Zajistili jsme, aby v obdobích ,,sucha“ takové stránky – jedná se o necelé procento ze všech stránek indexovaných během uplynulého roku – byly pořád dohledatelné.

Od těchto změn očekáváme, že povedou ke crawlování a indexaci kvalitních stránek, které doteď v indexu nebyly, nebo se jim nedařilo stabilně se v něm udržet. Zároveň bude zajištěno, že se tak nestane na úkor jiných stránek vysoké kvality.

Tým Vyhledávání

Sdílet na sítích