Zpřesnění plánování návštěv robota na webových stránkách

11. října 2016

Aby v hledání nebyly zastaralé stránky, musí je robot opakovaně navštěvovat, aby zjistil jejich aktuální obsah. Zlepšili jsme model, který odhaduje, kdy se stránka změnila. Díky tomu se nám daří rychleji odhalovat změny na internetu.

Databáze robota nyní obsahuje 2.5 miliardy webových stránek a 2 miliardy obrázků. Robot se každý den podívá na více než 200 milionů URL adres, aby zjistil, jaký obsah se na nich právě nachází. Při navýšení databáze o 80% a mírném navýšení kapacity stahování se nám podařilo zkrátit dobu mezi změnou stránky a návštěvou robota na dva dny. To je méně než poloviční čas oproti předchozímu algoritmu.

Doba od změny stránky po stažení robotem je v tomto případě počítána jako vážený průměr, změřený na testovací množině, u které známe datum skutečné změny stránek. Použitá váha vyjadřuje důležitost stránky z pohledu SeznamBota.

Díky této inovaci budou stránky v hledání aktuálnější a dříve odhalíme, pokud přestanou existovat, nebo se přesměrují.

Pokud se důležitá stránka bude měnit častěji, bude jí SeznamBot častěji navštěvovat, ale nijak to neovlivňuje její relevanci na dotazy uživatelů. Změny v pořadí stránek ve výsledcích hledání tedy v důsledku tohoto vylepšení nenastanou. I nadále platí, že pokud se na nějakém webu často mění příliš velké množství stránek, nemusí SeznamBotovi stačit kapacita na jejich občerstvování. Při nedostačující kapacitě může dojít ke snížení počtu návštěv SeznamBota na konkrétních stránkách, nebo i k vyřazení méně důležitých stránek z databáze.

Sdílet na sítích