Robot rychleji následuje odkazy

21. února 2017

Po vylepšeních v rychlosti Freshbota jsme se podívali i na rychlost v tzv. „velkém robotovi“. Ten na rozdíl od Freshbota prochází násobně větší objemy stránek.

Robot nyní reaguje dříve na obsah stránky a nová stránka se dostane do indexu dvakrát rychleji.

Doposud stránka procházela složitějším zpracováním. Kvůli závislostem trvalo i několik dní od stažení URL než z ní Robot mohl využít informace potřebné pro svou další práci. Navíc vnitřní procesy robota zasahovaly také do indexace webových stránek.

Parser

Nově jsme vytvořili pro Robota jeho vlastní parser. Parser je nástroj pro analýzu obsahu stránky. Robot nyní využije z webové stránky odkazy a další data (např.: jazyk, open graph data) hned jak ji stáhne.

Na cestě novému Robotovi

Každá z fází zpracování stránky (od robota, přes indexaci, po hledání) se nyní soustředí na své potřeby. Několikadenní posloupnost zpracování informací ze stažených stránek se zkrátí na jeden den.

Zapojením samostatného parseru do robota jsme kromě zrychlení robota udělali další krok od dávkového (batchového) Robota k ještě rychlejšímu, proudovému (streamovému) Robotovi.

Sdílet na sítích