Po vylepšeních v rychlosti Freshbota jsme se podívali i na rychlost v tzv. „velkém robotovi“. Ten na rozdíl od Freshbota prochází násobně větší objemy stránek.
Robot nyní reaguje dříve na obsah stránky a nová stránka se dostane do indexu dvakrát rychleji.
Doposud stránka procházela složitějším zpracováním. Kvůli závislostem trvalo i několik dní od stažení URL než z ní Robot mohl využít informace potřebné pro svou další práci. Navíc vnitřní procesy robota zasahovaly také do indexace webových stránek.
Parser
Nově jsme vytvořili pro Robota jeho vlastní parser. Parser je nástroj pro analýzu obsahu stránky. Robot nyní využije z webové stránky odkazy a další data (např.: jazyk, open graph data) hned jak ji stáhne.
Na cestě novému Robotovi
Každá z fází zpracování stránky (od robota, přes indexaci, po hledání) se nyní soustředí na své potřeby. Několikadenní posloupnost zpracování informací ze stažených stránek se zkrátí na jeden den.
Zapojením samostatného parseru do robota jsme kromě zrychlení robota udělali další krok od dávkového (batchového) Robota k ještě rychlejšímu, proudovému (streamovému) Robotovi.