17. 8. 2007

Nový crawler

Právě spouštíme do testu nového robota.

Drazí přátelé, pomocí tohoto blogu bychom vás rádi informovali o novinkách a probíhajícím vývoji na našem fulltextovém vyhledávání. Doufáme, že vám bude přinášet zajímavé informace a budete ho mít rádi 🙂

A hned tu máme první info.

V současné době spouštíme do testu nového crawlera, na kterém jsme dělali několik zásadních úprav. Jeho největší přínos bude vyšší výkon a čitelnější chování. Do access logu se zatím podepisuje jako “SeznamBot/2.0-test”.

Robot má zcela jiný charakter přístupu na webovky. Stará verze stahovala stránky prakticky v náhodném pořadí během celého dne (hlavně kvůli tomu, aby nepřetěžovala weby). Nová verze bude oproti tomu stahovat stránky organizovaně; nejdříve robots.txt a pak další stránky pěkně za sebou. Nepřetěžování webů jsme vyřešili jinak i když nás to asi bude stát víc peněz za hardware 🙁

Váš fulltext-tým.