Vylepšili jsme stahování stránek. Je stejně rychlé, a přitom šetrnější k webům

27. září 2023

Downloader, který je součástí našeho SeznamBota a jeho úkolem je stahování webových stránek z internetu, má novou vylepšenou verzi. Ta je šetrnější k webům, i když stránky stahuje stejně rychle. Co to v praxi znamená?

Co je SeznamBot?

Jde o našeho robota (v angličtině se pro něj používá termín crawler), který prochází internet. Jeho úkolem je hledat nové webové stránky a aktualizovat informace o těch, které už zná. 

Downloader je součást SeznamBota, která vykonává samotné stahování webových stránek z internetu. V letošním roce proběhlo postupné odklánění stahovacího provozu (download trafficu) ze staré verze downloaderu na verzi novou. Ta zajišťuje lepší management tohoto trafficu.

Traffic generovaný předchozí verzí downloaderu měl typicky periodické výkyvy (spiky). To znamená, že cca každou hodinu počet požadavků ke stažení (download requestů) na web prudce vzrostl a následně pozvolna klesal. Chvilkově tak mohlo docházet k přetížení webserveru, případně k regulaci četnosti seznambotích requestů, které webserver dokáže obsloužit.

Hlavní výhodou nové verze downloaderu je schopnost rovnoměrnějšího rozložení download requestů konkrétního webu v čase. Celkový objem stažených stránek přitom zůstává stejný. Jak ilustruje graf níže, traffic generovaný novou verzí downloaderu je v čase takřka konstantní.

Změnu k lepšímu tak mohou pocítit jak velké weby, které mohl SeznamBot chvílemi přetěžovat, tak i menší weby, jejichž webhostingy mohly občas traffic SeznamBota „škrtit“, tedy regulovat počet žádostí o stažení stránky, které webservery daného hostingu obslouží.

Za tým Vyhledávání Richard Dubiel

Sdílet na sítích