17. 8. 2011

Výber dokumentov do výsledkov hľadania

S nasadzovaním SeznamBota 3.0 vzniklo veľa otázok, pripájam o ňom ďalšie informácie pre lepšiu orientáciu v jeho funkčnosti a jeho vplyve na výsledky vyhľadávania.

Jedna z otázok bola, či Robot pracuje ako má, keď má nejaký web v hľadaní stále málo výsledkov. Faktom je, že Robot je rýchlejší a spracúva viac dokumentov. Pôvodný robot spracúval priemerne 300 stránok za sekundu, momentálne spracúva dokumenty tak rýchlo ako mu dovolí pripojenie k sieti a vyťaženie vašich serverov (približne 2000 dokumentov za sekundu). Ako napísal Robert 25.5., viac prístupov nového robota v porovnaní so starým ste mohli zaznamenať aj v access logoch vášho webserveru. Priebeh sťahovania URL za posledných 5 dní:

Tieto častejšie návštevy ale neznamenajú, že sa dokument dostane do vyhľadávania. Dokumenty sa nedostávajú priamo do databázy vyhľadávania, ale do archívu dokumentov, z ktorého sa neskôr vyberú kandidáti na indexáciu.

Približný počet dokumentov vášho webu vo vyhľadávaní môžete zistiť použitím operátora site. Napríklad z domény seznam.cz máme vo vyhľadávaní približne 16 tisíc dokumentov.

Náš Robot ich ale na tejto doméne pozná cez 860 tisíc. Na každej doméne porovná všetky tieto dokumenty a vyberie z nich najlepších pár percent ktoré pustí do „hľadacej“ databázy. Starý robot tieto informácie nespracúval a toto rozhodovanie bolo realizované na oveľa prostejšej úrovni. Ak sa teda hovorí o prínose nového robota do zlepšenia relevancie, prioritne ide o zaradenie kvalitnejších dokumentov do hľadania, nie o poradie dokumentu v hľadaní. Na vylepšení tejto výberovej funkcie stále pracujeme a zdokonaľujeme ju. V jednoduchosti je však stále najdôležitejšie, aby boli vaše stránky o niečom unikátnom, zaujímavom, aby ľudia pri návšteve nemali pocit že sa dostali niekam kam nechceli. Všetky vyhľadávače sa samozrejme svoje vyhodnocovanie snažia priblížiť vyhodnocovaniu bežného používateľa.

Ak ste urobili všetko pre to aby bol váš web zaujímavý a Robot napriek tomu stránku neindexuje, informujte nás o tom a možno nám pomôžete objaviť nejakú skrytú chybu.