24. 1. 2014

Změna User-Agent ze SeznamBot na Mozilla

Robot (crawler) našeho fulltextového vyhledávače se bude webserverům nově hlásit jako “Mozilla” a nikoliv jako “SeznamBot”. IP adresy a reakce na robots.txt se nezmění.

I když dřevní doby internetu, kdy weby zkoumaly User-Agent hlavičku čistě proto, aby mohly uživateli ohlásit, že jeho browser není podporován :-), už jsou asi dávno pryč, tak weby, které vracejí odlišné contenty pro různé nastavení User-Agenta stále nevymizely.  V moderní době se ale stává, že weby občas pro různé hodnoty User-Agenta vracejí jiné jazykové verze, redirectují na jednodušší verze stránek, přidávají do odkazů různé pomocné parametry nebo prostě nějak manipulují s obsahem stránky.

I když je vše v dobré víře, tak důsledkem je, že crawler vidí jiný obsah stránky než uživatel, což nám při zpracování stránek moc nepomáhá a většinou to má negativní dopad na kvalitu výsledků. Abychom se s tím mohli vypořádat, změníme User-Agenta na obvyklou generickou hodnotu “Mozilla/5.0 (compatabile; …)”. Stejným způsobem to dělá většina browserů i jiných crawlerů.

Současný/dosluhující User-Agent string:

User-Agent: SeznamBot/3.0 (+http://fulltext.sblog.cz/)

Nový User-Agent string, který se bude používat od února 2014:

User-Agent: Mozilla/5.0 (compatible; SeznamBot/3.2; +http://fulltext.sblog.cz/)

Co se tedy přesně změní?

Změní se pouze User-Agent string odesílaný v HTTP requestu na webserver. V rámci celého User-Agent stringu bude někde ale SeznamBot zmíněný, takže např. pro účely statistik půjde jeho návštěvu detekovat.

Reakce SeznamBota na specifické nastavení v robots.txt zůstane beze změny — stále se bude hledat sekce “SeznamBot” (v robots.txt lze specifikovat různá pravidla pro různé roboty). Dále se nezmění ani IP adresy, ze kterých robot chodí i když detekovat návštěvu podle konkrétních adres nelze doporučit, protože se můžou v čase měnit.

Změna pravděpodobně nastane 3. února 2014 během dne.