29. 7. 2011

Návštěvy z domény kalibrace.seznam.cz

Občas se na internetu objevují informace a dohady o přístupech z adresy http://kalibrace.seznam.cz na weby uživatelů. Abych vás uklidnil, vysvětlím vám, co nám na této adrese běží a k čemu to používáme.

Vyhledávání výsledků je poměrně komplikovaná úloha, do které vstupuje mnoho faktorů, kterými jsou například vyhledávací algoritmus, signály a jejich váhy, rozklad dotazu, nastavení robota, apod. Správné nastavení všech komponent vyhledávání je jedním ze základních předpokladů pro kvalitní zobrazování výsledků. Abychom zjistili, jak se projevila nějaká úprava v testu, nebo provozu, potřebujeme ohodnocené výsledky hledání. K hodnocení stránek zaměstnáváme kvalifikované brigádníky, kteří nám tyto výsledky hodnotí.

Jak takové hodnocení výsledků vypadá? Brigádníci, neboli kalibrátoři dostanou dotaz a k němu nějakou stránku, která se na dotaz zobrazila ve výsledcích, načež svým vlastním uživatelským pohledem obodují stránku podle toho, jak je k dotazu relevantní. Výběr stránek ke kalibraci probíhá náhodně a nejedná se o cílené zaměření se na určitou stránku s cílem ji poškodit, nebo naopak. Optimalizací nastavení vah a vylepšováním hledacích algoritmů se snažíme o globální zlepšení vyhledávání a nezaměřujeme se přitom na konkrétní weby.

Abych zabránil dalším konspiračním teoriím o ovlivňování výsledků hledání seznamu, trochu přiblížím práva našich kalibrátorů:

  • Označení relevantnosti stránky k dotazu
  • Odmítnutí hodnocení dokumentu (když si kalibrátor není jistý hodnocením výsledku na daný dotaz, atd.)
  • Odmítnutí celého dotazu (v případě neporozumění dotazu, apod.)

Kalibrátoři procházejí poměrně náročným školením o hodnocení stránek a během kalibrování jsou kontrolováni našimi administrátory. Každou stránku navíc hodnotí vždy více, než jeden kalibrátor, díky čemuž se minimalizuje riziko chybně okalibrované stránky.

Nasbíraná data z kalibrací používáme k měření kvality našeho vyhledávače, jeho vývojových verzí a k již zmíněné optimalizaci vah. Kalibrační rozhraní, které používají kalibrátoři, administrátoři fulltextu a někteří zaměstnanci seznamu běží na již zmíněné adrese http://kalibrace.seznam.cz

Věřím, že drobné nahlédnutí do zákulisí našeho vyhledávače pomohlo odstranit vaše obavy a v případě, že vás dané téma zaujalo, přivítám případné dotazy.