28. 11. 2014

Living Labs Challenge: zapojte se do soutěže v řazení výsledků našeho fulltextového vyhledávače

Řazení výsledků fulltextového vyhledávání je komplexní proces, využívající spoustu informací, ke kterým se člověk běžně nedostane. Seznam.cz je první ze světových internetových vyhledávačů, který do soutěže v řazení výsledků poskytne anonymizovaná reálná data včetně zpětné vazby od skutečných uživatelů.

Living Labs je iniciativa, která se lidem zabývajícím se výzkumem algoritmů pro vyhledávání snaží zpřístupnit reálná data. Veškerý výzkum ve vyhledávání mimo komerční firmy doposud probíhal nad uměle vytvořenými daty, nebo nad offline vzorkem reálných dat, které poskytl některý z velkých vyhledávačů. Living Labs je prostředí, které k reálným datům navíc návrhářům nových algoritmů zprostředkovává interakci s uživateli hostitelského vyhledávače.
Jedná se o nový evaluační model, který bude poprvé realizován v soutěži Living Labs Challenge, jež proběhne v rámci konference CLEF 2015.

V první fázi soutěže účastníci obdrží 50 frekventovaných nekomerčních dotazů spolu s výsledky vyhledávání. K těmto dvojicím dotaz-url bude navíc k dispozici hodnocení relevance získané ruční anotací, vektor příznaků, které jsou používány pro řazení výsledků naším vyhledávačem a historie klikanosti jednotlivých stránek. Skutečné znění dotazů, url dokumentů i názvy příznaků budou pro účely soutěže anonymizovány. Dále bude účastníkům umožněno opakovaně přeřadit výsledky, nechat je zobrazit uživatelům našeho vyhledávače a získat zpětnou vazbu v podobě agregovaných statistik klikanosti jednotlivých url. Uživatelům se výsledky nezobrazí přímo v podobě, která přijde od účastníků soutěže, ale formou proložení s našimi přirozenými výsledky, realizovaným metodou Team-Draft Interleaving. Díky tomu naši uživatelé dostanou relevantní výsledek i v případě, že účastníci soutěže pošlou nerelevantní seznam url. Dále nám to umožní porovnat kvalitu poskytnutého seřazení výsledků vůči našemu seřazení na základě uživatelských preferencí získaných analýzou prokliků.

Druhá fáze soutěže bude testovací. Účastníci dostanou data stejného charakteru jako v první fázi, ovšem pro jinou množinu dotazů. Jejich úkolem bude přeřadit výsledky svými algoritmy natrénovanými během první fáze. Tato seřazení budou pomocí prokládání porovnána s našimi výsledky vyhledávání. Na základě úspěšnosti bude sestavena výsledková listina účastníků soutěže. Nejlepší týmy budou pozvány k prezentaci svých algoritmů na konferenci CLEF 2015 ve francouzském Toulouse.

Vzhledem k použité metodologii není počet účastníků neomezený. Zájem je velký, proto neváhejte s registrací. Více informací o soutěži lze najít na adrese http://living-labs.net/clef-lab/. Podrobný návod pro účastníky je popsaný zde: http://doc.living-labs.net/en/latest/guide-participant.html.