20. 4.

Přidávání zobecňujících signálů

V přirozeném hledání máme nasazen nový model užitečnosti, což je jeden z nejdůležitějších dílčích modelů, ze kterého se naše vyhledávání skládá. Aktualizace se nasazovala ve středu 15. 4. Letos jde zatím o největší změnu.

Tentokrát jsme hlavně přidávali nové signály a učili na nich nové modely užitečnosti. Logiku sběru učících dat jsme neměnili. Z toho plyne, že viditelné změny by měly být spíše technického rázu než nějaké systémové. Stále platí, že se snažíme učit modely tak, aby ve vyhledávání preferovaly stránky, které jsou co nejužitečnější pro uživatele. Podrobněji jsme metodu učení modelů popisovali v listopadu.

Hodně nás baví nová skupina signálů, kterou připravujeme pomocí nástroje Vowpal Wabbit. To je populární knihovna, která umí z oznámkovaných, málo strukturovaných nebo nestrukturovaných vstupů (například z dvojic dotazů a textů stránek) uvařit obrovský vzoreček hádající známky budoucích vstupů (opět například dvojic dotazů a textů stránek). Tento obrovský vzoreček je navíc navržený tak, že se příjemně rychle počítá, takže se dá použít už na jedné z hlubších vrstev hledání. Samy o sobě jsou výstupy z Vowpal Wabbitu relativně hloupé a na řazení výsledků vyhledávání by nestačily, ale jako signály vstupující do dalšího výpočtu jsou vhodné, protože umí částečně zobecňovat význam slov. Významy slov už dlouho zobecňují některé další naše komponenty hledání (například query processing), ale každá další vrstva zobecnění se při hledání hodí.

Další nové signály se snaží hádat, zda je na stránce s výrobkem skutečně výrobek na prodej, nebo zmírňují chyby vzniklé při náhodné shodě vyskloňovaných tvarů spolu nesouvisejících českých slov. Stále totiž platí, že se ve vyhledávání snažíme primárně pracovat s češtinou.

Yuhů, Dušan Janovský
Yuhů

Konzultant vyhledávání