19. 9. 2011

Oháčkování dotazů – upgrade

Možná jste nad tím nikdy nepřemýšleli, ale vyhledávače jsou již dnes tak daleko, že umí za vás reformulovat dotaz a zahledat jej v naprosto jiné formě, než v jaké jste jej původně zadali a přitom vám zobrazí přesně to, co jste chtěli najít.

Jednou ze základních činností vyhledávače je oháčkování dotazů, bez kterého by kvalitní vyhledávač nemohl fungovat. Třeba se teď ptáte na to, proč je to potřeba, když přece zadáváte dotaz přesně ve tvaru, v jakém ho chcete najít. Ano to je pravda, ale všichni uživatelé takoví nejsou a zadávají i dotazy bez diakritiky, nebo ještě hůře s diakritikou částečnou a v nejhorším případě s diakritikou chybnou. Poslední případ může být umocněn trefou do slova, které má ve špatně oháčkovaném tvaru naprosto jiný význam. Zadávání dotazů bez diakritiky, nebo s diakritikou částečnou je dnes běžným jevem a z toho důvodu je potřeba se s tím nějak vypořádat.

Oháčkování dotazů se může někomu zdát jako poměrně jednoduchý problém, avšak opak je pravdou. Jsou dotazy, na které by měl problém správně odpovědět člověk, natož stroj, který je potřeba naučit, aby vytušil správnou formulaci dotazu. Všichni už dnes bereme jako naprostou samozřejmost, že když do vyhledávače zadáme dotaz reky v praze, zobrazí se nám výsledky informující nás o seznamu řek v Praze. Nikdo ani nepřemýšlí nad tím, že dotaz zadal bez diakritiky, ale výsledky diakritiku obsahují.

Tento příklad byl jedním z nejjednodušších případů oháčkování, ale co když již dotaz nějakou diakritiku obsahuje a přitom diakritika není úplná? Takovým dotazem je například: nejvysši hora evropy. I v tomto případně správně oháčkujeme a zobrazíme relevantní výsledky.

Obecně největším problémem jsou ovšem víceznačné dotazy, u kterých diakritika není tak jasná, jak by se na první pohled mohlo zdát. Co by jste očekávali na dotaz kozli u orlíka? Pokud nevíte zkuste se podívat tady: kozli u orlíka. V tomto dotazu je konflikt mezi slovy kozli (množné číslo samce kozy) a Kožlí (obec), které mají naprosto jiný význam.

Jak vám už možná došlo, tak oháčkování nebude zcela triviální záležitost. Příkladem dotazu spadajícího do kategorie obtížně oháčkovatelných je například dotaz narozeninové praní, kde nevíme jestli chce uživatel hledat přání k narozeninám, nebo chce na narozeniny něco prát. Na tento dotaz sice vracíme relevantní výsledky, ale jsou i dotazy, kde se nám do tak úplně nepovede, což si můžete ověřit po zadání dotazu mestska doprava prosek, nebo plaz do teraria. Zejména u posledně jmenovaného dotazu se může zdát, že výsledky musí být naprosto jasné, ale bohužel tomu tak není.

Ještě horší kategorií jsou dotazy s úplnou, ovšem chybnou diakritikou. Takovým dotazem je například cena včelí měď. Asi je každému jasné, že jsem chtěl hledat ceny včelího medu, ale dotaz jsem v zápalu napsal špatně a místo med, jsem napsal měď. Na tento dotaz sice vracíme obstojné výsledky, ale mohly by být i lepší a co si budeme nalhávat, zobrazení právě takových výsledků byla věc náhody. Stejným typem dotazu je například přání kalhot v pračce, na který už výsledky kvalitní nejsou.

Naše oprava se bude snažit pojmout všechny uváděné typy příkladů a můžete se na ní těšit během několika týdnů. Budeme rádi, když nám již teď napíšete další vaše postřehy ohledně oháčkování dotazů, případně o chybách, kterých se v souvislosti s oháčkováním dopouštíme.