27. 12. 2011

Expanze zkratek ve víceslovných dotazech

Jednou z činností, která se provádí během zpracování dotazu, je expanze zkratek. Expanze zkratek v tomto případě znamená, že se kromě samotné zkratky hledá také její význam. Zjednodušeně řečeno, v případě, že uživatel zadá například dotaz [PPC], hladá se také například Pay Per Click. V ostrém hledání máme v současné době zapnutou pouze expanzi zkratek v jednoslovných dotazech a právě připravujeme také expanzi zkratek v dotazech víceslovných.

V minulosti jsme již expanzi zkratek ve víceslovných dotazech zapnutou měli, ale vzhledem k tomu, že nám způsobovala v určitých případech problémy, rozhodli jsme se pro její vypnutí. V nové a vylepšené verzi jsme se museli například vypořádat se situacemi, ve kterých dotaz obsahuje víceznačnou zkratku, případně s vahou, kterou zkratka do hledání dostane. Abych vám problém trochu přiblížil, vysvětlím jej na dotazu [PPC]. PPC je zkratka, která má minimálně 3 významy:

  • PowerPC
  • Pocket PC
  • Pay Per Click

Abychom uživateli poskytli ucelený přehled o významu zkratky PPC, museli bychom zobrazit z každé expandované formy pár nejrelevantnějších výsledků. Ne vždy je ovšem tento stav vhodný a v určitých případech je dokonce nežádoucí. V každém případě se ovšem musíme vždy podle nějakého kritéria rozhodnout, jakou váhu expandovaná forma zkratky dostane. Jestliže například uživatel preferuje na dotaz [PPC] výsledky pro Pay Per Click, musí dostat Pay Per Click vyšší váhu, než zbylé dva expandované tvary. Váha expandované zkratky má vliv na výslednou relevanci dokumentu.

Jak by mohl například vypadat strom jednoslovného dotazu [PPC]? Konkrétní podoba stromu dotazu může být různá, ale jednou z možných variant je například tato:

strom dotazu PPC

A jak je to s víceslovnými zkratkami? Tady je situace poněkud jiná, než v případě zkratek jednoslovných. V rozhodnutí, kterou expandovanou formu zkratky zvolit, nám pomáhá její okolí v dotazu. K čemu nám okolí zkratky v dotazu je? Jednou z podmínek pro doplnění konkrétní expandované formy zkratky do stromu dotazu je tematická příbuznost jejího okolí v dotazu s okolím expandovaného tvaru zkratky v korpusu. Korpusem v tomto případě můžeme rozumět konkrétní množinu indexovaných dokumentů. Tematická příbuznost například zajistí, že na dotaz [PPC reklama] budeme s nejvyšší váhou hledat kombinaci slova reklama právě s expandovaným tvarem Pay Per Click, případně, že zbylé expandované tvary Pocket PC a PowerPC nebudeme hledat vůbec.

A jak by mohl vypadat strom dotazu právě u dotazu [PPC reklama]? Stejně jako v případě jednoslovného dotazu, může i tento strom vypadat různě. Jedna z možných variant je znázorněna níže:

strom dotazu PPC reklama

A proč to vlastně řešíme, když se problém vyřeší v dlouhém dotazu sám tím, že dokument musí obsahovat všechna slova v dotazu a těžko se na stránce o Pay Per Click reklamě objeví slova spadající do odvětví kapesního počítače (Pocket PC)? Jelikož tomu tak není, což si můžete ověřit sami, po zadání dotazu [Pocket PC reklama]. Ve výsledcích zjistíte, že existují i stránky o Pocket PC, na kterých se slovo reklama vyskytuje. Přitom dotaz [PPC reklama] by měl spíše mířit na stránky o Pay Per Click reklamě. Kdybychom v tomto případě dotaz [PPC reklama] rozložili chybně do tvaru zobrazeného níže, hledali bychom i netematické dokumenty.

strom dotazu obsahující pocket PC reklama a pay per click

Co si o tomto vylepšení myslíte vy? Uvítáte aktuálně připravovanou změnu? Máte nějaké další nápady jak zvýšit relevanci dotazů obsahující zkratku? Napište nám vaše názory do komentářů pod článkem.