4. 11. 2009

Nová verze už běží… v čem je jiná?

Jaký je rozdíl ve vyhledávání mezi starou a novou verzí fulltextu.

Jak jste již správně zaznamenali, nová verze fulltextového vyhledávání byla naostro spuštěna cca někdy před týdnem a půl. Nyní bych rád přiblížil co bylo podstatou změn.

Hlavní změna byla v lepším pochopení dotazu od uživatele a citlivějším zohlednění různých jeho částí. Co to prakticky znamená zkusím popsat na dotazu “vysoka skola ekonomicka v praze“. Doufám, že tím uspokojím ty, kterým se zdál předchozí článek informačně nevýživný 😉

Stará verze

Následující obrázek představuje jak bylo implementované hledání ve staré verzi.

Stará verze

Hledaly se dokumenty, které obsahovaly všechna slova přiměřeně u sebe. Hlubší vztahy slov nebo jejich významy se moc neřešily. Dotaz byl považován za vektor slov.

Nová verze

Následující obrázek představuje jak chápe stejný dotaz současná verze vyhledávání.

Nová verze

Hlavní změna je ta, že dotaz se rozloží do stromové struktury, která kopíruje význam jeho částí (zde je vidět roztržení dotazu na dvě části “vysoká škola ekonomická” a “v praze” – viz nejvrchnější AND operátor).
Stromová struktura sebou přináší daleko více operátorů, které upřesňují vyhodnocování jednotlivých částí stromu. Na slovní spojení “vysoká škola ekonomická” může tak být kladen jiný nárok (alias jiné nastavení vah) než na spojení “v praze” a na něj zase jiný, než na spojení obou částí dotazu dohromady.

Dále je na obrázku vidět, že v rozvoji dotazu je použito daleko více slov než jen ta, která zadal uživatel. Algoritmy se snaží pochopit co uživatel myslel a rozšířit dotaz tak, aby byla pravděpodobnost nalezení správné stránky co nejvyšší – viz fráze “vyskoká škola ekonomická” může být nahrazena zkratkou “VŠE” a “vysoká škola” zkratkou “VŠ”.
Předložka “v” je nahrazena speciálním NULL-operátorem, který říká že se nemá v tomto dotaze hledat. Vyhledávání předložky by bylo technicky příliš drahé a její přínos k relevanci nízký.

Nový systém nám přináší úplně novou dimenzi možností. Další vylepšování hledání bude v průběhu doby samozřejmě pokračovat; účelem tohoto projektu byl technologický upgrade abychom měli novou platformu na které bude možné dále stavět.

Na závěr bych ještě rád dodal, že celé hledání samozřejmě není jen o vyhodnocování on-page faktorů. Do celkové relevance dokumentu se samozřejmě podepíše množství složek, z nichž jen část je ta, kterou jsem zde popisoval.

P.S.1: site: operátor by již měl fungovat normálně.
P.S.2: víme, že některé dotazy obsahují neoptimální výsledky – na nich stále pracujeme.