26. 11. 2008

Hledání slov obsahujících znaky +, §, &, atd.

Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L’Oreal a pod.

V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.


Obrázek zdroj austinlinks.com

Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.

Některé příklady:

  • c++; dříve se hledalo jen samotné “c”
  • § 200; dříve s hledalo jen 200
  • m&t; dříve se hledalo jako dvě rozdělená slova

Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.