Vyhledávání Seznamu poskytuje nové, relevantnější výsledky

6. listopadu 2009

Významná technologická změna ve fulltextu Seznamu se dotkla relevance výsledků hledání. Změnila způsob vyhodnocování uživatelských dotazů a poskytuje lepší výsledky hledání na běžné dotazy.

Fulltextové hledání v rámci českého internetu je jednou z klíčových služeb Seznamu. V jeho databázi je přes 350 milionů českých stránek a během jediného dne zpracovává až 17 milionů uživatelských dotazů. Ve špičce uživatelé na Seznamu vyhledávají až 300 dotazů za sekundu. Podobně velké vylepšení fulltextového vyhledávání proběhlo v roce 2007.

 
Změna ve vyhodnocování relevance

 Relevance, přesněji souvislost výsledku hledání se zadaným dotazem, patří mezi základní kvality vyhledávače. Nové vyhledávání na Seznamu relevanci významně zvyšuje a to jak na krátké, tak na víceslovné dotazy. Nová verze algoritmu pro výpočet relevance také poskytuje větší potenciál pro další úpravy v budoucnu.

 
„Algoritmy pro výpočet relevance bylo nutné zcela přepracovat, protože nebyly kompatibilní s novým způsobem vyhodnocování relevance“, vysvětluje produktový manažer fulltextu Štěpán Škrob. „Rozdíl mezi starou a novou verzí je asi jako mezi parním strojem a spalovacím motorem. Oba dělají ve výsledku totéž, ale každý jiným způsobem.“

 
Příklady

Významně přesnější výsledky hledání poskytuje nová verze vyhledávání na běžné, tedy krátké dotazy. Příkladem může být slovo „STEM“ kde stará verze fulltextu hledala různé varianty slova „sto“. Podobně je tomu při hledání slova „Peru“.

 
Změna výsledku hledání na dvouslovné dotazy je pak vidět třeba na příkladu slov „Milada Horáková“. Zatímco stará verze hledání nabídla několik základních škol se jménem Milady Horákové v názvu, v nové verzi hledání jsou odkazy přímo na osobnost Milady Horákové.

 
Výhledy do roku 2010

Na novém vyhledávání pracuje v Seznamu tým zkušených specialistů pod vedením Dušana Janovského. Pro příští rok se jeho pozornost soustředí na úpravu robota a na další vylepšování relevance u složitějších dotazů.   

 

Sdílet na sítích