8. 6. 2011

15 let hledání na Seznamu

Seznam.cz je letos na českém internetu 15 let. Od jeho založení v roce 1996 se mnohé změnilo. Jak tedy vlastně vypadalo fulltextové hledání na svém počátku a jak vypadá dnes?

I když v roce 1997 přišel Seznam s prvním fulltextovým vyhledáváním, šlo jen o jakýsi doplněk hledání v katalogu stránek. Opravdové vlastní a plnohodnotné fulltextové vyhledání spustil Seznam na jaře 2005. Až to nahradilo původní hledání v katalogu. Databáze, které od jara 2005 vydávaly výsledky na dotazy uživatelů. Tehdy běžely na čtrnácti serverech a obsahovaly 30 000 000 dokumentů. Nicméně už v okamžik spuštění bylo zřejmé, že takový návrh fulltextu nebude konečný a rozmach internetu dával jasný signál, že vývoj se nesmí zastavit. A tak v březnu 2007 přišel zásadní milník – fulltext se připravil na prudký nárůst stránek na internetu a architektura fulltextu se stala škálovatelnou.

Zatímco v lednu 2008 Seznam fulltext vyhledával na 100 000 000 českých stránek, v září téhož roku to bylo už kolem 180 milionů. Ale nezůstalo jen u technologií „za oponou“. V roce 2008 se podařilo stránky s výsledky vyhledávání přizpůsobit potřebám zrakově postižených a také začít zpracovávat do hledání jiné formáty než klasické HTML stránky. Doplnili jsme tak PDF a vzápětí i další formáty jako DOC nebo power point prezentace. V září pak přišla druhá generace robota, který prochází internet a sbírá stránky. Dokázal zpracovat 400 stránek za vteřinu a spíše ho brzdily tehdy ještě pomalejší weby.

I roky 2009 a 2010 byly ve znamení velkých technologických změn. V únoru 2009 byla spuštěna nová verze tzv. Screenshotátoru, který dodává nalezeným stránkám ve vyhledávání obrázky s náhledy. Nově jsou k dispozici náhledy pro téměř 100% stránek. Ostatně tehdy byly výsledky vyhledávání Seznamu snad jediné na světě, které standardně náhledy ke stránkám vyhledávání poskytovaly.

Ale aby nezůstalo jen u vizuální části vyhledávání, tak říjen 2009 přinesl zásadní změnu ve zpracování a pochopení uživatelských dotazů. V podstatě šlo o to, že dotaz už nebyl zpracováván jako celek, ale byl rozložen a jednotlivá slova a slovní spojení, která jsou chápána podle desítek kritérií.

Velké novinky z roku 2009 Seznamu a jeho hledání přinesly Křišťálovou lupu v kategorii Vyhledávače. A blok změn započatý v roce 2009 vyvrcholil na podzim následujícího roku, kdy tato – dá se říci – změna filozofie vedla k razantnímu zvýšení kvality hledání.

S rostoucím počtem dokumentů, v září 2010 to bylo už 370 mil., v hledání a rozšiřujícími se funkcemi se zvyšuje i výpočetní náročnost. V roce 2010 mělo samotné hledání přes 100 serverů a robot běžel na desítkách serverů.

Jaká je současnost a budoucnost fulltextového hledání na Seznamu?

Před pár dny jsme nasadili nového vyhledávacího robota, který je po půl roce opět obrovským technologickým krokem kupředu. Nový robot dokáže zpracovat 1500 stránek za vteřinu, které si nejdřív zařadí do přípravné databáze. Dá se říct, že si vytváří vlastní kopii internetu. Má tak informace o miliardách stránek, ze kterých se vybírají řádově stovky milionů, které se nakonec dostanou k uživateli.

Když lidé shání bydlení, chtějí koupit nový automobil, motorku, pátrají po spolužácích ze školních lavic, nebo chtějí vědět, co se právě děje, přichází na služby Seznamu a hledají. A protože chceme, aby u nás naši uživatelé vždy našli to, co právě hledají, vyhledávání chceme i nadále rozvíjet a zlepšovat. Pro Seznam je neustále velmi důležitý vývoj technologií hledání. Práce na vyhledávání pro nás proto nasazením třetí generace robota rozhodně nekončí.

Petr Nevrlý
Petr