3. 4. 2012

Seznam testuje vyhľadávanie v cudzojazyčných výsledkoch

Začali sme indexovať zahraničné weby. Sústredíme sa na angličtinu a na obľúbené weby. Hľadanie vo svete zostalo bez zmien. Testovaciu verziu si môžete pozrieť na http://searchtest.seznam.cz .

Navýšili sme počet indexovaných (uložených na hadoope) stránok z 400 na terajších 700 miliónov. Pribudli najmä stránky v angličtine a pár miliónov slovenských, poľských, nemeckých a francúzskych. Na jazyky s nelatinkovými znakmi sme sa nesústredili. Prioritou zostávajú české stránky, ktorých počet neustále navyšujeme.

Do testovacieho výdaja na webovku searchtest.seznam.cz sme dali databázu s 560 miliónmi dokumentov [1]: 380 v čestine, 130 v angličtine, 15 v nemčine, 15 v slovenčine a 20 tvoria ostatné jazyky dohromady. Sústredili sme sa na obsah, ktorý buď na českom webe nie je, alebo je výrazne kvalitnejší v inom jazyku zrozumiteľnom pre užívateľov – čo je obvykle prípad angličtiny. Väčšina výsledkov na prvej stránke naďalej zostáva v čestine.[2]  Výpočet relevancie sme nemenili.

Vyhľadávanie vo svete pomocou Microsoft-ieho Bingu zostáva nezmenené. V rámci tohto projektu sme sa sústredili na indexovanie obľubených zahraničných webov hlavne v angličtine. Bing má výrazne väčší index a vyľadené hľadanie pre mnoho jazykov (včetne exotických ako japončinina, alebo čínstina) a preto zostáva našou voľbou pre hľadanie vo svete.

Na ilustráciu našej motivácie začať indexovať cudzojazyčné weby si môžete pozrieť výsledky na dotazy: bbc, nasa, distrowatch, ikea dresden, tv markíza.sk tisíc a jedna noc, discovery channel

Test beží na adrese searchtest.seznam.cz. Hľadanie je oprené do vývojových strojov, takže zvládne obmedzený počet hľadaní a beží pomalšie ako v produkcii. Ostré nasadenie plánujeme za pár týždňov. Budeme radi za Vaše postrehy a názory.


[1] Áno čísla sú rôzne. Stiahnutých máme 700m a z nich sme 560m dali v binárnom formáte na stroje na ktorých sa vyhľadáva.
[2] Ak existuje dostatok českých výsledkov na zadaný dotaz. U porno výsledkov jazyk stránok nerozlišujeme.