Zlepšená detekce jazyka stránky

31. července 2015 Vyhledávání

Nedávno jsme vylepšili detekci hlavního jazyka stránky. Proč jsme to dělali? Na české dotazy chceme zobrazovat stránky určené pro české uživatele a jejich hlavní jazyk tak musí být čeština. V případě webu, který obsahuje 100 % češtiny, je tato úloha triviální. Představte si ale, že máte webovou stránku, na které je 80 % textu anglicky a 20 % česky, a přesto je smysluplné označit ji jako českou. Jak je to možné? Jedná se pravděpodobně o český e-shop, který na této konkrétní stránce uvádí třeba 80 výrobků, které mají všechny název v angličtině. Jediným českým textem tak je menu a ostatní ovládací prvky. Chceme ji ale označit jako českou, protože na ní chceme směřovat dotazy v češtině.

V minulosti jsme na tuto úlohu používali algoritmus, který se řídil člověkem navrženými pravidly. Úspěšnost tohoto algoritmu dosahovala 91 %. Na tuto úlohu jsme nově použili metodu strojového učení založenou na rozhodovacích stromech, kde tato pravidla navrhoval počítač. Úspěšnost tak stoupla na 97 %. Lepšího výsledku jsme dosáhli jednak proto, že jsme se začali dívat na další vlastnosti stránek, které starý algoritmus nezohledňoval, a jednak proto, že jsme pravidla nechali stanovovat algoritmus strojového učení. Je šestiprocentní zlepšení hodně?

Řekněme, že máme v databázi miliardu stránek. 9 % špatně označených stránek tak představuje 90 milionů. Jestli jsme zlepšili detekci o 6 %, tak jsme zlepšili detekci hlavního jazyka stránky pro 60 000 000 webů.

Nový algoritmus právě testujeme a do ostrého provozu se dostane nejpozději za měsíc, ale pravděpodobně dříve.

Sdílet na sítích

Co hýbe Českem? Ceny benzínu, elektroauta i kanystry, ukazují analýzy vybraných služeb společnosti Seznam.cz

Uživatelé v Česku na portálu Sauto.cz nejčastěji vyhledávají automobily spalující benzín*. Současná situace na trhu s palivy ale mnoho lidí, podle dat Seznam.cz Vyhledávání, podněcuje k většímu zájmu o elektroauta. Roste také počet dotazů na ceny benzínu, zejména na čerpacích stanicích Ono. Na Zboží.cz mají lidé větší zájem o kanystry, většinou o ty o objemu 20 litrů. Podíváme-li …

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.