Od smoutie ke smoothie aneb zdokonalujeme opravu překlepů

Tým Vyhledávání 19. listopadu 2018 Vyhledávání

Ve Vyhledávání si klademe za cíl uspokojit relevantními výsledky co největší množství našich uživatelů. K tomu je zapotřebí souhry celé řady okolností, např. potřebujeme mít relevantní dokument v indexu a správně vyhodnotit jeho relevanci vůči pochopenému dotazu.

Právě v rámci pochopení dotazu, které stojí na počátku celého procesu vyhledávání, se v první fázi snažíme v dotazech opravit případné překlepy. Pokud se nám toto nepodaří, skončí celé vyhledávání zpravidla nezdarem. Abychom tyto případy minimalizovali, věnovali jsme v uplynulých měsících pozornost vylepšování nástrojů, které opravu překlepů provádějí. Ty jsou celkem dva a fungují následujícím způsobem:

Na chybně napsaný dotaz uživateli můžeme nabídnout návrh opravy. Pokud na něj klikne, objeví se mu výsledky pro opravený dotaz. Druhou možností je okamžité zahledání opravy bez nutnosti další interakce s uživatelem. Provádíme jej u dotazů, u nichž jsme si návrhem opravy dostatečně jistí díky zpětné vazbě od uživatelů. Ti tak rovnou dostávají výsledky pro opravený dotaz.

Na horním obrázku se nachází návrh na opravu. Uživatel na něj musí kliknout, aby dostal výsledky pro opravený dotaz. Na dolním obrázku se nachází ukázka opravy, která se rovnou zahledává.

Nutným předpokladem pro úspěšnost obou nástrojů je skutečnost, že dotazy obsahující chybu umíme účinně poznat a opravit. Za cíl našeho snažení jsme si stanovili zvýšit počet opravovaných dotazů. Jinými slovy – chceme uživatelům zobrazovat správný návrh na opravu u co největšího množství chybných dotazů.

Každý zobrazený návrh na opravu je výsledkem několikastupňového procesu. Na začátku pro daný dotaz vygenerujeme poměrně velké množství různých variant na jeho opravu. S pomocí různorodých signálů vybereme následně menší počet kandidátů a přiřadíme jim skóre, které říká, jak dobrý daný kandidát pravděpodobně je. Opět na základě signálů několik nejlepších kandidátů porovnáme mezi sebou včetně možnosti dotaz neopravovat. Pokud existuje kandidát hodnocený lépe než původní dotaz, pak jej vydáváme jako návrh na opravu (popř. ten nejlepší z několika kandidátů). Pro splnění našeho cíle jsme potřebovali zlepšit nejen způsob, jakým kandidáty vybíráme a hodnotíme, ale také data, na jejichž základě tato vyhodnocení provádíme.

V prvním kroku jsme se zaměřili na konzistentní a aktualizované zpracování dat, na nichž učíme model správně vybírat a hodnotit kandidáty na opravu. Zjednodušeně – ke značnému množství dotazů stanovíme, jak by měly být správně opraveny, a doplníme je statistickými údaji. Část dat je připravována ručně. Anotátoři projdou velké množství dotazů a opraví ty, které obsahují chyby. Další část dat vyrábíme automaticky. Sbíráme statistiky o tom, jak často jsou dotazy hledané, jak je uživatelé reformulují, a další data. Pro automaticky generovaná data jsme zajistili, aby se sama pravidelně obnovovala a odpovídala tak nejnovějším trendům ve vyhledávání.

Kolik překlepů byste dokázali odhalit?

Další část práce se vztahovala k vylepšení samotného modelu. Zrevidovali jsme současný stav a také signály, s jejichž pomocí se rozhoduje. Zbavili jsme se těch již zastaralých a opravili nalezené nesrovnalosti. Dále jsme se rozhodli použít k vyhodnocování oprav nový algoritmus. Otestovali jsme několik verzí a původní algoritmus jsme nahradili tou, která podávala nejlepší výsledky. Přineslo nám to zejména výrazné zrychlení učení modelu. Díky tomu jej můžeme častěji přeučovat na aktualizovaných datech. Model se pak lépe dokáže adaptovat na to, co zrovna v daném období uživatelé hledají a v čem chybují.

Díky těmto úpravám jsme začali opravovat o necelou polovinu více dotazů než doposud. Ruku v ruce s tím šlo i zvýšení počtu rovnou zahledávaných oprav, jelikož k nim přešla část nových návrhů.

Oprava překlepů je pro nás natolik důležité téma, že v jejím rozvoji chceme dále pokračovat. Dalším krokem bude revize a následné zdokonalení využití uživatelské zpětné vazby.

Tým Vyhledávání

Sdílet na sítích

Co hýbe Českem? Ceny benzínu, elektroauta i kanystry, ukazují analýzy vybraných služeb společnosti Seznam.cz

Uživatelé v Česku na portálu Sauto.cz nejčastěji vyhledávají automobily spalující benzín*. Současná situace na trhu s palivy ale mnoho lidí, podle dat Seznam.cz Vyhledávání, podněcuje k většímu zájmu o elektroauta. Roste také počet dotazů na ceny benzínu, zejména na čerpacích stanicích Ono. Na Zboží.cz mají lidé větší zájem o kanystry, většinou o ty o objemu 20 litrů. Podíváme-li …

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.