Jak ve vyhledávání učíme model užitečnosti

Yuhů 15. listopadu 2019 Vyhledávání

Ve středu 13. 11. jsme aktualizovali jeden z modelů, kterými řadíme výsledky vyhledávání. Tomuto modelu říkáme „užitečnost“. Pokud jste v posledních dnech zaznamenali se svými stránkami velké změny v pozicích na vyhledávání, mohlo to být způsobeno touto aktualizací.

Ve vyhledávání pro nalezené stránky vzhledem k dotazu modelujeme hodně různých vlastností, které následně používáme pro řazení. Kromě užitečnosti jsou to třeba přesnost dotazu, navigačnost a další. Pro samotné stránky bez ohledu na dotaz modelujeme například kvalitu stránky nebo různé verze spamovitosti. Všechny tyto modely při vyhodnocování používají mnoho stovek signálů automaticky spočítaných z dat o stránkách, ale nejdříve se model musí naučit. Pro učení používáme metodou strojového učení s učitelem (supervised learning). Modelu napřed dáme mnoho ilustračních příkladů, které jsme připravili a nechali ohodnotit našimi zaučenými brigádníky. Model se potom naučí hádat hodnocení i v dalších situacích, které v trénovacích příkladech vůbec neviděl. V případě modelu užitečnosti, který jsme nyní aktualizovali, jsme z více než miliónu ručních hodnocení použili přes sto tisíc nejaktuálnějších příkladů, což na jeho naučení stačí.

Jak se bude konkrétní model chovat, vždy samozřejmě závisí na metodě, kterou byly nasbírány učící příklady. Pro stanovení užitečnosti jsme našim hodnotitelům dali relativně jednoduché pravidlo. Mají za úkol rozhodnout, pro jak velké množství uživatelů, hledajících konkrétní dotaz, bude nalezená stránka pravděpodobně užitečná. Určitou výhodu pak ve výsledcích mají stránky, které hledaná témata probírají více do šířky, protože je pravděpodobnější, že budou užitečné pro více uživatelů. Podobně při hledání výrobků je jako užitečnější vyhodnocena stránka, která výrobek podrobně popisuje, umožňuje ho objednat a třeba mu i zajišťuje servis, oproti stránce, která o výrobku jenom informuje, nemá ho skladem nebo ho jenom bez dalších informací přeprodává. Takto naučenou užitečnost používáme už od letošního července a nyní jsme aktualizovali její model.

Pro většinu strojového učení na vyhledávání Seznamu používáme už mnoho let naši vlastní komponentu RCrank. (RC zde znamená Rožník, Cícha, což jsou příjmení autorů.) RCrank je les sčítající výsledky z rozhodovacích stromů s použitím gradient boostingu a oblivious trees. (Gradient boosting zjednodušeně znamená, že se každý další strom učí na chybách předchozích stromů. Oblivious trees je druh rozhodovacího stromu, který v každé úrovni používá vždy stejný signál, což v ostrém provozu pomáhá rychlému vyhodnocování.) Při nejnovější aktualizaci jsme se nově rozhodli ve fázi učení vyzkoušet open source komponentu CatBoost, která má velmi podobné vlastnosti jako náš RCrank, ale rychleji se učí. Výstupy CatBoostu jsme zkonvertovali do formátu našeho tradičního modelu a po úspěšném otestování nasadili.

Yuhů

Konzultant vyhledávání

Sdílet na sítích

Co hýbe Českem? Ceny benzínu, elektroauta i kanystry, ukazují analýzy vybraných služeb společnosti Seznam.cz

Uživatelé v Česku na portálu Sauto.cz nejčastěji vyhledávají automobily spalující benzín*. Současná situace na trhu s palivy ale mnoho lidí, podle dat Seznam.cz Vyhledávání, podněcuje k většímu zájmu o elektroauta. Roste také počet dotazů na ceny benzínu, zejména na čerpacích stanicích Ono. Na Zboží.cz mají lidé větší zájem o kanystry, většinou o ty o objemu 20 litrů. Podíváme-li …

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.