Jak vysvětlujeme složité modely (třeba relevanci)

23. února 2016 Vyhledávání Výzkum

Vyvinuli jsme interní nástroj pro srozumitelné vysvětlení složitějších modelů strojového učení a nasadili ho mimo jiné i na náš model pro výpočet relevance. Nyní dokážeme jednoduššeji interpretovat složité SEO metriky pro interní potřeby. V tomto teoretickém článku vysvětlíme princip našeho nástroje inspirovaného [Strumbelj.2010] a [Strumbelj.2014] právě na příkladu modelu relevance.

Za výběrem podobného dokumentu pro hledaný výraz (tzv. relevance) se skrývá složitý algoritmus strojového učení (tzv. model), a proto občas není jasné, proč se hodnocení některých dokumentů dramaticky změnilo. Abychom zjistili příčiny takových změn, musíme rozumět vlastnímu modelu, což v případě neuronových sítí a náhodných lesů není triviální úkol. Algoritmicky je vysvětlení modelu celkem nenáročné. Ovšem časová složitost je velký problém. Vstup jakéhokoliv modelu je několik příznaků (features), které jsou pro pohodlí většinou číselné. Pokud bychom na stránce hodnotili pouze 2 věci, např.

jak moc nadpis stránky obsahuje slova z dotazu (od 0.0 do 1.0)
jak moc se opakují slova z dotazu v těle stránky (od 0.0 do 1.0)

pak si můžeme celý český internet představit na jedné ploše, která bude různá pro každý dotaz. Vezměme například dotaz “krásný výlet”, na jehož ploše se budou v nějakém místě tísnit vedle sebe weby o turistice a kolem nuly bude vše ostatní. Umístění na ploše je konstantní a je dáno obsahem stránky. Relevanci si pak můžeme představit jako barvu plochy, která se mění od (dejme tomu) červené, která bude kolem turistických webů, až do bílé kolem nulových hodnot. Toto vybarvování provádí právě náš model.

1.1. Ohodnocení generované různými modely

Pro vysvětlení, jak si dokument vede pro daný dotaz, musíme vzít bod reprezentujcí náš dokument a zašoupat s ním v jeho blízkém okolí a pozorovat jak se mění jeho barva. Ovšem abychom dostali vypovídající výsledek, je potřeba zkusit pohyb paprskovitě ve všech směrech, protože nevíme, kde se barvy mění. Může se stát, že náš model započítává hodnocení těla dokumentu, až když nalezne shodu v nadpisu stránky. Pak šoupáním v oblasti příznaku pro tělo textu bychom vysvětlili, že na něm vůbec nezáleží, což není pravda! Takovému modelu se technicky říká, že není aditivní. Aditivní modely lze totiž vysvětlit aritmetickou kombinací příznaků = není tam žádná hranice (můžeme si představit jako funkci IF).

Jak tedy správně hýbat bodem v prostoru, aniž bychom zkusili všechny směry a vzdálenosti, kterých je v podstatě nekonečně? Odpovědí je metoda Monte Carlo, která v podstatě říká, že nemusíme zkoumat celý prostor, ale stačí se dívat na náhodná místa v prostoru, z čehož dostaneme dostatečně dobrou představu o prostoru. Samozřejmě čím déle vydržíme, tím více se blížíme tomu, že jsme prozkoumali celý prostor.

1.2. Náhodný výběr příznaků

Jak tedy napočítávání příspěvků příznaků funguje? V naší implementaci zkoumáme příznaky jeden po druhém (nikdy více naráz). Pokaždé ke zkoumanému příznaku vybereme pár dalších a podíváme se na rozdíl barev, když změníme hodnoty všech vybraných příznaků a všech bez zkoumaného příznaku. Rozdílu těchto dvou barev nazýváme příspěvek zkoumaného příznaku.

Výběrem nějaké množiny příznaků simulujeme hýbnutí v prostoru nějakým “šikmým” směrem. Celý postup vlastně odhaduje průměrnou barvu v okolí a porovnání s hodnotou v našem bodě.

Využití je pak celkem přímočaré. Zvolíme jeden příklad – nějaký dotaz a nějaký dokument, a podíváme se, které příznaky mají pozitivní a negativní vliv na jeho hodnocení. Surovým výstupem jsou hodnoty v intervalu <-1.0, ₊1.0>. Na obrázku 1.3. vidíme reálný příklad z našeho hodnotícího modelu, které příznaky (zde kódované pořadovými čísly) mají jaký vliv na dobré hodnocení dokumentu.

1.3. Ukázka interpretace našeho modelu relevance

Pokud by příznak 839 byl například počet mezer v nadpisu, tak můžeme zavolat majiteli dokumentu, že mu nejspíš při psaní ujel mezerník a po takhle jednoduché opravě by se opět vrátil na výsluní první stránky vyhledávače.

Sdílet na sítích

Recept na SERP aneb jak vylepšujeme výsledky Vyhledávání na Seznamu

Neustále pracujeme na tom, aby se ve Vyhledávání na Seznamu zobrazovaly co nejlepší výsledky. I proto jsme nedávno nasadili úpravy, které zlepšují relevanci organického hledání. Co se změnilo a z čeho úpravy vycházejí?

Doporučovací systémy podruhé: Dozvíte se, jak je postavena jejich architektura

Veronika Geltner 19. května 2022 Vyhledávání Výzkum

V posledním článku o doporučovacích systémech jsme vyzdvihli schopnost doporučovacích systémů (DS) výrazně zvýšit úroveň nabízených služeb, díky které v posledních letech pronikly do všech oblastí, kde jsou obsah nebo služby nabízeny koncovým uživatelům. Metody strojového učení, které se v DS využívají, jsou ze stejného důvodu předmětem pokročilého výzkumu v mnoha prestižních technologických společnostech. V …

Seznam.cz Vyhledávání se zapojí do protokolu IndexNow

Martin Kirschner 9. prosince 2021 Vyhledávání Výzkum

Uživatelé očekávají, že s pomocí vyhledávače najdou na internetu informace, které zrovna potřebují. Aby však vyhledávač mohl na jejich dotaz správně odpovědět, musí udržovat na svých serverech lokální kopii webu, kde nesmí žádná důležitá webová stránka chybět. Navíc by všechny měly být ve stejném stavu, jako na internetu. Databázi pro vyhledávač tvoří vyhledávací robot, který …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.