Umístění těch nejdůležitějších a nejzajímavějších výsledků na prvních horních pozicích je jedním ze základních cílů našeho Vyhledávání. Uspořádání výsledků je složitý problém, který vám přiblížíme v tomto seriálu. Začínáme malou podčástí, kterou je vkládání takzvaných upoutávek mezi ostatní výsledky.
Co jsou upoutávky?
Upoutávky se liší od ostatních výsledků vizuální stránkou a typicky nereprezentují pouze jednu webovou stránku, jako je tomu u klasických organických výsledků. Existuje několik různých druhů upoutávek. Například pro dotazy, u kterých je jedním z hlavních záměrů vidět vizuální podobu hledaného objektu, se může zobrazit obrázková upoutávka. Dalším příkladem může být upoutávka zboží zobrazující se pro dotazy, které se týkají nákupů, populární je také upoutávka Firmy.cz, která uživateli nabídne firmy a služby pohromadě.
Upoutávky umisťujeme jiným mechanismem než ostatní výsledky, u kterých v tomto článku budeme předpokládat, že jsou již správně seřazené a jejich pořadí je fixní. Tomuto mechanismu říkáme Alpaka. Její fungování a vlastnosti zde krátce popíšeme.
Jak Alpaka postupuje?
Abychom byli schopni určit dobré uspořádání výsledků, musíme umět poznat a změřit, které výsledky jsou pro uživatele nejlepší. Alpaka kvalitu výsledků aproximuje pomocí jejich klikanosti, tj. CTR(Click Through Rate), tedy pomocí poměru počtu kliků vůči počtu zobrazení výsledku. Čím je CTR vyšší, tím je pro Alpaku výsledek kvalitnější. CTR výsledků je vztažené ke kontextu, ve kterém se objevují. Pod kontextem si můžeme představit hlavně dotaz, na který se výsledek zobrazil. To znamená, že hodnota CTR stejného výsledku se typicky liší pro různé dotazy a díky tomu dokážeme podchytit skutečnost, že výsledek může být dobrou odpovědí na konkrétní dotaz, ale nemusí tomu tak být i pro jiné dotazy.
CTR výsledků v jejich kontextu typicky není známo. Některé dotazy jsou například hledány pouze jednou za celou historii hledání v Seznamu. Alpaka proto musí CTR odhadovat, k čemuž používá metodu strojového učení, která se učí z historických dat vyhledávání.
Alpaka při vkládání upoutávek postupuje jednoduchým způsobem. Začne na první pozici a odhadne CTR všech upoutávek, které prošly dřívějším výběrem, a také prvního organického výsledku. Vítěz je umístěn na první pozici a pokračuje se stejným způsobem na druhé pozici se zbývajícími výsledky. Ve chvíli, kdy se takto projdou všechny pozice, jsme s uspořádáním výsledků hotovi.
Obrázek výše uvádí příklad fungování Alpaky pro dotaz “pes seznam”. Na první pozici si konkurují organický výsledek 1, upoutávka Zboží.cz a upoutávka obrázků. Podle predikovaného CTR je zde umístěna upoutávka obrázků – očekává se nejvyšší proklikovost, uspokojení uživatele. Na dalších pozicích si konkurují organické výsledky a upoutávka Zboží.cz. Z pohledu predikovaného CTR vyhrává na druhé a třetí pozici organik, na čtvrté pak Zboží.cz.
Zajímavosti na závěr
Ne vždy je vybírání vítěze v klikanosti optimální volbou. Když se například zavede nový typ upoutávky, Alpaka ho nemusí dobře odhadnout, protože k němu nemá data pro učení. Kdyby ho nikdy nevyzkoušela umístit mezi výsledky, potřebná data se nenasbírají a jeho odhad se nikdy nezmění. Proto se vyplatí občas zkoušet i jiné výsledky než ty s nejvyšším odhadem, abychom k nim nasbírali data pro získání přesnějšího odhadu.
Data pro učení Alpaky jsou velká – obsahují miliardy příkladů pro učení. Odhad klikanosti zajišťuje logistická regrese.
Vstupem do logistické regrese je širší kontext než jen výsledek a dotaz. Alpaka umí brát v potaz například i informace o dalších výsledcích na stránce a informace o uživateli.
Možná se divíte, jak Alpaka přišla ke svému jménu. Alpaka je nástupcem Lamy. A zároveň odkazuje na náš dřívější Layout Manager (LaMa).
Celá Alpaka je postavená na predikci klikanosti – CTR. V příštím díle našeho seriálu si o CTR řekneme více, popíšeme jeho vlastnosti a budeme diskutovat jeho limity pro různé produkční aplikace, i pro námi projednávanou Alpaku.
Náš nový článek přijatý na prestižní konferenci SIGIR 2024 přináší klíčový příspěvek v oblasti českého webového vyhledávání. Představuje CWRCzech, což je nový dataset pro hodnocení relevance vyhledávání obsahující 100 milionů párů dotaz-dokument v českém jazyce. Pojďme si ho představit.
V Seznamu jsme v roce 2021 představili jazykový model Small-E-Czech (čti: smolíček), který se od té doby stal druhým nejpopulárnějším českým jazykovým modelem.* V oblasti umělé inteligence a zpracování přirozeného jazyka je ale pořád co objevovat. A tak jsme pro vás nově vypiplali další malé jazykové modely, zaměřené na analýzu a interpretaci jazyka.** Jaké jsou?
V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.