Zkratka CTR neboli proklikovost je jedním z nejdůležitějších pojmů ve světě internetové reklamy, e-commerce či vyhledávání. Řídí se podle něho i pořadí výsledků v internetovém vyhledávači, typ a umístění reklamy, nadpisy článků na zpravodajských serverech a mnoho dalšího. Co tedy tahle magická zkratka všechno umí? A jak souvisí s Alpakou? Nejen o tom je následující článek.
CTR celého SERP-u (Search Engine Results Page neboli stránky s výsledky) ukazuje, v jakém procentě vydaných SERP-u lidé alespoň jednou klikli na výsledek. CTR jednoho konkrétního výsledku v rámci SERP-u pak ledacos říká o jeho kvalitě.
Na první pohled se může zdát, že vysoké CTR je ultimátním cílem v mnoha oblastech a nízké CTR naopak signalizuje potřebu zlepšení. Realita je však mnohem složitější. Do jednoho magického čísla mezi nulou a stovkou se totiž promítá značné množství velmi komplikovaných jevů, jejichž popis je nelehkou úlohou sám o sobě.
CTR a jeho rozpad
Jak už bylo řečeno, do jednoho čísla se promítá větší množství faktorů. Některé z nich jdou v určitých případech separovat. U SERP-u jako celku je CTR poskládáno z kvality výsledků, jejich pořadí, ale i jeho grafického řešení. Separace vlivu těchto faktorů je zde prakticky nemožná.
U CTR jednotlivých výsledků je už situace jiná a rozpad CTR v tomto případě smysl dává. Výsledná proklikovost výsledku je tak kombinací jeho kvality (která je nepřekvapivě vyjádřena pomocí CTR) a vlivu kontextu (opět CTR), v němž se nachází. Tímto kontextem chápeme především pozici výsledku (jiným příkladem kontextu může být například bezprostřední přítomnost výrazné upoutávky).
CTR pozice (tzv. poziční bias) je velice důležitý fenomén. Pozorováním je dokázáno, že pozice samotná hraje vlivnou roli při práci se SERP-em z pohledu uživatele. Vysoká pozice dokáže dosáhnout velké klikanosti i při nerelevantních výsledcích, zatímco nízká pozice s lehkostí vyřadí relevantní výsledek ze zorného pole lidí. Pokles CTR s pozicí je velice strmý.
Výsledné CTR výsledku (stejně tak reklamy) je součinem CTR výsledku (jeho kvality) a pozičního CTR; zde mluvíme o kalibraci pozicí. V reálných aplikacích je tak prakticky vždy CTR vztahováno k výsledku na konkrétní pozici.
Kromě oddělení vlivu kontextu je možné CTR zkoumat v časové oblasti, kde dochází k jeho periodickému kolísání (např. víkend a pracovní týden) či nárazovým skokovým změnám (příchod koronaviru).
CTR ve vyhledávání a zpětná vazba uživatelů
Historicky ve vyhledávání předpokládáme, že CTR celých SERP-ů odpovídá zpětné vazbě uživatelů, takže je metrikou kvality vyhledávání. Naše CTR SERP-ů se v současnosti pohybuje na úrovni kolem 85 % (u tolika procent hledání dojde alespoň k jednomu kliku). Takovéto chápání CTR vyžaduje zjednodušující předpoklad: klik je pozitivní zpětnou vazbou.
Bohužel nebo bohudík, svět je místem dynamickým a různé předpoklady se v čase mění a padají. Jinak tomu není ani v problematice CTR.
Náš předpoklad implikuje, že pokud uživatel na svůj dotaz nedostal uspokojivý výsledek, tak nám klik “neodevzdal”. Místo toho změnil dotaz, případně odešel ke konkurenci.
Tak to ale být nemusí. Někteří lidé do SERP-u klikají špatným výsledkům navzdory, aby získali alespoň nějakou informaci, nebo je zaujme něco jiného. Takové chování, typické především pro dotazy exotické (málo hledané nebo složité), mohou uměle navyšovat CTR a ve světle našeho předpokladu vést k mylné představě, že zkoumané dotazy dokážeme odbavit ke spokojenosti lidí.
Další a palčivější problém tohoto přístupu je, že zanedbává uspokojivé odbavení uživatele bez potřeby kliku. V současnosti je totiž SERP více než jen seznam výsledků poskytujících informaci až po rozkliknutí. Obsahuje prvky, které nejenže dokážou odbavit bez kliknutí, ale jsou k bez-klikovému odbavení přímo navrženy. Prvním takovým prvkem je našeptávač neboli automatické doplňování dotazu. Přímo nášept je totiž schopen dodat to, co uživatel hledal, například zjistit správný tvar názvu (počet “n” v “John Lennon”), ověřit existenci nějakého jména, názvu, lokality. Druhým prvkem se schopností bez-klikového odbavení je snippet, což je krátký textový popisek výsledku. Stává se, že kvalitní snippet poskytne uživateli veškerou informaci, kterou zrovna hledá. Příkladem jsou snippety pod výsledky z Wikipedie, jejichž koncentrovaný obsah dokáže zodpovědět mnohé dotazy. Třetím prvkem, který nabourává představu o CTR jako jednoznačné zpětné vazbě, si vkládáme do SERP-u sami. Jedná se o tzv. upoutávky, čili výsledky graficky zvýrazněné a nadesignované tak, aby uživateli poskytly podrobnější informaci před tím, než by na ně potenciálně kliknul. Můžeme je potkat jako obrázkové karty či různé informativní karty (sportovní, wiki, mapové a jiné).
Z výše zmíněných poznatků je zřejmé, že chování lidí je v dnešní době příliš složité, než aby bylo jednoduše popsatelné jedním číslem. Přinejmenším můžeme předpokládat, že ve většině případů je klik indikací úspěchu vyhledávače. Pak můžeme CTR brát jako metriku kvality klikací domény vyhledávání (pro tu část uživatelské aktivity, která má za cíl končit klikem). Problémem však je, že neklikací doména je pomocí CTR neměřitelná, neboť nevíme přesně její zastoupení a navíc její kvalita ovlivňuje také doménu klikací. A to jsme ještě nediskutovali vyhledávání na telefonech, kde se předpokládá ještě významnější podíl “neklikání”.
Proč tedy používat CTR jako zpětnou vazbou našich uživatelů? Důvodem je jednoduchá definice, srozumitelný princip, levná spočitatelnost a dobrá segmentovatelnost. CTR pro různé pozice v SERP-u, CTR pro různé typy dotazů, CTR pro různé typy výsledků, atd. Při jeho interpretaci je však potřeba výše zmíněné aspekty brát v potaz a být opatrný ve vyvozených závěrech. Zkrátka nepanikařit při nízkých hodnotách a nebýt přehnaně optimistický při hodnotách vyšších.
CTR a Alpaka
O Alpace už jsme vás informovali v našem prvním článku věnující se problematice různorodých výsledků. Srdcem vyhledávače je relevanční model, který pro vybrané dokumenty (organické výsledky) z databáze vrátí hodnotu jejich relevance vůči hledanému dotazu. Nejdříve vybereme relevantní výsledky (na základě shody se záměrem dotazu) a pak je relevančním modelem seřadíme. Nejrelevantnější výsledky vidíme seřazeny v SERP-u. Model relevance je místo, kde vstupují do hry zpětnovazební CTR signály.
V Alpace, která řadí upoutávky mezi i organické výsledky, je situace trochu jiná. Náš standardní model je schopen vyhodnocení relevance jenom pro organické výsledky, nikoli pro upoutávky. Proto nahrazujeme zde nedostupnou relevanci predikcí samotného CTR. Předvýběr smysluplných upoutávek necháváme na jednotlivých poskytovatelích služeb (důvěřujeme zbozi.cz, firmy.cz, wikipedii a jiným) a na nás je pak určení jejich CTR, což je stejný postup jako určení CTR seřazených organických výsledků od relevančního modelu.
Zkušenost ukázala, že tento přístup je aplikovatelný a věříme, že i úspěšný. A to jak z našeho pohledu, tak samozřejmě z pohledu uživatele. Samotná predikce CTR je navíc dobře separovatelná a je možné na ní zkoumat další možnosti zlepšení, a to bez kritického zasahování do jiných komponent.
Závěrem
CTR, navzdory své jednoduchosti a svým omezením, je velmi důležitým číslem, jehož dopad je badatelný v širokém spektru aplikací. V oblasti internetového vyhledávání je však potřeba znát jeho limity a být si vědom jejich dopadu pro různé užití.
V příštím dílu se můžete těšit na informace, jak je CTR zakomponováno v Alpace a jak jsme ho schopni predikovat pomocí strojového učení.
Za tým Vyhledávání Martin Bachura a Jakub Střelský
Náš nový článek přijatý na prestižní konferenci SIGIR 2024 přináší klíčový příspěvek v oblasti českého webového vyhledávání. Představuje CWRCzech, což je nový dataset pro hodnocení relevance vyhledávání obsahující 100 milionů párů dotaz-dokument v českém jazyce. Pojďme si ho představit.
V Seznamu jsme v roce 2021 představili jazykový model Small-E-Czech (čti: smolíček), který se od té doby stal druhým nejpopulárnějším českým jazykovým modelem.* V oblasti umělé inteligence a zpracování přirozeného jazyka je ale pořád co objevovat. A tak jsme pro vás nově vypiplali další malé jazykové modely, zaměřené na analýzu a interpretaci jazyka.** Jaké jsou?
V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.