Světlé a stinné stránky slavného CTR. Co všechno ovlivňuje a co má vliv naopak na něj?

5. dubna 2022 Strojové učení Vyhledávání

Zkratka CTR neboli proklikovost je jedním z nejdůležitějších pojmů ve světě internetové reklamy, e-commerce či vyhledávání. Řídí se podle něho i pořadí výsledků v internetovém vyhledávači, typ a umístění reklamy, nadpisy článků na zpravodajských serverech a mnoho dalšího. Co tedy tahle magická zkratka všechno umí? A jak souvisí s Alpakou? Nejen o tom je následující článek.

CTR celého SERP-u (Search Engine Results Page neboli stránky s výsledky) ukazuje, v jakém procentě vydaných SERP-u lidé alespoň jednou klikli na výsledek. CTR jednoho konkrétního výsledku v rámci SERP-u pak ledacos říká o jeho kvalitě.

Na první pohled se může zdát, že vysoké CTR je ultimátním cílem v mnoha oblastech a nízké CTR naopak signalizuje potřebu zlepšení. Realita je však mnohem složitější. Do jednoho magického čísla mezi nulou a stovkou se totiž promítá značné množství velmi komplikovaných jevů, jejichž popis je nelehkou úlohou sám o sobě.

CTR a jeho rozpad

Jak už bylo řečeno, do jednoho čísla se promítá větší množství faktorů. Některé z nich jdou v určitých případech separovat. U SERP-u jako celku je CTR poskládáno z kvality výsledků, jejich pořadí, ale i jeho grafického řešení. Separace vlivu těchto faktorů je zde prakticky nemožná.

U CTR jednotlivých výsledků je už situace jiná a rozpad CTR v tomto případě smysl dává. Výsledná proklikovost výsledku je tak kombinací jeho kvality (která je nepřekvapivě vyjádřena pomocí CTR) a vlivu kontextu (opět CTR), v němž se nachází. Tímto kontextem chápeme především pozici výsledku (jiným příkladem kontextu může být například bezprostřední přítomnost výrazné upoutávky).

CTR pozice (tzv. poziční bias) je velice důležitý fenomén. Pozorováním je dokázáno, že pozice samotná hraje vlivnou roli při práci se SERP-em z pohledu uživatele. Vysoká pozice dokáže dosáhnout velké klikanosti i při nerelevantních výsledcích, zatímco nízká pozice s lehkostí vyřadí relevantní výsledek ze zorného pole lidí. Pokles CTR s pozicí je velice strmý.

Výsledné CTR výsledku (stejně tak reklamy) je součinem CTR výsledku (jeho kvality) a pozičního CTR; zde mluvíme o kalibraci pozicí. V reálných aplikacích je tak prakticky vždy CTR vztahováno k výsledku na konkrétní pozici.

Kromě oddělení vlivu kontextu je možné CTR zkoumat v časové oblasti, kde dochází k jeho periodickému kolísání (např. víkend a pracovní týden) či nárazovým skokovým změnám (příchod koronaviru).

CTR ve vyhledávání a zpětná vazba uživatelů

Historicky ve vyhledávání předpokládáme, že CTR celých SERP-ů odpovídá zpětné vazbě uživatelů, takže je metrikou kvality vyhledávání. Naše CTR SERP-ů se v současnosti pohybuje na úrovni kolem 85 % (u tolika procent hledání dojde alespoň k jednomu kliku). Takovéto chápání CTR vyžaduje zjednodušující předpoklad: klik je pozitivní zpětnou vazbou.

Bohužel nebo bohudík, svět je místem dynamickým a různé předpoklady se v čase mění a padají. Jinak tomu není ani v problematice CTR.

Náš předpoklad implikuje, že pokud uživatel na svůj dotaz nedostal uspokojivý výsledek, tak nám klik “neodevzdal”. Místo toho změnil dotaz, případně odešel ke konkurenci.

Tak to ale být nemusí. Někteří lidé do SERP-u klikají špatným výsledkům navzdory, aby získali alespoň nějakou informaci, nebo je zaujme něco jiného. Takové chování, typické především pro dotazy exotické (málo hledané nebo složité), mohou uměle navyšovat CTR a ve světle našeho předpokladu vést k mylné představě, že zkoumané dotazy dokážeme odbavit ke spokojenosti lidí.

Další a palčivější problém tohoto přístupu je, že zanedbává uspokojivé odbavení uživatele bez potřeby kliku. V současnosti je totiž SERP více než jen seznam výsledků poskytujících informaci až po rozkliknutí. Obsahuje prvky, které nejenže dokážou odbavit bez kliknutí, ale jsou k bez-klikovému odbavení přímo navrženy. Prvním takovým prvkem je našeptávač neboli automatické doplňování dotazu. Přímo nášept je totiž schopen dodat to, co uživatel hledal, například zjistit správný tvar názvu (počet “n” v “John Lennon”), ověřit existenci nějakého jména, názvu, lokality. Druhým prvkem se schopností bez-klikového odbavení je snippet, což je krátký textový popisek výsledku. Stává se, že kvalitní snippet poskytne uživateli veškerou informaci, kterou zrovna hledá. Příkladem jsou snippety pod výsledky z Wikipedie, jejichž koncentrovaný obsah dokáže zodpovědět mnohé dotazy. Třetím prvkem, který nabourává představu o CTR jako jednoznačné zpětné vazbě, si vkládáme do SERP-u sami. Jedná se o tzv. upoutávky, čili výsledky graficky zvýrazněné a nadesignované tak, aby uživateli poskytly podrobnější informaci před tím, než by na ně potenciálně kliknul. Můžeme je potkat jako obrázkové karty či různé informativní karty (sportovní, wiki, mapové a jiné).

Z výše zmíněných poznatků je zřejmé, že chování lidí je v dnešní době příliš složité, než aby bylo jednoduše popsatelné jedním číslem. Přinejmenším můžeme předpokládat, že ve většině případů je klik indikací úspěchu vyhledávače. Pak můžeme CTR brát jako metriku kvality klikací domény vyhledávání (pro tu část uživatelské aktivity, která má za cíl končit klikem). Problémem však je, že neklikací doména je pomocí CTR neměřitelná, neboť nevíme přesně její zastoupení a navíc její kvalita ovlivňuje také doménu klikací. A to jsme ještě nediskutovali vyhledávání na telefonech, kde se předpokládá ještě významnější podíl “neklikání”.

Proč tedy používat CTR jako zpětnou vazbou našich uživatelů? Důvodem je jednoduchá definice, srozumitelný princip, levná spočitatelnost a dobrá segmentovatelnost. CTR pro různé pozice v SERP-u, CTR pro různé typy dotazů, CTR pro různé typy výsledků, atd. Při jeho interpretaci je však potřeba výše zmíněné aspekty brát v potaz a být opatrný ve vyvozených závěrech. Zkrátka nepanikařit při nízkých hodnotách a nebýt přehnaně optimistický při hodnotách vyšších.

CTR a Alpaka

O Alpace už jsme vás informovali v našem prvním článku věnující se problematice různorodých výsledků. Srdcem vyhledávače je relevanční model, který pro vybrané dokumenty (organické výsledky) z databáze vrátí hodnotu jejich relevance vůči hledanému dotazu. Nejdříve vybereme relevantní výsledky (na základě shody se záměrem dotazu) a pak je relevančním modelem seřadíme. Nejrelevantnější výsledky vidíme seřazeny v SERP-u. Model relevance je místo, kde vstupují do hry zpětnovazební CTR signály.

alpaka řadí výsledky Vyhledávání Seznamu — řazení výsledků vyhledávání řídí Alpaka

V Alpace, která řadí upoutávky mezi i organické výsledky, je situace trochu jiná. Náš standardní model je schopen vyhodnocení relevance jenom pro organické výsledky, nikoli pro upoutávky. Proto nahrazujeme zde nedostupnou relevanci predikcí samotného CTR. Předvýběr smysluplných upoutávek necháváme na jednotlivých poskytovatelích služeb (důvěřujeme zbozi.cz, firmy.cz, wikipedii a jiným) a na nás je pak určení jejich CTR, což je stejný postup jako určení CTR seřazených organických výsledků od relevančního modelu.

Zkušenost ukázala, že tento přístup je aplikovatelný a věříme, že i úspěšný. A to jak z našeho pohledu, tak samozřejmě z pohledu uživatele. Samotná predikce CTR je navíc dobře separovatelná a je možné na ní zkoumat další možnosti zlepšení, a to bez kritického zasahování do jiných komponent.

Závěrem

CTR, navzdory své jednoduchosti a svým omezením, je velmi důležitým číslem, jehož dopad je badatelný v širokém spektru aplikací. V oblasti internetového vyhledávání je však potřeba znát jeho limity a být si vědom jejich dopadu pro různé užití.

V příštím dílu se můžete těšit na informace, jak je CTR zakomponováno v Alpace a jak jsme ho schopni predikovat pomocí strojového učení.

Za tým Vyhledávání Martin Bachura a Jakub Střelský

Světlé a stinné stránky slavného CTR. Co všechno ovlivňuje a co má vliv naopak na něj?

CTR a jeho rozpad

CTR ve vyhledávání a zpětná vazba uživatelů

CTR a Alpaka

Závěrem

Sdílet na sítích

Když se vyhledávač mění v odpovídač. Jak fungují AI sumarizace?

AI je stále horké téma, ukázal Seznam Meetup věnovaný jazykovým modelům

Od klíčových slov k významu: Jak vektorové indexy mění Vyhledávání na Seznamu

Zpracování osobních údajů