V rámci seriálu o A/B testech se tentokrát podíváme na metriky, kterými vyhodnocujeme naše testy. Konkrétně se zaměříme na metriky ochranné, které slouží k tomu, abychom určili, zda je test v kondici pro vytváření závěrů.
Metriky pro A/B testy můžeme rozdělit do několika skupin. Některé z nich reflektují chování uživatelů, jako jsou například kliknutí, čas strávený na stránce nebo průchod procesem zakoupení zboží. Technické metriky zatím sledují rychlost odpovědi stránky nebo výkon potřebný pro zajištění odpovědi. Poslední skupinou jsou metriky samotných testů, jako je třeba SRM (Sample Ratio Mismatch).
Ochranné metriky by měly zajišťovat, že výsledky testu jsou validní a zároveň nedochází k nepřímému zhoršení produktu. Výběr ochranných metrik vždy záleží na produktu i na samotné testované změně. Pro technický tým, pro který je klíčovou metrikou rychlost stránky, může být ochranná metrika například TODO. Na druhou stranu pro tým, který přináší nové funkce do produktu, může mít rychlost stránky jako ochrannou metriku. I přesto, že online produkty mají mnoho podob existuje několik metrik, které lze obecně využít jako ochranné.
Sample Ration Mismatch
Jedná se o stav kdy se v A/B testu nepodaří rozdělit návštěvníky rovnoměrně mezi testovací a kontrolní skupinu. To může vést k neplatným výsledkům A/B testu, protože výsledky nebudou zahrnovat náhodný vzorek celé populace. Pro ověření, zda test netrpí SRM, lze použít online kalkulačku.
V Seznamu jsme při implemntaci nového rozdělování uživatelů do testů omylem zanesli chybu. Při náhodném výběru v úvodní části jsme vybírali uživatelské skupiny 1–1000. Při přidělení uživatele do skupiny ale algroitmus vracel skupiny v rozsahu 0–999. Tím uživatelé ve skupině 0 nikdy nebyli zaneseni do testu a test s vybranou skupinou 1000 měl v jedné variantě o několik procent méně uživatelů. Sledováním metriky SRM se nám podařilo tento problém odhalit.
Čas načtení
Rychlost a responzivita produktu je často opomíjená. Uživateli je přece jen nakonec zobrazeno to, co hledá, jen to možná trvá o sekundu více. Vyhledávač společnosti Miscrosoft vyčíslil, že zrychlení stránky o 100 milisekund zvýšil obrat o 0,6% (v absolutních číslech to znamená nárůst v řádu stovek milionů korun). Zrychlení načtení stránek má dopady i na samotné chování uživatelů.
Existuje několik experimentů, které sledovaly chování uživatelů, když odpovědi produktu byly zpomaleny o několik milisekund. U živatelů například došlo k zpomalení do prvního kliku o dvojnásobek zpomalení produktu.
Chybové odpovědi
Ve složitějších produktech může jedna malá změna na jednom konci kompletně rozbít proces na tom druhém. Je tedy dobré pracovat také s metrikou, která sleduje chybové stavy produktu. V tomto směru stavy mohou být HTTP odpovědi 5XX nebo 4XX nebo interní chyby v produktu v podobě chybových vyjímek. Tyto informace jsou často celkově měřeny týmy provozujícími produkt, ale při A/B testu nejsou všichni uživatelé vystaveni změně, která chyby způsobuje. A proto nástroje, které upozorňují na nárůst chyb, nemusí tak malé navýšení vyhodnotit jako problematické.
V Seznamu všechny výše uvedené metriky využíváme jako ochranné. A v dalším dílu se podíváme na metriky, které využíváme pro zhodnocení, zda test přispěl ke kýženému výsledku, či nikoliv.
Za tým Vyhledávání Tomáš Lála