Bublanina, nebo burčák? Jak v našeptávači předpovídáme budoucnost

V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?

Hlavním úkolem našeptávače je uživateli co nejdříve nabídnout nejpravděpodobnější doplnění dotazu, aby ušetřil co nejvíce napsaných znaků. A popularita, respektive počet vyhledání dotazu, je jedním z nejsilnějších signálů pro strojové učení. Model našeptávače na základě různých signálů řadí dotazy od nejpravděpodobnějšího kandidáta po toho nejméně pravděpodobného.

Kromě popularity dotazu používá model i další signály, jako jsou geolokace, historie a mnoho dalších, které také rozhodují o umístění v žebříčku nášeptů. Jenže signál, který vychází z popularity dotazu, má své slabé místo. Tím je jeho retroaktivita – jeho popularita roste až poté, co uživatelé dotaz začnou vyhledávat. To znamená, že první vlna uživatelů nemusí dostat na nejvyšších pozicích v našeptávači ty dotazy, které chtěli vyhledávat. A právě s tím by jim měl pomoci výpočet periodických dotazů.

Jak je předvídáme? 

Každý den použijeme časové okno, které pokrývá 14 dní před a 14 dní po aktuálním datu za poslední tři roky. Pro jednotlivá tři časová okna vypočítáme trendující dotazy tak, že od počtu vyhledání dotazu v  budoucích 14 dnech odečteme počet hledání v minulých 14 dnech. A pokud ve všech třech letech dotaz překročil nastavený threshold, označíme jej jako periodický. 

U takto označeného dotazu můžeme zvýšit jeho skóre (popularitu) dříve, než se tomu stalo v předchozích letech, a tak zajistit jeho vyšší pozici v našeptávači „ručně“. Nebo skóre dotazu nijak neovlivňovat a vytvořit signál pro strojově učený model, který na základě metrik z přeučování modelu rozhodne, zda je pro něj tato informace užitečná. Pokud ano, model ji použije v našeptávání dotazů našim uživatelům.

Proč se nárůst popularity musí objevit ve stejném časovém okně za poslední tři roky? Protože nechceme označovat jako periodické ty dotazy, které se v budoucnu pravděpodobně už do trendů nedostanou, a to z toho důvodu, že se jedná o jednorázové navýšení popularity nebo se tento nárůst objevuje náhodně v průběhu roku. Takovým dotazem obvykle bývají události ve světě, úmrtí celebrit nebo také Velikonoce, které naleznete v kalendáři každý rok v jiném termínu.

V létě bublanina, na podzim burčák

Kromě dalšího signálu pro strojové učení a potenciálně přesnějšího našeptávání nám periodické dotazy nabídly také náhled do kategorie dotazů, které se vyskytují převážně sezónně. A jak se tato úprava odráží ve Vyhledávání? Pokud na podzim napíšeme do vyhledávacího pole prefix „bu-“, pravděpodobněji dostaneme na horních pozicích našeptaný dotaz burčák, zatímco v létě bublaninu. Na jaře na prefix „dět-“ mezi nášepty spíše uvidíte dětské boty, v létě potom dětský bazén, v září dětské chytré hodinky a v zimě dětské boby.

Společný prefixBřezenČervenZáříProsinec
měřměření rychlosti internetuměření ph v bazénuměření rychlostiměřič tlaku
fólfólie na pařeništěfólie na bazénfólie za radiátoryfólie na sklo auta
mřímříž na popínavé rostlinymříže na okna + ceníkmřížkový koláč s jablkymřížka na cukroví
irsirskoirský setrirsko wikipedieirské dortíčky
ořeořechová buchtaořechovka receptořechoplodecořechové cukroví
šťášťáva z aloe verašťáva z černého bezušťáva z červené řepyšťáva z cibule na kašel
bubuřtgulášbublaninaburčákbumbu rum
třešeňtřešňová bublaninatřídní stránkytři oříšky pro popelku
zmzměna časuzmije obecnázměna časuzmijovka

Za tým Vyhledávání Radoslav Mikeš

Sdílet na sítích