Bublanina, nebo burčák? Jak v našeptávači předpovídáme budoucnost

V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?

Hlavním úkolem našeptávače je uživateli co nejdříve nabídnout nejpravděpodobnější doplnění dotazu, aby ušetřil co nejvíce napsaných znaků. A popularita, respektive počet vyhledání dotazu, je jedním z nejsilnějších signálů pro strojové učení. Model našeptávače na základě různých signálů řadí dotazy od nejpravděpodobnějšího kandidáta po toho nejméně pravděpodobného.

Kromě popularity dotazu používá model i další signály, jako jsou geolokace, historie a mnoho dalších, které také rozhodují o umístění v žebříčku nášeptů. Jenže signál, který vychází z popularity dotazu, má své slabé místo. Tím je jeho retroaktivita – jeho popularita roste až poté, co uživatelé dotaz začnou vyhledávat. To znamená, že první vlna uživatelů nemusí dostat na nejvyšších pozicích v našeptávači ty dotazy, které chtěli vyhledávat. A právě s tím by jim měl pomoci výpočet periodických dotazů.

Jak je předvídáme?

Každý den použijeme časové okno, které pokrývá 14 dní před a 14 dní po aktuálním datu za poslední tři roky. Pro jednotlivá tři časová okna vypočítáme trendující dotazy tak, že od počtu vyhledání dotazu v budoucích 14 dnech odečteme počet hledání v minulých 14 dnech. A pokud ve všech třech letech dotaz překročil nastavený threshold, označíme jej jako periodický.

U takto označeného dotazu můžeme zvýšit jeho skóre (popularitu) dříve, než se tomu stalo v předchozích letech, a tak zajistit jeho vyšší pozici v našeptávači „ručně“. Nebo skóre dotazu nijak neovlivňovat a vytvořit signál pro strojově učený model, který na základě metrik z přeučování modelu rozhodne, zda je pro něj tato informace užitečná. Pokud ano, model ji použije v našeptávání dotazů našim uživatelům.

Proč se nárůst popularity musí objevit ve stejném časovém okně za poslední tři roky? Protože nechceme označovat jako periodické ty dotazy, které se v budoucnu pravděpodobně už do trendů nedostanou, a to z toho důvodu, že se jedná o jednorázové navýšení popularity nebo se tento nárůst objevuje náhodně v průběhu roku. Takovým dotazem obvykle bývají události ve světě, úmrtí celebrit nebo také Velikonoce, které naleznete v kalendáři každý rok v jiném termínu.

V létě bublanina, na podzim burčák

Kromě dalšího signálu pro strojové učení a potenciálně přesnějšího našeptávání nám periodické dotazy nabídly také náhled do kategorie dotazů, které se vyskytují převážně sezónně. A jak se tato úprava odráží ve Vyhledávání? Pokud na podzim napíšeme do vyhledávacího pole prefix „bu-“, pravděpodobněji dostaneme na horních pozicích našeptaný dotaz burčák, zatímco v létě bublaninu. Na jaře na prefix „dět-“ mezi nášepty spíše uvidíte dětské boty, v létě potom dětský bazén, v září dětské chytré hodinky a v zimě dětské boby.

Společný prefix	Březen	Červen	Září	Prosinec
měř	měření rychlosti internetu	měření ph v bazénu	měření rychlosti	měřič tlaku
fól	fólie na pařeniště	fólie na bazén	fólie za radiátory	fólie na sklo auta
mří	mříž na popínavé rostliny	mříže na okna + ceník	mřížkový koláč s jablky	mřížka na cukroví
irs	irsko	irský setr	irsko wikipedie	irské dortíčky
oře	ořechová buchta	ořechovka recept	ořechoplodec	ořechové cukroví
šťá	šťáva z aloe vera	šťáva z černého bezu	šťáva z červené řepy	šťáva z cibule na kašel
bu	buřtguláš	bublanina	burčák	bumbu rum
tř	třešeň	třešňová bublanina	třídní stránky	tři oříšky pro popelku
zm	změna času	zmije obecná	změna času	zmijovka

Za tým Vyhledávání Radoslav Mikeš

Sdílet na sítích

Když se vyhledávač mění v odpovídač. Jak fungují AI sumarizace?

Už více než 10 let internetové vyhledávače postupně mění svou funkci – z tradičního webového rozcestníku se posouvají do pozice zprostředkovatele obsahu s cílem odpovídat na uživatelské dotazy přímo. V Seznamu interně říkáme, že se vyhledávač proměňuje v odpovídač. Jaké kroky podnikáme, abychom tomuto trendu šli naproti, jak fungují naše AI sumarizace a co na to uživatelé?

AI je stále horké téma, ukázal Seznam Meetup věnovaný jazykovým modelům

17. října se uskutečnil už druhý ročník Seznam Meetupu zaměřeného na vývoj a praktické použití generativních jazykových modelů. Akce přilákala pestrou směsici technologických nadšenců, výzkumníků i odborníků z oblasti umělé inteligence. Meetup byl součástí Dnů AI 2024 a přinesl řadu inspirativních přednášek, praktických ukázek a networkingových příležitostí. O účast na akci, která proběhla v budově ČVUT i online, projevilo zájem bezmála 600 účastníků.

Od klíčových slov k významu: Jak vektorové indexy mění Vyhledávání na Seznamu

Vyhledávání informací na internetu se stalo nedílnou součástí našich životů. Ať už potřebujeme rychle zjistit, jak opravit zaseknutý zip, najít nejlepší kavárnu v okolí nebo vybrat dárek k narozeninám – internetové vyhledávače jsou často naší první zastávkou. A s rostoucí sofistikovaností technologií se mění i způsob, jakým s vyhledávači komunikujeme.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.