V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?
Hlavním úkolem našeptávače je uživateli co nejdříve nabídnout nejpravděpodobnější doplnění dotazu, aby ušetřil co nejvíce napsaných znaků. A popularita, respektive počet vyhledání dotazu, je jedním z nejsilnějších signálů pro strojové učení. Model našeptávače na základě různých signálů řadí dotazy od nejpravděpodobnějšího kandidáta po toho nejméně pravděpodobného.
Kromě popularity dotazu používá model i další signály, jako jsou geolokace, historie a mnoho dalších, které také rozhodují o umístění v žebříčku nášeptů. Jenže signál, který vychází z popularity dotazu, má své slabé místo. Tím je jeho retroaktivita – jeho popularita roste až poté, co uživatelé dotaz začnou vyhledávat. To znamená, že první vlna uživatelů nemusí dostat na nejvyšších pozicích v našeptávači ty dotazy, které chtěli vyhledávat. A právě s tím by jim měl pomoci výpočet periodických dotazů.
Jak je předvídáme?
Každý den použijeme časové okno, které pokrývá 14 dní před a 14 dní po aktuálním datu za poslední tři roky. Pro jednotlivá tři časová okna vypočítáme trendující dotazy tak, že od počtu vyhledání dotazu v budoucích 14 dnech odečteme počet hledání v minulých 14 dnech. A pokud ve všech třech letech dotaz překročil nastavený threshold, označíme jej jako periodický.
U takto označeného dotazu můžeme zvýšit jeho skóre (popularitu) dříve, než se tomu stalo v předchozích letech, a tak zajistit jeho vyšší pozici v našeptávači „ručně“. Nebo skóre dotazu nijak neovlivňovat a vytvořit signál pro strojově učený model, který na základě metrik z přeučování modelu rozhodne, zda je pro něj tato informace užitečná. Pokud ano, model ji použije v našeptávání dotazů našim uživatelům.
Proč se nárůst popularity musí objevit ve stejném časovém okně za poslední tři roky? Protože nechceme označovat jako periodické ty dotazy, které se v budoucnu pravděpodobně už do trendů nedostanou, a to z toho důvodu, že se jedná o jednorázové navýšení popularity nebo se tento nárůst objevuje náhodně v průběhu roku. Takovým dotazem obvykle bývají události ve světě, úmrtí celebrit nebo také Velikonoce, které naleznete v kalendáři každý rok v jiném termínu.
V létě bublanina, na podzim burčák
Kromě dalšího signálu pro strojové učení a potenciálně přesnějšího našeptávání nám periodické dotazy nabídly také náhled do kategorie dotazů, které se vyskytují převážně sezónně. A jak se tato úprava odráží ve Vyhledávání? Pokud na podzim napíšeme do vyhledávacího pole prefix „bu-“, pravděpodobněji dostaneme na horních pozicích našeptaný dotaz burčák, zatímco v létě bublaninu. Na jaře na prefix „dět-“ mezi nášepty spíše uvidíte dětské boty, v létě potom dětský bazén, v září dětské chytré hodinky a v zimě dětské boby.
Už více než 10 let internetové vyhledávače postupně mění svou funkci – z tradičního webového rozcestníku se posouvají do pozice zprostředkovatele obsahu s cílem odpovídat na uživatelské dotazy přímo. V Seznamu interně říkáme, že se vyhledávač proměňuje v odpovídač. Jaké kroky podnikáme, abychom tomuto trendu šli naproti, jak fungují naše AI sumarizace a co na to uživatelé?
17. října se uskutečnil už druhý ročník Seznam Meetupu zaměřeného na vývoj a praktické použití generativních jazykových modelů. Akce přilákala pestrou směsici technologických nadšenců, výzkumníků i odborníků z oblasti umělé inteligence. Meetup byl součástí Dnů AI 2024 a přinesl řadu inspirativních přednášek, praktických ukázek a networkingových příležitostí. O účast na akci, která proběhla v budově ČVUT i online, projevilo zájem bezmála 600 účastníků.
Vyhledávání informací na internetu se stalo nedílnou součástí našich životů. Ať už potřebujeme rychle zjistit, jak opravit zaseknutý zip, najít nejlepší kavárnu v okolí nebo vybrat dárek k narozeninám – internetové vyhledávače jsou často naší první zastávkou. A s rostoucí sofistikovaností technologií se mění i způsob, jakým s vyhledávači komunikujeme.
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.