V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?
Hlavním úkolem našeptávače je uživateli co nejdříve nabídnout nejpravděpodobnější doplnění dotazu, aby ušetřil co nejvíce napsaných znaků. A popularita, respektive počet vyhledání dotazu, je jedním z nejsilnějších signálů pro strojové učení. Model našeptávače na základě různých signálů řadí dotazy od nejpravděpodobnějšího kandidáta po toho nejméně pravděpodobného.
Kromě popularity dotazu používá model i další signály, jako jsou geolokace, historie a mnoho dalších, které také rozhodují o umístění v žebříčku nášeptů. Jenže signál, který vychází z popularity dotazu, má své slabé místo. Tím je jeho retroaktivita – jeho popularita roste až poté, co uživatelé dotaz začnou vyhledávat. To znamená, že první vlna uživatelů nemusí dostat na nejvyšších pozicích v našeptávači ty dotazy, které chtěli vyhledávat. A právě s tím by jim měl pomoci výpočet periodických dotazů.
Jak je předvídáme?
Každý den použijeme časové okno, které pokrývá 14 dní před a 14 dní po aktuálním datu za poslední tři roky. Pro jednotlivá tři časová okna vypočítáme trendující dotazy tak, že od počtu vyhledání dotazu v budoucích 14 dnech odečteme počet hledání v minulých 14 dnech. A pokud ve všech třech letech dotaz překročil nastavený threshold, označíme jej jako periodický.
U takto označeného dotazu můžeme zvýšit jeho skóre (popularitu) dříve, než se tomu stalo v předchozích letech, a tak zajistit jeho vyšší pozici v našeptávači „ručně“. Nebo skóre dotazu nijak neovlivňovat a vytvořit signál pro strojově učený model, který na základě metrik z přeučování modelu rozhodne, zda je pro něj tato informace užitečná. Pokud ano, model ji použije v našeptávání dotazů našim uživatelům.
Proč se nárůst popularity musí objevit ve stejném časovém okně za poslední tři roky? Protože nechceme označovat jako periodické ty dotazy, které se v budoucnu pravděpodobně už do trendů nedostanou, a to z toho důvodu, že se jedná o jednorázové navýšení popularity nebo se tento nárůst objevuje náhodně v průběhu roku. Takovým dotazem obvykle bývají události ve světě, úmrtí celebrit nebo také Velikonoce, které naleznete v kalendáři každý rok v jiném termínu.
V létě bublanina, na podzim burčák
Kromě dalšího signálu pro strojové učení a potenciálně přesnějšího našeptávání nám periodické dotazy nabídly také náhled do kategorie dotazů, které se vyskytují převážně sezónně. A jak se tato úprava odráží ve Vyhledávání? Pokud na podzim napíšeme do vyhledávacího pole prefix „bu-“, pravděpodobněji dostaneme na horních pozicích našeptaný dotaz burčák, zatímco v létě bublaninu. Na jaře na prefix „dět-“ mezi nášepty spíše uvidíte dětské boty, v létě potom dětský bazén, v září dětské chytré hodinky a v zimě dětské boby.
Když se řekne výzkumník, možná si představíte člověka v bílém plášti, který tráví celé dny v laboratoři. Veronika Krejčířová žádný plášť nenosí a místo zkumavek pracuje na počítači. Přesto v Seznamu vede tým výzkumníků, kteří se věnují strojovému učení. A my jsme se jí zeptali třeba na to, jak se její obor za poslední roky změnil nebo co si myslí o obřích jazykových modelech, které v posledních měsících hýbají světem.
Downloader, který je součástí našeho SeznamBota a jeho úkolem je stahování webových stránek z internetu, má novou vylepšenou verzi. Ta je šetrnější k webům, i když stránky stahuje stejně rychle. Co to v praxi znamená?
Díky tomu, že žijeme v 21. století, se jedním z nejlepších zdrojů odpovědí na naše otázky stal internetový vyhledávač. Ať už hledáme e-shop, otevírací dobu pošty, recept na večeři nebo novinky ze světa, vyhledávače nám naservírují obrovské množství informací na jedno kliknutí. Ale co vlastně očekáváme, když zadáme dotaz do vyhledávacího pole?
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.