V letošním roce jsme do našeptávače přidali několik nových funkcí. Jednou z nich je i předpověď popularity dotazů pro následující týdny. Jak v našeptávači předpovídáme budoucnost a co nám pomáhá předvídat, co budou lidé na internetu vyhledávat?
Hlavním úkolem našeptávače je uživateli co nejdříve nabídnout nejpravděpodobnější doplnění dotazu, aby ušetřil co nejvíce napsaných znaků. A popularita, respektive počet vyhledání dotazu, je jedním z nejsilnějších signálů pro strojové učení. Model našeptávače na základě různých signálů řadí dotazy od nejpravděpodobnějšího kandidáta po toho nejméně pravděpodobného.
Kromě popularity dotazu používá model i další signály, jako jsou geolokace, historie a mnoho dalších, které také rozhodují o umístění v žebříčku nášeptů. Jenže signál, který vychází z popularity dotazu, má své slabé místo. Tím je jeho retroaktivita – jeho popularita roste až poté, co uživatelé dotaz začnou vyhledávat. To znamená, že první vlna uživatelů nemusí dostat na nejvyšších pozicích v našeptávači ty dotazy, které chtěli vyhledávat. A právě s tím by jim měl pomoci výpočet periodických dotazů.
Jak je předvídáme?
Každý den použijeme časové okno, které pokrývá 14 dní před a 14 dní po aktuálním datu za poslední tři roky. Pro jednotlivá tři časová okna vypočítáme trendující dotazy tak, že od počtu vyhledání dotazu v budoucích 14 dnech odečteme počet hledání v minulých 14 dnech. A pokud ve všech třech letech dotaz překročil nastavený threshold, označíme jej jako periodický.
U takto označeného dotazu můžeme zvýšit jeho skóre (popularitu) dříve, než se tomu stalo v předchozích letech, a tak zajistit jeho vyšší pozici v našeptávači „ručně“. Nebo skóre dotazu nijak neovlivňovat a vytvořit signál pro strojově učený model, který na základě metrik z přeučování modelu rozhodne, zda je pro něj tato informace užitečná. Pokud ano, model ji použije v našeptávání dotazů našim uživatelům.
Proč se nárůst popularity musí objevit ve stejném časovém okně za poslední tři roky? Protože nechceme označovat jako periodické ty dotazy, které se v budoucnu pravděpodobně už do trendů nedostanou, a to z toho důvodu, že se jedná o jednorázové navýšení popularity nebo se tento nárůst objevuje náhodně v průběhu roku. Takovým dotazem obvykle bývají události ve světě, úmrtí celebrit nebo také Velikonoce, které naleznete v kalendáři každý rok v jiném termínu.
V létě bublanina, na podzim burčák
Kromě dalšího signálu pro strojové učení a potenciálně přesnějšího našeptávání nám periodické dotazy nabídly také náhled do kategorie dotazů, které se vyskytují převážně sezónně. A jak se tato úprava odráží ve Vyhledávání? Pokud na podzim napíšeme do vyhledávacího pole prefix „bu-“, pravděpodobněji dostaneme na horních pozicích našeptaný dotaz burčák, zatímco v létě bublaninu. Na jaře na prefix „dět-“ mezi nášepty spíše uvidíte dětské boty, v létě potom dětský bazén, v září dětské chytré hodinky a v zimě dětské boby.
Náš nový článek přijatý na prestižní konferenci SIGIR 2024 přináší klíčový příspěvek v oblasti českého webového vyhledávání. Představuje CWRCzech, což je nový dataset pro hodnocení relevance vyhledávání obsahující 100 milionů párů dotaz-dokument v českém jazyce. Pojďme si ho představit.
V Seznamu jsme v roce 2021 představili jazykový model Small-E-Czech (čti: smolíček), který se od té doby stal druhým nejpopulárnějším českým jazykovým modelem.* V oblasti umělé inteligence a zpracování přirozeného jazyka je ale pořád co objevovat. A tak jsme pro vás nově vypiplali další malé jazykové modely, zaměřené na analýzu a interpretaci jazyka.** Jaké jsou?
V Seznamu jsme 2. listopadu uspořádali AI Meetup zaměřený na velmi aktuální téma – velké jazykové modely (LLM, Large Language Models). Přednášky zaměřené na vývoj a praktické využití velkých jazykových modelů na místě i online zaujaly několik stovek technologických nadšenců. A my vám teď přinášíme krátký report z akce i prezentace, které si můžete stáhnout.
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.