Dnes neumírej aneb časový údaj nově rozpoznáme v 95 % případů

Jednou z funkcí, kterou jsme v uplynulém roce vylepšili pomocí jazykových modelů, byla detekce času v dotazu. Pojďme se podívat na to, proč bychom to měli umět, jaká to má úskalí a jak jsme si s tím poradili.

Motivace je jednoduchá. Pokud uživatel položí např. dotaz „počasí na víkend“, chce si pravděpodobně prohlédnout předpověď na nejbližší víkend. Nebudou ho zajímat náhodné webové stránky, které obsahují slova počasí a víkend. Podobně to funguje i u jízdních řádů, slevových letáků nebo třeba horoskopů. Potřebujeme také rozpoznat, že „31. 1.“ a „31. ledna“ je totéž. Pokud v dotazu uživatel napsal první variantu a na webové stránce je ta druhá, musíme mu ji najít. A pokud začátkem února napíše „včera“, chceme ji najít také. Proto potřebujeme co nejpřesněji poznat, zda uživatel do dotazu napsal časový údaj, a případně jaký.

Jak na to? Vezmeme si kalendář, hodiny a vypíšeme si pár možných formátů, s tečkou, mezerou, bez nich, rozklíčujeme relativní zápis času vůči dnešku, dohodneme se, od kdy do kdy trvá odpoledne, a když to najdeme v dotazu, víme, o jaké datum a čas jde. Vyřešeno? Ne tak úplně.

Pak totiž přijdou následující dotazy:

poliklinika ostrava 17. listopadu
lékárna Dr.Max 28. října
do kdy platí 2000 Kč
hecht 2026
když duben přichází
robinson a pátek

V žádném z nich ve skutečnosti časový údaj není, i když to tak pro stroj může vypadat.

Takže co s tím? Ideální řešení nabízejí jazykové modely. Požádali jsme anotátory, aby ve velké sadě dotazů z vyhledávání na Seznamu označili všechny časové údaje a řekli nám, o jaký časový úsek se přesně jednalo. K tomu anotátor potřebuje vědět, kdy byl dotaz položen, jinak by nemohl správně určit, co je to „zítra“.

Jazykový model doučený na těchto datech zohledňuje kontext celého dotazu. Díky tomu pak snadno rozhodne, že v dotazu „TV Seznam dnes“ časový údaj je, zatímco v dotazu „Dnes neumírej“ není. Pak je stále ještě potřeba trocha toho poctivého kódování s regulárními výrazy k tomu, abychom poznali, o který konkrétní čas se jednalo. K tomu jsme částečně využili naši starou pravidlovou detekci času.

Víte, že specialisté z Vyhledávání vyvinuli technologii, která dokáže rozeznat související slovní spojení? Díky tomu při nastavování kampaní v Skliku ušetříte čas, a navíc zvýšíte jejich zásah.

Na závěr trocha čísel. Nově umíme časový údaj správně určit v 99,9 % dotazů. To vypadá jako zázrak, že? Ale je potřeba si uvědomit, že majoritou ve vyhledávání jsou dotazy bez časových údajů, kde správně žádný nenajdeme. Proto tu máme dvě relevantnější čísla. Ze všech dotazů, které podle anotovaných dat obsahují časový údaj, ho správně poznáme v 95 % případů. (Před nasazením to bylo 72 %.) A ze všech případů, kdy v dotazu detekujeme časový údaj, tam tento údaj opravdu byl v 98 % i podle anotací. (Dříve to bylo v 88 %.) Dokonalé to tedy není, ale jsme blízko.

Za tým Vyhledávání Martina Pomikálková

Sdílet na sítích

Rozšiřujeme Featured snippety. A vy toho můžete využít

Před rokem jsme do našeho Vyhledávání poprvé nasadili Featured snippety neboli Vybrané úryvky. Od té doby je vylepšujeme tak, aby hledající vždy našli rychlou a co nejpřesnější odpověď. Jaké výhody mohou přinést stránkám, ze kterých čerpají?

Nově v importu umíme Responzivní textovou reklamu (RSA) převést na textovou reklamu

Reagujeme na rostoucí podíl RSA reklam v importech do Skliku. Dosud byly reklamy ve formátu RSA ignorovány. Od dnešního dne je automaticky převádíme na Sklikem podporované ETA. Jak to funguje? Všechny RSA jsou v importu do Skliku automaticky převáděny na reklamu ve formátu ETA. Z jedné RSA je vytvořena jedna ETA. Systém funguje takto: Importovaná …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.