Náš nový článek přijatý na prestižní konferenci SIGIR 2024 přináší klíčový příspěvek v oblasti českého webového vyhledávání. Představuje CWRCzech, což je nový dataset pro hodnocení relevance vyhledávání obsahující 100 milionů párů dotaz-dokument v českém jazyce. Pojďme si ho představit.
Tento nekomerční dataset určený pro akademické použití je řádově větší než zahraniční anglické datasety a se skládá z klikaných dokumentů pro sémantické dotazy typu: Jak?, Kdo?, Co? apod. Zároveň náš článek ukazuje, jak daná data využít při trénování jazykových modelů pro přesnější vyhledávání.
Klikanost dokumentu je totiž řádově méně spolehlivá než manuálně vytvořená, ale cenově nákladná anotace. Tento vztah je dobře znázorněný na grafu níže, který porovnává kvalitu modelu naučeného čistě na:
Mimo jiné z něj vyplývá, že 1 milion anotací je možné v našem případě nahradit přibližně 20 miliony klikanými dotazo-dokumenty. Naše metoda učení z klikaných dat tedy dokáže překonat stávající modely učené tradičním způsobem bez časově i finančně náročné tvorby anotovaného datasetu.
Klikaná data obsahují nejen informace o počtu kliků, ale také o času stráveném na stránce nebo pozici, na které se dokument zobrazil. V článku ukazujeme, jak se chovají modely naučené na každé z těchto informací odděleně a jak je možné informace kombinovat a vyplnit tak slepá místa u každé z nich. Platí totiž, že kvalitnější atributy s přesnější informací jsou zákonitě méně dostupné.
To se odráží i v následující statistice: Ačkoliv totiž 20 % dokumentů má alespoň jeden klik, čas strávený na stránce je známý jen pro 50 % z nich. Kombinace informací je tedy stěžejní pro maximální účinnost naší metody.
Další klíčový prvek naší metody spočívá v tom, jakým způsobem odstraňujeme selektivní zkreslení zanesené původem datasetu. Ten totiž obsahuje už poměrně relevantní dotazo-dokumenty pocházející z našeho stávajícího vyhledávání.
V článku proto ukazujeme, jak znovu vybalancovat poměr relevantních a nerelevantních dokumentů za pomoci uměle vytvořených nerelevantních dotazo-dokumentů a kontrastivního učení. Zároveň popisujeme, jak je možné kontrastivní učení upravit, aby lépe odpovídalo naší rankovací úloze. V základní formulaci totiž rozlišuje jen relevantní dokumenty od nerelevantních (tzn. klik vs. neklik), ale nepracuje už s mírou relevance jako takovou (tzn. počet kliků).
Modely použité v článku se řadí mezi transformery, v současnosti nejpopulárnější architekturu pro zpracování přirozeného jazyka. Naše metoda přináší signifikantní zpřesnění relevance jak pro naše menší (cca 20M parametrů) volně dostupné modely Small-E-Czech a sémantické RetroMAE, tak i pro větší (cca 160M parametrů) externí modely typu FERNET.
Modely jsou standardně předučené na českém jazyce a poté naučené naší metodou na klikaných dokumentech Seznamu. Již v tomto kroku dosahujeme zásadního zlepšení. Na závěr pak použijeme menší množství anotací k dotrénovaní modelu, abychom z našich dat vytěžili maximum.
Celkově je náš přístup využití klikových dat zásadním krokem pro kvalitnější vyhledávání v českém jazyce a ilustruje, jak je možné efektivně pracovat s tímto typem dat, která jsou pro firmy často jednoduše dostupná.
V Seznamu jsme v roce 2021 představili jazykový model Small-E-Czech (čti: smolíček), který se od té doby stal druhým nejpopulárnějším českým jazykovým modelem.* V oblasti umělé inteligence a zpracování přirozeného jazyka je ale pořád co objevovat. A tak jsme pro vás nově vypiplali další malé jazykové modely, zaměřené na analýzu a interpretaci jazyka.** Jaké jsou?
17. října se uskutečnil už druhý ročník Seznam Meetupu zaměřeného na vývoj a praktické použití generativních jazykových modelů. Akce přilákala pestrou směsici technologických nadšenců, výzkumníků i odborníků z oblasti umělé inteligence. Meetup byl součástí Dnů AI 2024 a přinesl řadu inspirativních přednášek, praktických ukázek a networkingových příležitostí. O účast na akci, která proběhla v budově ČVUT i online, projevilo zájem bezmála 600 účastníků.
Seznam interně vyvíjí velké jazykové modely nazvané SeLLMa (Šelma), které mohou v mnohém konkurovat komerčně dostupným modelům. Diana Hlaváčová hostům Seznam fóra představila, co naše jazykové modely umí a v jakých produktech je využíváme.
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.