Seznam představuje nové jazykové modely pro práci s významem textů

V Seznamu jsme v roce 2021 představili jazykový model Small-E-Czech (čti: smolíček), který se od té doby stal druhým nejpopulárnějším českým jazykovým modelem.* V oblasti umělé inteligence a zpracování přirozeného jazyka je ale pořád co objevovat. A tak jsme pro vás nově vypiplali další malé jazykové modely, zaměřené na analýzu a interpretaci jazyka.** Jaké jsou?

Malé jazykové modely, které vznikly v dílně seznamáckých výzkumníků, v přesnosti a schopnosti chápání češtiny představují nové současné state-of-the art. Dokonce překonávají i daleko větší modely z dílny OpenAI.

A proto jsme je s radostí už začlenili do některých našich klíčových služeb na Seznamu. Výrazně zlepšují kvalitu organického vyhledávání, poskytují přesnější a relevantnější featured snippets a pomáhají vylepšovat vyhledávání obrázků. Integrace těchto modelů do našich služeb umožní uživatelům získat ještě bohatší a přesnější výsledky.

Proč jsou seznamácké modely jedinečné?

Modely jsme postavili na osvědčené architektuře Transformer, o kterou se opírá naprostá většina nejmodernějších technologii ve zpracování přirozeného jazyka. Naše modely jsou jedinečné díky třem inovativním metodám učení, které jsme aplikovali.

Jde o RetroMAE (Masked Autoencoder for Retrospective Learning), unsupervised fine-tuning a multilingual-distillation. Tyto metody nám umožnily vytvořit modely, které excelují v porozumění českému jazyku, jsou schopné se efektivně učit z omezeného množství dat a dovedou se přizpůsobit různým kontextům.

Kromě uvedení modelů je nám potěšením podpořit i vědeckou a vývojářskou komunitu zveřejněním nového českého benchmarku. Tento benchmark je určen k testování a porovnávání výkonnosti českých jazykových modelů. Vedle benchmarku jsou k dispozici samozřejmě i natrénované modely na platformách jako GitHub a Hugging Face.

Chcete se o jazykových modelech v Seznamu dozvědět více? Přečtěte si náš odborný článek, který jsme v únoru prezentovali na AAAI konferenci ve Vancouveru.

Těšíme se na vaši zpětnou vazbu a hlavně na využívání našich modelů v různých aplikacích.

Za tým Vyhledávání Petra Barančíková a Jakub Náplava

^{* Vycházíme ze statistik statistik stahování na HuggingFace.
** Jedná se o tzv. encoder-based modely, tzn. nejedná se o modely generativní.}

Sdílet na sítích

AI je stále horké téma, ukázal Seznam Meetup věnovaný jazykovým modelům

17. října se uskutečnil už druhý ročník Seznam Meetupu zaměřeného na vývoj a praktické použití generativních jazykových modelů. Akce přilákala pestrou směsici technologických nadšenců, výzkumníků i odborníků z oblasti umělé inteligence. Meetup byl součástí Dnů AI 2024 a přinesl řadu inspirativních přednášek, praktických ukázek a networkingových příležitostí. O účast na akci, která proběhla v budově ČVUT i online, projevilo zájem bezmála 600 účastníků.

Dataset CWRCzech vylepšuje výsledky hledání v češtině

Náš nový článek přijatý na prestižní konferenci SIGIR 2024 přináší klíčový příspěvek v oblasti českého webového vyhledávání. Představuje CWRCzech, což je nový dataset pro hodnocení relevance vyhledávání obsahující 100 milionů párů dotaz-dokument v českém jazyce. Pojďme si ho představit.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.