Seznam.cz zveřejňuje neuronovou síť zlepšující výsledky vyhledávání

13. října 2021 Strojové učení Vyhledávání

Představujeme vám Small-E-Czech [čti: smolíček]. A co to vlastně Small-E-Czech je? Jedná se o neuronovou síť natrénovanou v Seznamu. Ta je schopná řešit úlohy spjaté s porozuměním českému jazyku. Povedlo se nám díky ní zvýšit kvalitu výsledků vyhledávání nebo opravy překlepů. A teď ji máte od nás na Githubu a HuggingFace k dispozici i vy.

Jak se Small-E-Czech učí

Síť vychází z modelu Electra (varianta small) z roku 2020. Nejprve se předučí na velkém množství textu, čímž získá povědomí o fungování češtiny a významu slov, a následně se doučuje na konkrétní úlohu, která nás zajímá.

Vstupem do modelu je text rozdělený na tokeny algoritmem Wordpiece. Tokeny jsou celá slova (pokud se vyskytují často), nebo jen části slov až jednotlivé znaky, ze kterých se dají méně častá slova složit.

Předučení probíhá tak, že se neuronové síti ukazují věty, v nichž byly některé tokeny nahrazeny jinými. Síť má pak pro každý token rozhodnout, jestli je původní. Pokud se zmýlí, váhy spojení mezi neurony v síti (je jich zhruba 14 milionů) se mírně upraví tak, aby se příště spíš trefila, a pokračuje se další větou. Small-E-Czech se předučoval asi 20 dní za použití 250 GB textu na jedné grafické kartě.

Ve fázi doučení se nahradí koncová část sítě takovou, která má vhodný tvar pro danou úlohu (například vrací jen jedno číslo pro celý vstupní text, pokud chceme klasifikovat recenze na pozitivní a negativní) a následně se síť učí minimalizovat chyby na příslušných trénovacích datech (dvojicích tvořených vstupním textem a požadovanou odpovědí) podobně jako při předučení. Těchto trénovacích dat je obvykle relativně málo, protože správné odpovědi dodávají lidé. Doučení proto trvá kratší dobu (v našem případě jednotky až desítky hodin). Pro výslednou kvalitu je pak důležité, že síť nezačíná od nuly, ale nese si ve svých vahách znalost jazyka z fáze předučení.

Small-E-Czech je se svými 14 miliony vahami výrazně menší sítí než třeba původní anglický BERT, který má vah 110 milionů. Větší sítě obvykle dosahují vyšší úspěšnosti, jejich nevýhodou je ovšem pomalejší učení i následné vyhodnocování.

Začněte Small-E-Czech využívat i vy

V Seznamu jsme použili Small-E-Czech například jako vstup do modelu, který řadí výsledky vyhledávání. Podle našich měření víme, že jsme tak zvýšili kvalitu zobrazených výsledků v průměru o 4 %. Dodáváme pomocí něj také vektory pro dotazy a webové stránky do tzv. vektorového hledání. Přispěl ke zlepšení oprav překlepů v dotazech, které jsou díky chytřejším návrhům průměrně o 30 % rychlejší a jednotky procent lepší (v pokrytí a přesnosti). Pro feed článků na homepage Seznamu detekuje clickbaitové titulky. Možnosti využití jsou zkrátka široké.

Abychom podpořili výzkum jazykových modelů pro češtinu a umožnili nasazení modelu Small-E-Czech i v oblastech, kterým se v Seznamu nevěnujeme, rozhodli jsme se jej zveřejnit – a to i pro komerční použití. Model snadno stáhnete z HuggingFace repozitáře, kde je i krátký návod, jak jej aplikovat na novou úlohu. Budeme rádi, když o nových aplikacích dáte vědět a třeba inspirujete další.

Sdílet na sítích

Když se vyhledávač mění v odpovídač. Jak fungují AI sumarizace?

Už více než 10 let internetové vyhledávače postupně mění svou funkci – z tradičního webového rozcestníku se posouvají do pozice zprostředkovatele obsahu s cílem odpovídat na uživatelské dotazy přímo. V Seznamu interně říkáme, že se vyhledávač proměňuje v odpovídač. Jaké kroky podnikáme, abychom tomuto trendu šli naproti, jak fungují naše AI sumarizace a co na to uživatelé?

AI je stále horké téma, ukázal Seznam Meetup věnovaný jazykovým modelům

17. října se uskutečnil už druhý ročník Seznam Meetupu zaměřeného na vývoj a praktické použití generativních jazykových modelů. Akce přilákala pestrou směsici technologických nadšenců, výzkumníků i odborníků z oblasti umělé inteligence. Meetup byl součástí Dnů AI 2024 a přinesl řadu inspirativních přednášek, praktických ukázek a networkingových příležitostí. O účast na akci, která proběhla v budově ČVUT i online, projevilo zájem bezmála 600 účastníků.

Od klíčových slov k významu: Jak vektorové indexy mění Vyhledávání na Seznamu

Vyhledávání informací na internetu se stalo nedílnou součástí našich životů. Ať už potřebujeme rychle zjistit, jak opravit zaseknutý zip, najít nejlepší kavárnu v okolí nebo vybrat dárek k narozeninám – internetové vyhledávače jsou často naší první zastávkou. A s rostoucí sofistikovaností technologií se mění i způsob, jakým s vyhledávači komunikujeme.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.