Představujeme vám Small-E-Czech [čti: smolíček]. A co to vlastně Small-E-Czech je? Jedná se o neuronovou síť natrénovanou v Seznamu. Ta je schopná řešit úlohy spjaté s porozuměním českému jazyku. Povedlo se nám díky ní zvýšit kvalitu výsledků vyhledávání nebo opravy překlepů. A teď ji máte od nás na Githubu a HuggingFace k dispozici i vy.
Jak se Small-E-Czech učí
Síť vychází z modelu Electra (varianta small) z roku 2020. Nejprve se předučí na velkém množství textu, čímž získá povědomí o fungování češtiny a významu slov, a následně se doučuje na konkrétní úlohu, která nás zajímá.
Vstupem do modelu je text rozdělený na tokeny algoritmem Wordpiece. Tokeny jsou celá slova (pokud se vyskytují často), nebo jen části slov až jednotlivé znaky, ze kterých se dají méně častá slova složit.
Předučení probíhá tak, že se neuronové síti ukazují věty, v nichž byly některé tokeny nahrazeny jinými. Síť má pak pro každý token rozhodnout, jestli je původní. Pokud se zmýlí, váhy spojení mezi neurony v síti (je jich zhruba 14 milionů) se mírně upraví tak, aby se příště spíš trefila, a pokračuje se další větou. Small-E-Czech se předučoval asi 20 dní za použití 250 GB textu na jedné grafické kartě.
Ve fázi doučení se nahradí koncová část sítě takovou, která má vhodný tvar pro danou úlohu (například vrací jen jedno číslo pro celý vstupní text, pokud chceme klasifikovat recenze na pozitivní a negativní) a následně se síť učí minimalizovat chyby na příslušných trénovacích datech (dvojicích tvořených vstupním textem a požadovanou odpovědí) podobně jako při předučení. Těchto trénovacích dat je obvykle relativně málo, protože správné odpovědi dodávají lidé. Doučení proto trvá kratší dobu (v našem případě jednotky až desítky hodin). Pro výslednou kvalitu je pak důležité, že síť nezačíná od nuly, ale nese si ve svých vahách znalost jazyka z fáze předučení.
Small-E-Czech je se svými 14 miliony vahami výrazně menší sítí než třeba původní anglický BERT, který má vah 110 milionů. Větší sítě obvykle dosahují vyšší úspěšnosti, jejich nevýhodou je ovšem pomalejší učení i následné vyhodnocování.
Začněte Small-E-Czech využívat i vy
V Seznamu jsme použili Small-E-Czech například jako vstup do modelu, který řadí výsledky vyhledávání. Podle našich měření víme, že jsme tak zvýšili kvalitu zobrazených výsledků v průměru o 4 %. Dodáváme pomocí něj také vektory pro dotazy a webové stránky do tzv. vektorového hledání. Přispěl ke zlepšení oprav překlepů v dotazech, které jsou díky chytřejším návrhům průměrně o 30 % rychlejší a jednotky procent lepší (v pokrytí a přesnosti). Pro feed článků na homepage Seznamu detekuje clickbaitové titulky. Možnosti využití jsou zkrátka široké.
Abychom podpořili výzkum jazykových modelů pro češtinu a umožnili nasazení modelu Small-E-Czech i v oblastech, kterým se v Seznamu nevěnujeme, rozhodli jsme se jej zveřejnit – a to i pro komerční použití. Model snadno stáhnete z HuggingFace repozitáře, kde je i krátký návod, jak jej aplikovat na novou úlohu. Budeme rádi, když o nových aplikacích dáte vědět a třeba inspirujete další.
Neustále pracujeme na tom, aby se ve Vyhledávání na Seznamu zobrazovaly co nejlepší výsledky. I proto jsme nedávno nasadili úpravy, které zlepšují relevanci organického hledání. Co se změnilo a z čeho úpravy vycházejí?
V posledním článku o doporučovacích systémech jsme vyzdvihli schopnost doporučovacích systémů (DS) výrazně zvýšit úroveň nabízených služeb, díky které v posledních letech pronikly do všech oblastí, kde jsou obsah nebo služby nabízeny koncovým uživatelům. Metody strojového učení, které se v DS využívají, jsou ze stejného důvodu předmětem pokročilého výzkumu v mnoha prestižních technologických společnostech. V …
Uživatelé očekávají, že s pomocí vyhledávače najdou na internetu informace, které zrovna potřebují. Aby však vyhledávač mohl na jejich dotaz správně odpovědět, musí udržovat na svých serverech lokální kopii webu, kde nesmí žádná důležitá webová stránka chybět. Navíc by všechny měly být ve stejném stavu, jako na internetu. Databázi pro vyhledávač tvoří vyhledávací robot, který …
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.