Představujeme tým ML Ops

10. února 2022 Vyhledávání

Jak už víte z článku o entitním hledání, Seznam.cz vyhledávání je založené na umělé inteligenci, konkrétně na strojovém učení. Jak to tedy funguje?

Není dotaz jako dotaz aneb jak funguje entitní vyhledávání na Seznamu?

17. ledna 2022 Pro specialisty Vyhledávání

Algoritmus na základě příkladů, pro které známe správnou odpověď, vyrobí model pro odhadování výsledků. Dobrý strojově naučený model dokáže odhadnout správný výsledek i pro vstupní data, která při učení neviděl. Říkáme, že se mu daří dobře predikovat daný jev.

Seznam.cz vyhledávání využívá pro získání těch nejlepších výsledků několik desítek modelů strojového učení. Infrastrukturu pro snadnou údržbu a přidávání nových modelů zajišťuje tým zvaný Machine Learning Operations, ve zkratce ML Ops.

Příprava a údržba strojově učeného modelu zahrnuje mnoho kroků, které se při dostatečném množství modelů vyplatí automatizovat. Například pro jedno učení je potřeba:

získat vstupní data z anotačního rozhraní a anotační aplikace
k nim doplnit signály z webových stránek, z dotazů a z mnoha dalších oblastí, které model bude používat k rozhodování
vyváženě oddělit trénovací a testovací sady vzorků, aby byly v obou sadách správně zastoupené všechny jevy, na které chceme model natrénovat
zvolit optimální algoritmus strojového učení a najít jeho optimální hyperparametry
otestovat technické aspekty modelu v prostředí blízkém provoznímu
vyhodnotit na desítkách metrik, jestli kvalita výstupů modelu odpovídá očekáváním

Proces práce na modelu po vytvoření první dobré verze ale nekončí, protože model i data v čase zastarávají a ztrácí kvalitu. Učení, dolaďování a kontrolu dat je proto nutné opakovat pravidelně. Cílem týmu ML Ops je automatizace, zrychlování a zjednodušování tohoto procesu, aby bylo možné zlepšovat vyhledávání efektivněji.

“Platforma ML Ops je konstruovaná v jazyce Python. Proces tvorby modelu se skládá z jednotlivých kroků, kterým říkáme experimenty. K jejich zaznamenávání používáme MLflow. Obstaráváme také napojení na interní systémy pro sběr anotovaných dat, získávání vlastností webových stránek a hledaných frází. Aktuálně umíme vytvářet CatBoost a XGBoost modely.

Další druhy modelů plánujeme přidávat dle potřeby. Velkým tématem naší práce je automatizace. Té dosahujeme pomocí Airflow a Kubernetes. Naší neméně důležitou činností je měření kvality a příbuzných vlastností výsledků vyhledávání. Vyvinuli jsme specializovaný nástroj, který umí kontrolovat výsledky našeho hledání.

Další výzvy nás ještě čekají, potřebujeme zlepšit monitoring signálů (features) vstupujících do vyhledávání. Urychlit proces nasazování nových modelů a obsáhnout NLP modely využívané při hledání pomocí vektorů”, popisuje práci týmu Václav Plajt, Vedoucí týmu vývojářů ML Ops.

Po roce budování základů nástrojů pro usnadnění machine learning procesů tým ML Ops pokračuje do své další fáze. V ní bude do ML Ops platformy zapracovávat ve větším množství požadavky, které vznikly jejím používáním interními zákazníky.

Dočetli jste se zájmem až sem? Tak možná právě pro vás je jako stvořená pozice produktového manažera, který bude připravovat systematické zadání pro zkušený vývojový tým. A protože plány máme velké, hledáme i vývojáře, který tým doplní.

Za tým Vyhledávání Jan Zhouf, Martin Kirschner

Sdílet na sítích

Co hýbe Českem? Ceny benzínu, elektroauta i kanystry, ukazují analýzy vybraných služeb společnosti Seznam.cz

Uživatelé v Česku na portálu Sauto.cz nejčastěji vyhledávají automobily spalující benzín*. Současná situace na trhu s palivy ale mnoho lidí, podle dat Seznam.cz Vyhledávání, podněcuje k většímu zájmu o elektroauta. Roste také počet dotazů na ceny benzínu, zejména na čerpacích stanicích Ono. Na Zboží.cz mají lidé větší zájem o kanystry, většinou o ty o objemu 20 litrů. Podíváme-li …

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.