V datech se zpravidla vyskytuje nějaký jev, který se opakuje častěji než jiný. Zjednodušeně: když si lidé kupují chleba, dost často k němu přidají máslo, šunku nebo zkrátka něco, co s ním můžou kombinovat. A právě takové – a samozřejmě mnohem složitější – vzory chování dokáže program strojového učení najít a rozhodovat se podle nich.
Umělá inteligence má svá rizika, ale výhody zatím převažují, myslí si šéfka výzkumu v Seznamu
Když se řekne výzkumník, možná si představíte člověka v bílém plášti, který tráví celé dny v laboratoři. Veronika Krejčířová žádný plášť nenosí a místo zkumavek pracuje na počítači. Přesto v Seznamu vede tým výzkumníků, kteří se věnují strojovému učení. A my jsme se jí zeptali třeba na to, jak se její obor za poslední roky změnil nebo co si myslí o obřích jazykových modelech, které v posledních měsících hýbají světem.
Co to znamená být výzkumník v technologické firmě?
Ve světě se tomu, co děláme, říká spíš Machine Learning Researcher, tedy výzkumník strojového učení. Naším cílem je řešit nejrůznější problémy a úkoly právě s využitím strojového učení. Jde o specifickou oblast programování, při níž vytváříme statistické modely, které se učí z dat. To znamená, že nemusíme pravidlově popisovat, co se má dít, ale necháváme model, aby se model učil vzorce z dat, která má k dispozici. To samozřejmě znamená, že těch dat potřebujeme hodně.
Jak vypadá a funguje tým, který se v Seznamu věnuje strojovému učení?
Aktuálně je nás v rámci Vyhledávání 16 a tvoříme čtyři týmy. Pracujeme z Prahy, Brna a Zlína, ale průběžně se potkáváme, radíme a brainstormujeme. Každý z týmů má na starost jeden projekt, obvykle kvartální, ale rozsah samozřejmě záleží na konkrétním zadání. Já se – společně s kolegy z produktu – starám o prioritizaci úkolů, které podle zaměření distribuuju mezi kolegy.
Jsi absolventkou oboru Umělá inteligence a zpracování přirozeného jazyka na Masarykově univerzitě. Jak se stane, že se člověk rozhodne něco takového studovat?
Při podávání přihlášek na vysokou jsem neměla úplně jasnou představu, jakým směrem se vydám. Bavilo mě programování, se kterým jsem se setkala v rámci různých kroužků, ale šlo spíš o drobné věci typu naprogramování webové stránky nebo kalkulačky. Částečně mě lákala i matematika, ale chtěla jsem obor, kde bych se mohla potkávat s lidmi. A zároveň mě vždycky zajímala čeština a jazyky. Když jsem zjistila, že existuje studijní zaměření, ve kterém se tohle všechno spojuje, přihlásila jsem se. A nelitovala jsem. Měli jsme předměty spojené s jazykem, jako jsou fonetika nebo reprezentace slov v řeči, a zároveň odborné, programovací a matematické předměty. Trochu mě děsila představa, že v budoucnu budu trávit hodiny sama za počítačem bez interakce s lidmi, ale to se naštěstí neděje.
Dokážeš shrnout, jaké předpoklady by budoucí výzkumník v oblasti strojového učení měl mít?
Určitě by ho mělo bavit programování a spřízněné obory, jako jsou matematika nebo statistika. Člověk, který strojové učení vystudoval, má výhodu v tom, že už přichází s nějakým přehledem, který si zpětně nemusí vytvářet. V týmu ale máme i lidi, kteří se ve škole věnovali úplně jiným oblastem. Díky zájmu a píli se doučili, co je třeba, a praxi jim dal Seznam. Náš obor je pořád mladý a neustále se mění, ale je fajn mít základy, na kterých se dá stavět. A taky chuť se dál učit a držet krok s neustálým vývojem.
Jak začala tvoje kariéra v Seznamu?
V roce 2016 jsem ještě při studiu nastoupila na juniorní pozici do výzkumu. Po škole jsem dostala na starost vlastní malý tým a zjistila jsem, že mě starost o něj a komunikace se zadavateli projektů baví víc než programování. Tím, že rozumím technické stránce věci, ale zároveň umím komunikovat, organizovat práci a řešit problémy, jsem se na současné pozici celkem našla.
Můžeš vaši obvyklou práci popsat na nějakém konkrétním příkladu?
Představ si, že dostaneme za úkol opravu překlepů při vyhledávání. Můžeme sice sepsat všechna možná pravidla, která shrnou, jaké existují typy překlepů a jak je opravit. Jenže jich je tolik, že výsledek nebude moc fungovat. Takže přichází na řadu strojové učení, kdy máme spoustu dat, ze kterých se dá zjistit i to, co chtěl uživatel původně napsat, třeba se i později opravil nebo klikl na odkaz, kde bylo dané slovo napsané správně. A my díky tomu tušíme, co chtěl skutečně udělat. Čím víc lidí udělá stejnou chybu, tím jistější si jsme. Vyhneme se složitému sepisování pravidel, protože algoritmus za nás v datech vyhledá vzorce, které se dají obecně využít. Sice nemáme absolutní kontrolu nad tím, co algoritmus dělá, ale dovedeme díky němu vyřešit složité problémy.
Vy ale můžete pracovat s různými typy dat, že?
Jasně, nedávno jsme třeba řešili problém hledání podobných obrázků v obrázkovém vyhledávání. Nejdřív jsme potřebovali data a příklady toho, co chceme dělat a jak má vypadat správná odpověď. Využili jsme relevantní příklady z obrázkového hledání a ruční anotace. Data jsme prozkoumali, zkontrolovali a stanovili si, jaký přístup při práci zvolíme. Pak už je to hodně o programování, nastavování parametrů, změnách dat, ze kterých se algoritmus učí, a testování různých řešení. Samotné učení, které je nejzábavnější, představuje tak třetinu celého procesu. Pak už jen vyhodnocujeme, hledáme chyby a vymýšlíme, jak výsledek ještě vylepšit.
Když mluvíš o datech, jak si je mám představit?
To záleží na konkrétním úkolu. Typicky zpracováváme dokumenty a obsah internetu, to znamená texty i obrázky. Velký zdroj dat pro nás představuje uživatelské chování ve Vyhledávání na Seznamu – jaké dotazy lidi zadávají, na které odkazy klikají, kolik času na nich stráví, jak moc nebo jakým způsobem scrollují a podobně. A pak využíváme i volně dostupné datasety – textové, obrázkové i uživatelské, kterých je k dispozici méně.
Jak moc se váš obor za sedm let, co jsi v Seznamu, změnil?
I když jsem se už ve škole učili o neuronových sítích, nedalo se mluvit o hlubokých sítích, jak je známe dnes. Boom, který v mezičase proběhl, umožnil dosáhnout většího výkonu a pracovat s mnohem většími daty. Tím pádem vznikají násobně větší jazykové modely s parametry, jejichž množství roste o řády, ne jednotky. Máme také k dispozici specializovaný, a tím i výkonnější hardware s větším výpočetním výkonem, protože bez něj některé operace zkrátka nedokážeme v rozumném čase provést. Důležité jsou hlavně specializované grafické karty, na kterých se mohou učit opravdu velké modely – ať už jazykové, nebo obrázkové. Takže s vybavením, které jsme měli k dispozici před sedmi lety, bychom dnes nebyli schopní pracovat. Princip se v zásadě nemění, jen díky specializovanému hardwaru s dramaticky vyšším výkonem můžeme využívat větší modely.
Překvapil tě rozmach toho, čemu zjednodušeně říkáme umělá inteligence, ke kterému došlo v posledních měsících?
Z mého pohledu neproběhl žádný průlom v tom smyslu, že by se vymyslelo něco úplně nového, šlo spíš o evoluci, během které na sebe navazovala práce různých lidí z oboru. Za úspěchem Open AI podle mě stojí především množství zdrojů, které byli schopní investovat do vývoje. Díky tomu mohou pracovat s opravdu obřími modely, které jsme si dřív nedovedli ani představit. Chat GPT díky své velikosti zvládne zpracovat řadu velmi obecných úloh. Tím, že dřív sítě byly menší, měly i menší kapacitu toho, co uměly. Sice zvládaly programování, ale už nedokázaly vytvořit kvalitní „lidsky“ psaný text a podobně. Dnešní modely zatím umí absorbovat velkou část internetu, a proto doručují lepší výstupy. Můžu ale říct, že aktuální stav jsou ohromující i pro mě. I když princip nápodoby zůstává v zásadě jednoduchý, výsledky jsou fascinující.
Ve společnosti se začínají ozývat hlasy, že by bylo na místě umělou inteligenci regulovat. Co si o tom myslíš?
Snahy o regulaci jsem samozřejmě zaznamenala, už teď jsou definované určité rizikové nebo „zakázané“ oblasti, kde by se algoritmy strojového učení neměly uplatňovat. Na mysli mám třeba takzvaný social scoring, kdy algoritmy mohou na základě souhrnu dat pomáhat při „hodnocení“ lidí. Podobně škodlivé jevy by se i za mě měly regulovat. Ale extrémy, které volají po úplném zastavení vývoje umělé inteligence, nám podle mě stejně nepomůžou. Ta technologie už existuje, takže se nemůžeme vrátit do doby před ní. A jako nástroj je velmi užitečná, i když víme, že všechny vynálezy se dají zneužít. Obecně si ale myslím, že výhody zatím převyšují nevýhody a rizika.
Chcete se průzkumníkem v oblasti chytrých technologií stát i vy? Pošlete své CV na e-mail kariera@firma.seznam.cz. Verča ve svém týmu ráda přivítá mladé talenty i zkušené programátory, kteří mají chuť se podílet na velkých věcech.