17. 1. 2013

Martin Fiala: Bývalý prezident, který dnes vyvíjí největší český vyhledávač

Rodák ze Znojma Martin Fiala přišel do Prahy v roce 2001. Studoval výpočetní techniku na ČVUT a v posledním ročníku začal pracovat v nově vznikajícím týmu vyhledávání Seznam.cz. Během studií také zjistil, jak chutná moc. Ze správce kolejní sítě na malé dejvické koleji to dotáhl až na prezidenta Studentské unie ČVUT. Po roční zkušenosti ale politikaření opustil. Dnes je Martin vedoucím vývojářů v českobudějovické pobočce Seznam.cz a zkušenosti nabyté během jeho kariéry ve studentských organizacích jsou pro něj k nezaplacení.

Martine, kde jsi studoval?

Původem jsem ze Znojma, kde jsem vystudoval gymnázium. Potom jsem přišel do Prahy na ČVUT, Fakultu elektrotechnickou, kde jsem studoval od roku 2001 do roku 2006 obor Výpočetní technika. V posledním ročníku studia jsem nastoupil na poloviční úvazek do Seznamu, a tak se mi studium protáhlo o půl roku.

Doslechl jsem se, že ses za studií dal na politiku. Co je na tom pravdy?

Bydlel jsem na menší koleji pro nějakých 200 lidí v Dejvicích, jmenovala se Orlík (dříve Dimitrovova). Tam jsem dělal správce kolejní sítě a později jsem se stal předsedou klubu.

Co to bylo za funkci? To jsi byl hlavním organizátorem večírků?

Večírky jsme pořádali taky, samozřejmě. Klub spojoval správu koleje i správu sítě dohromady, my jsme tak měli k dispozici společné prostředky a lepší pozici pro vyjednávání se školou i vedením kolejí. Naší prioritou bylo zlepšovat kvalitu kolejního života, dodat náplň a také se zároveň něco přiučit. Jednalo se např. o sdílenou tiskárnu na vrátnici, která si počítala pokrytí strany a strhávala studentům peníze vložené na jejich účet, televizi po síti, kolejní knihovnu, posilovnu, fotbálek atd. Pro studenty jsme pořádali společenské, sportovní nebo vzdělávací akce a také jsme založili lokální Cisco networking akademii.

Přišlo ve tvých studentských letech i na nějakou vyšší politiku mimo kolej?

Stal jsem se na rok prezidentem Studentské unie ČVUT, což je nezisková organizace sdružující kluby při škole čítající cca 7000 členů. Jako zástupci všech klubů jsme se pravidelně scházeli na tzv. parlamentu, kde se řešilo všechno možné i nemožné.  Prezident je takovým předsedou parlamentu a také tou osobou, která je ve finále v občanském sdružení za všechno odpovědná. Obnáší to jednání se školou, správou kolejí a také s firmami. Příliš lákavě to nezní a není to ani placené, ovšem zkušeností si i z krátkého působení člověk odnese mnoho. A jak jsem se k tomu dostal? Místo se nečekaně uvolnilo, já měl volné ruce a kandidáti se zrovna nehrnuli. Tak jsem šel do toho.

A jak dopadla tvá politická kariéra?

Správně by o politiku ani jít nemělo, jenže v té době si prožívala Studentská Unie trochu neklidné období. Neustálé dohadování nás brzdilo v dalším rozvoji a také mě dost unavovalo. Nakonec jsem byl díky částečné rezignaci a špatnému odhadu v rámci politických tlaků asi měsíc před koncem svého funkčního období odvolán. Tehdy mne to docela mrzelo, s odstupem času už to vidím trochu jinak a nakonec i to byla dobrá zkušenost.

Pomohla ti tahle politická zkušenost potom nějak v zaměstnání?

Zdokonalily se mé komunikační a vyjednávací schopnosti, což využiji často i teď v práci. Přeci jen dělám s vývojáři a nutno podotknout, že lidi od IT jsou tak trochu „sví“. Někdy s nimi není lehké se domluvit.

Podílel ses nějak na rozvoji Linuxu?

Spolupracoval jsem na vývoji Mandriva Linuxu, což v té době byla nejlépe česky lokalizovaná distribuce Linuxu a zároveň i velmi přívětivá pro uživatele. Se Strahováky jsem se podílel na akci InstallFest, která byla určena především zájemcům o Linux a začátečníkům.

V té době byl Linux určitě méně rozšířený než dnes, také se u něj řešila spousta problémů s hardwarem. InstallFest byl především o setkání lidí, kteří chtěli Linux používat, místo pro předávání a sdílení zkušeností. Navíc kdokoli si mohl přinést počítač a my mu pomohli s instalací a nastavením. InstallFest stále existuje, jen se přeorientoval na zkušenější uživatele.

Do Seznamu jsi nastoupil v roce 2006? To bylo v době, kdy vyhledávání Seznam.cz, jak ho známe dnes, začalo vznikat?

V té době už první verze fulltextového vyhledávání fungovala. Když jsem přišel, byli ve vývojářském týmu vyhledávání jen 3 lidi a k tomu několik produktových manažerů a administrátorů.

Dnes jsi ale vedoucí týmu vývojářů v Českých Budějovicích. Jak došlo k přesunu?

Jsou to asi tři roky, já i manželka jsme z malých měst a Praha nám k životu příliš nevyhovovala. Rozhodli jsme se pro České Budějovice. Myslel jsem, že najdeme nějakou formu spolupráce na dálku, nebo skončím, jenže Štěpán Škrob mne příjemně překvapil s návrhem, že založíme vývojovou pobočku, a od té doby jsem v Budějcích. Aktuálně nás tu je 5.

Čemu se věnuje tvůj vývojářský tým?

Především vývoji robota. Ten sbírá informace na internetu a potom je zpracovává. My se věnujeme především té části sběru dat.

Robot už ale funguje, co se na tom dále vyvíjí?

Když jsem přišel do Seznamu, bylo v našem indexu zhruba 30 milionů stránek. Ke zlepšení vyhledávání bylo pochopitelně nutné zaindexovat stránek mnohem více. S nárůstem množství zpracovávaných dat se musely přepracovat jednotlivé komponenty robota. Před časem dokonce bylo nutné zcela změnit technologii, a tak poslední 2 roky robot běží na Hadoopu, který nám umožňuje rychle zpracovávat obrovská množství dat. Tuto technologii používají v podstatě všechny velké webové firmy jako Facebook, Yahoo, Twitter a další.

Jaké jsou problémy, které u robota vývoj řeší?

Základní problém je samozřejmě ten, že internet je nekonečný. Neexistuje žádný počet stránek, který když zaindexujeme, tak bude hotovo. A nejen internet je nekonečný, ale ani jeden jediný web nemusí být konečný. A když je něco nekonečné, tak to má i nekonečně mnoho variant. Z toho bohužel pro nás plyne, že ať napíšeme cokoli, časem se vždy objeví něco, kde robot z nějakého důvodu selže.

Dokázal bys vyjádřit nějakou ideální metu počtu internetových dokumentů pro vyhledávání na českém webu?

Crawlování českých dokumentů ve vyhledávání Seznam.cz bych teď považoval za ideální z hlediska počtu, ale určitě nemáme všechny unikátní české dokumenty. Bohužel s kvalitními stránkami chytáme i spoustu odpadu, který teď zabírá místo kvalitním dokumentům. Aktuálně máme více než 400 miliónů českých dokumentů a téměř miliardu dokumentů celkem.

Co ještě kromě počtu zaindexovaných dokumentů ovlivňuje kvalitu vyhledávání?

Dnes je vyhledávání poskládáno z mnoha věcí, které dávají dohromady celkový obraz. Z těch podstatných je to správné pochopení dotazu, kvalita signálů dodaných k jednotlivým dokumentům a jejich použití při řazení. Určitý vliv má také výkon použitého hardwaru v hledací farmě. Nemůžeme si totiž dovolit na každý dotaz projít všechna data, která máme k dispozici. Nakonec k „user experience“ přispívají další nezanedbatelné „drobnosti“ okolo – např. screenshoty, našeptávač, různé úpoutávky zamíchané do výsledků, oprava překlepů atd.

Jaká je momentálně hlavní věc, kterou v rámci robota řešíte?

Přepracováváme jeden za základních algoritmů robota, totiž zakládání a mazání stránek, se kterým stále nejsme úplně spokojení. Nezajímavých a případně i duplicitních dokumentů bychom se rádi zbavili a nahradili je hodnotnějšími, abychom lépe využívali dostupnou kapacitu databáze. Dnes má spousta lidí aspoň jeden blog, profil na nějaké sociální síti, k tomu vychází články v novinách, už i městské či obecní úřady zveřejňují všemožné dokumenty elektronicky. Obsahu je hodně a stále ho rychle přibývá, a pokud chceme poskytovat kvalitní hledání, musíme také kapacitu databáze dále navyšovat.