Jednou z dôležitých častí vyhľadávania na internete je detekcia a následné filtrovanie explicitného obsahu. Jedná sa o pomerne komplexný problém zložený z rôznych podproblémov. Jedným z takýchto podproblémov je aj detekcia porna na obrázku. Práve na tento podroblém sme sa nedávno v Sezname zamerali. Zadanie bolo jednoduché – porno detektor dostal obrázok a mal určiť či sa na danom obrázku nachádza porno alebo nie. Ako dobre sa nám porno darí rozpoznávať si môžete vyskúšat v našom interaktívnom deme.
Aj keď sa v mnohých prípadoch väčšina z nás zhodne na tom, ktoré obrázky zobrazujú porno a ktoré nie, existuje aj pomerne veľké množstvo takých, ktoré spadajú do šedej zóny. V tejto skupine obrázkov je hranica medzi pornom a nepornom veľmi neurčitá a spravidla subjektívna, pretože každý z nás vníma porno inak. Nanešťastie, náš porno detektor musí tieto dve kategórie presne rozseknúť (napríklad pri filtrovaní explicitného obsahu v obrázkovom vyhľadávaní musíme vedieť, či obrázok ukážeme vo výsledkoch, alebo nie), a preto sme boli nútení k tejto otázke pristúpiť „inžiniersky“ a nejakú hranicu jednoducho objektívne nastaviť.
„Mozgom“ nášho porno detektoru je matematický model nazývaný hlboká konvolučná neurálna sieť. Štruktúra siete je inšpirovaná tým, ako človek spracováva zrakový vnem v mozgu.
V princípe sa táto neurálna sieť skladá z dvoch častí – prvá časť skenuje obrázok a hľadá v ňom rôzne vzory, ktoré môžu byť jednoduché (hrany, farby, tvary), zložitejšie (oko, nos, koleso, okno) až komplexné (tvár, auto, dom).
Druhá časť siete následne na základe nájdených vzorov rozhoduje, do ktorej kategórie nakoniec obrázok zadelíme (v našom prípade boli kategórie len dve – porno vs neporno, ale model neurálnej siete je všeobecný a dokáže pracovať aj s tisíckami rôznych kategórií). Takto postavenú sieť potom pomocou metód strojového učenia trénujeme na dôsledne vybraných obrázkoch.
Správne vybrať tieto reprezentatívne obrázky je jednou z najdôležitejších (a najpracnejších) úloh. Ak totiž napríklad sieti ukážeme kreslené porno obrázky bez toho, aby sme jej ukázali súčasne aj kreslené „neporno“ obrázky, táto sieť si zgeneralizuje „kreslenosť“ ako silný indikátor porna a následne bude Krteček a Mickey Mouse označený za nevhodný obsah.
Internú reprezentáciu jednotlivých obrázkov v neurálnej sieti si môžeme predstaviť ako akési body vo vysokorozmernom priestore (každý obrázok je reprezentovaný ako „bod“ s viac ako štyri tisíc súradnicami). Pomocou redukcie dimenzionality sme tieto body premietli do trojrozmerného priestoru. Takto nám vznikol akýsi trojrozmerný „obrázkový vesmír“, ktorý názorne ukazuje akým spôsobom naša neurálna sieť „rozmýšľa“ o obrázkoch.
Obrázky, o ktorých si sieť myslí, že sú podobné, vytvárajú v tomto vesmíre zhluky. Tak môžeme vidieť napríklad zhluk rastlín, ktorý má v sebe lokálne podzhluky žltých, fialových alebo červených kvetín. Ďalej môžeme sledovať zhluk jedla, ale aj zhluky výstrihov, zhluk plaviek hneď vedľa zhluku spodnej bielizne, alebo zhluk vagín, prípadne veľmi výrazný zhluk už spomínaného kresleného porna.
Aj keď sieť pracuje celkom spoľahlivo (správne detekuje porno u približne 95% obrázkov z našej testovacej sady, čo je výsledok porovnateľný s človekom), niektoré obrázky, ktoré človek považuje za významovo odlišné, sú pre sieť podobné. Tieto obrázky určitým spôsobom ilustrujú princíp fungovania konvolučných neurálnych sietí – sieť sa pozerá hlavne na vizuálnu štruktúru obrázku a zatiaľ „nechápe“ význam alebo funkčnosť zobrazených objektov. Tak vidíme, že k obecnej umelej inteligencii a strojovému uvažovaniu ešte vedie dlhá cesta.
Neustále pracujeme na tom, aby se ve Vyhledávání na Seznamu zobrazovaly co nejlepší výsledky. I proto jsme nedávno nasadili úpravy, které zlepšují relevanci organického hledání. Co se změnilo a z čeho úpravy vycházejí?
V posledním článku o doporučovacích systémech jsme vyzdvihli schopnost doporučovacích systémů (DS) výrazně zvýšit úroveň nabízených služeb, díky které v posledních letech pronikly do všech oblastí, kde jsou obsah nebo služby nabízeny koncovým uživatelům. Metody strojového učení, které se v DS využívají, jsou ze stejného důvodu předmětem pokročilého výzkumu v mnoha prestižních technologických společnostech. V …
Uživatelé očekávají, že s pomocí vyhledávače najdou na internetu informace, které zrovna potřebují. Aby však vyhledávač mohl na jejich dotaz správně odpovědět, musí udržovat na svých serverech lokální kopii webu, kde nesmí žádná důležitá webová stránka chybět. Navíc by všechny měly být ve stejném stavu, jako na internetu. Databázi pro vyhledávač tvoří vyhledávací robot, který …
Zpracování osobních údajů
Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.
Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:
za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.
Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.
Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.
Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.