Porno v internetovém vyhledávání

22. dubna 2016

Jako pro internetový vyhledávač je pro nás zcela zásadní spokojenost uživatele. Té docílíme nejsnáze tak, že uživateli vydáváme ty stránky, které chce. Druhou stranou téže mince je nevydávat uživateli stránky, které NEchce. Do této oblasti patří ve většině případů porno. Tento typ stránek uživatel chce jenom v těch situacích, kdy si o něj výslovně řekne svým dotazem, jinak se ale nesmí na stránce s výsledky vyhledávání objevit. Možná to zní jednoduše, ale divili byste se, jak často musíme filtr porna používat. Představte si, kolik košilatých webů najdeme, když hledáme na stránkách pouze výskyt slov z dotazu „vláček zdarma“.

Abychom toto uživatelské přání mohli splnit, musíme vědět, na které stránce z naší databáze se nachází porno obsah a na které ne.  Vzhledem k tomu, že nemůžeme celou naši databázi procházet ručně, museli jsme vysvětlit robotovi, jak lze takovou stránku poznat. Obecně to lze poznat ze dvou věcí:

  1. Jaký je na stránce text
  2. Jaké jsou na stránce obrázky

Dnes Vám představíme druhý typ kritérií. Je jím odpověď na otázku, jestli se na obrázcích na stránce nachází lechtivý obsah nebo ne. Záměrně říkám lechtivý, neboť náš klasifikátor hodí do jednoho pytle vše od lehké erotiky (nahé akty) až po tvrdé porno. V případě, že chcete vědět do detailu, jak tento algoritmus funguje, můžete si o tom přečíst v článku Lukáše Vrábela, který brzo vyjde.

Náš klasifikátor dělí obrázky na lechtivé a nelechtivé. Snažili jsme se nastavit práh tak, aby do lechtivých spadaly obrázky od lehké erotiky (např. akty, odkryté genitálie) až po tvrdé porno. Jak se nám to povedlo ostatně posoudíte sami.

Náš porno detektor vám předkládáme k vyzkoušení, abyste se podívali, jak moc se nám daří lechtivý obsah na obrázku rozpoznat. Používáním našeho porno detektoru nám zároveň můžete pomoct náš algoritmus vylepšit. Stačí na detekovaný obrázek nahoře kliknout a ohodnotit naši klasifikaci pozitivně nebo negativně. Z obou případů jsme se schopní něco naučit a v budoucnosti klasifikovat obrázky spolehlivěji.

Sdílet na sítích