Pracujeme na vylepšení obrázkové relevance ve Vyhledávání

10. ledna 2022

V posledním roce se v Seznamu intenzivně věnujeme zlepšování kvality vyhledávání v obrázcích. Naším cílem je, aby služba na dotazy uživatelů poskytovala kvalitnější a užitečnější obrázky.

Modernější neuronové sítě

Během března 2021 jsme zapojili první velkou aktualizaci modelu relevance. Spočívala v nahrazení konvoluční neuronové sítě ResNet za modernější EfficientNet B4. Výstupem z této neuronové sítě je 1 792. dimenzionální vektor, který obsahuje informace o obrázku. Relevanci tohoto vektoru k vektoru dotazu vyhodnocujeme modelem založeným na rozhodovacích stromech a knihovně Catboost. Podobně, jako v případě vyhledávání dokumentů. Kromě informací z neuronové sítě tento model k predikci relevance využívá i celou řadu dalších faktorů získaných například z textů, které se nacházejí v okolí obrázku v dokumentu nebo chování uživatelů na stránce s výsledky vyhledávání. K pochopení záměru uživatele přispívají vektory tvořené technologií FastText, která nahradila dříve používaný Word2Vec.

Od března 2021 neuronovou síť EfficientNet využíváme i pro určování vizuální kvality obrázků, která nově také ovlivňuje pořadí v SERPu. V srpnu jsme vyměnili model relevance za nový, naučený na výrazně větších datech. Díky tomu se podařilo vylepšit kvalitu například na dotazy na města.

Dále jsme v průběhu roku s využitím nové ML Ops platformy výrazně vylepšili proces získávání trénovacích dat. Díky tomu máme k dispozici data ve větší kvalitě a větším množství, než kdy dříve. Kromě hodnocení relevance anotátoři vybírají také kategorii, kam daný dotaz patří. Rozlišujeme například kategorie lidé, zvířata, města apod. Na kvalitu hledání v jednotlivých kategoriích se zaměřujeme odděleně.

Novinky v Obrázcích

Kromě vylepšování relevance jsme se zaměřili i na nové funkce. Jednou z nich jsou tzv. Produktové obrázky. Díky označení v SERPu je nyní snadné rozlišit, které obrázky pochází z e-shopů. Pro uživatele, kteří využívají službu pro nákupy, jsme také přidali filtr “pouze e-shopy”.

Během roku se nám postupně podařilo hledání v obrázcích vylepšit o několik procentních bodů. Uživatelé v porovnání s předchozím rokem častěji najdou, co měli na mysli.

Aktuálně pracujeme na zvýšení pokrytí s využitím výběru obrázků z indexu pomocí vektorové podobnosti a na rychlejší aktualizaci indexu, aby bylo hledání v obrázcích užitečnější i pro hledání aktuálních událostí.

Andrii Titov, product manager

Sdílet na sítích