Sémantická analýza textů (2)

12. září 2011 Vyhledávání Výzkum

V tomto článku se zaměříme na způsoby porovnávání dvou dokumentů a podíváme se na problémy, které přináší reprezentace dokumentů pomocí vektorů slov.

V předchozím dílu seriálu jsme definovali tzv. vector space model a ukázali si na příkladu, jak ve vektorovém prostoru reprezentovat libovolný textový dokument z dané kolekce dokumentů (korpusu). Nyní se zaměříme na to, jak lze této reprezentace využít pro fulltextové vyhledávání.

Jakmile dokážeme do konkrétního vektorového prostoru zobrazit dokument, dokážeme do stejného prostoru zobrazit i libovolný fulltextový dotaz, neboť i na něj lze nahlížet jako na množinu slov. Jak tedy nyní porovnat dva dokumenty, případně dotaz a dokument? Nejrelevantnější dokument pro dotaz je takový, jehož vektor leží nejblíže vektoru dotazu (zde považujeme za jediný zdroj informace pouze náš vektorový prostor, v reálných vyhledávačích se výsledky řadí podle celé řady dalších kritérií). Pokud se omezíme pouze na dvourozměrný prostor, lze situaci snadno graficky znázornit:

Obrázek zachycuje dvourozměrný vektorový prostor slov w 1 a w 2, do kterého jsou zobrazeny dokumenty d 1, d 2, d 3 a dotaz q. Je zde vidět, že nejblíže dotazu q z hlediska euklidovské vzdálenosti (vzdálenost koncových bodů šipek) leží dokument d 2. Co se ale stane, jestliže vezmeme dokument d 2 a všechna jeho slova zduplikujeme? Pokud neuvažujeme binární reprezentaci popsanou v předchozím dílu, ale např. TF nebo TF-IDF reprezentaci, vektor dokumentu se prodlouží na dvojnásobnou velikost a situace tedy bude vypadat následovně:

Vzdálenost dokumentu d 2 od dotazu q se zvětší natolik, že se nejbližším dokumentem dotazu stane d 1 , i když se d 2 významově nijak nezměnil. Abychom se takovému nežádoucímu jevu vyhnuli můžeme velikost všech vektorů normalizovat, anebo lépe, místo euklidovské vzdálenosti měřit úhel mezi vektory. Intuitivně, čím větší úhel dva vektory svírají, tím jsou od sebe vzdálenější. Často používanou metrikou, která reflektuje tento požadavek je cosinová míra.

Jakmile máme definovanou vzdálenost mezi vektory, můžeme mezi nimi začít vyhledávat. Přestože se úloha nalezení nejbližšího dokumentu dotazu může zdát snadná, je tomu naopak. Pokud už dokument reprezentujeme pomocí vektoru reálných čísel, většinou není možné použít pro vyhledávání jednoduché struktury jako je reverzní index. Jestliže chceme dosáhnout sublineární složitosti vyhledávání (tedy neporovnávat dotaz se všemi dokumenty v databázi), je třeba použít složitějších struktur, jakými jsou např. R-Tree nebo M-tree. Velice však záleží na rozmístění dat v prostoru a počtu dimenzí. Nedá se říci, která struktura je obecně nejlepší.

Jedním z největších problémů reprezentace objektů pomocí vektorů vysoké dimenze (každé dimenzi v našem modelu odpovídá právě jedno slovo, proto je počet dimenzí v řádu statisíců) je takzvané „prokletí dimenzionality“. S tím, jak roste počet dimenzí, exponenciálně roste velikost prostoru, ve kterém se vektory nacházejí a většina objemu se začíná hromadit na samých okrajích. Při velkých dimenzích jsou důsledkem toho všechny dokumenty od sebe vzdáleny téměř stejně daleko.

Mezi další problémy reprezentace dokumentů vektory slov patří synonymie a homonymie, které jsou pro přirozené jazyky tolik typické. Pokud bychom v našem prostoru porovnávali např. dokument obsahující pouze dvě slova „tenisové rakety“ s dotazem „sportovní potřeby“, vzdálenost bude obrovská, a to i přesto, že tématicky jsou si velice blízko. Bude tomu tak proto, že dotaz a dokument nemají žádná společná slova. Naopak dotaz „vesmírné rakety“ bude našemu dokumentu určitě blíže, přestože nemá tematicky s tenisem ani sportem nic společného.

Na nejjednodušší způsoby, jak snížit počet dimenzí se podíváme v příštím dílu. Problém víceznačnosti a synonymie bude diskutován později.

Sdílet na sítích

Recept na SERP aneb jak vylepšujeme výsledky Vyhledávání na Seznamu

Neustále pracujeme na tom, aby se ve Vyhledávání na Seznamu zobrazovaly co nejlepší výsledky. I proto jsme nedávno nasadili úpravy, které zlepšují relevanci organického hledání. Co se změnilo a z čeho úpravy vycházejí?

Doporučovací systémy podruhé: Dozvíte se, jak je postavena jejich architektura

Veronika Geltner 19. května 2022 Vyhledávání Výzkum

V posledním článku o doporučovacích systémech jsme vyzdvihli schopnost doporučovacích systémů (DS) výrazně zvýšit úroveň nabízených služeb, díky které v posledních letech pronikly do všech oblastí, kde jsou obsah nebo služby nabízeny koncovým uživatelům. Metody strojového učení, které se v DS využívají, jsou ze stejného důvodu předmětem pokročilého výzkumu v mnoha prestižních technologických společnostech. V …

Seznam.cz Vyhledávání se zapojí do protokolu IndexNow

Martin Kirschner 9. prosince 2021 Vyhledávání Výzkum

Uživatelé očekávají, že s pomocí vyhledávače najdou na internetu informace, které zrovna potřebují. Aby však vyhledávač mohl na jejich dotaz správně odpovědět, musí udržovat na svých serverech lokální kopii webu, kde nesmí žádná důležitá webová stránka chybět. Navíc by všechny měly být ve stejném stavu, jako na internetu. Databázi pro vyhledávač tvoří vyhledávací robot, který …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.