Sémantická analýza textů (1)

30. srpna 2011 Vyhledávání Výzkum

Tímto úvodním textem bych rád započal sérii článků, které se budou zabývat sémantickou analýzou textů, a to nejen v kontextu fulltextového vyhledávání.

Sémantickou analýzou zde rozumím identifikaci témat (topiců) textových dokumentů, formální reprezentaci těchto témat a určení tématické podobnosti dvou nebo více dokumentů. Tématem můžeme rozumět např. počasí, sport, cestování apod., často se ale stává, že tématu není možné dát takovouto lidsky srozumitelnou nálepku. Je zřejmé, že za krátký dokument lze považovat i dotaz na fulltextový vyhledávač, proto je možné dále popsané metody použít i pro tematizaci dotazů nebo k určení tématické podobnosti dotazu a dokumentu, a to i v případě, že spolu nesdílí žádná společná slova. Možných aplikací je však celá řada. Díky tematizaci je možné odhalit podobné dokumenty, klasifikovat dokumenty do předem daných tematických kategorií, desambiguovat významy slov apod.

Jedním z nejčastěji používaných modelů pro reprezentaci dokumentů v oblasti information retrieval je díky své jednoduchosti vector space model. V tomto modelu jsou dokumenty nebo dotazy reprezentovány jako body v n-rozměrném prostoru, kde každá dimenze odpovídá nějakému slovu z kolekce dokumentů. Přítomnost slova v konkrétním dokumentu lze potom reprezentovat např. binárně, tedy „1“ v případě, že se slovo v dokumentu nachází, „0“ jinak. Pro názornost si uveďme jednoduchý příklad, převzatý z disertační práce Genevieve Gorrell: Generalized Hebbian Algorithm for Dimensionality Reduction in Natural Language Processing.

Mějme kolekci třech dokumentů (pro zjednodušení je v každém dokumentu právě jedna věta):

the man walked the dog
the man took the dog to the park
the dog went to the park

Jestliže vybereme všechna použitá slova a abecedně je seřadíme, dostaneme následující vektor slov:

[dog, man, park, the, to, took, walked, went]

Pro dané seřazení slov budou potom vektory reprezentující dokumenty vypadat následovně:

[1, 1, 0, 1, 0, 0, 1, 0]
[1, 1, 1, 1, 1, 1, 0, 0]
[1, 0, 1, 1, 1, 0, 0, 1]

Binární reprezentace je jednoduchá a v mnoha případech dostačující. Snadno lze ale navrhnout jiné způsoby reprezentace, které ponesou více informace. Jedním příkladem je TF (term frequency), tedy číslo, vyjadřující počet opakování slova v daném dokumentu. Vektory by potom vypadaly takto:

[1, 1, 0, 2, 0, 0, 1, 0]
[1, 1, 1, 3, 1, 1, 0, 0]
[1, 0, 1, 2, 1, 0, 0, 1]

Tato reprezentace má nevýhodu v tom, že nastavuje vyšší váhu i obecně častým slovům, kterými jsou např. předložky, spojky, sponová a modální slovesa apod. Intuitivně bychom ale chtěli zvýhodnit pouze slova, která se v daném dokumentu vyskytují často, ale zároveň se nevyskytují často v ostatních dokumentech. Matematickým modelem této myšlenky je TF-IDF (term frequency – inverse document frequency). Jedná se o součin již známé TF s IDF, kde IDF je definována jako logaritmus podílu počtu všech dokumentů ku počtu dokumentů, které obsahují dané slovo. Naše vektory vážené pomocí TF-IDF budou vypadat následovně:

[0, 0.18, 0, 0, 0, 0, 0.48, 0]
[0, 0.18, 0.18, 0, 0.18, 0.48, 0, 0]
[0, 0, 0.18, 0, 0.18, 0, 0, 0.48]

Z vektorů je vidět, že slova, která se vyskytovala ve všech dokumentech mají váhu nulovou a naopak slova, která byla unikátní a tedy nesla více informace mají váhu nejvyšší.

V tomto úvodním dílu seriálu jsme si vysvětlili, co rozumíme sémantickou analýzou textů a popsali jeden z nejjednodušších způsobů reprezentace dokumentu ve vektorovém prostoru. Pozorného čtenáře jistě napadne, že takováto reprezentace má celou řadu nevýhod – nezáleží na pořadí slov v dokumentu, u reálných dokumentů budou vektory velice dlouhé a budou obsahovat téměř samé nuly apod. V příštím dílu poukážeme na mnohem podstatnější problémy, ukážeme jak porovnávat dva dokumenty reprezentované ve vektorovém prostoru a připravíme si půdu pro vysvětlení složitějších přístupů.

Sdílet na sítích

Recept na SERP aneb jak vylepšujeme výsledky Vyhledávání na Seznamu

Neustále pracujeme na tom, aby se ve Vyhledávání na Seznamu zobrazovaly co nejlepší výsledky. I proto jsme nedávno nasadili úpravy, které zlepšují relevanci organického hledání. Co se změnilo a z čeho úpravy vycházejí?

Doporučovací systémy podruhé: Dozvíte se, jak je postavena jejich architektura

Veronika Geltner 19. května 2022 Vyhledávání Výzkum

V posledním článku o doporučovacích systémech jsme vyzdvihli schopnost doporučovacích systémů (DS) výrazně zvýšit úroveň nabízených služeb, díky které v posledních letech pronikly do všech oblastí, kde jsou obsah nebo služby nabízeny koncovým uživatelům. Metody strojového učení, které se v DS využívají, jsou ze stejného důvodu předmětem pokročilého výzkumu v mnoha prestižních technologických společnostech. V …

Seznam.cz Vyhledávání se zapojí do protokolu IndexNow

Martin Kirschner 9. prosince 2021 Vyhledávání Výzkum

Uživatelé očekávají, že s pomocí vyhledávače najdou na internetu informace, které zrovna potřebují. Aby však vyhledávač mohl na jejich dotaz správně odpovědět, musí udržovat na svých serverech lokální kopii webu, kde nesmí žádná důležitá webová stránka chybět. Navíc by všechny měly být ve stejném stavu, jako na internetu. Databázi pro vyhledávač tvoří vyhledávací robot, který …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.