Vylepšení komponenty pro zpracování dotazu

26. května 2018 Vyhledávání

Na vyhledávání brzy nasadíme novou komponentu pro zpracování dotazu. Zpracování dotazu je fáze, která probíhá těsně po zadání dotazu do vyhledávání a předchází tak všem následujícím vyhledávacím procesům (např. vyhledání webových stránek v indexu). Účelem zpracování dotazu je mj. opravit v dotaze případné překlepy, přidat k němu další relevantní slova a pochopit z něj, s jakou potřebou se uživatel na naše vyhledávání obrátil.

Hlavním cílem projektu byla inovace technologie a rozšíření možností dalšího rozvoje fulltextového vyhledávání, nikoli změna aktuální funkčnosti. Výsledky by tedy měly být víceméně podobné, nicméně změna postupů nakonec u některých dotazů odlišnosti přinese.

Relevance nově

Role zpracování dotazu

Obecně dělíme úlohu zpracování dotazu na následující části:

1) Oprava dotazu

Abychom s dotazem mohli dále smysluplně pracovat, je potřeba v něm rozpoznat případné překlepy, popř. doplnit chybějící diakritiku.

2) Analýza dotazu

Zajímá nás, jaký má dotaz téma a jaké entity se v něm vyskytují. Například v dotazu [helena vondráčková dlouhá noc] nalezneme zpěvačku [helena vondráčková] a píseň [dlouhá noc]. Fulltextovému vyhledávání pomůže hlavně informace, že je výhodné hledat poblíž sebe slova [helena vondráčková] nebo [dlouhá noc], zatímco [vondráčková dlouhá] už méně.

3) Expanze dotazu

K dotazu přidáváme další slova, jež se mohou vyskytovat v dokumentech, které jsou pro uživatele zajímavé. V této fázi například hledáme synonyma, rozvíjíme a kontrahujeme zkratky, ale také skloňujeme zadaná jména do jiných pádů atp. Nově tyto expanze nepřidáváme k jednotlivým slovům jako dosud, ale ke smysluplným souslovím. Srov. např. skloňování dotazu [záhada hlavolamu]:

Původní verze: [záhada, záhady, záhadě…]; [hlavolam, hlavolamu, hlavolamem…]

Nová verze: [záhada hlavolamu, záhady hlavolamu, záhadě hlavolamu…]

Důsledky změn

Se změnou postupů uvnitř vyhledávače se změnily i některé signály, na jejichž základě se počítá relevance, a proto bylo potřeba znovu „přeučit“ a naladit relevanční model, který určuje řazení výsledků. Další informace o nedávné větší změně v relevančním modelu naleznete zde.

Další změna, kterou mohou uživatelé postřehnout, je úprava syntaxe operátoru not. Z původního tvaru zápisu se znaménkem mínus [liška -šelma] (vyhledá dokumenty se slovem liška, které zároveň neobsahují slovo šelma) přecházíme na zápis, který je podobný dalším operátorům [liška not:šelma]. Důvodem ke změně jsou výsledky našich analýz, jež ukázaly, že operátor not dosud naši uživatelé psali do dotazů spíše nezáměrně. Změna je platná i pro složeniny, kdy se mínus používalo v kombinaci s dalšími operátory (jako třeba -site:…, -intitle:…). Nově tedy stejné funkčnosti docílíte využitím operátorů notsite, nothost, notintitle, notinurl a dalších.

Veškeré změny, které brzy nasadíme do produkce, si můžete vyzkoušet již nyní na https://hledani.sbeta.cz/. Za vaši zpětnou vazbu budeme rádi.

Sdílet na sítích

Co hýbe Českem? Ceny benzínu, elektroauta i kanystry, ukazují analýzy vybraných služeb společnosti Seznam.cz

Uživatelé v Česku na portálu Sauto.cz nejčastěji vyhledávají automobily spalující benzín*. Současná situace na trhu s palivy ale mnoho lidí, podle dat Seznam.cz Vyhledávání, podněcuje k většímu zájmu o elektroauta. Roste také počet dotazů na ceny benzínu, zejména na čerpacích stanicích Ono. Na Zboží.cz mají lidé větší zájem o kanystry, většinou o ty o objemu 20 litrů. Podíváme-li …

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.