Hledání slov obsahujících znaky +, §, &, atd.

26. listopadu 2008 Vyhledávání

Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L’Oreal a pod.

V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.

Obrázek zdroj austinlinks.com

Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.

Některé příklady:

c++; dříve se hledalo jen samotné „c“
§ 200; dříve s hledalo jen 200
m&t; dříve se hledalo jako dvě rozdělená slova

Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.

Sdílet na sítích

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Peter Pekarovič & Martin Kirschner: Seznam AI. Technologie, která není jen chytrá, ale hlavně užitečná

Seznam AI je nová generace technologií, která pohání chytré produkty a služby od Seznamu. Díky pokročilé umělé inteligenci dokážeme lépe porozumět našim uživatelům a proměnit běžné používání internetu v příjemnou a zábavnou zkušenost.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.