Co znamenají čísla ve statistikách hledání?

12. února 2009 Vyhledávání

Vyjasnění hodnot, které se zobrazují ve statistikách navštěvnosti dotazů u našeho hledání.

Čas od času se na inetu rozjede debata, co vlastně znamenají čísla ve statistikách hledanosti dotazů na Seznamu; jako třeba teď zde. Rozhodl jsem se proto podat vám k tomu výklad, abyste už nemuseli dále tápat :-)

Čísla znamenají průměrný počet hledání konkrétního dotazu za určitou dobu.

Jako „hledání“ se bere zobrazení jedné stránky výsledku, čili pokud uživatel prohlédne první 3 stránky výsledku zobrazí se to jako 3 hledání. V číslech nejsou promítnuty roboti a další automatické scripty.

Dotazy prochází jednoduchou normalizací, aby se setřely rozdíly např. velká/malá písmena. Normalizace je: odstranění diakritiky, převedení na lower case a seřazení slov podle abecedy. Z hlediska statistik jsou tedy všechny dotazy vytvořené ze stejné množiny slov identické (to odpovídá zároveň na otázku, proč jsou slova v tabulce „Nejhledanější dotazy obsahující XY“ seřazena tak podivně). Z hlediska fulltextového vyhledávání jinak samozřejmě na pořadí a tvaru slov závisí.

Statistiky se počítají pro přesnou shodu (započítávají se dotazy tvořené právě zvolenou množinou slov), pro rozšířenou shodu (započítávají se dotazy, které tvoří nadmnožinu právě zvolené množiny slov) a pak se ještě agreguje tabulka nejčastějších rozšíření dotazu.

A teď k tomu co způsobuje nejčastější pochybnosti o věrohodnosti čísel :-) Na stránce statistik jsou zobrazeny dvě různé hodnoty, které se počítají ze dvou různě dlouhých období (tato informace bohužel ze statistik není úplně zřejmá; nějak to zkusíme upravit aby to dál už nemátlo…). Konkrétně:

údaje návštěvnosti pro přesnou a rozšířenou shodu (tabulka napravo od grafu) jsou počítané jako průměr za posledních 60 dní (platí pro oba grafy; je vidět že graf pokrývá přesně 2 měsíce),
tabulka nejčastějších rozšíření dotazů (na stránce statistik dole) je počítaná jako průměr za 14 dní. Sporný je právě první řádek tabulky (šedivě podbarven), který obsahuje průměrný údaj za 60 dní (zkopírované z horních grafů), kdežto zbytek tabulky jsou údaje za 14 dní. Správnější údaj jsme bohužel v tomto místě neměli k dispozici :-(

Čísla se liší tím více, čím dramatičtější změna v návštěvnosti byla v poslední době.

Příklad

Záměrně použiji stejný příklad „valentynské dárky“ jako ve výše zmíněné diskuzi u Michala Kubíčka. Nejprve statistiky návštěvnosti (datum 12. 2. 2009):

graf „přesná shoda“ pro dotaz „valentynské dárky„, průměr 485 hitů/den.
Průměr pro rozšířenou shodu je 895 hitů/den (graf opět podobný).

A teď jaký je rozdíl mezi těmito dvěma údaji pro „valentynske darky“ (pěkné obrázky jsem si vypůjčil z webu Michala Kubíčka):

první řádek (viz předchozí text) jsou průměry za posledních 60 dní. Graf přesné shody pro valentynské dárky ale řiká, že návštěvnost se objevila pouze v poslední době, proto je dlouhodobější průměr tak nízký (hodnota menší jak 100 je indikována ‚-‚).

třetí řádek obsahuje krátkodobé průměry z konce ledna. Indikovaná návštěvnost je tak vysoká, protože „valentynske darky“ tou dobou dosahovaly cca 2000 hitů/den.

Hlavním účelem statistik je poskytnout jednoduše dostupný přehled v trendech návštěvnosti dotazů. Hodnoty se zobrazují pouze na hledacím webu a není z nich odvozováno nic dalšího. My je používáme ke své práci stejně tak jako vy :-)

Alternativní použití našeptávače pro odhad návštěvnosti nelze vůbec doporučit – jím udávané hodnoty dnes už vůbec nesouvisejí s reálnou hledaností. Našeptávač lze použít pouze pro porovnání dvou slov v našeptávači mezi sebou, víc nic.

Sdílet na sítích

Čím se loni Češi bavili? Filmem s Hanou Vagnerovou i námořním muzeem, ukázala data Seznam.cz Vyhledávání

Česká internetová jednička tradičně zveřejnila svoje skokany vyhledávání – výrazy, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Mezi častěji zadané dotazy patřily ty na filmovou a seriálovou tvorbu. Konkrétně této kategorii loni kralovala česko-slovenská komedie s názvem Villa Lucia. Na čelní místo žebříčku více hledaných výrazů týkajících se volnočasových aktivit se probojovalo Námořní muzeum …

Page Quality jako klíč k úspěchu: Co musí mít web, aby si získal důvěru vyhledávačů i uživatelů

Page Quality je jedním z nejdůležitějších faktorů, které rozhodují o viditelnosti vašeho webu ve vyhledávání. Nejde jen o technickou metodu hodnocení, ale o souhrn principů, které určují, jak kvalitní, důvěryhodná a uživatelsky přívětivá vaše stránka skutečně je. Zjistěte, co vše Page Quality ovlivňuje a jak můžete její úroveň zvýšit, abyste posílili pozice svého webu v SERPu i důvěru uživatelů.

Peter Pekarovič & Martin Kirschner: Seznam AI. Technologie, která není jen chytrá, ale hlavně užitečná

Seznam AI je nová generace technologií, která pohání chytré produkty a služby od Seznamu. Díky pokročilé umělé inteligenci dokážeme lépe porozumět našim uživatelům a proměnit běžné používání internetu v příjemnou a zábavnou zkušenost.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.