1. 11. 2012

Histogram vyhledávaných dotazů (1)

Setřídíme-li vyhledávané uživatelské fráze podle četnosti hledání sestupně, získáme histogram vyhledávaných dotazů. Z histogramu vyplývá, že existuje malé množství často hledaných frází a velké množství málo zadávaných, které jsou často označovány jako longtail. V tomto článku představíme denní histogram dotazů a některé jeho vlastnosti.

Nejhledanějším dotazem na Seznamu je dotaz facebook, který je vyhledáván přibližně 300000x denně. Následují další navigační dotazy. Z celkového objemu hledání tvoří tyto dotazy nevelkou část hledání, jsou zastoupeny zejména v první desetině histogramu.

Na druhém konci histogramu jsou dotazy, které byly v daném dni zahledány pouze jedenkrát. Tyto dotazy reprezentují přes polovinu dotazů zastoupených v histogramu. Tvoří přibližně 15 % celkového objemu denního hledání.

Dotazy s hledaností 10 představují pomyslné těžiště histogramu. Polovinu veškerého denního hledání tvoří dotazy, které jsou vyhledávány desetkrát a méně (naznačeno na obrázku níže). Zřejmě někde v těchto místech začíná onen často zmiňovaný longtail hledání.

Pokud vás zajímá denní histogram hledání v celé své kráse, můžete se na něj podívat zde. Při výpočtu histogramu jsme jednotlivé dotazy lehce normalizovali (ignorovali jsme velikost písmen, odstranili jsme přebytečné bílé znaky, …). Bez normalizace by byl histogram ještě o něco delší a ještě o něco strmější.

Zajímavé by bylo vypočítat histogram pro delší časový úsek (týden, měsíc) a vzájemně srovnat vlastnosti histogramů. Jsou to možné témata dalších článků tohoto seriálu.