Zlepšení výběru stránek ke crawlování a indexaci

Tým Vyhledávání 4. července 2018 Robot Vyhledávání

Výběr stránek, které SeznamBot crawluje a indexuje, má podobu skórování všech stránek, které SeznamBot zná a jejich následného řazení podle hodnot skóre. V uplynulých týdnech jsme provedli úpravy tohoto skórování, které se projeví následujícími změnami při výběru dokumentů ke crawlování a indexaci.

Lepší predikce kvality stránky podle URL – URL stránky je pro robota jeden ze signálů při rozhodování, zda danou stránku crawlovat, nebo ne – zejména pokud ještě nikdy předtím crawlovaná nebyla a není známo, jak kvalitní obsah na ní očekávat. Nový model predikce kvality stránky z URL umí tuto skutečnost odhadovat mnohem lépe, i jeho výstup má na finální rozhodnutí o (ne)crawlování větší vliv. Změna v nějaké míře zasáhne cca 15 % ze všech URL, které SeznamBot zná.
Větší důležitost URL, které jsou v sitemapě – Zejména u URL z méně populárních a izolovaných webů s malým počtem zpětných odkazů se stala jejich přítomnost v sitemapě pro SeznamBota důležitějším signálem u rozhodování, zda je crawlovat.
Stabilnější indexace stránek s nestabilní návštěvností – Některé stránky jsou navštěvované pravidelně jenom v určitém období (např. o Vánocích, v době nějaké společenské, sportovní nebo jiné události atd.). Zajistili jsme, aby v obdobích ,,sucha“ takové stránky – jedná se o necelé procento ze všech stránek indexovaných během uplynulého roku – byly pořád dohledatelné.

Od těchto změn očekáváme, že povedou ke crawlování a indexaci kvalitních stránek, které doteď v indexu nebyly, nebo se jim nedařilo stabilně se v něm udržet. Zároveň bude zajištěno, že se tak nestane na úkor jiných stránek vysoké kvality.

Tým Vyhledávání

Sdílet na sítích

Big Data Processing API „Euphoria“ publikujeme jako opensource

V posledních letech se množí technologie pro zpracování velkých dat, které přináší zajímavé možnosti využití. Ke zpracování velké dávky dat (batch) se přidaly i možnosti zpracování v reálném čase, kdy data vznikají (stream). Robot vyhledávače zpracovává miliardy uložených webových stránek a zároveň denně stahuje obsah stovek milionů URL z internetu. Vždy hledáme ty nejvhodnější technologie …

Robot rychleji následuje odkazy

Po vylepšeních v rychlosti Freshbota jsme se podívali i na rychlost v tzv. „velkém robotovi“. Ten na rozdíl od Freshbota prochází násobně větší objemy stránek. Robot nyní reaguje dříve na obsah stránky a nová stránka se dostane do indexu dvakrát rychleji. Doposud stránka procházela složitějším zpracováním. Kvůli závislostem trvalo i několik dní od stažení URL než z …

Zvýšili jsme limit velikosti sitemapy na 50MB

Na konci listopadu 2016 se ve standardu sitemap zvedl limit na velikost souboru sitemapy z 10 MB na 50 MB. Od letošního ledna jsme navýšili tento limit i pro zpracování sitemap a sitemap indexů v SeznamBotovi. Limit aplikujeme u komprimované sitemapy až poté, co ji robot rozbalí. Nadále platí, že limit počtu URL v sitemapě …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.