Vylepšené zpracování robots.txt

23. září 2008 Robot Vyhledávání

Rozšířili jsme robots.txt o možnost omezení rychlosti stahování, použití tagu Allow a několik dalších funkcí.

Při vylepšování robota jsme se dotkli i zpracování robots.txt. SeznamBot nyní z větší části podporuje navrhovaný rozšířený standard a nějakou tu drobnost navíc.

Tag Request-rate – určení maximální rychlosti, s jakou smí robot procházet Vaši doménu. Např. Request-rate: 10/1m znamená, že robot smí stáhnout za minutu maximálně 10 stránek. Toto omezení můžete dokonce specifikovat pro konkrétní čas, Request-rate: 120/60s 1800-0359 robotovi říká, že v době od 20:00 do 05:59 smí stáhnout 120 url za minutu. Čas se uvádí v UTC, proto ta na první pohled podivná čísla.

Tag Allow – výjimka z pravidla Disallow. Může se hodit v případě, že zakážete indexaci nějakého adresáře, ale rozhodnete se povolit jeden z jeho podadresářů. Nezáleží na tom, v jakém pořadí pravidla použijete, robot si vybere pravidlo s delší shodou.

Zápis adresy pomocí bashovského regulárního výrazu – hledá se vždy přesná shoda, tedy nejen shoda na začátku cesty, ovšem s možností použítí zástupných znaků: znak * odpovídá jakékoli sekvenci znaků, ? odpovídá jakémukoli znaku, [abc] odpovídá znaku a, b nebo c, [!ab] jsou všechny znaky kromě a, b. Např. pravidlo Disallow: /clanky/[1234567890]* zakáže zpracování všech článků, začínajících číslem. Tento způsob zpracování robots.txt se použije pouze, pokud uvedete Robot-version: 2.0.

Více hvězdiček u tzv. Seznam syntaxe, která je použita, pokud není uvedeno jinak. Např. Disallow: /*/diskuze/*/ zakáže indexování jednotlivých odpovědí v diskuzi.

Příklad nových robots.txt:

User-agent: SeznamBot
Request-rate: 10/1m 0600-1459
  # 8:00-16:59 středoevr. letního času
Request-rate: 30/1m 1500-0559
  # od 17 hodin až do rána
Disallow: /
Allow: /clanky/
  # povol pouze indexování článků
Disallow: /clanky/diskuze

Podrobné informace najdete v nápovědě.

Sdílet na sítích

Zlepšení výběru stránek ke crawlování a indexaci

Tým Vyhledávání 4. července 2018 Robot Vyhledávání

Výběr stránek, které SeznamBot crawluje a indexuje, má podobu skórování všech stránek, které SeznamBot zná a jejich následného řazení podle hodnot skóre. V uplynulých týdnech jsme provedli úpravy tohoto skórování, které se projeví následujícími změnami při výběru dokumentů ke crawlování a indexaci. Lepší predikce kvality stránky podle URL – URL stránky je pro robota jeden ze …

Big Data Processing API „Euphoria“ publikujeme jako opensource

V posledních letech se množí technologie pro zpracování velkých dat, které přináší zajímavé možnosti využití. Ke zpracování velké dávky dat (batch) se přidaly i možnosti zpracování v reálném čase, kdy data vznikají (stream). Robot vyhledávače zpracovává miliardy uložených webových stránek a zároveň denně stahuje obsah stovek milionů URL z internetu. Vždy hledáme ty nejvhodnější technologie …

Robot rychleji následuje odkazy

Po vylepšeních v rychlosti Freshbota jsme se podívali i na rychlost v tzv. „velkém robotovi“. Ten na rozdíl od Freshbota prochází násobně větší objemy stránek. Robot nyní reaguje dříve na obsah stránky a nová stránka se dostane do indexu dvakrát rychleji. Doposud stránka procházela složitějším zpracováním. Kvůli závislostem trvalo i několik dní od stažení URL než z …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.