Přejít na obsah

#Robot

(Stránka 3)



Přechod na novější distribuci Hadoopu na výpočetních clusterech robota

26. října 2015

Fulltextový crawler běží od roku 2011 produkčně na Apache Hadoop, systému pro distribuované výpočty na clusterech. V roce 2011 byl produkčně nasazen robot verze 3.0 na distribuci Hadoopu od společnosti Cloudera, tehdy na verzi CDH3. V roce 2013 jsme povyšovali verzi distribuce na CDH4 a letos na podzim probíhá povýšení na CDH5, spolu se správcem …


Nová implementace rychloobrátkového robota

24. srpna 2015

V červnu jsme spustili nového rychloobrátkového robota, tzv. FreshBota. Ten má za úkol navštěvovat stránky a RSS zdroje, kde se objevuje nový zajímavý obsah, zejména novinové články, a ukládat je k nám do databáze, v níž se vyhledávají dotazy uživatelů. Není to úloha pro klasického „velkého“ SeznamBota, který denně navštíví stovky milionů stránek, protože cesta takového množství …


Aktuální informace o indexování https

9. července 2015

V poslední době řada webů přechází z http na https. Jsme rádi, že se tak děje, protože https weby jsou obecně bezpečnější. Tento přechod v současnosti bohužel někdy přináší problémy v řazení výsledků hledání. Na úpravě pracujeme, a proto v tuto chvíli doporučujeme přechod na protokol https prozatím odložit. O vývoji samozřejmě budeme dále informovat. Přechod z http na https …


Stěhování části web-crawlera do nové serverovny

31. března 2015

Seznam.cz spouští vlastní serverovnu v Horních Počernicích, kterou pojmenoval Kokura. Kromě jiných služeb se do ní bude stěhovat i část fulltextového robota. Bude to náročná akce, kdy bude potřeba odpojit, vymontovat, zabalit, převést, vybalit, namontovat, zapojit a překonfigurovat více, než 160 serverů, které obsahují databázi miliard webových stránek. Stěhování je plánované na období od prvního …


Změna User-Agent ze SeznamBot na Mozilla

24. ledna 2014

Robot (crawler) našeho fulltextového vyhledávače se bude webserverům nově hlásit jako „Mozilla“ a nikoliv jako „SeznamBot“. IP adresy a reakce na robots.txt se nezmění. I když dřevní doby internetu, kdy weby zkoumaly User-Agent hlavičku čistě proto, aby mohly uživateli ohlásit, že jeho browser není podporován :-), už jsou asi dávno pryč, tak weby, které vracejí …


Hadoop (2) – základní součásti, souborový systém

23. ledna 2012

V minulém díle jsme si Hadoop představili a nyní se podíváme víc pod kapotu. Prakticky o všem v Hadoopu se dá říct, že to není žádný převratný vynález nebo něco naprosto nepochopitelného. Vše je logickým vyústěním potřeby ukládat velká data a nad nimi provádět distribuované výpočty. Z toho můžeme odvodit i základ Hadoopu:  HDFS – …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

  • za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;
  • za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.

Beru na vědomí