16. 3. 2016

O nových URL se dozvídáme už i z Twitteru

Jednou z klíčových činností našeho robota, který spravuje naši databázi internetu, je procházení webu a nacházení nových URL, které stojí za to stáhnout. Seznam vyhledávání má mnoho cest, jak se dozvědět o nových URL. Nejčastěji se o nich dozvídáme tak, že narazíme na neznámou URL jako na odkaz na nové stránce. Včera jsme nasadili nový způsob, jak se o těchto stránkách dozvědět. Sledujeme české tweety (označené za české samotným Twitterem) a zaměřujeme se na odkazy, které lidé sdíleli. Motivací tohoto přístupu je, že když nějaká stránka stojí za to, aby ji někdo sdílel, bude pravděpodobně mít zajímavý obsah. Takto nalezené URL se mohou dostat do hledání v řádech minut. Za včerejší den jsme takto objevili 5 518 URL. Pro srovnání – náš freshbot, procházející hlavně zpravodajské weby, objevil za včerejšek 37 523 URL.