22. 9. 2010

Další verze crawleru

SeznamBot/3.0 vyráží na obhlídku českého internetu.

Už je to hodně dlouho, co jsme naposledy představili nějakou novinku kolem fulltextového robota. Není to tak, že by na něj sedal prach a špína, běžné údržbě jsme se věnovali neustále. Podnětů ke zlepšení jsme sice měli mnoho, jenže realizace na staré platformě byla většinou krkolomná. Z tohoto důvodu jsme se rozhodli k radikálnímu řezu, celou původní architekturu jsme opustili a přistoupili ke zcela novému pohledu na problematiku.

Že by to chtělo napsat a navrhnout všechno hezky znova od začátku jsme si již před časem řekli, síly a kapacity pro takový úkol jsme dali dohromady letos na jaře. A vida, už se chystáme ho vypustit ven. Nějaký čas ho ještě budeme ladit a až se bude chovat mravně, nahradí současného robota. Na Vaše weby se bude hlásit jako “SeznamBot/3.0-alpha”, pokud by páchal nějakou neplechu, neváhejte nám dát vědět.

Pokud si říkáte, že s tím hodně naděláme, vězte že se nejedná jen o přepracování nějakého pavouka stahujícího obsah webu, jedná se o přechod na zcela odlišnou technologii poskytující úplně jiné možnosti pro práci s nasbíranými daty. Ty se ukládají do úložiště typu NoSQL a nad daty pracuje Map/Reduce framework. Pokud Vám tyto technologie nic neříkají, dozvíte se více v dalším zápise.

PS: hledáme posily do Brna, Prahy a Českých Budějovic