#Robot
(Stránka 5)
Jak funguje SeznamBot/3.0
Třetí generace SeznamBota už se intenzivně testuje, chcete vědět, co je uvnitř? Nový robot dostal do vínku současnou ostrou databázi, kterou už 2 měsíce občerstvuje, donedávna ji však dále nerozšiřoval. Od minulého týdne si sám hledá i nové dokumenty, vybírá ty, které se mu zdají zajímavé. Z nacrawlovaných dat vyrábí hledací databázi a výsledky již …
Další verze crawleru
SeznamBot/3.0 vyráží na obhlídku českého internetu. Už je to hodně dlouho, co jsme naposledy představili nějakou novinku kolem fulltextového robota. Není to tak, že by na něj sedal prach a špína, běžné údržbě jsme se věnovali neustále. Podnětů ke zlepšení jsme sice měli mnoho, jenže realizace na staré platformě byla většinou krkolomná. Z tohoto důvodu …
Nová zbraň pro boj s duplicitním obsahem
Jak princ v pohádce poznal, která princezna je ta pravá, když vypadaly všechny stejně? Taky mu někdo napověděl! Světové vyhledávače Google, Yahoo a MSN Live ohlásily minulý týden podporu nové funkčnosti v HTML, jež umožňuje vyhledávači v případě skupiny velmi podobných stránek na Vašem webu napovědět, která stránka z této mnoziny je ta preferovaná. Příkladem …
Podpora GEO-mikroformátu
U stránek s „geotagem“ se bude ve výsledcích vyhledávání nyní zobrazovat odkaz pro zobrazení místa na mapě. Pomocí tzv. mikroformátů (viz microformats.org) lze na stránkách přisoudit některým textům sémantickou hodnotu tak, aby byly strojově rozpoznatelné a měly definovaný význam. Mikroformátů je celá řada, každý slouží pro jiný druh údaje. Asi nejpoužívanějším je tzv. hCard, který se používá jako …
Vylepšené zpracování robots.txt
Rozšířili jsme robots.txt o možnost omezení rychlosti stahování, použití tagu Allow a několik dalších funkcí. Při vylepšování robota jsme se dotkli i zpracování robots.txt. SeznamBot nyní z větší části podporuje navrhovaný rozšířený standard a nějakou tu drobnost navíc.