Pred mesiacom sme vás informovali o spôsobe používania kanonických URL, s ktorými čiastočne súvisia aj Sitemapy. Ich použitím môžete pomôcť robotovi vo vnímaní vášho webu a spôsobe správania sa pri jeho crawlovaní.
Sitemap je XML súbor obsahujúci informácie o vašich stránkach. Jednoduchý príklad Sitemapy je zoznam URL s dátumom poslednej zmeny dokumentu, frekvenciou zmeny obsahu a prioritou:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/sitemap/0.9">
<url>
<loc>http://www.example.com/products</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/companies</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://www.example.com/feedback</loc>
<lastmod> 2009-09-22</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Odporúčania
Prioritou dokumentu by mala byť hodnota v intervale medzi 0 a 1, kde 1 znamená vyššiu prioritu.
Sitemapy odporúčame využiť hlavne v prípadoch, keď stránka obsahuje odkazy napríklad len vo flash aplikácii a robot nie je schopný tieto odkazy nájsť iným spôsobom. Ďalším dôvodom použitia je možnosť povedať robotovi, ktoré z vašich stránok sú dôležitejšie pre obchádzanie robotom a reindexovanie.
Všetky vaše Sitemapy by mali byť uvedené v súbore robots.txt. Pre uloženie zoznamov vašich Sitemap je možné použiť aj tzv. Sitemap Index súbory, môžu však obsahovať len odkazy na Sitemapy z toho istého webserveru. Sitemapy sú XML súbory, náš SeznamBot je však schopný spracúvať aj textové súbory, RSS, alebo Sitemapy a Sitemap Indexy skomprimované gzip metódou. Pri vytváraní Sitemapy sa vyvarujte chybám z nepozornosti, napr. aby stiahnutie Sitemapy nebolo zakázané nejakým iným pravidlom v robots.txt. Sitemapa tiež nesmie porušovať niektoré z pravidiel pre tvorbu Sitemap, napr. musí obsahovať menej ako 50tis. položiek, nekomprimovaná musí mať menej ako 10MB a pod.).
Ďalšie informácie
V budúcnosti plánujeme rozšíriť podporu Sitemap o XML element <delete><url>…</url></delete> pre prípad, že by ste za rozhodli urýchliť odstránenie vášho dokumentu z vyhľadávania. Nateraz môžete tento typ elementu do vašich Sitemap implementovať, o spustení plnej podpory vás budeme informovať.
Ďalšie informácie o Sitemapách nájdete na stránkach nápovědy a na stránkach špecifikácie sitemaps.org. Prípadné otázky, skúsenosti a pripomienky k Sitemapám môžete písať do diskuse pod článkom.
Časté otázky k Sitemapám
- Může být v robots.txt více Sitemap?
Ano, dokonce i víc Sitemap Indexů.
- Co když neuvedu datum?
URL bude spracúvaná podľa bežných pravidiel.
- Co když neuvedu prioritu?
Všetky URL zo Sitemapy budú mať prioritu rovnakú a SeznamBot si určí prioritu sám. Ten istý prípad ako priorita 1 pre každú URL.
- Jak v Sitemapě vyznačím kanonizaci?
URL uvedené v Sitemape vníma SeznamBot ako kanonické.
- Můžu Sitemapu nějak prozradit jenom SeznamBotovi, aby si je nestahovali jiní zákeřní roboti?
Nie. Tag Sitemap je podľa špecifikácie nezávislý od User-Agent.
- V jakém formátu může být čas?
Podľa špecifikácie by mal byť dátum a čas vo formáte W3C Datetime, napr. YYYY-MM-DD.
- Můžu v Sitemapě používat relativní URL?
Nie, v Sitemape musia byť uvedené absolútne URL (viď Fulltext nápověda).
- V jakém kódování může Sitemapa být?
Všetky hodnoty v Sitemape musia byť escapeované a samotný súbor musí byť v kódovaní UTF-8.