28. 7. 2011

Správny prístup k Sitemapám

Pred mesiacom sme vás informovali o spôsobe používania kanonických URL, s ktorými čiastočne súvisia aj Sitemapy. Ich použitím môžete pomôcť robotovi vo vnímaní vášho webu a spôsobe správania sa pri jeho crawlovaní.

Sitemap je XML súbor obsahujúci informácie o vašich stránkach. Jednoduchý príklad Sitemapy je zoznam URL s dátumom poslednej zmeny dokumentu, frekvenciou zmeny obsahu a prioritou:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/sitemap/0.9">
  <url>
    <loc>http://www.example.com/products</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>http://www.example.com/companies</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://www.example.com/feedback</loc>
    <lastmod> 2009-09-22</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Odporúčania

Prioritou dokumentu by mala byť hodnota v intervale medzi 0 a 1, kde 1 znamená vyššiu prioritu.

Sitemapy odporúčame využiť hlavne v prípadoch, keď stránka obsahuje odkazy napríklad len vo flash aplikácii a robot nie je schopný tieto odkazy nájsť iným spôsobom. Ďalším dôvodom použitia je možnosť povedať robotovi, ktoré z vašich stránok sú dôležitejšie pre obchádzanie robotom a reindexovanie.

Všetky vaše Sitemapy by mali byť uvedené v súbore robots.txt. Pre uloženie zoznamov vašich Sitemap je možné použiť aj tzv. Sitemap Index súbory, môžu však obsahovať len odkazy na Sitemapy z toho istého webserveru. Sitemapy sú XML súbory, náš SeznamBot je však schopný spracúvať aj textové súbory, RSS, alebo Sitemapy a Sitemap Indexy skomprimované gzip metódou. Pri vytváraní Sitemapy sa vyvarujte chybám z nepozornosti, napr. aby stiahnutie Sitemapy nebolo zakázané nejakým iným pravidlom v robots.txt. Sitemapa tiež nesmie porušovať niektoré z pravidiel pre tvorbu Sitemap, napr. musí obsahovať menej ako 50tis. položiek, nekomprimovaná musí mať menej ako 10MB a pod.).

Ďalšie informácie

V budúcnosti plánujeme rozšíriť podporu Sitemap o XML element <delete><url>…</url></delete> pre prípad, že by ste za rozhodli urýchliť odstránenie vášho dokumentu z vyhľadávania. Nateraz môžete tento typ elementu do vašich Sitemap implementovať, o spustení plnej podpory vás budeme informovať.

Ďalšie informácie o Sitemapách nájdete na stránkach nápovědy a na stránkach špecifikácie sitemaps.org. Prípadné otázky, skúsenosti a pripomienky k Sitemapám môžete písať do diskuse pod článkom.

Časté otázky k Sitemapám

  • Může být v robots.txt více Sitemap?
    Ano, dokonce i víc Sitemap Indexů.
  • Co když neuvedu datum?
    URL bude spracúvaná podľa bežných pravidiel.
  • Co když neuvedu prioritu?
    Všetky URL zo Sitemapy budú mať prioritu rovnakú a SeznamBot si určí prioritu sám. Ten istý prípad ako priorita 1 pre každú URL.
  • Jak v Sitemapě vyznačím kanonizaci?
    URL uvedené v Sitemape vníma SeznamBot ako kanonické.
  • Můžu Sitemapu nějak prozradit jenom SeznamBotovi, aby si je nestahovali jiní zákeřní roboti?
    Nie. Tag Sitemap je podľa špecifikácie nezávislý od User-Agent.
  • V jakém formátu může být čas?
    Podľa špecifikácie by mal byť dátum a čas vo formáte W3C Datetime, napr. YYYY-MM-DD.
  • Můžu v Sitemapě používat relativní URL?
    Nie, v Sitemape musia byť uvedené absolútne URL (viď Fulltext nápověda).
  • V jakém kódování může Sitemapa být?
    Všetky hodnoty v Sitemape musia byť escapeované a samotný súbor musí byť v kódovaní UTF-8.