Strukturovaná data a jejich zpracování ve Vyhledávání – 1. díl.

2. srpna 2021

Znáte strukturovaná data? Víte, co to vlastně je, co umí a proč byste je měli chtít využívat? Od toho jsme tu my a náš nový čtyřdílný seriál, který vám o strukturovaných datech řekne vše, co jste třeba ještě nevěděli. V prvním dílu vám představíme typy těchto dat a jejich využití. 

Co vlastně strukturovaná data jsou? Jde o  metadata, která pomáhají pochopit význam informací na nějaké webové stránce. Když se na webovou stránku podívá člověk, většinou hned ví, o čem stránka je a jaký význam informace na ní mají. Pokud se ale na stránku podívá stroj (například náš Seznambot), informace o významu mu často unikají. Díky strukturovaným datům mohou i stroje pochopit význam informací a tyto informace se poté mohou dále využít. 

Typy strukturovaných dat

Existuje několik typů strukturovaných dat, které se od sebe liší zejména způsobem, jakým se zapisují do zdrojového kódu stránky. Dva základní typy jsou schema.org a Open Graph. S těmito dvěma typy pracujeme i u nás v Seznamu. Bohužel momentálně neexistuje žádný vyloženě standardizovaný přístup ke strukturovaným datům, což vede k úskalím v rámci jejich zpracování. Oba typy  sice poskytují šablony, dle kterých se strukturovaná data mají správně vyplňovat, ale už neexistuje žádná jistota, že je administrátoři webu opravdu správně vyplní.

Schema.org

Schema.org je kolaborativní komunitní projekt, který má za cíl vytvářet, standardizovat a udržovat schémata pro vyplňování strukturovaných dat. Velké množství stránek na internetu se řídí právě tímto standardem. Na stránce projektu lze najít konkrétní schémata pro konkrétní potřebu. Například, když chceme popsat produkt, událost, knihu nebo film. 

Příklad:

Jsem administrátor webové stránky o filmu Rocky. Na stránce mám informace o tom, kdy byl film natočen, kdo tam hrál, kdo film režíroval, do jakého žánru film spadá atd. Tyto informace potřebuji nějakým způsobem strukturovat, aby byly čitelné a srozumitelné i pro stroje. 

  1. Podívám se na stránky schema.org, jestli existuje nějaké konkrétní schéma pro film (Movie).
  2. Vidím, že ano.
  3. Do stránky přidám dle standardu schema.org kus zdrojového kódu, který bude Rockyho popisovat:
<script type="application/ld+json">
    {
        "@context": "https://schema.org",
        "@type": "Movie",
        "name": "Rocky",
        "genre": ["Drama", "Sport"],
        "actor": [
{ "@type": "Person", "name": "Sylvester Stallone" },
     { "@type": "Person", "name": "Talia Shire" },
     { "@type": "Person", "name": "Burt Young" }
        ],
        "director": [{ "@type": "Person", "name": "John G. Avildsen" }],
        "reviewRating": { "@type": "Rating", "worstRating": 1, "bestRating": 10, "ratingValue": 9 }
        },
   "datePublished":"1976-12-03",
        "duration": "PT2H"
    }
</script>

Open Graph

Tento standard byl poprvé zaveden Facebookem v roce 2010. Vyplněním OG tagů se stránka zapojí do „sociálního grafu internetu”. Standard nabízí daleko méně možností než schema.org. Ve Vyhledávání ho používáme zejména pro stahování obrázkových náhledů pro produkty, články či videa.

Příklad:

Jsem administrátor webové stránky o filmu Rocky. Na stránce mám jméno filmu a jeho popis. Tyto informace potřebuji nějakým způsobem strukturovat, aby byly čitelné a srozumitelné i pro stroje.

  1. Podívám se na stránky Open Graph, zda existuje nějaké schéma pro film (Movie).
  2. Vidím, že ano.
  3. Do stránky přidám dle standardu OG kus zdrojového kódu, který bude Rockyho popisovat:
<meta property="og:description" content="A small-time boxer gets a supremely rare chance to fight a heavyweight champion...“/>

Jak je vidět z příkladů, Open Graph disponuje daleko menším počtem možností popisu filmu, než schema.org. Navíc lze přes Open Graph definovat jen jeden typ, zatímco jedna stránka může obsahovat více schema.org struktur. 

Využití strukturovaných dat ve Vyhledávání

Strukturovaná data využíváme momentálně hlavně při tvorbě tzv. rozšířených snippetů. Snippet je krátký úryvek ze stránky, který jí reprezentuje ve výsledcích vyhledávání. 

Klasický snippet má tyto části:

  • Titulek
  • URL
  • Popisek

Rozšířený snippet má tyto části:

  • Titulek
  • URL
  • Popisek
  • Informace ze strukturovaných dat

Ve Vyhledávání aktuálně rozlišujeme následující typy rozšířených snippetů:

  • Produktové – rozšířené o obrázek, cenu, hodnocení, skladovost, hodnocení e-shopu nebo jejich libovolnou kombinaci.
  • Článkové – rozšířené o datum publikace a autora
  • Videa – rozšířené o datum publikace, autora a počet shlédnutí

Každému typu bude věnován speciální článek na našem blogu, který bude obsahovat mimo jiné návod na to, jak strukturovaná data správně vyplnit, aby se zobrazovala v našich snippetech.

Sdílet na sítích