WCAG 1.2.3: Audiodeskription oder Medienalternative (aufgezeichnet)

WCAG 1.2.3 verlangt, dass für vorab aufgezeichnete synchronisierte Medien (Video mit Audio) entweder eine Audiodeskription der visuellen Inhalte oder eine vollständige Textalternative bereitgestellt wird, damit Nutzerinnen und Nutzer, die blind sind oder eine Sehbehinderung haben, auf visuell vermittelte Informationen zugreifen können.

Was diese Regel bedeutet

Das WCAG-Erfolgskriterium 1.2.3 befasst sich mit einer der grundlegendsten Barrieren für blinde und sehbehinderte Nutzer beim Konsum von Videoinhalten: dem Verlust visueller Informationen, die nie ausgesprochen werden. Das Kriterium besagt, dass für alle vorab aufgezeichneten synchronisierten Medien – also Videoinhalte, die mit Audio gekoppelt sind – Webautoren entweder eine Audiodeskription der visuellen Spur oder eine vollständige Medienalternative in Textform bereitstellen müssen.

Eine Audiodeskription ist eine zur Audiospur eines Videos hinzugefügte Erzählerstimme, die wichtige visuelle Details beschreibt, die aus der Hauptaudiospur allein nicht verständlich sind. Diese Beschreibungen werden typischerweise in natürliche Pausen im Dialog eingefügt, oder das Video kann kurz angehalten werden, um dem Sprecher Zeit zu geben, komplexe visuelle Ereignisse zu beschreiben. Wenn zum Beispiel ein Schulungsvideo eine Präsentatorin zeigt, die ein Diagramm auf ein Whiteboard zeichnet, ohne es verbal zu kommentieren, würde eine Audiodeskription schildern, was gezeichnet wird und warum es wichtig ist.

Eine vollständige Textalternative für Medien ist ein Dokument, das alle Informationen der synchronisierten Medien – sowohl die Audioinhalte (Dialog, Erzählerstimme, Geräuscheffekte) als auch die visuellen Inhalte (Handlungen, Umgebungen, eingeblendeter Text, Sprecheridentifikation) – in Textform vermittelt. Dies ist eine umfangreichere Version eines Transkripts; sie muss visuelle Ereignisse so präzise beschreiben, dass ein Nutzer, der das Video weder sehen noch hören kann, alle Informationen versteht, die das Video vermittelt.

Dieses Kriterium gilt speziell für vorab aufgezeichnete synchronisierte Medien. Live-Video-Streams werden durch andere Kriterien abgedeckt (1.2.4 für Untertitel), und rein akustische Inhalte fallen unter 1.2.1. Wichtig ist: Wenn die Videospur rein dekorativ ist – zum Beispiel ein animierter Hintergrund, der keine Informationen vermittelt – gilt das Kriterium nicht. Ebenso ist keine zusätzliche Audiodeskription erforderlich, wenn die Audiospur eines Videos bereits alle bedeutungsvollen visuellen Informationen vollständig beschreibt (eine Situation, die manchmal als „äquivalente Audioausgabe“ bezeichnet wird).

Ein Bestehen nach 1.2.3 setzt voraus, dass für jedes vorab aufgezeichnete synchronisierte Medium mindestens eine der folgenden Bedingungen erfüllt ist: Es wird eine Audiodeskription bereitgestellt, oder eine Textalternative, die alle Audio- und visuellen Informationen vermittelt, ist verlinkt oder befindet sich direkt neben dem Medium. Ein Verstoß liegt vor, wenn Videoinhalte bedeutungsvolle visuelle Elemente enthalten – eingeblendeten Text, grafische Daten, Gesichtsausdrücke, die zentrale Emotionen vermitteln, Demonstrationsschritte – die weder durch Audio noch durch eine Textalternative vermittelt werden.

Beachten Sie, dass 1.2.3 eine Anforderung der Stufe A ist und damit die Basiserwartung darstellt. Das robustere Erfolgskriterium 1.2.5 der Stufe AA (Audiodeskription – Vorab aufgezeichnet) verlangt in allen Fällen, in denen sie benötigt wird, Audiodeskriptionen, während 1.2.3 die Textalternative als Ersatz auf Stufe A zulässt.

Warum es wichtig ist

Laut der Weltgesundheitsorganisation haben weltweit etwa 2,2 Milliarden Menschen eine Form von Sehbeeinträchtigung. Für blinde Nutzer sind Videoinhalte ohne Audiodeskription oder Textalternative als Quelle visueller Informationen vollständig unzugänglich. Ein Screenreader kann ankündigen, dass ein Videoelement vorhanden ist, und zugehörige Untertitel vorlesen, aber er kann den visuellen Inhalt der einzelnen Videoframes nicht interpretieren. Ohne Audiodeskription oder Medienalternative entgeht diesen Nutzern schlicht alles, was das Video zeigt, aber nicht sagt.

Betrachten Sie ein konkretes Szenario: Eine türkische E‑Commerce-Plattform veröffentlicht ein Produktdemonstrationsvideo für ein Smart-Home-Gerät. Das Video zeigt eine Präsentatorin, die das Gerät mit einer Smartphone-App koppelt, Menüs auf beiden Bildschirmen durchläuft und Kabel in bestimmte Anschlüsse steckt. Die Erläuterungen der Präsentatorin konzentrieren sich auf die Vorteile des Geräts, beschreiben aber nicht, welche Tasten gedrückt oder welche Menüeinträge ausgewählt werden. Ein blinder Nutzer, der dieses Video mit einem Screenreader ansieht, hört nur die Erläuterungen – er erhält keine der prozeduralen visuellen Informationen, die es ihm ermöglichen würden, die Einrichtung zu Hause nachzuvollziehen. Mit einer Audiodeskription oder einer detaillierten Textalternative erhält dieser Nutzer vollen Zugang zu denselben Anleitungsinhalten.

Über blinde Nutzer hinaus profitieren Nutzer mit kognitiven Beeinträchtigungen von detaillierten Textalternativen, da sie schriftliche Anweisungen möglicherweise leichter verarbeiten als ein schnell ablaufendes Video. Sie kommen auch Nutzern in bandbreitenbeschränkten Umgebungen zugute, die keine Videos streamen können, Nutzern in Firmennetzen, in denen Videos blockiert sind, und Nutzern, deren Geräte oder Browser bestimmte Videoformate nicht unterstützen. Suchmaschinen indexieren ebenfalls Textalternativen, was bedeutet, dass deren Bereitstellung die SEO verbessert, indem Videoinhalte über Volltextsuche auffindbar werden – ein bedeutender geschäftlicher Vorteil zusätzlich zum Barrierefreiheitsnutzen.

Für motorisch beeinträchtigte Nutzer, die Videosteuerungen nicht präzise bedienen können, ermöglicht eine Textalternative, die Inhalte in ihrem eigenen Tempo zu konsumieren, ohne mit Pause-, Rückspul- oder Wiedergabesteuerungen kämpfen zu müssen. Kurz gesagt: Audiodeskriptionen und Medienalternativen dienen einer breiten Nutzergruppe und verbessern die Gesamtqualität und Reichweite von Videoinhalten weit über diejenigen hinaus, die sie strikt für den Zugang benötigen.

Wie man testet

Automatisierter Scan als Basis: Führen Sie axe DevTools oder Google Lighthouse auf der Seite mit dem Video aus. Auch wenn keines der beiden Werkzeuge einen Verstoß gegen 1.2.3 direkt kennzeichnet, kann der Scan verwandte Probleme aufzeigen, etwa fehlende <track>-Elemente (unter 1.2.2 für Untertitel gemeldet) oder fehlende Textalternativen für bildbasierte Medien. Notieren Sie alle Videoelemente auf der Seite, damit Sie wissen, welche einer manuellen Prüfung nach 1.2.3 bedürfen.
Synchronisierte Medien identifizieren: Lokalisieren Sie jedes <video>-Element (oder eingebettete Drittanbieter-Player wie YouTube- oder Vimeo-iframes) auf der Seite. Bestätigen Sie, ob jedes Video vorab aufgezeichnet und synchronisiert ist (d. h. ob es sowohl Audio- als auch Videospuren mit sinnvollem Inhalt hat). Wenn ein Video nur Audio enthält oder eine dekorative Videospur hat, fällt es nicht in den Anwendungsbereich von 1.2.3.
Video mit eingeschaltetem Ton ansehen: Sehen Sie sich das Video normal an und achten Sie genau auf Informationen, die visuell vermittelt, aber im Audio nicht beschrieben werden. Häufige Beispiele sind: eingeblendete Text-Overlays, gezeichnete Diagramme oder Charts, Schritt-für-Schritt-Demonstrationen eines physischen Prozesses, Gesichtsausdrücke oder Körpersprache mit emotionaler Bedeutung sowie Sprecheridentifikation, wenn mehrere Personen im Bild sind.
Auf eine Audiodeskriptionsspur prüfen: Untersuchen Sie das Markup des Videoelements auf ein <track kind='descriptions'>-Element. Falls vorhanden, aktivieren Sie die Beschreibungen im Videoplayer (oder verwenden Sie einen Browser, der sie zugänglich macht) und sehen Sie sich das Video erneut an. Verifizieren Sie, dass jedes bedeutungsvolle visuelle Ereignis, das in Schritt 3 identifiziert wurde, in der Audiodeskriptionsspur zum passenden Zeitpunkt beschrieben wird.
Auf eine vollständige Textalternative prüfen: Wenn keine Audiodeskriptionsspur vorhanden ist, suchen Sie nach einem Link zu einem Transkript oder einer vollständigen Medienalternative in unmittelbarer Nähe des Videos oder direkt danach. Bestätigen Sie, dass das verlinkte Dokument oder der eingebettete Text alle Audioinhalte (Dialog, Erzählerstimme, relevante Geräuscheffekte) und alle visuellen Inhalte (Handlungen, eingeblendeter Text, Umgebungsbeschreibungen, Sprecheridentifikation) beschreibt.
Screenreader-Verifizierung (NVDA + Firefox): Öffnen Sie die Seite mit aktiviertem NVDA. Navigieren Sie zum Videoelement und bestätigen Sie, dass NVDA das Vorhandensein des Videos und alle zugehörigen Steuerelemente ankündigt. Wenn eine Textalternative inline oder über einen Link bereitgestellt wird, navigieren Sie dorthin und bestätigen Sie, dass NVDA den gesamten Inhalt ohne Auslassungen vorliest. Hinweis: NVDA kann den visuellen Inhalt der Videoframes nicht lesen, was unterstreicht, warum der menschliche Vergleich in Schritt 3 unerlässlich ist.
Screenreader-Verifizierung (VoiceOver + Safari auf macOS): Aktivieren Sie VoiceOver und navigieren Sie zum Video. Verwenden Sie den Rotor von VoiceOver, um das Videoelement und alle zugehörigen Track- oder Link-Elemente zu finden. Bestätigen Sie, dass die Beschreibungsspur, falls vorhanden, über die Mediensteuerungen von Safari zugänglich ist.
Drittanbieter-Player: Prüfen Sie bei YouTube-Einbettungen, ob das Video eine Version mit Audiodeskription hat (oft ein separates Video, das in der Beschreibung verlinkt ist) oder ob ein zugehöriges Transkript verfügbar und auf der einbettenden Seite verlinkt ist. Prüfen Sie bei Vimeo die Barrierefreiheitseinstellungen des Videos. Drittanbieter-Player erfüllen 1.2.3 nicht automatisch – die Seitenautoren sind dafür verantwortlich, dass eine Alternative bereitgestellt oder verlinkt wird.

Wie man es behebt

Szenario 1: HTML5-Video ohne Audiodeskription – Falsch

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Szenario 1: HTML5-Video mit Audiodeskriptionsspur – Richtig

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Szenario 2: HTML5-Video ohne Textalternative – Falsch

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Szenario 2: HTML5-Video mit vollständiger Medienalternative – Richtig

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Szenario 3: YouTube-Einbettung ohne ergänzende Alternative – Falsch

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Szenario 3: YouTube-Einbettung mit verlinkter Textalternative – Richtig

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Szenario 4: Video, dessen Audio bereits alle visuellen Inhalte beschreibt (Ausnahme) – Richtig

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Häufige Fehler

Bereitstellung von Untertiteln statt einer Audiodeskription: Untertitel transkribieren die gesprochene Audioausgabe für gehörlose Nutzer; sie beschreiben keine visuellen Informationen für blinde Nutzer. Das Hinzufügen eines <track kind='captions'>-Elements erfüllt 1.2.2, aber nicht 1.2.3. Es handelt sich um zwei separate Anforderungen, die zwei unterschiedliche Behinderungsgruppen adressieren.
Verlinkung eines Transkripts, das nur den Dialog abdeckt: Eine Textalternative für 1.2.3 muss alle bedeutungsvollen visuellen Inhalte beschreiben – eingeblendeten Text, Diagramme, physische Handlungen, Sprecheridentifikation – nicht nur das Gesprochene. Ein Transkript, das nur das Skript enthält, verstößt typischerweise gegen dieses Kriterium, wenn das Video rein visuelle Informationen enthält.
Platzierung des Links zur Textalternative weit entfernt vom Video: Wenn die vollständige Medienalternative in einer Fußnote versteckt oder auf einer separaten Seite ohne klaren, angrenzenden Link liegt, finden Nutzer sie möglicherweise nicht. Der Link sollte unmittelbar vor oder nach dem Videoelement erscheinen, damit Screenreader-Nutzer ihn in der natürlichen Lesereihenfolge vorfinden.
Die Annahme, dass YouTubes automatisch generiertes Transkript das Kriterium erfüllt: Automatisch generierte YouTube-Transkripte decken nur die gesprochene Audioausgabe ab. Sie beschreiben keine visuellen Inhalte und sind oft ungenau. Sie stellen keine ausreichende vollständige Medienalternative im Sinne von 1.2.3 dar.
Verwendung eines <track kind='descriptions'>-Elements mit leerer oder unvollständiger VTT-Datei: Das bloße Vorhandensein des Track-Elements ist nicht ausreichend; die VTT-Datei muss genaue, zeitlich passende Beschreibungen aller bedeutungsvollen visuellen Ereignisse enthalten. Eine leere oder nur rudimentäre VTT-Datei erfüllt das Kriterium nicht.
Versäumnis, eingeblendete Text-Overlays zu beschreiben: Marketingvideos zeigen häufig Statistiken, Produktnamen oder Call-to-Action-Texte als animierte Overlays. Wenn diese Overlays nicht von einer Sprecherin vorgelesen werden, müssen sie in der Audiodeskription oder der Textalternative erscheinen – Autoren übersehen sie häufig.
Zu vage formulierte Audiodeskriptionen: Beschreibungen wie „die Präsentatorin demonstriert den Prozess“ sind unzureichend. Effektive Beschreibungen benennen konkrete Handlungen, Interface-Elemente, Farben, sofern bedeutungsvoll, und räumliche Beziehungen: „Die Präsentatorin klickt auf die rote Schaltfläche ‚Löschen‘ auf der rechten Seite der Symbolleiste und bestätigt anschließend, indem sie im Dialogfeld ‚OK‘ auswählt.“
Keine Alternative für automatisch abspielende oder Hintergrundvideos mit Informationsgehalt bereitstellen: Ein Video, das automatisch abgespielt wird und wichtige Informationen zeigt (z. B. ein Hero-Bereich mit Produktmerkmalen und Text-Overlays), ist dennoch synchronisiertes Medium und erfordert Konformität, wenn es bedeutungsvolle Inhalte vermittelt.
Dekorative Videos als ausgenommen behandeln, ohne dies zu verifizieren: Teams bezeichnen ein Video manchmal als „dekorativ“, um die Anforderung zu umgehen, selbst wenn es tatsächlich Produktinformationen oder Anleitungsinhalte vermittelt. Die dekorative Ausnahme gilt nur, wenn das Video wirklich keine bedeutungsvollen Informationen über das hinaus liefert, was bereits im angrenzenden Text verfügbar ist.
Versäumnis, Audiodeskription oder Textalternative zu aktualisieren, wenn das Video aktualisiert wird: Wenn sich der Videoinhalt ändert – etwa wenn Produktschritte überarbeitet oder Preisdaten aktualisiert werden – müssen Audiodeskription und Textalternative entsprechend angepasst werden. Veraltete Alternativen stellen einen Konformitätsverstoß dar, selbst wenn die ursprünglichen Alternativen korrekt waren.

Bezug zu den Barrierefreiheitsvorschriften der Türkei

Die Präsidialverfügung 2025/10 der Türkei, veröffentlicht im Amtsblatt Nr. 32933 am 21. Juni 2025, legt verbindliche Web-Barrierefreiheitsstandards für eine breite Palette öffentlicher und privater Einrichtungen fest, die in der Türkei tätig sind. Die Verfügung verweist auf international anerkannte Barrierefreiheitsstandards, wobei WCAG 2.2 Stufe A und Stufe AA als technische Grundlage für die Konformität dienen. Da WCAG 1.2.3 eine Anforderung der Stufe A ist, gehört sie zu den grundlegendsten Verpflichtungen unter der Verfügung – es gibt kein niedrigeres Konformitätsniveau, das es Organisationen erlauben würde, sie zu ignorieren.

Die Verfügung umfasst eine breite Palette von Einrichtungstypen. Öffentliche Institutionen und staatliche Stellen – einschließlich Ministerien, Kommunen, staatlicher Universitäten und anderer öffentlicher Behörden – müssen innerhalb von einem Jahr nach Veröffentlichung der Verfügung Konformität erreichen. Zu den von der Verfügung erfassten privaten Sektorunternehmen gehören E‑Commerce-Plattformen, Banken und Finanzinstitute, Krankenhäuser und private Gesundheitsdienstleister, Telekommunikationsunternehmen mit 200.000 oder mehr Abonnenten, lizenzierte Reisebüros, private Transportunternehmen und Privatschulen, die vom Bildungsministerium (MoNE) zugelassen sind. Diese privaten Organisationen haben zwei Jahre ab dem Veröffentlichungsdatum, um Konformität zu erreichen.

Für jede erfasste Einrichtung, die Videoinhalte veröffentlicht – was heute praktisch jede große türkische Institution und jedes große Unternehmen einschließt – schafft WCAG 1.2.3 eine konkrete, durchsetzbare Verpflichtung. Eine Bank, die Videotutorials zur Nutzung ihrer mobilen App veröffentlicht, ein öffentliches Krankenhaus, das Videoanleitungen zur Patientenregistrierung bereitstellt, ein Telekommunikationsanbieter, der Werbevideos mit eingeblendeten Tarifvergleichen teilt, oder eine E‑Commerce-Website, die Produktdemonstrationsvideos einbindet, müssen alle sicherstellen, dass jedes vorab aufgezeichnete synchronisierte Medium von einer Audiodeskription oder einer vollständigen Textalternative begleitet wird.

Nichtkonformität mit den Anforderungen der Verfügung kann zu behördlicher Prüfung und Reputationsschäden führen und – mit zunehmender Reife der Durchsetzung digitaler Barrierefreiheit in der Türkei – zu rechtlichen Risiken für erfasste Einrichtungen. Organisationen sollten WCAG 1.2.3 nicht als optionale Verbesserung, sondern als grundlegende rechtliche Verpflichtung betrachten. Praktisch bedeutet dies, ein Inventar aller Videoinhalte zu erstellen, zu bewerten, welche Videos rein visuelle Informationen enthalten, und systematisch Audiodeskriptionen oder vollständige Textalternativen für alle entsprechenden Videos zu produzieren. Neue Videoproduktions-Workflows sollten Barrierefreiheitsartefakte – Beschreibungsskripte und Textalternativen – als Standardausgaben neben Untertiteln und Übersetzungen vorsehen.