WCAG 1.2.3 : Audiodescription ou alternative aux médias (préenregistré)

WCAG 1.2.3 exige que les médias synchronisés préenregistrés (vidéo avec audio) fournissent soit une audiodescription du contenu visuel, soit une alternative textuelle complète, afin de garantir que les personnes aveugles ou malvoyantes puissent accéder aux informations transmises visuellement.

Ce que signifie cette règle

Le critère de succès 1.2.3 des WCAG traite l’un des obstacles les plus fondamentaux pour les personnes aveugles et malvoyantes qui consomment du contenu vidéo : la perte d’informations visuelles qui ne sont jamais exprimées à voix haute. Le critère stipule que pour tous les médias synchronisés préenregistrés — c’est-à-dire le contenu vidéo associé à de l’audio — les auteurs de contenus web doivent fournir soit une audiodescription de la piste visuelle, soit une alternative intégrale au média sous forme de texte.

Une audiodescription est une narration ajoutée à la piste audio d’une vidéo qui décrit les détails visuels importants qui ne peuvent pas être compris à partir de l’audio principal seul. Ces descriptions sont généralement insérées pendant les pauses naturelles dans le dialogue, ou la vidéo peut être momentanément mise en pause pour laisser au narrateur le temps de décrire des événements visuels complexes. Par exemple, si une vidéo de formation montre un présentateur dessinant un schéma sur un tableau blanc sans le commenter verbalement, une audiodescription décrira ce qui est dessiné et pourquoi cela est important.

Une alternative textuelle intégrale pour les médias est un document qui transmet toutes les informations présentes dans le média synchronisé — à la fois le contenu audio (dialogue, narration, effets sonores) et le contenu visuel (actions, décors, texte à l’écran, identification des intervenants) — sous forme de texte. Il s’agit d’une version plus étendue d’une transcription ; elle doit décrire les événements visuels avec suffisamment de précision pour qu’un utilisateur qui ne peut ni voir ni entendre la vidéo puisse comprendre toutes les informations que la vidéo communique.

Ce critère s’applique spécifiquement aux médias synchronisés préenregistrés. Les flux vidéo en direct sont traités par d’autres critères (1.2.4 pour les sous-titres), et le contenu audio seul est couvert par 1.2.1. Il est important de noter que si la piste vidéo est purement décorative — par exemple, un arrière-plan animé qui ne transmet aucune information — le critère ne s’applique pas. De même, si la piste audio d’une vidéo décrit déjà entièrement toutes les informations visuelles significatives (une situation parfois appelée « audio équivalente »), aucune audiodescription supplémentaire n’est requise.

Pour satisfaire au critère 1.2.3, il faut qu’au moins l’une des conditions suivantes soit remplie pour chaque média synchronisé préenregistré : une audiodescription est fournie, ou une alternative textuelle qui transmet toutes les informations audio et visuelles est liée ou directement adjacente au média. Il y a échec lorsque le contenu vidéo contient des éléments visuels significatifs — texte à l’écran, données graphiques, expressions faciales transmettant une émotion clé, étapes de démonstration — qui ne sont transmis par aucun audio ni aucune alternative textuelle.

Notez que 1.2.3 est une exigence de niveau A, ce qui en fait l’attente de base. Le critère plus robuste de niveau AA 1.2.5 (Audiodescription — Préenregistrée) exige des audiodescriptions dans tous les cas où elles sont nécessaires, tandis que 1.2.3 autorise l’alternative textuelle comme substitut au niveau A.

Pourquoi c’est important

Environ 2,2 milliards de personnes dans le monde présentent une forme de déficience visuelle, selon l’Organisation mondiale de la Santé. Pour les utilisateurs aveugles, un contenu vidéo sans audiodescription ni alternative textuelle est totalement inaccessible en tant que source d’informations visuelles. Un lecteur d’écran peut annoncer la présence d’un élément vidéo et lire les sous-titres associés, mais il ne peut pas interpréter le contenu visuel des images vidéo elles-mêmes. Sans audiodescription ni alternative au média, ces utilisateurs manquent simplement tout ce que la vidéo montre mais ne dit pas.

Considérons un scénario concret : une plateforme de e-commerce turque publie une vidéo de démonstration de produit pour un appareil domotique. La vidéo montre un présentateur appairant l’appareil avec une application pour smartphone, naviguant dans les menus sur les deux écrans et branchant des câbles dans des ports spécifiques. La narration du présentateur se concentre sur les avantages de l’appareil mais ne décrit pas quels boutons sont pressés ni quels éléments de menu sont sélectionnés. Un utilisateur aveugle regardant cette vidéo avec un lecteur d’écran n’entend que la narration — il ne reçoit aucune des informations visuelles procédurales qui lui permettraient de reproduire la configuration chez lui. Avec une audiodescription ou une alternative textuelle détaillée, cet utilisateur a un accès complet au même contenu pédagogique.

Au-delà des utilisateurs aveugles, des alternatives textuelles détaillées bénéficient aux utilisateurs ayant des handicaps cognitifs qui peuvent traiter plus facilement des instructions écrites qu’une vidéo qui défile rapidement. Elles profitent également aux utilisateurs dans des environnements à bande passante limitée qui ne peuvent pas diffuser de vidéo, aux utilisateurs sur des réseaux d’entreprise où la vidéo est bloquée, et aux utilisateurs dont les appareils ou navigateurs ne prennent pas en charge certains formats vidéo. Les moteurs de recherche indexent également les alternatives textuelles, ce qui signifie que leur fourniture améliore le référencement en rendant le contenu vidéo découvrable via la recherche en texte intégral — un avantage commercial significatif en plus de la valeur en matière d’accessibilité.

Pour les utilisateurs ayant une déficience motrice qui ne peuvent pas manipuler précisément les contrôles vidéo, une alternative textuelle leur permet de consommer le contenu à leur propre rythme sans avoir à lutter avec les contrôles de pause, de retour en arrière ou de lecture. En résumé, les audiodescriptions et les alternatives aux médias servent une large population et améliorent la qualité globale et la portée du contenu vidéo bien au-delà des utilisateurs qui en ont strictement besoin pour y accéder.

Règles Axe-core associées

WCAG 1.2.3 nécessite des tests manuels. Il n’existe aucune règle axe-core qui signale automatiquement une violation de ce critère, et comprendre pourquoi permet de clarifier ce que les testeurs doivent vérifier manuellement.

Tests manuels requis — analyse du contenu visuel : Les outils automatisés peuvent détecter la présence d’un élément <video>, d’un élément <track> ou d’un lien vers une transcription associée, mais ils ne peuvent pas évaluer si le contenu d’une audiodescription ou d’une alternative textuelle est suffisant. La suffisance dépend du fait que toutes les informations visuelles significatives soient transmises — un jugement qui exige qu’une personne regarde la vidéo, lise l’alternative et les compare. Un scan axe peut confirmer qu’un élément <track kind='descriptions'> est présent, mais il ne peut pas vérifier que les descriptions couvrent effectivement tous les événements visuels critiques de la vidéo.
Tests manuels requis — évaluation de l’équivalence : Déterminer si la piste audio principale décrit déjà toutes les informations visuelles (rendant une audiodescription supplémentaire inutile) est intrinsèquement un jugement de contenu. Un évaluateur humain doit regarder la vidéo et déterminer si un utilisateur aveugle n’écoutant que l’audio manquerait une information significative. Aucune règle automatisée ne peut faire cette détermination de manière fiable.
Tests manuels requis — exhaustivité de l’alternative textuelle : Si une alternative textuelle (alternative intégrale au média) est fournie à la place d’une audiodescription, une personne doit lire l’alternative textuelle et la comparer à la vidéo pour confirmer que tous les événements visuels, le texte à l’écran et les actions significatives sont représentés. Les outils automatisés peuvent vérifier qu’un lien vers une transcription existe mais ne peuvent pas évaluer si cette transcription est complète et exacte.

Comment tester

Base de scan automatisé : Exécutez axe DevTools ou Google Lighthouse sur la page contenant la vidéo. Bien qu’aucun de ces outils ne signale directement une violation de 1.2.3, le scan peut faire apparaître des problèmes connexes tels que l’absence d’éléments <track> (signalée au titre de 1.2.2 pour les sous-titres) ou l’absence d’alternatives textuelles pour les médias basés sur des images. Notez tous les éléments vidéo présents sur la page afin de savoir lesquels nécessitent un examen manuel au titre de 1.2.3.
Identifier les médias synchronisés : Repérez chaque élément <video> (ou lecteur tiers intégré tel que des iframes YouTube ou Vimeo) sur la page. Confirmez si chaque vidéo est préenregistrée et synchronisée (c’est-à-dire qu’elle comporte à la fois des pistes audio et vidéo significatives). Si une vidéo est uniquement audio ou si sa piste vidéo est décorative, elle sort du champ d’application de 1.2.3.
Regarder la vidéo avec le son activé : Visionnez la vidéo normalement et prêtez une attention particulière à toute information transmise visuellement mais non décrite dans l’audio. Les exemples courants incluent : les incrustations de texte à l’écran, les diagrammes ou graphiques dessinés, les démonstrations étape par étape d’un processus physique, les expressions faciales ou le langage corporel qui portent une signification émotionnelle, et l’identification des intervenants lorsque plusieurs personnes apparaissent à l’écran.
Vérifier la présence d’une piste d’audiodescription : Inspectez le balisage de l’élément vidéo pour y trouver un élément <track kind='descriptions'>. S’il est présent, activez les descriptions dans le lecteur vidéo (ou utilisez un navigateur qui les expose) et regardez de nouveau la vidéo. Vérifiez que chaque événement visuel significatif identifié à l’étape 3 est décrit dans la piste d’audiodescription au moment approprié.
Vérifier la présence d’une alternative textuelle intégrale : Si aucune piste d’audiodescription n’est présente, recherchez un lien vers une transcription ou une alternative intégrale au média adjacente à la vidéo ou la suivant immédiatement. Confirmez que le document lié ou le texte intégré décrit tout le contenu audio (dialogue, narration, effets sonores pertinents) et tout le contenu visuel (actions, texte à l’écran, descriptions des décors, identification des intervenants).
Vérification avec lecteur d’écran (NVDA + Firefox) : Ouvrez la page avec NVDA en cours d’exécution. Naviguez jusqu’à l’élément vidéo et confirmez que NVDA annonce la présence de la vidéo et de tous les contrôles associés. Si une alternative textuelle est fournie en ligne ou via un lien, naviguez jusqu’à celle-ci et confirmez que NVDA lit l’intégralité du contenu sans omissions. Remarque : NVDA ne peut pas lire le contenu visuel des images vidéo, ce qui souligne pourquoi la comparaison humaine de l’étape 3 est essentielle.
Vérification avec lecteur d’écran (VoiceOver + Safari sur macOS) : Activez VoiceOver et naviguez jusqu’à la vidéo. Utilisez le rotor de VoiceOver pour trouver l’élément vidéo et tous les éléments de piste ou de lien associés. Confirmez que la piste de description, si elle est présente, est accessible via les contrôles multimédias de Safari.
Lecteurs tiers : Pour les intégrations YouTube, vérifiez si la vidéo dispose d’une version avec audiodescription (souvent une vidéo distincte liée dans la description) ou si une transcription associée est disponible et liée sur la page qui intègre la vidéo. Pour Vimeo, vérifiez les paramètres d’accessibilité de la vidéo. Les lecteurs tiers ne satisfont pas automatiquement au critère 1.2.3 — il incombe à l’auteur de la page de s’assurer qu’une alternative est fournie ou liée.

Comment corriger

Scénario 1 : vidéo HTML5 sans audiodescription — Incorrect

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Scénario 1 : vidéo HTML5 avec piste d’audiodescription — Correct

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Scénario 2 : vidéo HTML5 sans alternative textuelle — Incorrect

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Scénario 2 : vidéo HTML5 avec alternative intégrale au média — Correct

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Scénario 3 : intégration YouTube sans alternative complémentaire — Incorrect

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Scénario 3 : intégration YouTube avec alternative textuelle liée — Correct

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Scénario 4 : vidéo dont l’audio décrit déjà tout le contenu visuel (exception) — Correct

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Erreurs courantes

Fournir des sous-titres au lieu d’une audiodescription : Les sous-titres transcrivent l’audio parlé pour les personnes sourdes ; ils ne décrivent pas les informations visuelles pour les personnes aveugles. L’ajout d’un élément <track kind='captions'> satisfait au critère 1.2.2 mais pas au critère 1.2.3. Il s’agit de deux exigences distinctes visant deux groupes de handicap différents.
Lier une transcription qui ne couvre que le dialogue : Une alternative textuelle pour 1.2.3 doit décrire tout le contenu visuel significatif — texte à l’écran, diagrammes, actions physiques, identification des intervenants — et pas seulement ce qui est dit. Une transcription limitée au script échoue généralement à ce critère si la vidéo contient des informations uniquement visuelles.
Placer le lien vers l’alternative textuelle loin de la vidéo : Si l’alternative intégrale au média est enfouie dans une note de bas de page ou sur une page distincte sans lien clair et adjacent, les utilisateurs peuvent ne pas la trouver. Le lien doit apparaître immédiatement avant ou après l’élément vidéo afin que les utilisateurs de lecteurs d’écran le rencontrent dans l’ordre de lecture naturel.
Supposer que la transcription générée automatiquement par YouTube satisfait au critère : Les transcriptions YouTube générées automatiquement ne couvrent que l’audio parlé. Elles ne décrivent pas le contenu visuel et sont souvent inexactes. Elles ne constituent pas une alternative intégrale au média suffisante au titre de 1.2.3.
Utiliser un élément <track kind='descriptions'> mais laisser le fichier VTT vide ou incomplet : La présence de l’élément de piste ne suffit pas ; le fichier VTT doit contenir des descriptions exactes et synchronisées de tous les événements visuels significatifs. Un fichier VTT vide ou très incomplet ne satisfait pas au critère.
Ne pas décrire les incrustations de texte à l’écran : Les vidéos marketing affichent fréquemment des statistiques, des noms de produits ou du texte d’appel à l’action sous forme d’incrustations animées. Si ces incrustations ne sont pas lues à voix haute par un narrateur, elles doivent apparaître dans l’audiodescription ou l’alternative textuelle — les auteurs les oublient fréquemment.
Rédiger des audiodescriptions trop vagues : Des descriptions telles que « le présentateur montre le processus » sont insuffisantes. Des descriptions efficaces nomment des actions spécifiques, des éléments d’interface, des couleurs lorsque c’est pertinent, et des relations spatiales : « Le présentateur clique sur le bouton Supprimer rouge situé sur le côté droit de la barre d’outils, puis confirme en sélectionnant OK dans la boîte de dialogue. »
Ne pas fournir d’alternative pour les vidéos en lecture automatique ou d’arrière-plan qui véhiculent des informations : Une vidéo qui se lance automatiquement et affiche des informations importantes (comme une section de héros montrant des fonctionnalités de produit avec du texte incrusté) reste un média synchronisé et doit être conforme si elle transmet un contenu significatif.
Considérer les vidéos décoratives comme exemptes sans vérification : Les équipes qualifient parfois une vidéo de « décorative » pour éviter l’exigence, même lorsqu’elle transmet en réalité des informations sur un produit ou un contenu pédagogique. L’exception décorative ne s’applique que lorsque la vidéo n’ajoute réellement aucune information significative au-delà de ce qui est déjà disponible dans le texte adjacent.
Oublier de mettre à jour l’audiodescription ou l’alternative textuelle lorsque la vidéo est mise à jour : Si le contenu de la vidéo change — par exemple, les étapes d’un produit sont révisées ou les données tarifaires sont mises à jour — l’audiodescription et l’alternative textuelle doivent être mises à jour en conséquence. Des alternatives obsolètes constituent un manquement à la conformité même si les alternatives d’origine étaient exactes.

Lien avec la réglementation d’accessibilité de la Turquie

La circulaire présidentielle 2025/10 de la Turquie, publiée au Journal officiel n° 32933 le 21 juin 2025, établit des normes obligatoires d’accessibilité web pour un large éventail d’entités publiques et privées opérant en Turquie. La circulaire fait référence à des normes d’accessibilité internationalement reconnues, les WCAG 2.2 niveaux A et AA servant de base technique pour la conformité. Étant donné que WCAG 1.2.3 est une exigence de niveau A, elle fait partie des obligations les plus fondamentales au titre de la circulaire — il n’existe aucun niveau de conformité inférieur permettant aux organisations de l’ignorer.

La circulaire couvre un large éventail de types d’entités. Les institutions publiques et organismes gouvernementaux — y compris les ministères, les municipalités, les universités d’État et autres agences publiques — doivent atteindre la conformité dans un délai d’un an à compter de la date de publication de la circulaire. Les entités du secteur privé couvertes par la circulaire comprennent les plateformes de e-commerce, les banques et institutions financières, les hôpitaux et prestataires de soins de santé privés, les entreprises de télécommunications comptant 200 000 abonnés ou plus, les agences de voyage agréées, les entreprises de transport privées et les écoles privées autorisées par le ministère de l’Éducation nationale (MoNE). Ces organisations du secteur privé disposent de deux ans à compter de la date de publication pour atteindre la conformité.

Pour toute entité couverte qui publie du contenu vidéo — ce qui inclut aujourd’hui pratiquement toutes les grandes institutions et entreprises turques — WCAG 1.2.3 crée une obligation concrète et exécutoire. Une banque qui publie des tutoriels vidéo expliquant comment utiliser son application mobile, un hôpital public qui met en ligne des guides vidéo pour l’inscription des patients, un fournisseur de télécommunications qui partage des vidéos promotionnelles avec des comparaisons de forfaits à l’écran, ou un site de e-commerce qui inclut des vidéos de démonstration de produits doivent tous s’assurer que chaque ressource de média synchronisé préenregistré est accompagnée d’une audiodescription ou d’une alternative textuelle intégrale.

Le non-respect des exigences de la circulaire peut entraîner un examen réglementaire et nuire à la réputation, et, à mesure que l’application de l’accessibilité numérique se renforce en Turquie, une exposition juridique pour les entités concernées. Les organisations devraient considérer WCAG 1.2.3 non comme une amélioration facultative mais comme une obligation légale de base. Concrètement, cela signifie réaliser un inventaire de tout le contenu vidéo, évaluer quelles vidéos contiennent des informations uniquement visuelles, et produire systématiquement des audiodescriptions ou des alternatives textuelles intégrales pour toutes celles qui en contiennent. Les nouveaux processus de production vidéo devraient inclure des livrables d’accessibilité — scripts de description et alternatives textuelles — comme résultats standard aux côtés des sous-titres et des traductions.

Sources et références

Articles connexes

AWCAG 1.1.1 : Contenu non textuel AWCAG 1.2.1 : Audio seul et vidéo seule (préenregistrés)AWCAG 1.2.2 : Sous-titres (préenregistré)