WCAG 1.2.7 : Description audio étendue (préenregistrée)

WCAG 1.2.7 exige que, lorsque les pauses dans l’audio de premier plan sont insuffisantes pour transmettre toutes les informations visuelles, des descriptions audio étendues — obtenues en mettant la vidéo en pause — soient fournies pour les médias synchronisés préenregistrés. Cela garantit que les personnes aveugles et malvoyantes peuvent pleinement comprendre un contenu visuel complexe que les descriptions audio standard ne peuvent pas couvrir.

Ce que signifie cette règle

Le critère de succès WCAG 1.2.7 — Description audio étendue (préenregistrée) est de niveau AAA et s’appuie directement sur l’exigence de niveau AA du critère 1.2.5 (Description audio pour les contenus préenregistrés). Alors que la description audio standard utilise simplement les pauses naturelles de la piste audio d’une vidéo pour décrire les informations visuelles, la description audio étendue va plus loin : lorsque ces pauses sont trop courtes ou trop rares pour accueillir toutes les descriptions nécessaires, la vidéo est mise en pause et la description audio est lue, après quoi la vidéo reprend.

Ce critère s’applique spécifiquement aux médias synchronisés préenregistrés — c’est-à-dire aux contenus vidéo dont la bande sonore est synchronisée avec les éléments visuels, comme les films pédagogiques, les vidéos de formation en entreprise, les documentaires, les démonstrations de produits et des contenus similaires. Il ne s’applique pas aux médias en direct, aux contenus audio uniquement, ni aux contenus vidéo uniquement dépourvus de bande sonore.

Un succès au regard de ce critère exige l’une des conditions suivantes : (a) une piste ou une version de description audio étendue du média est fournie, qui met la lecture en pause pour délivrer des descriptions des informations visuelles essentielles ne tenant pas dans les pauses naturelles, ou (b) toutes les informations visuelles sont déjà transmises par la piste audio existante sans qu’il soit nécessaire d’ajouter une description (on parle parfois de version « décrite de manière équivalente »). Un échec se produit lorsqu’une vidéo synchronisée préenregistrée contient des informations visuelles significatives — comme du texte à l’écran, des schémas, des expressions faciales qui portent le récit ou des démonstrations — qui ne sont transmises ni par des descriptions audio utilisant les pauses naturelles ni par des descriptions étendues, et que l’audio existant, à lui seul, laisse une personne aveugle sans ces informations.

Les WCAG reconnaissent également une exception importante : si le média est lui-même une alternative multimédia à un texte — par exemple, une version vidéo d’un document textuel clairement étiquetée comme telle — alors la description audio étendue n’est pas requise. De plus, si l’audio de premier plan décrit déjà intégralement tout le contenu visuel, aucune description supplémentaire n’est nécessaire.

Il convient de noter que la fourniture d’une description audio étendue nécessite souvent la production d’une version entièrement distincte de la vidéo, car la plupart des lecteurs multimédias ne prennent pas en charge nativement le mécanisme de pause et de reprise pour la diffusion des descriptions. Les approches courantes incluent une « version décrite » dédiée, accessible via une URL distincte ou un bouton de bascule dans le lecteur, ou l’utilisation d’un lecteur multimédia prenant en charge les pistes de description étendue basées sur TTML (Timed Text Markup Language) ou SMIL.

Pourquoi c’est important

La description audio étendue est essentielle pour les personnes qui sont aveugles ou ont une déficience visuelle sévère — un public plus large que ce que beaucoup de développeurs imaginent. Selon l’Organisation mondiale de la santé, environ 2,2 milliards de personnes dans le monde présentent une forme de déficience visuelle, dont au moins 1 milliard souffrent de troubles qui auraient pu être évités ou restent non traités. Pour les personnes qui s’appuient entièrement sur les lecteurs d’écran et la sortie audio, une vidéo qui ne décrit que ce que permettent ses pauses naturelles peut laisser d’énormes lacunes de compréhension.

Considérons une vidéo de formation médicale démontrant une technique chirurgicale. Le narrateur peut dire : « Maintenant, nous faisons l’incision ici », tandis que la caméra zoome sur un repère anatomique précis et que les mains du chirurgien effectuent une manœuvre spécifique. La narration orale suppose que la personne qui regarde voit le contexte visuel. Une description audio standard pourrait insérer une courte note pendant une brève pause, mais si l’action est continue pendant deux minutes avec une parole constante, un étudiant en médecine aveugle reçoit très peu des détails visuels qui sont au cœur de l’apprentissage de la technique. La description audio étendue met la vidéo en pause et délivre la description complète : l’anatomie visible, l’outil exact utilisé, l’angle d’approche, la réaction des tissus. L’étudiant a alors un accès équivalent au contenu pédagogique.

Au-delà de la cécité, la description audio étendue bénéficie aux personnes ayant des déficiences cognitives qui traitent l’information plus lentement et tirent profit du contexte supplémentaire fourni par la narration descriptive. Elle aide également les personnes en contexte audio uniquement — par exemple quelqu’un qui écoute une vidéo de formation pendant un trajet — qui ne peuvent pas voir l’écran, quelle que soit leur capacité visuelle.

Du point de vue commercial et juridique, fournir des descriptions audio étendues témoigne d’un engagement sérieux et mesurable en faveur de l’inclusion. Pour les organisations de secteurs réglementés — institutions publiques, banques, prestataires de soins de santé, établissements d’enseignement — démontrer une conformité de niveau AAA sur des contenus multimédias complexes peut réduire de manière significative le risque juridique et l’exposition réputationnelle. Il existe également un avantage pratique en matière de SEO : les scripts utilisés pour produire les descriptions audio étendues servent souvent de transcriptions riches, que les moteurs de recherche indexent comme contenu pertinent, améliorant la découvrabilité des ressources vidéo.

Règles axe-core associées

WCAG 1.2.7 nécessite un test manuel car les outils automatisés ne peuvent pas évaluer le contenu sémantique d’une vidéo, comparer la piste audio à la piste visuelle, ni déterminer si les informations visuelles sont suffisamment décrites. Il n’existe aucune règle axe-core capable de regarder une vidéo, de comprendre ce qui y est représenté visuellement et de juger si une description audio étendue est présente, exacte et complète. Il s’agit fondamentalement d’une tâche de jugement humain.

Évaluation manuelle — comparaison contenu visuel vs contenu audio : Une personne testeuse doit regarder la vidéo les yeux ouverts puis les yeux fermés (ou en utilisant un lecteur d’écran) et déterminer si l’audio seul — y compris toute description audio standard — transmet toutes les informations visuelles significatives. Si ce n’est pas le cas, la personne testeuse doit vérifier si une version avec description audio étendue est fournie. Les outils automatisés ne peuvent pas effectuer cette comparaison car ils n’ont pas la capacité d’interpréter les images vidéo comme des événements visuels significatifs ni de les corréler avec la signification sémantique de l’audio.
Évaluation manuelle — mécanisme de pause et de reprise : Si une description étendue est revendiquée, une personne testeuse doit vérifier que le lecteur met effectivement la vidéo en pause pendant la diffusion de la description et qu’il reprend correctement ensuite. Ce comportement relève du lecteur multimédia et du minutage, et nécessite un test de lecture actif par une personne, car les analyseurs automatisés n’exécutent ni n’observent les états de lecture des médias.
Évaluation manuelle — exactitude et exhaustivité de la description : Même lorsqu’une piste de description audio étendue existe, son contenu doit être exact et couvrir toutes les informations visuelles essentielles. Aucune règle automatisée ne peut évaluer si le texte de description représente correctement et complètement ce qui est affiché à l’écran. Une description qui dit « la présentatrice pointe le tableau » alors que le tableau contient un schéma critique avec des données étiquetées ne satisferait pas ce critère, même si la description est techniquement présente.

Comment tester

Commencez par lancer une analyse d’accessibilité automatisée. Utilisez axe DevTools (extension de navigateur) ou Lighthouse sur la page contenant la vidéo. Bien qu’aucun de ces outils ne puisse vérifier directement la conformité à la description audio étendue, ils peuvent signaler des éléments multimédias manquants ou défectueux, l’absence d’éléments track et d’autres problèmes structurels. Notez tout avertissement concernant le contenu multimédia comme point de départ. Axe peut signaler l’absence de piste de sous-titres ou de description audio au niveau de l’élément, ce qui réduit le périmètre de votre revue manuelle.
Identifiez tous les médias synchronisés préenregistrés sur la page. Repérez chaque élément <video> ou lecteur multimédia intégré (iframes YouTube, intégrations Vimeo, lecteurs personnalisés). Confirmez que chacun contient de l’audio et de la vidéo synchronisés. Les podcasts audio uniquement ou les vidéos muettes sont hors du champ de ce critère.
Regardez la vidéo en n’écoutant que l’audio. Fermez les yeux ou utilisez un lecteur d’écran (NVDA avec Firefox, VoiceOver avec Safari ou JAWS avec Chrome) et écoutez l’intégralité de la vidéo, y compris toute piste de description audio existante. Notez chaque moment où vous ne comprenez pas ce qui se passe visuellement — actions, texte à l’écran, schémas, transitions de scène, expressions des personnages qui portent le récit.
Comparez vos notes avec la piste visuelle. Regardez maintenant la vidéo avec le son coupé et notez toutes les informations visuelles qui apparaissent à l’écran. Recoupez avec ce que vous avez entendu. Si un contenu visuel significatif n’a pas été transmis par l’audio, la vidéo nécessite une description audio. Si les pauses naturelles dans l’audio étaient trop courtes ou inexistantes pour accueillir ces descriptions, une description audio étendue est requise.
Vérifiez la présence d’une version avec description étendue. Recherchez un lien clairement étiqueté « Version avec description audio » (ou équivalent), une bascule dans le lecteur vidéo ou une version décrite à une URL alternative. Si elle existe, activez-la et répétez les étapes 3 et 4 avec la version décrite, en vérifiant que les pauses et les descriptions couvrent désormais les informations visuelles manquantes.
Testez le comportement de pause et de reprise avec NVDA + Firefox. Avec la version à description étendue en lecture, confirmez que la vidéo se met en pause, que la description audio est délivrée clairement et que la vidéo reprend au bon moment. Vérifiez que le lecteur d’écran annonce le contenu décrit ou qu’il est autrement audible pour une personne non voyante.
Testez avec VoiceOver + Safari sur macOS/iOS. Répétez le test de lecture. Assurez-vous que la version décrite est utilisable au clavier (Tab, Espace, Entrée) et que VoiceOver annonce correctement les contrôles du lecteur, y compris toute bascule de description.
Vérifiez l’exactitude du script de description. Obtenez le script ou la transcription de la description étendue si disponible. Comparez-le à la vidéo pour confirmer qu’il est factuellement exact, qu’il couvre tous les événements visuels critiques et qu’il n’omet pas d’informations qu’une personne voyante utiliserait pour comprendre le contenu.

Comment corriger

Scénario 1 : Vidéo sans aucune description audio — Incorrect

<!-- A training video with no audio description track and no described version link.
     Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>

Scénario 1 : Vidéo avec version à description audio étendue — Correct

<!-- Provide a clearly labeled link to the extended described version.
     The described version pauses at critical moments to deliver full visual descriptions.
     This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
  <a href='surgical-technique-extended-described.mp4'>
    Watch extended audio described version of this video
  </a>
</p>

Scénario 2 : Vidéo YouTube intégrée avec visuels rapides — Incorrect

<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
     but there is no audio description, and the visual demonstrations are rapid
     with no natural pauses long enough for description. -->
<iframe
  width='560'
  height='315'
  src='https://www.youtube.com/embed/EXAMPLE_ID'
  title='Product demonstration video'
  allowfullscreen>
</iframe>

Scénario 2 : Vidéo intégrée avec bascule pour la version décrite — Correct

<!-- Offer a button that swaps the src to the extended described version.
     The described version was produced as a separate MP4 with pauses built in.
     The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
  <iframe
    id='demo-video-frame'
    width='560'
    height='315'
    src='https://www.youtube.com/embed/EXAMPLE_ID'
    title='Product demonstration video'
    allowfullscreen>
  </iframe>
  <p>
    <button
      type='button'
      aria-pressed='false'
      onclick='toggleDescribedVersion(this)'>
      Enable extended audio description
    </button>
  </p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
     to the described YouTube video ID and updates aria-pressed. -->

Scénario 3 : Lecteur vidéo HTML5 avec piste de description trop brève — Incorrect

<!-- A descriptions track exists but its cue text is truncated to fit within
     existing audio pauses. Key visual information (a data chart with five labeled
     columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->

Scénario 3 : Version décrite étendue séparée avec narration complète — Correct

<!-- The extended described version pauses playback at the chart moment
     and delivers: 'A bar chart titled Annual Revenue by Region appears.
     Five bars are shown: Europe 2.1 million, Asia 3.4 million,
     North America 4.8 million, South America 1.2 million, Africa 0.9 million.
     North America leads all regions.' The video then resumes. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
  <strong>Extended audio described version:</strong>
  <a href='annual-report-extended-described.mp4'>
    Annual report video with extended audio descriptions
  </a>
</p>

Erreurs courantes

Considérer une piste de sous-titres comme un substitut à la description audio : Les sous-titres retranscrivent les dialogues et les effets sonores sous forme de texte pour les personnes sourdes. Ils ne décrivent pas le contenu visuel pour les personnes aveugles. Une vidéo qui ne comporte qu’une piste de sous-titres ne satisfait toujours pas ce critère si les informations visuelles ne sont pas décrites dans l’audio.
Fournir une piste de description audio standard sans vérifier si les pauses sont suffisantes : De nombreuses équipes ajoutent un élément <track kind='descriptions'> et considèrent le travail terminé, sans vérifier que chaque événement visuel significatif dispose d’une pause suffisamment longue pour y insérer la description. Les démonstrations rapides, les schémas complexes et le texte dense à l’écran nécessitent généralement des descriptions étendues.
Décrire uniquement les changements visuels évidents et omettre le texte affiché à l’écran : Le texte à l’écran — titres de diapositives, libellés de formulaires, axes de graphiques, libellés de boutons montrés dans une démo — doit être lu intégralement pendant la description audio. Dire « une diapositive apparaît » au lieu de lire le titre de la diapositive et les points clés laisse des informations essentielles inaccessibles.
Lier vers une version décrite sans nom accessible clair déterminable par programme : Un lien qui dit « cliquez ici » ou « version décrite » sans étiquette identifiant la vidéo concernée ne respecte pas WCAG 2.4.6 et crée de la confusion pour les personnes utilisant un lecteur d’écran sur une page comportant plusieurs vidéos.
Utiliser un bouton de bascule pour la version décrite sans mettre à jour aria-pressed ni fournir de retour : Si un bouton permet de passer de la lecture standard à la lecture décrite, il doit utiliser aria-pressed (true/false) ou une annonce via une région dynamique équivalente afin que les personnes utilisant un lecteur d’écran connaissent l’état actuel et sachent que leur action a eu un effet.
Produire la version à description étendue sans tester la précision de la reprise : Après la pause de description, la vidéo doit reprendre exactement là où elle s’était arrêtée — pas légèrement avant ni après. Des points de reprise incorrects entraînent une perte de contexte narratif et accentuent la confusion pour les personnes aveugles.
Supposer qu’une simple transcription de la vidéo suffit à satisfaire ce critère : Une transcription est utile et contribue au critère 1.2.8 (Alternative multimédia pour les médias synchronisés), mais elle ne remplit pas le critère 1.2.7. La description audio étendue est un mécanisme audio synchronisé dans le temps, et non un document séparé à lire indépendamment.
Ne pas décrire les informations visuelles qui portent la signification émotionnelle ou narrative d’une scène : Si l’expression du visage d’un personnage, son langage corporel ou sa réaction visuelle est centrale pour comprendre ce qui se passe — par exemple dans une vidéo de témoignage client — omettre cette description prive les personnes aveugles d’une compréhension équivalente, même si les dialogues parlés sont intacts.
Ne pas mettre à jour la version décrite lorsque la vidéo principale est mise à jour : Si la vidéo source est remontée, mise à jour ou remplacée (ce qui est courant pour les contenus pédagogiques), la piste ou la version de description étendue doit également être mise à jour. Des descriptions obsolètes peuvent induire activement en erreur en décrivant des scènes qui n’existent plus.
Intégrer des vidéos via des iframes de tiers (YouTube, Vimeo) en supposant que la plateforme gère la description : Les descriptions audio fournies par les plateformes (lorsqu’elles existent) sont rarement des descriptions étendues. Il incombe au propriétaire du contenu de s’assurer qu’une version à description étendue existe et qu’elle est liée ou accessible depuis la page qui intègre la vidéo.

Lien avec la réglementation d’accessibilité de la Turquie

La circulaire présidentielle 2025/10 de la Turquie, publiée au Journal officiel n° 32933 le 21 juin 2025, établit des obligations d’accessibilité pour un ensemble défini de fournisseurs de services numériques. La circulaire impose la conformité aux normes d’accessibilité pour les produits et services numériques offerts au public, en s’alignant globalement sur les WCAG 2.1 niveau AA comme exigence de conformité de base.

Les types d’entités couverts par la circulaire incluent les institutions et agences publiques, les plateformes de commerce électronique, les banques et institutions financières, les hôpitaux et prestataires de soins de santé, les opérateurs de télécommunications comptant 200,000 abonnés ou plus, les agences de voyage agréées, les entreprises de transport privées et les écoles privées autorisées par le ministère de l’Éducation nationale (MoNE). Pour ces entités, la conformité aux WCAG 2.1 niveau AA constitue le plancher obligatoire.

Le critère WCAG 1.2.7 (Description audio étendue) est un critère de niveau AAA, ce qui signifie qu’il n’est pas directement imposé par les exigences de base de la circulaire. Toutefois, son importance ne doit pas être sous-estimée dans le contexte réglementaire turc pour plusieurs raisons. Premièrement, les organisations qui produisent des contenus multimédias complexes — comme les prestataires de soins de santé publiant des vidéos de formation chirurgicale, les institutions publiques diffusant des films explicatifs sur des politiques, ou les écoles privées distribuant des contenus vidéo éducatifs — ont de solides arguments éthiques et pratiques pour mettre en œuvre des descriptions audio étendues sur leurs contenus les plus critiques, même en l’absence d’obligation juridique stricte.

Deuxièmement, à mesure que la réglementation turque en matière d’accessibilité numérique arrive à maturité et que les mécanismes d’application se renforcent, les critères de niveau AAA sont de plus en plus cités comme indicateurs de pratiques exemplaires. Les organisations qui démontrent une conformité AAA volontaire — en particulier dans des domaines à forts enjeux comme la santé, l’éducation et la finance — sont mieux positionnées pour de futures mises à jour réglementaires et s’exposent moins au risque de plaintes au titre de cadres plus larges de lutte contre la discrimination.

Troisièmement, pour les radiodiffuseurs publics et les organisations médiatiques — même s’ils ne sont pas directement mentionnés dans la circulaire 2025/10 — le Conseil supérieur de la radio et de la télévision de Turquie (RTÜK) s’est historiquement engagé sur des dispositions d’accessibilité pour les contenus diffusés. La description audio étendue est conforme à l’esprit de ces obligations lorsqu’elle est appliquée aux vidéos à la demande et aux contenus vidéo diffusés sur le web.

Les organisations utilisant le SDK du widget Accsible doivent savoir que, si le widget en superposition peut mettre en avant des fonctionnalités et des contrôles d’accessibilité pour les utilisateurs finaux, la description audio étendue doit être mise en œuvre au niveau de la production de contenu — elle ne peut pas être ajoutée automatiquement a posteriori par un outil côté client. Le SDK peut toutefois exposer une bascule ou un lien vers la version décrite dans le panneau d’accessibilité, rendant cette version alternative plus facilement découvrable pour les personnes qui en ont besoin.

Sources et références

Articles connexes

AWCAG 1.1.1 : Contenu non textuel AWCAG 1.2.1 : Audio seul et vidéo seule (préenregistrés)AWCAG 1.2.2 : Sous-titres (préenregistré)