WCAG 1.2.1 : Audio seul et vidéo seule (préenregistrés)

La norme WCAG 1.2.1 exige que les contenus préenregistrés uniquement audio et uniquement vidéo disposent d’une alternative textuelle ou médiatique afin que les utilisateurs qui ne peuvent pas entendre ou voir le média puissent tout de même accéder à l’information. Il s’agit d’une exigence de niveau A, ce qui signifie qu’elle constitue le niveau minimal de conformité en matière d’accessibilité du web.

Ce que signifie cette règle

La WCAG 1.2.1 traite de deux types distincts de médias temporels : le contenu audio uniquement (comme un épisode de podcast, une annonce téléphonique enregistrée ou une piste musicale qui transmet une information significative) et le contenu vidéo uniquement (comme une animation pédagogique silencieuse ou un clip de démonstration de produit sans voix). Le critère exige que chacun de ces types de médias soit accompagné d’une alternative équivalente qui rende la même information disponible aux personnes qui ne peuvent pas percevoir le format d’origine.

Pour le contenu audio uniquement préenregistré, l’alternative requise est une transcription textuelle. La transcription doit reprendre tous les mots prononcés, identifier les intervenants lorsque c’est pertinent, et décrire tout son non verbal significatif (comme des applaudissements, des alarmes ou une musique qui a une valeur informationnelle). Se contenter de fournir un titre ou une brève description n’est pas suffisant ; la transcription doit être un équivalent textuel complet de tout ce qu’un auditeur entendrait.

Pour le contenu vidéo uniquement préenregistré (vidéo sans piste audio, ou avec une piste audio qui ne contient aucune information significative), l’alternative requise est soit une transcription textuelle, soit une piste de description audio. Une description audio narre le contenu visuel — en décrivant les actions à l’écran, les changements de scène, le texte qui apparaît à l’écran et d’autres détails visuels — afin qu’un utilisateur aveugle ou malvoyant puisse comprendre le contenu uniquement par l’audio.

Un succès exige que l’alternative soit clairement associée au média, facile à trouver et pleinement équivalente en termes de contenu informationnel. L’alternative peut être fournie directement sur la page, sous forme de document lié ou comme piste audio supplémentaire, tant qu’elle est facilement accessible depuis la même page ou la même interface de lecteur.

Un échec se produit lorsque : aucune alternative n’est fournie ; l’alternative est incomplète ou omet des informations significatives ; l’alternative est présente mais si difficile à localiser qu’elle suppose en pratique que l’utilisateur sache qu’elle existe ; ou l’alternative décrit le média sans en reproduire le contenu réel (par exemple, écrire « le présentateur explique comment réinitialiser l’appareil » au lieu de fournir les instructions détaillées étape par étape).

La WCAG 1.2.1 inclut une exception officielle : si le contenu audio uniquement ou vidéo uniquement sert lui-même d’alternative média pour un texte déjà présent sur la page, et qu’il est clairement étiqueté comme tel, il ne nécessite pas d’alternative supplémentaire. Par exemple, une courte vidéo qui démontre visuellement exactement ce qu’un tutoriel écrit à proximité décrit déjà en détail peut être exemptée, à condition que l’étiquette rende la relation claire pour tous les utilisateurs.

Il est également important de noter que ce critère ne couvre que le contenu préenregistré — les flux audio uniquement et vidéo uniquement en direct sont traités séparément dans la WCAG 1.2.9 et ne sont pas concernés ici. Le contenu qui contient à la fois de l’audio et de la vidéo (médias synchronisés) relève de la WCAG 1.2.2 (Sous-titres) et 1.2.3 (Description audio ou alternative pour les médias), et non de 1.2.1.

Pourquoi c’est important

Le contenu audio uniquement et vidéo uniquement crée des obstacles pour plusieurs groupes d’utilisateurs distincts, et comprendre l’expérience de chaque groupe est essentiel pour saisir pourquoi ce critère existe au niveau fondamental A.

Les personnes sourdes et malentendantes ne peuvent pas accéder à l’information contenue dans un contenu audio uniquement préenregistré sans transcription textuelle. Pour une personne profondément sourde de naissance, une interview de podcast, une explication de service client enregistrée ou une réponse de FAQ audio uniquement est tout simplement inaccessible — comme si le contenu n’existait pas. Selon l’Organisation mondiale de la santé, plus de 1,5 milliard de personnes dans le monde présentent une forme de perte auditive, dont environ 430 millions nécessitent une réadaptation. Rien qu’en Turquie, les enquêtes indiquent que des millions de citoyens vivent avec une déficience auditive importante, dont beaucoup s’appuient sur la langue des signes turque ou le texte écrit comme principal mode de communication.

Les personnes aveugles et malvoyantes sont le public principal des alternatives pour la vidéo uniquement. Une vidéo silencieuse de montage de produit, une animation de visualisation de données ou un tutoriel uniquement visuel est dénué de sens lorsqu’il n’est transmis que par un lecteur d’écran annonçant la présence d’un élément vidéo. Sans description audio ou transcription textuelle, ces utilisateurs ne reçoivent aucune information du contenu.

Les personnes ayant des handicaps cognitifs et des troubles d’apprentissage bénéficient souvent de la disponibilité de l’information sous plusieurs formats. Une personne dyslexique peut trouver plus facile d’écouter une description audio que de lire une longue séquence visuelle, tandis qu’un autre utilisateur peut préférer une transcription écrite étape par étape qu’il peut relire à son propre rythme. Fournir des alternatives soutient un éventail plus large de styles de traitement de l’information.

Les limitations situationnelles et environnementales créent également un large cas d’usage en matière d’ergonomie qui va bien au-delà des utilisateurs ayant des handicaps permanents. Une personne dans une bibliothèque silencieuse ou un bureau en open space ne peut pas lire de contenu audio et bénéficie énormément d’une transcription. Un utilisateur avec une connexion mobile lente qui ne peut pas charger une vidéo peut lire immédiatement l’alternative textuelle. Un utilisateur qui n’est pas locuteur natif de la langue utilisée dans l’audio peut trouver beaucoup plus facile de lire une transcription que de suivre un contenu parlé rapide.

Considérons un scénario concret réel : le site web d’une banque turque publie un guide audio préenregistré expliquant comment activer une nouvelle carte de débit. Un client sourd reçoit ce guide dans son e-mail de bienvenue. Sans transcription, il n’a aucun moyen de terminer l’activation sans appeler une ligne d’assistance — un processus qui peut lui-même présenter des obstacles d’accessibilité. Fournir une transcription textuelle bien structurée élimine entièrement cette dépendance et sert le client de manière équivalente.

D’un point de vue SEO, les transcriptions textuelles sont entièrement indexables par les moteurs de recherche. Le contenu audio et vidéo sans transcription représente une opportunité manquée en termes de visibilité dans la recherche organique. Une transcription publiée à côté d’un épisode de podcast ou d’une vidéo pédagogique double effectivement le contenu exploré par les robots sur la page et peut améliorer significativement la pertinence des mots-clés pour les requêtes de recherche liées au sujet du média.

Règles axe-core associées

La WCAG 1.2.1 nécessite un test manuel car les outils automatisés ne peuvent pas évaluer le contenu ou l’exhaustivité d’une alternative média. Un analyseur automatisé peut détecter la présence d’un élément <video> ou <audio>, mais il ne peut pas déterminer si une transcription liée représente fidèlement tout ce qui se trouve dans la piste audio, ni si une description audio couvre tous les événements visuels significatifs. Voici les considérations pertinentes pour l’approche d’axe-core concernant ce critère.

Il n’existe aucune règle axe-core automatisée dédiée pour la WCAG 1.2.1. Axe-core et le moteur Deque axe DevTools signalent ce critère comme nécessitant un examen manuel. Il s’agit d’un choix de conception délibéré et correct : la règle générerait un taux inacceptable de faux positifs ou de faux négatifs si elle était automatisée. Un analyseur ne peut pas « lire » un fichier audio ni « regarder » une vidéo pour vérifier qu’une transcription est complète et exacte. Par conséquent, tout outil d’audit qui prétend valider automatiquement la conformité ou la non-conformité à la WCAG 1.2.1 sans examen humain doit être considéré avec scepticisme.
Ce que les outils automatisés peuvent signaler comme indices de support : Certains outils, y compris axe en mode bonnes pratiques, signalent les éléments <audio> et <video> qui n’ont aucun contenu textuel associé dans le contexte immédiat du DOM. C’est un rappel utile pour un examen manuel, mais un signal positif ne signifie pas que la transcription est adéquate, et l’absence de signal ne signifie pas que la transcription est présente — une transcription liée sur une autre page ne serait pas visible pour l’analyseur au niveau de l’élément.
Les tests manuels sont nécessaires parce que : L’évaluation de ce critère exige un examinateur humain capable de consommer intégralement le contenu audio ou vidéo, puis de le comparer ligne par ligne avec l’alternative fournie pour confirmer l’équivalence. L’examinateur doit également évaluer si l’alternative est facile à localiser à partir de l’élément média, ce qui nécessite de naviguer sur la page comme le ferait un utilisateur — ce qu’aucun outil automatisé actuel ne peut reproduire de manière fiable.

Comment tester

Lancer une analyse automatisée comme point de départ. Utilisez axe DevTools, Lighthouse ou le panneau d’audit Accsible pour analyser la page. Recherchez dans les résultats tout élément <audio> ou <video> signalé. Notez qu’un résultat automatisé sans erreur ne confirme pas la conformité à 1.2.1 — cela signifie seulement qu’aucun problème structurel évident n’a été détecté. Utilisez l’analyse pour établir un inventaire de tous les éléments média de la page qui nécessitent un examen manuel.
Identifier tout le contenu audio uniquement et vidéo uniquement préenregistré. Examinez manuellement le code source de la page et le rendu. Recherchez les éléments <audio>, les éléments <video> dont la piste vidéo ne comporte aucun audio significatif, les lecteurs intégrés (comme les widgets SoundCloud ou Spotify) et tout élément <iframe> qui charge du contenu audio ou vidéo depuis une source tierce.
Pour chaque élément audio uniquement, localiser la transcription associée. La transcription peut se trouver directement sur la page, dans une section repliable ou être liée via une balise d’ancrage à proximité du lecteur. Accédez à la transcription et lisez-la intégralement tout en écoutant simultanément l’audio. Confirmez que chaque mot prononcé est repris, que tous les intervenants sont identifiés lorsque c’est pertinent, et que tous les événements audio non verbaux significatifs sont décrits.
Pour chaque élément vidéo uniquement, localiser l’alternative associée. Déterminez si une transcription textuelle ou une piste de description audio est fournie. Si une piste de description audio est utilisée, activez-la dans le lecteur média et regardez la vidéo tout en écoutant la description. Confirmez que tous les événements visuels significatifs — actions, changements de scène, texte à l’écran, informations graphiques — sont décrits avec suffisamment de détails pour qu’un utilisateur aveugle puisse comprendre le contenu sans voir la vidéo.
Tester avec un lecteur d’écran pour vérifier la découvrabilité. En utilisant NVDA avec Firefox, VoiceOver avec Safari sur macOS/iOS ou JAWS avec Chrome, accédez à l’élément média en utilisant uniquement le clavier (Tab, flèches). Sans utiliser de souris, vérifiez que vous pouvez localiser la transcription ou le lien vers la description audio à partir du lecteur média en utilisant uniquement la navigation au clavier et les annonces du lecteur d’écran. Si l’alternative ne peut pas être atteinte sans souris, le critère n’est pas respecté, même si le contenu de l’alternative est par ailleurs adéquat.
Vérifier l’exception liée à l’étiquetage. Si une transcription ou une alternative est absente, vérifiez si l’élément média est explicitement étiqueté comme alternative média pour un contenu textuel adjacent sur la même page. Le cas échéant, confirmez que le texte environnant est un équivalent complet du contenu média et que l’étiquette est perceptible par tous les utilisateurs.

Comment corriger

Podcast audio uniquement ou narration enregistrée — Incorrect

<!-- No transcript provided; the audio content is completely inaccessible
     to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
  Your browser does not support the audio element.
</audio>

Podcast audio uniquement ou narration enregistrée — Correct

<!-- A full text transcript is provided immediately after the player,
     making it discoverable by keyboard and screen reader users
     without requiring any additional navigation -->
<figure>
  <figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
  <audio controls src='welcome-guide.mp3'>
    Your browser does not support the audio element.
  </audio>
</figure>
<details>
  <summary>Read the full transcript of this audio guide</summary>
  <div>
    <p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
    To begin, locate the 16-digit card number on the front of your card.</p>
    <p><strong>Narrator:</strong> Enter this number in the field provided on
    the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
    <p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
  </div>
</details>

Vidéo pédagogique silencieuse (vidéo uniquement) — Incorrect

<!-- Silent animation with no audio description or text transcript.
     A blind user navigating with a screen reader will only hear
     "video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>

Vidéo pédagogique silencieuse (vidéo uniquement) avec transcription textuelle — Correct

<!-- A text transcript describing all meaningful visual actions is
     linked immediately below the video player. The link text clearly
     communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
  <a href='assembly-transcript.html'>
    View the full text description of this assembly video
  </a>
</p>

Vidéo silencieuse avec piste de description audio intégrée — Correct

<!-- For users who prefer audio, a described audio track is offered
     as a <track> element with kind='descriptions'.
     The text transcript link is also retained for deaf-blind users
     and those using text-only browsing. -->
<video controls width='640' height='360'>
  <source src='product-demo-silent.mp4' type='video/mp4'>
  <track
    kind='descriptions'
    src='product-demo-descriptions.vtt'
    srclang='en'
    label='Audio Description (English)'
  >
  <track
    kind='descriptions'
    src='product-demo-descriptions-tr.vtt'
    srclang='tr'
    label='Sesli Betimleme (Türkçe)'
  >
</video>
<p>
  <a href='product-demo-transcript.html'>
    Read the full text description of this product demonstration
  </a>
</p>

Erreurs courantes

Fournir un résumé au lieu d’une transcription complète. Rédiger un court paragraphe du type « Cet audio explique notre politique de remboursement » n’est pas une alternative équivalente. La transcription doit reproduire le contenu réel — chaque phrase, chaque instruction, chaque détail significatif — afin qu’un utilisateur qui ne peut pas entendre l’audio ne perde rien en lisant la transcription à la place.
Omettre les événements audio non verbaux dans les transcriptions. Si un enregistrement inclut un signal d’alarme, une foule qui acclame, une sonnette ou une musique de fond qui marque une transition, ceux-ci doivent être indiqués dans la transcription à l’aide de descriptions entre crochets comme [sonnerie d’alarme] ou [applaudissements]. Les omettre rend la transcription incomplète sur le plan informationnel.
Placer la transcription sur une page complètement distincte sans lien visible et accessible au clavier. Si un utilisateur doit savoir à l’avance qu’une transcription existe et quitter la page du média pour la trouver, la découvrabilité a échoué. Le lien vers l’alternative doit être immédiatement adjacent à l’élément média et atteignable au clavier.
Supposer qu’un élément <video> avec une piste silencieuse est couvert par les sous-titres. Les sous-titres (WCAG 1.2.2) concernent l’audio parlé dans les médias synchronisés. Une vidéo véritablement silencieuse — sans aucun audio significatif — est un contenu vidéo uniquement et nécessite sa propre description textuelle ou audio au titre de 1.2.1. Des sous-titres de silence ne fournissent aucune information.
Utiliser des transcriptions générées automatiquement par des outils de reconnaissance vocale sans relecture. Les transcriptions générées automatiquement par des services comme les sous-titres automatiques de YouTube ou des API de transcription IA contiennent fréquemment des erreurs sur les noms propres, les termes techniques et le langage non standard. Publier une transcription automatique non relue qui contient des erreurs importantes ne satisfait pas au critère, car une transcription inexacte n’est pas une alternative équivalente.
Ne pas identifier les intervenants dans les enregistrements audio à plusieurs voix. Une transcription qui se présente comme un bloc de texte unique, sans indiquer qui parle, est confuse et peut être ambiguë dans son sens. Les étiquettes d’intervenant doivent être utilisées de manière cohérente dans tout enregistrement comportant plus d’une voix.
Considérer l’attribut alt d’une image d’affiche comme substitut à une transcription vidéo. L’attribut alt sur l’image d’affiche d’un élément <video> décrit la vignette statique, pas le contenu de la vidéo elle-même. Il ne remplit en aucun cas l’exigence d’une alternative média au titre de 1.2.1.
Fournir une description audio qui ne décrit que le décor et ignore le texte à l’écran. Si une vidéo silencieuse affiche un texte important — numéros d’étapes, libellés, mesures, messages d’erreur — la description audio ou la transcription doit lire explicitement ce texte. Décrire la scène visuelle sans transcrire le texte à l’écran laisse des informations critiques inaccessibles.
Marquer un contenu comme exempt sans vérifier que la condition d’équivalence complète est remplie. L’exception pour les alternatives média au texte s’applique uniquement lorsque le texte sur la page est un équivalent complet du média. Si le texte de la page ne couvre qu’une partie de ce que la vidéo démontre, l’exception ne s’applique pas et une alternative reste nécessaire pour les parties non couvertes par le texte.
Négliger de fournir des alternatives en turc pour les médias en turc. Lorsque le contenu audio uniquement ou vidéo uniquement est en turc, l’alternative doit également être en turc (ou au moins dans la langue principale du public cible). Fournir uniquement une transcription en anglais pour un contenu audio en turc ne constitue pas une alternative équivalente pour les utilisateurs turcophones.

Lien avec la réglementation turque en matière d’accessibilité

La Circulaire présidentielle 2025/10 de la Turquie, publiée au Journal officiel n° 32933 le 21 juin 2025, établit un cadre juridique obligatoire pour l’accessibilité numérique aligné sur la WCAG 2.2. La WCAG 1.2.1 est un critère de niveau A, ce qui la place dans le niveau le plus essentiel des exigences au titre de cette circulaire. La conformité de niveau A représente le minimum absolu acceptable — les manquements à ce niveau sont considérés comme des obstacles fondamentaux qui empêchent totalement l’accès pour les utilisateurs concernés.

La circulaire s’applique largement aux secteurs public et privé. Les institutions publiques — y compris tous les ministères, organismes gouvernementaux, municipalités et entreprises publiques — doivent atteindre une conformité complète de niveau A dans un délai d’un an à compter de la date de publication de la circulaire. Les entités du secteur privé couvertes par la circulaire bénéficient d’une période de transition de deux ans.

Les entités du secteur privé explicitement couvertes par la Circulaire présidentielle 2025/10 comprennent : les plateformes de commerce électronique opérant en Turquie, quel que soit le lieu d’enregistrement ; les banques et institutions financières réglementées par la législation bancaire turque ; les hôpitaux et prestataires de soins de santé privés ; les entreprises de télécommunications comptant 200 000 abonnés ou plus ; les agences de voyage opérant sous licence touristique turque ; les entreprises privées de transport de passagers ; et les établissements d’enseignement privés autorisés par le ministère de l’Éducation nationale (MoNE).

Pour ces entités, la WCAG 1.2.1 a des implications directes et pratiques. Une banque qui publie des guides audio uniquement pour ses fonctionnalités de banque mobile sans transcriptions, un hôpital qui fournit des tutoriels vidéo uniquement silencieux pour les procédures d’admission des patients, ou un opérateur télécom qui utilise des annonces enregistrées audio uniquement sur son portail d’assistance sans alternatives textuelles serait, dans chaque cas, en violation directe de cette exigence à partir du moment où son délai de conformité respectif est dépassé.

Le non-respect de la circulaire peut entraîner des sanctions administratives et des conséquences en termes de réputation, ainsi qu’une exposition à des plaintes déposées auprès de l’Autorité des technologies de l’information et de la communication de Turquie (BTK) et du Bureau de la transformation numérique de la Présidence. Étant donné que 1.2.1 est l’un des critères les plus simples à corriger — nécessitant la création d’une transcription textuelle ou d’une description audio plutôt qu’un changement technique complexe — les organisations devraient prioriser un audit de tous les contenus audio uniquement et vidéo uniquement sur leurs propriétés numériques comme étape précoce et à fort impact de leurs programmes de conformité en matière d’accessibilité.

Les équipes de contenu, et pas seulement les développeurs, jouent un rôle central dans la réalisation de la conformité à 1.2.1. Les transcriptions doivent être rédigées, vérifiées pour leur exactitude et maintenues à jour au fur et à mesure que le contenu média évolue. Les organisations devraient mettre en place des flux de travail éditoriaux qui considèrent la création de transcriptions comme une étape obligatoire du processus de production et de publication de contenu, d’une importance équivalente aux métadonnées SEO ou à la relecture de contenu — et veiller à ce que ces flux de travail prennent en compte les médias en turc au même titre que toute autre langue utilisée sur la plateforme.

Sources et références

Articles connexes

AWCAG 1.1.1 : Contenu non textuel AWCAG 1.2.2 : Sous-titres (préenregistré)AWCAG 1.2.3 : Audiodescription ou alternative aux médias (préenregistré)