Rendre les vidéos accessibles : sous-titres, transcriptions et descriptions audio

La vidéo est le format de contenu dominant sur le web — mais sans sous-titres, transcriptions et descriptions audio, elle exclut des millions d’utilisateurs et expose votre organisation à un risque juridique sérieux. Ce guide explique précisément ce qu’exige le WCAG, comment fonctionne chaque couche d’accessibilité et les étapes pratiques pour les mettre en œuvre sur l’ensemble de votre site.

Voici un chiffre qui devrait arrêter net tout propriétaire de site web : 4 187 poursuites liées à l’accessibilité numérique ont été intentées aux États-Unis pour la seule année 2024, et 2025 affiche une hausse de 37%. La vidéo se trouve au cœur de nombreux de ces cas, car une vidéo dépourvue de fonctionnalités d’accessibilité adéquates est l’un des manquements à la conformité les plus flagrants qu’un auditeur — ou l’avocat d’un plaignant — puisse relever. Pourtant, le problème va bien au-delà du risque juridique. Avec plus de 48 millions d’Américains présentant un certain degré de perte auditive et des millions d’autres qui sont aveugles ou malvoyants, une vidéo inaccessible signifie tout simplement que votre message n’atteint jamais une part significative de votre audience. La bonne nouvelle, c’est que rendre la vidéo accessible est tout à fait réalisable, et que les techniques impliquées — sous-titres, transcriptions et audiodescriptions — offrent également des bénéfices commerciaux mesurables qui n’ont rien à voir avec la conformité.

Pourquoi l’accessibilité vidéo n’est plus optionnelle

Le paysage juridique autour de l’accessibilité vidéo s’est considérablement durci ces dernières années. Le 8 avril 2024, le U.S. Department of Justice (DOJ) a publié une règle finale qui améliore l’accès au web et aux applications mobiles au titre du Titre II de l’ADA, en l’alignant sur WCAG 2.1 Niveau AA — établissant ainsi cette norme pour les sites web et applications des gouvernements d’États et locaux. La règle mise à jour exige que ces entités fournissent des sous-titres, des audiodescriptions et des lecteurs vidéo accessibles, ainsi que la navigation au clavier pour la conformité vidéo ADA. Pour les entités publiques desservant des populations de plus de 50 000 personnes, la date limite de conformité est le 24 avril 2026. Les entités publiques plus petites ont jusqu’en avril 2027.

Les entreprises privées relèvent du Titre III de l’ADA, qui ne prévoit pas de date limite fédérale unique mais fait l’objet de contentieux vigoureux et continus. Les tribunaux se réfèrent de plus en plus à WCAG 2.1 Niveau AA comme norme, ce qui fait de la conformité proactive la voie la plus sûre. Cette évolution confirme que les sous-titres et les audiodescriptions sont des « aides auxiliaires » essentielles au titre de l’ADA, rendant le contenu numérique plus accessible pour tous les utilisateurs.

Au-delà du risque juridique, l’argument lié à l’audience est puissant. Selon une enquête menée par Verizon Media et Publicis Media, 80% des personnes qui utilisent des sous-titres n’ont pas de déficience auditive — et 50% estiment que les sous-titres sont importants puisqu’elles regardent souvent des vidéos sans audio. Le visionnage de vidéos se fait de plus en plus en public, 69% des personnes interrogées déclarant avoir regardé des vidéos avec le son coupé dans des lieux publics. En d’autres termes, les fonctionnalités d’accessibilité correspondent aux préférences du grand public, et non à des aménagements de niche.

71% des personnes en situation de handicap quittent immédiatement un site web s’il n’est pas accessible. Chaque vidéo inaccessible sur votre site est une porte que vous fermez activement à une part importante de votre audience — et les moteurs de recherche ne sont pas épargnés par ce problème, comme nous le verrons plus loin.

Le cadre WCAG : ce que les directives exigent réellement

Les Web Content Accessibility Guidelines (WCAG) sont organisées autour de quatre principes fondamentaux — perceptible, utilisable, compréhensible et robuste — et de trois niveaux de conformité : A, AA et AAA. Le niveau AA est la cible pour la conformité légale dans la plupart des juridictions, et il couvre l’ensemble des exigences en matière d’accessibilité vidéo. Comprendre quels critères de succès s’appliquent à quel type de contenu est essentiel avant de pouvoir hiérarchiser votre travail de remédiation.

Pour les médias synchronisés préenregistrés (une vidéo avec contenu audio et visuel), les principales exigences de niveau A et AA sont :

  • SC 1.2.1 — Audio seul et vidéo seule (préenregistrés) : Pour les médias audio seuls préenregistrés et les médias vidéo seuls préenregistrés, une alternative pour les médias temporels doit être fournie, présentant une information équivalente au contenu.
  • SC 1.2.2 — Sous-titres (préenregistrés) : Des sous-titres sont fournis pour tout contenu audio préenregistré dans des médias synchronisés, sauf lorsque le média est une alternative média au texte et est clairement identifié comme tel.
  • SC 1.2.3 — Audiodescription ou alternative média (préenregistrés) : Une alternative pour les médias temporels ou une audiodescription du contenu vidéo préenregistré est fournie pour les médias synchronisés, sauf lorsque le média est une alternative média au texte et est clairement identifié comme tel. Il s’agit d’une exigence de niveau A.
  • SC 1.2.4 — Sous-titres (en direct) : Des sous-titres sont fournis pour tout contenu audio en direct dans des médias synchronisés. Il s’agit d’une exigence de niveau AA.
  • SC 1.2.5 — Audiodescription (préenregistrés) : Une audiodescription est fournie pour tout contenu vidéo préenregistré dans des médias synchronisés. Il s’agit de la version plus stricte de niveau AA du SC 1.2.3.

Il convient de noter que WCAG 2.1 et 2.2 n’introduisent pas de différences par rapport à 2.0 concernant les exigences relatives au sous-titrage ou à l’audiodescription, de sorte que les obligations fondamentales sont restées cohérentes dans les versions récentes. Ce qui a changé, c’est le paysage juridique et réglementaire qui se réfère à ces critères.

Une idée reçue fréquente est que fournir une transcription satisfait à l’exigence de sous-titrage. Ce n’est pas le cas. Les transcriptions seules sont insuffisantes pour le contenu vidéo, car le texte doit être synchronisé avec la vidéo. Une transcription et des sous-titres ont des fonctions qui se recoupent mais restent distinctes.

Sous-titres : la base de la vidéo accessible

Les sous-titres sont une représentation textuelle synchronisée et horodatée de la piste audio d’une vidéo. Contrairement aux sous-titres de traduction, qui supposent que le spectateur peut entendre mais ne comprend pas la langue, les sous-titres codés supposent que le spectateur ne peut pas entendre. Ils rendent la vidéo accessible aux personnes sourdes et malentendantes en fournissant une piste temps-vers-texte en complément ou en remplacement de l’audio — et si le texte des sous-titres est principalement constitué de paroles, il inclut aussi des éléments non verbaux comme l’identification des locuteurs et les effets sonores, qui sont essentiels à la compréhension du contenu.

La qualité est la variable qui distingue de véritables sous-titres accessibles d’un simple exercice de conformité. La norme de l’industrie pour la précision des sous-titres est de 99%. Le Media Hub de l’University of Minnesota at Duluth indique que les sous-titres automatiques de YouTube ne sont précis qu’à 60–70%, selon la qualité audio. Cet écart est considérable : des sous-titres truffés d’erreurs ne sont pas seulement inutiles — ils induisent activement en erreur les personnes sourdes et malentendantes, en déformant le contenu dont elles dépendent. Pour les flux de production, les sous-titres générés par l’IA doivent être considérés comme un premier jet nécessitant une relecture humaine, et non comme un produit fini.

Des sous-titres de haute qualité présentent trois caractéristiques décrites par le Described and Captioned Media Program (DCMP) : ils sont précis (l’objectif étant l’absence d’erreurs), cohérents (uniformité du style et de la présentation) et clairs (une représentation textuelle complète de l’audio, incluant l’identification des locuteurs et les informations non verbales). Sur le plan technique, la lisibilité dépend aussi de l’affichage des sous-titres. Les directives WCAG recommandent un ratio de contraste minimal de 4.5:1 pour le texte, tandis que la taille de police doit être d’au moins 14 points — les polices aux traits fins ou aux caractéristiques inhabituelles sont déconseillées car elles sont plus difficiles à lire.

Les deux principaux formats de fichiers de sous-titres pour le web sont WebVTT et SRT. WebVTT est le format recommandé pour la vidéo web — c’est le format de sous-titres natif des lecteurs vidéo HTML5, il prend en charge des options de style et est largement pris en charge par les navigateurs et les plateformes vidéo. SRT est l’autre format courant et fonctionne bien pour la plupart des plateformes, mais offre moins d’options de style que VTT. Voici un exemple minimal d’élément vidéo HTML5 avec une piste de sous-titres associée :

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

L’attribut kind='captions' est important — il indique au navigateur et aux technologies d’assistance que cette piste est destinée aux personnes sourdes et malentendantes plutôt qu’à la traduction linguistique. L’ajout de l’attribut default permet d’afficher automatiquement les sous-titres, ce qui mérite d’être envisagé pour les pages riches en contenu où l’utilisateur pourrait ne pas remarquer le bouton CC.

Pour la vidéo en direct — webinaires, diffusions en direct, événements virtuels — WCAG 2.1 Niveau AA exige des sous-titres pour tout audio en direct dans des médias synchronisés, ce qui est particulièrement important pour les webinaires, les événements en direct et les diffusions en temps réel. Des plateformes comme Zoom prennent en charge les sous-titres en direct via la reconnaissance automatique de la parole, et offrent également un mécanisme d’intégration de sous-titreurs humains pour des exigences de précision plus élevées.

Transcriptions : une accessibilité plus large, une portée plus profonde

Une transcription est un document écrit qui capture tout ce qui se trouve dans une vidéo — tous les dialogues, les effets sonores pertinents et (pour les transcriptions descriptives) les informations visuelles importantes. Une transcription fournit une version textuelle mot à mot de la partie audio du contenu vidéo, ainsi que des informations audio non verbales qui aident le lecteur à comprendre le contenu — et une transcription descriptive va plus loin, en ajoutant des informations visuelles qui aident les personnes à comprendre le contenu.

Selon WCAG 2.1 Niveau AA, les transcriptions sont strictement requises pour le contenu audio seul, comme les podcasts et les enregistrements audio. Pour les vidéos sous-titrées, les transcriptions ne sont pas exigées par WCAG 2.1 Niveau AA — cependant, les transcriptions sont recommandées pour toutes les vidéos, car elles sont plus accessibles que les sous-titres pour les personnes sourdes-aveugles, et bénéficient également aux personnes avec une connexion internet lente, à celles qui souhaitent parcourir ou rechercher rapidement le contenu d’une vidéo, et à celles qui préfèrent simplement le texte. La meilleure pratique consiste à les fournir, indépendamment de l’obligation stricte de WCAG.

Lors de la rédaction d’une transcription descriptive, veillez à inclure :

  • Tous les dialogues, attribués aux différents locuteurs
  • Les effets sonores significatifs et les signaux audio non verbaux (par ex. [applaudissements], [sonnerie d’alarme])
  • Les descriptions du texte à l’écran, des graphiques ou des visuels qui ne sont pas expliqués verbalement
  • Les informations de mise en scène lorsque cela influe sur la compréhension

Un débat pratique porte sur le caractère mot à mot ou légèrement édité des transcriptions. Alors que certaines ressources insistent sur des transcriptions verbatim, les transcriptions éditées sont souvent la meilleure option — car vous écrivez pour de vraies personnes, et un langage clair et concis améliore l’accessibilité. Supprimer les mots de remplissage comme « euh » améliore généralement la lisibilité sans sacrifier la précision.

Les transcriptions offrent également un dividende SEO significatif. Les moteurs de recherche ne peuvent pas regarder votre vidéo, mais ils peuvent indexer vos sous-titres et transcriptions — et l’ajout d’une transcription textuelle à la page de votre vidéo fournit aux moteurs de recherche un contenu indexable qui correspond aux requêtes. Discovery Digital Networks a mené une expérience sur sa chaîne YouTube en comparant des vidéos avec et sans sous-titres codés ; ils ont constaté que les vidéos sous-titrées bénéficiaient en moyenne de 7,32% de vues supplémentaires, et ont confirmé que les sous-titres étaient indexés par les robots de recherche — en testant cela via une requête contenant une phrase n’apparaissant nulle part ailleurs que dans les sous-titres, la vidéo apparaissant en quatrième position dans les résultats de recherche YouTube.

Audiodescriptions : l’accessibilité pour les personnes aveugles et malvoyantes

Les audiodescriptions (AD) répondent à une barrière d’accessibilité complètement différente de celle des sous-titres. Là où les sous-titres servent les utilisateurs qui ne peuvent pas entendre, les audiodescriptions servent ceux qui ne peuvent pas voir. L’audiodescription est une narration des informations visuelles significatives d’une vidéo afin de fournir un contexte, clarifier qui parle et décrire les éléments visuels — pensez-y comme à un texte alternatif pour les vidéos. Des exemples d’informations pertinentes incluent les expressions faciales et les scènes — tout ce qu’un spectateur voyant perçoit visuellement mais qui n’est pas transmis par le dialogue ou la narration.

Toutes les vidéos n’ont pas besoin d’audiodescription. En général, si vous fermez les yeux mais pouvez toujours suivre le programme — comme une interview face caméra où l’intervenant explique tout verbalement — vous n’en avez probablement pas besoin. En revanche, si quelqu’un se réfère à des visuels dans une présentation sans les décrire à voix haute, une audiodescription sera probablement nécessaire. Une démonstration de produit montrant une interface cliquée sans décrire les actions, une vidéo de formation décrivant un schéma, ou une vidéo marketing riche en visuels de mise en scène — tout cela nécessite une audiodescription.

Il existe deux types d’audiodescription à connaître :

  • Audiodescription standard : Les descriptions utilisent les pauses naturelles de la bande-son existante pour insérer la narration des éléments visuels tels que les actions, les décors, l’apparence des personnages, le langage corporel, les costumes, l’éclairage et le texte à l’écran.
  • Audiodescription étendue : Avec l’audiodescription étendue, la vidéo est momentanément mise en pause pour permettre des descriptions plus longues lorsque nécessaire. Pour l’AD étendue, fournissez une version du film avec audiodescriptions étendues et une version sans. Ceci est requis au niveau AAA de WCAG (SC 1.2.7) mais constitue une bonne pratique lorsque les pauses standard sont insuffisantes.

La mise en œuvre des audiodescriptions dans un contexte web présente des défis pratiques. L’un des défis de la mise en œuvre de l’audiodescription est la prise en charge par les lecteurs — la plupart des navigateurs et lecteurs vidéo ne prennent pas en charge les audiodescriptions de la même manière qu’ils prennent en charge les sous-titres. Cependant, Able Player est un lecteur multimédia HTML5 multiplateforme entièrement accessible qui prend en charge l’audiodescription sous forme de vidéo séparée ou dans un fichier WebVTT lu à voix haute par les navigateurs modernes. La technique de production la plus fiable reste l’enregistrement d’une version distincte de la vidéo avec la piste d’audiodescription intégrée à la bande-son, et la mise à disposition d’un basculement clairement étiqueté entre la version standard et la version décrite.

Les normes WCAG 2.1 AA exigent que les audiodescriptions offrent un accès équivalent à l’information visuelle, ce qui signifie qu’elles doivent capturer les détails clés qu’un spectateur voyant comprendrait. Rédigez les descriptions dans un langage simple et objectif. Décrivez ce qui est réellement à l’écran, et non votre interprétation — par exemple, dites « Une étudiante lève la main », et non « Une étudiante semble impatiente de répondre ».

Lecteurs vidéo accessibles : la couche souvent négligée

Même des sous-titres et audiodescriptions parfaits sont inutiles si le lecteur vidéo lui-même ne peut pas être utilisé au clavier ou avec une technologie d’assistance. Le lecteur est le mécanisme de diffusion, et il doit être accessible en tant que tel. De nombreux utilisateurs naviguent sur le web uniquement au clavier ou avec une technologie d’assistance, de sorte que tout le contenu doit être utilisable via une interface clavier sans souris.

Les principales exigences d’accessibilité d’un lecteur incluent une opérabilité complète au clavier (lecture, pause, navigation, volume, activation des sous-titres, plein écran, tous accessibles au clavier), des indicateurs de focus visibles sur les contrôles, des libellés ARIA pour tous les éléments interactifs, et des contrôles de sous-titres faciles à localiser. La Section 508 exige également que les contrôles utilisateur pour les sous-titres et les audiodescriptions soient disponibles au même niveau que les contrôles de volume ou les boutons de lecture/pause.

La lecture automatique est un risque d’accessibilité courant qui mérite une attention particulière. Les vidéos qui démarrent automatiquement peuvent être frustrantes pour de nombreux utilisateurs et poser de sérieux problèmes aux personnes ayant des troubles de l’attention, de l’autisme ou des déficiences visuelles qui s’appuient sur des lecteurs d’écran — le contenu en lecture automatique peut interférer avec la sortie du lecteur d’écran, créant de la confusion et entravant l’accès. Désactivez la lecture automatique par défaut sur toutes les intégrations vidéo, et si vous devez l’utiliser, assurez-vous que le volume est coupé au démarrage et qu’un mécanisme de pause est immédiatement accessible.

Lors de l’intégration de vidéos tierces (YouTube, Vimeo, Wistia, etc.), vérifiez que le code d’intégration de la plateforme gère correctement le focus clavier et que l’iframe possède un attribut title explicite afin que les utilisateurs de lecteurs d’écran sachent avec quoi ils interagissent avant de naviguer dans le lecteur :

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

Construire un flux de travail vidéo accessible

L’approche la plus durable de l’accessibilité vidéo n’est pas la remédiation a posteriori — c’est l’intégration de l’accessibilité dans votre chaîne de production et de publication dès le départ. Le coût de la mise en conformité d’une vaste bibliothèque vidéo peut être important ; le coût de la création correcte dès le début est marginal en comparaison.

Un flux de travail pratique ressemble à ceci. Pendant la préproduction, rédigez un script détaillé. Un script complet est la base de tous les éléments d’accessibilité en aval — sous-titres, transcriptions et scripts d’audiodescription deviennent tous beaucoup plus simples lorsque de bons matériaux sources existent. Pendant la production, minimisez le bruit de fond, utilisez une diction claire et veillez à ce que le texte à l’écran, les graphiques et les actions visuelles significatives soient décrits verbalement lorsque c’est possible. Cela réduit considérablement la charge d’audiodescription.

La postproduction est le moment où les éléments d’accessibilité sont produits. Utilisez l’outil de sous-titrage par IA de votre choix pour générer un premier jet, puis faites-le relire et corriger par un humain — en particulier pour la terminologie technique, les noms propres et le vocabulaire spécifique à votre domaine, là où la transcription par IA est la plus sujette aux erreurs. Créez la transcription descriptive en combinant votre fichier de sous-titres avec des descriptions des informations visuelles significatives. Produisez la narration d’audiodescription en utilisant soit des voix internes, soit un service professionnel d’AD.

Pour les organisations disposant de grandes bibliothèques vidéo existantes, hiérarchisez la remédiation en fonction de l’usage. Commencez par vos vidéos les plus consultées, les contenus d’intégration et de formation, les démonstrations de produits, et toute vidéo intégrée sur des pages qui apparaissent dans les tunnels de conversion. Commencez les audits d’accessibilité dès maintenant, priorisez d’abord les contenus les plus utilisés, puis intégrez l’accessibilité dans tous les nouveaux flux de travail vidéo à l’avenir.

Une erreur fréquente et coûteuse consiste à traiter les sous-titres comme un livrable de dernière étape — quelque chose que l’on ajoute juste avant la publication. Intégrez la relecture des sous-titres dans votre liste de contrôle QA, de la même manière que vous vérifieriez l’encodage vidéo ou la création de vignettes. Une heure d’effort au bon moment dans le flux de travail permet d’économiser de nombreuses heures de remédiation plus tard.

Le cas commercial : au-delà de la conformité

Une vidéo accessible est une meilleure vidéo pour tous les spectateurs, pas seulement pour ceux en situation de handicap. Les données à ce sujet sont convaincantes. Une étude de recherche nationale auprès de 2 124 étudiants de 15 collèges et universités différents a révélé que 98,6% des étudiants trouvent les sous-titres utiles. 71% des étudiants sans difficultés auditives utilisent des sous-titres au moins de temps en temps, et 66% des étudiants ESL trouvent les sous-titres « très » ou « extrêmement » utiles.

L’impact sur l’engagement est tout aussi significatif. Facebook a constaté que les sous-titres augmentaient les vues de vidéos de 12% par rapport aux vidéos sans sous-titres ; une autre étude a mesuré une augmentation de 40% des vues pour les vidéos sous-titrées, et a montré que les spectateurs étaient 80% plus susceptibles de regarder une vidéo jusqu’au bout lorsque des sous-titres codés étaient disponibles.

Les avantages SEO s’ajoutent aux bénéfices en termes d’engagement. Les transcriptions vidéo contribuent à maximiser le SEO car elles donnent du contexte aux moteurs de recherche — cela peut se traduire par une visibilité plus élevée des vidéos dans les pages de résultats lorsque l’utilisateur saisit une recherche connexe. Les transcriptions facilitent également la création d’articles de blog, de newsletters ou d’extraits pour les réseaux sociaux à partir de vos vidéos — transformant un seul contenu vidéo en un actif de contenu multicanal à coût additionnel minimal.

Enfin, considérez la trajectoire démographique à long terme. L’Organisation mondiale de la Santé estime que d’ici 2050, près de 2,5 milliards de personnes auront un certain degré de perte auditive, et 1 sur 10 aura une perte auditive significative. L’audience qui dépend de la vidéo accessible n’est pas en train de diminuer. Chaque investissement que vous faites aujourd’hui dans l’accessibilité vidéo génère des dividendes composés à mesure que cette audience grandit.

Points clés à retenir

  • Les sous-titres sont obligatoires pour tous les médias synchronisés préenregistrés et en direct selon WCAG 2.1 Niveau AA. Les sous-titres générés automatiquement ne sont qu’un point de départ — la meilleure pratique de l’industrie exige une précision de 99%, ce qui signifie que la relecture humaine de la sortie de l’IA est non négociable pour tout contenu destiné au public.
  • Les transcriptions sont fortement recommandées pour toutes les vidéos même lorsqu’elles ne sont pas strictement requises, car elles servent les personnes sourdes-aveugles, améliorent le SEO en fournissant aux moteurs de recherche du texte indexable, et bénéficient à tout spectateur qui préfère parcourir ou consulter le contenu sous forme de texte.
  • Les audiodescriptions sont requises au niveau WCAG AA pour les vidéos préenregistrées qui contiennent des informations visuelles significatives non transmises par l’audio. Testez en fermant les yeux — si vous manquez un contenu important, une audiodescription est nécessaire.
  • Votre lecteur vidéo doit être accessible au clavier avec des contrôles correctement étiquetés pour les sous-titres et les audiodescriptions. Un lecteur inaccessible compromet tous les autres investissements en accessibilité que vous avez réalisés dans le contenu lui-même.
  • Le cas commercial en faveur de l’accessibilité vidéo est solide en soi : les vidéos sous-titrées reçoivent nettement plus de vues et de visionnages complets, les transcriptions améliorent le classement SEO, et 80% des utilisateurs de sous-titres n’ont pas de déficience auditive — la vidéo accessible touche une audience plus large sur tous les indicateurs qui comptent pour votre organisation.