WCAG 1.2.3: Audiodescrição ou Alternativa em Mídia (Pré-gravado)

A WCAG 1.2.3 exige que a mídia sincronizada pré-gravada (vídeo com áudio) forneça uma descrição em áudio do conteúdo visual ou uma alternativa em texto completo, garantindo que pessoas cegas ou com baixa visão possam acessar as informações transmitidas visualmente.

O Que Esta Regra Significa

O Critério de Sucesso 1.2.3 do WCAG aborda uma das barreiras mais fundamentais para pessoas cegas e com baixa visão ao consumir conteúdo em vídeo: a perda de informações visuais que nunca são faladas em voz alta. O critério estabelece que, para toda mídia sincronizada pré-gravada — isto é, conteúdo em vídeo acompanhado de áudio — os autores de sites devem fornecer uma audiodescrição da faixa visual ou uma alternativa completa em texto para a mídia.

Uma audiodescrição é uma narração adicionada à faixa de áudio de um vídeo que descreve detalhes visuais importantes que não podem ser compreendidos apenas pelo áudio principal. Essas descrições são normalmente inseridas durante pausas naturais no diálogo, ou o vídeo pode ser pausado momentaneamente para permitir que o narrador tenha tempo de descrever eventos visuais complexos. Por exemplo, se um vídeo de treinamento mostra uma pessoa apresentadora desenhando um diagrama em um quadro branco sem comentar verbalmente, uma audiodescrição narraria o que está sendo desenhado e por que isso é importante.

Uma alternativa completa em texto para mídia é um documento que transmite todas as informações da mídia sincronizada — tanto o conteúdo de áudio (diálogo, narração, efeitos sonoros) quanto o conteúdo visual (ações, cenários, texto na tela, identificação de quem fala) — em formato de texto. Trata-se de uma versão mais abrangente de uma transcrição; ela deve descrever eventos visuais com precisão suficiente para que uma pessoa que não possa ver nem ouvir o vídeo consiga entender todas as informações que o vídeo comunica.

Este critério se aplica especificamente à mídia sincronizada pré-gravada. Transmissões de vídeo ao vivo são tratadas por outros critérios (1.2.4 para legendas), e conteúdo apenas em áudio é coberto pelo 1.2.1. Importante: se a faixa de vídeo for puramente decorativa — por exemplo, um plano de fundo animado que não transmite nenhuma informação — o critério não se aplica. Da mesma forma, se a faixa de áudio de um vídeo já descreve completamente todas as informações visuais significativas (situação às vezes chamada de “áudio equivalente”), nenhuma audiodescrição adicional é necessária.

Para atender ao 1.2.3, é necessário que pelo menos uma das seguintes condições seja verdadeira para cada mídia sincronizada pré-gravada: é fornecida uma audiodescrição, ou uma alternativa em texto que transmita todas as informações de áudio e visuais é vinculada ou colocada diretamente ao lado da mídia. Há falha quando o conteúdo em vídeo contém elementos visuais significativos — texto na tela, dados gráficos, expressões faciais que transmitem emoção importante, etapas de demonstração — que não são transmitidos por nenhum áudio ou alternativa em texto.

Observe que 1.2.3 é um requisito de Nível A, o que o torna a expectativa básica. O critério de Nível AA mais robusto, 1.2.5 (Audiodescrição — Pré-gravada), exige audiodescrições em todos os casos em que elas são necessárias, enquanto 1.2.3 permite a alternativa em texto como substituto no Nível A.

Por Que Isso É Importante

Aproximadamente 2,2 bilhões de pessoas no mundo têm algum tipo de deficiência visual, de acordo com a Organização Mundial da Saúde. Para pessoas cegas, conteúdo em vídeo sem audiodescrição ou alternativa em texto é completamente inacessível como fonte de informação visual. Um leitor de tela pode anunciar que há um elemento de vídeo e pode ler quaisquer legendas associadas, mas não consegue interpretar o conteúdo visual dos quadros do vídeo em si. Sem uma audiodescrição ou alternativa de mídia, essas pessoas simplesmente perdem tudo o que o vídeo mostra, mas não diz.

Considere um cenário concreto: uma plataforma de e-commerce turca publica um vídeo de demonstração de produto para um dispositivo de casa inteligente. O vídeo mostra uma pessoa apresentadora pareando o dispositivo com um aplicativo de smartphone, navegando em menus em ambas as telas e conectando cabos em portas específicas. A narração da pessoa apresentadora se concentra nos benefícios do dispositivo, mas não descreve quais botões estão sendo pressionados ou quais itens de menu estão sendo selecionados. Uma pessoa cega assistindo a esse vídeo com um leitor de tela ouve apenas a narração — ela não recebe nenhuma das informações visuais de procedimento que permitiriam replicar a configuração em casa. Com uma audiodescrição ou uma alternativa detalhada em texto, essa pessoa passa a ter acesso completo ao mesmo conteúdo instrucional.

Além de pessoas cegas, alternativas detalhadas em texto beneficiam pessoas com deficiências cognitivas que podem processar instruções escritas com mais facilidade do que um vídeo em ritmo acelerado. Elas também beneficiam pessoas em ambientes com largura de banda limitada que não conseguem transmitir vídeo, pessoas em redes corporativas onde vídeo é bloqueado e pessoas cujos dispositivos ou navegadores não suportam determinados formatos de vídeo. Mecanismos de busca também indexam alternativas em texto, o que significa que fornecê-las melhora o SEO ao tornar o conteúdo em vídeo descobrível por meio de busca em texto integral — um benefício de negócios significativo além do valor de acessibilidade.

Para pessoas com deficiência motora que não conseguem operar controles de vídeo com precisão, uma alternativa em texto permite consumir o conteúdo em seu próprio ritmo, sem ter que lidar com controles de pausar, retroceder ou reproduzir. Em resumo, audiodescrições e alternativas de mídia atendem a uma ampla população e melhoram a qualidade geral e o alcance do conteúdo em vídeo muito além das pessoas que estritamente precisam delas para ter acesso.

Regras Relacionadas do Axe-core

O WCAG 1.2.3 exige testes manuais. Não há regra do axe-core que sinalize automaticamente uma violação desse critério, e entender o motivo ajuda a esclarecer o que as pessoas testadoras devem verificar manualmente.

Teste manual necessário — análise de conteúdo visual: Ferramentas automatizadas podem detectar a presença de um elemento <video>, de um elemento <track> ou de um link de transcrição associado, mas não podem avaliar se o conteúdo de uma audiodescrição ou alternativa em texto é suficiente. A suficiência depende de se todas as informações visuais significativas são transmitidas — um julgamento que exige que uma pessoa assista ao vídeo, leia a alternativa e compare ambos. Uma varredura com axe pode confirmar que um elemento <track kind='descriptions'> está presente, mas não pode verificar se as descrições realmente cobrem todos os eventos visuais críticos do vídeo.
Teste manual necessário — avaliação de equivalência: Determinar se a faixa de áudio principal já descreve todas as informações visuais (tornando desnecessária uma audiodescrição adicional) é, por natureza, um julgamento de conteúdo. Uma pessoa revisora precisa assistir ao vídeo e avaliar se uma pessoa cega, ouvindo apenas o áudio, perderia alguma informação significativa. Nenhuma regra automatizada pode fazer essa determinação de forma confiável.
Teste manual necessário — completude da alternativa em texto: Se for fornecida uma alternativa em texto (alternativa completa de mídia) em vez de uma audiodescrição, uma pessoa deve ler a alternativa em texto e compará-la com o vídeo para confirmar que todos os eventos visuais, textos na tela e ações significativas estão representados. Ferramentas automatizadas podem verificar se existe um link para uma transcrição, mas não podem avaliar se essa transcrição é completa e precisa.

Como Testar

Base de varredura automatizada: Execute o axe DevTools ou o Google Lighthouse na página que contém o vídeo. Embora nenhuma das ferramentas sinalize diretamente uma violação do 1.2.3, a varredura pode revelar problemas relacionados, como ausência de elementos <track> (sinalizados sob 1.2.2 para legendas) ou ausência de alternativas em texto para mídia baseada em imagem. Anote quaisquer elementos de vídeo presentes na página para saber quais exigem revisão manual sob o 1.2.3.
Identificar mídia sincronizada: Localize todos os elementos <video> (ou players de terceiros incorporados, como iframes do YouTube ou Vimeo) na página. Confirme se cada vídeo é pré-gravado e sincronizado (ou seja, se tem faixas de áudio e vídeo que são significativas). Se um vídeo for apenas em áudio ou tiver uma faixa de vídeo decorativa, ele está fora do escopo do 1.2.3.
Assistir ao vídeo com o som ligado: Veja o vídeo normalmente e preste muita atenção a qualquer informação transmitida visualmente, mas não descrita no áudio. Exemplos comuns incluem: sobreposições de texto na tela, diagramas ou gráficos sendo desenhados, demonstrações passo a passo de um processo físico, expressões faciais ou linguagem corporal que carregam significado emocional e identificação de quem fala quando várias pessoas aparecem na tela.
Verificar se há uma faixa de audiodescrição: Inspecione o código do elemento de vídeo em busca de um elemento <track kind='descriptions'>. Se estiver presente, ative as descrições no player de vídeo (ou use um navegador que as exponha) e assista novamente ao vídeo. Verifique se todos os eventos visuais significativos identificados na etapa 3 são descritos na faixa de audiodescrição em um momento apropriado.
Verificar se há uma alternativa completa em texto: Se não houver faixa de audiodescrição, procure um link para uma transcrição ou uma alternativa completa de mídia ao lado ou imediatamente após o vídeo. Confirme que o documento vinculado ou o texto em linha descreve todo o conteúdo de áudio (diálogo, narração, efeitos sonoros relevantes) e todo o conteúdo visual (ações, texto na tela, descrições de cenário, identificação de quem fala).
Verificação com leitor de tela (NVDA + Firefox): Abra a página com o NVDA em execução. Navegue até o elemento de vídeo e confirme que o NVDA anuncia a presença do vídeo e de quaisquer controles associados. Se uma alternativa em texto for fornecida em linha ou por meio de um link, navegue até ela e confirme que o NVDA lê todo o conteúdo sem omissões. Observação: o NVDA não consegue ler o conteúdo visual dos quadros do vídeo, o que reforça por que a comparação humana na etapa 3 é essencial.
Verificação com leitor de tela (VoiceOver + Safari no macOS): Ative o VoiceOver e navegue até o vídeo. Use o rotor do VoiceOver para encontrar o elemento de vídeo e quaisquer elementos de faixa ou link associados. Confirme que a faixa de descrição, se presente, é acessível pelos controles de mídia do Safari.
Players de terceiros: Para incorporações do YouTube, verifique se o vídeo tem uma versão com audiodescrição (frequentemente um vídeo separado vinculado na descrição) ou se há uma transcrição associada disponível e vinculada na página que faz a incorporação. Para o Vimeo, verifique as configurações de acessibilidade do vídeo. Players de terceiros não satisfazem automaticamente o 1.2.3 — a pessoa autora da página é responsável por garantir que uma alternativa seja fornecida ou vinculada.

Como Corrigir

Cenário 1: Vídeo HTML5 sem audiodescrição — Incorreto

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Cenário 1: Vídeo HTML5 com faixa de audiodescrição — Correto

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Cenário 2: Vídeo HTML5 sem alternativa em texto — Incorreto

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Cenário 2: Vídeo HTML5 com alternativa completa de mídia — Correto

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Cenário 3: Incorporação do YouTube sem alternativa suplementar — Incorreto

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Cenário 3: Incorporação do YouTube com alternativa em texto vinculada — Correto

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Cenário 4: Vídeo cujo áudio já descreve todo o conteúdo visual (exceção) — Correto

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Erros Comuns

Fornecer legendas em vez de audiodescrição: Legendas transcrevem o áudio falado para pessoas surdas; elas não descrevem informações visuais para pessoas cegas. Adicionar um elemento <track kind='captions'> satisfaz o 1.2.2, mas não satisfaz o 1.2.3. São dois requisitos separados que atendem a dois grupos de deficiência diferentes.
Vincular uma transcrição que cobre apenas o diálogo: Uma alternativa em texto para o 1.2.3 deve descrever todo o conteúdo visual significativo — texto na tela, diagramas, ações físicas, identificação de quem fala — não apenas o que é falado. Uma transcrição apenas do roteiro normalmente falha nesse critério se o vídeo contiver informações apenas visuais.
Colocar o link da alternativa em texto longe do vídeo: Se a alternativa completa de mídia estiver escondida em uma nota de rodapé ou em outra página sem um link claro e adjacente, as pessoas usuárias podem não encontrá-la. O link deve aparecer imediatamente antes ou depois do elemento de vídeo, para que pessoas que usam leitor de tela o encontrem na ordem natural de leitura.
Presumir que a transcrição gerada automaticamente pelo YouTube satisfaz o critério: Transcrições automáticas do YouTube cobrem apenas o áudio falado. Elas não descrevem o conteúdo visual e frequentemente são imprecisas. Não constituem uma alternativa completa de mídia suficiente sob o 1.2.3.
Usar um elemento <track kind='descriptions'> mas deixar o arquivo VTT vazio ou incompleto: A presença do elemento de faixa não é suficiente; o arquivo VTT deve conter descrições precisas e pontuais de todos os eventos visuais significativos. Um arquivo VTT vazio ou muito incompleto não satisfaz o critério.
Deixar de descrever sobreposições de texto na tela: Vídeos de marketing frequentemente exibem estatísticas, nomes de produtos ou textos de chamada para ação como sobreposições animadas. Se essas sobreposições não forem lidas em voz alta por uma pessoa narradora, elas devem aparecer na audiodescrição ou na alternativa em texto — algo que autores frequentemente deixam passar.
Escrever audiodescrições vagas demais: Descrições como “a pessoa apresentadora demonstra o processo” são insuficientes. Descrições eficazes nomeiam ações específicas, elementos de interface, cores quando relevantes e relações espaciais: “A pessoa apresentadora clica no botão vermelho Excluir no lado direito da barra de ferramentas e, em seguida, confirma selecionando OK na caixa de diálogo.”
Não fornecer alternativa para vídeos em autoplay ou de fundo que trazem informação: Um vídeo que é reproduzido automaticamente e exibe informações importantes (como uma seção principal mostrando recursos de produto com textos sobrepostos) ainda é mídia sincronizada e exige conformidade se transmitir conteúdo significativo.
Tratar vídeos decorativos como isentos sem verificação: Equipes às vezes rotulam um vídeo como “decorativo” para evitar o requisito, mesmo quando ele realmente transmite informações sobre produtos ou conteúdo instrucional. A exceção de conteúdo decorativo se aplica apenas quando o vídeo realmente não adiciona nenhuma informação significativa além do que já está disponível no texto adjacente.
Esquecer de atualizar a audiodescrição ou a alternativa em texto quando o vídeo é atualizado: Se o conteúdo do vídeo mudar — por exemplo, etapas de produto forem revisadas ou dados de preços forem atualizados — a audiodescrição e a alternativa em texto devem ser atualizadas para corresponder. Alternativas desatualizadas são uma falha de conformidade, mesmo que as alternativas originais fossem precisas.

Relação com os Regulamentos de Acessibilidade da Turquia

A Circular Presidencial 2025/10 da Turquia, publicada no Diário Oficial nº 32933 em 21 de junho de 2025, estabelece padrões obrigatórios de acessibilidade na web para uma ampla gama de entidades públicas e privadas que operam na Turquia. A circular faz referência a padrões de acessibilidade internacionalmente reconhecidos, tendo o WCAG 2.2 Nível A e Nível AA como base técnica para conformidade. Como o WCAG 1.2.3 é um requisito de Nível A, ele está entre as obrigações mais fundamentais da circular — não há nível inferior de conformidade que permita às organizações ignorá-lo.

A circular abrange uma ampla gama de tipos de entidades. Instituições públicas e órgãos governamentais — incluindo ministérios, prefeituras, universidades públicas e outros órgãos públicos — devem alcançar conformidade em até um ano a partir da data de publicação da circular. Entidades do setor privado cobertas pela circular incluem plataformas de e-commerce, bancos e instituições financeiras, hospitais e prestadores de serviços de saúde privados, empresas de telecomunicações com 200.000 ou mais assinantes, agências de viagens licenciadas, empresas de transporte privadas e escolas particulares autorizadas pelo Ministério da Educação Nacional (MoNE). Essas organizações do setor privado têm dois anos a partir da data de publicação para alcançar conformidade.

Para qualquer entidade coberta que publique conteúdo em vídeo — o que hoje inclui praticamente todas as principais instituições e empresas turcas — o WCAG 1.2.3 cria uma obrigação concreta e exequível. Um banco que publica vídeos tutoriais explicando como usar seu aplicativo móvel, um hospital público que publica vídeos-guia para registro de pacientes, uma operadora de telecomunicações que compartilha vídeos promocionais com comparações de planos na tela ou um site de e-commerce que inclui vídeos de demonstração de produtos devem todos garantir que cada recurso de mídia sincronizada pré-gravada seja acompanhado de uma audiodescrição ou de uma alternativa completa em texto.

A não conformidade com os requisitos da circular pode resultar em escrutínio regulatório e danos à reputação e, à medida que a fiscalização da acessibilidade digital na Turquia amadurece, em exposição jurídica para as entidades cobertas. As organizações devem tratar o WCAG 1.2.3 não como um aprimoramento opcional, mas como uma obrigação legal básica. Na prática, isso significa realizar um inventário de todo o conteúdo em vídeo, avaliar quais vídeos contêm informações apenas visuais e produzir sistematicamente audiodescrições ou alternativas completas em texto para todos eles. Novos fluxos de produção de vídeo devem incluir entregáveis de acessibilidade — roteiros de descrição e alternativas em texto — como saídas padrão, ao lado de legendas e subtítulos.