Critérios de Sucesso WCAG · Level AAA
WCAG 1.2.7: Audiodescrição Estendida (Pré-gravado)
WCAG 1.2.7 exige que, quando as pausas no áudio em primeiro plano forem insuficientes para transmitir todas as informações visuais, descrições em áudio estendidas — obtidas por meio da pausa do vídeo — sejam fornecidas para mídias sincronizadas pré-gravadas. Isso garante que pessoas cegas e com baixa visão possam compreender plenamente conteúdos visuais complexos que descrições em áudio padrão não conseguem abranger.
O que Esta Regra Significa
O Critério de Sucesso 1.2.7 das WCAG — Descrição em Áudio Estendida (Pré-gravada) opera no Nível AAA e se baseia diretamente no requisito de Nível AA do SC 1.2.5 (Descrição em Áudio para Pré-gravados). Enquanto a descrição em áudio padrão simplesmente usa pausas naturais na faixa de áudio de um vídeo para narrar informações visuais, a descrição em áudio estendida vai além: quando essas pausas são muito curtas ou muito infrequentes para acomodar toda a descrição necessária, o vídeo é pausado e a descrição em áudio é reproduzida, após o que o vídeo é retomado.
O critério se aplica especificamente a mídia sincronizada pré-gravada — isto é, conteúdo em vídeo que possui uma trilha sonora sincronizada com seus elementos visuais, como filmes instrutivos, vídeos de treinamento corporativo, documentários, demonstrações de produtos e conteúdo semelhante. Ele não se aplica a mídia ao vivo, a conteúdo apenas de áudio ou a conteúdo apenas de vídeo em que não há trilha sonora.
Uma conformidade com este critério exige uma das seguintes condições: (a) é fornecida uma faixa de descrição em áudio estendida ou uma versão da mídia que pausa a reprodução para fornecer descrições de informações visuais críticas que não cabem nas pausas naturais, ou (b) todas as informações visuais já são transmitidas pela trilha de áudio existente sem necessidade de descrição adicional (às vezes chamada de versão "equivalentemente descrita"). Uma falha ocorre quando um vídeo sincronizado pré-gravado contém informações visuais significativas — como texto na tela, diagramas, expressões faciais que conduzem a narrativa ou demonstrações — que não são transmitidas nem por descrições em áudio em pausas naturais nem por descrições estendidas, e o áudio existente, sozinho, deixa uma pessoa cega sem essas informações.
As WCAG também reconhecem uma importante exceção: se a mídia for, em si, uma alternativa em mídia para texto — por exemplo, uma versão em vídeo de um documento em texto claramente rotulada como tal — então a descrição em áudio estendida não é exigida. Além disso, se o áudio em primeiro plano já descreve totalmente todo o conteúdo visual, nenhuma descrição adicional é necessária.
Vale notar que fornecer descrição em áudio estendida frequentemente exige a produção de uma versão inteiramente separada do vídeo, já que a maioria dos reprodutores de mídia não oferece suporte nativo ao mecanismo de pausar e retomar para entrega da descrição. Abordagens comuns incluem uma "versão descrita" dedicada acessível por meio de uma URL separada ou de um botão de alternância no reprodutor, ou o uso de um reprodutor de mídia que ofereça suporte a faixas de descrição estendida baseadas em TTML (Timed Text Markup Language) ou SMIL.
Por Que Isso Importa
A descrição em áudio estendida é fundamental para pessoas que são cegas ou têm baixa visão severa — um público maior do que muitos desenvolvedores supõem. De acordo com a Organização Mundial da Saúde, aproximadamente 2,2 bilhões de pessoas no mundo têm algum tipo de deficiência visual, sendo que pelo menos 1 bilhão delas apresentam condições que poderiam ter sido prevenidas ou permanecem sem tratamento. Para pessoas que dependem inteiramente de leitores de tela e saída de áudio, um vídeo que descreve apenas o que suas pausas naturais permitem pode deixar enormes lacunas de compreensão.
Considere um vídeo de treinamento médico demonstrando uma técnica cirúrgica. O narrador pode dizer: "Agora fazemos a incisão aqui", enquanto a câmera dá zoom em um marco anatômico específico e as mãos do cirurgião executam uma manobra precisa. A narração falada pressupõe que a pessoa espectadora consegue ver o contexto visual. Uma descrição em áudio padrão talvez consiga inserir uma breve observação durante uma pequena pausa, mas se a ação for contínua por dois minutos com fala constante, uma estudante de medicina cega recebe quase nenhum detalhe visual que é central para aprender a técnica. A descrição em áudio estendida pausa o vídeo e fornece a descrição completa: a anatomia visível, a ferramenta exata utilizada, o ângulo de abordagem, a reação do tecido. A estudante então passa a ter acesso equivalente ao material de aprendizagem.
Além da cegueira, a descrição em áudio estendida beneficia pessoas com deficiências cognitivas que processam informações mais lentamente e se beneficiam do contexto adicional que a narração descritiva fornece. Ela também ajuda pessoas em contextos apenas de áudio — como alguém ouvindo um vídeo de treinamento durante o trajeto — que não podem ver a tela independentemente de sua capacidade visual.
Do ponto de vista empresarial e jurídico, fornecer descrições em áudio estendidas sinaliza um compromisso sério e mensurável com a inclusão. Para organizações em setores regulados — instituições públicas, bancos, prestadores de serviços de saúde, estabelecimentos de ensino — demonstrar conformidade de Nível AAA em conteúdo de mídia complexo pode reduzir de forma significativa o risco jurídico e a exposição reputacional. Há também um benefício prático de SEO: os roteiros usados para produzir descrições em áudio estendidas frequentemente servem como transcrições ricas, que os mecanismos de busca indexam como conteúdo relevante, melhorando a capacidade de descoberta de recursos em vídeo.
Regras Relacionadas do Axe-core
O WCAG 1.2.7 exige testes manuais porque ferramentas automatizadas não conseguem avaliar o conteúdo semântico de um vídeo, comparar a trilha de áudio com a trilha visual ou determinar se as informações visuais estão adequadamente descritas. Não existe regra do axe-core que consiga assistir a um vídeo, entender o que é exibido visualmente e julgar se uma descrição em áudio estendida está presente, é precisa e completa. Esta é, fundamentalmente, uma tarefa de julgamento humano.
- Avaliação manual — comparação entre conteúdo visual e conteúdo de áudio: Uma pessoa testadora deve assistir ao vídeo com os olhos abertos e com os olhos fechados (ou usando um leitor de tela) e determinar se o áudio sozinho — incluindo qualquer descrição em áudio padrão — transmite todas as informações visuais significativas. Se não transmitir, a pessoa testadora deve verificar se é fornecida uma versão com descrição em áudio estendida. Ferramentas automatizadas não podem realizar essa comparação porque não têm a capacidade de interpretar quadros de vídeo como eventos visuais significativos ou correlacioná-los com significado semântico no áudio.
- Avaliação manual — mecanismo de pausar e retomar: Se uma descrição estendida for declarada, uma pessoa testadora deve verificar se o reprodutor realmente pausa durante a entrega da descrição e retoma corretamente depois. Esse comportamento é uma questão de reprodutor de mídia e de temporização que exige testes de reprodução ativos por uma pessoa, já que scanners automatizados não executam nem observam estados de reprodução de mídia.
- Avaliação manual — precisão e completude da descrição: Mesmo quando existe uma faixa de descrição em áudio estendida, seu conteúdo deve ser preciso e cobrir todas as informações visualmente críticas. Nenhuma regra automatizada pode avaliar se o texto da descrição representa correta e completamente o que é mostrado na tela. Uma descrição que diz "a apresentadora aponta para o quadro" quando o quadro contém um diagrama crítico com pontos de dados rotulados falharia neste critério, apesar de estar tecnicamente presente.
Como Testar
- Execute primeiro uma varredura automatizada de acessibilidade. Use o axe DevTools (extensão de navegador) ou o Lighthouse na página que contém o vídeo. Embora nenhuma das ferramentas possa verificar diretamente a conformidade com descrição em áudio estendida, elas podem sinalizar elementos de mídia ausentes ou quebrados, elementos de faixa ausentes e outros problemas estruturais. Anote quaisquer avisos sobre conteúdo de mídia como ponto de partida. O Axe pode sinalizar a ausência de uma faixa de legendas ou de descrição em áudio no nível do elemento, o que reduz o escopo da sua revisão manual.
- Identifique toda a mídia sincronizada pré-gravada na página. Localize cada elemento
<video>ou reprodutor de mídia incorporado (iframes do YouTube, embeds do Vimeo, reprodutores personalizados). Confirme que cada um contém áudio e vídeo sincronizados. Podcasts apenas de áudio ou vídeos silenciosos estão fora do escopo deste critério. - Assista ao vídeo apenas com áudio. Feche os olhos ou use um leitor de tela (NVDA com Firefox, VoiceOver com Safari ou JAWS com Chrome) e ouça o vídeo completo, incluindo qualquer faixa de descrição em áudio existente. Anote todos os momentos em que você não entende o que está acontecendo visualmente — ações, texto na tela, diagramas, transições de cena, expressões de personagens que conduzem a narrativa.
- Compare suas anotações com a trilha visual. Agora assista ao vídeo com o áudio silenciado e anote todas as informações visuais que aparecem na tela. Faça a correlação com o que você ouviu. Se conteúdo visual significativo não foi transmitido no áudio, o vídeo exige descrição em áudio. Se as pausas naturais no áudio forem muito curtas ou inexistentes para acomodar essas descrições, a descrição em áudio estendida é necessária.
- Verifique se há uma versão com descrição estendida. Procure um link claramente rotulado como "Versão com Descrição em Áudio" (ou similar), uma alternância no reprodutor de vídeo ou uma versão descrita em uma URL alternativa. Se estiver presente, ative-a e repita as etapas 3 e 4 com a versão descrita em reprodução, verificando se as pausas e descrições agora cobrem as informações visuais que estavam faltando.
- Teste o comportamento de pausar e retomar com NVDA + Firefox. Com a versão de descrição estendida em reprodução, confirme que o vídeo pausa, a descrição em áudio é entregue com clareza e o vídeo é retomado do ponto correto. Verifique se o leitor de tela anuncia o conteúdo descrito ou se ele é, de outra forma, audível para uma pessoa não vidente.
- Teste com VoiceOver + Safari no macOS/iOS. Repita o teste de reprodução. Garanta que a versão descrita seja operável com navegação por teclado (Tab, Espaço, Enter) e que o VoiceOver anuncie corretamente os controles do reprodutor, incluindo qualquer alternância de descrição.
- Verifique o roteiro da descrição quanto à precisão. Obtenha o roteiro ou a transcrição da descrição estendida, se disponível. Revise-o em comparação com o vídeo para confirmar que é factualmente preciso, cobre todos os eventos visuais críticos e não omite informações que uma pessoa vidente usaria para entender o conteúdo.
Como Corrigir
Cenário 1: Vídeo sem qualquer descrição em áudio — Incorreto
<!-- A training video with no audio description track and no described version link.
Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
<source src='surgical-technique.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>
Cenário 1: Vídeo com versão de descrição em áudio estendida — Correto
<!-- Provide a clearly labeled link to the extended described version.
The described version pauses at critical moments to deliver full visual descriptions.
This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
<source src='surgical-technique.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
<track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
<a href='surgical-technique-extended-described.mp4'>
Watch extended audio described version of this video
</a>
</p>
Cenário 2: Vídeo do YouTube incorporado com visuais acelerados — Incorreto
<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
but there is no audio description, and the visual demonstrations are rapid
with no natural pauses long enough for description. -->
<iframe
width='560'
height='315'
src='https://www.youtube.com/embed/EXAMPLE_ID'
title='Product demonstration video'
allowfullscreen>
</iframe>
Cenário 2: Vídeo incorporado com alternância para versão descrita — Correto
<!-- Offer a button that swaps the src to the extended described version.
The described version was produced as a separate MP4 with pauses built in.
The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
<iframe
id='demo-video-frame'
width='560'
height='315'
src='https://www.youtube.com/embed/EXAMPLE_ID'
title='Product demonstration video'
allowfullscreen>
</iframe>
<p>
<button
type='button'
aria-pressed='false'
onclick='toggleDescribedVersion(this)'>
Enable extended audio description
</button>
</p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
to the described YouTube video ID and updates aria-pressed. -->
Cenário 3: Reprodutor de vídeo HTML5 com faixa de descrição muito breve — Incorreto
<!-- A descriptions track exists but its cue text is truncated to fit within
existing audio pauses. Key visual information (a data chart with five labeled
columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
<source src='annual-report.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
<track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->
Cenário 3: Versão separada com descrição estendida e narração completa — Correto
<!-- The extended described version pauses playback at the chart moment
and delivers: 'A bar chart titled Annual Revenue by Region appears.
Five bars are shown: Europe 2.1 million, Asia 3.4 million,
North America 4.8 million, South America 1.2 million, Africa 0.9 million.
North America leads all regions.' The video then resumes. -->
<video controls width='800'>
<source src='annual-report.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
<strong>Extended audio described version:</strong>
<a href='annual-report-extended-described.mp4'>
Annual report video with extended audio descriptions
</a>
</p>
Erros Comuns
- Tratar uma faixa de legendas como substituta da descrição em áudio: Legendas transmitem diálogos falados e efeitos sonoros como texto para pessoas surdas. Elas não descrevem conteúdo visual para pessoas cegas. Um vídeo com apenas uma faixa de legendas ainda falha neste critério se as informações visuais não forem descritas no áudio.
- Fornecer uma faixa de descrição em áudio padrão sem verificar se as pausas são suficientes: Muitas equipes adicionam um elemento
<track kind='descriptions'>e consideram o trabalho concluído, sem verificar se cada evento visual significativo tem uma pausa longa o bastante para a descrição caber. Demonstrações aceleradas, diagramas complexos e texto denso na tela normalmente exigem descrições estendidas. - Descrever apenas mudanças visuais óbvias e omitir conteúdo textual na tela: Texto na tela — títulos de slides, rótulos de formulários, eixos de gráficos, rótulos de botões mostrados em uma demonstração — deve ser lido integralmente durante a descrição em áudio. Dizer "um slide aparece" em vez de ler o título do slide e os principais pontos em tópicos deixa informações críticas inacessíveis.
- Vincular a uma versão descrita sem um nome acessível claro e determinável programaticamente: Um link que diz "clique aqui" ou "versão descrita" sem um rótulo que identifique qual vídeo ele descreve falha no WCAG 2.4.6 e cria confusão para pessoas que usam leitores de tela ao navegar em uma página com vários vídeos.
- Usar o botão de alternância da versão descrita sem atualizar o
aria-pressedou fornecer feedback: Se um botão alterna entre a reprodução padrão e a descrita, ele deve usararia-pressed(true/false) ou um anúncio equivalente em região dinâmica para que pessoas que usam leitores de tela saibam o estado atual e que sua ação surtiu efeito. - Produzir a versão com descrição estendida sem testar a precisão da retomada: Após a pausa para descrição, o vídeo deve ser retomado exatamente de onde parou — não de um quadro um pouco antes ou depois. Pontos de retomada incorretos causam perda de contexto narrativo e aumentam a confusão para pessoas cegas.
- Presumir que uma transcrição de vídeo, sozinha, satisfaz este critério: Uma transcrição é valiosa e dá suporte ao SC 1.2.8 (Alternativa em Mídia), mas não atende ao 1.2.7. A descrição em áudio estendida é um mecanismo sincronizado no tempo e entregue em áudio, não um documento separado para leitura independente.
- Deixar de descrever informações visuais que conduzem o significado emocional ou narrativo de uma cena: Se a expressão facial, a linguagem corporal ou a reação visual de uma personagem for central para entender o que está acontecendo — em um vídeo de depoimento de cliente, por exemplo — omitir essa descrição deixa pessoas cegas sem compreensão equivalente, mesmo que o diálogo falado esteja intacto.
- Não atualizar a versão descrita quando o vídeo principal é atualizado: Se o vídeo de origem for reeditado, atualizado ou substituído (algo comum em conteúdo instrucional), a faixa ou versão de descrição estendida também deve ser atualizada. Descrições desatualizadas podem induzir ativamente ao erro ao descrever cenas que já não existem.
- Incorporar vídeos por meio de iframes de terceiros (YouTube, Vimeo) e presumir que a plataforma cuida da descrição: Descrições em áudio fornecidas pela plataforma (quando existem) raramente são descrições estendidas. A pessoa ou organização proprietária do conteúdo é responsável por garantir que exista uma versão com descrição estendida e que ela esteja vinculada ou acessível a partir da página de incorporação.
Relação com os Regulamentos de Acessibilidade da Turquia
A Circular Presidencial 2025/10 da Turquia, publicada no Diário Oficial nº 32933 em 21 de junho de 2025, estabelece obrigações de acessibilidade para um conjunto definido de prestadores de serviços digitais. A circular determina a conformidade com padrões de acessibilidade para produtos e serviços digitais oferecidos ao público, alinhando-se de forma ampla ao WCAG 2.1 Nível AA como requisito básico de conformidade.
Os tipos de entidades abrangidas pela circular incluem instituições e órgãos públicos, plataformas de e-commerce, bancos e instituições financeiras, hospitais e prestadores de serviços de saúde, operadoras de telecomunicações com 200.000 ou mais assinantes, agências de viagens licenciadas, empresas de transporte privadas e escolas privadas autorizadas pelo Ministério da Educação Nacional (MoNE). Para essas entidades, a conformidade com o WCAG 2.1 Nível AA é o piso exigível.
O WCAG 1.2.7 (Descrição em Áudio Estendida) é um critério de Nível AAA, o que significa que ele não é diretamente exigido pelos requisitos básicos da circular. No entanto, sua importância não deve ser subestimada no contexto regulatório turco por várias razões. Primeiro, organizações que produzem conteúdo de mídia complexo — como prestadores de serviços de saúde que publicam vídeos de treinamento cirúrgico, instituições públicas que lançam filmes explicativos de políticas ou escolas privadas que distribuem conteúdo educacional em vídeo — têm um forte argumento ético e prático para implementar descrições em áudio estendidas em seus materiais mais críticos, mesmo sem um mandato legal estrito.
Em segundo lugar, à medida que a regulamentação de acessibilidade digital na Turquia amadurece e os mecanismos de fiscalização são fortalecidos, critérios de Nível AAA são cada vez mais referenciados como indicadores de prática de excelência. Organizações que demonstram conformidade voluntária com AAA — especialmente em domínios de alto impacto como saúde, educação e finanças — estão melhor posicionadas para futuras atualizações regulatórias e enfrentam menor risco de reclamações sob estruturas mais amplas de combate à discriminação.
Em terceiro lugar, para emissoras públicas e organizações de mídia — mesmo que não sejam mencionadas diretamente na circular 2025/10 — o Conselho Supremo de Rádio e Televisão da Turquia (RTÜK) historicamente tem se envolvido com disposições de acessibilidade para conteúdo transmitido. A descrição em áudio estendida se alinha ao espírito dessas obrigações quando aplicada a vídeo sob demanda e distribuído na web.
Organizações que utilizam o SDK do widget Accsible devem estar cientes de que, embora o widget de sobreposição possa expor recursos e controles de acessibilidade para as pessoas usuárias, a descrição em áudio estendida em si deve ser implementada no nível de produção de conteúdo — ela não pode ser adaptada automaticamente por uma ferramenta do lado do cliente. O SDK pode, no entanto, expor uma alternância ou link para a versão descrita dentro do painel de acessibilidade, tornando essa versão alternativa mais fácil de descobrir para quem precisa dela.
Fontes e referências
- W3C Understanding 1.2.7 Extended Audio Description (Prerecorded)
- W3C Techniques for WCAG 1.2.7
- WebAIM: Captions, Transcripts, and Audio Descriptions
- MDN: HTMLTrackElement and the track element
- W3C Technique G8: Providing a movie with extended audio descriptions
- W3C Technique G78: Providing a second, user-selectable, audio track
