Critérios de Sucesso WCAG · Level A

WCAG 1.2.1: Apenas áudio e apenas vídeo (pré-gravado)

- Garantir que o significado original seja mantido com precisão - Preservar o tom informativo e o nível de formalidade do texto - Manter todos os números, siglas e nomes próprios exatamente como no original - Conservar quebras de linha e estrutura de parágrafos - Usar terminologia técnica adequada em português - Verificar se a tradução reflete fielmente o conteúdo original A WCAG 1.2.1 exige que conteúdos pré-gravados apenas em áudio e apenas em vídeo tenham uma alternativa em texto ou em outro meio, para que usuários que não podem ouvir ou ver a mídia ainda possam acessar a informação. Este é um requisito de Nível A, o que significa que é o nível mínimo básico para conformidade com a acessibilidade na web.

O que Esta Regra Significa

A WCAG 1.2.1 aborda dois tipos distintos de mídia temporal: conteúdo apenas em áudio (como um episódio de podcast, um anúncio telefônico gravado ou uma faixa de música que transmite informações significativas) e conteúdo apenas em vídeo (como uma animação instrucional silenciosa ou um clipe de demonstração de produto sem narração). O critério exige que cada um desses tipos de mídia seja acompanhado por uma alternativa equivalente que disponibilize as mesmas informações para pessoas que não conseguem perceber o formato original.

Para conteúdo pré-gravado apenas em áudio, a alternativa exigida é uma transcrição em texto. A transcrição deve registrar todas as palavras faladas, identificar as pessoas que falam quando relevante e descrever qualquer áudio significativo que não seja fala (como aplausos, alarmes ou música que tenha valor informativo). Fornecer apenas um título ou uma breve descrição não é suficiente; a transcrição deve ser um equivalente textual completo de tudo o que uma pessoa ouvinte escutaria.

Para conteúdo pré-gravado apenas em vídeo (vídeo sem trilha de áudio ou com uma trilha de áudio que não contém informações significativas), a alternativa exigida é uma transcrição em texto ou uma trilha de audiodescrição. Uma audiodescrição narra o conteúdo visual — descrevendo ações na tela, mudanças de cena, texto que aparece na tela e outros detalhes visuais — para que uma pessoa cega ou com deficiência visual possa compreender o conteúdo apenas pelo áudio.

Uma conformidade exige que a alternativa esteja claramente associada à mídia, seja fácil de encontrar e totalmente equivalente em conteúdo informativo. A alternativa pode ser fornecida embutida na página, como um documento vinculado ou como uma trilha de áudio suplementar, desde que seja facilmente acessível a partir da mesma página ou interface do player.

Uma falha ocorre quando: nenhuma alternativa é fornecida; a alternativa é incompleta ou omite informações significativas; a alternativa está presente, mas é tão difícil de localizar que, na prática, exige que a pessoa usuária saiba previamente que ela existe; ou a alternativa descreve a mídia sem reproduzir seu conteúdo real (por exemplo, escrever "a pessoa apresentadora explica como redefinir o dispositivo" em vez de fornecer as instruções passo a passo reais).

A WCAG 1.2.1 inclui uma exceção oficial: se o conteúdo apenas em áudio ou apenas em vídeo estiver servindo como alternativa em mídia para um texto que já está na página, e estiver claramente rotulado como tal, não é necessária uma alternativa adicional. Por exemplo, um vídeo curto que demonstra visualmente exatamente o que um tutorial escrito próximo já descreve de forma completa pode ser isento, desde que o rótulo deixe clara essa relação para todas as pessoas usuárias.

Também é importante observar que este critério abrange apenas conteúdo pré-gravado — transmissões ao vivo apenas em áudio e apenas em vídeo são tratadas separadamente na WCAG 1.2.9 e não estão no escopo aqui. Conteúdo que contém áudio e vídeo (mídia sincronizada) se enquadra na WCAG 1.2.2 (Legendas) e 1.2.3 (Audiodescrição ou Alternativa em Mídia), não na 1.2.1.

Por Que Isso Importa

Conteúdo apenas em áudio e apenas em vídeo cria barreiras para vários grupos distintos de pessoas usuárias, e compreender a experiência de cada grupo é essencial para entender por que este critério existe em um nível fundamental de Conformidade A.

Pessoas surdas e com deficiência auditiva não conseguem acessar as informações em conteúdo pré-gravado apenas em áudio sem uma transcrição em texto. Para uma pessoa que é profundamente surda desde o nascimento, uma entrevista em podcast, uma explicação gravada de atendimento ao cliente ou uma resposta de FAQ apenas em áudio é simplesmente inacessível — como se o conteúdo não existisse. De acordo com a Organização Mundial da Saúde, mais de 1,5 bilhão de pessoas no mundo todo apresentam algum grau de perda auditiva, sendo que aproximadamente 430 milhões necessitam de reabilitação. Só na Turquia, pesquisas indicam que milhões de cidadãs e cidadãos vivem com deficiência auditiva significativa, muitos dos quais dependem da Língua de Sinais Turca ou de texto escrito como principal modo de comunicação.

Pessoas cegas e com deficiência visual são o público principal para alternativas de conteúdo apenas em vídeo. Um vídeo silencioso de montagem de produto, uma animação de visualização de dados ou um tutorial apenas visual não tem significado quando é transmitido apenas por um leitor de tela anunciando a presença de um elemento de vídeo. Sem uma audiodescrição ou transcrição em texto, essas pessoas não recebem qualquer informação do conteúdo.

Pessoas com deficiências cognitivas e de aprendizagem frequentemente se beneficiam de ter informações disponíveis em vários formatos. Uma pessoa com dislexia pode achar mais fácil ouvir uma audiodescrição do que ler uma longa sequência visual, enquanto outra pode preferir uma transcrição escrita passo a passo que possa reler no seu próprio ritmo. Fornecer alternativas apoia uma gama mais ampla de estilos de processamento.

Limitações situacionais e ambientais também criam um amplo caso de usabilidade que vai muito além de pessoas com deficiências permanentes. Alguém em uma biblioteca silenciosa ou em um escritório de planta aberta não pode reproduzir conteúdo em áudio e se beneficia enormemente de uma transcrição. Uma pessoa usuária em uma conexão móvel lenta que não consegue carregar um vídeo pode ler a alternativa em texto imediatamente. Uma pessoa que não é falante nativa do idioma usado no áudio pode achar muito mais fácil ler uma transcrição do que acompanhar o conteúdo falado em velocidade normal.

Considere um cenário concreto do mundo real: o site de um banco turco publica um guia de áudio pré-gravado explicando como ativar um novo cartão de débito. Uma pessoa cliente surda recebe esse guia como parte do e-mail de boas-vindas. Sem uma transcrição, ela não tem como concluir a ativação sem ligar para uma central de suporte — um processo que pode, por si só, apresentar barreiras de acessibilidade. Fornecer uma transcrição em texto bem estruturada elimina completamente essa dependência e atende a pessoa cliente em igualdade de condições.

Do ponto de vista de SEO, transcrições em texto são totalmente indexáveis por mecanismos de busca. Conteúdo em áudio e vídeo sem transcrições representa uma oportunidade perdida de visibilidade em busca orgânica. Uma transcrição publicada junto a um episódio de podcast ou a um vídeo instrucional praticamente dobra o conteúdo rastreável na página e pode melhorar significativamente a relevância de palavras-chave para consultas de busca relacionadas ao tema da mídia.

Regras Relacionadas do Axe-core

A WCAG 1.2.1 exige testes manuais porque ferramentas automatizadas não conseguem avaliar o conteúdo ou a completude de uma alternativa em mídia. Um scanner automatizado pode detectar a presença de um elemento <video> ou <audio>, mas não pode determinar se uma transcrição vinculada representa com precisão tudo o que está na trilha de áudio, ou se uma audiodescrição cobre todos os eventos visuais significativos. Abaixo estão as considerações relevantes para a abordagem do axe-core em relação a este critério.

  • Não existe uma regra automatizada dedicada do axe-core para a WCAG 1.2.1. O axe-core e o mecanismo Deque axe DevTools sinalizam este critério como exigindo revisão manual. Esta é uma escolha de design deliberada e correta: a regra geraria uma taxa inaceitável de falsos positivos ou falsos negativos se fosse automatizada. Um scanner não consegue "ler" um arquivo de áudio ou "assistir" a um vídeo para verificar se uma transcrição está completa e correta. Como resultado, qualquer ferramenta de auditoria que afirme aprovar ou reprovar automaticamente a WCAG 1.2.1 sem revisão humana deve ser tratada com ceticismo.
  • O que ferramentas automatizadas podem sinalizar como indícios de suporte: Algumas ferramentas, incluindo o axe em modo de boas práticas, sinalizam elementos <audio> e <video> que não têm qualquer conteúdo de texto associado no contexto imediato do DOM. Isso é um lembrete útil para revisão manual, mas um sinal positivo não significa que a transcrição seja adequada, e a ausência de um sinal não significa que a transcrição esteja presente — uma transcrição vinculada em outra página não seria visível para o scanner no nível do elemento.
  • Testes manuais são necessários porque: Avaliar este critério exige uma pessoa revisora que possa consumir o conteúdo de áudio ou vídeo na íntegra e, em seguida, compará-lo linha por linha com a alternativa fornecida para confirmar a equivalência. A pessoa revisora também deve avaliar se a alternativa é fácil de localizar a partir do elemento de mídia, o que exige navegar pela página como uma pessoa usuária — algo que nenhuma ferramenta automatizada atual consegue reproduzir com confiabilidade.

Como Testar

  1. Execute uma varredura automatizada como ponto de partida. Use o axe DevTools, o Lighthouse ou o painel de auditoria do Accsible para analisar a página. Procure quaisquer elementos <audio> ou <video> sinalizados nos resultados. Observe que um resultado automatizado limpo não confirma conformidade com 1.2.1 — significa apenas que nenhum problema estrutural óbvio foi detectado. Use a varredura para criar um inventário de todos os elementos de mídia na página que precisam de revisão manual.
  2. Identifique todo o conteúdo pré-gravado apenas em áudio e apenas em vídeo. Revise manualmente o código-fonte da página e a saída renderizada. Procure elementos <audio>, elementos <video> em que a trilha de vídeo não tenha áudio significativo, players de mídia incorporados (como widgets do SoundCloud ou Spotify) e quaisquer elementos <iframe> que carreguem conteúdo de áudio ou vídeo de uma fonte de terceiros.
  3. Para cada elemento apenas em áudio, localize a transcrição associada. A transcrição pode estar embutida na página, em uma seção recolhível ou vinculada por meio de uma âncora próxima ao player. Navegue até a transcrição e leia-a na íntegra enquanto ouve simultaneamente o áudio. Confirme que todas as palavras faladas foram registradas, que todas as pessoas que falam foram identificadas quando relevante e que todos os eventos de áudio significativos que não são fala foram descritos.
  4. Para cada elemento apenas em vídeo, localize a alternativa associada. Determine se é fornecida uma transcrição em texto ou uma trilha de audiodescrição. Se for usada uma trilha de audiodescrição, ative-a no player de mídia e assista ao vídeo enquanto ouve a descrição. Confirme que todos os eventos visuais significativos — ações, mudanças de cena, texto na tela, informações gráficas — são descritos com detalhes suficientes para que uma pessoa cega compreenda o conteúdo sem ver o vídeo.
  5. Teste com um leitor de tela para verificar a capacidade de descoberta. Usando o NVDA com Firefox, o VoiceOver com Safari no macOS/iOS ou o JAWS com Chrome, navegue até o elemento de mídia usando apenas o teclado (Tab, teclas de seta). Sem usar o mouse, verifique se você consegue localizar o link para a transcrição ou audiodescrição a partir do player de mídia usando apenas a navegação por teclado e os anúncios do leitor de tela. Se a alternativa não puder ser alcançada sem o mouse, o critério falha mesmo que o conteúdo da alternativa seja adequado.
  6. Verifique a exceção de rotulagem. Se uma transcrição ou alternativa estiver ausente, verifique se o elemento de mídia está explicitamente rotulado como uma alternativa em mídia para conteúdo de texto adjacente na mesma página. Se estiver, confirme que o texto ao redor é um equivalente completo do conteúdo da mídia e que o rótulo é perceptível para todas as pessoas usuárias.

Como Corrigir

Podcast apenas em áudio ou narração gravada — Incorreto

<!-- No transcript provided; the audio content is completely inaccessible
     to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
  Your browser does not support the audio element.
</audio>

Podcast apenas em áudio ou narração gravada — Correto

<!-- A full text transcript is provided immediately after the player,
     making it discoverable by keyboard and screen reader users
     without requiring any additional navigation -->
<figure>
  <figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
  <audio controls src='welcome-guide.mp3'>
    Your browser does not support the audio element.
  </audio>
</figure>
<details>
  <summary>Read the full transcript of this audio guide</summary>
  <div>
    <p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
    To begin, locate the 16-digit card number on the front of your card.</p>
    <p><strong>Narrator:</strong> Enter this number in the field provided on
    the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
    <p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
  </div>
</details>

Vídeo instrucional silencioso (apenas em vídeo) — Incorreto

<!-- Silent animation with no audio description or text transcript.
     A blind user navigating with a screen reader will only hear
     "video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>

Vídeo instrucional silencioso (apenas em vídeo) com transcrição em texto — Correto

<!-- A text transcript describing all meaningful visual actions is
     linked immediately below the video player. The link text clearly
     communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
  <a href='assembly-transcript.html'>
    View the full text description of this assembly video
  </a>
</p>

Vídeo silencioso com trilha de audiodescrição embutida — Correto

<!-- For users who prefer audio, a described audio track is offered
     as a <track> element with kind='descriptions'.
     The text transcript link is also retained for deaf-blind users
     and those using text-only browsing. -->
<video controls width='640' height='360'>
  <source src='product-demo-silent.mp4' type='video/mp4'>
  <track
    kind='descriptions'
    src='product-demo-descriptions.vtt'
    srclang='en'
    label='Audio Description (English)'
  >
  <track
    kind='descriptions'
    src='product-demo-descriptions-tr.vtt'
    srclang='tr'
    label='Sesli Betimleme (Türkçe)'
  >
</video>
<p>
  <a href='product-demo-transcript.html'>
    Read the full text description of this product demonstration
  </a>
</p>

Erros Comuns

  • Fornecer um resumo em vez de uma transcrição completa. Escrever um parágrafo breve como "Este áudio explica nossa política de reembolso" não é uma alternativa equivalente. A transcrição deve reproduzir o conteúdo real — cada frase, cada instrução, cada detalhe significativo — para que uma pessoa que não possa ouvir o áudio não perca nada ao ler a transcrição em vez de ouvir.
  • Omitir eventos de áudio não verbais das transcrições. Se uma gravação inclui um tom de alerta, uma multidão aplaudindo, uma campainha ou música de fundo que sinaliza uma transição, isso deve ser indicado na transcrição usando descrições entre colchetes, como [som de alarme] ou [aplausos]. Omitir esses elementos deixa a transcrição incompleta em termos informativos.
  • Colocar a transcrição em uma página completamente separada sem um link visível e acessível por teclado. Se uma pessoa usuária tiver que saber de antemão que existe uma transcrição e sair da página da mídia para encontrá-la, a capacidade de descoberta falhou. O link para a alternativa deve estar imediatamente adjacente ao elemento de mídia e ser alcançável por teclado.
  • Presumir que um elemento <video> com trilha silenciosa está coberto por legendas. Legendas (WCAG 1.2.2) tratam de áudio falado em mídia sincronizada. Um vídeo realmente silencioso — sem qualquer áudio significativo — é conteúdo apenas em vídeo e exige sua própria descrição em texto ou audiodescrição segundo a 1.2.1. Legendas de silêncio não fornecem informação.
  • Usar transcrições geradas automaticamente por ferramentas de reconhecimento de fala sem revisão. Transcrições geradas por máquina, de serviços como legendas automáticas do YouTube ou APIs de transcrição por IA, frequentemente contêm erros em nomes próprios, termos técnicos e linguagem não padronizada. Publicar uma transcrição automática não revisada que contenha erros significativos não satisfaz o critério, porque uma transcrição imprecisa não é uma alternativa equivalente.
  • Deixar de identificar as pessoas que falam em gravações de áudio com várias vozes. Uma transcrição que aparece como um único bloco de texto indiferenciado, sem indicar quem está falando, é confusa e pode ser ambígua em seu significado. Rótulos de pessoas que falam devem ser usados de forma consistente em qualquer gravação que tenha mais de uma voz.
  • Tratar o atributo alt em uma imagem de pôster como substituto de uma transcrição de vídeo. O atributo alt em uma imagem de pôster de <video> descreve a miniatura estática, não o conteúdo do vídeo em si. Ele não cumpre o requisito de alternativa em mídia segundo a 1.2.1 sob nenhuma interpretação.
  • Fornecer uma audiodescrição que descreve apenas o cenário e ignora o texto na tela. Se um vídeo silencioso exibe texto importante — números de etapas, rótulos, medidas, mensagens de erro — a audiodescrição ou transcrição deve ler esse texto explicitamente. Descrever a cena visual sem transcrever o texto na tela deixa informações críticas inacessíveis.
  • Marcar conteúdo como isento sem confirmar que a condição de equivalência completa foi atendida. A exceção para alternativas em mídia ao texto se aplica apenas quando o texto na página é um equivalente completo da mídia. Se o texto da página cobrir apenas parte do que o vídeo demonstra, a exceção não se aplica e ainda é necessária uma alternativa para as partes não cobertas pelo texto.
  • Deixar de fornecer alternativas em turco para mídia em turco. Quando o conteúdo apenas em áudio ou apenas em vídeo está em turco, a alternativa também deve estar em turco (ou pelo menos no idioma principal do público-alvo). Fornecer apenas uma transcrição em inglês para conteúdo de áudio em turco não constitui uma alternativa equivalente para pessoas usuárias que falam turco.

Relação com os Regulamentos de Acessibilidade da Turquia

A Circular Presidencial 2025/10 da Turquia, publicada no Diário Oficial de número 32933 em 21 de junho de 2025, estabelece um marco legal obrigatório para acessibilidade digital alinhado à WCAG 2.2. A WCAG 1.2.1 é um critério de Nível A, situando-se na camada mais essencial de requisitos sob essa circular. A conformidade de Nível A representa o padrão mínimo aceitável — falhas nesse nível são consideradas barreiras fundamentais que impedem totalmente o acesso para as pessoas afetadas.

A circular se aplica amplamente tanto ao setor público quanto ao privado. Instituições públicas — incluindo todos os ministérios, órgãos governamentais, prefeituras e empresas estatais — devem alcançar conformidade total de Nível A em até um ano a partir da data de publicação da circular. Entidades do setor privado abrangidas pela circular têm um período de transição de dois anos.

As entidades do setor privado explicitamente abrangidas pela Circular Presidencial 2025/10 incluem: plataformas de e-commerce que operam na Turquia, independentemente do local de registro; bancos e instituições financeiras regulados pela legislação bancária turca; hospitais e prestadores de serviços de saúde privados; empresas de telecomunicações com 200.000 ou mais assinantes; agências de viagens que operam sob as exigências de licenciamento de turismo da Turquia; empresas privadas de transporte de passageiros; e instituições de ensino privadas autorizadas pelo Ministério da Educação Nacional (MoNE).

Para essas entidades, a WCAG 1.2.1 traz implicações diretas e práticas. Um banco que publica guias apenas em áudio para seus recursos de mobile banking sem transcrições, um hospital que fornece tutoriais apenas em vídeo silencioso para procedimentos de admissão de pacientes ou uma operadora de telecomunicações que usa anúncios gravados apenas em áudio em seu portal de suporte sem alternativas em texto estariam, cada um, em violação direta desse requisito a partir do momento em que o respectivo prazo de conformidade for atingido.

A não conformidade com a circular pode resultar em sanções administrativas e consequências reputacionais, além de exposição a reclamações apresentadas à Autoridade de Tecnologias da Informação e Comunicação (BTK) da Turquia e ao Escritório de Transformação Digital da Presidência. Considerando que 1.2.1 está entre os critérios mais simples de remediar — exigindo a criação de uma transcrição em texto ou audiodescrição, em vez de qualquer mudança técnica complexa — as organizações devem priorizar uma auditoria de todos os recursos apenas em áudio e apenas em vídeo em suas propriedades digitais como um passo inicial e de alto impacto em seus programas de conformidade em acessibilidade.

Equipes de conteúdo, e não apenas desenvolvedoras e desenvolvedores, desempenham um papel central na obtenção de conformidade com 1.2.1. As transcrições devem ser redigidas, revisadas quanto à precisão e mantidas à medida que o conteúdo em mídia é atualizado. As organizações devem estabelecer fluxos editoriais que tratem a criação de transcrições como uma etapa obrigatória no processo de produção e publicação de conteúdo, com importância equivalente à de metadados de SEO ou revisão de conteúdo — e devem garantir que esses fluxos contemplem mídia em turco juntamente com quaisquer outros idiomas usados na plataforma.