- Explicar o objetivo e o contexto do conteúdo original - Manter o tom informativo e profissional do texto - Preservar todos os números, símbolos e formatação original - Respeitar as quebras de linha e a estrutura de parágrafos - Garantir que o significado e as nuances sejam mantidos com precisão O vídeo é o formato de conteúdo dominante na web — mas sem legendas, transcrições e descrições em áudio, ele exclui milhões de usuários e expõe sua organização a sérios riscos legais. Este guia detalha exatamente o que o WCAG exige, como cada camada de acessibilidade funciona e as etapas práticas para implementá-las em todo o seu site.

Aqui está um número que deveria fazer qualquer proprietário de site parar imediatamente: 4.187 processos judiciais relacionados à acessibilidade digital foram abertos nos Estados Unidos apenas em 2024, e 2025 está 37% acima desse ritmo. Conteúdo em vídeo está no centro de muitos desses casos, porque vídeo sem recursos adequados de acessibilidade é uma das falhas de conformidade mais visíveis que um auditor — ou o advogado de um autor — pode encontrar. Ainda assim, o problema vai muito além da exposição jurídica. Com mais de 48 milhões de norte‑americanos com algum grau de perda auditiva e milhões de pessoas cegas ou com baixa visão, vídeo inacessível simplesmente significa que sua mensagem nunca alcança uma parcela significativa do seu público. A boa notícia é que tornar vídeos acessíveis é totalmente viável, e as técnicas envolvidas — legendas, transcrições e audiodescrição — também geram benefícios de negócio mensuráveis que não têm relação com conformidade.

Por que a acessibilidade em vídeo deixou de ser opcional

O cenário jurídico em torno da acessibilidade em vídeo se tornou muito mais rigoroso nos últimos anos. Em 8 de abril de 2024, o U.S. Department of Justice (DOJ) emitiu uma regra final que melhora o acesso à web e a aplicativos móveis sob o Título II da ADA, alinhando‑o à WCAG 2.1 Nível AA — estabelecendo esse nível como padrão para sites e aplicativos de governos estaduais e locais. A regra atualizada exige que essas entidades forneçam legendas, audiodescrição e players de vídeo acessíveis, além de garantir navegação por teclado para conformidade com a ADA em vídeo. Para entidades públicas que atendem populações acima de 50.000 pessoas, o prazo de conformidade é 24 de abril de 2026. Entidades públicas menores têm até abril de 2027.

Empresas privadas se enquadram no Título III da ADA, que não traz um prazo federal único, mas está sujeita a litígios contínuos e intensos. Os tribunais fazem referência, cada vez mais, à WCAG 2.1 Nível AA como padrão, tornando a conformidade proativa o caminho mais seguro. Esse desenvolvimento confirma que legendas e audiodescrição são “auxílios auxiliares” essenciais sob a ADA, tornando o conteúdo digital mais acessível para todos os usuários.

Além do risco jurídico, há um argumento poderoso em termos de público. De acordo com uma pesquisa conduzida pela Verizon Media e pela Publicis Media, 80% das pessoas que usam legendas não têm deficiência auditiva — e 50% acreditam que as legendas são importantes, já que frequentemente assistem a vídeos sem áudio. O consumo de vídeo acontece cada vez mais em locais públicos, com 69% dos entrevistados dizendo que assistem a vídeos com o som desligado em áreas públicas. Em outras palavras, recursos de acessibilidade são preferências comuns do público, não acomodações de nicho.

71% das pessoas com deficiência abandonam um site imediatamente se ele não for acessível. Cada vídeo inacessível no seu site é uma porta que você está ativamente fechando para um segmento substancial do seu público — e os mecanismos de busca também não são imunes ao problema, como veremos adiante.

A estrutura da WCAG: o que as diretrizes realmente exigem

As Web Content Accessibility Guidelines (WCAG) são organizadas em quatro princípios centrais — Perceptível, Operável, Compreensível e Robusto — e três níveis de conformidade: A, AA e AAA. O Nível AA é o alvo para conformidade legal na maioria das jurisdições, e cobre todo o espectro de requisitos de acessibilidade em vídeo. Entender quais critérios de sucesso se aplicam a cada tipo de conteúdo é essencial antes de priorizar o trabalho de correção.

Para mídia sincronizada pré‑gravada (um vídeo com conteúdo de áudio e visual), os principais requisitos de Nível A e AA são:

SC 1.2.1 — Somente áudio e somente vídeo (pré‑gravado): Para mídia pré‑gravada somente de áudio e somente de vídeo, deve ser fornecida uma alternativa para mídia temporal que apresente informações equivalentes ao conteúdo.
SC 1.2.2 — Legendas (pré‑gravado): Legendas são fornecidas para todo o conteúdo de áudio pré‑gravado em mídia sincronizada, exceto quando a mídia é uma alternativa em mídia para texto e está claramente rotulada como tal.
SC 1.2.3 — Audiodescrição ou alternativa em mídia (pré‑gravado): Uma alternativa para mídia temporal ou audiodescrição do conteúdo de vídeo pré‑gravado é fornecida para mídia sincronizada, exceto quando a mídia é uma alternativa em mídia para texto e está claramente rotulada como tal. Este é um requisito de Nível A.
SC 1.2.4 — Legendas (ao vivo): Legendas são fornecidas para todo o conteúdo de áudio ao vivo em mídia sincronizada. Este é um requisito de Nível AA.
SC 1.2.5 — Audiodescrição (pré‑gravado): Audiodescrição é fornecida para todo o conteúdo de vídeo pré‑gravado em mídia sincronizada. Esta é a versão mais rigorosa, de Nível AA, do SC 1.2.3.

Vale notar que a WCAG 2.1 e 2.2 não introduzem diferenças em relação à 2.0 que se apliquem a requisitos de legendagem ou audiodescrição, portanto as obrigações fundamentais têm sido consistentes nas versões recentes. O que mudou foi o cenário jurídico e regulatório que faz referência a esses critérios.

Um equívoco comum é achar que fornecer uma transcrição satisfaz o requisito de legendagem. Não satisfaz. Transcrições sozinhas são insuficientes para conteúdo em vídeo, porque o texto precisa estar sincronizado com o vídeo. Transcrição e legendas têm propósitos que se sobrepõem, mas são distintos.

Legendas: a base do vídeo acessível

Legendas são uma representação textual sincronizada e com marcação de tempo da faixa de áudio de um vídeo. Diferentemente das legendas de tradução (subtitles), que partem do pressuposto de que a pessoa consegue ouvir, mas não entende o idioma, closed captions partem do pressuposto de que a pessoa não consegue ouvir. Elas tornam o vídeo acessível para pessoas surdas e com deficiência auditiva ao fornecer uma trilha de tempo‑para‑texto como suplemento ou substituto do áudio — e, embora o texto das legendas seja predominantemente fala, as legendas também incluem elementos não verbais, como identificação de falantes e efeitos sonoros, que são fundamentais para entender o conteúdo.

Qualidade é a variável que separa legendas realmente acessíveis de um mero exercício de checklist. O padrão do setor para precisão de legendas é 99%. O Media Hub da University of Minnesota at Duluth relata que as legendas automáticas do YouTube têm apenas 60–70% de precisão, dependendo da qualidade do áudio. Essa diferença é enorme: legendas cheias de erros não são apenas pouco úteis — elas induzem ao erro pessoas surdas e com deficiência auditiva, deturpando o conteúdo do qual dependem. Em fluxos de produção, legendas geradas por IA devem ser tratadas como um rascunho inicial que exige revisão humana, não como produto final.

Legendas de alta qualidade compartilham três características descritas pelo Described and Captioned Media Program (DCMP): são precisas (o objetivo são legendas sem erros), consistentes (uniformidade de estilo e apresentação) e claras (uma representação textual completa do áudio, incluindo identificação de falantes e informações não verbais). No lado técnico, a legibilidade também depende da forma de exibição. As diretrizes da WCAG recomendam uma taxa de contraste mínima de 4,5:1 para texto, enquanto o tamanho da fonte deve ser de pelo menos 14 pontos — fontes com traços muito finos ou características incomuns são desencorajadas porque são mais difíceis de ler.

Os dois formatos de arquivo de legenda dominantes na web são WebVTT e SRT. WebVTT é o formato recomendado para vídeo na web — é o formato nativo de legendas para players de vídeo HTML5, oferece opções de estilo e é amplamente suportado em navegadores e plataformas de vídeo. SRT é o outro formato comum e funciona bem na maioria das plataformas, mas tem menos opções de estilo do que VTT. Aqui está um exemplo mínimo de um elemento de vídeo HTML5 com uma trilha de legendas associada:

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

O atributo kind='captions' é importante — ele sinaliza ao navegador e às tecnologias assistivas que essa trilha é destinada a pessoas surdas e com deficiência auditiva, e não à tradução de idioma. Adicionar o atributo default faz com que as legendas sejam exibidas automaticamente, o que vale a pena considerar em páginas com muito conteúdo, nas quais a pessoa pode não notar o botão de CC.

Para vídeo ao vivo — webinars, transmissões ao vivo, eventos virtuais — a WCAG 2.1 Nível AA exige legendas para todo áudio ao vivo em mídia sincronizada, o que é especialmente importante para webinars, eventos ao vivo e transmissões em tempo real. Plataformas como o Zoom oferecem legendas ao vivo usando reconhecimento automático de fala e também fornecem um mecanismo para integrar legendadores humanos quando é necessária maior precisão.

Transcrições: acessibilidade mais ampla, alcance mais profundo

Uma transcrição é um documento escrito que captura tudo o que há em um vídeo — todo o diálogo falado, efeitos sonoros relevantes e (no caso de transcrições descritivas) informações visuais importantes. Uma transcrição fornece uma versão em texto, palavra por palavra, da parte de áudio do conteúdo em vídeo, bem como informações de áudio não verbal que ajudam a pessoa leitora a entender o conteúdo — e uma transcrição descritiva vai além, adicionando informações visuais que ajudam as pessoas a entender o conteúdo.

Na WCAG 2.1 Nível AA, transcrições são estritamente exigidas para conteúdo somente de áudio, como podcasts e gravações de áudio. Para vídeos legendados, transcrições não são exigidas pela WCAG 2.1 Nível AA — no entanto, transcrições são recomendadas para todos os vídeos, já que são mais acessíveis do que legendas para pessoas surdocegas e também beneficiam pessoas com conexão de internet lenta, quem deseja escanear ou pesquisar rapidamente o conteúdo de um vídeo e quem simplesmente prefere texto. A melhor prática é fornecê‑las independentemente da obrigação estrita da WCAG.

Ao escrever uma transcrição descritiva, procure incluir:

Todo o diálogo falado, atribuído a falantes individuais
Efeitos sonoros significativos e sinais de áudio não verbais (por exemplo, [aplausos], [som de alarme])
Descrições de texto em tela, gráficos ou elementos visuais que não são explicados verbalmente
Informações de ambientação de cena quando forem relevantes para a compreensão

Um debate prático é se as transcrições devem ser literais ou levemente editadas. Embora alguns recursos insistam em transcrições literais, transcrições editadas costumam ser a melhor opção — porque você está escrevendo para pessoas reais, e linguagem clara e concisa melhora a acessibilidade. Remover muletas verbais como “ééé” e “ah” geralmente melhora a legibilidade sem sacrificar a precisão.

Transcrições também geram um dividendo significativo em SEO. Mecanismos de busca não conseguem assistir ao seu vídeo, mas conseguem indexar suas legendas e transcrições — e adicionar uma transcrição em texto à página do vídeo oferece aos buscadores conteúdo rastreável que corresponde às consultas de pesquisa. A Discovery Digital Networks realizou um experimento em seu canal no YouTube comparando vídeos com e sem closed captions; eles descobriram que vídeos legendados tiveram, em média, 7,32% mais visualizações e confirmaram que as legendas foram indexadas por robôs de busca — testando isso ao pesquisar uma frase que não aparecia em nenhum lugar exceto nas legendas, com o vídeo aparecendo em quarto lugar nos resultados de busca do YouTube.

Audiodescrição: acessibilidade para pessoas cegas e com baixa visão

Audiodescrição (AD) aborda uma barreira de acessibilidade completamente diferente das legendas. Enquanto legendas atendem pessoas que não conseguem ouvir, audiodescrição atende pessoas que não conseguem ver. Audiodescrição é uma narração de informações visuais significativas em um vídeo para fornecer contexto, esclarecer quem está falando e descrever elementos visuais — pense nela como um texto alternativo para vídeos. Exemplos de informações relevantes incluem expressões faciais e cenas — qualquer coisa que uma pessoa vidente absorve visualmente, mas que não é transmitida por diálogo ou narração.

Nem todo vídeo precisa de audiodescrição. Em geral, se você fecha os olhos e ainda consegue acompanhar o programa — como em uma entrevista de “cabeça falante” em que a pessoa explica tudo verbalmente — provavelmente não é necessária. Porém, se alguém se refere a elementos visuais em uma apresentação sem descrevê‑los em voz alta, a audiodescrição provavelmente será necessária. Uma demonstração de produto que mostra uma interface sendo clicada sem narrar as ações, um vídeo de treinamento que descreve um diagrama ou um vídeo de marketing com muitas cenas descritivas — todos esses exigem audiodescrição.

Existem dois tipos de audiodescrição a entender:

Audiodescrição padrão: As descrições usam pausas naturais na trilha sonora existente para inserir narração de elementos visuais, como ações, cenários, aparência de personagens, linguagem corporal, figurinos, iluminação e texto em tela.
Audiodescrição estendida: Com a descrição estendida, o vídeo é pausado momentaneamente para permitir mais tempo para descrições quando necessário. Para AD estendida, forneça uma versão do vídeo com audiodescrição estendida e uma versão sem. Isso é exigido no Nível AAA da WCAG (SC 1.2.7), mas é uma boa prática quando as pausas padrão são insuficientes.

Implementar audiodescrição em um contexto web traz desafios práticos. Um dos desafios na implementação de audiodescrição é o suporte dos players — a maioria dos navegadores e players de vídeo não oferece suporte à audiodescrição da mesma forma que oferece a legendas. No entanto, o Able Player é um player de mídia HTML5 totalmente acessível e compatível com vários navegadores, que suporta audiodescrição como um vídeo separado ou em um arquivo WebVTT lido em voz alta por navegadores modernos. A técnica de produção mais confiável continua sendo gravar uma versão separada do vídeo com a faixa de audiodescrição incorporada à trilha sonora e oferecer às pessoas um controle claramente rotulado para alternar entre a versão padrão e a versão com descrição.

Os padrões da WCAG 2.1 AA exigem que as audiodescrições forneçam acesso equivalente às informações visuais, o que significa que devem capturar os detalhes principais que uma pessoa vidente compreenderia. Escreva descrições em linguagem simples e objetiva. Descreva o que realmente está na tela, não sua interpretação — por exemplo, diga “Uma estudante levanta a mão”, e não “Uma estudante parece ansiosa para responder”.

Players de vídeo acessíveis: a camada frequentemente ignorada

Mesmo legendas e audiodescrições perfeitas são inúteis se o próprio player de vídeo não puder ser operado por teclado ou tecnologia assistiva. O player é o mecanismo de entrega, e precisa ser acessível por si só. Muitas pessoas navegam na web usando apenas o teclado ou tecnologia assistiva, portanto todo o conteúdo deve ser operável por uma interface de teclado, sem mouse.

Requisitos essenciais de acessibilidade do player incluem operabilidade completa por teclado (play, pause, avanço, volume, alternância de legendas, tela cheia — tudo acessível por teclado), indicadores de foco visíveis nos controles, rótulos ARIA para todos os elementos interativos e controles de legendas fáceis de localizar. A Section 508 também exige que os controles de usuário para legendas e audiodescrição estejam disponíveis no mesmo nível que os controles de volume ou os botões de play/pause.

Reprodução automática é um risco comum de acessibilidade que merece atenção especial. Vídeos que começam automaticamente podem ser frustrantes para muitas pessoas e causar problemas sérios para quem tem transtornos de atenção, autismo ou deficiência visual e depende de leitores de tela — conteúdo em reprodução automática pode interferir na saída do leitor de tela, criando confusão e dificultando o acesso. Desative a reprodução automática por padrão em todos os embeds de vídeo e, se for absolutamente necessário usá‑la, garanta que o volume comece no mudo e que um mecanismo de pausa esteja imediatamente acessível.

Ao incorporar vídeo de terceiros (YouTube, Vimeo, Wistia etc.), confirme se o código de embed da plataforma transfere o foco do teclado corretamente e se o iframe tem um atributo title significativo, para que pessoas que usam leitores de tela saibam com o que estão interagindo antes de navegar para dentro do player:

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

Construindo um fluxo de trabalho de vídeo acessível

A abordagem mais sustentável para acessibilidade em vídeo não é a correção posterior — é integrar acessibilidade ao seu fluxo de produção e publicação desde o início. O custo de adaptar uma grande biblioteca de vídeos pode ser substancial; o custo de fazer certo desde o começo é marginal em comparação.

Um fluxo de trabalho prático se parece com isto. Na pré‑produção, escreva um roteiro detalhado. Um roteiro completo é a base de todos os recursos de acessibilidade subsequentes — legendas, transcrições e roteiros de audiodescrição se tornam muito mais fáceis quando existe um bom material de origem. Na produção, minimize ruídos de fundo, use fala clara e garanta que textos em tela, gráficos e ações visuais significativas sejam narrados verbalmente sempre que possível. Isso reduz significativamente a necessidade de audiodescrição.

É na pós‑produção que os recursos de acessibilidade são produzidos. Use a ferramenta de legendagem por IA de sua preferência para gerar um rascunho inicial e, em seguida, faça com que seja revisado e corrigido por uma pessoa — especialmente para terminologia técnica, nomes próprios e linguagem específica de domínio, em que a transcrição por IA é mais propensa a erros. Crie a transcrição descritiva combinando seu arquivo de legendas com descrições de informações visuais significativas. Produza a narração de audiodescrição usando talentos de voz internos ou um serviço profissional de AD.

Para organizações com grandes bibliotecas de vídeo existentes, priorize a correção com base no uso. Comece pelos vídeos de maior tráfego, conteúdos de onboarding e treinamento, demonstrações de produto e qualquer vídeo incorporado em páginas que façam parte de funis de conversão. Inicie auditorias de acessibilidade agora, priorize primeiro os materiais de alto uso e, depois, incorpore acessibilidade em todos os novos fluxos de trabalho de vídeo daqui em diante.

Um erro comum e caro é tratar legendas como um entregável de última etapa — algo adicionado pouco antes da publicação. Inclua a revisão de legendas na sua checklist de QA da mesma forma que você verificaria a codificação do vídeo ou a criação de thumbnails. Uma hora de esforço no ponto certo do fluxo de trabalho economiza muitas horas de correção depois.

O caso de negócio: além da conformidade

Vídeo acessível é um vídeo melhor para todas as pessoas, não apenas para quem tem deficiência. Os dados nesse sentido são contundentes. Um estudo nacional de pesquisa com 2.124 estudantes de 15 faculdades e universidades diferentes constatou que 98,6% dos estudantes consideram as legendas úteis. 71% dos estudantes sem dificuldades auditivas usam legendas pelo menos parte do tempo, e 66% dos estudantes de inglês como segunda língua consideram as legendas “muito” ou “extremamente” úteis.

O impacto em engajamento é igualmente significativo. O Facebook constatou que legendas aumentaram as visualizações de vídeo em 12% em comparação com vídeos sem legendas; um estudo separado mediu um aumento de 40% nas visualizações de vídeos legendados e descobriu que as pessoas tinham 80% mais probabilidade de assistir a um vídeo até o fim quando closed captions estavam disponíveis.

Os benefícios de SEO se somam aos benefícios de engajamento. Transcrições de vídeo ajudam a maximizar o SEO porque fornecem contexto aos mecanismos de busca — isso pode fazer com que vídeos tenham maior visibilidade nas páginas de resultados quando alguém digita uma busca relacionada. Transcrições também facilitam a criação de posts de blog, newsletters ou trechos para redes sociais a partir dos seus vídeos — transformando uma única peça de conteúdo em vídeo em um ativo de conteúdo multicanal com custo adicional mínimo.

Por fim, considere a trajetória demográfica de longo prazo. A World Health Organization estima que, até 2050, quase 2,5 bilhões de pessoas terão algum grau de perda auditiva, e 1 em cada 10 terá perda auditiva significativa. O público que depende de vídeo acessível não está diminuindo. Cada investimento que você faz em acessibilidade de vídeo hoje gera dividendos compostos à medida que esse público cresce.

Principais pontos

Legendas são obrigatórias para toda mídia sincronizada pré‑gravada e ao vivo sob a WCAG 2.1 Nível AA. Legendas geradas automaticamente são apenas um ponto de partida — a melhor prática do setor exige 99% de precisão, o que significa que a revisão humana da saída de IA é inegociável para qualquer conteúdo voltado ao público.
Transcrições são fortemente recomendadas para todo vídeo, mesmo quando não estritamente exigidas, porque atendem pessoas surdocegas, melhoram o SEO ao fornecer texto rastreável para mecanismos de busca e beneficiam qualquer pessoa que prefira folhear ou consultar o conteúdo em formato textual.
Audiodescrição é exigida no Nível AA da WCAG para vídeo pré‑gravado que contenha informações visuais significativas não transmitidas por áudio. Faça o teste fechando os olhos — se você perder conteúdo importante, é necessária audiodescrição.
Seu player de vídeo deve ser acessível por teclado, com controles devidamente rotulados para legendas e audiodescrição. Um player inacessível compromete todos os outros investimentos em acessibilidade que você fez no próprio conteúdo.
O caso de negócio para acessibilidade em vídeo é forte por si só: vídeos legendados recebem significativamente mais visualizações e conclusões, transcrições melhoram o ranqueamento em SEO e 80% das pessoas que usam legendas não têm deficiência auditiva — vídeo acessível alcança um público mais amplo em todos os indicadores que importam para sua organização.

Tornando vídeos acessíveis: legendas, transcrições e descrições em áudio