WCAG 3.1.6: Pronúncia

As WCAG 3.1.6 exige que haja um mecanismo disponível para identificar a pronúncia específica de palavras cujo significado é ambíguo sem conhecer a pronúncia. Esse critério garante que usuários que dependem de tecnologia de conversão de texto em fala ou que se deparam com um idioma desconhecido possam acessar o significado correto de conteúdo ambíguo.

O que Esta Regra Significa

WCAG 3.1.6 Pronúncia é um critério de sucesso de Nível AAA sob o princípio Compreensível. Ele afirma: "Um mecanismo está disponível para identificar a pronúncia específica de palavras cujo significado, em contexto, é ambíguo sem conhecer a pronúncia."

O requisito central é que, quando o significado de uma palavra depende inteiramente de como ela é pronunciada — e essa pronúncia não pode ser determinada a partir do contexto ao redor — autores devem fornecer uma forma de os usuários descobrirem a pronúncia correta. Isso é diferente de simplesmente fornecer uma definição; o critério trata especificamente de pronúncia fonética que resolve a ambiguidade semântica.

O critério tem como alvo situações em que a mesma sequência de caracteres pode ser lida de várias maneiras, cada uma resultando em um significado diferente. Exemplos clássicos em inglês incluem a palavra "read" (presente, rima com "reed") versus "read" (passado, rima com "red"), ou "wind" (vento, rima com "sinned") versus "wind" (enrolar, rima com "find"). Em idiomas com sistemas de escrita mais complexos ou distinções tonais — como japonês, chinês ou árabe — o problema é ainda mais prevalente e consequente.

O turco, embora em grande parte foneticamente regular em comparação com muitos outros idiomas, ainda tem palavras e empréstimos linguísticos cuja pronúncia pode ser pouco clara em contextos especializados, técnicos ou formais, particularmente para usuários de leitores de tela cujo mecanismo de fala sintetizada pode acentuar de forma incorreta ou pronunciar mal terminologia desconhecida ou palavras estrangeiras emprestadas.

O que conta como aprovação: Uma página é aprovada se, em qualquer lugar em que uma palavra seja ambígua sem conhecer sua pronúncia, pelo menos um dos seguintes mecanismos estiver presente:

Um guia fonético em linha imediatamente adjacente à palavra (por exemplo, usando o elemento HTML <ruby> e suas tags associadas <rt> e <rp> para escritas do Leste Asiático, ou uma chave de pronúncia entre parênteses em IPA ou outro sistema de notação reconhecido).
Um link para um verbete de glossário ou guia de pronúncia que trate explicitamente da palavra ambígua.
Um clipe de áudio de pronúncia associado à palavra.
Texto em linha imediatamente antes ou depois da palavra que descreva sua pronúncia de uma forma que o leitor possa interpretar (por exemplo, "A palavra 'bass' aqui se refere ao peixe — pronunciada como 'mass'").

O que conta como reprovação: Uma página é reprovada se o significado de uma palavra for genuinamente ambíguo sem ouvi-la falada, e não existir nenhum mecanismo para resolver essa ambiguidade por meio de informações de pronúncia. Simplesmente fornecer uma definição em texto que não esclareça a pronúncia é insuficiente se o significado não puder ser derivado apenas da definição sem saber como a palavra soa. Observe que, se o contexto — como a frase ao redor, o título ou a imagem — já tornar a pronúncia clara, o critério é satisfeito sem qualquer mecanismo adicional.

Exceções oficiais: A especificação WCAG delimita explicitamente este critério a casos em que a ambiguidade existe sem conhecer a pronúncia. Se o texto ao redor, elementos visuais ou a estrutura semântica já resolverem a ambiguidade de forma inequívoca, nenhum mecanismo adicional de pronúncia é necessário. O critério não exige anotação fonética para cada palavra em cada página — apenas para aquelas cujo significado depende genuinamente de uma pronúncia que não pode ser inferida a partir do contexto.

Por Que Isso Importa

A ambiguidade de pronúncia cria barreiras significativas para vários grupos distintos de usuários, e o impacto é particularmente agudo para aqueles que não podem contar com pistas visuais ou auditivas fora do texto principal.

Pessoas cegas e com baixa visão que dependem de leitores de tela são o grupo mais diretamente afetado. Leitores de tela convertem texto em fala sintetizada e, quando uma palavra tem múltiplas pronúncias válidas com significados diferentes, o mecanismo de texto-para-fala precisa fazer uma escolha — e frequentemente escolhe de forma incorreta. Uma pessoa ouvindo um artigo financeiro sobre "compound interest" pode ouvir "compound" pronunciado de forma idêntica ao seu uso como substantivo (um espaço cercado), criando confusão momentânea ou prolongada. Para usuários que não podem simplesmente olhar rapidamente para o contexto visual ao redor, resolver essa confusão exige reler trechos ou buscar esclarecimentos em outro lugar. De acordo com a Organização Mundial da Saúde, aproximadamente 2,2 bilhões de pessoas no mundo têm algum tipo de deficiência visual, uma proporção significativa das quais usa tecnologia de leitura de tela como seu principal meio de acesso a conteúdo digital.

Usuários com deficiências cognitivas e de aprendizagem, incluindo pessoas com dislexia ou distúrbios de processamento de linguagem, frequentemente dependem de ferramentas de texto-para-fala mesmo quando têm visão funcional. Para esses usuários, ouvir uma pronúncia incorreta de um homógrafo pode interromper a compreensão de maneiras difíceis de recuperar, especialmente quando o trecho é técnico ou desconhecido.

Pessoas surdas e com deficiência auditiva que usam línguas de sinais como seu idioma principal podem encontrar texto escrito em um segundo ou terceiro idioma. Para elas, ver uma representação fonética de uma palavra — mesmo que não possam ouvi-la — pode conectar a forma escrita a um conceito conhecido de forma mais confiável do que apenas uma definição em texto.

Falantes não nativos e pessoas aprendendo o idioma se beneficiam enormemente de orientações de pronúncia. Uma pessoa aprendendo turco que se depare com um termo médico ou jurídico especializado, ou um termo técnico estrangeiro grafado em transliteração turca, pode não saber se a sílaba tônica recai na primeira ou na segunda sílaba, o que pode alterar o significado ou simplesmente dificultar a compreensão.

Um cenário concreto do mundo real: Considere um portal de saúde turco descrevendo um procedimento envolvendo a palavra "ileum" (uma seção do intestino delgado) ao lado de conteúdo que também faz referência ao ilium (um osso pélvico). Em inglês, essas palavras soam idênticas em muitos dialetos. Em uma página lida em voz alta por um leitor de tela, uma pessoa cega ou com baixa visão que se prepara para uma cirurgia não teria como distinguir entre os dois termos apenas pelo áudio, a menos que seja fornecida pronúncia ou contexto fonético. Este não é um caso hipotético extremo — documentação médica é um domínio de alto risco em que tais ambiguidades podem causar danos reais.

Também há benefícios de SEO e usabilidade. Guias de pronúncia incentivam o uso de terminologia precisa e bem definida. Glossários com anotações fonéticas melhoram métricas de tempo na página e reduzem a frustração do usuário. Conteúdo estruturado rico que explica terminologia tende a atrair mais links de entrada e sinaliza autoridade no assunto para mecanismos de busca.

Regras Relacionadas do Axe-core

WCAG 3.1.6 exige apenas testes manuais. Não há regras automatizadas do axe-core que mapeiem diretamente para este critério. A explicação a seguir esclarece por que a automação não consegue detectar violações de forma confiável e o que os testadores precisam verificar manualmente.

Não existe regra automatizada para ambiguidade de pronúncia. Ferramentas automatizadas de teste de acessibilidade como o axe-core operam escaneando o DOM em busca de padrões estruturais, atributos ausentes, funções inválidas e outras condições baseadas em regras. Determinar se uma palavra específica é ambígua sem conhecer sua pronúncia exige compreensão semântica e linguística do conteúdo — um julgamento que depende de vocabulário, idioma, contexto de domínio e bagagem do leitor. Nenhum mecanismo atual de análise estática consegue determinar de forma confiável que a palavra "read" em uma frase dada é ambígua em pronúncia sem interpretação humana do significado ao redor. É por isso que a própria WCAG reconhece que este critério é difícil de testar programaticamente e o coloca no Nível AAA.
O que os testadores manuais devem verificar: Os testadores devem ler o conteúdo da página com conhecimento de domínio do(s) idioma(s) usado(s) e sinalizar qualquer palavra em que (a) existam duas ou mais pronúncias válidas, (b) cada pronúncia corresponda a um significado diferente e (c) o contexto ao redor não resolva de forma inequívoca qual significado é pretendido. Para cada palavra sinalizada, o testador deve então verificar se um mecanismo de pronúncia — guia fonético, clipe de áudio, link de glossário ou esclarecimento contextual — está presente e é acessível.
Verificação pontual com leitor de tela: Testadores usando leitores de tela (NVDA, JAWS, VoiceOver, TalkBack) devem ouvir o conteúdo e observar quaisquer casos em que a voz sintetizada pronuncie uma palavra de forma que entre em conflito com o significado pretendido em contexto. Este é um forte indicativo de que um mecanismo de pronúncia é necessário.

Como Testar

Execute primeiro uma varredura automatizada (como linha de base): Use axe DevTools ou Lighthouse para realizar uma auditoria geral de acessibilidade da página. Embora nenhuma das ferramentas tenha uma regra dedicada para WCAG 3.1.6, a varredura pode revelar problemas de idioma relacionados, como um atributo lang ausente ou incorreto no elemento <html> (WCAG 3.1.1) ou identificação ausente de idioma para trechos em um idioma diferente (WCAG 3.1.2). Esses problemas podem agravar problemas de pronúncia ao fazer com que o leitor de tela aplique um mecanismo de idioma totalmente errado. Verifique se <html lang='tr'> (ou o código de idioma apropriado) está presente e correto.
Conduza uma auditoria de conteúdo em busca de homógrafos e termos ambíguos: Com conhecimento de domínio sobre o assunto e o idioma da página, leia todo o conteúdo de texto. Crie uma lista de quaisquer palavras que tenham múltiplas pronúncias com significados distintos. Preste atenção especial a: empréstimos do inglês, francês, árabe ou outros idiomas que possam não seguir as regras fonéticas padrão do turco; jargão técnico em medicina, direito ou engenharia; nomes próprios com pronúncia não óbvia; e qualquer palavra explicitamente sinalizada em revisão editorial como potencialmente confusa.
Teste com NVDA + Firefox: Abra a página no Firefox com o NVDA em execução. Use o modo de leitura contínua do NVDA (Insert + Seta para baixo) para ouvir a página inteira ou as seções relevantes. Observe qualquer palavra que o sintetizador pronuncie de forma que possa ser mal compreendida. Verifique se algum mecanismo de pronúncia (anotação fonética, botão de áudio, link de glossário) está disponível e se o NVDA o anuncia claramente.
Teste com JAWS + Chrome: Repita o teste de escuta acima no Chrome com o JAWS. JAWS e NVDA usam sintetizadores de fala diferentes e podem pronunciar a mesma palavra de forma distinta, portanto ambos os testes são valiosos. Use as configurações de verbosidade do JAWS para garantir que todas as anotações em linha e o conteúdo do elemento <ruby> estejam sendo lidos em voz alta.
Teste com VoiceOver + Safari (macOS/iOS): Ative o VoiceOver e navegue pela página usando o Safari. Use VO + A para ler a página continuamente. O sintetizador de fala da Apple tem sua própria lógica de pronúncia; verifique se quaisquer anotações <ruby> ou substituições de aria-label estão sendo apresentadas corretamente.
Verifique se o mecanismo de pronúncia é acessível: Para cada mecanismo de pronúncia presente na página, confirme que ele é alcançável apenas pelo teclado, que é anunciado por leitores de tela e que as informações de pronúncia fornecidas realmente resolvem a ambiguidade (por exemplo, uma transcrição em IPA só é útil se o público-alvo souber ler IPA; uma grafia fonética em linguagem simples como "pronunciado: EYE-lee-um" pode ser mais universalmente útil).
Verifique clipes de áudio de pronúncia: Se clipes de áudio forem usados, verifique se eles têm controles acessíveis (botão de play com rótulo, controle de volume) e se transcrições ou alternativas em texto estão disponíveis para pessoas surdas que não podem se beneficiar do áudio.

Como Corrigir

Homógrafo em texto de corpo — Incorreto

<!-- The word "bass" is used in a music context, but its pronunciation
     is ambiguous (rhymes with "face" not "mass" in this context).
     No mechanism is provided to clarify. -->
<p>
  The bass guitar part in the recording was improvised live during
  the studio session.
</p>

Homógrafo em texto de corpo — Correto

<!-- A parenthetical phonetic guide immediately resolves the ambiguity.
     Alternatively, a link to a glossary entry with an audio clip
     would also satisfy the criterion. -->
<p>
  The bass <span lang='en-x-phonetics'>(pronounced: "base", rhymes with "face")</span>
  guitar part in the recording was improvised live during the studio session.
</p>

Escrita do Leste Asiático ou anotada com ruby — Incorreto

<!-- Japanese kanji without furigana: the reading of this compound
     is not clear to all readers and screen readers may mispronounce it. -->
<p>本日の<span>音楽</span>イベントへようこそ。</p>

Escrita do Leste Asiático ou anotada com ruby — Correto

<!-- The <ruby> element with <rt> provides the phonetic reading.
     <rp> provides fallback parentheses for browsers that do not
     support ruby annotations, ensuring backward compatibility. -->
<p>本日の
  <ruby>
    音楽
    <rp>(</rp>
    <rt>おんがく</rt>
    <rp>)</rp>
  </ruby>
イベントへようこそ。</p>

Termo técnico com pronúncia ambígua — Incorreto

<!-- "Ileum" and "ilium" sound identical when mispronounced by a TTS engine.
     No disambiguation mechanism is present in this medical content. -->
<p>
  The surgical procedure involves resection of the terminal ileum
  to treat the affected region.
</p>

Termo técnico com pronúncia ambígua — Correto

<!-- A glossary link provides access to a page with an audio pronunciation
     clip and IPA notation, satisfying the criterion. The link text is
     descriptive so screen reader users understand where it leads. -->
<p>
  The surgical procedure involves resection of the terminal
  <a href='/glossary/ileum' aria-label='ileum — view pronunciation and definition'>ileum</a>
  to treat the affected region.
</p>

<!-- The linked glossary entry should contain: -->
<article id='glossary-ileum'>
  <h2>Ileum</h2>
  <p><strong>Pronunciation:</strong> ILL-ee-um (/ˈɪliəm/)</p>
  <audio controls aria-label='Audio pronunciation of ileum'>
    <source src='/audio/ileum.mp3' type='audio/mpeg'>
    Your browser does not support the audio element.
  </audio>
  <p><strong>Definition:</strong> The final section of the small intestine,
  connecting to the large intestine. Not to be confused with the ilium
  (a bone of the pelvis, pronounced identically).</p>
</article>

Palavra emprestada com pronúncia não padrão em turco — Incorreto

<!-- The English loanword "cache" is used in a Turkish tech article.
     Turkish TTS engines may pronounce this as "kah-sheh" or "kash"
     rather than the intended "kash". No guidance is provided. -->
<p>Tarayıcı cache dosyalarını temizlemek performansı artırabilir.</p>

Palavra emprestada com pronúncia não padrão em turco — Correto

<!-- A phonetic clarification in parentheses uses familiar Turkish
     phonetic conventions to guide the reader. -->
<p>
  Tarayıcı cache
  <span class='pronunciation-guide' aria-label='telaffuz: keş'>
    (telaffuz: keş)
  </span>
  dosyalarını temizlemek performansı artırabilir.
</p>

Erros Comuns

Fornecer apenas uma definição em texto sem pronúncia: Adicionar um tooltip ou definição de glossário que explique o significado de uma palavra não satisfaz a WCAG 3.1.6 se a própria definição não esclarecer a pronúncia. Por exemplo, definir "bass" como "um som de baixa frequência ou instrumento musical" ainda deixa a pronúncia ambígua; o mecanismo deve tratar especificamente de como a palavra é pronunciada.
Usar <ruby> sem tags de fallback <rp>: Em navegadores que não suportam anotações ruby nativamente, omitir <rp> (parênteses ruby) faz com que a anotação fonética desapareça completamente. Sempre inclua <rp>(</rp> e <rp>)</rp> em torno de cada elemento <rt> para que usuários em plataformas sem suporte ainda vejam o texto de pronúncia em linha.
Fornecer clipes de áudio sem controles acessíveis ou alternativas em texto: Um botão de pronúncia em áudio que não tem rótulo (por exemplo, <button><img src='speaker.png'></button> sem alt ou aria-label) é inacessível justamente para as pessoas que mais precisam dele. Todo controle de áudio deve ter um rótulo descritivo, e o conteúdo de pronúncia do áudio também deve estar disponível em forma de texto para pessoas surdas.
Presumir que o mecanismo de TTS acertará: Muitas equipes pulam mecanismos de pronúncia porque seus testes internos (feitos visual ou auditivamente por testadores videntes/ouvintes) não expõem a ambiguidade. Confiar nas heurísticas de um mecanismo de texto-para-fala para selecionar a pronúncia correta de um homógrafo não é uma estratégia de acessibilidade válida; essas heurísticas falham regularmente, especialmente para conteúdo de domínio específico ou multilíngue.
Colocar a orientação de pronúncia muito distante da palavra: Vincular a um glossário de pronúncia em todo o site no rodapé da página ou em uma seção de ajuda não atende ao critério se os usuários precisarem sair do conteúdo para encontrá-lo, perdendo sua posição de leitura. O mecanismo deve estar claramente associado à palavra específica ambígua, seja em linha ou por meio de um link próximo e claramente rotulado.
Usar notação IPA sem considerar o público: Transcrições no Alfabeto Fonético Internacional são precisas, mas não são legíveis para a maioria do público em geral. Se seus usuários não são profissionais de linguagem, grafias fonéticas em linguagem simples ("pronounced: KAY-oss" para "chaos") são mais úteis na prática. Escolher um formato inacessível para o guia de pronúncia mina todo o propósito de fornecê-lo.
Deixar de marcar spans de pronúncia com atributos de idioma apropriados: Ao fornecer uma grafia fonética em um idioma ou sistema de notação diferente do idioma principal da página, omitir o atributo lang correto no elemento que a contém faz com que leitores de tela apliquem regras fonéticas incorretas justamente ao texto destinado a orientar a pronúncia, criando um problema ainda maior.
Aplicar o critério apenas ao texto de corpo e ignorar títulos, navegação e rótulos de interface: Homógrafos ambíguos podem aparecer em títulos, rótulos de botões, texto de links, rótulos de campos de formulário e mensagens de erro. Esses locais frequentemente são lidos isoladamente por usuários de leitores de tela que navegam por marcos ou tipo de elemento, tornando a desambiguação contextual ainda menos confiável do que em texto de corpo.
Confundir WCAG 3.1.3 (Palavras Incomuns) com 3.1.6 (Pronúncia): WCAG 3.1.3 exige mecanismos para palavras usadas de forma incomum ou especializada. WCAG 3.1.6 trata de um problema distinto: palavras cujo próprio significado depende de como são pronunciadas. Uma palavra pode exigir correção sob 3.1.6 mesmo que não seja incomum — "read" e "wind" são palavras comuns. Não presuma que satisfazer um critério satisfaz o outro.
Não testar com vários leitores de tela e mecanismos de TTS: Diferentes sintetizadores (eSpeak do NVDA, Eloquence ou Vocalizer do JAWS, vozes integradas da Apple) têm heurísticas de pronúncia diferentes e tratarão homógrafos de forma distinta. Uma palavra que um mecanismo em particular por acaso pronuncia corretamente pode ser pronunciada de forma incorreta por outro. Autores de conteúdo devem testar com pelo menos duas combinações leitor de tela/navegador para identificar falhas de pronúncia que afetam usuários reais.

Relação com as Regulamentações de Acessibilidade da Turquia

A Circular Presidencial 2025/10 da Turquia, publicada no Diário Oficial nº 32933 em 21 de junho de 2025, estabelece requisitos obrigatórios de acessibilidade na web para uma ampla gama de entidades que operam na Turquia. A circular determina conformidade com os padrões WCAG 2.2, com ênfase principal em critérios de Nível A e Nível AA para as entidades abrangidas. As entidades explicitamente sujeitas à circular incluem instituições e órgãos públicos, plataformas de e-commerce, bancos e prestadores de serviços financeiros, hospitais e organizações de saúde, empresas de telecomunicações com 200.000 ou mais assinantes, agências de viagem, empresas de transporte privado e escolas particulares que operam sob autorização do Ministério da Educação Nacional (MoNE).

WCAG 3.1.6 Pronúncia é um critério de Nível AAA e, portanto, não está entre os requisitos legalmente obrigatórios sob a circular. As entidades abrangidas não são obrigadas pela circular a implementar mecanismos de pronúncia como medida básica de conformidade. No entanto, o propósito mais amplo da circular — garantir que serviços digitais sejam genuinamente utilizáveis por todos os cidadãos, incluindo pessoas com deficiência — é bem atendido pela adoção voluntária de critérios de Nível AAA sempre que tecnicamente e editorialmente viável.

Para certas categorias de entidades abrangidas, o argumento prático para implementar WCAG 3.1.6 é especialmente forte mesmo na ausência de um mandato legal. Portais de saúde operados por hospitais abrangidos pela circular lidam com terminologia em que a ambiguidade de pronúncia pode causar danos reais a pacientes. Textos legais ou regulatórios publicados por instituições públicas podem conter vocabulário especializado com pronúncia não óbvia que cria barreiras para usuários de leitores de tela. Plataformas de e-commerce que atendem públicos linguísticos diversos — incluindo falantes não nativos de turco — podem descobrir que orientações de pronúncia reduzem a confusão e o abandono de clientes.

O turco é um idioma foneticamente regular, o que significa que a correspondência entre grafia e pronúncia é mais consistente do que em idiomas como inglês ou francês. Isso reduz (mas não elimina) o escopo do trabalho de conformidade com WCAG 3.1.6 para conteúdo em turco. No entanto, a prevalência de empréstimos do inglês e do francês em conteúdo técnico, comercial e digital em turco — particularmente nos setores abrangidos pela circular — significa que a ambiguidade de pronúncia continua sendo uma preocupação real. Palavras emprestadas de outros idiomas nem sempre seguem as convenções fonéticas turcas e podem ser renderizadas de forma diferente por mecanismos de TTS em turco, dependendo da configuração do sintetizador.

Organizações sujeitas à circular que aspiram a uma acessibilidade de classe mundial — ou que atendem usuários em contextos multilíngues, operam em domínios de alto risco como saúde ou finanças, ou desejam demonstrar liderança em acessibilidade no mercado digital turco — devem considerar WCAG 3.1.6 como parte de um programa abrangente de acessibilidade que vá além da conformidade legal mínima. Implementar mecanismos de pronúncia é uma melhoria de custo relativamente baixo para a maioria dos tipos de conteúdo e sinaliza um compromisso genuíno com design inclusivo que se alinha tanto com o espírito da circular quanto com as melhores práticas internacionais.