Criterios de éxito de las WCAG · Level AAA

WCAG 3.1.6: Pronunciación

WCAG 3.1.6 requiere que haya un mecanismo disponible para identificar la pronunciación específica de las palabras cuyo significado es ambiguo sin conocer la pronunciación. Este criterio garantiza que las personas que dependen de la tecnología de texto a voz o que se encuentran con un idioma desconocido puedan acceder al significado correcto del contenido ambiguo.

Qué significa esta regla

WCAG 3.1.6 Pronunciación es un criterio de conformidad de nivel AAA bajo el principio de Comprensible. Establece: «Hay un mecanismo disponible para identificar la pronunciación específica de palabras cuando el significado de las palabras, en contexto, es ambiguo sin conocer la pronunciación».

El requisito central es que cuando el significado de una palabra depende por completo de cómo se pronuncia —y esa pronunciación no puede determinarse a partir del contexto circundante—, las personas autoras deben proporcionar una forma para que los usuarios descubran la pronunciación correcta. Esto es distinto de simplemente proporcionar una definición; el criterio se refiere específicamente a la pronunciación fonética que resuelve la ambigüedad semántica.

El criterio se dirige a situaciones en las que la misma cadena de caracteres puede leerse de varias maneras, cada una con un significado diferente. Ejemplos clásicos en inglés incluyen la palabra "read" (tiempo presente, rima con "reed") frente a "read" (tiempo pasado, rima con "red"), o "wind" (viento, rima con "sinned") frente a "wind" (enrollar, rima con "find"). En idiomas con sistemas de escritura más complejos o distinciones tonales —como el japonés, el chino o el árabe— el problema es aún más frecuente y significativo.

El turco, aunque en gran medida es fonéticamente regular en comparación con muchos otros idiomas, sigue teniendo palabras y préstamos léxicos cuya pronunciación puede no estar clara en contextos especializados, técnicos o formales, especialmente para usuarios de lectores de pantalla cuyo motor de voz sintética puede acentuar mal o pronunciar incorrectamente terminología poco familiar o palabras prestadas de otros idiomas.

Qué se considera conforme: Una página cumple si, en cualquier lugar donde una palabra sea ambigua sin conocer su pronunciación, está presente al menos uno de los siguientes mecanismos:

Una guía fonética en línea inmediatamente adyacente a la palabra (por ejemplo, usando el elemento HTML <ruby> y sus etiquetas asociadas <rt> y <rp> para escrituras de Asia Oriental, o una clave de pronunciación entre paréntesis en AFI u otro sistema de notación reconocido).
Un enlace a una entrada de glosario o guía de pronunciación que cubra explícitamente la palabra ambigua.
Un clip de audio con la pronunciación asociado a la palabra.
Texto en línea inmediatamente antes o después de la palabra que describa su pronunciación de una forma que la persona lectora pueda interpretar (por ejemplo, «La palabra "bass" aquí se refiere al pez — se pronuncia como "mass"»).

Qué se considera no conforme: Una página no cumple si el significado de una palabra es realmente ambiguo sin oírla pronunciada, y no existe ningún mecanismo para resolver esa ambigüedad mediante información de pronunciación. Simplemente proporcionar una definición en texto que no aclare la pronunciación es insuficiente si el significado no puede derivarse de la definición por sí sola sin saber cómo suena la palabra. Ten en cuenta que si el contexto —como la frase circundante, el encabezado o la imagen— ya hace que la pronunciación sea clara, el criterio se satisface sin ningún mecanismo adicional.

Excepciones oficiales: La especificación WCAG delimita explícitamente este criterio a los casos en los que existe ambigüedad sin conocer la pronunciación. Si el texto circundante, los elementos visuales o la estructura semántica ya resuelven la ambigüedad de forma inequívoca, no se requiere ningún mecanismo de pronunciación adicional. El criterio no exige anotación fonética para cada palabra en cada página, sino solo para aquellas cuyo significado dependa realmente de una pronunciación que no pueda inferirse por el contexto.

Por qué es importante

La ambigüedad en la pronunciación crea barreras significativas para varios grupos de usuarios distintos, y el impacto es especialmente agudo para quienes no pueden confiar en pistas visuales o auditivas fuera del texto principal.

Las personas ciegas y con baja visión que dependen de lectores de pantalla son el grupo más directamente afectado. Los lectores de pantalla convierten el texto en voz sintética y, cuando una palabra tiene múltiples pronunciaciones válidas con significados diferentes, el motor de texto a voz debe elegir una opción, y con frecuencia elige incorrectamente. Una persona que escucha un artículo financiero sobre "compound interest" puede oír "compound" pronunciado de forma idéntica a su forma como sustantivo (un recinto), creando confusión momentánea o sostenida. Para quienes no pueden echar un vistazo rápido al contexto visual circundante, resolver esta confusión requiere volver a escuchar pasajes o buscar aclaraciones en otra parte. Según la Organización Mundial de la Salud, aproximadamente 2,2 mil millones de personas en todo el mundo tienen algún tipo de discapacidad visual, una proporción significativa de las cuales utiliza tecnología de lectura de pantalla como su principal medio de acceso al contenido digital.

Las personas con discapacidades cognitivas y de aprendizaje, incluidas aquellas con dislexia o trastornos del procesamiento del lenguaje, a menudo dependen de herramientas de texto a voz incluso cuando tienen visión funcional. Para estas personas, oír una pronunciación incorrecta de un homógrafo puede interrumpir la comprensión de formas difíciles de recuperar, especialmente cuando el pasaje es técnico o poco familiar.

Las personas sordas y con discapacidad auditiva que utilizan lenguas de señas como su idioma principal pueden encontrarse con texto escrito en un segundo o tercer idioma. Para ellas, ver una representación fonética de una palabra —aunque no puedan oírla— puede conectar la forma escrita con un concepto conocido de manera más fiable que una definición en texto por sí sola.

Las personas no nativas y quienes aprenden un idioma se benefician enormemente de la guía de pronunciación. Una persona que aprende turco y se encuentra con un término médico o legal especializado, o un término técnico extranjero transcrito al turco, puede no saber si el acento recae en la primera o en la segunda sílaba, lo que puede cambiar el significado o simplemente dificultar la comprensión.

Un escenario concreto del mundo real: Considera un portal de salud turco que describe un procedimiento que incluye la palabra "ileum" (una sección del intestino delgado) junto con contenido que también hace referencia al ilium (un hueso pélvico). En inglés, estas palabras suenan idénticas en muchos dialectos. En una página leída en voz alta por un lector de pantalla, una persona paciente que se prepara para una cirugía y que es ciega o tiene baja visión no tendría forma de distinguir entre los dos términos solo a partir del audio, a menos que se proporcione pronunciación o contexto fonético. Esto no es un caso hipotético extremo: la documentación médica es un ámbito de alto riesgo en el que tales ambigüedades pueden causar daños reales.

También existen beneficios de SEO y usabilidad. Las guías de pronunciación fomentan el uso de terminología precisa y bien definida. Los glosarios con anotaciones fonéticas mejoran las métricas de tiempo en página y reducen la frustración de los usuarios. El contenido estructurado enriquecido que explica la terminología tiende a atraer más enlaces entrantes y señala autoridad temática a los motores de búsqueda.

Reglas relacionadas de Axe-core

WCAG 3.1.6 requiere solo pruebas manuales. No hay reglas automatizadas de axe-core que se correspondan directamente con este criterio. La siguiente explicación aclara por qué la automatización no puede detectar de forma fiable las infracciones y qué deben buscar manualmente las personas evaluadoras.

No existe una regla automatizada para la ambigüedad de pronunciación. Los motores de pruebas de accesibilidad automatizadas como axe-core funcionan escaneando el DOM en busca de patrones estructurales, atributos faltantes, roles no válidos y otras condiciones basadas en reglas. Determinar si una palabra específica es ambigua sin conocer su pronunciación requiere comprensión semántica y lingüística del contenido, un juicio que depende del vocabulario, el idioma, el contexto del dominio y los antecedentes de la persona lectora. Ningún motor de análisis estático actual puede determinar de forma fiable que la palabra "read" en una frase dada es ambigua en su pronunciación sin la interpretación humana del significado circundante. Por eso las propias WCAG reconocen que este criterio es difícil de probar de forma programática y lo sitúan en el nivel AAA.
Qué deben comprobar las personas evaluadoras manuales: Deben leer el contenido de la página con conocimiento del dominio del idioma o idiomas utilizados y marcar cualquier palabra en la que (a) existan dos o más pronunciaciones válidas, (b) cada pronunciación corresponda a un significado diferente y (c) el contexto circundante no resuelva de forma inequívoca qué significado se pretende. Para cada palabra marcada, la persona evaluadora debe verificar que haya presente un mecanismo de pronunciación —guía fonética, clip de audio, enlace a glosario o aclaración contextual— y que sea accesible.
Comprobación puntual con lector de pantalla: Las personas evaluadoras que utilizan lectores de pantalla (NVDA, JAWS, VoiceOver, TalkBack) deben escuchar el contenido y anotar cualquier caso en el que la voz sintética pronuncie una palabra de una manera que entre en conflicto con el significado previsto en contexto. Esta es una señal clara de que se necesita un mecanismo de pronunciación.

Cómo hacer las pruebas

Ejecuta primero un análisis automatizado (como línea base): Utiliza axe DevTools o Lighthouse para realizar una auditoría general de accesibilidad de la página. Aunque ninguna de estas herramientas tiene una regla dedicada para WCAG 3.1.6, el análisis puede sacar a la luz problemas de idioma relacionados, como un atributo lang faltante o incorrecto en el elemento <html> (WCAG 3.1.1) o la falta de identificación de idioma para pasajes en un idioma diferente (WCAG 3.1.2). Estos problemas pueden agravar los problemas de pronunciación al hacer que el lector de pantalla aplique un motor de idioma completamente equivocado. Verifica que <html lang='tr'> (o el código de idioma apropiado) esté presente y sea correcto.
Realiza una auditoría de contenido para homógrafos y términos ambiguos: Con experiencia en el dominio del tema y el idioma de la página, lee todo el contenido de texto. Crea una lista de cualquier palabra que tenga múltiples pronunciaciones con significados distintos. Presta especial atención a: préstamos del inglés, francés, árabe u otros idiomas que puedan no seguir las reglas fonéticas estándar del turco; jerga técnica en medicina, derecho o ingeniería; nombres propios con pronunciación no obvia; y cualquier palabra señalada explícitamente en la revisión editorial como potencialmente confusa.
Prueba con NVDA + Firefox: Abre la página en Firefox con NVDA en ejecución. Utiliza el modo de lectura continua de NVDA (Insert + Flecha abajo) para escuchar toda la página o las secciones relevantes. Anota cualquier palabra que el sintetizador pronuncie de una manera que pueda malinterpretarse. Comprueba si hay algún mecanismo de pronunciación (anotación fonética, botón de audio, enlace a glosario) disponible y si NVDA lo anuncia claramente.
Prueba con JAWS + Chrome: Repite la prueba de escucha anterior en Chrome con JAWS. JAWS y NVDA utilizan sintetizadores de voz diferentes y pueden pronunciar la misma palabra de forma distinta, por lo que ambas pruebas son valiosas. Utiliza la configuración de verbosidad de JAWS para asegurarte de que se lean en voz alta todas las anotaciones en línea y el contenido del elemento <ruby>.
Prueba con VoiceOver + Safari (macOS/iOS): Activa VoiceOver y navega por la página usando Safari. Utiliza VO + A para leer la página de forma continua. El sintetizador de voz de Apple tiene su propia lógica de pronunciación; verifica que cualquier anotación <ruby> o sobrescritura aria-label se esté exponiendo correctamente.
Verifica que el mecanismo de pronunciación sea accesible: Para cada mecanismo de pronunciación presente en la página, confirma que se pueda alcanzar solo con el teclado, que sea anunciado por los lectores de pantalla y que la información de pronunciación proporcionada realmente resuelva la ambigüedad (por ejemplo, una transcripción en AFI solo es útil si el público objetivo puede leer AFI; una ortografía fonética en lenguaje sencillo como «pronunciado: EYE-lee-um» puede ser más útil de forma universal).
Comprueba los clips de pronunciación en audio: Si se utilizan clips de audio, verifica que tengan controles accesibles (botón de reproducción con etiqueta, control de volumen) y que haya transcripciones o alternativas en texto disponibles para las personas sordas que no pueden beneficiarse del audio.

Cómo corregir

Homógrafo en el cuerpo del texto — Incorrecto

<!-- The word "bass" is used in a music context, but its pronunciation
     is ambiguous (rhymes with "face" not "mass" in this context).
     No mechanism is provided to clarify. -->
<p>
  The bass guitar part in the recording was improvised live during
  the studio session.
</p>

Homógrafo en el cuerpo del texto — Correcto

<!-- A parenthetical phonetic guide immediately resolves the ambiguity.
     Alternatively, a link to a glossary entry with an audio clip
     would also satisfy the criterion. -->
<p>
  The bass <span lang='en-x-phonetics'>(pronounced: "base", rhymes with "face")</span>
  guitar part in the recording was improvised live during the studio session.
</p>

Escritura de Asia Oriental o con anotación ruby — Incorrecto

<!-- Japanese kanji without furigana: the reading of this compound
     is not clear to all readers and screen readers may mispronounce it. -->
<p>本日の<span>音楽</span>イベントへようこそ。</p>

Escritura de Asia Oriental o con anotación ruby — Correcto

<!-- The <ruby> element with <rt> provides the phonetic reading.
     <rp> provides fallback parentheses for browsers that do not
     support ruby annotations, ensuring backward compatibility. -->
<p>本日の
  <ruby>
    音楽
    <rp>(</rp>
    <rt>おんがく</rt>
    <rp>)</rp>
  </ruby>
イベントへようこそ。</p>

Término técnico con pronunciación ambigua — Incorrecto

<!-- "Ileum" and "ilium" sound identical when mispronounced by a TTS engine.
     No disambiguation mechanism is present in this medical content. -->
<p>
  The surgical procedure involves resection of the terminal ileum
  to treat the affected region.
</p>

Término técnico con pronunciación ambigua — Correcto

<!-- A glossary link provides access to a page with an audio pronunciation
     clip and IPA notation, satisfying the criterion. The link text is
     descriptive so screen reader users understand where it leads. -->
<p>
  The surgical procedure involves resection of the terminal
  <a href='/glossary/ileum' aria-label='ileum — view pronunciation and definition'>ileum</a>
  to treat the affected region.
</p>

<!-- The linked glossary entry should contain: -->
<article id='glossary-ileum'>
  <h2>Ileum</h2>
  <p><strong>Pronunciation:</strong> ILL-ee-um (/ˈɪliəm/)</p>
  <audio controls aria-label='Audio pronunciation of ileum'>
    <source src='/audio/ileum.mp3' type='audio/mpeg'>
    Your browser does not support the audio element.
  </audio>
  <p><strong>Definition:</strong> The final section of the small intestine,
  connecting to the large intestine. Not to be confused with the ilium
  (a bone of the pelvis, pronounced identically).</p>
</article>

Préstamo léxico con pronunciación no estándar en turco — Incorrecto

<!-- The English loanword "cache" is used in a Turkish tech article.
     Turkish TTS engines may pronounce this as "kah-sheh" or "kash"
     rather than the intended "kash". No guidance is provided. -->
<p>Tarayıcı cache dosyalarını temizlemek performansı artırabilir.</p>

Préstamo léxico con pronunciación no estándar en turco — Correcto

<!-- A phonetic clarification in parentheses uses familiar Turkish
     phonetic conventions to guide the reader. -->
<p>
  Tarayıcı cache
  <span class='pronunciation-guide' aria-label='telaffuz: keş'>
    (telaffuz: keş)
  </span>
  dosyalarını temizlemek performansı artırabilir.
</p>

Errores comunes

Proporcionar solo una definición en texto sin pronunciación: Añadir un tooltip o una definición en un glosario que explique el significado de una palabra no satisface WCAG 3.1.6 si la propia definición no aclara la pronunciación. Por ejemplo, definir "bass" como «un sonido o instrumento musical de baja frecuencia» sigue dejando la pronunciación ambigua; el mecanismo debe abordar específicamente cómo se pronuncia la palabra.
Usar <ruby> sin etiquetas de reserva <rp>: En los navegadores que no admiten anotaciones ruby de forma nativa, omitir <rp> (paréntesis ruby) hace que la anotación fonética desaparezca por completo. Incluye siempre <rp>(</rp> y <rp>)</rp> alrededor de cada elemento <rt> para que las personas usuarias en plataformas sin soporte sigan viendo el texto de pronunciación en línea.
Proporcionar clips de audio sin controles accesibles o alternativas en texto: Un botón de pronunciación en audio que no tiene etiqueta (por ejemplo, <button><img src='speaker.png'></button> sin alt ni aria-label) es inaccesible precisamente para las personas que más lo necesitan. Cada control de audio debe tener una etiqueta descriptiva, y el contenido de pronunciación del audio también debe estar disponible en forma de texto para las personas sordas.
Suponer que el motor TTS lo hará bien: Muchos equipos omiten los mecanismos de pronunciación porque sus pruebas internas (realizadas visual o auditivamente por personas videntes/oyentes) no exponen la ambigüedad. Confiar en las heurísticas de un motor de texto a voz para seleccionar la pronunciación correcta de un homógrafo no es una estrategia de accesibilidad válida; esas heurísticas fallan con regularidad, especialmente en contenido específico de un dominio o multilingüe.
Colocar la guía de pronunciación demasiado lejos de la palabra: Enlazar a un glosario de pronunciación a nivel de sitio en la parte inferior de la página o en una sección de ayuda no cumple el criterio si las personas usuarias deben salir del contenido para encontrarlo, perdiendo su posición de lectura. El mecanismo debe estar claramente asociado con la palabra ambigua específica, ya sea en línea o mediante un enlace próximo claramente etiquetado.
Usar notación AFI sin tener en cuenta al público: Las transcripciones del Alfabeto Fonético Internacional son precisas, pero la mayoría del público general no puede leerlas. Si tus usuarios no son profesionales del lenguaje, las reescrituras fonéticas en lenguaje sencillo («pronunciado: KAY-oss» para "chaos") son más útiles en la práctica. Elegir un formato inaccesible para la guía de pronunciación socava todo el propósito de proporcionarla.
No marcar los tramos de pronunciación con atributos de idioma apropiados: Al proporcionar una reescritura fonética en un idioma o sistema de notación diferente del idioma principal de la página, omitir el atributo lang correcto en el elemento contenedor hace que los lectores de pantalla apliquen reglas fonéticas incorrectas al propio texto destinado a guiar la pronunciación, creando un problema acumulativo.
Aplicar el criterio solo al cuerpo del texto e ignorar encabezados, navegación y etiquetas de la interfaz: Los homógrafos ambiguos pueden aparecer en encabezados, etiquetas de botones, texto de enlaces, etiquetas de campos de formulario y mensajes de error. Estas ubicaciones a menudo se leen de forma aislada por usuarios de lectores de pantalla que navegan por puntos de referencia o tipo de elemento, lo que hace que la desambiguación contextual sea aún menos fiable que en el cuerpo del texto.
Confundir WCAG 3.1.3 (Palabras inusuales) con 3.1.6 (Pronunciación): WCAG 3.1.3 exige mecanismos para palabras utilizadas de forma inusual o especializada. WCAG 3.1.6 se dirige a un problema distinto: palabras cuyo significado depende de cómo se pronuncian. Una palabra puede requerir una corrección según 3.1.6 incluso si no es inusual —"read" y "wind" son palabras comunes—. No supongas que cumplir un criterio implica cumplir el otro.
No probar con varios lectores de pantalla y motores TTS: Diferentes sintetizadores (eSpeak de NVDA, Eloquence o Vocalizer de JAWS, las voces integradas de Apple) tienen heurísticas de pronunciación distintas y tratarán los homógrafos de manera diferente. Una palabra que un motor en particular pronuncia correctamente puede ser pronunciada de forma incorrecta por otro. Las personas autoras de contenido deberían probar con al menos dos combinaciones lector de pantalla/navegador para identificar fallos de pronunciación que afecten a usuarios reales.

Relación con la normativa de accesibilidad de Turquía

La Circular Presidencial 2025/10 de Turquía, publicada en el Boletín Oficial n.º 32933 el 21 de junio de 2025, establece requisitos vinculantes de accesibilidad web para una amplia gama de entidades que operan en Turquía. La circular exige el cumplimiento de las normas WCAG 2.2, con un énfasis principal en los criterios de nivel A y nivel AA para las entidades cubiertas. Las entidades explícitamente sujetas a la circular incluyen instituciones y organismos públicos, plataformas de comercio electrónico, bancos y proveedores de servicios financieros, hospitales y organizaciones sanitarias, empresas de telecomunicaciones con 200.000 o más abonados, agencias de viajes, empresas de transporte privado y escuelas privadas que operan bajo autorización del Ministerio de Educación Nacional (MoNE).

WCAG 3.1.6 Pronunciación es un criterio de nivel AAA y, por lo tanto, no se encuentra entre los requisitos legalmente obligatorios según la circular. Las entidades cubiertas no están obligadas por la circular a implementar mecanismos de pronunciación como medida básica de cumplimiento. Sin embargo, el propósito más amplio de la circular —garantizar que los servicios digitales sean realmente utilizables por todos los ciudadanos, incluidas las personas con discapacidad— se ve claramente favorecido por la adopción voluntaria de criterios de nivel AAA siempre que sea técnica y editorialmente viable.

Para ciertas categorías de entidades cubiertas, el argumento práctico para implementar WCAG 3.1.6 es especialmente sólido incluso en ausencia de un mandato legal. Los portales de salud gestionados por hospitales cubiertos por la circular manejan terminología en la que la ambigüedad de pronunciación puede causar daños reales a los pacientes. Los textos legales o normativos publicados por instituciones públicas pueden contener vocabulario especializado con pronunciación no obvia que crea barreras para los usuarios de lectores de pantalla. Las plataformas de comercio electrónico que atienden a públicos lingüísticamente diversos —incluidas personas no nativas de turco— pueden descubrir que la guía de pronunciación reduce la confusión y el abandono de clientes.

El turco es un idioma fonéticamente regular, lo que significa que la correspondencia entre ortografía y pronunciación es más consistente que en idiomas como el inglés o el francés. Esto reduce (pero no elimina) el alcance del trabajo de cumplimiento de WCAG 3.1.6 para contenido en turco. Sin embargo, la prevalencia de préstamos del inglés y el francés en el contenido técnico, comercial y digital en turco —especialmente en los sectores cubiertos por la circular— significa que la ambigüedad de pronunciación sigue siendo una preocupación real. Las palabras tomadas de otros idiomas no siempre siguen las convenciones fonéticas del turco y pueden ser pronunciadas de manera diferente por los motores TTS turcos según la configuración del sintetizador.

Las organizaciones sujetas a la circular que aspiran a una accesibilidad de primer nivel —o que atienden a usuarios en contextos multilingües, operan en ámbitos de alto riesgo como la salud o las finanzas, o desean demostrar liderazgo en accesibilidad en el mercado digital turco— deberían considerar WCAG 3.1.6 como parte de un programa integral de accesibilidad que vaya más allá del cumplimiento legal mínimo. Implementar mecanismos de pronunciación es una mejora relativamente de bajo costo para la mayoría de los tipos de contenido y señala un compromiso genuino con el diseño inclusivo que se alinea tanto con el espíritu de la circular como con las mejores prácticas internacionales.

Fuentes y referencias

Articulos relacionados

AWCAG 1.1.1: Contenido no textual AWCAG 1.2.1: Solo audio y solo video (pregrabado)AWCAG 1.2.2: Subtítulos (pregrabados)