Criterios de éxito de las WCAG · Level A
WCAG 1.2.3: Descripción de audio o alternativa para medios (pregrabado)
WCAG 1.2.3 requiere que los medios sincronizados pregrabados (video con audio) proporcionen una audiodescripción del contenido visual o una alternativa de texto completo, garantizando que las personas ciegas o con baja visión puedan acceder a la información transmitida visualmente.
Qué significa esta regla
El Criterio de Éxito 1.2.3 de las WCAG aborda una de las barreras más fundamentales para las personas ciegas y con baja visión que consumen contenido en video: la pérdida de información visual que nunca se expresa en voz alta. El criterio establece que, para todos los medios sincronizados pregrabados —es decir, contenido de video acompañado de audio—, las personas autoras web deben proporcionar una audiodescripción de la pista visual o una alternativa completa para medios en forma de texto.
Una audiodescripción es una narración añadida a la pista de audio de un video que describe detalles visuales importantes que no pueden entenderse solo a partir del audio principal. Estas descripciones suelen insertarse durante las pausas naturales del diálogo, o el video puede pausarse momentáneamente para permitir que la persona narradora tenga tiempo de describir eventos visuales complejos. Por ejemplo, si un video de capacitación muestra a una persona presentadora dibujando un diagrama en una pizarra sin comentarlo verbalmente, una audiodescripción narraría qué se está dibujando y por qué es importante.
Una alternativa de texto completa para medios es un documento que transmite toda la información del medio sincronizado —tanto el contenido de audio (diálogo, narración, efectos de sonido) como el contenido visual (acciones, entornos, texto en pantalla, identificación de quien habla)— en forma de texto. Es una versión más amplia de una transcripción; debe describir los eventos visuales con suficiente precisión para que una persona que no puede ver ni oír el video pueda entender toda la información que el video comunica.
Este criterio se aplica específicamente a los medios sincronizados pregrabados. Las transmisiones de video en vivo se abordan en otros criterios (1.2.4 para subtítulos), y el contenido solo de audio está cubierto por el 1.2.1. Es importante destacar que, si la pista de video es puramente decorativa —por ejemplo, un fondo animado que no transmite información—, el criterio no se aplica. De manera similar, si la pista de audio de un video ya describe completamente toda la información visual significativa (una situación a la que a veces se llama "audio equivalente"), no se requiere ninguna audiodescripción adicional.
Para cumplir con el 1.2.3, se requiere que al menos una de las siguientes condiciones sea verdadera para cada pieza de medio sincronizado pregrabado: se proporciona una audiodescripción, o se vincula o se coloca directamente junto al medio una alternativa de texto que transmita toda la información de audio y visual. Se produce un incumplimiento cuando el contenido de video contiene elementos visuales significativos —texto en pantalla, datos gráficos, expresiones faciales que transmiten emociones clave, pasos de demostración— que no se transmiten mediante ningún tipo de audio o alternativa de texto.
Tenga en cuenta que el 1.2.3 es un requisito de Nivel A, lo que lo convierte en la expectativa básica. El criterio de Nivel AA más sólido, 1.2.5 (Audiodescripción — Pregrabado), exige audiodescripciones en todos los casos en que sean necesarias, mientras que el 1.2.3 permite la alternativa de texto como sustituto en el Nivel A.
Por qué es importante
Aproximadamente 2,2 mil millones de personas en todo el mundo tienen algún tipo de discapacidad visual, según la Organización Mundial de la Salud. Para las personas ciegas, el contenido de video sin audiodescripción o alternativa de texto es completamente inaccesible como fuente de información visual. Un lector de pantalla puede anunciar que hay un elemento de video y puede leer cualquier subtítulo asociado, pero no puede interpretar el contenido visual de los fotogramas del video en sí. Sin una audiodescripción o una alternativa de medios, esas personas simplemente se pierden todo lo que el video muestra pero no dice.
Considere un escenario concreto: una plataforma turca de comercio electrónico publica un video de demostración de producto para un dispositivo de hogar inteligente. El video muestra a una persona presentadora emparejando el dispositivo con una aplicación móvil, navegando por menús en ambas pantallas y conectando cables a puertos específicos. La narración de la persona presentadora se centra en los beneficios del dispositivo, pero no describe qué botones se presionan ni qué elementos de menú se seleccionan. Una persona ciega que ve este video con un lector de pantalla solo escucha la narración: no recibe ninguna de la información visual procedimental que le permitiría replicar la configuración en casa. Con una audiodescripción o una alternativa de texto detallada, esa persona obtiene acceso completo al mismo contenido instructivo.
Más allá de las personas ciegas, las alternativas de texto detalladas benefician a personas con discapacidades cognitivas que pueden procesar las instrucciones escritas con mayor facilidad que un video de ritmo rápido. También benefician a personas en entornos con limitaciones de ancho de banda que no pueden reproducir video, a personas en redes corporativas donde el video está bloqueado y a personas cuyos dispositivos o navegadores no admiten ciertos formatos de video. Los motores de búsqueda también indexan las alternativas de texto, lo que significa que proporcionarlas mejora el SEO al hacer que el contenido de video sea detectable mediante búsquedas de texto completo, un beneficio empresarial significativo junto con el valor de accesibilidad.
Para las personas con discapacidad motriz que no pueden manejar con precisión los controles de video, una alternativa de texto les permite consumir el contenido a su propio ritmo sin tener que luchar con los controles de pausa, rebobinado o reproducción. En resumen, las audiodescripciones y las alternativas de medios sirven a una amplia población y mejoran la calidad general y el alcance del contenido de video mucho más allá de las personas que estrictamente las necesitan para acceder.
Reglas relacionadas de Axe-core
WCAG 1.2.3 requiere pruebas manuales. No existe una regla de axe-core que marque automáticamente una infracción de este criterio, y entender por qué ayuda a aclarar qué deben buscar manualmente las personas evaluadoras.
- Se requieren pruebas manuales — análisis de contenido visual: Las herramientas automatizadas pueden detectar la presencia de un elemento
<video>, un elemento<track>o un enlace a una transcripción asociada, pero no pueden evaluar si el contenido de una audiodescripción o de una alternativa de texto es suficiente. La suficiencia depende de si se transmite toda la información visual significativa, un juicio que requiere que una persona vea el video, lea la alternativa y los compare. Un análisis con axe puede confirmar que hay un elemento<track kind='descriptions'>presente, pero no puede verificar que las descripciones realmente cubran todos los eventos visuales críticos del video. - Se requieren pruebas manuales — evaluación de equivalencia: Determinar si la pista de audio principal ya describe toda la información visual (lo que hace innecesaria una audiodescripción adicional) es, por naturaleza, un juicio sobre el contenido. Una persona revisora debe ver el video y evaluar si una persona ciega que solo escucha el audio se perdería alguna información significativa. Ninguna regla automatizada puede hacer esta determinación de forma fiable.
- Se requieren pruebas manuales — integridad de la alternativa de texto: Si se proporciona una alternativa de texto (alternativa completa para medios) en lugar de una audiodescripción, una persona debe leer la alternativa de texto y compararla con el video para confirmar que todos los eventos visuales, el texto en pantalla y las acciones significativas están representados. Las herramientas automatizadas pueden comprobar que existe un enlace a una transcripción, pero no pueden evaluar si esa transcripción es completa y precisa.
Cómo hacer las pruebas
- Línea base de análisis automatizado: Ejecute axe DevTools o Google Lighthouse en la página que contiene el video. Aunque ninguna de las dos herramientas marcará directamente una infracción del 1.2.3, el análisis puede sacar a la luz problemas relacionados, como la ausencia de elementos
<track>(marcados en el 1.2.2 para subtítulos) o la falta de alternativas de texto para medios basados en imágenes. Tome nota de cualquier elemento de video presente en la página para saber cuáles requieren revisión manual según el 1.2.3. - Identificar medios sincronizados: Localice cada elemento
<video>(o reproductor de terceros incrustado, como iframes de YouTube o Vimeo) en la página. Confirme si cada video es pregrabado y sincronizado (es decir, si tiene pistas de audio y video que son significativas). Si un video es solo de audio o tiene una pista de video decorativa, queda fuera del alcance del 1.2.3. - Ver el video con el sonido activado: Vea el video normalmente y preste mucha atención a cualquier información que se transmita visualmente pero que no se describa en el audio. Los ejemplos habituales incluyen: superposiciones de texto en pantalla, diagramas o gráficos que se dibujan, demostraciones paso a paso de un proceso físico, expresiones faciales o lenguaje corporal que transmiten significado emocional y la identificación de quien habla cuando aparecen varias personas en pantalla.
- Comprobar si hay una pista de audiodescripción: Inspeccione el marcado del elemento de video en busca de un elemento
<track kind='descriptions'>. Si está presente, habilite las descripciones en el reproductor de video (o use un navegador que las muestre) y vuelva a ver el video. Verifique que cada evento visual significativo identificado en el paso 3 esté descrito en la pista de audiodescripción en el momento adecuado. - Comprobar si hay una alternativa de texto completa: Si no hay una pista de audiodescripción, busque un enlace a una transcripción o a una alternativa completa para medios junto al video o inmediatamente después de este. Confirme que el documento vinculado o el texto en línea describa todo el contenido de audio (diálogo, narración, efectos de sonido relevantes) y todo el contenido visual (acciones, texto en pantalla, descripciones del entorno, identificación de quien habla).
- Verificación con lector de pantalla (NVDA + Firefox): Abra la página con NVDA en ejecución. Navegue hasta el elemento de video y confirme que NVDA anuncia la presencia del video y de cualquier control asociado. Si se proporciona una alternativa de texto en línea o mediante un enlace, navegue hasta ella y confirme que NVDA lee todo el contenido sin omisiones. Nota: NVDA no puede leer el contenido visual de los fotogramas del video, lo que subraya por qué la comparación humana del paso 3 es esencial.
- Verificación con lector de pantalla (VoiceOver + Safari en macOS): Active VoiceOver y navegue hasta el video. Use el rotor de VoiceOver para encontrar el elemento de video y cualquier elemento de pista o enlace asociado. Confirme que la pista de descripción, si está presente, sea accesible a través de los controles multimedia de Safari.
- Reproductores de terceros: Para las incrustaciones de YouTube, compruebe si el video tiene una versión con audiodescripción (a menudo un video separado vinculado en la descripción) o si hay una transcripción asociada disponible y vinculada en la página donde se incrusta. Para Vimeo, revise la configuración de accesibilidad del video. Los reproductores de terceros no cumplen automáticamente el 1.2.3: la persona autora de la página es responsable de garantizar que se proporcione o se vincule una alternativa.
Cómo corregir
Escenario 1: video HTML5 sin audiodescripción — Incorrecto
<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
<source src='product-demo.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
Escenario 1: video HTML5 con pista de audiodescripción — Correcto
<!-- Audio description track added using kind='descriptions'.
The VTT file contains timed narrations of visual events
that are not conveyed through the main audio. -->
<video controls width='800'>
<source src='product-demo.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
<track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
Escenario 2: video HTML5 sin alternativa de texto — Incorrecto
<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
<h2>How to Configure Your Router</h2>
<video controls width='800'>
<source src='router-setup.mp4' type='video/mp4'>
<track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
</video>
</section>
Escenario 2: video HTML5 con una alternativa completa para medios — Correcto
<!-- Full media alternative linked immediately after the video.
The linked page contains both transcript text (all dialogue and narration)
and descriptions of all visual steps shown in the video. -->
<section>
<h2>How to Configure Your Router</h2>
<video controls width='800'>
<source src='router-setup.mp4' type='video/mp4'>
<track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
</video>
<p>
<a href='router-setup-full-transcript.html'>
Full text alternative for this video (includes all dialogue and visual descriptions)
</a>
</p>
</section>
Escenario 3: incrustación de YouTube sin alternativa suplementaria — Incorrecto
<!-- Embedded YouTube video; the video on YouTube has no audio description
and no transcript is linked on this page -->
<iframe width='560' height='315'
src='https://www.youtube.com/embed/XXXXXXXXXXX'
title='Annual Report Highlights 2024'
allowfullscreen>
</iframe>
Escenario 3: incrustación de YouTube con alternativa de texto vinculada — Correcto
<!-- Embedding page provides a link to a full text alternative.
The linked document describes all visual content in the video
(slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
<iframe width='560' height='315'
src='https://www.youtube.com/embed/XXXXXXXXXXX'
title='Annual Report Highlights 2024'
allowfullscreen>
</iframe>
<figcaption>
<a href='annual-report-2024-full-transcript.html'>
Read the full text alternative for Annual Report Highlights 2024
</a>
</figcaption>
</figure>
Escenario 4: video cuyo audio ya describe todo el contenido visual (excepción) — Correcto
<!-- This video features a narrator who explicitly describes every action
being performed on screen: 'I am now clicking the blue Settings button
in the top-right corner and selecting Account from the dropdown menu.'
Because the audio fully conveys all visual information, no separate
audio description is required under 1.2.3. -->
<video controls width='800'>
<source src='fully-described-tutorial.mp4' type='video/mp4'>
<track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->
Errores comunes
- Proporcionar subtítulos en lugar de una audiodescripción: Los subtítulos transcriben el audio hablado para personas sordas; no describen la información visual para personas ciegas. Añadir un elemento
<track kind='captions'>satisface el 1.2.2 pero no satisface el 1.2.3. Son dos requisitos distintos que se dirigen a dos grupos de discapacidad diferentes. - Vincular una transcripción que solo cubre el diálogo: Una alternativa de texto para el 1.2.3 debe describir todo el contenido visual significativo —texto en pantalla, diagramas, acciones físicas, identificación de quien habla—, no solo lo que se dice. Una transcripción que solo contenga el guion suele incumplir este criterio si el video contiene información exclusivamente visual.
- Colocar el enlace a la alternativa de texto lejos del video: Si la alternativa completa para medios está enterrada en una nota al pie o en una página separada sin un enlace claro y cercano, es posible que las personas usuarias no la encuentren. El enlace debe aparecer inmediatamente antes o después del elemento de video para que las personas usuarias de lectores de pantalla lo encuentren en un orden de lectura natural.
- Suponer que la transcripción generada automáticamente por YouTube satisface el criterio: Las transcripciones automáticas de YouTube solo cubren el audio hablado. No describen el contenido visual y a menudo son inexactas. No constituyen una alternativa completa para medios suficiente según el 1.2.3.
- Usar un elemento
<track kind='descriptions'>pero dejar el archivo VTT vacío o incompleto: La presencia del elemento de pista no es suficiente; el archivo VTT debe contener descripciones precisas y oportunas de todos los eventos visuales significativos. Un archivo VTT vacío o muy incompleto no satisface el criterio. - No describir las superposiciones de texto en pantalla: Los videos de marketing muestran con frecuencia estadísticas, nombres de productos o textos de llamada a la acción como superposiciones animadas. Si estas superposiciones no son leídas en voz alta por una persona narradora, deben aparecer en la audiodescripción o en la alternativa de texto; las personas autoras suelen pasarlas por alto.
- Redactar audiodescripciones demasiado vagas: Descripciones como "la persona presentadora demuestra el proceso" son insuficientes. Las descripciones eficaces nombran acciones específicas, elementos de la interfaz, colores cuando son significativos y relaciones espaciales: "La persona presentadora hace clic en el botón rojo Eliminar en el lado derecho de la barra de herramientas y luego confirma seleccionando Aceptar en el cuadro de diálogo".
- No proporcionar una alternativa para videos en reproducción automática o de fondo que transmiten información: Un video que se reproduce automáticamente y muestra información importante (como una sección principal que muestra características de productos con superposiciones de texto) sigue siendo un medio sincronizado y requiere cumplimiento si transmite contenido significativo.
- Tratar los videos decorativos como exentos sin verificación: Los equipos a veces etiquetan un video como "decorativo" para evitar el requisito, incluso cuando en realidad transmite información sobre productos o contenido instructivo. La excepción decorativa solo se aplica cuando el video realmente no añade información significativa más allá de la que ya está disponible en el texto adyacente.
- Olvidar actualizar la audiodescripción o la alternativa de texto cuando se actualiza el video: Si el contenido del video cambia —por ejemplo, se revisan los pasos de un producto o se actualizan los datos de precios—, la audiodescripción y la alternativa de texto deben actualizarse para que coincidan. Las alternativas desactualizadas constituyen un incumplimiento de conformidad incluso si las alternativas originales eran precisas.
Relación con la normativa de accesibilidad de Turquía
La Circular Presidencial 2025/10 de Turquía, publicada en el Boletín Oficial n.º 32933 el 21 de junio de 2025, establece normas obligatorias de accesibilidad web para una amplia gama de entidades públicas y privadas que operan en Turquía. La circular hace referencia a normas de accesibilidad reconocidas internacionalmente, siendo las WCAG 2.2 Nivel A y Nivel AA la base técnica para la conformidad. Dado que el 1.2.3 de las WCAG es un requisito de Nivel A, se encuentra entre las obligaciones más fundamentales de la circular: no existe un nivel de conformidad inferior que permita a las organizaciones ignorarlo.
La circular abarca una amplia gama de tipos de entidades. Las instituciones públicas y los organismos gubernamentales —incluidos ministerios, municipios, universidades estatales y otros organismos públicos— deben lograr la conformidad en el plazo de un año a partir de la fecha de publicación de la circular. Las entidades del sector privado cubiertas por la circular incluyen plataformas de comercio electrónico, bancos e instituciones financieras, hospitales y proveedores de atención sanitaria privados, empresas de telecomunicaciones con 200,000 o más abonados, agencias de viajes autorizadas, empresas de transporte privadas y escuelas privadas autorizadas por el Ministerio de Educación Nacional (MoNE). Estas organizaciones del sector privado disponen de dos años desde la fecha de publicación para lograr la conformidad.
Para cualquier entidad cubierta que publique contenido de video —lo que hoy incluye prácticamente a todas las principales instituciones y empresas turcas—, el 1.2.3 de las WCAG crea una obligación concreta y exigible. Un banco que publica videos tutoriales que explican cómo usar su aplicación móvil, un hospital público que publica videos guía para el registro de pacientes, un proveedor de telecomunicaciones que comparte videos promocionales con comparaciones de planes en pantalla o un sitio de comercio electrónico que incluye videos de demostración de productos deben asegurarse de que cada recurso de medio sincronizado pregrabado vaya acompañado de una audiodescripción o de una alternativa de texto completa.
El incumplimiento de los requisitos de la circular puede dar lugar a un escrutinio regulatorio y a daños reputacionales y, a medida que madure la aplicación de la accesibilidad digital en Turquía, a una exposición legal para las entidades cubiertas. Las organizaciones deben tratar el 1.2.3 de las WCAG no como una mejora opcional, sino como una obligación legal básica. En la práctica, esto significa realizar un inventario de todo el contenido de video, evaluar qué videos contienen información exclusivamente visual y producir sistemáticamente audiodescripciones o alternativas de texto completas para aquellos que la contengan. Los nuevos flujos de trabajo de producción de video deben incluir entregables de accesibilidad —guiones de descripción y alternativas de texto— como resultados estándar junto con subtítulos y traducciones.
Fuentes y referencias
- W3C Understanding 1.2.3 Audio Description or Media Alternative (Prerecorded)
- W3C Techniques for 1.2.3
- WebAIM: Captions, Transcripts, and Audio Descriptions
- MDN: HTMLTrackElement kind attribute
- MDN: The HTML track element
- W3C Technique G78: Providing a second, user-selectable, audio track
- W3C Technique G69: Providing an alternative for time-based media
