Criterios de éxito de las WCAG · Level AA
WCAG 1.2.5: Audiodescripción (pregrabada)
WCAG 1.2.5 requiere que se proporcione una audiodescripción para todo el contenido de video pregrabado en medios sincronizados, garantizando que las personas ciegas o con baja visión puedan acceder a la información visual que no se transmite únicamente a través de la pista de audio.
- Level AA
Qué significa esta regla
\nWCAG 1.2.5 — Descripción de audio (pregrabada) es un criterio de éxito de Nivel AA bajo el Principio 1: Perceptible. Exige que se proporcione descripción de audio para todos los medios sincronizados pregrabados que contengan video. La descripción de audio es una pista de narración añadida al audio principal de un video que describe información visual importante — como acciones, cambios de escena, texto en pantalla, expresiones faciales y otros elementos visuales — que no se comunican mediante el diálogo o el audio existentes.
\nEl criterio se aplica a los medios sincronizados, definidos por las WCAG como contenido que combina pistas de audio y video sincronizadas entre sí o con componentes interactivos basados en tiempo. Esto incluye tutoriales en video, películas instructivas, seminarios web grabados, videos promocionales, demostraciones de productos y noticieros. No se aplica a contenido solo de audio, contenido solo de video (que se trata por separado en 1.2.1) ni a transmisiones de video en vivo (que, en su caso, están cubiertas por 1.2.6 en el Nivel AAA).
\nPara aprobar se requiere que, para cada video pregrabado con audio, exista una pista adicional de descripción de audio que la persona usuaria pueda activar, o una versión con descripción de audio extendida del video en la que se hayan insertado pausas para permitir que la persona narradora tenga tiempo suficiente para describir contenido visual complejo. Alternativamente, si la pista de audio existente ya transmite por completo toda la información visual presente en el video — es decir, no ocurre nada significativo a nivel visual que no esté descrito en la narración o el diálogo existentes — entonces no se requiere una descripción de audio adicional.
\nSe produce un fallo cuando la información visual crítica para comprender el contenido del video se presenta únicamente a través de la pista de imagen sin una descripción verbal correspondiente. Por ejemplo, un video de capacitación que muestra a una persona presentadora haciendo clic en pasos de un software en pantalla, mientras solo dice "haz clic aquí, luego selecciona esta opción", incumple este criterio porque una persona ciega que escucha la pista de audio no tendría forma de entender en qué elemento de la interfaz se hace clic o qué se está seleccionando.
\nHay una excepción oficial importante: si el medio es en sí mismo una alternativa en medios para un texto — es decir, si se produjo un video específicamente para servir como equivalente accesible de un documento de texto — y está claramente etiquetado como tal, entonces no se requiere descripción de audio para ese contenido.
\n\nPor qué es importante
\nLa descripción de audio es principalmente un requisito para personas usuarias que son ciegas o tienen una discapacidad visual significativa. Según la Organización Mundial de la Salud, aproximadamente 2.2 mil millones de personas en todo el mundo tienen algún tipo de discapacidad visual. Para estas personas, la experiencia predeterminada de un video sin descripción de audio puede ser desorientadora o totalmente carente de información cuando la narrativa depende del contexto visual. Una persona ciega que depende de un lector de pantalla puede detectar que hay un video en una página, pero sin descripción de audio, solo escucha el diálogo o los sonidos ambientales que se hayan capturado, lo que deja vacíos que pueden hacer que el contenido sea irrelevante o engañoso.
\nConsideremos un escenario concreto del mundo real: un banco turco publica un video tutorial sobre cómo configurar la autenticación de dos factores en su aplicación móvil. El video muestra cada pantalla de la aplicación en secuencia, con una persona narradora diciendo cosas como "ahora toca el ícono de configuración" o "verás un mensaje de confirmación". Sin descripción de audio, una persona clienta ciega que usa un lector de pantalla no puede determinar dónde se encuentra visualmente el ícono de configuración, qué dice el mensaje de confirmación o cómo son las pantallas. En la práctica queda excluida del tutorial de autoservicio y puede necesitar llamar al servicio de atención al cliente, lo que genera fricción, costos y una experiencia de usuario inferior.
\nMás allá de las personas que son completamente ciegas, la descripción de audio también beneficia a personas con discapacidades cognitivas que pueden encontrar más fácil procesar la información cuando se describe verbalmente además de mostrarse visualmente. También puede beneficiar a personas usuarias en entornos solo de audio que no pueden ver una pantalla, como al conducir, o a quienes tienen dificultades para leer el texto en pantalla con la suficiente rapidez mientras aparece en el video.
\nDesde la perspectiva de SEO y capacidad de descubrimiento, el contenido en video que incluye transcripciones o guiones de descripción aporta texto adicional que los motores de búsqueda pueden indexar, lo que potencialmente mejora la clasificación para consultas relevantes. Más importante aún, proporcionar descripción de audio indica tanto a las personas usuarias como a las autoridades reguladoras que tu plataforma se toma en serio la inclusión, lo cual es cada vez más una expectativa comercial y legal en muchos mercados.
\n\nReglas relacionadas de Axe-core
\nWCAG 1.2.5 requiere pruebas manuales. Las herramientas automatizadas como axe-core no pueden determinar de forma programática si la descripción de audio presente en un video es precisa, suficiente o significativa; este juicio requiere una persona revisora que pueda ver el video y evaluar si toda la información visual se comunica a través del audio. No existe una regla de axe-core que pueda marcar automáticamente una pista de descripción de audio ausente o inadecuada.
\n- \n
- Revisión manual requerida — auditoría de contenido visual: Una persona evaluadora debe ver el video completo con la pantalla silenciada (o con solo la pista de descripción de audio activada) y evaluar si toda la información exclusivamente visual — incluido el texto en pantalla, las acciones de la persona que habla, los cambios de escena, gráficos, diagramas y señales no verbales — se transmite adecuadamente. Las herramientas automatizadas no pueden analizar el significado semántico de un fotograma de video ni evaluar si la narración corresponde a lo que se muestra visualmente. \n
- Revisión manual requerida — detección de pista: Aunque axe-core puede comprobar la presencia de un elemento
<track>conkind='descriptions'en un elemento<video>, no puede verificar si el archivo de la pista de descripción contiene realmente descripciones significativas y precisas. Un video puede tener una pista de descripciones que esté vacía, que sea un sinsentido generado por máquina o que simplemente no esté sincronizada; todos estos casos pasarían la detección automatizada pero incumplirían el criterio en la práctica. \n - Revisión manual requerida — comprobación de versión alternativa: Algunas implementaciones proporcionan descripción de audio ofreciendo una URL o versión separada del video con la descripción incorporada en la pista de audio principal. Las herramientas automatizadas no tienen forma de detectar la existencia de una versión alternativa de un recurso de video enlazada en otra parte de la página ni de navegar hasta ella. \n
Cómo hacer las pruebas
\n- \n
- Identifica todos los medios sincronizados pregrabados en la página. Recorre la página en busca de elementos
<video>, iframes incrustados (YouTube, Vimeo, reproductores de terceros) y cualquier implementación de reproductor de video personalizado. Toma nota de cada video que contenga pistas de audio y video y que sea pregrabado en lugar de en vivo. \n - Ejecuta un análisis automatizado con axe DevTools o Lighthouse. Abre las herramientas de desarrollo del navegador, ejecuta axe DevTools en la página y filtra los resultados para cualquier regla relacionada con elementos de video o medios. Los análisis automatizados pueden sacar a la luz elementos
<track>faltantes o roles ARIA en reproductores de video personalizados, pero no confirmarán la suficiencia de la descripción de audio. Trata los resultados automatizados solo como un punto de partida. \n - Mira cada video con la pantalla oculta o los ojos cerrados. Escucha solo el audio, incluida cualquier pista de descripción de audio si se proporciona. Pregúntate: ¿se comunica mediante el sonido cada pieza de información visual significativa? ¿Puedes seguir la narrativa completa, entender todas las acciones en pantalla e identificar todo el texto y los gráficos mostrados solo a partir del audio? \n
- Comprueba si hay una pista de descripción de audio. Inspecciona los controles del reproductor de video en busca de un botón o menú que active la descripción de audio. Para video HTML5, inspecciona el DOM en busca de un elemento
<track kind='descriptions'>. Activa la pista de descripciones y verifica que reproduzca una narración precisa y sincronizada del contenido visual. \n - Comprueba si hay una versión alternativa con descripción. Busca un enlace o botón claramente etiquetado junto al video que diga algo como "Ver con descripción de audio" o "Versión con descripción de audio". Sigue ese enlace y verifica que la versión alternativa contenga una descripción de audio precisa y completa incorporada en su pista de audio. \n
- Haz pruebas con un lector de pantalla. Usando NVDA con Firefox, VoiceOver con Safari o JAWS con Chrome, navega hasta el elemento de video. Confirma que el lector de pantalla anuncia el control de video y cualquier opción de pista de descripción asociada. Reproduce el video y verifica que la pista de descripción sea audible y esté sincronizada. Comprueba que el lector de pantalla no suprima ni entre en conflicto con el audio de la descripción. \n
- Evalúa el caso de excepción. Si el video se presenta como una alternativa en medios a un documento de texto, confirma que esté etiquetado como tal directamente junto al video. Si está etiquetado correctamente y representa por completo el mismo contenido que el texto, no se requiere descripción de audio, pero verifica que este etiquetado sea presente y no dé lugar a dudas. \n
Cómo corregir
\n\nVideo sin pista de descripción de audio — Incorrecto
\n<!-- A training video with significant visual content and no audio description -->\n<video controls width='800'>\n <source src='training-video.mp4' type='video/mp4'>\n <track kind='subtitles' src='subtitles-en.vtt' srclang='en' label='English'>\n</video>\n<!-- Fails 1.2.5: subtitles are present but no descriptions track exists.\n Visual-only information in the video is inaccessible to blind users. -->\n\nVideo con pista de descripción de audio añadida — Correcto
\n<!-- A training video with an audio description track provided -->\n<video controls width='800'>\n <source src='training-video.mp4' type='video/mp4'>\n <track kind='subtitles' src='subtitles-en.vtt' srclang='en' label='English'>\n <!-- Audio description track added with kind='descriptions' -->\n <track kind='descriptions' src='audio-description-en.vtt' srclang='en' label='Audio Description (English)'>\n</video>\n<!-- Passes 1.2.5: screen readers and description-aware players can\n activate the descriptions track to narrate visual content for blind users. -->\n\nVideo de terceros incrustado sin alternativa con descripción — Incorrecto
\n<!-- A YouTube embed with no accessible described alternative -->\n<iframe\n width='560'\n height='315'\n src='https://www.youtube.com/embed/VIDEOID'\n title='Product Demo'\n allowfullscreen>\n</iframe>\n<!-- Fails 1.2.5: if the YouTube video itself does not have an audio\n description track uploaded, there is no way for blind users to\n access visual-only content in the video. -->\n\nVideo incrustado con alternativa descrita claramente etiquetada — Correcto
\n<!-- A YouTube embed accompanied by a link to an audio described version -->\n<figure>\n <iframe\n width='560'\n height='315'\n src='https://www.youtube.com/embed/VIDEOID'\n title='Product Demo'\n allowfullscreen>\n </iframe>\n <figcaption>\n Product Demo — visual walkthrough of the onboarding flow.\n <!-- Alternative described version linked directly below the video -->\n <a href='https://www.youtube.com/watch?v=DESCRIBED_VIDEOID'>\n Watch the audio described version of this video\n </a>\n </figcaption>\n</figure>\n<!-- Passes 1.2.5: a clearly labeled alternative with audio description\n is provided, allowing blind users to access the same content. -->\n\nReproductor de video personalizado sin conmutador de descripción — Incorrecto
\n<!-- Custom video player with no mechanism to enable audio description -->\n<div class='video-player' role='region' aria-label='Product Tutorial'>\n <video id='tutorial-video'>\n <source src='tutorial.mp4' type='video/mp4'>\n </video>\n <div class='controls'>\n <button id='play-pause'>Play</button>\n <button id='mute'>Mute</button>\n </div>\n</div>\n<!-- Fails 1.2.5: no descriptions track, no AD toggle, no alternative. -->\n\nReproductor de video personalizado con conmutador de descripción de audio — Correcto
\n<!-- Custom video player with accessible audio description toggle -->\n<div class='video-player' role='region' aria-label='Product Tutorial'>\n <video id='tutorial-video'>\n <source src='tutorial.mp4' type='video/mp4'>\n <!-- Descriptions track linked; player JS activates it on toggle -->\n <track id='desc-track' kind='descriptions' src='tutorial-desc.vtt'\n srclang='en' label='Audio Description'>\n </video>\n <div class='controls'>\n <button id='play-pause'>Play</button>\n <button id='mute'>Mute</button>\n <!-- Accessible toggle button for audio description -->\n <button id='ad-toggle' aria-pressed='false'\n aria-label='Toggle audio description'>\n Audio Description\n </button>\n </div>\n</div>\n<!-- Passes 1.2.5: a descriptions track is present and the custom player\n exposes an accessible toggle so users can enable it. Player JS\n must set aria-pressed='true' when activated and enable the track. -->\n\nErrores comunes
\n- \n\n
(Content truncated due to token limit — please retry this article.)
