Criterios de éxito de las WCAG · Level AAA

WCAG 1.2.7: Descripción de audio ampliada (pregrabado)

Las WCAG 1.2.7 requieren que, cuando las pausas en el audio de primer plano sean insuficientes para transmitir toda la información visual, se proporcionen descripciones de audio extendidas —logradas pausando el video— para el contenido multimedia sincronizado pregrabado. Esto garantiza que las personas ciegas y con baja visión puedan comprender plenamente el contenido visual complejo que las descripciones de audio estándar no pueden abarcar.

Qué significa esta regla

El Criterio de Éxito 1.2.7 de las WCAG — Descripción de audio ampliada (pregrabada) opera en el Nivel AAA y se basa directamente en el requisito de Nivel AA del Criterio 1.2.5 (Descripción de audio para contenido pregrabado). Mientras que la descripción de audio estándar simplemente utiliza las pausas naturales en la pista de audio de un video para narrar la información visual, la descripción de audio ampliada va más allá: cuando esas pausas son demasiado cortas o demasiado poco frecuentes para incluir toda la descripción necesaria, el video se pausa y se reproduce la descripción de audio, tras lo cual el video continúa.

El criterio se aplica específicamente a los medios sincronizados pregrabados, es decir, contenido de video que tiene una pista de audio sincronizada con sus elementos visuales, como películas instructivas, videos de capacitación corporativa, documentales, demostraciones de productos y contenido similar. No se aplica a medios en vivo, a contenido solo de audio ni a contenido solo de video en el que no haya pista de audio.

Para cumplir este criterio se requiere una de las siguientes condiciones: (a) se proporciona una pista de descripción de audio ampliada o una versión del medio que pausa la reproducción para ofrecer descripciones de información visual crítica que no cabe en las pausas naturales, o (b) toda la información visual ya se transmite a través de la pista de audio existente sin necesidad de descripción adicional (a veces llamada una versión "equivalentemente descrita"). Se produce un incumplimiento cuando un video sincronizado pregrabado contiene información visual significativa —como texto en pantalla, diagramas, expresiones faciales que impulsan la narrativa o demostraciones— que no se transmite ni mediante descripciones de audio en pausas naturales ni mediante descripciones ampliadas, y el audio existente por sí solo deja a una persona ciega sin esa información.

Las WCAG también reconocen una importante excepción: si el medio es en sí mismo una alternativa multimedia a un texto —por ejemplo, una versión en video de un documento de texto claramente etiquetada como tal—, entonces no se requiere descripción de audio ampliada. Además, si el audio en primer plano ya describe por completo todo el contenido visual, no se necesita descripción adicional.

Vale la pena señalar que proporcionar descripción de audio ampliada a menudo requiere producir una versión completamente separada del video, ya que la mayoría de los reproductores multimedia no admiten de forma nativa el mecanismo de pausar y reanudar para ofrecer la descripción. Los enfoques habituales incluyen una "versión descrita" dedicada accesible mediante una URL independiente o un botón de alternancia en el reproductor, o el uso de un reproductor multimedia que admita pistas de descripción ampliada basadas en TTML (Timed Text Markup Language) o SMIL.

Por qué es importante

La descripción de audio ampliada es fundamental para las personas que son ciegas o tienen una discapacidad visual grave, un público más amplio de lo que muchos desarrolladores suponen. Según la Organización Mundial de la Salud, aproximadamente 2,2 mil millones de personas en todo el mundo tienen algún tipo de discapacidad visual, y al menos 1 mil millón de ellas experimentan afecciones que podrían haberse prevenido o que siguen sin abordarse. Para las personas que dependen por completo de lectores de pantalla y salida de audio, un video que solo describe lo que permiten sus pausas naturales puede dejar enormes lagunas en la comprensión.

Considere un video de formación médica que demuestre una técnica quirúrgica. El narrador podría decir: "Ahora hacemos la incisión aquí", mientras la cámara hace zoom sobre un punto anatómico específico y las manos del cirujano realizan una maniobra precisa. La narración hablada supone que la persona espectadora puede ver el contexto visual. Una descripción de audio estándar podría insertar una breve nota durante una pausa corta, pero si la acción es continua durante dos minutos con habla constante, una estudiante de medicina ciega recibe casi ninguno de los detalles visuales que son centrales para aprender la técnica. La descripción de audio ampliada pausa el video y ofrece la descripción completa: la anatomía visible, la herramienta exacta utilizada, el ángulo de aproximación, la reacción del tejido. La estudiante entonces tiene acceso equivalente al material de aprendizaje.

Más allá de la ceguera, la descripción de audio ampliada beneficia a personas con discapacidades cognitivas que procesan la información más lentamente y se benefician del contexto adicional que proporciona la narración descriptiva. También ayuda a personas en contextos solo de audio, como alguien que escucha un video de formación mientras viaja, que no puede ver la pantalla independientemente de su capacidad visual.

Desde el punto de vista empresarial y legal, proporcionar descripciones de audio ampliadas demuestra un compromiso serio y medible con la inclusión. Para organizaciones en sectores regulados —instituciones públicas, bancos, proveedores de atención sanitaria, centros educativos— demostrar conformidad de Nivel AAA en contenido multimedia complejo puede reducir de forma significativa el riesgo legal y la exposición reputacional. También existe un beneficio práctico en SEO: los guiones utilizados para producir descripciones de audio ampliadas suelen servir como transcripciones enriquecidas, que los motores de búsqueda indexan como contenido significativo, mejorando la capacidad de descubrimiento de los recursos basados en video.

Reglas relacionadas de Axe-core

WCAG 1.2.7 requiere pruebas manuales porque las herramientas automatizadas no pueden evaluar el contenido semántico de un video, comparar la pista de audio con la pista visual ni determinar si la información visual está descrita de forma adecuada. No existe ninguna regla de axe-core que pueda ver un video, entender lo que se muestra visualmente y juzgar si hay una descripción de audio ampliada presente, precisa y completa. Esta es una tarea de juicio fundamentalmente humana.

  • Evaluación manual — comparación entre contenido visual y contenido de audio: Una persona evaluadora debe ver el video con los ojos abiertos y con los ojos cerrados (o usando un lector de pantalla) y determinar si el audio por sí solo —incluida cualquier descripción de audio estándar— transmite toda la información visual significativa. Si no es así, la persona evaluadora debe comprobar si se proporciona una versión con descripción de audio ampliada. Las herramientas automatizadas no pueden realizar esta comparación porque carecen de la capacidad de interpretar fotogramas de video como eventos visuales significativos o correlacionarlos con el significado semántico del audio.
  • Evaluación manual — mecanismo de pausa y reanudación: Si se afirma que existe una descripción ampliada, una persona evaluadora debe verificar que el reproductor realmente se pausa durante la entrega de la descripción y se reanuda correctamente después. Este comportamiento es una cuestión del reproductor multimedia y del temporizado que requiere pruebas de reproducción activas por parte de una persona, ya que los escáneres automatizados no ejecutan ni observan estados de reproducción multimedia.
  • Evaluación manual — precisión e integridad de la descripción: Incluso cuando existe una pista de descripción de audio ampliada, su contenido debe ser preciso y abarcar toda la información visual crítica. Ninguna regla automatizada puede evaluar si el texto de la descripción representa correcta y completamente lo que se muestra en pantalla. Una descripción que diga "la presentadora señala la pizarra" cuando la pizarra contiene un diagrama crítico con puntos de datos etiquetados incumpliría este criterio a pesar de estar técnicamente presente.

Cómo hacer las pruebas

  1. Ejecute primero un análisis automatizado de accesibilidad. Use axe DevTools (extensión del navegador) o Lighthouse en la página que contiene el video. Aunque ninguna de estas herramientas puede verificar directamente el cumplimiento de la descripción de audio ampliada, pueden señalar elementos multimedia ausentes o rotos, elementos de pista ausentes y otros problemas estructurales. Tome nota de cualquier advertencia sobre contenido multimedia como punto de partida. Axe puede señalar la ausencia de una pista de subtítulos o de descripción de audio a nivel de elemento, lo que reduce el alcance de su revisión manual.
  2. Identifique todos los medios sincronizados pregrabados de la página. Localice cada elemento <video> o reproductor multimedia incrustado (iframes de YouTube, incrustaciones de Vimeo, reproductores personalizados). Confirme que cada uno contiene audio y video sincronizados. Los pódcast solo de audio o los videos mudos quedan fuera del alcance de este criterio.
  3. Vea el video solo con audio. Cierre los ojos o use un lector de pantalla (NVDA con Firefox, VoiceOver con Safari o JAWS con Chrome) y escuche el video completo, incluida cualquier pista de descripción de audio existente. Anote cada momento en el que no entienda qué está ocurriendo visualmente: acciones, texto en pantalla, diagramas, transiciones de escena, expresiones de personajes que impulsan la narrativa.
  4. Compare sus notas con la pista visual. Ahora vea el video con el audio silenciado y anote toda la información visual que aparece en pantalla. Cruce esta información con lo que escuchó. Si el contenido visual significativo no se transmitió en el audio, el video requiere descripción de audio. Si las pausas naturales en el audio eran demasiado cortas o inexistentes para incluir esas descripciones, se requiere descripción de audio ampliada.
  5. Compruebe si existe una versión con descripción ampliada. Busque un enlace claramente etiquetado como "Versión con descripción de audio" ("Audio Described Version"), una opción de alternancia en el reproductor de video o una versión descrita en una URL alternativa. Si existe, actívela y repita los pasos 3 y 4 con la versión descrita en reproducción, verificando que las pausas y descripciones ahora cubren la información visual que faltaba.
  6. Pruebe el comportamiento de pausa y reanudación con NVDA + Firefox. Con la versión con descripción ampliada en reproducción, confirme que el video se pausa, que la descripción de audio se ofrece con claridad y que el video se reanuda desde el punto correcto. Verifique que el lector de pantalla anuncie el contenido descrito o que este sea audible de otro modo para una persona sin visión.
  7. Pruebe con VoiceOver + Safari en macOS/iOS. Repita la prueba de reproducción. Asegúrese de que la versión descrita sea operable con la navegación por teclado (Tab, Espacio, Intro) y que VoiceOver anuncie correctamente los controles del reproductor, incluida cualquier opción de alternancia de descripción.
  8. Verifique la precisión del guion de la descripción. Obtenga el guion o la transcripción de la descripción ampliada si está disponible. Revíselo en relación con el video para confirmar que es fiel a los hechos, que cubre todos los eventos visuales críticos y que no omite información que una persona vidente utilizaría para entender el contenido.

Cómo corregir

Escenario 1: Video sin ninguna descripción de audio — Incorrecto

<!-- A training video with no audio description track and no described version link.
     Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>

Escenario 1: Video con versión con descripción de audio ampliada — Correcto

<!-- Provide a clearly labeled link to the extended described version.
     The described version pauses at critical moments to deliver full visual descriptions.
     This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
  <a href='surgical-technique-extended-described.mp4'>
    Watch extended audio described version of this video
  </a>
</p>

Escenario 2: Video de YouTube incrustado con elementos visuales de ritmo rápido — Incorrecto

<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
     but there is no audio description, and the visual demonstrations are rapid
     with no natural pauses long enough for description. -->
<iframe
  width='560'
  height='315'
  src='https://www.youtube.com/embed/EXAMPLE_ID'
  title='Product demonstration video'
  allowfullscreen>
</iframe>

Escenario 2: Video incrustado con opción de alternancia para la versión descrita — Correcto

<!-- Offer a button that swaps the src to the extended described version.
     The described version was produced as a separate MP4 with pauses built in.
     The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
  <iframe
    id='demo-video-frame'
    width='560'
    height='315'
    src='https://www.youtube.com/embed/EXAMPLE_ID'
    title='Product demonstration video'
    allowfullscreen>
  </iframe>
  <p>
    <button
      type='button'
      aria-pressed='false'
      onclick='toggleDescribedVersion(this)'>
      Enable extended audio description
    </button>
  </p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
     to the described YouTube video ID and updates aria-pressed. -->

Escenario 3: Reproductor de video HTML5 con una pista de descripción demasiado breve — Incorrecto

<!-- A descriptions track exists but its cue text is truncated to fit within
     existing audio pauses. Key visual information (a data chart with five labeled
     columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->

Escenario 3: Versión descrita ampliada independiente con narración completa — Correcto

<!-- The extended described version pauses playback at the chart moment
     and delivers: 'A bar chart titled Annual Revenue by Region appears.
     Five bars are shown: Europe 2.1 million, Asia 3.4 million,
     North America 4.8 million, South America 1.2 million, Africa 0.9 million.
     North America leads all regions.' The video then resumes. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
  <strong>Extended audio described version:</strong>
  <a href='annual-report-extended-described.mp4'>
    Annual report video with extended audio descriptions
  </a>
</p>

Errores comunes

  • Tratar una pista de subtítulos como sustituto de la descripción de audio: Los subtítulos transmiten el diálogo hablado y los efectos de sonido como texto para personas sordas. No describen el contenido visual para personas ciegas. Un video que solo tiene una pista de subtítulos sigue incumpliendo este criterio si la información visual no se describe en el audio.
  • Proporcionar una pista de descripción de audio estándar sin comprobar si las pausas son suficientes: Muchos equipos añaden un elemento <track kind='descriptions'> y consideran que el trabajo está hecho, sin verificar que cada evento visual significativo tenga una pausa lo bastante larga para que quepa la descripción. Las demostraciones de ritmo rápido, los diagramas complejos y el texto denso en pantalla suelen requerir descripciones ampliadas.
  • Describir solo los cambios visuales obvios y omitir el contenido textual en pantalla: El texto en pantalla —títulos de diapositivas, etiquetas de formularios, ejes de gráficos, etiquetas de botones mostradas en una demostración— debe leerse por completo durante la descripción de audio. Decir "aparece una diapositiva" en lugar de leer el título de la diapositiva y los puntos clave deja información crítica inaccesible.
  • Enlazar a una versión descrita sin un nombre accesible claro y determinable mediante programación: Un enlace que diga "haz clic aquí" o "versión descrita" sin una etiqueta que identifique qué video describe incumple la WCAG 2.4.6 y genera confusión para las personas usuarias de lectores de pantalla que navegan por una página con varios videos.
  • Usar el botón de alternancia de la versión descrita sin actualizar aria-pressed ni proporcionar retroalimentación: Si un botón cambia entre la reproducción estándar y la descrita, debe usar aria-pressed (true/false) o un anuncio equivalente en una región en vivo para que las personas usuarias de lectores de pantalla sepan el estado actual y que su acción surtió efecto.
  • Producir la versión descrita ampliada sin probar la precisión de la reanudación: Después de la pausa para la descripción, el video debe reanudarse exactamente donde se detuvo, no desde un fotograma ligeramente anterior o posterior. Los puntos de reanudación incorrectos provocan pérdida de contexto narrativo y aumentan la confusión para las personas ciegas.
  • Suponer que una transcripción del video por sí sola satisface este criterio: Una transcripción es valiosa y respalda el Criterio 1.2.8 (Alternativa para medios), pero no cumple el 1.2.7. La descripción de audio ampliada es un mecanismo sincronizado en el tiempo y entregado en audio, no un documento independiente para leer por separado.
  • No describir la información visual que impulsa el significado emocional o narrativo de una escena: Si la expresión facial, el lenguaje corporal o la reacción visual de un personaje son fundamentales para entender lo que está ocurriendo —por ejemplo, en un video de testimonio de una clienta—, omitir esa descripción deja a las personas ciegas sin una comprensión equivalente incluso si el diálogo hablado está intacto.
  • No actualizar la versión descrita cuando se actualiza el video principal: Si el video original se vuelve a editar, se actualiza o se sustituye (algo habitual en contenido instructivo), la pista o versión de descripción ampliada también debe actualizarse. Las descripciones obsoletas pueden inducir activamente a error al describir escenas que ya no existen.
  • Incrustar videos mediante iframes de terceros (YouTube, Vimeo) y suponer que la plataforma se encarga de la descripción: Las descripciones de audio proporcionadas por la plataforma (cuando existen) rara vez son descripciones ampliadas. La persona propietaria del contenido es responsable de garantizar que exista una versión descrita ampliada y que esté enlazada o sea accesible desde la página donde se incrusta.

Relación con la normativa de accesibilidad de Turquía

La Circular Presidencial 2025/10 de Turquía, publicada en el Boletín Oficial n.º 32933 el 21 de junio de 2025, establece obligaciones de accesibilidad para un conjunto definido de proveedores de servicios digitales. La circular exige la conformidad con normas de accesibilidad para los productos y servicios digitales ofrecidos al público, alineándose en términos generales con las WCAG 2.1 Nivel AA como requisito básico de cumplimiento.

Los tipos de entidades cubiertas por la circular incluyen instituciones y organismos públicos, plataformas de comercio electrónico, bancos e instituciones financieras, hospitales y proveedores de atención sanitaria, operadores de telecomunicaciones con 200,000 o más abonados, agencias de viajes con licencia, empresas de transporte privado y escuelas privadas autorizadas por el Ministerio de Educación Nacional (MoNE). Para estas entidades, la conformidad con las WCAG 2.1 Nivel AA es el mínimo exigible.

WCAG 1.2.7 (Descripción de audio ampliada) es un criterio de Nivel AAA, lo que significa que no está directamente exigido por los requisitos básicos de la circular. Sin embargo, su importancia no debe subestimarse en el contexto regulatorio turco por varias razones. En primer lugar, las organizaciones que producen contenido multimedia complejo —como proveedores de atención sanitaria que publican videos de formación quirúrgica, instituciones públicas que lanzan videos explicativos sobre políticas o escuelas privadas que distribuyen contenido educativo en video— tienen un sólido argumento ético y práctico para implementar descripciones de audio ampliadas en sus materiales más críticos, incluso sin un mandato legal estricto.

En segundo lugar, a medida que la regulación turca sobre accesibilidad digital madura y se refuerzan los mecanismos de aplicación, los criterios de Nivel AAA se mencionan cada vez más como indicadores de prácticas de excelencia. Las organizaciones que demuestran voluntariamente conformidad con el Nivel AAA —especialmente en ámbitos de alto impacto como la salud, la educación y las finanzas— están mejor posicionadas para futuras actualizaciones normativas y afrontan un menor riesgo de quejas en el marco de disposiciones más amplias contra la discriminación.

En tercer lugar, para las emisoras públicas y organizaciones de medios, incluso si no se las menciona directamente en la circular 2025/10, el Consejo Supremo de Radio y Televisión de Turquía (RTÜK) históricamente ha abordado disposiciones de accesibilidad para el contenido emitido. La descripción de audio ampliada se alinea con el espíritu de esas obligaciones cuando se aplica a videos a la carta y distribuidos por la web.

Las organizaciones que utilizan el SDK del widget Accsible deben tener en cuenta que, si bien el widget superpuesto puede mostrar funciones y controles de accesibilidad a las personas usuarias finales, la descripción de audio ampliada debe implementarse en el propio nivel de producción del contenido; no puede añadirse de forma automática mediante una herramienta del lado del cliente. Sin embargo, el SDK puede mostrar una opción de alternancia o un enlace a la versión descrita dentro del panel de accesibilidad, lo que hace que esa versión alternativa sea más fácil de encontrar para las personas que la necesitan.