El video es el formato de contenido dominante en la web, pero sin subtítulos, transcripciones y descripciones de audio, excluye a millones de personas usuarias y expone a tu organización a un serio riesgo legal. Esta guía desglosa exactamente lo que exige WCAG, cómo funciona cada capa de accesibilidad y los pasos prácticos para implementarlas en todo tu sitio.

Aquí hay una cifra que debería dejar helado a cualquier propietario de un sitio web: solo en 2024 se presentaron 4,187 demandas por accesibilidad digital en Estados Unidos, y 2025 va un 37% por encima. El contenido en video está en el centro de muchos de estos casos, porque el video sin funciones de accesibilidad adecuadas es uno de los fallos de cumplimiento más evidentes que un auditor —o el abogado de un demandante— puede encontrar. Sin embargo, el problema va mucho más allá de la exposición legal. Con más de 48 millones de estadounidenses que experimentan algún grado de pérdida auditiva y millones más que son ciegos o tienen baja visión, un video inaccesible simplemente significa que tu mensaje nunca llega a una parte significativa de tu audiencia. La buena noticia es que hacer que el video sea accesible es totalmente alcanzable, y las técnicas implicadas —subtítulos, transcripciones y descripciones de audio— también ofrecen beneficios comerciales medibles que no tienen nada que ver con el cumplimiento.

Por qué la accesibilidad en video ya no es opcional

El panorama legal en torno a la accesibilidad de video se ha agudizado drásticamente en los últimos años. El 8 de abril de 2024, el Departamento de Justicia de EE. UU. (DOJ) emitió una norma final que mejora el acceso web y de aplicaciones móviles bajo el Título II de la ADA, alineándose con WCAG 2.1 Nivel AA — estableciéndolo como el estándar para los sitios web y aplicaciones de gobiernos estatales y locales. La norma actualizada exige que estas entidades proporcionen subtítulos, descripciones de audio y reproductores de video accesibles, así como garantizar la navegación por teclado para el cumplimiento de video según la ADA. Para entidades públicas que atienden a poblaciones de más de 50,000 personas, la fecha límite de cumplimiento es el 24 de abril de 2026. Las entidades públicas más pequeñas tienen hasta abril de 2027.

Las empresas privadas se rigen por el Título III de la ADA, que no tiene una única fecha límite federal pero enfrenta litigios vigorosos y continuos. Los tribunales hacen referencia cada vez más a WCAG 2.1 Nivel AA como el estándar, lo que convierte al cumplimiento proactivo en el camino más seguro. Este desarrollo confirma que los subtítulos y las descripciones de audio son “ayudas auxiliares” esenciales según la ADA, lo que hace que el contenido digital sea más accesible para todas las personas usuarias.

Más allá del riesgo legal, hay un poderoso argumento de audiencia. Según una encuesta realizada por Verizon Media y Publicis Media, el 80% de quienes usan subtítulos no tienen una discapacidad auditiva — y el 50% considera que los subtítulos son importantes porque a menudo ven videos sin audio. Cada vez se ve más video en espacios públicos, y el 69% de las personas encuestadas dijo que veía video con el sonido apagado en áreas públicas. En otras palabras, las funciones de accesibilidad son preferencias de la audiencia general, no adaptaciones de nicho.

El 71% de las personas con discapacidad abandona un sitio web de inmediato si no es accesible. Cada video inaccesible en tu sitio es una puerta que estás cerrando activamente a un segmento sustancial de tu audiencia — y los motores de búsqueda tampoco son inmunes al problema, como veremos más adelante.

El marco WCAG: lo que realmente exigen las pautas

Las Pautas de Accesibilidad para el Contenido Web (WCAG) se organizan en cuatro principios fundamentales — Perceptible, Operable, Comprensible y Robusto — y tres niveles de conformidad: A, AA y AAA. El Nivel AA es el objetivo para el cumplimiento legal en la mayoría de las jurisdicciones, y cubre todo el espectro de requisitos de accesibilidad de video. Entender qué criterios de éxito se aplican a cada tipo de contenido es esencial antes de poder priorizar tu trabajo de remediación.

Para medios sincronizados pregrabados (un video con contenido tanto de audio como visual), los requisitos clave de Nivel A y AA son:

SC 1.2.1 — Solo audio y solo video (pregrabado): Para medios pregrabados solo de audio y pregrabados solo de video, se debe proporcionar una alternativa para medios temporales que presente información equivalente al contenido.
SC 1.2.2 — Subtítulos (pregrabado): Se proporcionan subtítulos para todo el contenido de audio pregrabado en medios sincronizados, excepto cuando el medio es una alternativa de medios para texto y está claramente etiquetado como tal.
SC 1.2.3 — Descripción de audio o alternativa de medios (pregrabado): Se proporciona una alternativa para medios temporales o una descripción de audio del contenido de video pregrabado para medios sincronizados, excepto cuando el medio es una alternativa de medios para texto y está claramente etiquetado como tal. Este es un requisito de Nivel A.
SC 1.2.4 — Subtítulos (en vivo): Se proporcionan subtítulos para todo el contenido de audio en vivo en medios sincronizados. Este es un requisito de Nivel AA.
SC 1.2.5 — Descripción de audio (pregrabado): Se proporciona descripción de audio para todo el contenido de video pregrabado en medios sincronizados. Esta es la versión más estricta de Nivel AA de SC 1.2.3.

Vale la pena señalar que WCAG 2.1 y 2.2 no introducen diferencias con respecto a 2.0 que se apliquen a los requisitos de subtitulado o descripción de audio, por lo que las obligaciones fundamentales han sido consistentes en las versiones recientes. Lo que ha cambiado es el panorama legal y regulatorio que hace referencia a estos criterios.

Un concepto erróneo común es que proporcionar una transcripción satisface el requisito de subtitulado. No es así. Las transcripciones por sí solas son insuficientes para el contenido de video, porque el texto debe estar sincronizado con el video. Una transcripción y los subtítulos cumplen propósitos que se superponen pero son distintos.

Subtítulos: la base del video accesible

Los subtítulos son una representación de texto sincronizada y con códigos de tiempo de la pista de audio de un video. A diferencia de los subtítulos para traducción, que suponen que la persona espectadora puede oír pero no entiende el idioma, los subtítulos cerrados suponen que la persona espectadora no puede oír. Hacen que el video sea accesible para personas sordas y con discapacidad auditiva al proporcionar una pista de tiempo a texto como complemento o sustituto del audio — y aunque el texto de los subtítulos es predominantemente discurso, los subtítulos también incluyen elementos no verbales como identificadores de hablantes y efectos de sonido que son fundamentales para entender el contenido.

La calidad es la variable que separa los subtítulos realmente accesibles de un ejercicio de marcar casillas. El estándar de la industria para la precisión de subtítulos es del 99%. El Media Hub de la University of Minnesota at Duluth informa que los subtítulos automáticos de YouTube solo tienen una precisión del 60–70%, dependiendo de la calidad del audio. Esa brecha importa enormemente: los subtítulos llenos de errores no solo no ayudan — engañan activamente a las personas sordas y con discapacidad auditiva, tergiversando el contenido del que dependen. Para los flujos de trabajo de producción, los subtítulos generados por IA deben tratarse como un primer borrador que requiere revisión humana, no como un producto terminado.

Los subtítulos de alta calidad comparten tres características descritas por el Described and Captioned Media Program (DCMP): son precisos (el objetivo son subtítulos sin errores), consistentes (uniformidad en estilo y presentación) y claros (una representación textual completa del audio, incluida la identificación de hablantes e información no verbal). En el plano técnico, la legibilidad también depende de la visualización de los subtítulos. Las pautas WCAG recomiendan una relación de contraste mínima de 4.5:1 para el texto, mientras que el tamaño de la fuente debe ser de al menos 14 puntos — se desaconsejan las fuentes con trazos finos o características inusuales porque son más difíciles de leer.

Los dos formatos de archivo de subtítulos dominantes para la web son WebVTT y SRT. WebVTT es el formato recomendado para video en la web — es el formato nativo de subtítulos para reproductores de video HTML5, admite opciones de estilo y es ampliamente compatible con navegadores y plataformas de video. SRT es el otro formato común y funciona bien para la mayoría de las plataformas, pero tiene menos opciones de estilo que VTT. Aquí hay un ejemplo mínimo de un elemento de video HTML5 con una pista de subtítulos adjunta:

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

El atributo kind='captions' es importante — indica al navegador y a las tecnologías de asistencia que esta pista está destinada a personas sordas y con discapacidad auditiva y no a la traducción de idiomas. Agregar el atributo default hace que los subtítulos se muestren automáticamente, lo cual vale la pena considerar para páginas con mucho contenido donde la persona usuaria podría no notar el botón de CC.

Para video en vivo — seminarios web, transmisiones en vivo, eventos virtuales — WCAG 2.1 Nivel AA exige subtítulos para todo el audio en vivo en medios sincronizados, lo cual es especialmente importante para seminarios web, eventos en vivo y transmisiones en tiempo real. Plataformas como Zoom admiten subtítulos en vivo mediante reconocimiento automático de voz y también proporcionan un mecanismo para integrar personas subtituladoras humanas cuando se requieren niveles de precisión más altos.

Transcripciones: mayor accesibilidad, mayor alcance

Una transcripción es un documento escrito que captura todo lo que hay en un video — todo el diálogo hablado, los efectos de sonido relevantes y (en el caso de transcripciones descriptivas) la información visual importante. Una transcripción proporciona una versión de texto palabra por palabra de la parte de audio del contenido de video, así como información de audio no verbal que ayuda a la persona lectora a entender el contenido — y una transcripción descriptiva va un paso más allá, agregando información visual que ayuda a las personas a entender el contenido.

Bajo WCAG 2.1 Nivel AA, las transcripciones son estrictamente obligatorias para contenido solo de audio, como pódcasts y grabaciones de audio. Para video subtitulado, las transcripciones no son obligatorias según WCAG 2.1 Nivel AA — sin embargo, se recomiendan para todos los videos, ya que son más accesibles que los subtítulos para personas sordociegas, y también benefician a personas con conexiones lentas a internet, a quienes quieren escanear o buscar rápidamente el contenido de un video y a quienes simplemente prefieren el texto. La mejor práctica es proporcionarlas independientemente de la obligación estricta de WCAG.

Al redactar una transcripción descriptiva, procura incluir:

Todo el diálogo hablado, atribuido a personas hablantes individuales
Efectos de sonido significativos y señales de audio no verbales (por ejemplo, [aplausos], [suena una alarma])
Descripciones de texto en pantalla, gráficos o elementos visuales que no se explican verbalmente
Información de ambientación de la escena cuando afecta la comprensión

Un debate práctico es si las transcripciones deben ser textuales (verbatim) o ligeramente editadas. Aunque algunos recursos insisten en transcripciones textuales, las transcripciones editadas suelen ser la mejor opción — porque estás escribiendo para personas reales, y un lenguaje claro y conciso mejora la accesibilidad. Eliminar muletillas como “eh” y “este” generalmente mejora la legibilidad sin sacrificar la precisión.

Las transcripciones también ofrecen un dividendo significativo en SEO. Los motores de búsqueda no pueden ver tu video, pero sí pueden indexar tus subtítulos y transcripciones — y agregar una transcripción de texto a la página de tu video proporciona a los motores de búsqueda contenido rastreable que coincide con las consultas de búsqueda. Discovery Digital Networks realizó un experimento en su canal de YouTube comparando videos con y sin subtítulos cerrados; descubrieron que los videos subtitulados tuvieron en promedio un 7.32% más de visualizaciones, y confirmaron que los subtítulos fueron indexados por los bots de búsqueda — probando esto al consultar una frase que no aparecía en ningún otro lugar excepto en los subtítulos, con el video apareciendo en cuarto lugar en los resultados de búsqueda de YouTube.

Descripciones de audio: accesibilidad para personas ciegas y con baja visión

Las descripciones de audio (AD) abordan una barrera de accesibilidad completamente diferente a la de los subtítulos. Mientras que los subtítulos sirven a quienes no pueden oír, las descripciones de audio sirven a quienes no pueden ver. La descripción de audio es una narración de información visual significativa en un video para proporcionar contexto, aclarar quién habla y articular elementos visuales — piénsala como texto alternativo para videos. Ejemplos de información relevante incluyen expresiones faciales y escenas — cualquier cosa que una persona vidente absorbe visualmente pero que no se transmite mediante diálogo o narración.

No todos los videos necesitan descripciones de audio. En general, si cierras los ojos pero aún puedes seguir el programa — como una entrevista de “cabeza parlante” en la que la persona que habla explica todo verbalmente — probablemente no la necesites. Sin embargo, si alguien se refiere a elementos visuales en una presentación sin describirlos en voz alta, probablemente se necesitaría descripción de audio. Una demostración de producto que muestra una interfaz siendo clicada sin narrar las acciones, un video de capacitación que describe un diagrama o un video de marketing cargado de elementos visuales de ambientación — todos estos requieren descripción de audio.

Hay dos tipos de descripción de audio que debes entender:

Descripción de audio estándar: Las descripciones utilizan pausas naturales en la banda sonora existente para insertar narración de elementos visuales como acciones, escenarios, apariencia de personajes, lenguaje corporal, vestuario, iluminación y texto en pantalla.
Descripción de audio extendida: Con la descripción extendida, el video se detiene momentáneamente para permitir más tiempo para las descripciones cuando es necesario. Para AD extendida, proporciona una versión de la película con descripciones de audio extendidas y una versión sin ellas. Esto es obligatorio bajo WCAG Nivel AAA (SC 1.2.7), pero es una buena práctica cuando las pausas estándar no son suficientes.

Implementar descripciones de audio en un contexto web presenta desafíos prácticos. Uno de los desafíos con la implementación de la descripción de audio es la compatibilidad de los reproductores — la mayoría de los navegadores y reproductores de video no admiten descripciones de audio de la misma manera que admiten subtítulos. Sin embargo, Able Player es un reproductor multimedia HTML5 totalmente accesible y multiplataforma que admite descripciones de audio como un video separado o en un archivo WebVTT leído en voz alta por navegadores modernos. La técnica de producción más confiable sigue siendo grabar una versión separada del video con la pista de descripción integrada en la banda sonora y ofrecer a las personas usuarias un conmutador claramente etiquetado entre la versión estándar y la descrita.

Las normas WCAG 2.1 AA exigen que las descripciones de audio proporcionen acceso equivalente a la información visual, lo que significa que deben capturar los detalles clave que entendería una persona vidente. Escribe las descripciones en un lenguaje sencillo y objetivo. Describe lo que realmente aparece en pantalla, no tu interpretación — por ejemplo, di “Una estudiante levanta la mano”, no “Una estudiante parece ansiosa por responder”.

Reproductores de video accesibles: la capa a menudo pasada por alto

Incluso los subtítulos y las descripciones de audio perfectos no sirven de nada si el propio reproductor de video no se puede manejar con el teclado o con tecnología de asistencia. El reproductor es el mecanismo de entrega y debe ser accesible por derecho propio. Muchas personas navegan por la web usando solo un teclado o tecnología de asistencia, por lo que todo el contenido debe ser operable mediante una interfaz de teclado sin ratón.

Los requisitos clave de accesibilidad del reproductor incluyen operabilidad completa con el teclado (reproducción, pausa, avance, volumen, activación de subtítulos, pantalla completa, todo accesible con el teclado), indicadores de foco visibles en los controles, etiquetas ARIA para todos los elementos interactivos y controles de subtítulos fáciles de localizar. La Sección 508 también exige que los controles de usuario para subtítulos y descripciones de audio estén disponibles al mismo nivel que los controles de volumen o los botones de reproducción/pausa.

La reproducción automática es un riesgo de accesibilidad común que merece especial atención. Los videos que se inician automáticamente pueden ser frustrantes para muchas personas y plantean problemas graves para quienes tienen trastornos de atención, autismo o discapacidades visuales que dependen de lectores de pantalla — el contenido que se reproduce automáticamente puede interferir con la salida del lector de pantalla, creando confusión y obstaculizando el acceso. Desactiva la reproducción automática de forma predeterminada en todas las inserciones de video y, si debes usarla, asegúrate de que el volumen comience silenciado y de que haya un mecanismo de pausa inmediatamente accesible.

Al insertar video de terceros (YouTube, Vimeo, Wistia, etc.), confirma que el código de inserción de la plataforma gestione correctamente el foco del teclado y que el iframe tenga un atributo title significativo para que las personas usuarias de lectores de pantalla sepan con qué están interactuando antes de navegar dentro del reproductor:

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

Crear un flujo de trabajo de video accesible

El enfoque más sostenible para la accesibilidad de video no es la remediación a posteriori — es integrar la accesibilidad en tu proceso de producción y publicación desde el principio. El costo de adaptar una gran biblioteca de videos puede ser considerable; el costo de hacerlo bien desde el principio es marginal en comparación.

Un flujo de trabajo práctico se ve así. Durante la preproducción, redacta un guion detallado. Un guion completo es la base de todos los recursos de accesibilidad posteriores — los subtítulos, las transcripciones y los guiones de descripción de audio se vuelven mucho más fáciles cuando existe buen material de origen. Durante la producción, minimiza el ruido de fondo, usa un habla clara y asegúrate de que el texto en pantalla, los gráficos y las acciones visuales significativas se narren verbalmente siempre que sea posible. Esto reduce significativamente la carga de la descripción de audio.

La posproducción es donde se producen los recursos de accesibilidad. Usa la herramienta de subtitulado con IA de tu elección para generar un primer borrador y luego haz que una persona lo revise y corrija — especialmente en el caso de terminología técnica, nombres propios y lenguaje específico del dominio, donde la transcripción por IA es más propensa a errores. Crea la transcripción descriptiva combinando tu archivo de subtítulos con descripciones de información visual significativa. Produce la narración de la descripción de audio utilizando talento de voz interno o un servicio profesional de AD.

Para organizaciones con grandes bibliotecas de video existentes, prioriza la remediación según el uso. Comienza con tus videos de mayor tráfico, contenido de incorporación y capacitación, demostraciones de producto y cualquier video insertado en páginas que aparezcan en embudos de conversión. Comienza las auditorías de accesibilidad ahora, prioriza primero los materiales de alto uso y luego integra la accesibilidad en todos los nuevos flujos de trabajo de video en adelante.

Un error común y costoso es tratar los subtítulos como un entregable de última etapa — algo que se agrega justo antes de la publicación. Incorpora la revisión de subtítulos en tu lista de verificación de control de calidad de la misma manera que revisarías la codificación de video o la creación de miniaturas. Una hora de esfuerzo en el punto adecuado del flujo de trabajo ahorra muchas horas de remediación más adelante.

El caso empresarial: más allá del cumplimiento

El video accesible es un mejor video para todas las personas espectadoras, no solo para quienes tienen discapacidad. Los datos al respecto son contundentes. Un estudio de investigación nacional que encuestó a 2,124 estudiantes de 15 universidades y colleges diferentes encontró que el 98.6% de las personas estudiantes considera útiles los subtítulos. El 71% de las personas estudiantes sin dificultades auditivas usa subtítulos al menos parte del tiempo, y el 66% de las personas estudiantes de ESL considera que los subtítulos son “muy” o “extremadamente” útiles.

El impacto en la interacción es igualmente significativo. Facebook descubrió que los subtítulos aumentaron las visualizaciones de video en un 12% en comparación con los videos sin subtítulos; un estudio independiente midió un aumento del 40% en las visualizaciones de videos subtitulados y encontró que las personas espectadoras tenían un 80% más de probabilidades de ver un video hasta el final cuando había subtítulos cerrados disponibles.

Los beneficios de SEO se suman a los beneficios de interacción. Las transcripciones de video ayudan a maximizar el SEO porque brindan contexto a los motores de búsqueda — esto puede significar que los videos tengan mayor visibilidad en las páginas de resultados de los motores de búsqueda cuando una persona usuaria escribe una búsqueda relacionada. Las transcripciones también facilitan la creación de publicaciones de blog, boletines o fragmentos para redes sociales a partir de tus videos — convirtiendo una sola pieza de contenido en video en un recurso de contenido multicanal con un costo adicional mínimo.

Por último, considera la trayectoria demográfica a largo plazo. La Organización Mundial de la Salud estima que para 2050 casi 2.5 mil millones de personas tendrán algún grado de pérdida auditiva, y 1 de cada 10 tendrá una pérdida auditiva significativa. La audiencia que depende del video accesible no está disminuyendo. Cada inversión que haces hoy en accesibilidad de video paga dividendos compuestos a medida que esa audiencia crece.

Conclusiones clave

Los subtítulos son obligatorios para todos los medios sincronizados pregrabados y en vivo bajo WCAG 2.1 Nivel AA. Los subtítulos generados automáticamente son solo un punto de partida — la mejor práctica de la industria exige un 99% de precisión, lo que significa que la revisión humana de la salida de la IA no es negociable para cualquier contenido de cara al público.
Las transcripciones se recomiendan encarecidamente para todo video incluso cuando no sean estrictamente obligatorias, porque sirven a personas sordociegas, mejoran el SEO al proporcionar texto rastreable a los motores de búsqueda y benefician a cualquier persona espectadora que prefiera hojear o consultar el contenido en formato de texto.
Las descripciones de audio son obligatorias en WCAG Nivel AA para video pregrabado que contenga información visual significativa que no se transmita mediante audio. Haz la prueba de cerrar los ojos — si te pierdes contenido importante, se necesita descripción de audio.
Tu reproductor de video debe ser accesible mediante teclado con controles correctamente etiquetados para subtítulos y descripciones de audio. Un reproductor inaccesible socava todas las demás inversiones en accesibilidad que hayas hecho en el contenido en sí.
El caso empresarial de la accesibilidad de video es sólido por sí mismo: los videos subtitulados reciben muchas más visualizaciones y reproducciones completas, las transcripciones mejoran las clasificaciones de SEO y el 80% de quienes usan subtítulos no tiene discapacidad auditiva — el video accesible llega a una audiencia más amplia en cada métrica que importa a tu organización.

Hacer que los videos sean accesibles: subtítulos, transcripciones y descripciones de audio