Criterios de éxito de las WCAG · Level A

WCAG 1.2.1: Solo audio y solo video (pregrabado)

Las WCAG 1.2.1 requieren que el contenido de solo audio y de solo video pregrabado tenga una alternativa basada en texto o en otro medio, de modo que las personas que no pueden oír o ver el contenido multimedia aún puedan acceder a la información. Este es un requisito de Nivel A, lo que significa que es el nivel mínimo básico para el cumplimiento de la accesibilidad web.

Qué significa esta regla

WCAG 1.2.1 aborda dos tipos distintos de contenido multimedia dependiente del tiempo: contenido solo audio (como un episodio de pódcast, un anuncio telefónico grabado o una pista de música que transmite información significativa) y contenido solo video (como una animación instructiva silenciosa o un clip de demostración de producto sin voz). El criterio exige que cada uno de estos tipos de medios vaya acompañado de una alternativa equivalente que ponga la misma información a disposición de las personas que no pueden percibir el formato original.

Para contenido solo audio pregrabado, la alternativa requerida es una transcripción en texto. La transcripción debe recoger todas las palabras habladas, identificar a las personas que hablan cuando sea relevante y describir cualquier audio significativo que no sea habla (como aplausos, alarmas o música que tenga valor informativo). No basta con proporcionar un título o una breve descripción; la transcripción debe ser un equivalente textual completo de todo lo que una persona oyente escucharía.

Para contenido solo video pregrabado (video sin pista de audio, o con una pista de audio que no contiene información significativa), la alternativa requerida es una transcripción en texto o una pista de audiodescripción. Una audiodescripción narra el contenido visual — describiendo las acciones en pantalla, los cambios de escena, el texto que aparece en pantalla y otros detalles visuales — de modo que una persona ciega o con discapacidad visual pueda comprender el contenido solo a través del audio.

Un cumplimiento requiere que la alternativa esté claramente asociada con el medio, sea fácil de encontrar y totalmente equivalente en contenido informativo. La alternativa puede proporcionarse integrada en la página, como un documento enlazado o como una pista de audio suplementaria, siempre que sea fácilmente accesible desde la misma página o la misma interfaz del reproductor.

Se produce un incumplimiento cuando: no se proporciona ninguna alternativa; la alternativa está incompleta u omite información significativa; la alternativa está presente pero es tan difícil de localizar que, en la práctica, exige que la persona usuaria sepa de antemano que existe; o la alternativa describe el medio sin reproducir su contenido real (por ejemplo, escribir "la persona presentadora explica cómo restablecer el dispositivo" en lugar de proporcionar las instrucciones reales paso a paso).

WCAG 1.2.1 incluye una excepción oficial: si el contenido solo audio o solo video sirve en sí mismo como alternativa multimedia de un texto que ya está en la página, y está claramente etiquetado como tal, no requiere una alternativa adicional. Por ejemplo, un video corto que demuestre visualmente exactamente lo que un tutorial escrito cercano ya describe de forma completa puede quedar exento, siempre que la etiqueta deje clara la relación para todas las personas usuarias.

También es importante señalar que este criterio cubre únicamente contenido pregrabado: las transmisiones en directo solo audio y solo video se tratan por separado en WCAG 1.2.9 y no están dentro del alcance aquí. El contenido que contiene tanto audio como video (medios sincronizados) se rige por WCAG 1.2.2 (Subtítulos) y 1.2.3 (Audiodescripción o alternativa multimedia), no por 1.2.1.

Por qué es importante

El contenido solo audio y solo video crea barreras para varios grupos de personas usuarias distintos, y comprender la experiencia de cada grupo es esencial para apreciar por qué este criterio existe en un nivel fundacional A.

Las personas sordas y con discapacidad auditiva no pueden acceder a la información en contenido solo audio pregrabado sin una transcripción en texto. Para una persona que ha sido profundamente sorda desde el nacimiento, una entrevista en pódcast, una explicación de atención al cliente grabada o una respuesta de preguntas frecuentes solo en audio es simplemente inaccesible, como si el contenido no existiera. Según la Organización Mundial de la Salud, más de 1,5 mil millones de personas en todo el mundo experimentan algún grado de pérdida auditiva, y aproximadamente 430 millones requieren rehabilitación. Solo en Turquía, las encuestas indican que millones de ciudadanos viven con una discapacidad auditiva significativa, muchos de los cuales dependen de la Lengua de Señas Turca o del texto escrito como su principal modo de comunicación.

Las personas ciegas y con discapacidad visual son el público principal de las alternativas para contenido solo video. Un video silencioso de montaje de producto, una animación de visualización de datos o un tutorial solo visual carece de sentido cuando se transmite únicamente a través de un lector de pantalla que anuncia la presencia de un elemento de video. Sin una audiodescripción o una transcripción en texto, estas personas no reciben ninguna información del contenido.

Las personas con discapacidades cognitivas y de aprendizaje suelen beneficiarse de disponer de la información en varios formatos. Una persona con dislexia puede encontrar más fácil escuchar una audiodescripción que leer una secuencia visual larga, mientras que otra puede preferir una transcripción escrita paso a paso que pueda volver a leer a su propio ritmo. Proporcionar alternativas respalda una gama más amplia de estilos de procesamiento.

Las limitaciones situacionales y ambientales también crean un amplio caso de usabilidad que va mucho más allá de las personas con discapacidades permanentes. Alguien en una biblioteca silenciosa o en una oficina de planta abierta no puede reproducir contenido de audio y se beneficia enormemente de una transcripción. Una persona usuaria con una conexión móvil lenta que no puede cargar un video puede leer la alternativa en texto de inmediato. Una persona que no es hablante nativa del idioma utilizado en el audio puede encontrar mucho más fácil leer una transcripción que seguir contenido hablado a gran velocidad.

Considere un escenario concreto del mundo real: el sitio web de un banco turco publica una guía de audio pregrabada que explica cómo activar una nueva tarjeta de débito. Una persona cliente sorda recibe esta guía como parte de su correo electrónico de bienvenida. Sin una transcripción, no tiene forma de completar la activación sin llamar a una línea de soporte, un proceso que en sí mismo puede presentar barreras de accesibilidad. Proporcionar una transcripción de texto bien estructurada elimina por completo esta dependencia y atiende a la persona cliente en igualdad de condiciones.

Desde una perspectiva de SEO, las transcripciones en texto son totalmente indexables por los motores de búsqueda. El contenido de audio y video sin transcripciones representa una oportunidad perdida para la visibilidad en búsquedas orgánicas. Una transcripción publicada junto a un episodio de pódcast o un video instructivo prácticamente duplica el contenido rastreable en la página y puede mejorar significativamente la relevancia de palabras clave para las consultas de búsqueda relacionadas con el tema del medio.

Reglas relacionadas de Axe-core

WCAG 1.2.1 requiere pruebas manuales porque las herramientas automatizadas no pueden evaluar el contenido ni la integridad de una alternativa multimedia. Un escáner automatizado puede detectar la presencia de un elemento <video> o <audio>, pero no puede determinar si una transcripción enlazada representa con precisión todo lo que hay en la pista de audio, o si una audiodescripción cubre todos los eventos visuales significativos. A continuación se presentan las consideraciones relevantes para el enfoque de axe-core respecto a este criterio.

  • No existe una regla automatizada específica de axe-core para WCAG 1.2.1. Axe-core y el motor Deque axe DevTools marcan este criterio como algo que requiere revisión manual. Esta es una decisión de diseño deliberada y correcta: la regla generaría una tasa inaceptable de falsos positivos o falsos negativos si se automatizara. Un escáner no puede "leer" un archivo de audio ni "ver" un video para verificar que una transcripción sea completa y precisa. En consecuencia, cualquier herramienta de auditoría que afirme aprobar o reprobar automáticamente WCAG 1.2.1 sin revisión humana debe tratarse con escepticismo.
  • Lo que las herramientas automatizadas pueden señalar como señales de apoyo: Algunas herramientas, incluido axe en modo de mejores prácticas, marcarán elementos <audio> y <video> que no tengan contenido de texto asociado en el contexto inmediato del DOM. Esto es un recordatorio útil para la revisión manual, pero un marcado positivo no significa que la transcripción sea adecuada, y la ausencia de un marcado no significa que la transcripción esté presente: una transcripción enlazada en otra página no sería visible para el escáner a nivel de elemento.
  • Se requieren pruebas manuales porque: Evaluar este criterio exige una persona revisora que pueda consumir el contenido de audio o video en su totalidad y luego compararlo línea por línea con la alternativa proporcionada para confirmar la equivalencia. La persona revisora también debe evaluar si la alternativa es fácil de localizar desde el elemento multimedia, lo que requiere navegar por la página como lo haría una persona usuaria, algo que ninguna herramienta automatizada actual puede replicar con fiabilidad.

Cómo hacer las pruebas

  1. Ejecute un escaneo automatizado como punto de partida. Use axe DevTools, Lighthouse o el panel de auditoría de Accsible para analizar la página. Busque cualquier elemento <audio> o <video> marcado en los resultados. Tenga en cuenta que un resultado automatizado limpio no confirma el cumplimiento de 1.2.1; solo significa que no se detectaron problemas estructurales evidentes. Use el escaneo para crear un inventario de todos los elementos multimedia de la página que necesitan revisión manual.
  2. Identifique todo el contenido solo audio y solo video pregrabado. Revise manualmente el código fuente de la página y la salida renderizada. Busque elementos <audio>, elementos <video> donde la pista de video no tenga audio significativo, reproductores multimedia incrustados (como widgets de SoundCloud o Spotify) y cualquier elemento <iframe> que cargue contenido de audio o video desde una fuente de terceros.
  3. Para cada elemento solo audio, localice la transcripción asociada. La transcripción puede estar integrada en la página, en una sección plegable o enlazada mediante una etiqueta de anclaje cerca del reproductor. Navegue hasta la transcripción y léala por completo mientras escucha simultáneamente el audio. Confirme que se recogen todas las palabras habladas, que se identifican todas las personas que hablan cuando es relevante y que se describen todos los eventos de audio significativos que no son habla.
  4. Para cada elemento solo video, localice la alternativa asociada. Determine si se proporciona una transcripción en texto o una pista de audiodescripción. Si se utiliza una pista de audiodescripción, actívela en el reproductor multimedia y vea el video mientras escucha la descripción. Confirme que todos los eventos visuales significativos — acciones, cambios de escena, texto en pantalla, información gráfica — se describen con suficiente detalle para que una persona ciega pueda comprender el contenido sin ver el video.
  5. Pruebe con un lector de pantalla para verificar la capacidad de descubrimiento. Usando NVDA con Firefox, VoiceOver con Safari en macOS/iOS o JAWS con Chrome, navegue hasta el elemento multimedia usando solo el teclado (Tab, teclas de flecha). Sin usar el ratón, verifique que puede localizar la transcripción o el enlace a la audiodescripción desde el reproductor multimedia utilizando únicamente la navegación por teclado y los anuncios del lector de pantalla. Si no se puede acceder a la alternativa sin ratón, el criterio no se cumple aunque el contenido de la alternativa sea adecuado.
  6. Compruebe la excepción de etiquetado. Si falta una transcripción o alternativa, verifique si el elemento multimedia está etiquetado explícitamente como una alternativa multimedia del contenido de texto adyacente en la misma página. Si es así, confirme que el texto circundante es un equivalente completo del contenido multimedia y que la etiqueta es perceptible para todas las personas usuarias.

Cómo corregir

Pódcast solo audio o narración grabada — Incorrecto

<!-- No transcript provided; the audio content is completely inaccessible
     to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
  Your browser does not support the audio element.
</audio>

Pódcast solo audio o narración grabada — Correcto

<!-- A full text transcript is provided immediately after the player,
     making it discoverable by keyboard and screen reader users
     without requiring any additional navigation -->
<figure>
  <figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
  <audio controls src='welcome-guide.mp3'>
    Your browser does not support the audio element.
  </audio>
</figure>
<details>
  <summary>Read the full transcript of this audio guide</summary>
  <div>
    <p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
    To begin, locate the 16-digit card number on the front of your card.</p>
    <p><strong>Narrator:</strong> Enter this number in the field provided on
    the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
    <p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
  </div>
</details>

Video instructivo silencioso (solo video) — Incorrecto

<!-- Silent animation with no audio description or text transcript.
     A blind user navigating with a screen reader will only hear
     "video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>

Video instructivo silencioso (solo video) con transcripción en texto — Correcto

<!-- A text transcript describing all meaningful visual actions is
     linked immediately below the video player. The link text clearly
     communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
  <a href='assembly-transcript.html'>
    View the full text description of this assembly video
  </a>
</p>

Video silencioso con pista de audiodescripción integrada — Correcto

<!-- For users who prefer audio, a described audio track is offered
     as a <track> element with kind='descriptions'.
     The text transcript link is also retained for deaf-blind users
     and those using text-only browsing. -->
<video controls width='640' height='360'>
  <source src='product-demo-silent.mp4' type='video/mp4'>
  <track
    kind='descriptions'
    src='product-demo-descriptions.vtt'
    srclang='en'
    label='Audio Description (English)'
  >
  <track
    kind='descriptions'
    src='product-demo-descriptions-tr.vtt'
    srclang='tr'
    label='Sesli Betimleme (Türkçe)'
  >
</video>
<p>
  <a href='product-demo-transcript.html'>
    Read the full text description of this product demonstration
  </a>
</p>

Errores comunes

  • Proporcionar un resumen en lugar de una transcripción completa. Escribir un breve párrafo como "Este audio explica nuestra política de reembolsos" no es una alternativa equivalente. La transcripción debe reproducir el contenido real — cada frase, cada instrucción, cada detalle significativo — de modo que una persona que no pueda oír el audio no pierda nada al leer la transcripción en su lugar.
  • Omitir eventos de audio que no son habla en las transcripciones. Si una grabación incluye un tono de advertencia, una multitud animando, un timbre de puerta o música de fondo que señala una transición, estos deben indicarse en la transcripción usando descripciones entre corchetes como [suena la alarma] o [aplausos]. Omitirlos deja la transcripción incompleta desde el punto de vista informativo.
  • Colocar la transcripción en una página completamente separada sin un enlace visible y accesible por teclado. Si una persona usuaria tiene que saber de antemano que existe una transcripción y salir de la página del medio para encontrarla, la capacidad de descubrimiento ha fallado. El enlace a la alternativa debe estar inmediatamente junto al elemento multimedia y ser alcanzable mediante el teclado.
  • Suponer que un elemento <video> con una pista silenciosa queda cubierto por los subtítulos. Los subtítulos (WCAG 1.2.2) se refieren al audio hablado en medios sincronizados. Un video verdaderamente silencioso — uno sin audio significativo — es contenido solo video y requiere su propia descripción en texto o audiodescripción según 1.2.1. Los subtítulos de silencio no aportan información.
  • Usar transcripciones autogeneradas por herramientas de reconocimiento de voz sin revisión. Las transcripciones generadas automáticamente por servicios como los subtítulos automáticos de YouTube o las API de transcripción con IA suelen contener errores en nombres propios, términos técnicos y lenguaje no estándar. Publicar una transcripción automática sin revisar que contiene errores significativos no satisface el criterio, porque una transcripción inexacta no es una alternativa equivalente.
  • No identificar a las personas que hablan en grabaciones de audio con varias voces. Una transcripción que se lee como un único bloque de texto indiferenciado, sin indicar quién está hablando, resulta confusa y puede ser ambigua en su significado. Deben utilizarse etiquetas de persona que habla de forma coherente en cualquier grabación que incluya más de una voz.
  • Tratar el atributo alt de una imagen de póster como sustituto de una transcripción de video. El atributo alt de una imagen de póster de <video> describe la miniatura estática, no el contenido del video en sí. No cumple el requisito de una alternativa multimedia según 1.2.1 bajo ninguna interpretación.
  • Proporcionar una audiodescripción que solo describe el entorno e ignora el texto en pantalla. Si un video silencioso muestra texto importante — números de pasos, etiquetas, medidas, mensajes de error — la audiodescripción o la transcripción debe leer ese texto explícitamente. Describir la escena visual sin transcribir el texto en pantalla deja información crítica inaccesible.
  • Marcar contenido como exento sin confirmar que se cumple la condición de equivalencia completa. La excepción para alternativas multimedia de texto se aplica solo cuando el texto de la página es un equivalente completo del medio. Si el texto de la página cubre solo una parte de lo que el video demuestra, la excepción no se aplica y sigue siendo necesaria una alternativa para las partes no cubiertas por el texto.
  • Descuidar la provisión de alternativas en turco para medios en turco. Cuando el contenido solo audio o solo video está en turco, la alternativa también debe estar en turco (o al menos en el idioma principal del público objetivo). Proporcionar solo una transcripción en inglés para contenido de audio en turco no constituye una alternativa equivalente para las personas usuarias de habla turca.

Relación con la normativa de accesibilidad de Turquía

La Circular Presidencial 2025/10 de Turquía, publicada en el Boletín Oficial número 32933 el 21 de junio de 2025, establece un marco legal obligatorio para la accesibilidad digital alineado con WCAG 2.2. WCAG 1.2.1 es un criterio de nivel A, lo que lo sitúa en el nivel más esencial de requisitos según esta circular. La conformidad de nivel A representa el estándar mínimo aceptable absoluto: los incumplimientos en este nivel se consideran barreras fundamentales que impiden por completo el acceso a las personas afectadas.

La circular se aplica ampliamente tanto al sector público como al privado. Las instituciones públicas, incluidos todos los ministerios, organismos gubernamentales, municipios y empresas de propiedad estatal, deben lograr la conformidad total de nivel A en el plazo de un año a partir de la fecha de publicación de la circular. Las entidades del sector privado cubiertas por la circular disponen de un período de transición de dos años.

Las entidades del sector privado cubiertas explícitamente por la Circular Presidencial 2025/10 incluyen: plataformas de comercio electrónico que operan en Turquía independientemente del lugar de registro; bancos e instituciones financieras regulados por la legislación bancaria turca; hospitales y proveedores de atención sanitaria privados; empresas de telecomunicaciones con 200,000 o más abonados; agencias de viajes que operan bajo los requisitos de licencia turística de Turquía; empresas privadas de transporte de pasajeros; e instituciones educativas privadas autorizadas por el Ministerio de Educación Nacional (MoNE).

Para estas entidades, WCAG 1.2.1 tiene implicaciones directas y prácticas. Un banco que publique guías solo audio para sus funciones de banca móvil sin transcripciones, un hospital que proporcione tutoriales de procedimientos de admisión de pacientes en videos silenciosos solo video, o un proveedor de telecomunicaciones que utilice anuncios grabados solo audio en su portal de soporte sin alternativas en texto estaría incurriendo en una violación directa de este requisito desde el momento en que venza su respectivo plazo de cumplimiento.

El incumplimiento de la circular puede dar lugar a sanciones administrativas y consecuencias reputacionales, así como a la exposición a quejas presentadas ante la Autoridad de Tecnologías de la Información y Comunicación (BTK) de Turquía y la Oficina de Transformación Digital de la Presidencia. Dado que 1.2.1 se encuentra entre los criterios más sencillos de remediar — exige la creación de una transcripción en texto o una audiodescripción en lugar de cambios técnicos complejos — las organizaciones deberían priorizar una auditoría de todos los recursos solo audio y solo video en sus propiedades digitales como un paso temprano y de alto impacto en sus programas de cumplimiento de accesibilidad.

Los equipos de contenido, no solo las personas desarrolladoras, desempeñan un papel central en lograr el cumplimiento de 1.2.1. Las transcripciones deben redactarse, revisarse para garantizar su precisión y mantenerse a medida que se actualiza el contenido multimedia. Las organizaciones deben establecer flujos de trabajo editoriales que traten la creación de transcripciones como un paso obligatorio en el proceso de producción y publicación de contenido, equivalente en importancia a los metadatos de SEO o la revisión de contenido, y deben asegurarse de que esos flujos de trabajo tengan en cuenta los medios en turco junto con cualquier otro idioma utilizado en la plataforma.