Criteri di successo WCAG · Level A
WCAG 1.2.1: Solo audio e solo video (pre-registrato)
WCAG 1.2.1 richiede che i contenuti preregistrati solo audio e solo video abbiano un’alternativa testuale o multimediale, in modo che gli utenti che non possono sentire o vedere i media possano comunque accedere alle informazioni. Questo è un requisito di Livello A, il che significa che rappresenta la soglia minima per la conformità all’accessibilità web.
Cosa Significa Questa Regola
WCAG 1.2.1 affronta due tipi distinti di contenuti temporali: contenuti solo audio (come un episodio di podcast, un annuncio telefonico registrato o una traccia musicale che trasmette informazioni significative) e contenuti solo video (come un’animazione istruttiva silenziosa o una clip dimostrativa di prodotto senza voce). Il criterio richiede che ciascuno di questi tipi di media sia accompagnato da un’alternativa equivalente che renda le stesse informazioni disponibili alle persone che non possono percepire il formato originale.
Per i contenuti solo audio preregistrati, l’alternativa richiesta è una trascrizione testuale. La trascrizione deve riportare tutte le parole pronunciate, identificare i parlanti quando rilevante e descrivere qualsiasi audio non verbale significativo (come applausi, allarmi o musica che abbia valore informativo). Limitarsi a fornire un titolo o una breve descrizione non è sufficiente; la trascrizione deve essere un equivalente testuale completo di tutto ciò che un ascoltatore sentirebbe.
Per i contenuti solo video preregistrati (video senza traccia audio o con una traccia audio che non contiene informazioni significative), l’alternativa richiesta è una trascrizione testuale oppure una traccia di descrizione audio. Una descrizione audio narra il contenuto visivo — descrivendo le azioni sullo schermo, i cambi di scena, il testo che appare sullo schermo e altri dettagli visivi — in modo che una persona cieca o ipovedente possa comprendere il contenuto solo attraverso l’audio.
Un superamento richiede che l’alternativa sia chiaramente associata al media, facile da trovare e pienamente equivalente in termini di contenuto informativo. L’alternativa può essere fornita in linea nella pagina, come documento collegato o come traccia audio supplementare, purché sia facilmente accessibile dalla stessa pagina o dall’interfaccia del player.
Un fallimento si verifica quando: non viene fornita alcuna alternativa; l’alternativa è incompleta o omette informazioni significative; l’alternativa è presente ma così difficile da individuare da richiedere di fatto che l’utente sappia già che esiste; oppure l’alternativa descrive il media senza riprodurne il contenuto effettivo (ad esempio, scrivendo "il presentatore spiega come reimpostare il dispositivo" invece di fornire le effettive istruzioni passo per passo).
WCAG 1.2.1 include un’eccezione ufficiale: se il contenuto solo audio o solo video funge esso stesso da alternativa multimediale per del testo già presente sulla pagina, ed è chiaramente etichettato come tale, non richiede un’ulteriore alternativa. Ad esempio, un breve video che dimostra visivamente esattamente ciò che un tutorial scritto vicino descrive già in modo completo può essere esentato, a condizione che l’etichetta renda chiara la relazione a tutti gli utenti.
È anche importante notare che questo criterio copre solo i contenuti preregistrati — i flussi solo audio e solo video in diretta sono gestiti separatamente in WCAG 1.2.9 e non rientrano nell’ambito qui. I contenuti che contengono sia audio che video (media sincronizzati) rientrano in WCAG 1.2.2 (Sottotitoli) e 1.2.3 (Descrizione audio o alternativa multimediale), non in 1.2.1.
Perché È Importante
I contenuti solo audio e solo video creano barriere per diversi gruppi distinti di utenti, e comprendere l’esperienza di ciascun gruppo è essenziale per capire perché questo criterio esiste a un livello fondamentale A.
Le persone sorde e con ipoacusia non possono accedere alle informazioni nei contenuti solo audio preregistrati senza una trascrizione testuale. Per una persona sorda profonda dalla nascita, un’intervista in podcast, una spiegazione registrata del servizio clienti o una risposta a FAQ solo audio sono semplicemente inaccessibili — come se il contenuto non esistesse. Secondo l’Organizzazione Mondiale della Sanità, oltre 1,5 miliardi di persone nel mondo sperimentano un certo grado di perdita dell’udito, con circa 430 milioni che necessitano di riabilitazione. Solo in Turchia, i sondaggi indicano che milioni di cittadini vivono con una significativa disabilità uditiva, molti dei quali si affidano alla Lingua dei Segni Turca o al testo scritto come principale modalità di comunicazione.
Le persone cieche e ipovedenti sono il pubblico principale per le alternative ai contenuti solo video. Un video silenzioso di assemblaggio di un prodotto, un’animazione di visualizzazione di dati o un tutorial solo visivo sono privi di significato quando vengono trasmessi solo tramite un lettore di schermo che annuncia la presenza di un elemento video. Senza una descrizione audio o una trascrizione testuale, queste persone non ricevono alcuna informazione dal contenuto.
Le persone con disabilità cognitive e dell’apprendimento traggono spesso beneficio dalla disponibilità delle informazioni in più formati. Una persona con dislessia può trovare più facile ascoltare una descrizione audio che leggere una lunga sequenza visiva, mentre un’altra persona può preferire una trascrizione scritta passo per passo che può rileggere al proprio ritmo. Fornire alternative supporta una gamma più ampia di stili di elaborazione.
Anche le limitazioni situazionali e ambientali creano un ampio caso d’uso che va ben oltre le persone con disabilità permanenti. Qualcuno in una biblioteca silenziosa o in un ufficio open space non può riprodurre contenuti audio e trae enorme beneficio da una trascrizione. Una persona con una connessione mobile lenta che non riesce a caricare un video può leggere immediatamente l’alternativa testuale. Una persona che non è madrelingua della lingua usata nell’audio può trovare molto più facile leggere una trascrizione che seguire contenuti parlati a velocità normale.
Consideriamo uno scenario concreto reale: il sito web di una banca turca pubblica una guida audio preregistrata che spiega come attivare una nuova carta di debito. Una persona sorda riceve questa guida come parte dell’email di benvenuto. Senza una trascrizione, non ha modo di completare l’attivazione senza chiamare un servizio di assistenza — un processo che può a sua volta presentare barriere di accessibilità. Fornire una trascrizione testuale ben strutturata elimina completamente questa dipendenza e serve la persona in modo equo.
Da una prospettiva SEO, le trascrizioni testuali sono completamente indicizzabili dai motori di ricerca. I contenuti audio e video senza trascrizioni rappresentano un’opportunità mancata per la visibilità nella ricerca organica. Una trascrizione pubblicata insieme a un episodio di podcast o a un video istruttivo raddoppia di fatto il contenuto indicizzabile sulla pagina e può migliorare significativamente la pertinenza delle parole chiave per le query di ricerca relative all’argomento del media.
Regole Axe-core Correlate
WCAG 1.2.1 richiede test manuali perché gli strumenti automatici non possono valutare il contenuto o la completezza di un’alternativa al media. Uno scanner automatico può rilevare la presenza di un elemento <video> o <audio>, ma non può determinare se una trascrizione collegata rappresenti accuratamente tutto ciò che è presente nella traccia audio, o se una descrizione audio copra tutti gli eventi visivi significativi. Di seguito sono riportate le considerazioni rilevanti per l’approccio di axe-core a questo criterio.
- Non esiste alcuna regola axe-core automatizzata dedicata per WCAG 1.2.1. Axe-core e il motore Deque axe DevTools segnalano questo criterio come richiedente revisione manuale. Si tratta di una scelta progettuale deliberata e corretta: la regola genererebbe un tasso inaccettabile di falsi positivi o falsi negativi se automatizzata. Uno scanner non può "leggere" un file audio o "guardare" un video per verificare che una trascrizione sia completa e accurata. Di conseguenza, qualsiasi strumento di audit che affermi di superare o fallire automaticamente WCAG 1.2.1 senza revisione umana dovrebbe essere trattato con scetticismo.
- Cosa possono segnalare gli strumenti automatici come indizi di supporto: Alcuni strumenti, incluso axe in modalità best-practice, segnaleranno elementi
<audio>e<video>che non hanno alcun contenuto testuale associato nel contesto DOM immediato. Questo è un utile promemoria per la revisione manuale, ma un esito positivo non significa che la trascrizione sia adeguata, e l’assenza di una segnalazione non significa che la trascrizione sia presente — una trascrizione collegata su un’altra pagina non sarebbe visibile allo scanner a livello di elemento. - Il test manuale è necessario perché: Valutare questo criterio richiede una persona che possa fruire il contenuto audio o video per intero, quindi confrontarlo riga per riga con l’alternativa fornita per confermarne l’equivalenza. La persona deve anche valutare se l’alternativa sia facile da individuare a partire dall’elemento multimediale, il che richiede di navigare la pagina come farebbe un utente — qualcosa che nessuno strumento automatico attuale può replicare in modo affidabile.
Come Testare
- Esegui una scansione automatica come punto di partenza. Usa axe DevTools, Lighthouse o il pannello di audit Accsible per analizzare la pagina. Cerca eventuali elementi
<audio>o<video>segnalati nei risultati. Nota che un risultato automatico pulito non conferma la conformità con 1.2.1 — significa solo che non sono stati rilevati problemi strutturali evidenti. Usa la scansione per costruire un inventario di tutti gli elementi multimediali sulla pagina che necessitano di revisione manuale. - Identifica tutti i contenuti solo audio e solo video preregistrati. Esamina manualmente il sorgente della pagina e l’output renderizzato. Cerca elementi
<audio>, elementi<video>in cui la traccia video non ha audio significativo, player multimediali incorporati (come widget SoundCloud o Spotify) e qualsiasi elemento<iframe>che carichi contenuti audio o video da una fonte di terze parti. - Per ciascun elemento solo audio, individua la trascrizione associata. La trascrizione può trovarsi in linea sulla pagina, in una sezione comprimibile o collegata tramite un tag ancora vicino al player. Raggiungi la trascrizione e leggila per intero mentre ascolti contemporaneamente l’audio. Conferma che ogni parola pronunciata sia riportata, che tutti i parlanti siano identificati quando rilevante e che tutti gli eventi audio non verbali significativi siano descritti.
- Per ciascun elemento solo video, individua l’alternativa associata. Determina se è fornita una trascrizione testuale o una traccia di descrizione audio. Se viene utilizzata una traccia di descrizione audio, attivala nel player multimediale e guarda il video mentre ascolti la descrizione. Conferma che tutti gli eventi visivi significativi — azioni, cambi di scena, testo sullo schermo, informazioni grafiche — siano descritti con sufficiente dettaglio perché una persona cieca possa comprendere il contenuto senza vedere il video.
- Testa con un lettore di schermo per verificare la reperibilità. Usando NVDA con Firefox, VoiceOver con Safari su macOS/iOS o JAWS con Chrome, raggiungi l’elemento multimediale usando solo la tastiera (Tab, tasti freccia). Senza usare il mouse, verifica di poter individuare il link alla trascrizione o alla descrizione audio a partire dal player multimediale usando solo la navigazione da tastiera e gli annunci del lettore di schermo. Se l’alternativa non può essere raggiunta senza mouse, il criterio fallisce anche se il contenuto dell’alternativa è altrimenti adeguato.
- Verifica l’eccezione relativa all’etichettatura. Se una trascrizione o un’alternativa è assente, verifica se l’elemento multimediale è esplicitamente etichettato come alternativa multimediale per contenuti testuali adiacenti sulla stessa pagina. In tal caso, conferma che il testo circostante sia un equivalente completo del contenuto multimediale e che l’etichetta sia percepibile da tutte le persone.
Come Correggere
Podcast solo audio o narrazione registrata — Non corretto
<!-- No transcript provided; the audio content is completely inaccessible
to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
Your browser does not support the audio element.
</audio>
Podcast solo audio o narrazione registrata — Corretto
<!-- A full text transcript is provided immediately after the player,
making it discoverable by keyboard and screen reader users
without requiring any additional navigation -->
<figure>
<figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
<audio controls src='welcome-guide.mp3'>
Your browser does not support the audio element.
</audio>
</figure>
<details>
<summary>Read the full transcript of this audio guide</summary>
<div>
<p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
To begin, locate the 16-digit card number on the front of your card.</p>
<p><strong>Narrator:</strong> Enter this number in the field provided on
the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
<p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
</div>
</details>
Video istruttivo silenzioso (solo video) — Non corretto
<!-- Silent animation with no audio description or text transcript.
A blind user navigating with a screen reader will only hear
"video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
<source src='assembly-instructions.mp4' type='video/mp4'>
</video>
Video istruttivo silenzioso (solo video) con trascrizione testuale — Corretto
<!-- A text transcript describing all meaningful visual actions is
linked immediately below the video player. The link text clearly
communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
<source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
<a href='assembly-transcript.html'>
View the full text description of this assembly video
</a>
</p>
Video silenzioso con traccia di descrizione audio in linea — Corretto
<!-- For users who prefer audio, a described audio track is offered
as a <track> element with kind='descriptions'.
The text transcript link is also retained for deaf-blind users
and those using text-only browsing. -->
<video controls width='640' height='360'>
<source src='product-demo-silent.mp4' type='video/mp4'>
<track
kind='descriptions'
src='product-demo-descriptions.vtt'
srclang='en'
label='Audio Description (English)'
>
<track
kind='descriptions'
src='product-demo-descriptions-tr.vtt'
srclang='tr'
label='Sesli Betimleme (Türkçe)'
>
</video>
<p>
<a href='product-demo-transcript.html'>
Read the full text description of this product demonstration
</a>
</p>
Errori Comuni
- Fornire un riassunto invece di una trascrizione completa. Scrivere un breve paragrafo come "Questo audio spiega la nostra politica di rimborso" non è un’alternativa equivalente. La trascrizione deve riprodurre il contenuto effettivo — ogni frase, ogni istruzione, ogni dettaglio significativo — in modo che una persona che non può sentire l’audio non perda nulla leggendo la trascrizione al suo posto.
- Omettere gli eventi audio non verbali dalle trascrizioni. Se una registrazione include un tono di avviso, una folla che applaude, un campanello o musica di sottofondo che segnala una transizione, questi elementi devono essere indicati nella trascrizione usando descrizioni tra parentesi come [suona l’allarme] o [applausi]. Ometterli rende la trascrizione incompleta dal punto di vista informativo.
- Collocare la trascrizione su una pagina completamente separata senza un link visibile e accessibile da tastiera. Se una persona deve sapere in anticipo che esiste una trascrizione e allontanarsi dalla pagina del media per trovarla, la reperibilità è fallita. Il link all’alternativa deve essere immediatamente adiacente all’elemento multimediale e raggiungibile tramite tastiera.
- Dare per scontato che un elemento
<video>con una traccia silenziosa sia coperto dai sottotitoli. I sottotitoli (WCAG 1.2.2) riguardano l’audio parlato nei media sincronizzati. Un video veramente silenzioso — cioè senza alcun audio significativo — è un contenuto solo video e richiede una propria descrizione testuale o descrizione audio ai sensi di 1.2.1. I sottotitoli del silenzio non forniscono alcuna informazione. - Usare trascrizioni generate automaticamente da strumenti di riconoscimento vocale senza revisione. Le trascrizioni generate automaticamente da servizi come i sottotitoli automatici di YouTube o le API di trascrizione basate su IA contengono spesso errori nei nomi propri, nei termini tecnici e nel linguaggio non standard. Pubblicare una trascrizione automatica non revisionata che contiene errori significativi non soddisfa il criterio, perché una trascrizione inaccurata non è un’alternativa equivalente.
- Non identificare i parlanti nelle registrazioni audio con più persone. Una trascrizione che appare come un unico blocco di testo indistinto, senza indicare chi sta parlando, è confusa e può risultare ambigua nel significato. Le etichette dei parlanti dovrebbero essere usate in modo coerente in qualsiasi registrazione che presenti più di una voce.
- Trattare l’attributo
altsu un’immagine poster come sostituto della trascrizione di un video. L’attributoaltsu un’immagine poster di un elemento<video>descrive la miniatura statica, non il contenuto del video stesso. Non soddisfa in alcun modo il requisito di un’alternativa multimediale ai sensi di 1.2.1. - Fornire una descrizione audio che descrive solo l’ambientazione e ignora il testo sullo schermo. Se un video silenzioso mostra testo importante — numeri di passo, etichette, misurazioni, messaggi di errore — la descrizione audio o la trascrizione devono leggere esplicitamente quel testo. Descrivere la scena visiva senza trascrivere il testo sullo schermo lascia informazioni critiche inaccessibili.
- Contrassegnare contenuti come esenti senza confermare che la condizione di piena equivalenza sia soddisfatta. L’eccezione per le alternative multimediali al testo si applica solo quando il testo sulla pagina è un equivalente completo del media. Se il testo della pagina copre solo una parte di ciò che il video dimostra, l’eccezione non si applica e un’alternativa è comunque necessaria per le parti non coperte dal testo.
- Non fornire alternative in lingua turca per media in lingua turca. Quando i contenuti solo audio o solo video sono in turco, l’alternativa dovrebbe essere anch’essa in turco (o almeno nella lingua principale del pubblico di destinazione). Fornire solo una trascrizione in inglese per contenuti audio in turco non costituisce un’alternativa equivalente per le persone di lingua turca.
Relazione con le Normative di Accessibilità della Turchia
La Circolare Presidenziale 2025/10 della Turchia, pubblicata nella Gazzetta Ufficiale n. 32933 il 21 giugno 2025, stabilisce un quadro giuridico obbligatorio per l’accessibilità digitale allineato a WCAG 2.2. WCAG 1.2.1 è un criterio di Livello A, che lo colloca nel livello più essenziale dei requisiti previsti da questa circolare. La conformità al Livello A rappresenta lo standard minimo assolutamente accettabile — i fallimenti a questo livello sono considerati barriere fondamentali che impediscono completamente l’accesso alle persone interessate.
La circolare si applica in modo ampio sia al settore pubblico che a quello privato. Le istituzioni pubbliche — incluse tutti i ministeri, le agenzie governative, i comuni e le imprese statali — sono tenute a raggiungere la piena conformità al Livello A entro un anno dalla data di pubblicazione della circolare. Le entità del settore privato coperte dalla circolare dispongono di un periodo di transizione di due anni.
Le entità del settore privato esplicitamente coperte dalla Circolare Presidenziale 2025/10 includono: piattaforme di e-commerce che operano in Turchia indipendentemente dal luogo di registrazione; banche e istituzioni finanziarie regolamentate dalla legge bancaria turca; ospedali e fornitori di assistenza sanitaria privati; società di telecomunicazioni con 200.000 o più abbonati; agenzie di viaggio che operano in base ai requisiti di licenza turca per il turismo; società private di trasporto passeggeri; e istituzioni educative private autorizzate dal Ministero dell’Istruzione Nazionale (MoNE).
Per queste entità, WCAG 1.2.1 ha implicazioni dirette e pratiche. Una banca che pubblica guide solo audio per le sue funzionalità di mobile banking senza trascrizioni, un ospedale che fornisce tutorial solo video silenziosi per le procedure di accettazione dei pazienti o un operatore di telecomunicazioni che utilizza annunci registrati solo audio sul proprio portale di assistenza senza alternative testuali sarebbero tutti in violazione diretta di questo requisito dal momento in cui scade il rispettivo termine di conformità.
La mancata conformità alla circolare può comportare sanzioni amministrative e conseguenze reputazionali, oltre all’esposizione a reclami presentati tramite l’Autorità per le Tecnologie dell’Informazione e la Comunicazione (BTK) della Turchia e l’Ufficio per la Trasformazione Digitale della Presidenza. Considerato che 1.2.1 è tra i criteri più semplici da correggere — richiedendo la creazione di una trascrizione testuale o di una descrizione audio piuttosto che modifiche tecniche complesse — le organizzazioni dovrebbero dare priorità a un audit di tutte le risorse solo audio e solo video presenti sulle loro proprietà digitali come fase iniziale e ad alto impatto dei loro programmi di conformità all’accessibilità.
I team di contenuto, non solo gli sviluppatori, svolgono un ruolo centrale nel raggiungere la conformità con 1.2.1. Le trascrizioni devono essere redatte, verificate per accuratezza e mantenute aggiornate man mano che i contenuti multimediali vengono aggiornati. Le organizzazioni dovrebbero stabilire flussi di lavoro editoriali che trattino la creazione delle trascrizioni come una fase obbligatoria nel processo di produzione e pubblicazione dei contenuti, equivalente per importanza ai metadati SEO o alla revisione dei contenuti — e dovrebbero assicurarsi che tali flussi di lavoro tengano conto dei media in lingua turca insieme a qualsiasi altra lingua utilizzata sulla piattaforma.
Fonti e riferimenti
- W3C Understanding 1.2.1 Audio-only and Video-only (Prerecorded)
- W3C Techniques for 1.2.1
- WebAIM: Captions, Transcripts, and Audio Descriptions
- MDN: HTMLMediaElement — The HTML audio and video elements
- MDN: The track element for timed text tracks
- W3C Technique G158: Providing an alternative for time-based media for audio-only content
- W3C Technique G159: Providing an alternative for time-based media for video-only content
