WCAG 1.2.3: Descrizione audio o alternativa ai media (pre-registrati)

WCAG 1.2.3 richiede che i contenuti multimediali preregistrati sincronizzati (video con audio) forniscano o una descrizione audio del contenuto visivo o un’alternativa testuale completa, garantendo che le persone cieche o con ipovisione possano accedere alle informazioni trasmesse visivamente.

Cosa Significa Questa Regola

Il Criterio di Successo WCAG 1.2.3 affronta una delle barriere più fondamentali per le persone cieche e con ipovisione che fruiscono di contenuti video: la perdita di informazioni visive che non vengono mai pronunciate ad alta voce. Il criterio stabilisce che per tutti i contenuti multimediali sincronizzati preregistrati — cioè contenuti video abbinati all’audio — gli autori web devono fornire o una descrizione audio della traccia visiva o una alternativa completa al media in forma testuale.

Una descrizione audio è una narrazione aggiunta alla traccia audio di un video che descrive i dettagli visivi importanti che non possono essere compresi dal solo audio principale. Queste descrizioni sono in genere inserite durante le pause naturali nel dialogo, oppure il video può essere messo in pausa per un momento per consentire al narratore di descrivere eventi visivi complessi. Ad esempio, se un video formativo mostra un presentatore che disegna un diagramma su una lavagna senza commentarlo verbalmente, una descrizione audio narrerebbe ciò che viene disegnato e perché è importante.

Una alternativa testuale completa per i media è un documento che trasmette tutte le informazioni presenti nel contenuto multimediale sincronizzato — sia il contenuto audio (dialoghi, narrazione, effetti sonori) sia il contenuto visivo (azioni, ambientazioni, testo a schermo, identificazione dei parlanti) — in forma testuale. Si tratta di una versione più ampia di una trascrizione; deve descrivere gli eventi visivi con sufficiente precisione affinché una persona che non può vedere né sentire il video possa comprendere tutte le informazioni comunicate dal video.

Questo criterio si applica specificamente ai contenuti multimediali sincronizzati preregistrati. I flussi video in diretta sono trattati da altri criteri (1.2.4 per i sottotitoli), e i contenuti solo audio sono coperti dal 1.2.1. È importante notare che, se la traccia video è puramente decorativa — ad esempio, uno sfondo animato che non trasmette alcuna informazione — il criterio non si applica. Allo stesso modo, se la traccia audio di un video descrive già completamente tutte le informazioni visive significative (una situazione talvolta chiamata “audio equivalente”), non è richiesta alcuna descrizione audio aggiuntiva.

Per superare il 1.2.3 è necessario che per ogni contenuto multimediale sincronizzato preregistrato sia vera almeno una delle seguenti condizioni: viene fornita una descrizione audio, oppure è presente un’alternativa testuale che trasmette tutte le informazioni audio e visive, collegata o direttamente adiacente al media. Si ha una non conformità quando il contenuto video contiene elementi visivi significativi — testo a schermo, dati grafici, espressioni facciali che trasmettono emozioni chiave, passaggi dimostrativi — che non sono trasmessi da alcuna alternativa audio o testuale.

Si noti che il 1.2.3 è un requisito di Livello A, che ne fa l’aspettativa di base. Il criterio di Livello AA più robusto, 1.2.5 (Descrizione Audio — Preregistrata), richiede descrizioni audio in tutti i casi in cui sono necessarie, mentre il 1.2.3 consente l’alternativa testuale come sostituto al Livello A.

Perché È Importante

Secondo l’Organizzazione Mondiale della Sanità, circa 2,2 miliardi di persone nel mondo hanno qualche forma di disabilità visiva. Per le persone cieche, i contenuti video privi di descrizione audio o alternativa testuale sono completamente inaccessibili come fonte di informazioni visive. Uno screen reader può annunciare la presenza di un elemento video e leggere eventuali sottotitoli associati, ma non può interpretare il contenuto visivo dei singoli fotogrammi del video. Senza una descrizione audio o un’alternativa al media, queste persone semplicemente perdono tutto ciò che il video mostra ma non dice.

Consideriamo uno scenario concreto: una piattaforma di e-commerce turca pubblica un video dimostrativo di un prodotto per un dispositivo smart home. Il video mostra un presentatore che associa il dispositivo a un’app per smartphone, naviga nei menu su entrambi gli schermi e collega cavi a porte specifiche. La narrazione del presentatore si concentra sui vantaggi del dispositivo ma non descrive quali pulsanti vengono premuti o quali voci di menu vengono selezionate. Una persona cieca che guarda questo video con uno screen reader sente solo la narrazione — non riceve nessuna delle informazioni procedurali visive che le permetterebbero di replicare la configurazione a casa. Con una descrizione audio o un’alternativa testuale dettagliata, quella persona ottiene pieno accesso agli stessi contenuti istruttivi.

Oltre alle persone cieche, alternative testuali dettagliate avvantaggiano le persone con disabilità cognitive che possono elaborare più facilmente istruzioni scritte rispetto a un video che scorre rapidamente. Sono utili anche per le persone in ambienti con larghezza di banda limitata che non possono trasmettere video in streaming, per chi si trova su reti aziendali in cui i video sono bloccati e per chi utilizza dispositivi o browser che non supportano determinati formati video. I motori di ricerca indicizzano anche le alternative testuali, il che significa che fornirle migliora la SEO rendendo i contenuti video individuabili tramite ricerca full-text — un vantaggio aziendale significativo oltre al valore in termini di accessibilità.

Per le persone con disabilità motorie che non possono usare con precisione i controlli video, un’alternativa testuale consente di fruire dei contenuti al proprio ritmo senza doversi confrontare con i controlli di pausa, riavvolgimento o riproduzione. In sintesi, le descrizioni audio e le alternative ai media servono a un’ampia popolazione e migliorano la qualità complessiva e la portata dei contenuti video ben oltre le persone che ne hanno strettamente bisogno per accedervi.

Regole Axe-core Correlate

WCAG 1.2.3 richiede test manuali. Non esiste una regola axe-core che segnali automaticamente una violazione di questo criterio, e capire il perché aiuta a chiarire cosa devono cercare manualmente i tester.

Test manuale richiesto — analisi del contenuto visivo: Gli strumenti automatici possono rilevare la presenza di un elemento <video>, di un elemento <track> o di un link a una trascrizione associata, ma non possono valutare se il contenuto di una descrizione audio o di un’alternativa testuale sia sufficiente. La sufficienza dipende dal fatto che tutte le informazioni visive significative siano trasmesse — un giudizio che richiede a una persona di guardare il video, leggere l’alternativa e confrontarli. Una scansione axe può confermare che è presente un elemento <track kind='descriptions'>, ma non può verificare che le descrizioni coprano effettivamente tutti gli eventi visivi critici nel video.
Test manuale richiesto — valutazione dell’equivalenza: Stabilire se la traccia audio principale descriva già tutte le informazioni visive (rendendo superflua una descrizione audio aggiuntiva) è intrinsecamente un giudizio di contenuto. Una persona deve guardare il video e valutare se una persona cieca che ascolta solo l’audio perderebbe qualche informazione significativa. Nessuna regola automatizzata può effettuare questa determinazione in modo affidabile.
Test manuale richiesto — completezza dell’alternativa testuale: Se viene fornita un’alternativa testuale (alternativa completa al media) al posto di una descrizione audio, una persona deve leggere l’alternativa testuale e confrontarla con il video per confermare che tutti gli eventi visivi, il testo a schermo e le azioni significative siano rappresentati. Gli strumenti automatici possono verificare che esista un link a una trascrizione, ma non possono valutare se tale trascrizione sia completa e accurata.

Come Effettuare i Test

Baseline con scansione automatizzata: Esegui axe DevTools o Google Lighthouse sulla pagina che contiene il video. Sebbene nessuno dei due strumenti segnali direttamente una violazione del 1.2.3, la scansione può far emergere problemi correlati come la mancanza di elementi <track> (segnalata ai sensi del 1.2.2 per i sottotitoli) o la mancanza di alternative testuali per contenuti multimediali basati su immagini. Prendi nota di eventuali elementi video presenti sulla pagina, così saprai quali richiedono una revisione manuale ai sensi del 1.2.3.
Identifica i contenuti multimediali sincronizzati: Individua ogni elemento <video> (o player di terze parti incorporato, come iframe YouTube o Vimeo) sulla pagina. Conferma se ciascun video è preregistrato e sincronizzato (cioè se ha sia tracce audio sia video significative). Se un video è solo audio o ha una traccia video decorativa, è al di fuori dell’ambito del 1.2.3.
Guarda il video con l’audio attivato: Guarda il video normalmente e presta molta attenzione a qualsiasi informazione trasmessa visivamente ma non descritta nell’audio. Esempi comuni includono: sovrimpressioni di testo a schermo, diagrammi o grafici disegnati, dimostrazioni passo passo di un processo fisico, espressioni facciali o linguaggio del corpo che trasmettono significato emotivo, e identificazione dei parlanti quando compaiono più persone sullo schermo.
Verifica la presenza di una traccia di descrizione audio: Esamina il markup dell’elemento video per individuare un elemento <track kind='descriptions'>. Se presente, abilita le descrizioni nel player video (o usa un browser che le renda disponibili) e riguardati il video. Verifica che ogni evento visivo significativo identificato al punto 3 sia descritto nella traccia di descrizione audio in un momento appropriato.
Verifica la presenza di un’alternativa testuale completa: Se non è presente alcuna traccia di descrizione audio, cerca un link a una trascrizione o a un’alternativa completa al media adiacente o immediatamente successiva al video. Conferma che il documento collegato o il testo in linea descriva tutto il contenuto audio (dialoghi, narrazione, effetti sonori rilevanti) e tutto il contenuto visivo (azioni, testo a schermo, descrizioni dell’ambientazione, identificazione dei parlanti).
Verifica con screen reader (NVDA + Firefox): Apri la pagina con NVDA in esecuzione. Naviga fino all’elemento video e conferma che NVDA annunci la presenza del video e gli eventuali controlli associati. Se è fornita un’alternativa testuale in linea o tramite link, raggiungila e conferma che NVDA ne legga l’intero contenuto senza omissioni. Nota: NVDA non può leggere il contenuto visivo dei fotogrammi video, il che sottolinea perché il confronto umano al punto 3 è essenziale.
Verifica con screen reader (VoiceOver + Safari su macOS): Attiva VoiceOver e naviga fino al video. Usa il rotor di VoiceOver per trovare l’elemento video e gli eventuali elementi track o link associati. Conferma che la traccia di descrizione, se presente, sia accessibile tramite i controlli multimediali di Safari.
Player di terze parti: Per gli embed di YouTube, verifica se il video dispone di una versione con descrizione audio (spesso un video separato collegato nella descrizione) o se è disponibile una trascrizione associata e collegata nella pagina che incorpora il video. Per Vimeo, controlla le impostazioni di accessibilità del video. I player di terze parti non soddisfano automaticamente il 1.2.3 — è il proprietario della pagina a essere responsabile di garantire che sia fornita o collegata un’alternativa.

Come Correggere

Scenario 1: video HTML5 senza descrizione audio — Non corretto

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Scenario 1: video HTML5 con traccia di descrizione audio — Corretto

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Scenario 2: video HTML5 senza alternativa testuale — Non corretto

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Scenario 2: video HTML5 con alternativa completa al media — Corretto

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Scenario 3: embed YouTube senza alternativa supplementare — Non corretto

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Scenario 3: embed YouTube con alternativa testuale collegata — Corretto

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Scenario 4: video la cui traccia audio descrive già tutto il contenuto visivo (eccezione) — Corretto

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Errori Comuni

Fornire sottotitoli invece di una descrizione audio: I sottotitoli trascrivono l’audio parlato per le persone sorde; non descrivono le informazioni visive per le persone cieche. Aggiungere un elemento <track kind='captions'> soddisfa il 1.2.2 ma non il 1.2.3. Si tratta di due requisiti separati che riguardano due gruppi di disabilità diversi.
Collegare una trascrizione che copre solo i dialoghi: Un’alternativa testuale per il 1.2.3 deve descrivere tutto il contenuto visivo significativo — testo a schermo, diagrammi, azioni fisiche, identificazione dei parlanti — non solo ciò che viene detto. Una trascrizione che contiene solo il copione in genere non soddisfa questo criterio se il video contiene informazioni esclusivamente visive.
Posizionare il link all’alternativa testuale lontano dal video: Se l’alternativa completa al media è nascosta in una nota a piè di pagina o su una pagina separata senza un link chiaro e adiacente, le persone potrebbero non trovarla. Il link dovrebbe comparire immediatamente prima o dopo l’elemento video, in modo che le persone che usano screen reader lo incontrino nel normale ordine di lettura.
Dare per scontato che la trascrizione generata automaticamente da YouTube soddisfi il criterio: Le trascrizioni generate automaticamente da YouTube coprono solo l’audio parlato. Non descrivono il contenuto visivo e sono spesso inaccurate. Non costituiscono un’alternativa completa al media sufficiente ai sensi del 1.2.3.
Usare un elemento <track kind='descriptions'> ma lasciare il file VTT vuoto o incompleto: La sola presenza dell’elemento track non è sufficiente; il file VTT deve contenere descrizioni accurate e puntuali di tutti gli eventi visivi significativi. Un file VTT vuoto o molto incompleto non soddisfa il criterio.
Non descrivere le sovrimpressioni di testo a schermo: I video di marketing mostrano spesso statistiche, nomi di prodotti o testi di call-to-action come sovrimpressioni animate. Se queste sovrimpressioni non vengono lette ad alta voce da un narratore, devono comparire nella descrizione audio o nell’alternativa testuale — gli autori le trascurano frequentemente.
Scrivere descrizioni audio troppo vaghe: Descrizioni come “il presentatore dimostra il processo” sono insufficienti. Descrizioni efficaci nominano azioni specifiche, elementi dell’interfaccia, colori quando significativi e relazioni spaziali: “Il presentatore fa clic sul pulsante rosso Elimina sul lato destro della barra degli strumenti, quindi conferma selezionando OK nella finestra di dialogo”.
Non fornire un’alternativa per video in autoplay o di sfondo che trasmettono informazioni: Un video che parte automaticamente e mostra informazioni importanti (come una sezione hero che presenta le caratteristiche di un prodotto con sovrimpressioni di testo) è comunque un contenuto multimediale sincronizzato e richiede conformità se trasmette contenuti significativi.
Trattare i video decorativi come esenti senza verifica: I team talvolta etichettano un video come “decorativo” per evitare il requisito, anche quando in realtà trasmette informazioni sul prodotto o contenuti istruttivi. L’eccezione per i contenuti decorativi si applica solo quando il video non aggiunge davvero alcuna informazione significativa oltre a quella già disponibile nel testo adiacente.
Dimenticare di aggiornare la descrizione audio o l’alternativa testuale quando il video viene aggiornato: Se il contenuto del video cambia — ad esempio, vengono modificati i passaggi relativi al prodotto o aggiornati i dati sui prezzi — la descrizione audio e l’alternativa testuale devono essere aggiornate di conseguenza. Alternative obsolete costituiscono una non conformità anche se le alternative originali erano accurate.

Relazione con le Normative di Accessibilità della Turchia

La Circolare Presidenziale 2025/10 della Turchia, pubblicata nella Gazzetta Ufficiale n. 32933 il 21 giugno 2025, stabilisce standard obbligatori di accessibilità web per un’ampia gamma di enti pubblici e privati che operano in Turchia. La circolare fa riferimento a standard di accessibilità riconosciuti a livello internazionale, con WCAG 2.2 Livello A e Livello AA come base tecnica per la conformità. Poiché WCAG 1.2.3 è un requisito di Livello A, rientra tra gli obblighi più fondamentali previsti dalla circolare — non esiste un livello di conformità inferiore che consenta alle organizzazioni di ignorarlo.

La circolare copre un’ampia gamma di tipologie di enti. Le istituzioni pubbliche e gli organismi governativi — inclusi ministeri, municipalità, università statali e altre agenzie pubbliche — devono raggiungere la conformità entro un anno dalla data di pubblicazione della circolare. Le entità del settore privato coperte dalla circolare includono piattaforme di e-commerce, banche e istituti finanziari, ospedali e strutture sanitarie private, società di telecomunicazioni con 200,000 o più abbonati, agenzie di viaggio autorizzate, società di trasporto private e scuole private autorizzate dal Ministero dell’Istruzione Nazionale (MoNE). Queste organizzazioni del settore privato hanno due anni dalla data di pubblicazione per raggiungere la conformità.

Per qualsiasi ente soggetto che pubblichi contenuti video — il che oggi include praticamente tutte le principali istituzioni e imprese turche — WCAG 1.2.3 crea un obbligo concreto e applicabile. Una banca che pubblica video tutorial che spiegano come usare la propria app mobile, un ospedale pubblico che pubblica video guida per la registrazione dei pazienti, un operatore di telecomunicazioni che condivide video promozionali con confronti di piani a schermo o un sito di e-commerce che include video dimostrativi di prodotti devono tutti garantire che ogni contenuto multimediale sincronizzato preregistrato sia accompagnato da una descrizione audio o da un’alternativa testuale completa.

La mancata conformità ai requisiti della circolare può comportare controlli da parte delle autorità di regolamentazione e danni reputazionali e, man mano che l’applicazione delle norme sull’accessibilità digitale in Turchia matura, un’esposizione legale per gli enti soggetti. Le organizzazioni dovrebbero considerare WCAG 1.2.3 non come un miglioramento facoltativo, ma come un obbligo legale di base. In pratica, ciò significa effettuare un inventario di tutti i contenuti video, valutare quali video contengono informazioni esclusivamente visive e produrre sistematicamente descrizioni audio o alternative testuali complete per quelli che lo fanno. I nuovi flussi di produzione video dovrebbero includere i deliverable di accessibilità — script di descrizione e alternative testuali — come output standard insieme a sottotitoli e traduzioni.