WCAG 1.2.7: Descrizione audio estesa (pre-registrata)

Le WCAG 1.2.7 richiedono che, quando le pause nell’audio in primo piano non sono sufficienti a trasmettere tutte le informazioni visive, vengano fornite descrizioni audio estese—ottenute mettendo in pausa il video—per i contenuti multimediali preregistrati sincronizzati. Questo garantisce che le persone cieche e con ipovisione possano comprendere pienamente contenuti visivi complessi che le descrizioni audio standard non riescono a coprire.

Cosa significa questa regola

Il Criterio di Successo WCAG 1.2.7 — Descrizione audio estesa (pre-registrata) opera al Livello AAA e si basa direttamente sul requisito di Livello AA nel SC 1.2.5 (Descrizione audio per contenuti preregistrati). Mentre la descrizione audio standard utilizza semplicemente le pause naturali nella traccia audio di un video per narrare le informazioni visive, la descrizione audio estesa va oltre: quando tali pause sono troppo brevi o troppo rare per includere tutte le descrizioni necessarie, il video viene messo in pausa e viene riprodotta la descrizione audio, dopo di che il video riprende.

Il criterio si applica specificamente ai media sincronizzati preregistrati, cioè ai contenuti video che hanno una traccia audio sincronizzata con le immagini, come filmati didattici, video di formazione aziendale, documentari, dimostrazioni di prodotto e contenuti simili. Non si applica ai media in diretta, ai contenuti solo audio o ai contenuti solo video privi di colonna sonora.

Un superamento di questo criterio richiede una delle seguenti condizioni: (a) viene fornita una traccia di descrizione audio estesa o una versione del media che mette in pausa la riproduzione per fornire descrizioni delle informazioni visive critiche che non possono rientrare nelle pause naturali, oppure (b) tutte le informazioni visive sono già trasmesse attraverso la traccia audio esistente senza alcun bisogno di descrizioni aggiuntive (talvolta chiamata versione "equivalentemente descritta"). Un fallimento si verifica quando un video preregistrato sincronizzato contiene informazioni visive significative — come testo a schermo, diagrammi, espressioni facciali che guidano la narrazione o dimostrazioni — che non sono trasmesse né tramite descrizioni audio nelle pause naturali né tramite descrizioni estese, e l’audio esistente da solo lascia una persona cieca priva di tali informazioni.

WCAG riconosce anche una importante eccezione: se il media è esso stesso un’alternativa multimediale al testo — per esempio una versione video di un documento testuale chiaramente etichettata come tale — allora la descrizione audio estesa non è richiesta. Inoltre, se l’audio in primo piano descrive già completamente tutti i contenuti visivi, non è necessaria alcuna descrizione aggiuntiva.

Vale la pena notare che fornire una descrizione audio estesa spesso richiede la produzione di una versione completamente separata del video, poiché la maggior parte dei lettori multimediali non supporta nativamente il meccanismo di pausa e ripresa per la consegna delle descrizioni. Approcci comuni includono una "versione descritta" dedicata accessibile tramite un URL separato o un pulsante di attivazione nel player, oppure l’uso di un lettore multimediale che supporta tracce di descrizione estesa basate su TTML (Timed Text Markup Language) o SMIL.

Perché è importante

La descrizione audio estesa è fondamentale per le persone che sono cieche o con grave ipovisione, un pubblico più ampio di quanto molti sviluppatori suppongano. Secondo l’Organizzazione Mondiale della Sanità, circa 2,2 miliardi di persone nel mondo hanno qualche forma di compromissione visiva, e almeno 1 miliardo di queste presenta condizioni che avrebbero potuto essere prevenute o che restano non affrontate. Per le persone che si affidano interamente ai lettori di schermo e all’output audio, un video che descrive solo ciò che le sue pause naturali consentono può lasciare enormi lacune nella comprensione.

Si consideri un video di formazione medica che dimostra una tecnica chirurgica. Il narratore potrebbe dire: "Ora facciamo l’incisione qui", mentre la telecamera si avvicina a un preciso punto di repere anatomico e le mani del chirurgo eseguono una manovra precisa. La narrazione parlata presuppone che chi guarda possa vedere il contesto visivo. Una descrizione audio standard potrebbe riuscire a inserire una breve nota durante una pausa, ma se l’azione è continua per due minuti con parlato costante, uno studente di medicina cieco riceve quasi nessuno dei dettagli visivi che sono centrali per apprendere la tecnica. La descrizione audio estesa mette in pausa il video e fornisce la descrizione completa: l’anatomia visibile, lo strumento esatto utilizzato, l’angolo di approccio, la reazione dei tessuti. Lo studente ha così accesso equivalente al materiale didattico.

Oltre alla cecità, la descrizione audio estesa avvantaggia le persone con disabilità cognitive che elaborano le informazioni più lentamente e traggono beneficio dal contesto aggiuntivo fornito dalla narrazione descrittiva. Aiuta anche le persone in contesti solo audio — come chi ascolta un video di formazione mentre è in viaggio — che non possono vedere lo schermo indipendentemente dalla propria capacità visiva.

Dal punto di vista aziendale e legale, fornire descrizioni audio estese segnala un impegno serio e misurabile verso l’inclusione. Per le organizzazioni in settori regolamentati — istituzioni pubbliche, banche, fornitori di servizi sanitari, istituti di istruzione — dimostrare la conformità di Livello AAA su contenuti multimediali complessi può ridurre in modo significativo il rischio legale e l’esposizione reputazionale. Esiste anche un vantaggio pratico in termini di SEO: i copioni utilizzati per produrre le descrizioni audio estese spesso fungono da trascrizioni ricche, che i motori di ricerca indicizzano come contenuti significativi, migliorando la reperibilità delle risorse basate su video.

Regole Axe-core correlate

WCAG 1.2.7 richiede test manuali perché gli strumenti automatici non possono valutare il contenuto semantico di un video, confrontare la traccia audio con la traccia visiva o determinare se le informazioni visive sono descritte in modo adeguato. Non esiste alcuna regola axe-core che possa guardare un video, comprendere ciò che è rappresentato visivamente e giudicare se una descrizione audio estesa è presente, accurata e completa. Si tratta di un compito di giudizio fondamentalmente umano.

Valutazione manuale — confronto tra contenuto visivo e contenuto audio: Una persona che effettua il test deve guardare il video a occhi aperti e a occhi chiusi (o usando un lettore di schermo) e determinare se l’audio da solo — inclusa qualsiasi descrizione audio standard — trasmette tutte le informazioni visive significative. Se non lo fa, chi testa deve verificare se è fornita una versione con descrizione audio estesa. Gli strumenti automatici non possono eseguire questo confronto perché non hanno la capacità di interpretare i fotogrammi video come eventi visivi significativi o di correlarli con il significato semantico dell’audio.
Valutazione manuale — meccanismo di pausa e ripresa: Se si dichiara l’esistenza di una descrizione estesa, chi testa deve verificare che il player effettivamente metta in pausa durante la consegna della descrizione e riprenda correttamente in seguito. Questo comportamento riguarda il lettore multimediale e la temporizzazione e richiede test di riproduzione attivi da parte di una persona, poiché gli scanner automatici non eseguono né osservano gli stati di riproduzione dei media.
Valutazione manuale — accuratezza e completezza della descrizione: Anche quando esiste una traccia di descrizione audio estesa, il suo contenuto deve essere accurato e coprire tutte le informazioni visive critiche. Nessuna regola automatica può valutare se il testo della descrizione rappresenta in modo corretto e completo ciò che viene mostrato sullo schermo. Una descrizione che dice "il presentatore indica la lavagna" quando la lavagna contiene un diagramma critico con punti dati etichettati non soddisferebbe questo criterio, nonostante la descrizione sia tecnicamente presente.

Come testare

Esegui prima una scansione automatica di accessibilità. Usa axe DevTools (estensione del browser) o Lighthouse sulla pagina che contiene il video. Sebbene nessuno dei due strumenti possa verificare direttamente la conformità alla descrizione audio estesa, possono segnalare elementi multimediali mancanti o non funzionanti, elementi track assenti e altri problemi strutturali. Prendi nota di eventuali avvisi relativi ai contenuti multimediali come punto di partenza. Axe può segnalare l’assenza di una traccia di sottotitoli o di descrizione audio a livello di elemento, restringendo così l’ambito della revisione manuale.
Identifica tutti i media sincronizzati preregistrati nella pagina. Individua ogni elemento <video> o lettore multimediale incorporato (iframe di YouTube, embed di Vimeo, player personalizzati). Conferma che ciascuno contenga audio e video sincronizzati. I podcast solo audio o i video muti sono fuori dall’ambito di questo criterio.
Guarda il video solo con l’audio. Chiudi gli occhi o usa un lettore di schermo (NVDA con Firefox, VoiceOver con Safari o JAWS con Chrome) e ascolta l’intero video, inclusa qualsiasi traccia di descrizione audio esistente. Annota ogni momento in cui ti manca la comprensione di ciò che accade visivamente — azioni, testo a schermo, diagrammi, transizioni di scena, espressioni dei personaggi che guidano la narrazione.
Confronta le tue note con la traccia visiva. Ora guarda il video con l’audio disattivato e annota tutte le informazioni visive che compaiono sullo schermo. Confrontale con ciò che hai ascoltato. Se il contenuto visivo significativo non è stato trasmesso nell’audio, il video richiede una descrizione audio. Se le pause naturali nell’audio erano troppo brevi o assenti per includere tali descrizioni, è necessaria una descrizione audio estesa.
Verifica la presenza di una versione con descrizione estesa. Cerca un link chiaramente etichettato come "Versione con descrizione audio" (Audio Described Version), un interruttore nel lettore video o una versione descritta a un URL alternativo. Se presente, attivalo e ripeti i passaggi 3 e 4 con la versione descritta in riproduzione, verificando che le pause e le descrizioni coprano ora le informazioni visive mancanti.
Testa il comportamento di pausa e ripresa con NVDA + Firefox. Con la versione a descrizione estesa in riproduzione, conferma che il video si metta in pausa, che la descrizione audio venga fornita chiaramente e che il video riprenda dal punto corretto. Verifica che il lettore di schermo annunci il contenuto descritto o che sia comunque udibile per una persona non vedente.
Testa con VoiceOver + Safari su macOS/iOS. Ripeti il test di riproduzione. Assicurati che la versione descritta sia utilizzabile con la navigazione da tastiera (Tab, Space, Enter) e che VoiceOver annunci correttamente i controlli del player, incluso qualsiasi interruttore per la descrizione.
Verifica l’accuratezza del copione di descrizione. Ottieni il copione o la trascrizione della descrizione estesa, se disponibile. Confrontalo con il video per confermare che sia fattualmente accurato, che copra tutti gli eventi visivi critici e che non ometta informazioni che una persona vedente userebbe per comprendere il contenuto.

Come correggere

Scenario 1: Video senza alcuna descrizione audio — Non corretto

<!-- A training video with no audio description track and no described version link.
     Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>

Scenario 1: Video con versione a descrizione audio estesa — Corretto

<!-- Provide a clearly labeled link to the extended described version.
     The described version pauses at critical moments to deliver full visual descriptions.
     This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
  <a href='surgical-technique-extended-described.mp4'>
    Watch extended audio described version of this video
  </a>
</p>

Scenario 2: Video YouTube incorporato con elementi visivi frenetici — Non corretto

<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
     but there is no audio description, and the visual demonstrations are rapid
     with no natural pauses long enough for description. -->
<iframe
  width='560'
  height='315'
  src='https://www.youtube.com/embed/EXAMPLE_ID'
  title='Product demonstration video'
  allowfullscreen>
</iframe>

Scenario 2: Video incorporato con interruttore per la versione descritta — Corretto

<!-- Offer a button that swaps the src to the extended described version.
     The described version was produced as a separate MP4 with pauses built in.
     The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
  <iframe
    id='demo-video-frame'
    width='560'
    height='315'
    src='https://www.youtube.com/embed/EXAMPLE_ID'
    title='Product demonstration video'
    allowfullscreen>
  </iframe>
  <p>
    <button
      type='button'
      aria-pressed='false'
      onclick='toggleDescribedVersion(this)'>
      Enable extended audio description
    </button>
  </p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
     to the described YouTube video ID and updates aria-pressed. -->

Scenario 3: Lettore video HTML5 con traccia di descrizione troppo breve — Non corretto

<!-- A descriptions track exists but its cue text is truncated to fit within
     existing audio pauses. Key visual information (a data chart with five labeled
     columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->

Scenario 3: Versione separata con descrizione estesa e narrazione completa — Corretto

<!-- The extended described version pauses playback at the chart moment
     and delivers: 'A bar chart titled Annual Revenue by Region appears.
     Five bars are shown: Europe 2.1 million, Asia 3.4 million,
     North America 4.8 million, South America 1.2 million, Africa 0.9 million.
     North America leads all regions.' The video then resumes. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
  <strong>Extended audio described version:</strong>
  <a href='annual-report-extended-described.mp4'>
    Annual report video with extended audio descriptions
  </a>
</p>

Errori comuni

Trattare una traccia di sottotitoli come sostituto della descrizione audio: I sottotitoli trasmettono dialoghi parlati ed effetti sonori come testo per le persone sorde. Non descrivono i contenuti visivi per le persone cieche. Un video con la sola traccia di sottotitoli non soddisfa comunque questo criterio se le informazioni visive non sono descritte nell’audio.
Fornire una traccia di descrizione audio standard senza verificare se le pause sono sufficienti: Molti team aggiungono un elemento <track kind='descriptions'> e considerano il lavoro concluso, senza verificare che ogni evento visivo significativo abbia una pausa abbastanza lunga da contenere la descrizione. Dimostrazioni frenetiche, diagrammi complessi e testo denso a schermo richiedono tipicamente descrizioni estese.
Descrivere solo i cambiamenti visivi ovvi e omettere il contenuto testuale a schermo: Il testo a schermo — titoli delle slide, etichette dei campi, assi dei grafici, etichette dei pulsanti mostrati in una demo — deve essere letto integralmente durante la descrizione audio. Dire "compare una slide" invece di leggere il titolo della slide e i punti chiave lascia inaccessibili informazioni critiche.
Collegare a una versione descritta senza un nome accessibile chiaro e determinabile a livello di programma: Un link che dice "clicca qui" o "versione descritta" senza un’etichetta che identifichi quale video descrive non soddisfa WCAG 2.4.6 e crea confusione per le persone che usano lettori di schermo e navigano una pagina con più video.
Usare il pulsante di attivazione della versione descritta senza aggiornare aria-pressed o fornire un feedback: Se un pulsante passa dalla riproduzione standard a quella descritta e viceversa, deve usare aria-pressed (true/false) o un annuncio equivalente in una live region, in modo che le persone che usano lettori di schermo sappiano lo stato corrente e che la loro azione ha avuto effetto.
Produrre la versione a descrizione estesa senza testare l’accuratezza della ripresa: Dopo la pausa per la descrizione, il video deve riprendere esattamente da dove si era interrotto — non da un fotogramma leggermente precedente o successivo. Punti di ripresa errati causano perdita di contesto narrativo e aumentano la confusione per le persone cieche.
Supporre che una semplice trascrizione del video soddisfi questo criterio: Una trascrizione è preziosa e supporta il SC 1.2.8 (Alternativa ai media), ma non soddisfa il 1.2.7. La descrizione audio estesa è un meccanismo audio, sincronizzato nel tempo, non un documento separato da leggere in modo indipendente.
Non descrivere le informazioni visive che determinano il significato emotivo o narrativo di una scena: Se l’espressione del viso, il linguaggio del corpo o la reazione visiva di un personaggio sono centrali per comprendere ciò che sta accadendo — per esempio in un video di testimonianza di un cliente — omettere tale descrizione lascia le persone cieche senza una comprensione equivalente, anche se il dialogo parlato è integro.
Non aggiornare la versione descritta quando il video principale viene aggiornato: Se il video sorgente viene rieditato, aggiornato o sostituito (cosa comune con i contenuti didattici), anche la traccia o la versione a descrizione estesa deve essere aggiornata. Descrizioni obsolete possono fuorviare attivamente descrivendo scene che non esistono più.
Incorporare video tramite iframe di terze parti (YouTube, Vimeo) e presumere che la piattaforma gestisca la descrizione: Le descrizioni audio fornite dalla piattaforma (laddove esistono) raramente sono descrizioni estese. Il responsabile dei contenuti è tenuto a garantire che esista una versione a descrizione estesa e che sia collegata o accessibile dalla pagina che incorpora il video.

Relazione con le normative sull’accessibilità della Turchia

La Circolare Presidenziale 2025/10 della Turchia, pubblicata nella Gazzetta Ufficiale n. 32933 il 21 giugno 2025, stabilisce obblighi di accessibilità per un insieme definito di fornitori di servizi digitali. La circolare impone la conformità agli standard di accessibilità per i prodotti e i servizi digitali offerti al pubblico, allineandosi in linea generale a WCAG 2.1 Livello AA come requisito di conformità di base.

Le tipologie di entità coperte dalla circolare includono istituzioni e agenzie pubbliche, piattaforme di e-commerce, banche e istituzioni finanziarie, ospedali e fornitori di servizi sanitari, operatori di telecomunicazioni con 200,000 o più abbonati, agenzie di viaggio autorizzate, aziende di trasporto private e scuole private autorizzate dal Ministero dell’Istruzione Nazionale (MoNE). Per queste entità, la conformità a WCAG 2.1 Livello AA rappresenta il livello minimo applicabile.

WCAG 1.2.7 (Descrizione audio estesa) è un criterio di Livello AAA, il che significa che non è direttamente imposto dai requisiti di base della circolare. Tuttavia, la sua importanza non dovrebbe essere sottovalutata nel contesto normativo turco per diversi motivi. In primo luogo, le organizzazioni che producono contenuti multimediali complessi — come i fornitori di servizi sanitari che pubblicano video di formazione chirurgica, le istituzioni pubbliche che rilasciano filmati esplicativi sulle politiche o le scuole private che distribuiscono contenuti video educativi — hanno una forte motivazione etica e pratica per implementare descrizioni audio estese sui loro materiali più critici, anche in assenza di un obbligo legale rigoroso.

In secondo luogo, man mano che la regolamentazione turca sull’accessibilità digitale matura e i meccanismi di applicazione vengono rafforzati, i criteri di Livello AAA sono sempre più citati come indicatori di pratiche di eccellenza. Le organizzazioni che dimostrano volontariamente la conformità AAA — in particolare in ambiti ad alto impatto come salute, istruzione e finanza — sono meglio posizionate per futuri aggiornamenti normativi e affrontano un rischio ridotto di reclami nell’ambito di più ampi quadri antidiscriminazione.

In terzo luogo, per i broadcaster pubblici e le organizzazioni mediatiche — anche se non direttamente nominati nella circolare 2025/10 — il Consiglio Supremo della Radio e Televisione della Turchia (RTÜK) si è storicamente occupato di disposizioni sull’accessibilità per i contenuti radiotelevisivi. La descrizione audio estesa è in linea con lo spirito di tali obblighi quando viene applicata ai video on-demand e distribuiti sul web.

Le organizzazioni che utilizzano l’SDK del widget Accsible devono essere consapevoli che, sebbene il widget sovrapposto possa rendere visibili funzionalità e controlli di accessibilità alle persone che usano il servizio, la descrizione audio estesa deve essere implementata a livello di produzione dei contenuti — non può essere aggiunta automaticamente da uno strumento lato client. L’SDK può, tuttavia, rendere disponibile un interruttore o un link alla versione descritta all’interno del pannello di accessibilità, rendendo tale versione alternativa più facilmente individuabile per le persone che ne hanno bisogno.