Il video è il formato di contenuto dominante sul web, ma senza didascalie, trascrizioni e descrizioni audio esclude milioni di utenti ed espone la tua organizzazione a seri rischi legali. Questa guida spiega esattamente cosa richiede la WCAG, come funziona ciascun livello di accessibilità e i passaggi pratici per implementarli in tutto il tuo sito.

Ecco un numero che dovrebbe bloccare qualsiasi proprietario di sito web: nel solo 2024 sono state intentate 4.187 cause legali per accessibilità digitale negli Stati Uniti, e il 2025 sta registrando un aumento del 37%. I contenuti video sono al centro di molti di questi casi, perché il video privo di adeguate funzionalità di accessibilità è uno dei fallimenti di conformità più evidenti che un revisore — o l’avvocato di un querelante — possa trovare. Eppure il problema va ben oltre l’esposizione legale. Con oltre 48 milioni di americani che sperimentano qualche grado di perdita dell’udito e milioni di persone cieche o con ipovisione, un video inaccessibile significa semplicemente che il tuo messaggio non raggiunge una parte significativa del tuo pubblico. La buona notizia è che rendere i video accessibili è del tutto realizzabile, e le tecniche coinvolte — sottotitoli, trascrizioni e descrizioni audio — offrono anche benefici aziendali misurabili che non hanno nulla a che fare con la conformità.

Perché l’accessibilità video non è più opzionale

Il panorama legale relativo all’accessibilità video si è affinato in modo drastico negli ultimi anni. L’8 aprile 2024, il Dipartimento di Giustizia degli Stati Uniti (DOJ) ha emanato una norma definitiva che migliora l’accesso al web e alle app mobili ai sensi del Titolo II dell’ADA, allineandosi a WCAG 2.1 Livello AA — stabilendolo come standard per i siti web e le app dei governi statali e locali. La norma aggiornata richiede che tali enti forniscano sottotitoli, descrizioni audio e player video accessibili, oltre a garantire la navigazione da tastiera per la conformità video ADA. Per gli enti pubblici che servono popolazioni superiori a 50.000 persone, la scadenza per la conformità è il 24 aprile 2026. Gli enti pubblici più piccoli hanno tempo fino ad aprile 2027.

Le aziende private rientrano nel Titolo III dell’ADA, che non prevede una singola scadenza federale ma è soggetto a un contenzioso vigoroso e continuo. I tribunali fanno sempre più spesso riferimento a WCAG 2.1 Livello AA come standard, rendendo la conformità proattiva il percorso più sicuro. Questo sviluppo conferma che sottotitoli e descrizioni audio sono “ausili ausiliari” essenziali ai sensi dell’ADA, rendendo i contenuti digitali più accessibili per tutti gli utenti.

Oltre al rischio legale, c’è un argomento potente legato al pubblico. Secondo un sondaggio condotto da Verizon Media e Publicis Media, l’80% di coloro che usano i sottotitoli non ha una disabilità uditiva — e il 50% ritiene che i sottotitoli siano importanti poiché spesso guarda i video senza audio. La visione di video avviene sempre più spesso in pubblico, con il 69% degli intervistati che ha dichiarato di aver guardato video con l’audio disattivato in aree pubbliche. In altre parole, le funzionalità di accessibilità sono preferenze del pubblico mainstream, non accomodamenti di nicchia.

Il 71% delle persone con disabilità abbandona immediatamente un sito web se non è accessibile. Ogni video inaccessibile sul tuo sito è una porta che stai attivamente chiudendo a una parte sostanziale del tuo pubblico — e nemmeno i motori di ricerca sono immuni al problema, come vedremo più avanti.

Il framework WCAG: cosa richiedono davvero le linee guida

Le Web Content Accessibility Guidelines (WCAG) sono organizzate in quattro principi fondamentali — Percettibile, Utilizzabile, Comprensibile e Robusto — e tre livelli di conformità: A, AA e AAA. Il Livello AA è l’obiettivo per la conformità legale nella maggior parte delle giurisdizioni e copre l’intero spettro dei requisiti di accessibilità video. Capire quali criteri di successo si applicano a quale tipo di contenuto è essenziale prima di poter dare priorità al lavoro di correzione.

Per i media sincronizzati preregistrati (un video con contenuti sia audio che visivi), i principali requisiti di Livello A e AA sono:

SC 1.2.1 — Solo audio e solo video (preregistrati): Per i media preregistrati solo audio e solo video, deve essere fornita un’alternativa per i media temporizzati che presenti informazioni equivalenti per il contenuto.
SC 1.2.2 — Sottotitoli (preregistrati): Sono forniti sottotitoli per tutti i contenuti audio preregistrati nei media sincronizzati, tranne quando il media è un’alternativa testuale e viene chiaramente etichettato come tale.
SC 1.2.3 — Descrizione audio o alternativa ai media (preregistrati): È fornita un’alternativa per i media temporizzati o una descrizione audio del contenuto video preregistrato per i media sincronizzati, tranne quando il media è un’alternativa testuale e viene chiaramente etichettato come tale. Questo è un requisito di Livello A.
SC 1.2.4 — Sottotitoli (in diretta): Sono forniti sottotitoli per tutti i contenuti audio in diretta nei media sincronizzati. Questo è un requisito di Livello AA.
SC 1.2.5 — Descrizione audio (preregistrata): È fornita una descrizione audio per tutti i contenuti video preregistrati nei media sincronizzati. Questa è la versione più rigorosa di Livello AA della SC 1.2.3.

Vale la pena notare che WCAG 2.1 e 2.2 non introducono differenze rispetto alla 2.0 che si applichino ai requisiti di sottotitolazione o descrizione audio, quindi gli obblighi fondamentali sono stati coerenti nelle versioni recenti. Ciò che è cambiato è il panorama legale e normativo che fa riferimento a questi criteri.

Un’idea sbagliata comune è che fornire una trascrizione soddisfi il requisito dei sottotitoli. Non è così. Le sole trascrizioni sono insufficienti per i contenuti video, perché il testo deve essere sincronizzato con il video. Una trascrizione e i sottotitoli hanno scopi sovrapposti ma distinti.

Sottotitoli: le fondamenta del video accessibile

I sottotitoli sono una rappresentazione testuale sincronizzata e con codifica temporale della traccia audio di un video. A differenza dei sottotitoli tradotti (subtitles), che presuppongono che lo spettatore possa sentire ma non capisca la lingua, i sottotitoli chiusi (closed captions) presuppongono che lo spettatore non possa sentire. Rendono il video accessibile alle persone sorde e con ipoacusia fornendo una traccia tempo-testo come supplemento o sostituto dell’audio — e sebbene il testo dei sottotitoli sia prevalentemente parlato, i sottotitoli includono anche elementi non verbali come l’identificazione del parlante e gli effetti sonori, fondamentali per comprendere il contenuto.

La qualità è la variabile che distingue i sottotitoli realmente accessibili da un mero adempimento formale. Lo standard di settore per l’accuratezza dei sottotitoli è il 99%. Il Media Hub dell’Università del Minnesota a Duluth riporta che i sottotitoli automatici di YouTube sono accurati solo al 60–70%, a seconda della qualità audio. Questo divario è enormemente importante: sottotitoli pieni di errori non sono solo inutili — fuorviano attivamente le persone sorde e con ipoacusia, travisando il contenuto da cui dipendono. Nei flussi di produzione, i sottotitoli generati dall’IA dovrebbero essere trattati come una prima bozza che richiede revisione umana, non come un prodotto finito.

I sottotitoli di alta qualità condividono tre caratteristiche descritte dal Described and Captioned Media Program (DCMP): sono accurati (l’obiettivo sono sottotitoli senza errori), coerenti (uniformità nello stile e nella presentazione) e chiari (una rappresentazione testuale completa dell’audio, inclusa l’identificazione del parlante e le informazioni non verbali). Sul piano tecnico, la leggibilità dipende anche dalla visualizzazione dei sottotitoli. Le linee guida WCAG raccomandano un rapporto di contrasto minimo di 4,5:1 per il testo, mentre la dimensione del carattere dovrebbe essere almeno 14 punti — i font con tratti sottili o caratteristiche insolite sono sconsigliati perché più difficili da leggere.

I due formati di file di sottotitoli dominanti per il web sono WebVTT e SRT. WebVTT è il formato consigliato per i video sul web — è il formato nativo di sottotitoli per i player video HTML5, supporta opzioni di stile ed è ampiamente supportato da browser e piattaforme video. SRT è l’altro formato comune e funziona bene per la maggior parte delle piattaforme, ma offre meno opzioni di stile rispetto a VTT. Ecco un esempio minimale di elemento video HTML5 con una traccia di sottotitoli associata:

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

L’attributo kind='captions' è importante — segnala al browser e alle tecnologie assistive che questa traccia è destinata alle persone sorde e con ipoacusia piuttosto che alla traduzione linguistica. Aggiungere l’attributo default fa sì che i sottotitoli vengano mostrati automaticamente, cosa da considerare per le pagine ricche di contenuti in cui l’utente potrebbe non notare il pulsante CC.

Per i video in diretta — webinar, live streaming, eventi virtuali — WCAG 2.1 Livello AA richiede sottotitoli per tutto l’audio in diretta nei media sincronizzati, il che è particolarmente importante per webinar, eventi live e trasmissioni in tempo reale. Piattaforme come Zoom supportano i sottotitoli in diretta tramite riconoscimento vocale automatico e forniscono anche un meccanismo per integrare sottotitolatori umani quando sono richiesti livelli di accuratezza più elevati.

Trascrizioni: accessibilità più ampia, maggiore portata

Una trascrizione è un documento scritto che cattura tutto ciò che c’è in un video — tutti i dialoghi parlati, gli effetti sonori rilevanti e (per le trascrizioni descrittive) le informazioni visive importanti. Una trascrizione fornisce una versione testuale parola per parola della parte audio dei contenuti video, nonché informazioni audio non verbali che aiutano il lettore a comprendere il contenuto — e una trascrizione descrittiva va oltre, aggiungendo informazioni visive che aiutano le persone a comprendere il contenuto.

Ai sensi di WCAG 2.1 Livello AA, le trascrizioni sono strettamente richieste per i contenuti solo audio come podcast e registrazioni audio. Per i video sottotitolati, le trascrizioni non sono richieste da WCAG 2.1 Livello AA — tuttavia, le trascrizioni sono raccomandate per tutti i video poiché sono più accessibili dei sottotitoli per le persone sordo-cieche e avvantaggiano anche le persone con connessioni internet lente, chi desidera scansionare rapidamente o cercare il contenuto di un video e chi semplicemente preferisce il testo. La prassi migliore è fornirle indipendentemente dall’obbligo rigoroso WCAG.

Quando scrivi una trascrizione descrittiva, cerca di includere:

Tutti i dialoghi parlati, attribuiti ai singoli parlanti
Effetti sonori significativi e segnali audio non verbali (ad es. [applausi], [suono di allarme])
Descrizioni del testo su schermo, grafici o elementi visivi che non vengono spiegati verbalmente
Informazioni di ambientazione della scena quando influiscono sulla comprensione

Un dibattito pratico riguarda se le trascrizioni debbano essere verbatim o leggermente modificate. Sebbene alcune risorse insistano sulle trascrizioni verbatim, le trascrizioni modificate sono spesso l’opzione migliore — perché stai scrivendo per persone reali, e un linguaggio chiaro e conciso migliora l’accessibilità. Rimuovere parole riempitive come “ehm” e “uh” generalmente migliora la leggibilità senza sacrificare l’accuratezza.

Le trascrizioni offrono anche un notevole dividendo in termini di SEO. I motori di ricerca non possono guardare il tuo video, ma possono indicizzare i tuoi sottotitoli e le tue trascrizioni — e aggiungere una trascrizione testuale alla pagina del video fornisce ai motori di ricerca contenuti indicizzabili che corrispondono alle query di ricerca. Discovery Digital Networks ha condotto un esperimento sul proprio canale YouTube confrontando video con e senza sottotitoli chiusi; hanno scoperto che i video sottotitolati hanno ottenuto in media il 7,32% di visualizzazioni in più e hanno confermato che i sottotitoli venivano indicizzati dai bot di ricerca — testandolo interrogando una frase che non compariva da nessun’altra parte se non nei sottotitoli, con il video che appariva al quarto posto nei risultati di ricerca di YouTube.

Descrizioni audio: accessibilità per utenti ciechi e ipovedenti

Le descrizioni audio (AD) affrontano una barriera di accessibilità completamente diversa rispetto ai sottotitoli. Se i sottotitoli servono gli utenti che non possono sentire, le descrizioni audio servono gli utenti che non possono vedere. La descrizione audio è una narrazione delle informazioni visive significative in un video per fornire contesto, chiarire chi parla e articolare gli elementi visivi — pensala come un testo alternativo per i video. Esempi di informazioni rilevanti includono espressioni facciali e scene — tutto ciò che uno spettatore vedente assorbe visivamente ma che non è trasmesso tramite dialogo o narrazione.

Non tutti i video necessitano di descrizioni audio. In generale, se chiudi gli occhi ma riesci comunque a seguire il programma — come un’intervista frontale in cui chi parla spiega tutto verbalmente — probabilmente non ne hai bisogno. Tuttavia, se qualcuno fa riferimento a elementi visivi in una presentazione senza descriverli ad alta voce, la descrizione audio sarebbe probabilmente necessaria. Una demo di prodotto che mostra un’interfaccia utente su cui si clicca senza narrare le azioni, un video formativo che descrive un diagramma o un video di marketing ricco di scene visive — tutti questi richiedono descrizione audio.

Esistono due tipi di descrizione audio da conoscere:

Descrizione audio standard: Le descrizioni utilizzano le pause naturali nella colonna sonora esistente per inserire la narrazione degli elementi visivi come azioni, ambientazioni, aspetto dei personaggi, linguaggio del corpo, costumi, illuminazione e testo su schermo.
Descrizione audio estesa: Con la descrizione estesa, il video si interrompe momentaneamente per consentire più tempo alle descrizioni quando necessario. Per l’AD estesa, fornisci una versione del film con descrizioni audio estese e una versione senza. Questo è richiesto dal Livello AAA di WCAG (SC 1.2.7) ma è una buona prassi quando le pause standard non sono sufficienti.

Implementare le descrizioni audio in un contesto web presenta sfide pratiche. Una delle sfide nell’implementazione della descrizione audio è il supporto da parte dei player — la maggior parte dei browser e dei player video non supporta le descrizioni audio nello stesso modo in cui supporta i sottotitoli. Tuttavia, Able Player è un media player HTML5 completamente accessibile e multipiattaforma che supporta la descrizione audio come video separato o in un file WebVTT letto ad alta voce dai browser moderni. La tecnica di produzione più affidabile resta la registrazione di una versione separata del video con la traccia di descrizione integrata nella colonna sonora e l’offerta agli utenti di un toggle chiaramente etichettato tra la versione standard e quella descritta.

Gli standard WCAG 2.1 AA richiedono che le descrizioni audio forniscano un accesso equivalente alle informazioni visive, il che significa che devono catturare i dettagli chiave che uno spettatore vedente comprenderebbe. Scrivi le descrizioni in un linguaggio semplice e oggettivo. Descrivi ciò che è effettivamente sullo schermo, non la tua interpretazione — ad esempio, dì “Una studentessa alza la mano”, non “Una studentessa sembra impaziente di rispondere”.

Player video accessibili: lo strato spesso trascurato

Anche sottotitoli e descrizioni audio perfetti sono inutili se il player video stesso non può essere utilizzato tramite tastiera o tecnologia assistiva. Il player è il meccanismo di erogazione e deve essere accessibile di per sé. Molti utenti navigano sul web usando solo la tastiera o tecnologie assistive, quindi tutti i contenuti dovrebbero essere utilizzabili tramite un’interfaccia da tastiera senza mouse.

I requisiti chiave di accessibilità del player includono piena operabilità da tastiera (play, pausa, avanzamento, volume, attivazione dei sottotitoli, schermo intero, tutti raggiungibili da tastiera), indicatori di focus visibili sui controlli, etichette ARIA per tutti gli elementi interattivi e controlli dei sottotitoli facili da individuare. La Sezione 508 richiede inoltre che i controlli utente per sottotitoli e descrizioni audio siano disponibili allo stesso livello dei controlli del volume o dei pulsanti play/pausa.

L’auto-play è un rischio di accessibilità comune che merita particolare attenzione. I video che partono automaticamente possono essere frustranti per molti utenti e rappresentano seri problemi per gli spettatori con disturbi dell’attenzione, autismo o disabilità visive che si affidano ai lettori di schermo — i contenuti in auto-play possono interferire con l’output del lettore di schermo, creando confusione e ostacolando l’accesso. Disattiva l’auto-play per impostazione predefinita su tutti gli embed video e, se devi usarlo, assicurati che il volume parta disattivato e che un meccanismo di pausa sia immediatamente accessibile.

Quando incorpori video di terze parti (YouTube, Vimeo, Wistia, ecc.), verifica che il codice di embed della piattaforma gestisca correttamente il focus da tastiera e che l’iframe abbia un attributo title significativo, in modo che gli utenti di screen reader sappiano con cosa stanno interagendo prima di entrare nel player:

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

Costruire un flusso di lavoro video accessibile

L’approccio più sostenibile all’accessibilità video non è la correzione a posteriori — è l’integrazione dell’accessibilità nella pipeline di produzione e pubblicazione fin dall’inizio. Il costo di adattare una grande libreria video può essere considerevole; il costo di costruirla correttamente la prima volta è marginale in confronto.

Un flusso di lavoro pratico è il seguente. Durante la pre-produzione, scrivi una sceneggiatura dettagliata. Una sceneggiatura completa è la base per ogni risorsa di accessibilità a valle — sottotitoli, trascrizioni e script per le descrizioni audio diventano tutti molto più semplici quando esiste un buon materiale di partenza. Durante la produzione, riduci al minimo il rumore di fondo, usa un parlato chiaro e assicurati che il testo su schermo, la grafica e le azioni visive significative siano narrate verbalmente quando possibile. Questo riduce significativamente il carico di lavoro per la descrizione audio.

La post-produzione è il momento in cui vengono prodotte le risorse di accessibilità. Usa lo strumento di sottotitolazione basato su IA che preferisci per generare una prima bozza, quindi falla revisionare e correggere da una persona — in particolare per la terminologia tecnica, i nomi propri e il linguaggio specifico di dominio, ambiti in cui la trascrizione automatica è più soggetta a errori. Crea la trascrizione descrittiva combinando il file dei sottotitoli con le descrizioni delle informazioni visive significative. Produci la narrazione per la descrizione audio utilizzando talenti vocali interni o un servizio professionale di AD.

Per le organizzazioni con grandi librerie video esistenti, dai priorità alla correzione in base all’utilizzo. Inizia dai video con il traffico più elevato, dai contenuti di onboarding e formazione, dalle demo di prodotto e da qualsiasi video incorporato in pagine che compaiono nei funnel di conversione. Avvia ora gli audit di accessibilità, dai priorità prima ai materiali più utilizzati, quindi integra l’accessibilità in tutti i nuovi flussi di lavoro video in avanti.

Un errore comune e costoso è trattare i sottotitoli come una consegna di fase finale — qualcosa da aggiungere poco prima della pubblicazione. Integra la revisione dei sottotitoli nella tua checklist di QA allo stesso modo in cui controlleresti la codifica video o la creazione delle miniature. Un’ora di lavoro nel punto giusto del flusso di lavoro risparmia molte ore di correzione successiva.

Il business case: oltre la conformità

Il video accessibile è un video migliore per ogni spettatore, non solo per chi ha disabilità. I dati su questo punto sono convincenti. Uno studio di ricerca nazionale che ha intervistato 2.124 studenti di 15 diversi college e università ha rilevato che il 98,6% degli studenti trova i sottotitoli utili. Il 71% degli studenti senza difficoltà uditive utilizza i sottotitoli almeno qualche volta, e il 66% degli studenti ESL trova i sottotitoli “molto” o “estremamente” utili.

L’impatto sul coinvolgimento è altrettanto significativo. Facebook ha rilevato che i sottotitoli hanno aumentato le visualizzazioni dei video del 12% rispetto ai video senza sottotitoli; uno studio separato ha misurato un aumento del 40% delle visualizzazioni per i video sottotitolati e ha rilevato che gli spettatori avevano l’80% di probabilità in più di guardare un video fino alla fine quando erano disponibili sottotitoli chiusi.

I benefici SEO si sommano a quelli sul coinvolgimento. Le trascrizioni video aiutano a massimizzare la SEO perché forniscono contesto ai motori di ricerca — questo può significare che i video hanno una visibilità più elevata nelle pagine dei risultati dei motori di ricerca quando un utente digita una ricerca correlata. Le trascrizioni rendono anche facile creare post di blog, newsletter o snippet per i social media a partire dai tuoi video — trasformando un singolo contenuto video in una risorsa di contenuti multicanale a costo aggiuntivo minimo.

Infine, considera la traiettoria demografica di lungo periodo. L’Organizzazione Mondiale della Sanità stima che entro il 2050 quasi 2,5 miliardi di persone avranno qualche grado di perdita dell’udito e 1 su 10 avrà una perdita uditiva significativa. Il pubblico che dipende dal video accessibile non sta diminuendo. Ogni investimento che fai oggi nell’accessibilità video genera dividendi composti man mano che quel pubblico cresce.

Punti chiave

I sottotitoli sono obbligatori per tutti i media sincronizzati preregistrati e in diretta ai sensi di WCAG 2.1 Livello AA. I sottotitoli generati automaticamente sono solo un punto di partenza — la prassi migliore del settore richiede un’accuratezza del 99%, il che significa che la revisione umana dell’output dell’IA è imprescindibile per qualsiasi contenuto rivolto al pubblico.
Le trascrizioni sono fortemente raccomandate per tutti i video anche quando non strettamente richieste, perché servono le persone sordo-cieche, migliorano la SEO fornendo ai motori di ricerca testo indicizzabile e avvantaggiano qualsiasi spettatore che preferisca scorrere o consultare il contenuto in forma testuale.
Le descrizioni audio sono richieste a WCAG Livello AA per i video preregistrati che contengono informazioni visive significative non trasmesse tramite audio. Fai la prova chiudendo gli occhi — se ti perdi contenuti importanti, è necessaria la descrizione audio.
Il tuo player video deve essere accessibile da tastiera con controlli correttamente etichettati per sottotitoli e descrizioni audio. Un player inaccessibile vanifica ogni altro investimento in accessibilità che hai fatto sul contenuto stesso.
Il business case per l’accessibilità video è forte di per sé: i video sottotitolati ricevono molte più visualizzazioni e completamenti, le trascrizioni migliorano il posizionamento SEO e l’80% degli utenti di sottotitoli non ha disabilità uditive — il video accessibile raggiunge un pubblico più ampio su ogni metrica che conta per la tua organizzazione.

Rendere i video accessibili: sottotitoli, trascrizioni e descrizioni audio