Video är webben dominerande innehållsformat – men utan undertexter, transkriptioner och syntolkningar utestänger det miljontals användare och utsätter din organisation för allvarliga juridiska risker. Den här guiden förklarar exakt vad WCAG kräver, hur varje tillgänglighetslager fungerar och de praktiska steg du kan ta för att implementera dem på hela din webbplats.

Här är en siffra som borde få varje webbplatsägare att stanna upp: 4 187 stämningar om digital tillgänglighet väcktes i USA enbart under 2024, och 2025 ligger 37% högre. Videoinnehåll står i centrum för många av dessa fall, eftersom video utan korrekta tillgänglighetsfunktioner är ett av de mest iögonfallande efterlevnadsbristerna en granskare – eller en kärandens advokat – kan hitta. Men problemet sträcker sig långt bortom juridisk risk. Med mer än 48 miljoner amerikaner som upplever någon grad av hörselnedsättning och miljontals fler som är blinda eller har nedsatt syn, innebär otillgänglig video helt enkelt att ditt budskap aldrig når en betydande del av din publik. Den goda nyheten är att göra video tillgänglig är fullt genomförbart, och de tekniker som används – undertexter, transkriptioner och syntolkning – ger också mätbara affärsfördelar som inte har något med efterlevnad att göra.

Varför videotillgänglighet inte längre är valfri

Det juridiska landskapet kring videotillgänglighet har skärpts dramatiskt under de senaste åren. Den 8 april 2024 utfärdade det amerikanska justitiedepartementet (DOJ) en slutlig regel som förbättrar tillgången till webb och mobilappar enligt Title II i ADA, i linje med WCAG 2.1 nivå AA – vilket fastställer den som standard för statliga och lokala myndigheters webbplatser och appar. Den uppdaterade regeln kräver att dessa aktörer tillhandahåller undertexter, syntolkning och tillgängliga videospelare, samt säkerställer tangentbordsnavigering för ADA-efterlevnad av video. För offentliga aktörer som betjänar befolkningar över 50 000 är sista datum för efterlevnad den 24 april 2026. Mindre offentliga aktörer har till april 2027.

Privata företag omfattas av ADA Title III, som inte har någon enhetlig federal tidsfrist men utsätts för kraftig, pågående rättsprocess. Domstolar hänvisar i allt högre grad till WCAG 2.1 nivå AA som standard, vilket gör proaktiv efterlevnad till den säkrare vägen. Denna utveckling bekräftar att undertexter och syntolkning är nödvändiga ”hjälpmedel” enligt ADA, vilket gör digitalt innehåll mer tillgängligt för alla användare.

Utöver den juridiska risken finns ett starkt publikargument. Enligt en undersökning genomförd av Verizon Media och Publicis Media har 80% av dem som använder undertexter ingen hörselnedsättning – och 50% anser att undertexter är viktiga eftersom de ofta tittar på videor utan ljud. Videotittande sker i allt högre grad offentligt, där 69% av de tillfrågade uppgav att de tittade på video med ljudet avstängt i offentliga miljöer. Med andra ord är tillgänglighetsfunktioner mainstream-tittarnas preferenser, inte nischade anpassningar.

71% av personer med funktionsnedsättning lämnar en webbplats omedelbart om den inte är tillgänglig. Varje otillgänglig video på din webbplats är en dörr du aktivt stänger för en betydande del av din publik – och sökmotorer är inte immuna mot problemet heller, som vi ska se senare.

WCAG-ramverket: Vad riktlinjerna faktiskt kräver

Web Content Accessibility Guidelines (WCAG) är organiserade i fyra kärnprinciper – Perceivable (möjlig att uppfatta), Operable (hanterbar), Understandable (begriplig) och Robust (robust) – och tre efterlevnadsnivåer: A, AA och AAA. Nivå AA är målet för juridisk efterlevnad i de flesta jurisdiktioner, och den täcker hela spektrumet av krav på videotillgänglighet. Att förstå vilka framgångskriterier som gäller för vilken typ av innehåll är avgörande innan du kan prioritera ditt åtgärdsarbete.

För förinspelade synkroniserade medier (en video med både ljud och visuellt innehåll) är de viktigaste kraven på nivå A och AA:

SC 1.2.1 – Endast ljud och endast video (förinspelat): För förinspelade medier med enbart ljud och förinspelade medier med enbart video måste ett alternativ för tidsbaserade medier tillhandahållas som presenterar likvärdig information för innehållet.
SC 1.2.2 – Undertexter (förinspelat): Undertexter tillhandahålls för allt förinspelat ljudinnehåll i synkroniserade medier, utom när mediet är ett mediealternativ till text och tydligt är märkt som sådant.
SC 1.2.3 – Syntolkning eller mediealternativ (förinspelat): Ett alternativ för tidsbaserade medier eller syntolkning av det förinspelade videoinnehållet tillhandahålls för synkroniserade medier, utom när mediet är ett mediealternativ till text och tydligt är märkt som sådant. Detta är ett krav på nivå A.
SC 1.2.4 – Undertexter (direktsänt): Undertexter tillhandahålls för allt direktsänt ljudinnehåll i synkroniserade medier. Detta är ett krav på nivå AA.
SC 1.2.5 – Syntolkning (förinspelat): Syntolkning tillhandahålls för allt förinspelat videoinnehåll i synkroniserade medier. Detta är den striktare versionen på nivå AA av SC 1.2.3.

Det är värt att notera att WCAG 2.1 och 2.2 inte introducerar några skillnader från 2.0 som gäller krav på undertexter eller syntolkning, så de grundläggande skyldigheterna har varit konsekventa över de senaste versionerna. Det som har förändrats är det juridiska och regulatoriska landskapet som hänvisar till dessa kriterier.

En vanlig missuppfattning är att tillhandahålla en transkription uppfyller kravet på undertexter. Det gör det inte. Enbart transkriptioner är otillräckliga för videoinnehåll, eftersom texten måste vara synkroniserad med videon. En transkription och undertexter fyller överlappande men olika syften.

Undertexter: Grunden för tillgänglig video

Undertexter är en synkroniserad, tidskodad textrepresentation av en videos ljudspår. Till skillnad från subtitles, som utgår från att tittaren kan höra men inte förstår språket, utgår closed captions från att tittaren inte kan höra. De gör video tillgänglig för döva och hörselskadade användare genom att tillhandahålla ett tids-till-text-spår som komplement till, eller ersättning för, ljudet – och även om undertexttexten huvudsakligen är tal, inkluderar undertexter också icke-verbala element som talaridentifikation och ljudeffekter som är avgörande för att förstå innehållet.

Kvalitet är den variabel som skiljer genuint tillgängliga undertexter från en ren checkbox-övning. Branschstandarden för undertextnoggrannhet är 99%. University of Minnesota at Duluths Media Hub rapporterar att YouTubes automatiska undertexter bara är 60–70% korrekta, beroende på ljudkvalitet. Den skillnaden är enormt viktig: undertexter fulla av fel är inte bara oanvändbara – de vilseleder aktivt döva och hörselskadade tittare genom att felrepresentera det innehåll de är beroende av. För produktionsarbetsflöden bör AI-genererade undertexter behandlas som ett första utkast som kräver mänsklig granskning, inte som en färdig produkt.

Undertexter av hög kvalitet delar tre egenskaper som beskrivs av Described and Captioned Media Program (DCMP): de är korrekta (felfria undertexter är målet), konsekventa (enhetlighet i stil och presentation) och tydliga (en fullständig textrepresentation av ljudet, inklusive talaridentifikation och icke-verbal information). På den tekniska sidan beror läsbarheten också på hur undertexterna visas. WCAG-riktlinjer rekommenderar en minsta kontrastkvot på 4,5:1 för text, medan teckenstorleken bör vara minst 14 punkter – typsnitt med tunna linjer eller ovanliga egenskaper avråds eftersom de är svårare att läsa.

De två dominerande filformaten för undertexter på webben är WebVTT och SRT. WebVTT är det rekommenderade formatet för webbvideo – det är det inbyggda undertextformatet för HTML5-videospelare, stöder formateringsalternativ och har brett stöd i webbläsare och videoplattformar. SRT är det andra vanliga formatet och fungerar bra för de flesta plattformar men har färre formateringsalternativ än VTT. Här är ett minimalt exempel på ett HTML5-videoelement med ett undertextspår kopplat:

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

Attributet kind='captions' är viktigt – det signalerar till webbläsaren och hjälpmedelsteknik att detta spår är avsett för döva och hörselskadade användare snarare än för språköversättning. Att lägga till attributet default gör att undertexter visas automatiskt, vilket är värt att överväga för innehållstunga sidor där en användare kanske inte lägger märke till CC-knappen.

För direktsänd video – webbinarier, liveströmmar, virtuella evenemang – kräver WCAG 2.1 nivå AA undertexter för allt direktsänt ljud i synkroniserade medier, vilket är särskilt viktigt för webbinarier, liveevenemang och direktsändningar. Plattformar som Zoom stöder direktsända undertexter med automatisk taligenkänning och tillhandahåller också en mekanism för att integrera mänskliga textare för högre noggrannhetskrav.

Transkriptioner: Bredare tillgänglighet, större räckvidd

En transkription är ett skriftligt dokument som fångar allt i en video – all talad dialog, relevanta ljudeffekter och (för beskrivande transkriptioner) viktig visuell information. En transkription tillhandahåller en ordagrann textversion av den ljudmässiga delen av videoinnehållet, liksom icke-verbal ljudinformation som hjälper läsaren att förstå innehållet – och en beskrivande transkription går ett steg längre genom att lägga till visuell information som hjälper människor att förstå innehållet.

Enligt WCAG 2.1 nivå AA är transkriptioner strikt obligatoriska för innehåll med enbart ljud, såsom poddar och ljudinspelningar. För video med undertexter krävs inte transkriptioner enligt WCAG 2.1 nivå AA – men transkriptioner rekommenderas för alla videor eftersom de är mer tillgängliga än undertexter för personer som är dövblinda, och också gynnar personer med långsamma internetuppkopplingar, de som vill snabbt skumma igenom eller söka i en videos innehåll, och personer som helt enkelt föredrar text. Bästa praxis är att tillhandahålla dem oavsett strikt WCAG-krav.

När du skriver en beskrivande transkription, sträva efter att inkludera:

All talad dialog, tillskriven enskilda talare
Meningsfulla ljudeffekter och icke-verbala ljudsignaler (t.ex. [applåder], [alarm ljuder])
Beskrivningar av text på skärmen, diagram eller visuella element som inte förklaras muntligt
Scenbeskrivande information där den påverkar förståelsen

En praktisk diskussion gäller om transkriptioner ska vara ordagranna eller lätt redigerade. Även om vissa resurser insisterar på ordagranna transkriptioner, är redigerade transkriptioner ofta det bättre alternativet – eftersom du skriver för riktiga människor, och tydligt och koncist språk förbättrar tillgängligheten. Att ta bort utfyllnadsord som ”öh” och ”um” förbättrar generellt läsbarheten utan att offra noggrannheten.

Transkriptioner ger också en betydande SEO-effekt. Sökmotorer kan inte titta på din video, men de kan indexera dina undertexter och transkriptioner – och att lägga till en texttranskription på din videosida ger sökmotorer genomsökningsbart innehåll som matchar sökfrågor. Discovery Digital Networks genomförde ett experiment på sin YouTube-kanal där de jämförde videor med och utan closed captions; de fann att videor med undertexter i genomsnitt hade 7,32% fler visningar, och bekräftade att undertexter indexerades av sökrobotar – detta testades genom att söka på en fras som inte förekom någon annanstans än i undertexterna, där videon hamnade på fjärde plats i YouTubes sökresultat.

Syntolkning: Tillgänglighet för blinda och personer med nedsatt syn

Syntolkning (audio descriptions, AD) adresserar en helt annan tillgänglighetsbarriär än undertexter. Där undertexter betjänar användare som inte kan höra, betjänar syntolkning användare som inte kan se. Syntolkning är en uppläsning av meningsfull visuell information i en video för att ge sammanhang, klargöra talare och beskriva visuella element – tänk på det som alternativtext för videor. Exempel på relevant information inkluderar ansiktsuttryck och scener – allt som en seende tittare tar in visuellt men som inte förmedlas genom dialog eller berättarröst.

Inte varje video behöver syntolkning. Generellt, om du kan stänga ögonen men ändå följa programmet – till exempel en intervju i ”talking head”-format där talaren förklarar allt muntligt – behöver du troligen inte det. Men om någon hänvisar till visuella element i en presentation utan att beskriva dem högt, skulle syntolkning sannolikt vara nödvändig. En produktdemo som visar ett användargränssnitt som klickas igenom utan att handlingarna berättas, en utbildningsvideo som beskriver ett diagram, eller en marknadsföringsvideo med mycket scenbeskrivande visuella element – alla dessa kräver syntolkning.

Det finns två typer av syntolkning att förstå:

Standardsyntolkning: Beskrivningar använder naturliga pauser i det befintliga ljudspåret för att lägga in uppläsning av visuella element såsom handlingar, miljöer, karaktärers utseende, kroppsspråk, kostymer, ljussättning och text på skärmen.
Utökad syntolkning: Med utökad syntolkning pausas videon tillfälligt för att ge mer tid för beskrivningar när det behövs. För utökad AD tillhandahåll en version av filmen med utökad syntolkning och en version utan. Detta krävs enligt WCAG nivå AAA (SC 1.2.7) men är bästa praxis när vanliga pauser inte räcker.

Att implementera syntolkning i ett webbkontext innebär praktiska utmaningar. En av utmaningarna med att implementera syntolkning är spelarstöd – de flesta webbläsare och videospelare stöder inte syntolkning på samma sätt som de stöder undertexter. Men Able Player är en fullt tillgänglig, webbläsaroberoende HTML5-mediaspelare som stöder syntolkning som en separat video eller i en WebVTT-fil som läses upp av moderna webbläsare. Den mest tillförlitliga produktionstekniken är fortfarande att spela in en separat version av videon med syntolkningsljudet inbakat i ljudspåret och erbjuda användare en tydligt märkt växel mellan standardversionen och den syntolkade versionen.

WCAG 2.1 AA-standarder kräver att syntolkning ger likvärdig tillgång till visuell information, vilket innebär att de måste fånga de viktigaste detaljerna som en seende tittare skulle uppfatta. Skriv beskrivningar på enkel, objektiv svenska. Beskriv vad som faktiskt syns på skärmen, inte din tolkning av det – säg till exempel ”En student räcker upp handen”, inte ”En student verkar ivrig att svara”.

Tillgängliga videospelare: Det ofta förbisedda lagret

Även perfekta undertexter och syntolkningar är värdelösa om själva videospelaren inte kan hanteras med tangentbord eller hjälpmedelsteknik. Spelaren är leveransmekanismen, och den måste vara tillgänglig i sig. Många användare navigerar på webben enbart med tangentbord eller hjälpmedelsteknik, så allt innehåll ska kunna hanteras via ett tangentbordsgränssnitt utan mus.

Centrala krav på spelartillgänglighet inkluderar full tangentbordsstyrning (play, paus, spola, volym, växling av undertexter, helskärm – allt ska kunna nås med tangentbord), synliga fokusindikatorer på kontroller, ARIA-etiketter för alla interaktiva element och undertextkontroller som är lätta att hitta. Section 508 kräver också att användarkontroller för undertexter och syntolkning finns på samma nivå som volymkontroller eller play/pause-knappar.

Autouppspelning är en vanlig tillgänglighetsrisk som förtjänar särskild uppmärksamhet. Videor som startar automatiskt kan vara frustrerande för många användare och utgör allvarliga problem för tittare med uppmärksamhetsstörningar, autism eller synnedsättning som är beroende av skärmläsare – innehåll som spelas upp automatiskt kan störa skärmläsarens output, skapa förvirring och hindra åtkomst. Inaktivera autouppspelning som standard för alla video-inbäddningar, och om du måste använda det, se till att volymen startar avstängd och att en pausfunktion är omedelbart tillgänglig.

När du bäddar in tredjepartsvideo (YouTube, Vimeo, Wistia, etc.), bekräfta att plattformens inbäddningskod hanterar tangentbordsfokus korrekt och att iframen har ett meningsfullt title-attribut så att skärmläsaranvändare vet vad de interagerar med innan de navigerar in i spelaren:

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

Att bygga ett arbetsflöde för tillgänglig video

Det mest hållbara sättet att arbeta med videotillgänglighet är inte åtgärder i efterhand – det är att integrera tillgänglighet i din produktions- och publiceringsprocess från början. Kostnaden för att i efterhand anpassa ett stort videobibliotek kan vara betydande; kostnaden för att bygga det rätt från början är marginell i jämförelse.

Ett praktiskt arbetsflöde ser ut så här. Under förproduktionen skriver du ett detaljerat manus. Ett komplett manus är grunden för alla efterföljande tillgänglighetsresurser – undertexter, transkriptioner och manus för syntolkning blir dramatiskt enklare när bra källmaterial finns. Under produktionen minimerar du bakgrundsljud, använder tydligt tal och säkerställer att text på skärmen, grafik och meningsfulla visuella handlingar beskrivs muntligt där det är möjligt. Detta minskar behovet av syntolkning avsevärt.

Efterproduktionen är där tillgänglighetsresurserna tas fram. Använd det AI-verktyg för undertexter du föredrar för att generera ett första utkast, låt det sedan granskas och korrigeras av en människa – särskilt för teknisk terminologi, egennamn och domänspecifikt språk där AI-transkription är som mest benägen att göra fel. Skapa den beskrivande transkriptionen genom att kombinera din undertextfil med beskrivningar av meningsfull visuell information. Ta fram syntolkningsljud med antingen intern speakerröst eller en professionell AD-tjänst.

För organisationer med stora befintliga videobibliotek, prioritera åtgärder efter användning. Börja med dina mest besökta videor, introduktions- och utbildningsmaterial, produktdemonstrationer och alla videor som är inbäddade på sidor som ingår i konverteringstrattar. Påbörja tillgänglighetsgranskningar nu, prioritera material med hög användning först och bygg sedan in tillgänglighet i alla nya videoarbetsflöden framåt.

Ett vanligt, kostsamt misstag är att behandla undertexter som en leverabel i slutskedet – något som läggs till precis före publicering. Bygg in granskning av undertexter i din QA-checklista på samma sätt som du skulle kontrollera videoenkodning eller miniatyrbilder. En timmes arbete vid rätt punkt i arbetsflödet sparar många timmars åtgärder senare.

Affärsnyttan: Bortom efterlevnad

Tillgänglig video är bättre video för alla tittare, inte bara för dem med funktionsnedsättning. Data på denna punkt är övertygande. En nationell forskningsstudie med 2 124 studenter från 15 olika högskolor och universitet fann att 98,6% av studenterna tycker att undertexter är hjälpsamma. 71% av studenter utan hörselproblem använder undertexter åtminstone ibland, och 66% av ESL-studenter tycker att undertexter är ”mycket” eller ”extremt” hjälpsamma.

Påverkan på engagemang är likaså betydande. Facebook fann att undertexter ökade videovisningar med 12% jämfört med videor utan undertexter; en separat studie uppmätte en 40% ökning av visningar för videor med undertexter och fann att tittare var 80% mer benägna att se en video till slutet när closed captions fanns tillgängliga.

SEO-fördelarna läggs ovanpå engagemangsfördelarna. Videotranskriptioner hjälper till att maximera SEO eftersom de ger sökmotorer sammanhang – detta kan innebära att videor får högre synlighet på sökmotorernas resultatsidor när en användare skriver in en relaterad sökning. Transkriptioner gör det också enkelt att skapa blogginlägg, nyhetsbrev eller inlägg i sociala medier från dina videor – vilket förvandlar ett enda videoinnehåll till en multikanalstillgång till minimal extra kostnad.

Slutligen, beakta den långsiktiga demografiska utvecklingen. Världshälsoorganisationen uppskattar att till år 2050 kommer nästan 2,5 miljarder människor att ha någon grad av hörselnedsättning, och 1 av 10 kommer att ha betydande hörselnedsättning. Publiken som är beroende av tillgänglig video krymper inte. Varje investering du gör i videotillgänglighet idag ger ränta på ränta i takt med att den publiken växer.

Viktiga slutsatser

Undertexter är obligatoriska för allt förinspelat och direktsänt synkroniserat innehåll enligt WCAG 2.1 nivå AA. Automatiskt genererade undertexter är bara en startpunkt – bästa branschpraxis kräver 99% noggrannhet, vilket innebär att mänsklig granskning av AI-output är icke förhandlingsbar för allt innehåll som är publikt.
Transkriptioner rekommenderas starkt för all video även där de inte strikt krävs, eftersom de betjänar dövblinda användare, förbättrar SEO genom att ge sökmotorer genomsökningsbar text och gynnar alla tittare som föredrar att skumma eller referera till innehåll i textform.
Syntolkning krävs på WCAG nivå AA för förinspelad video som innehåller meningsfull visuell information som inte förmedlas via ljud. Testa genom att stänga ögonen – om du missar viktigt innehåll behövs syntolkning.
Din videospelare måste vara tangentbordsåtkomlig med korrekt märkta kontroller för undertexter och syntolkning. En otillgänglig spelare undergräver alla andra investeringar i tillgänglighet du har gjort i själva innehållet.
Affärsnyttan med videotillgänglighet är stark i sig: videor med undertexter får avsevärt fler visningar och fullföljanden, transkriptioner förbättrar SEO-ranking, och 80% av undertextanvändarna har ingen hörselnedsättning – tillgänglig video når en bredare publik på varje mått som är viktigt för din organisation.

Göra videor tillgängliga: textning, transkriptioner och syntolkning