WCAG 1.2.3: Ljudbeskrivning eller mediealternativ (förinspelat)

WCAG 1.2.3 kräver att förinspelade synkroniserade medier (video med ljud) antingen tillhandahåller en ljudbeskrivning av det visuella innehållet eller ett fullständigt textalternativ, så att användare som är blinda eller har nedsatt syn kan ta del av information som förmedlas visuellt.

Vad den här regeln innebär

WCAG:s framgångskriterium 1.2.3 tar upp en av de mest grundläggande barriärerna för blinda och synsvaga användare som konsumerar videoinnehåll: förlusten av visuell information som aldrig uttalas. Kriteriet anger att för allt förinspelat synkroniserat media — det vill säga videoinnehåll ihopkopplat med ljud — måste webbskapare tillhandahålla antingen en ljudbeskrivning av den visuella delen eller ett fullständigt mediealternativ i textform.

En ljudbeskrivning är en berättarröst som läggs till i videons ljudspår och beskriver viktiga visuella detaljer som inte kan förstås enbart utifrån huvudljudet. Dessa beskrivningar infogas vanligtvis under naturliga pauser i dialogen, eller så kan videon pausas tillfälligt för att ge berättaren tid att beskriva komplexa visuella händelser. Om till exempel en utbildningsvideo visar en presentatör som ritar en diagram på en whiteboard utan att kommentera det verbalt, skulle en ljudbeskrivning berätta vad som ritas och varför det är viktigt.

Ett fullständigt textalternativ för media är ett dokument som återger all information i det synkroniserade mediet — både ljudinnehållet (dialog, berättarröst, ljudeffekter) och det visuella innehållet (handlingar, miljöer, text på skärmen, identifiering av talare) — i textform. Detta är en mer omfattande version av ett transkript; det måste beskriva visuella händelser tillräckligt exakt för att en användare som varken kan se eller höra videon ska kunna förstå all information som videon förmedlar.

Detta kriterium gäller specifikt för förinspelat synkroniserat media. Direktsända videoströmmar behandlas av andra kriterier (1.2.4 för undertexter), och ljudinnehåll utan video omfattas av 1.2.1. Viktigt är att om videospåret är rent dekorativt — till exempel en animerad bakgrund som inte förmedlar någon information — gäller inte kriteriet. På samma sätt, om ljudspåret i en video redan fullt ut beskriver all meningsfull visuell information (en situation som ibland kallas ”ekvivalent ljud”), krävs ingen ytterligare ljudbeskrivning.

För att klara 1.2.3 krävs att minst ett av följande är sant för varje förinspelat synkroniserat media: en ljudbeskrivning tillhandahålls, eller ett textalternativ som återger all ljud- och visuellt information är länkat eller direkt intill mediet. Ett fel uppstår när videoinnehåll innehåller meningsfulla visuella element — text på skärmen, grafiska data, ansiktsuttryck som förmedlar viktig känsla, demonstrationssteg — som inte återges genom något ljud- eller textalternativ.

Observera att 1.2.3 är ett krav på nivå A, vilket gör det till en grundläggande förväntan. Det mer robusta kriteriet på nivå AA, 1.2.5 (Audio Description — Prerecorded), kräver ljudbeskrivningar i alla fall där de behövs, medan 1.2.3 tillåter textalternativet som ersättning på nivå A.

Varför det är viktigt

Enligt Världshälsoorganisationen har cirka 2,2 miljarder människor världen över någon form av synnedsättning. För användare som är blinda är videoinnehåll utan ljudbeskrivning eller textalternativ helt otillgängligt som källa till visuell information. En skärmläsare kan meddela att ett videoelement finns och kan läsa upp eventuella tillhörande undertexter, men den kan inte tolka videobildernas visuella innehåll. Utan en ljudbeskrivning eller ett mediealternativ missar dessa användare helt enkelt allt som videon visar men inte säger.

Överväg ett konkret scenario: en turkisk e-handelsplattform publicerar en produktdemonstrationsvideo för en smart hemapparat. Videon visar en presentatör som parar ihop enheten med en mobilapp, navigerar i menyer på båda skärmarna och ansluter kablar till specifika portar. Presentatörens berättelse fokuserar på enhetens fördelar men beskriver inte vilka knappar som trycks på eller vilka menyval som görs. En blind användare som tittar på videon med en skärmläsare hör bara berättarrösten — hen får ingen av den procedurmässiga visuella information som skulle göra det möjligt att återskapa installationen hemma. Med en ljudbeskrivning eller ett detaljerat textalternativ får den användaren full tillgång till samma instruktioner.

Utöver blinda användare gynnas användare med kognitiva funktionsnedsättningar av detaljerade textalternativ, eftersom de kan bearbeta skriftliga instruktioner lättare än en snabb video. De gynnar också användare i bandbreddsbegränsade miljöer som inte kan strömma video, användare på företagsnätverk där video är blockerad, och användare vars enheter eller webbläsare inte stöder vissa videoformat. Sökmotorer indexerar också textalternativ, vilket innebär att tillhandahållandet av dem förbättrar SEO genom att göra videoinnehåll sökbart via fulltextsökning — en betydande affärsnytta utöver tillgänglighetsvärdet.

För motoriskt funktionsnedsatta användare som inte kan hantera videokontroller exakt, gör ett textalternativ det möjligt att ta del av innehållet i egen takt utan att behöva kämpa med paus-, spola tillbaka- eller uppspelningskontroller. Sammanfattningsvis tjänar ljudbeskrivningar och mediealternativ en bred användargrupp och förbättrar den övergripande kvaliteten och räckvidden för videoinnehåll långt bortom de användare som strikt sett behöver dem för att få tillgång.

Relaterade Axe-core-regler

WCAG 1.2.3 kräver manuell testning. Det finns ingen axe-core-regel som automatiskt flaggar ett brott mot detta kriterium, och att förstå varför hjälper till att klargöra vad testare måste leta efter manuellt.

Manuell testning krävs — analys av visuellt innehåll: Automatiserade verktyg kan upptäcka förekomsten av ett <video>-element, ett <track>-element eller en länk till ett tillhörande transkript, men de kan inte bedöma om innehållet i en ljudbeskrivning eller ett textalternativ är tillräckligt. Tillräcklighet beror på om all meningsfull visuell information återges — en bedömning som kräver att en människa tittar på videon, läser alternativet och jämför dem. En axe-skanning kan bekräfta att ett <track kind='descriptions'>-element finns, men kan inte verifiera att beskrivningarna faktiskt täcker alla kritiska visuella händelser i videon.
Manuell testning krävs — bedömning av ekvivalens: Att avgöra om huvudljudspåret redan beskriver all visuell information (vilket gör en ytterligare ljudbeskrivning onödig) är i grunden en innehållsbedömning. En mänsklig granskare måste titta på videon och bedöma om en blind användare som bara lyssnar på ljudet skulle missa någon meningsfull information. Ingen automatiserad regel kan göra denna bedömning pålitligt.
Manuell testning krävs — fullständighet i textalternativ: Om ett textalternativ (fullständigt mediealternativ) tillhandahålls istället för en ljudbeskrivning, måste en människa läsa textalternativet och jämföra det med videon för att bekräfta att alla visuella händelser, texter på skärmen och meningsfulla handlingar finns med. Automatiserade verktyg kan kontrollera att en länk till ett transkript finns, men kan inte bedöma om transkriptet är komplett och korrekt.

Hur man testar

Automatiserad skanningsbaslinje: Kör axe DevTools eller Google Lighthouse mot sidan som innehåller videon. Även om inget av verktygen direkt flaggar ett brott mot 1.2.3, kan skanningen lyfta fram relaterade problem som saknade <track>-element (flaggas under 1.2.2 för undertexter) eller saknade textalternativ för bildbaserat media. Notera alla videoelement på sidan så att du vet vilka som kräver manuell granskning enligt 1.2.3.
Identifiera synkroniserat media: Lokalisera varje <video>-element (eller inbäddad tredjepartsspelare som YouTube- eller Vimeo-iframes) på sidan. Bekräfta om varje video är förinspelad och synkroniserad (dvs. har både ljud- och videospår som är meningsfulla). Om en video endast har ljud eller har ett dekorativt videospår faller den utanför 1.2.3:s tillämpningsområde.
Titta på videon med ljudet på: Titta på videon normalt och var särskilt uppmärksam på all information som förmedlas visuellt men inte beskrivs i ljudet. Vanliga exempel är: textöverlägg på skärmen, diagram eller grafer som ritas, steg-för-steg-demonstrationer av en fysisk process, ansiktsuttryck eller kroppsspråk som bär känslomässig betydelse, och identifiering av talare när flera personer syns i bild.
Kontrollera om det finns ett ljudbeskrivningsspår: Inspektera videoelementets markup efter ett <track kind='descriptions'>-element. Om det finns, aktivera beskrivningarna i videospelaren (eller använd en webbläsare som visar dem) och titta på videon igen. Verifiera att varje meningsfull visuell händelse som identifierats i steg 3 beskrivs i ljudbeskrivningsspåret vid en lämplig tidpunkt.
Kontrollera om det finns ett fullständigt textalternativ: Om inget ljudbeskrivningsspår finns, leta efter en länk till ett transkript eller ett fullständigt mediealternativ intill eller direkt efter videon. Bekräfta att det länkade dokumentet eller den inbäddade texten beskriver allt ljudinnehåll (dialog, berättarröst, relevanta ljudeffekter) och allt visuellt innehåll (handlingar, text på skärmen, miljöbeskrivningar, identifiering av talare).
Verifiering med skärmläsare (NVDA + Firefox): Öppna sidan med NVDA igång. Navigera till videoelementet och bekräfta att NVDA meddelar att videon finns och eventuella tillhörande kontroller. Om ett textalternativ tillhandahålls inbäddat eller via en länk, navigera till det och bekräfta att NVDA läser upp hela innehållet utan utelämnanden. Observera: NVDA kan inte läsa videobildernas visuella innehåll, vilket understryker varför den mänskliga jämförelsen i steg 3 är avgörande.
Verifiering med skärmläsare (VoiceOver + Safari på macOS): Aktivera VoiceOver och navigera till videon. Använd VoiceOvers rotor för att hitta videoelementet och eventuella tillhörande track- eller länk-element. Bekräfta att beskrivningsspåret, om det finns, är tillgängligt via Safaris mediakontroller.
Tredjepartsspelare: För inbäddade YouTube-videor, kontrollera om videon har en version med ljudbeskrivning (ofta en separat video länkad i beskrivningen) eller om ett tillhörande transkript finns och är länkat på den inbäddande sidan. För Vimeo, kontrollera videons tillgänglighetsinställningar. Tredjepartsspelare uppfyller inte automatiskt 1.2.3 — sidans ägare ansvarar för att ett alternativ tillhandahålls eller länkas.

Hur man åtgärdar

Scenario 1: HTML5-video utan ljudbeskrivning — Felaktigt

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Scenario 1: HTML5-video med ljudbeskrivningsspår — Korrekt

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Scenario 2: HTML5-video utan textalternativ — Felaktigt

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Scenario 2: HTML5-video med ett fullständigt mediealternativ — Korrekt

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Scenario 3: Inbäddad YouTube-video utan kompletterande alternativ — Felaktigt

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Scenario 3: Inbäddad YouTube-video med länkat textalternativ — Korrekt

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Scenario 4: Video vars ljud redan beskriver allt visuellt innehåll (undantag) — Korrekt

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Vanliga misstag

Att tillhandahålla undertexter istället för en ljudbeskrivning: Undertexter återger det talade ljudet för döva användare; de beskriver inte visuellt innehåll för blinda användare. Att lägga till ett <track kind='captions'>-element uppfyller 1.2.2 men uppfyller inte 1.2.3. Detta är två separata krav som riktar sig till två olika grupper av funktionsnedsättningar.
Att länka ett transkript som bara täcker dialog: Ett textalternativ för 1.2.3 måste beskriva allt meningsfullt visuellt innehåll — text på skärmen, diagram, fysiska handlingar, identifiering av talare — inte bara det som sägs. Ett transkript som endast bygger på manus misslyckas vanligtvis med detta kriterium om videon innehåller information som bara är visuell.
Att placera länken till textalternativet långt från videon: Om det fullständiga mediealternativet göms i en fotnot eller på en separat sida utan en tydlig, närliggande länk, kanske användare inte hittar det. Länken bör visas direkt före eller efter videoelementet så att skärmläsaranvändare stöter på den i naturlig läsordning.
Att anta att YouTubes autogenererade transkript uppfyller kriteriet: Autogenererade YouTube-transkript täcker bara det talade ljudet. De beskriver inte visuellt innehåll och är ofta felaktiga. De utgör inte ett tillräckligt fullständigt mediealternativ enligt 1.2.3.
Att använda ett <track kind='descriptions'>-element men lämna VTT-filen tom eller ofullständig: Förekomsten av track-elementet är inte tillräcklig; VTT-filen måste innehålla korrekta, tidsatta beskrivningar av alla meningsfulla visuella händelser. En tom eller mycket bristfällig VTT-fil uppfyller inte kriteriet.
Att inte beskriva textöverlägg på skärmen: Marknadsföringsvideor visar ofta statistik, produktnamn eller uppmanande text som animerade överlägg. Om dessa överlägg inte läses upp av en berättare måste de finnas med i ljudbeskrivningen eller textalternativet — författare förbiser dem ofta.
Att skriva ljudbeskrivningar som är för vaga: Beskrivningar som ”presentatören demonstrerar processen” är otillräckliga. Effektiva beskrivningar namnger specifika handlingar, gränssnittselement, färger där de är meningsfulla, och rumsliga relationer: ”Presentatören klickar på den röda knappen Delete på höger sida av verktygsfältet och bekräftar sedan genom att välja OK i dialogrutan.”
Att inte tillhandahålla ett alternativ för videor som spelas upp automatiskt eller bakgrundsvideor som innehåller information: En video som spelas upp automatiskt och visar viktig information (till exempel en hero-sektion som visar produktfunktioner med textöverlägg) är fortfarande synkroniserat media och kräver efterlevnad om den förmedlar meningsfullt innehåll.
Att behandla dekorativa videor som undantagna utan verifiering: Team märker ibland en video som ”dekorativ” för att undvika kravet, även när den faktiskt förmedlar produktinformation eller instruktionsinnehåll. Undantaget för dekorativa videor gäller endast när videon verkligen inte tillför någon meningsfull information utöver det som redan finns i intilliggande text.
Att glömma att uppdatera ljudbeskrivningen eller textalternativet när videon uppdateras: Om videoinnehållet ändras — till exempel att produktsteg revideras eller prisuppgifter uppdateras — måste ljudbeskrivningen och textalternativet uppdateras så att de stämmer. Föråldrade alternativ är ett brott mot kraven även om de ursprungliga alternativen var korrekta.

Relation till Turkiets tillgänglighetsreglering

Turkiets presidentcirkulär 2025/10, publicerat i Officiella tidningen nr 32933 den 21 juni 2025, fastställer obligatoriska webbtillgänglighetsstandarder för ett brett spektrum av offentliga och privata aktörer verksamma i Turkiet. Cirkuläret hänvisar till internationellt erkända tillgänglighetsstandarder, där WCAG 2.2 nivå A och nivå AA fungerar som teknisk baslinje för efterlevnad. Eftersom WCAG 1.2.3 är ett krav på nivå A är det en av de mest grundläggande skyldigheterna enligt cirkuläret — det finns ingen lägre efterlevnadsnivå som tillåter organisationer att bortse från det.

Cirkuläret omfattar ett brett spektrum av aktörstyper. Offentliga institutioner och statliga organ — inklusive ministerier, kommuner, statliga universitet och andra offentliga myndigheter — måste uppnå efterlevnad inom ett år från cirkulärets publiceringsdatum. Privata aktörer som omfattas av cirkuläret inkluderar e-handelsplattformar, banker och finansiella institutioner, sjukhus och privata vårdgivare, telekomföretag med 200,000 eller fler abonnenter, auktoriserade resebyråer, privata transportföretag och privatskolor som godkänts av Ministry of National Education (MoNE). Dessa privata aktörer har två år från publiceringsdatumet på sig att uppnå efterlevnad.

För alla omfattade aktörer som publicerar videoinnehåll — vilket idag inkluderar i princip alla större turkiska institutioner och företag — skapar WCAG 1.2.3 en konkret, verkställbar skyldighet. En bank som publicerar videotutorials som förklarar hur man använder sin mobilapp, ett offentligt sjukhus som lägger upp videoguider för patientregistrering, en telekomoperatör som delar reklamfilmer med prisplansjämförelser på skärmen, eller en e-handelssajt som inkluderar produktdemonstrationsvideor måste alla säkerställa att varje förinspelat synkroniserat media åtföljs av en ljudbeskrivning eller ett fullständigt textalternativ.

Bristande efterlevnad av cirkulärets krav kan leda till tillsynsåtgärder och skadat anseende, och i takt med att den turkiska tillsynen av digital tillgänglighet mognar, även rättslig risk för omfattade aktörer. Organisationer bör betrakta WCAG 1.2.3 inte som en valfri förbättring utan som en grundläggande juridisk skyldighet. I praktiken innebär detta att genomföra en inventering av allt videoinnehåll, bedöma vilka videor som innehåller information som endast är visuell, och systematiskt ta fram ljudbeskrivningar eller fullständiga textalternativ för alla sådana videor. Nya videoproduktionsflöden bör inkludera tillgänglighetsleverabler — manus för beskrivningar och textalternativ — som standardutdata vid sidan av undertexter och textning.

Källor och referenser

Relaterade artiklar

AWCAG 1.1.1: Icke-textinnehåll AWCAG 1.2.1: Endast ljud och endast video (förinspelat)AWCAG 1.2.2: Textning (förinspelat)