WCAG 1.2.1: Endast ljud och endast video (förinspelat)

WCAG 1.2.1 kräver att förinspelat innehåll som enbart består av ljud eller enbart av video har ett textbaserat eller mediebaserat alternativ så att användare som inte kan höra eller se mediet ändå kan ta del av informationen. Detta är ett krav på nivå A, vilket innebär att det är den lägsta grundnivån för efterlevnad av webbtillgänglighet.

Vad den här regeln innebär

WCAG 1.2.1 behandlar två olika typer av tidsbaserade medier: endast ljud (till exempel ett poddavsnitt, ett inspelat telefonmeddelande eller ett musikspår som förmedlar meningsfull information) och endast video (till exempel en tyst instruktionsanimation eller ett produktdemoklipp utan röst). Kriteriet kräver att varje av dessa medietyper åtföljs av ett likvärdigt alternativ som gör samma information tillgänglig för personer som inte kan uppfatta det ursprungliga formatet.

För förinspelat innehåll med endast ljud är det nödvändiga alternativet en texttranskription. Transkriptionen måste fånga alla uttalade ord, identifiera talare där det är relevant och beskriva all meningsfull icke-verbal ljudinformation (såsom applåder, larm eller musik som har informationsvärde). Det är inte tillräckligt att bara tillhandahålla en titel eller en kort beskrivning; transkriptionen måste vara en fullständig textmässig motsvarighet till allt som en lyssnare skulle höra.

För förinspelat innehåll med endast video (video utan ljudspår, eller med ett ljudspår som inte innehåller någon meningsfull information) är det nödvändiga alternativet antingen en texttranskription eller ett ljudbeskrivningsspår. En ljudbeskrivning återger det visuella innehållet – beskriver handlingar på skärmen, scenbyten, text som visas på skärmen och andra visuella detaljer – så att en blind eller synnedsatt användare kan förstå innehållet enbart genom ljud.

Ett godkänt resultat kräver att alternativet är tydligt kopplat till mediet, lätt att hitta och fullt likvärdigt i informationsinnehåll. Alternativet kan tillhandahållas direkt på sidan, som ett länkat dokument eller som ett kompletterande ljudspår, så länge det är lättillgängligt från samma sida eller spelarkomponent.

Ett underkänt resultat uppstår när: inget alternativ tillhandahålls alls; alternativet är ofullständigt eller utelämnar meningsfull information; alternativet finns men är så svårt att hitta att det i praktiken kräver att användaren redan vet att det finns; eller alternativet beskriver mediet utan att återge dess faktiska innehåll (till exempel att skriva ”presentatören förklarar hur man återställer enheten” i stället för att tillhandahålla de faktiska steg-för-steg-instruktionerna).

WCAG 1.2.1 innehåller ett officiellt undantag: om innehåll med endast ljud eller endast video i sig fungerar som ett medialternativ till text som redan finns på sidan, och detta tydligt anges, krävs inget ytterligare alternativ. Till exempel kan en kort video som visuellt demonstrerar exakt det som en närliggande skriftlig handledning redan beskriver i sin helhet vara undantagen, förutsatt att märkningen gör relationen tydlig för alla användare.

Det är också viktigt att notera att detta kriterium endast omfattar förinspelat innehåll – direktsända strömmar med endast ljud eller endast video hanteras separat under WCAG 1.2.9 och omfattas inte här. Innehåll som innehåller både ljud och video (synkroniserade medier) omfattas av WCAG 1.2.2 (Textning) och 1.2.3 (Ljudbeskrivning eller medialternativ), inte 1.2.1.

Varför det är viktigt

Innehåll med endast ljud och endast video skapar hinder för flera olika användargrupper, och att förstå varje grupps upplevelse är avgörande för att förstå varför detta kriterium finns på en grundläggande nivå A.

Döva och hörselskadade användare kan inte ta del av informationen i förinspelat innehåll med endast ljud utan en texttranskription. För en person som är gravt döv sedan födseln är en poddintervju, en inspelad kundserviceförklaring eller ett svar i form av endast ljud i en FAQ helt otillgängligt – som om innehållet inte existerade. Enligt Världshälsoorganisationen upplever över 1,5 miljarder människor världen över någon grad av hörselnedsättning, varav cirka 430 miljoner behöver rehabilitering. Enbart i Turkiet visar undersökningar att miljontals medborgare lever med betydande hörselnedsättning, varav många förlitar sig på turkiskt teckenspråk eller skriven text som sitt primära kommunikationssätt.

Blinda och synnedsatta användare är den primära målgruppen för alternativ till endast video. En tyst video om produktmontering, en dataanimationsvisualisering eller en handledning som enbart är visuell är meningslös när den endast förmedlas genom att en skärmläsare meddelar att det finns ett videoelement. Utan en ljudbeskrivning eller texttranskription får dessa användare ingen information alls från innehållet.

Användare med kognitiva och inlärningssvårigheter har ofta nytta av att information finns i flera format. En person med dyslexi kan tycka att det är lättare att lyssna på en ljudbeskrivning än att läsa en lång visuell sekvens, medan en annan användare kan föredra en steg-för-steg-skriftlig transkription som de kan läsa om i sin egen takt. Att tillhandahålla alternativ stödjer ett bredare spektrum av sätt att bearbeta information.

Situations- och miljöbegränsningar skapar också ett brett användbarhetsargument som sträcker sig långt bortom användare med permanenta funktionsnedsättningar. Någon i ett tyst bibliotek eller ett kontorslandskap kan inte spela upp ljudinnehåll och har stor nytta av en transkription. En användare med långsam mobil uppkoppling som inte kan buffra en video kan läsa textalternativet direkt. En användare som inte har språket i ljudet som modersmål kan tycka att det är mycket lättare att läsa en transkription än att följa talat innehåll i högt tempo.

Föreställ dig ett konkret scenario i verkligheten: en turkisk banks webbplats publicerar en förinspelad ljudguide som förklarar hur man aktiverar ett nytt betalkort. En kund som är döv får denna guide som en del av sitt välkomstmejl. Utan en transkription har hen inget sätt att slutföra aktiveringen utan att ringa en supportlinje – en process som i sig kan innebära tillgänglighetshinder. Att tillhandahålla en välstrukturerad texttranskription eliminerar detta beroende helt och hållet och ger kunden likvärdig service.

Ur ett SEO-perspektiv är texttranskriptioner fullt indexerbara av sökmotorer. Ljud- och videoinnehåll utan transkriptioner innebär en missad möjlighet till organisk synlighet i sökresultat. En transkription som publiceras tillsammans med ett poddavsnitt eller en instruktionsvideo fördubblar i praktiken det genomsökningsbara innehållet på sidan och kan avsevärt förbättra nyckelordsrelevansen för sökfrågor relaterade till mediets ämne.

Relaterade Axe-core-regler

WCAG 1.2.1 kräver manuell testning eftersom automatiserade verktyg inte kan utvärdera innehållet eller fullständigheten i ett medialternativ. En automatiserad skanner kan upptäcka förekomsten av ett <video>- eller <audio>-element, men den kan inte avgöra om en länkad transkription korrekt återger allt i ljudspåret, eller om en ljudbeskrivning täcker alla meningsfulla visuella händelser. Nedan följer de överväganden som är relevanta för axe-cores angreppssätt på detta kriterium.

Det finns ingen dedikerad automatiserad axe-core-regel för WCAG 1.2.1. Axe-core och Deques axe DevTools-motor markerar detta kriterium som något som kräver manuell granskning. Detta är ett medvetet och korrekt designval: regeln skulle generera en oacceptabel mängd falska positiva eller falska negativa resultat om den automatiserades. En skanner kan inte ”läsa” en ljudfil eller ”titta på” en video för att verifiera att en transkription är fullständig och korrekt. Därför bör alla granskningsverktyg som påstår sig automatiskt godkänna eller underkänna WCAG 1.2.1 utan mänsklig granskning betraktas med skepsis.
Vad automatiserade verktyg kan markera som stödjande signaler: Vissa verktyg, inklusive axe i best practice-läge, kommer att markera <audio>- och <video>-element som saknar associerat textinnehåll i den omedelbara DOM-kontexten. Detta är en användbar signal för manuell granskning, men en positiv markering betyder inte att transkriptionen är tillräcklig, och avsaknaden av en markering betyder inte att transkriptionen finns – en länkad transkription på en annan sida skulle inte vara synlig för skannern på elementnivå.
Manuell testning krävs eftersom: Utvärdering av detta kriterium kräver en mänsklig granskare som kan ta del av ljud- eller videoinnehållet i sin helhet och sedan jämföra det rad för rad med det tillhandahållna alternativet för att bekräfta likvärdighet. Granskaren måste också bedöma om alternativet är lätt att hitta från medieelementet, vilket kräver att man navigerar på sidan som en användare skulle göra – något som inga nuvarande automatiserade verktyg kan efterlikna på ett tillförlitligt sätt.

Hur man testar

Kör en automatiserad skanning som startpunkt. Använd axe DevTools, Lighthouse eller panelen Accsible audit för att skanna sidan. Leta efter eventuella markerade <audio>- eller <video>-element i resultaten. Observera att ett rent automatiserat resultat inte bekräftar efterlevnad av 1.2.1 – det betyder bara att inga uppenbara strukturella problem upptäcktes. Använd skanningen för att skapa en inventering av alla medieelement på sidan som behöver manuell granskning.
Identifiera allt förinspelat innehåll med endast ljud och endast video. Granska manuellt sidans källkod och renderade utdata. Leta efter <audio>-element, <video>-element där videospåret inte innehåller något meningsfullt ljud, inbäddade mediaspelare (såsom SoundCloud- eller Spotify-widgets) och alla <iframe>-element som laddar ljud- eller videoinnehåll från en tredjepartskälla.
För varje element med endast ljud, lokalisera den associerade transkriptionen. Transkriptionen kan finnas direkt på sidan, i en hopfällbar sektion eller länkad via en länk nära spelaren. Navigera till transkriptionen och läs den i sin helhet samtidigt som du lyssnar på ljudet. Bekräfta att varje uttalat ord är återgivet, att alla talare identifieras där det är relevant och att alla meningsfulla icke-verbala ljudhändelser beskrivs.
För varje element med endast video, lokalisera det associerade alternativet. Avgör om en texttranskription eller ett ljudbeskrivningsspår tillhandahålls. Om ett ljudbeskrivningsspår används, aktivera det i mediaspelaren och titta på videon medan du lyssnar på beskrivningen. Bekräfta att alla meningsfulla visuella händelser – handlingar, scenbyten, text på skärmen, grafisk information – beskrivs med tillräcklig detalj för att en blind användare ska kunna förstå innehållet utan att se videon.
Testa med en skärmläsare för att verifiera upptäckbarhet. Använd NVDA med Firefox, VoiceOver med Safari på macOS/iOS eller JAWS med Chrome, och navigera till medieelementet enbart med tangentbordet (Tabb, piltangenter). Utan att använda mus, verifiera att du kan hitta länken till transkriptionen eller ljudbeskrivningen från mediaspelaren enbart med tangentbordsnavigering och skärmläsarens uppläsning. Om alternativet inte kan nås utan mus underkänns kriteriet, även om innehållet i alternativet i övrigt är tillräckligt.
Kontrollera undantaget för märkning. Om en transkription eller ett alternativ saknas, kontrollera om medieelementet uttryckligen är märkt som ett medialternativ till intilliggande textinnehåll på samma sida. Om så är fallet, bekräfta att den omgivande texten är en fullständig motsvarighet till medieinnehållet och att märkningen är uppfattbar för alla användare.

Hur man åtgärdar

Podd eller inspelad berättarröst med endast ljud – Felaktigt

<!-- No transcript provided; the audio content is completely inaccessible
     to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
  Your browser does not support the audio element.
</audio>

Podd eller inspelad berättarröst med endast ljud – Korrekt

<!-- A full text transcript is provided immediately after the player,
     making it discoverable by keyboard and screen reader users
     without requiring any additional navigation -->
<figure>
  <figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
  <audio controls src='welcome-guide.mp3'>
    Your browser does not support the audio element.
  </audio>
</figure>
<details>
  <summary>Read the full transcript of this audio guide</summary>
  <div>
    <p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
    To begin, locate the 16-digit card number on the front of your card.</p>
    <p><strong>Narrator:</strong> Enter this number in the field provided on
    the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
    <p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
  </div>
</details>

Tyst instruktionsvideo (endast video) – Felaktigt

<!-- Silent animation with no audio description or text transcript.
     A blind user navigating with a screen reader will only hear
     "video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>

Tyst instruktionsvideo (endast video) med texttranskription – Korrekt

<!-- A text transcript describing all meaningful visual actions is
     linked immediately below the video player. The link text clearly
     communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
  <source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
  <a href='assembly-transcript.html'>
    View the full text description of this assembly video
  </a>
</p>

Tyst video med inbäddat ljudbeskrivningsspår – Korrekt

<!-- For users who prefer audio, a described audio track is offered
     as a <track> element with kind='descriptions'.
     The text transcript link is also retained for deaf-blind users
     and those using text-only browsing. -->
<video controls width='640' height='360'>
  <source src='product-demo-silent.mp4' type='video/mp4'>
  <track
    kind='descriptions'
    src='product-demo-descriptions.vtt'
    srclang='en'
    label='Audio Description (English)'
  >
  <track
    kind='descriptions'
    src='product-demo-descriptions-tr.vtt'
    srclang='tr'
    label='Sesli Betimleme (Türkçe)'
  >
</video>
<p>
  <a href='product-demo-transcript.html'>
    Read the full text description of this product demonstration
  </a>
</p>

Vanliga misstag

Att tillhandahålla en sammanfattning i stället för en fullständig transkription. Att skriva ett kort stycke som ”Detta ljud förklarar vår återbetalningspolicy” är inte ett likvärdigt alternativ. Transkriptionen måste återge det faktiska innehållet – varje mening, varje instruktion, varje meningsfull detalj – så att en användare som inte kan höra ljudet inte går miste om något genom att läsa transkriptionen i stället.
Att utelämna icke-verbala ljudhändelser i transkriptioner. Om en inspelning innehåller en varningssignal, publikjubel, en dörrklocka eller bakgrundsmusik som signalerar en övergång, måste dessa noteras i transkriptionen med hakparenteser, såsom [alarm ljuder] eller [applåder]. Att utelämna dessa gör transkriptionen ofullständig ur informationssynpunkt.
Att placera transkriptionen på en helt separat sida utan en synlig, tangentbordsåtkomlig länk. Om en användare måste veta i förväg att en transkription finns och lämna mediasidan för att hitta den, har upptäckbarheten misslyckats. Länken till alternativet måste ligga direkt intill medieelementet och vara nåbar med tangentbord.
Att anta att ett <video>-element med ett tyst spår omfattas av textning. Textning (WCAG 1.2.2) avser talat ljud i synkroniserade medier. En helt tyst video – en som inte har något meningsfullt ljud alls – är innehåll med endast video och kräver sin egen textbeskrivning eller ljudbeskrivning enligt 1.2.1. Textning av tystnad ger ingen information.
Att använda autogenererade transkriptioner från tal-till-text-verktyg utan granskning. Maskingenererade transkriptioner från tjänster som YouTubes autoundertexter eller AI-transkriberings-API:er innehåller ofta fel i egennamn, tekniska termer och icke-standardiserat språk. Att publicera en ogranskad autotranskription som innehåller betydande fel uppfyller inte kriteriet, eftersom en felaktig transkription inte är ett likvärdigt alternativ.
Att inte identifiera talare i ljudinspelningar med flera personer. En transkription som framstår som ett enda odifferentierat textblock, utan att ange vilken talare som pratar, är förvirrande och kan vara tvetydig i betydelsen. Talaretiketter bör användas konsekvent i alla inspelningar där mer än en röst förekommer.
Att behandla alt-attributet på en posterbild som ersättning för en videotranskription. alt-attributet på en <video>-posterbild beskriver den statiska miniatyrbilden, inte själva videoinnehållet. Det uppfyller inte kravet på ett medialternativ enligt 1.2.1 under någon tolkning.
Att tillhandahålla en ljudbeskrivning som bara beskriver miljön och ignorerar text på skärmen. Om en tyst video visar viktig text – stegnummer, etiketter, mått, felmeddelanden – måste ljudbeskrivningen eller transkriptionen läsa upp den texten uttryckligen. Att beskriva den visuella scenen utan att återge texten på skärmen lämnar kritisk information otillgänglig.
Att markera innehåll som undantaget utan att bekräfta att villkoret om full likvärdighet är uppfyllt. Undantaget för medialternativ till text gäller endast när texten på sidan är en fullständig motsvarighet till mediet. Om sidans text endast täcker en del av det som videon visar, gäller inte undantaget och ett alternativ krävs fortfarande för de delar som inte täcks av texten.
Att underlåta att tillhandahålla turkiska alternativ för medieinnehåll på turkiska. När innehåll med endast ljud eller endast video är på turkiska bör alternativet också vara på turkiska (eller åtminstone på målgruppens primära språk). Att endast tillhandahålla en engelsk transkription för ljudinnehåll på turkiska utgör inte ett likvärdigt alternativ för turkisktalande användare.

Relation till Turkiets tillgänglighetsreglering

Turkiets presidentcirkulär 2025/10, publicerat i den officiella tidningen med nummer 32933 den 21 juni 2025, fastställer ett obligatoriskt rättsligt ramverk för digital tillgänglighet i linje med WCAG 2.2. WCAG 1.2.1 är ett kriterium på nivå A, vilket placerar det i den mest grundläggande nivån av krav enligt detta cirkulär. Nivå A-efterlevnad representerar den absolut lägsta acceptabla standarden – brister på denna nivå betraktas som grundläggande hinder som helt förhindrar tillgång för berörda användare.

Cirkuläret gäller brett för både offentlig och privat sektor. Offentliga institutioner – inklusive alla ministerier, statliga myndigheter, kommuner och statligt ägda företag – måste uppnå full efterlevnad på nivå A inom ett år från cirkulärets publiceringsdatum. Privata aktörer som omfattas av cirkuläret ges en tvåårig övergångsperiod.

De privata aktörer som uttryckligen omfattas av presidentcirkulär 2025/10 inkluderar: e-handelsplattformar som är verksamma i Turkiet oavsett registreringsort; banker och finansiella institutioner som regleras enligt turkisk banklagstiftning; sjukhus och privata vårdgivare; telekomföretag med 200 000 eller fler abonnenter; resebyråer som är verksamma enligt turkiska turismtillstånd; privata persontransportföretag; och privata utbildningsinstitutioner som auktoriserats av ministeriet för nationell utbildning (MoNE).

För dessa aktörer har WCAG 1.2.1 direkta och praktiska konsekvenser. En bank som publicerar guider med endast ljud för sina mobila bankfunktioner utan transkriptioner, ett sjukhus som tillhandahåller tysta videohandledningar med endast video för patientintagsrutiner eller en telekomoperatör som använder inspelade meddelanden med endast ljud på sin supportsida utan textalternativ skulle alla vara i direkt strid med detta krav från och med den tidpunkt då deras respektive efterlevnadsfrist löper ut.

Bristande efterlevnad av cirkuläret kan leda till administrativa sanktioner och skada på anseendet, samt exponering för klagomål som lämnas in via Turkiets myndighet för informations- och kommunikationsteknik (BTK) och presidentkansliets kontor för digital transformation. Med tanke på att 1.2.1 är ett av de kriterier som är enklast att åtgärda – det kräver framtagning av en texttranskription eller ljudbeskrivning snarare än någon komplex teknisk förändring – bör organisationer prioritera en genomgång av alla tillgångar med endast ljud och endast video på sina digitala plattformar som ett tidigt och effektfullt steg i sina program för tillgänglighetsefterlevnad.

Innehållsteam, inte bara utvecklare, spelar en central roll i att uppnå efterlevnad av 1.2.1. Transkriptioner måste författas, granskas för korrekthet och underhållas i takt med att medieinnehåll uppdateras. Organisationer bör etablera redaktionella arbetsflöden som behandlar framtagning av transkriptioner som ett obligatoriskt steg i processen för innehållsproduktion och publicering, likvärdigt i betydelse med SEO-metadata eller innehållsgranskning – och bör säkerställa att dessa arbetsflöden omfattar medieinnehåll på turkiska tillsammans med alla andra språk som används på plattformen.

Källor och referenser

Relaterade artiklar

AWCAG 1.1.1: Icke-textinnehåll AWCAG 1.2.2: Textning (förinspelat)AWCAG 1.2.3: Ljudbeskrivning eller mediealternativ (förinspelat)