WCAG 3.1.6: Uttal

WCAG 3.1.6 kräver att en mekanism finns tillgänglig för att identifiera den specifika uttal av ord där betydelsen är tvetydig utan att känna till uttalet. Detta kriterium säkerställer att användare som är beroende av text-till-tal-teknik eller som stöter på obekant språk kan få tillgång till den korrekta betydelsen av tvetydigt innehåll.

Vad den här regeln innebär

WCAG 3.1.6 Pronunciation är ett framgångskriterium på nivå AAA under principen Förståelig. Den säger: "A mechanism is available for identifying specific pronunciation of words where meaning of the words, in context, is ambiguous without knowing the pronunciation."

Kärnkravet är att när ett ords betydelse helt beror på hur det uttalas – och det uttalet inte kan avgöras utifrån det omgivande sammanhanget – måste författare tillhandahålla ett sätt för användare att ta reda på det korrekta uttalet. Detta skiljer sig från att enbart ge en definition; kriteriet handlar specifikt om fonetiskt uttal som löser semantisk tvetydighet.

Kriteriet riktar in sig på situationer där samma teckenföljd kan läsas på flera sätt, där varje sätt ger en annan betydelse. Klassiska exempel på engelska inkluderar ordet "read" (presens, rimmar på "reed") kontra "read" (preteritum, rimmar på "red"), eller "wind" (rörlig luft, rimmar på "sinned") kontra "wind" (att linda, rimmar på "find"). I språk med mer komplexa skriftsystem eller tonala distinktioner – såsom japanska, kinesiska eller arabiska – är problemet ännu vanligare och mer betydelsefullt.

Turkiska, som till stor del är fonetiskt regelbundet jämfört med många andra språk, har ändå ord och lånord vars uttal kan vara oklart i specialiserade, tekniska eller formella sammanhang, särskilt för skärmläsaranvändare vars syntetiska talsyntesmotor kan betona fel eller uttala obekanta termer eller utländska lånord felaktigt.

Vad som räknas som godkänt: En sida är godkänd om det, där ett ord är tvetydigt utan att man känner till dess uttal, finns minst en av följande mekanismer:

En inlinje-fonetisk guide direkt intill ordet (t.ex. med HTML-elementet <ruby> och dess associerade taggar <rt> och <rp> för östasiatiska skriftsystem, eller en uttalsnyckel inom parentes i IPA eller ett annat erkänt notationssystem).
En länk till en ordlista eller uttalsguide som uttryckligen behandlar det tvetydiga ordet.
Ett ljudklipp med uttal kopplat till ordet.
Inlinjetext direkt före eller efter ordet som beskriver dess uttal på ett sätt som läsaren kan tolka (t.ex. "The word 'bass' here refers to the fish — pronounced like 'mass'").

Vad som räknas som underkänt: En sida är underkänd om ett ords betydelse verkligen är tvetydig utan att man hör det uttalas, och ingen mekanism finns för att lösa den tvetydigheten genom uttalsinformation. Att enbart ge en textdefinition som inte klargör uttalet är otillräckligt om betydelsen inte kan härledas enbart från definitionen utan att man vet hur ordet låter. Observera att om sammanhanget – såsom den omgivande meningen, rubriken eller bilden – redan gör uttalet tydligt, är kriteriet uppfyllt utan någon ytterligare mekanism.

Officiella undantag: WCAG-specifikationen begränsar uttryckligen detta kriterium till fall där tvetydighet föreligger utan att man känner till uttalet. Om den omgivande texten, visuella element eller semantiska struktur redan löser tvetydigheten entydigt, krävs ingen ytterligare uttalsmekanism. Kriteriet kräver inte fonetisk annotering för varje ord på varje sida – endast för de ord där betydelsen verkligen beror på ett uttal som inte kan utläsas ur sammanhanget.

Varför det är viktigt

Tvetydighet i uttal skapar betydande hinder för flera olika användargrupper, och effekten är särskilt stor för dem som inte kan förlita sig på visuella eller auditiva ledtrådar utanför den primära texten.

Blinda och synsvaga användare som förlitar sig på skärmläsare är den mest direkt påverkade gruppen. Skärmläsare omvandlar text till syntetiskt tal, och när ett ord har flera giltiga uttal med olika betydelser måste talsyntesmotorn göra ett val – och den väljer ofta fel. En användare som lyssnar på en finansiell artikel om "compound interest" kan höra "compound" uttalat identiskt med dess substantivform (en inhägnad yta), vilket skapar tillfällig eller långvarig förvirring. För användare som inte snabbt kan kasta en blick på det omgivande visuella sammanhanget kräver det omläsning eller att man söker förtydliganden på annat håll för att lösa denna förvirring. Enligt Världshälsoorganisationen har cirka 2,2 miljarder människor globalt någon form av synnedsättning, varav en betydande andel använder skärmläsarteknik som sitt primära sätt att få tillgång till digitalt innehåll.

Användare med kognitiva och inlärningssvårigheter, inklusive personer med dyslexi eller språkstörningar, förlitar sig ofta på talsyntesverktyg även när de har fungerande syn. För dessa användare kan ett felaktigt uttal av en homograf störa förståelsen på ett sätt som är svårt att återhämta sig från, särskilt när texten är teknisk eller obekant.

Döva och hörselskadade användare som använder teckenspråk som sitt primära språk kan möta skriven text på ett andra eller tredje språk. För dem kan en fonetisk representation av ett ord – även om de inte kan höra det – koppla den skrivna formen till ett känt begrepp mer tillförlitligt än enbart en textdefinition.

Icke-modersmålstalare och språkinlärare har stor nytta av uttalsstöd. En person som lär sig turkiska och stöter på en specialiserad medicinsk eller juridisk term, eller en utländsk teknisk term återgiven med turkisk translitteration, kanske inte vet om betoningen ligger på första eller andra stavelsen, vilket kan ändra betydelsen eller helt enkelt försvåra förståelsen.

Ett konkret scenario från verkligheten: Tänk dig en turkisk vårdportal som beskriver ett ingrepp där ordet "ileum" (en del av tunntarmen) förekommer tillsammans med innehåll som också refererar till ilium (ett bäckenben). På engelska låter dessa ord identiska i många dialekter. På en sida som läses upp av en skärmläsare skulle en patient som förbereder sig för operation och som är blind eller har nedsatt syn inte ha något sätt att skilja mellan de två termerna enbart utifrån ljud, om inte uttal eller fonetiskt sammanhang tillhandahålls. Detta är inte ett hypotetiskt extremfall – medicinsk dokumentation är ett högriskområde där sådana tvetydigheter kan orsaka verklig skada.

Det finns också SEO- och användbarhetsfördelar. Uttalsguider uppmuntrar användning av exakt, väldefinierad terminologi. Ordlistor med fonetiska annoteringar förbättrar "time-on-page"-mätvärden och minskar användarfrustration. Rikt strukturerat innehåll som förklarar terminologi tenderar att attrahera fler inkommande länkar och signalerar ämnesexpertis till sökmotorer.

Relaterade Axe-core-regler

WCAG 3.1.6 kräver endast manuell testning. Det finns inga automatiserade axe-core-regler som direkt motsvarar detta kriterium. Följande förklaring klargör varför automatisering inte pålitligt kan upptäcka överträdelser och vad testare måste leta efter manuellt.

Det finns ingen automatiserad regel för tvetydighet i uttal. Automatiska tillgänglighetstestmotorer som axe-core arbetar genom att skanna DOM:en efter strukturella mönster, saknade attribut, ogiltiga roller och andra regelbaserade villkor. Att avgöra om ett visst ord är tvetydigt utan att man känner till dess uttal kräver semantisk och språklig förståelse av innehållet – ett omdöme som beror på ordförråd, språk, domänkontext och läsarens bakgrund. Ingen nuvarande statisk analysmotor kan pålitligt avgöra att ordet "read" i en given mening är tvetydigt i uttal utan mänsklig tolkning av den omgivande betydelsen. Detta är anledningen till att WCAG själv erkänner att detta kriterium är svårt att testa programmatiskt och placerar det på nivå AAA.
Vad manuella testare måste kontrollera: Testare måste läsa igenom sidans innehåll med domänkunskap om de språk som används och markera alla ord där (a) två eller fler giltiga uttal finns, (b) varje uttal motsvarar en annan betydelse, och (c) det omgivande sammanhanget inte entydigt klargör vilken betydelse som avses. För varje markerat ord måste testaren sedan verifiera att en uttalsmekanism – fonetisk guide, ljudklipp, ordlistelänk eller kontextuell förklaring – finns och är tillgänglig.
Stickprov med skärmläsare: Testare som använder skärmläsare (NVDA, JAWS, VoiceOver, TalkBack) bör lyssna på innehållet och notera alla fall där den syntetiska rösten uttalar ett ord på ett sätt som strider mot den avsedda betydelsen i sammanhanget. Detta är en stark signal om att en uttalsmekanism behövs.

Hur man testar

Kör först en automatisk skanning (för baslinje): Använd axe DevTools eller Lighthouse för att göra en allmän tillgänglighetsgranskning av sidan. Även om inget av verktygen har en dedikerad regel för WCAG 3.1.6 kan skanningen lyfta fram relaterade språkproblem, såsom ett saknat eller felaktigt lang-attribut på <html>-elementet (WCAG 3.1.1) eller saknad språkindikering för textavsnitt på ett annat språk (WCAG 3.1.2). Dessa problem kan förvärra uttalsproblem genom att få skärmläsaren att använda helt fel språkmotor. Verifiera att <html lang='tr'> (eller rätt språkkod) finns och är korrekt.
Genomför en innehållsgranskning av homografer och tvetydiga termer: Med domänexpertis inom sidans ämnesområde och språk, läs igenom allt textinnehåll. Skapa en lista över ord som har flera uttal med olika betydelser. Var särskilt uppmärksam på: lånord från engelska, franska, arabiska eller andra språk som kanske inte följer standardiserade turkiska fonetiska regler; teknisk jargong inom medicin, juridik eller teknik; egennamn med icke självklar uttal; och ord som uttryckligen flaggats i redaktionell granskning som potentiellt förvirrande.
Testa med NVDA + Firefox: Öppna sidan i Firefox med NVDA igång. Använd NVDAs kontinuerliga läsläge (Insert + Nedåtpil) för att lyssna på hela sidan eller relevanta avsnitt. Notera alla ord som syntesen uttalar på ett sätt som kan missförstås. Kontrollera om någon uttalsmekanism (fonetisk annotering, ljudknapp, ordlistelänk) finns och om NVDA läser upp den tydligt.
Testa med JAWS + Chrome: Upprepa lyssningstestet i Chrome med JAWS. JAWS och NVDA använder olika talsynteser och kan uttala samma ord olika, så båda testerna är värdefulla. Använd JAWS inställningar för detaljnivå för att säkerställa att alla inlinjeannoteringar och innehåll i <ruby>-element läses upp.
Testa med VoiceOver + Safari (macOS/iOS): Aktivera VoiceOver och navigera på sidan med Safari. Använd VO + A för att läsa sidan kontinuerligt. Apples talsyntes har sin egen uttalslogik; verifiera att eventuella <ruby>-annoteringar eller aria-label-överskrivningar exponeras korrekt.
Verifiera att uttalsmekanismen är tillgänglig: För varje uttalsmekanism på sidan, bekräfta att den kan nås enbart med tangentbord, att den annonseras av skärmläsare och att den uttalsinformation som ges faktiskt löser tvetydigheten (t.ex. är en IPA-transkription bara användbar om målgruppen kan läsa IPA; en lättförståelig fonetisk stavning som "pronounced: EYE-lee-um" kan vara mer allmänt hjälpsam).
Kontrollera ljudklipp med uttal: Om ljudklipp används, verifiera att de har tillgängliga kontroller (uppspelningsknapp med etikett, volymkontroll) och att transkriptioner eller textalternativ finns för döva användare som inte har nytta av ljud.

Hur man åtgärdar

Homograf i brödtext – felaktigt

<!-- The word "bass" is used in a music context, but its pronunciation
     is ambiguous (rhymes with "face" not "mass" in this context).
     No mechanism is provided to clarify. -->
<p>
  The bass guitar part in the recording was improvised live during
  the studio session.
</p>

Homograf i brödtext – korrekt

<!-- A parenthetical phonetic guide immediately resolves the ambiguity.
     Alternatively, a link to a glossary entry with an audio clip
     would also satisfy the criterion. -->
<p>
  The bass <span lang='en-x-phonetics'>(pronounced: "base", rhymes with "face")</span>
  guitar part in the recording was improvised live during the studio session.
</p>

Östasiatiskt eller ruby-annoterat skriftsystem – felaktigt

<!-- Japanese kanji without furigana: the reading of this compound
     is not clear to all readers and screen readers may mispronounce it. -->
<p>本日の<span>音楽</span>イベントへようこそ。</p>

Östasiatiskt eller ruby-annoterat skriftsystem – korrekt

<!-- The <ruby> element with <rt> provides the phonetic reading.
     <rp> provides fallback parentheses for browsers that do not
     support ruby annotations, ensuring backward compatibility. -->
<p>本日の
  <ruby>
    音楽
    <rp>(</rp>
    <rt>おんがく</rt>
    <rp>)</rp>
  </ruby>
イベントへようこそ。</p>

Teknisk term med tvetydigt uttal – felaktigt

<!-- "Ileum" and "ilium" sound identical when mispronounced by a TTS engine.
     No disambiguation mechanism is present in this medical content. -->
<p>
  The surgical procedure involves resection of the terminal ileum
  to treat the affected region.
</p>

Teknisk term med tvetydigt uttal – korrekt

<!-- A glossary link provides access to a page with an audio pronunciation
     clip and IPA notation, satisfying the criterion. The link text is
     descriptive so screen reader users understand where it leads. -->
<p>
  The surgical procedure involves resection of the terminal
  <a href='/glossary/ileum' aria-label='ileum — view pronunciation and definition'>ileum</a>
  to treat the affected region.
</p>

<!-- The linked glossary entry should contain: -->
<article id='glossary-ileum'>
  <h2>Ileum</h2>
  <p><strong>Pronunciation:</strong> ILL-ee-um (/ˈɪliəm/)</p>
  <audio controls aria-label='Audio pronunciation of ileum'>
    <source src='/audio/ileum.mp3' type='audio/mpeg'>
    Your browser does not support the audio element.
  </audio>
  <p><strong>Definition:</strong> The final section of the small intestine,
  connecting to the large intestine. Not to be confused with the ilium
  (a bone of the pelvis, pronounced identically).</p>
</article>

Lånord med icke-standardiserat uttal på turkiska – felaktigt

<!-- The English loanword "cache" is used in a Turkish tech article.
     Turkish TTS engines may pronounce this as "kah-sheh" or "kash"
     rather than the intended "kash". No guidance is provided. -->
<p>Tarayıcı cache dosyalarını temizlemek performansı artırabilir.</p>

Lånord med icke-standardiserat uttal på turkiska – korrekt

<!-- A phonetic clarification in parentheses uses familiar Turkish
     phonetic conventions to guide the reader. -->
<p>
  Tarayıcı cache
  <span class='pronunciation-guide' aria-label='telaffuz: keş'>
    (telaffuz: keş)
  </span>
  dosyalarını temizlemek performansı artırabilir.
</p>

Vanliga misstag

Att bara ge en textdefinition utan uttal: Att lägga till en tooltip eller ordlistedefinition som förklarar betydelsen av ett ord uppfyller inte WCAG 3.1.6 om definitionen i sig inte klargör uttalet. Till exempel lämnar en definition av "bass" som "a low-frequency sound or musical instrument" uttalet fortfarande tvetydigt; mekanismen måste specifikt ta upp hur ordet uttalas.
Att använda <ruby> utan <rp>-fallback-taggar: I webbläsare som inte har inbyggt stöd för ruby-annoteringar gör avsaknaden av <rp> (ruby-parenteser) att den fonetiska annoteringen försvinner helt. Inkludera alltid <rp>(</rp> och <rp>)</rp> runt varje <rt>-element så att användare på plattformar utan stöd fortfarande ser uttalstexten inlinje.
Att tillhandahålla ljudklipp utan tillgängliga kontroller eller textalternativ: En uttalsknapp i form av ljud som saknar etikett (t.ex. <button><img src='speaker.png'></button> utan alt eller aria-label) är otillgänglig för just de användare som behöver den mest. Varje ljudkontroll måste ha en beskrivande etikett, och uttalsinnehållet i ljudet måste också finnas i textform för döva användare.
Att anta att talsyntesmotorn kommer att uttala rätt: Många team hoppar över uttalsmekanismer eftersom deras interna testning (gjord visuellt eller auditivt av seende/hörande testare) inte avslöjar tvetydigheten. Att förlita sig på en talsyntesmotors heuristik för att välja rätt uttal av en homograf är inte en giltig tillgänglighetsstrategi; dessa heuristiker misslyckas regelbundet, särskilt för domänspecifikt eller flerspråkigt innehåll.
Att placera uttalsstöd för långt från ordet: Att länka till en webbplatsövergripande uttalsordlista längst ned på sidan eller i en hjälpsida uppfyller inte kriteriet om användare måste lämna innehållet för att hitta den, och därmed tappar sin läsposition. Mekanismen måste vara tydligt kopplad till det specifika tvetydiga ordet, antingen inlinje eller via en närliggande, tydligt märkt länk.
Att använda IPA-notation utan att ta hänsyn till målgruppen: International Phonetic Alphabet-transkriptioner är precisa men kan inte läsas av de flesta i en allmän publik. Om dina användare inte är språkproffs är lättförståeliga fonetiska omskrivningar ("pronounced: KAY-oss" för "chaos") mer praktiskt användbara. Att välja ett otillgängligt format för uttalsguiden undergräver hela syftet med att tillhandahålla en.
Att inte märka upp uttalsspann med lämpliga språkattribut: När du ger en fonetisk omskrivning på ett språk eller i ett notationssystem som skiljer sig från sidans primära språk, utelämna rätt lang-attribut på det omslutande elementet. Detta gör att skärmläsare tillämpar fel fonetiska regler på just den text som ska vägleda uttalet, vilket skapar ett dubbelt problem.
Att bara tillämpa kriteriet på brödtext och ignorera rubriker, navigation och UI-etiketter: Tvetydiga homografer kan förekomma i rubriker, knapptexter, länktexter, formuläretiketter och felmeddelanden. Dessa element läses ofta upp isolerat av skärmläsaranvändare som navigerar efter landmärke eller elementtyp, vilket gör kontextuell avtvydning ännu mindre tillförlitlig än i brödtext.
Att blanda ihop WCAG 3.1.3 (Ovanliga ord) med 3.1.6 (Uttal): WCAG 3.1.3 kräver mekanismer för ord som används på ett ovanligt eller specialiserat sätt. WCAG 3.1.6 riktar in sig på ett annat problem: ord vars själva betydelse beror på hur de uttalas. Ett ord kan kräva åtgärd enligt 3.1.6 även om det inte är ovanligt – "read" och "wind" är vanliga ord. Utgå inte från att uppfyllande av det ena kriteriet innebär att det andra också är uppfyllt.
Att inte testa med flera skärmläsare och talsynteser: Olika talsynteser (NVDAs eSpeak, JAWS Eloquence eller Vocalizer, Apples inbyggda röster) har olika uttalsheuristiker och hanterar homografer olika. Ett ord som en viss motor råkar uttala korrekt kan uttalas fel av en annan. Innehållsförfattare bör testa med minst två kombinationer av skärmläsare/webbläsare för att identifiera uttalsfel som påverkar verkliga användare.

Relation till Turkiets tillgänglighetsreglering

Turkiets presidentdekret 2025/10, publicerat i den officiella tidningen nr 32933 den 21 juni 2025, fastställer bindande krav på webbtillgänglighet för ett brett spektrum av aktörer som är verksamma i Turkiet. Cirkuläret kräver efterlevnad av WCAG 2.2-standarder, med primärt fokus på kriterier på nivå A och nivå AA för berörda aktörer. De aktörer som uttryckligen omfattas av cirkuläret inkluderar offentliga institutioner och myndigheter, e-handelsplattformar, banker och finansiella tjänsteleverantörer, sjukhus och vårdorganisationer, telekommunikationsföretag med 200,000 eller fler abonnenter, resebyråer, privata transportföretag och privatskolor som verkar med tillstånd från utbildningsministeriet (MoNE).

WCAG 3.1.6 Pronunciation är ett kriterium på nivå AAA och ingår därför inte bland de krav som är juridiskt bindande enligt cirkuläret. Berörda aktörer är inte skyldiga enligt cirkuläret att implementera uttalsmekanismer som en grundläggande efterlevnadsåtgärd. Cirkulärets övergripande syfte – att säkerställa att digitala tjänster verkligen kan användas av alla medborgare, inklusive personer med funktionsnedsättning – gynnas dock i hög grad av frivillig tillämpning av kriterier på nivå AAA där det är tekniskt och redaktionellt genomförbart.

För vissa kategorier av berörda aktörer är det praktiska argumentet för att implementera WCAG 3.1.6 särskilt starkt även utan ett rättsligt krav. Vårdsajter som drivs av sjukhus som omfattas av cirkuläret hanterar terminologi där tvetydighet i uttal kan orsaka verklig skada för patienter. Juridiska eller regulatoriska texter som publiceras av offentliga institutioner kan innehålla specialiserat ordförråd med icke självklar uttal som skapar hinder för skärmläsaranvändare. E-handelsplattformar som betjänar språkligt heterogena målgrupper – inklusive personer som inte har turkiska som modersmål – kan upptäcka att uttalsstöd minskar kundförvirring och avhopp.

Turkiska är ett fonetiskt regelbundet språk, vilket innebär att sambandet mellan stavning och uttal är mer konsekvent än i språk som engelska eller franska. Detta minskar (men eliminerar inte) omfattningen av arbete med WCAG 3.1.6 för turkiskspråkigt innehåll. Den stora förekomsten av engelska och franska lånord i turkiskt tekniskt, kommersiellt och digitalt innehåll – särskilt inom de sektorer som omfattas av cirkuläret – innebär dock att tvetydighet i uttal fortfarande är ett reellt problem. Ord som lånats in från andra språk följer inte alltid turkiska fonetiska konventioner och kan återges olika av turkiska talsynteser beroende på syntesmotorns konfiguration.

Organisationer som omfattas av cirkuläret och som strävar efter förstklassig tillgänglighet – eller som betjänar användare i flerspråkiga sammanhang, verkar inom högriskområden som hälsa eller finans, eller vill visa ledarskap inom tillgänglighet på den turkiska digitala marknaden – bör överväga WCAG 3.1.6 som en del av ett heltäckande tillgänglighetsprogram som går längre än miniminivån för juridisk efterlevnad. Att implementera uttalsmekanismer är en relativt kostnadseffektiv förbättring för de flesta innehållstyper och signalerar ett genuint engagemang för inkluderande design som ligger i linje med både cirkulärets anda och internationell bästa praxis.

Källor och referenser

Relaterade artiklar

AWCAG 1.1.1: Icke-textinnehåll AWCAG 1.2.1: Endast ljud och endast video (förinspelat)AWCAG 1.2.2: Textning (förinspelat)