WCAG 1.2.7: Rozszerzony audiodeskrypcja (nagrane wcześniej)

WCAG 1.2.7 wymaga, aby w sytuacjach, gdy przerwy w dźwięku pierwszoplanowym są niewystarczające do przekazania wszystkich informacji wizualnych, dla uprzednio nagranych zsynchronizowanych mediów zapewniono rozszerzone opisy dźwiękowe — realizowane poprzez wstrzymywanie wideo. Zapewnia to, że osoby niewidome i słabowidzące mogą w pełni zrozumieć złożone treści wizualne, których standardowe opisy dźwiękowe nie są w stanie objąć.

Co oznacza ta zasada

Kryterium sukcesu WCAG 1.2.7 — Rozszerzony audiodeskrypcja (nagrania) działa na poziomie AAA i bezpośrednio opiera się na wymaganiu poziomu AA z SC 1.2.5 (Audiodeskrypcja dla nagrań). Podczas gdy standardowa audiodeskrypcja wykorzystuje jedynie naturalne pauzy w ścieżce dźwiękowej wideo do narracji informacji wizualnych, rozszerzona audiodeskrypcja idzie dalej: gdy te pauzy są zbyt krótkie lub zbyt rzadkie, aby pomieścić wszystkie niezbędne opisy, wideo zostaje wstrzymane, odtwarzana jest audiodeskrypcja, a następnie wideo jest wznawiane.

Kryterium dotyczy konkretnie uprzednio nagranych mediów zsynchronizowanych — czyli treści wideo, które mają ścieżkę dźwiękową zsynchronizowaną z obrazem, takich jak filmy instruktażowe, korporacyjne materiały szkoleniowe, filmy dokumentalne, prezentacje produktów i podobne treści. Nie dotyczy mediów na żywo, treści wyłącznie dźwiękowych ani treści wyłącznie wideo, w których nie ma ścieżki dźwiękowej.

Zaliczenie tego kryterium wymaga jednego z następujących rozwiązań: (a) zapewniona jest ścieżka lub wersja mediów z rozszerzoną audiodeskrypcją, która wstrzymuje odtwarzanie, aby dostarczyć opisy kluczowych informacji wizualnych, które nie mieszczą się w naturalnych pauzach, lub (b) wszystkie informacje wizualne są już przekazane przez istniejącą ścieżkę dźwiękową bez potrzeby dodatkowej audiodeskrypcji (czasem nazywane wersją „równoważnie opisaną”). Niezaliczenie ma miejsce, gdy uprzednio nagrane zsynchronizowane wideo zawiera istotne informacje wizualne — takie jak tekst na ekranie, diagramy, wyraz twarzy napędzający narrację czy demonstracje — które nie są przekazane ani poprzez audiodeskrypcję w naturalnych pauzach, ani poprzez rozszerzone opisy, a sama istniejąca ścieżka dźwiękowa pozostawia użytkownika niewidomego bez tych informacji.

WCAG przewiduje również ważny wyjątek: jeśli dane media same w sobie są alternatywą medialną dla tekstu — na przykład wideo będące wersją dokumentu tekstowego, wyraźnie jako takie oznaczone — wówczas rozszerzona audiodeskrypcja nie jest wymagana. Dodatkowo, jeśli dźwięk pierwszoplanowy już w pełni opisuje całą treść wizualną, nie jest potrzebna żadna dodatkowa audiodeskrypcja.

Warto zauważyć, że zapewnienie rozszerzonej audiodeskrypcji często wymaga przygotowania całkowicie oddzielnej wersji wideo, ponieważ większość odtwarzaczy multimedialnych nie obsługuje natywnie mechanizmu wstrzymywania i wznawiania odtwarzania na potrzeby dostarczania opisów. Typowe podejścia obejmują dedykowaną „wersję z audiodeskrypcją” dostępną pod osobnym adresem URL lub za pomocą przycisku przełączającego w odtwarzaczu, albo użycie odtwarzacza obsługującego ścieżki rozszerzonej audiodeskrypcji oparte na TTML (Timed Text Markup Language) lub SMIL.

Dlaczego to ma znaczenie

Rozszerzona audiodeskrypcja jest kluczowa dla użytkowników, którzy są niewidomi lub mają poważne zaburzenia widzenia — grupy większej, niż wielu deweloperów zakłada. Według Światowej Organizacji Zdrowia około 2,2 miliarda ludzi na świecie ma jakąś formę upośledzenia wzroku, z czego co najmniej 1 miliard doświadcza schorzeń, którym można było zapobiec lub które pozostają nieleczone. Dla użytkowników, którzy całkowicie polegają na czytnikach ekranu i wyjściu dźwiękowym, wideo opisujące tylko to, na co pozwalają jego naturalne pauzy, może pozostawiać ogromne luki w zrozumieniu.

Rozważmy medyczne wideo szkoleniowe demonstrujące technikę chirurgiczną. Lektor może powiedzieć: „Teraz wykonujemy nacięcie tutaj”, podczas gdy kamera przybliża konkretny punkt anatomiczny, a ręce chirurga wykonują precyzyjny manewr. Mówiona narracja zakłada, że widz widzi kontekst wizualny. Standardowa audiodeskrypcja może być w stanie wstawić krótką uwagę podczas krótkiej pauzy, ale jeśli akcja jest ciągła przez dwie minuty z nieprzerwanym komentarzem, niewidomy student medycyny otrzymuje niemal żadnych szczegółów wizualnych, które są kluczowe dla nauki techniki. Rozszerzona audiodeskrypcja wstrzymuje wideo i dostarcza pełny opis: widocznej anatomii, dokładnego narzędzia, kąta podejścia, reakcji tkanek. Student ma wówczas równoważny dostęp do materiału dydaktycznego.

Poza osobami niewidomymi, rozszerzona audiodeskrypcja przynosi korzyści użytkownikom z niepełnosprawnościami poznawczymi, którzy przetwarzają informacje wolniej i korzystają z dodatkowego kontekstu, jaki zapewnia opisowa narracja. Pomaga także użytkownikom w kontekstach wyłącznie dźwiękowych — na przykład osobie słuchającej wideo szkoleniowego w trakcie dojazdu — którzy nie mogą patrzeć na ekran niezależnie od swoich możliwości wzrokowych.

Z biznesowego i prawnego punktu widzenia zapewnienie rozszerzonych audiodeskrypcji sygnalizuje poważne, mierzalne zaangażowanie w inkluzywność. Dla organizacji w sektorach regulowanych — instytucji publicznych, banków, podmiotów ochrony zdrowia, placówek edukacyjnych — wykazanie zgodności z poziomem AAA w przypadku złożonych treści multimedialnych może w istotny sposób zmniejszyć ryzyko prawne i reputacyjne. Istnieje także praktyczna korzyść SEO: skrypty używane do tworzenia rozszerzonych audiodeskrypcji często pełnią rolę bogatych transkryptów, które wyszukiwarki indeksują jako wartościową treść, poprawiając wykrywalność zasobów wideo.

Powiązane reguły Axe-core

WCAG 1.2.7 wymaga ręcznego testowania, ponieważ narzędzia automatyczne nie są w stanie ocenić semantycznej treści wideo, porównać ścieżki dźwiękowej z obrazem ani określić, czy informacje wizualne są odpowiednio opisane. Nie istnieje reguła axe-core, która mogłaby „obejrzeć” wideo, zrozumieć, co jest przedstawione wizualnie, i ocenić, czy rozszerzona audiodeskrypcja jest obecna, poprawna i kompletna. Jest to zasadniczo zadanie wymagające ludzkiego osądu.

Ręczna ocena — porównanie treści wizualnej z dźwiękową: Tester musi obejrzeć wideo z otwartymi oczami oraz z zamkniętymi oczami (lub używając czytnika ekranu) i ustalić, czy sam dźwięk — włącznie z ewentualną standardową audiodeskrypcją — przekazuje wszystkie istotne informacje wizualne. Jeśli nie, tester musi sprawdzić, czy dostępna jest wersja z rozszerzoną audiodeskrypcją. Narzędzia automatyczne nie mogą wykonać takiego porównania, ponieważ nie potrafią interpretować klatek wideo jako znaczących zdarzeń wizualnych ani powiązać ich z semantycznym znaczeniem w dźwięku.
Ręczna ocena — mechanizm wstrzymywania i wznawiania: Jeśli twierdzi się, że dostępna jest rozszerzona audiodeskrypcja, tester musi zweryfikować, czy odtwarzacz faktycznie wstrzymuje odtwarzanie podczas dostarczania opisów i poprawnie je wznawia. To zachowanie zależy od odtwarzacza i czasu odtwarzania i wymaga aktywnego testowania przez człowieka, ponieważ skanery automatyczne nie wykonują ani nie obserwują stanów odtwarzania mediów.
Ręczna ocena — poprawność i kompletność opisów: Nawet jeśli istnieje ścieżka rozszerzonej audiodeskrypcji, jej treść musi być poprawna i obejmować wszystkie krytyczne informacje wizualne. Żadna reguła automatyczna nie jest w stanie ocenić, czy tekst opisu poprawnie i w pełni odzwierciedla to, co jest pokazane na ekranie. Opis mówiący „prelegent wskazuje na tablicę”, gdy na tablicy znajduje się kluczowy diagram z opisanymi punktami danych, nie spełnia tego kryterium, mimo że technicznie opis jest obecny.

Jak testować

Najpierw uruchom automatyczne skanowanie dostępności. Użyj axe DevTools (rozszerzenie przeglądarki) lub Lighthouse na stronie zawierającej wideo. Choć żadne z tych narzędzi nie może bezpośrednio zweryfikować zgodności z rozszerzoną audiodeskrypcją, mogą one wskazać brakujące lub uszkodzone elementy multimedialne, brakujące elementy track i inne problemy strukturalne. Zanotuj wszelkie ostrzeżenia dotyczące treści multimedialnych jako punkt wyjścia. Axe może oznaczyć brak ścieżki napisów lub audiodeskrypcji na poziomie elementu, co zawęża zakres ręcznego przeglądu.
Zidentyfikuj wszystkie uprzednio nagrane media zsynchronizowane na stronie. Zlokalizuj każdy element <video> lub osadzony odtwarzacz multimedialny (iframe YouTube, osadzenia Vimeo, niestandardowe odtwarzacze). Potwierdź, że każdy z nich zawiera zsynchronizowany dźwięk i obraz. Czyste podcasty audio lub nieme wideo są poza zakresem tego kryterium.
Obejrzyj wideo, korzystając tylko z dźwięku. Zamknij oczy lub użyj czytnika ekranu (NVDA z Firefoxem, VoiceOver z Safari lub JAWS z Chrome) i wysłuchaj całego wideo, włącznie z ewentualną istniejącą ścieżką audiodeskrypcji. Zanotuj każdy moment, w którym brakuje ci zrozumienia tego, co dzieje się wizualnie — działań, tekstu na ekranie, diagramów, przejść między scenami, wyrazu twarzy postaci napędzających narrację.
Porównaj swoje notatki z obrazem. Teraz obejrzyj wideo z wyciszonym dźwiękiem i zanotuj wszystkie informacje wizualne pojawiające się na ekranie. Porównaj je z tym, co usłyszałeś. Jeśli istotne treści wizualne nie zostały przekazane w dźwięku, wideo wymaga audiodeskrypcji. Jeśli naturalne pauzy w dźwięku były zbyt krótkie lub nieobecne, aby pomieścić te opisy, wymagana jest rozszerzona audiodeskrypcja.
Sprawdź, czy istnieje wersja z rozszerzoną audiodeskrypcją. Poszukaj wyraźnie oznaczonego linku „Wersja z audiodeskrypcją”, przełącznika w odtwarzaczu wideo lub wersji z opisem pod alternatywnym adresem URL. Jeśli jest dostępna, włącz ją i powtórz kroki 3 i 4 z odtwarzaną wersją opisaną, weryfikując, że pauzy i opisy obejmują teraz brakujące informacje wizualne.
Przetestuj zachowanie wstrzymywania i wznawiania z NVDA + Firefox. Podczas odtwarzania wersji z rozszerzoną audiodeskrypcją potwierdź, że wideo się zatrzymuje, audiodeskrypcja jest wyraźnie odtwarzana, a wideo wznawia się z właściwego momentu. Zweryfikuj, że czytnik ekranu ogłasza opisywaną treść lub że jest ona w inny sposób słyszalna dla użytkownika niewidomego.
Przetestuj z VoiceOver + Safari na macOS/iOS. Powtórz test odtwarzania. Upewnij się, że wersja opisana jest obsługiwana za pomocą nawigacji klawiaturą (Tab, Spacja, Enter) i że VoiceOver poprawnie ogłasza elementy sterujące odtwarzaczem, w tym ewentualny przełącznik audiodeskrypcji.
Zweryfikuj poprawność skryptu opisów. Uzyskaj skrypt rozszerzonej audiodeskrypcji lub transkrypt, jeśli jest dostępny. Porównaj go z wideo, aby potwierdzić, że jest faktycznie poprawny, obejmuje wszystkie kluczowe zdarzenia wizualne i nie pomija informacji, z których korzystałby widz widzący, aby zrozumieć treść.

Jak naprawić

Scenariusz 1: Wideo bez jakiejkolwiek audiodeskrypcji — Niepoprawne

<!-- A training video with no audio description track and no described version link.
     Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>

Scenariusz 1: Wideo z wersją z rozszerzoną audiodeskrypcją — Poprawne

<!-- Provide a clearly labeled link to the extended described version.
     The described version pauses at critical moments to deliver full visual descriptions.
     This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
  <a href='surgical-technique-extended-described.mp4'>
    Watch extended audio described version of this video
  </a>
</p>

Scenariusz 2: Osadzone wideo YouTube z szybką akcją wizualną — Niepoprawne

<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
     but there is no audio description, and the visual demonstrations are rapid
     with no natural pauses long enough for description. -->
<iframe
  width='560'
  height='315'
  src='https://www.youtube.com/embed/EXAMPLE_ID'
  title='Product demonstration video'
  allowfullscreen>
</iframe>

Scenariusz 2: Osadzone wideo z przełącznikiem wersji opisanej — Poprawne

<!-- Offer a button that swaps the src to the extended described version.
     The described version was produced as a separate MP4 with pauses built in.
     The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
  <iframe
    id='demo-video-frame'
    width='560'
    height='315'
    src='https://www.youtube.com/embed/EXAMPLE_ID'
    title='Product demonstration video'
    allowfullscreen>
  </iframe>
  <p>
    <button
      type='button'
      aria-pressed='false'
      onclick='toggleDescribedVersion(this)'>
      Enable extended audio description
    </button>
  </p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
     to the described YouTube video ID and updates aria-pressed. -->

Scenariusz 3: Odtwarzacz wideo HTML5 ze zbyt krótką ścieżką opisów — Niepoprawne

<!-- A descriptions track exists but its cue text is truncated to fit within
     existing audio pauses. Key visual information (a data chart with five labeled
     columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->

Scenariusz 3: Oddzielna wersja z rozszerzoną audiodeskrypcją i pełną narracją — Poprawne

<!-- The extended described version pauses playback at the chart moment
     and delivers: 'A bar chart titled Annual Revenue by Region appears.
     Five bars are shown: Europe 2.1 million, Asia 3.4 million,
     North America 4.8 million, South America 1.2 million, Africa 0.9 million.
     North America leads all regions.' The video then resumes. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
  <strong>Extended audio described version:</strong>
  <a href='annual-report-extended-described.mp4'>
    Annual report video with extended audio descriptions
  </a>
</p>

Typowe błędy

Traktowanie ścieżki napisów jako substytutu audiodeskrypcji: Napisy przekazują mówiony dialog i efekty dźwiękowe jako tekst dla osób niesłyszących. Nie opisują treści wizualnych dla osób niewidomych. Wideo z samą ścieżką napisów nadal nie spełnia tego kryterium, jeśli informacje wizualne nie są opisane w dźwięku.
Zapewnienie standardowej ścieżki audiodeskrypcji bez sprawdzenia, czy pauzy są wystarczające: Wiele zespołów dodaje element <track kind='descriptions'> i uznaje zadanie za wykonane, nie weryfikując, czy każde istotne zdarzenie wizualne ma pauzę wystarczająco długą, by zmieścił się opis. Szybkie demonstracje, złożone diagramy i gęsty tekst na ekranie zazwyczaj wymagają rozszerzonych opisów.
Opisywanie tylko oczywistych zmian wizualnych i pomijanie tekstu na ekranie: Tekst na ekranie — tytuły slajdów, etykiety pól formularzy, osie wykresów, etykiety przycisków pokazywane w demonstracji — musi być odczytany w całości w trakcie audiodeskrypcji. Powiedzenie „pojawia się slajd” zamiast odczytania tytułu slajdu i kluczowych punktów pozostawia krytyczne informacje niedostępne.
Linkowanie do wersji opisanej bez wyraźnej, programowo określanej nazwy dostępnej: Link o treści „kliknij tutaj” lub „wersja opisana” bez etykiety identyfikującej, którego wideo dotyczy, narusza WCAG 2.4.6 i powoduje zamieszanie u użytkowników czytników ekranu nawigujących po stronie z wieloma filmami.
Używanie przycisku przełączającego wersję opisaną bez aktualizowania aria-pressed lub zapewnienia informacji zwrotnej: Jeśli przycisk przełącza między standardowym a opisanym odtwarzaniem, musi używać aria-pressed (true/false) lub równoważnego komunikatu w regionie live, aby użytkownicy czytników ekranu wiedzieli, jaki jest aktualny stan i że ich działanie odniosło skutek.
Przygotowanie wersji z rozszerzoną audiodeskrypcją bez testowania poprawności wznawiania: Po przerwie na opis wideo musi wznowić się dokładnie z miejsca, w którym zostało zatrzymane — nie z nieco wcześniejszej ani późniejszej klatki. Nieprawidłowe punkty wznowienia powodują utratę kontekstu narracyjnego i potęgują dezorientację użytkowników niewidomych.
Zakładanie, że sam transkrypt wideo spełnia to kryterium: Transkrypt jest wartościowy i wspiera SC 1.2.8 (Alternatywa medialna), ale nie spełnia 1.2.7. Rozszerzona audiodeskrypcja jest mechanizmem zsynchronizowanym w czasie i dostarczanym w formie audio, a nie osobnym dokumentem do samodzielnego czytania.
Niedopisywanie informacji wizualnych, które nadają scenie emocjonalne lub narracyjne znaczenie: Jeśli wyraz twarzy postaci, mowa ciała lub reakcja wizualna są kluczowe dla zrozumienia tego, co się dzieje — na przykład w wideo z opinią klienta — pominięcie tego opisu pozostawia użytkowników niewidomych bez równoważnego zrozumienia, nawet jeśli dialog mówiony jest kompletny.
Brak aktualizacji wersji opisanej po aktualizacji głównego wideo: Jeśli materiał źródłowy jest ponownie montowany, aktualizowany lub zastępowany (co jest częste w treściach instruktażowych), ścieżka lub wersja z rozszerzoną audiodeskrypcją również musi zostać zaktualizowana. Nieaktualne opisy mogą aktywnie wprowadzać w błąd, opisując sceny, które już nie istnieją.
Osadzanie wideo za pomocą zewnętrznych iframe (YouTube, Vimeo) i zakładanie, że platforma zajmie się audiodeskrypcją: Audiodeskrypcje dostarczane przez platformę (tam, gdzie istnieją) rzadko są opisami rozszerzonymi. Właściciel treści jest odpowiedzialny za zapewnienie istnienia wersji z rozszerzoną audiodeskrypcją i za to, by była ona podlinkowana lub dostępna ze strony, na której wideo jest osadzone.

Związek z tureckimi regulacjami dotyczącymi dostępności

Turecka Okrężnica Prezydencka 2025/10, opublikowana w Dzienniku Urzędowym nr 32933 w dniu 21 czerwca 2025 r., ustanawia obowiązki w zakresie dostępności dla określonej grupy dostawców usług cyfrowych. Okrężnica nakazuje zgodność ze standardami dostępności dla produktów i usług cyfrowych oferowanych publicznie, ogólnie dostosowując się do WCAG 2.1 poziom AA jako podstawowego wymogu zgodności.

Typy podmiotów objętych okrężnicą obejmują instytucje i agencje publiczne, platformy e-commerce, banki i instytucje finansowe, szpitale i podmioty ochrony zdrowia, operatorów telekomunikacyjnych z 200,000 lub większą liczbą abonentów, licencjonowane biura podróży, prywatne firmy transportowe oraz szkoły prywatne upoważnione przez Ministerstwo Edukacji Narodowej (MoNE). Dla tych podmiotów zgodność z WCAG 2.1 poziom AA stanowi egzekwowalne minimum.

WCAG 1.2.7 (Rozszerzona audiodeskrypcja) jest kryterium poziomu AAA, co oznacza, że nie jest bezpośrednio wymagane przez podstawowe wymogi okrężnicy. Jednak jego znaczenia nie należy bagatelizować w tureckim kontekście regulacyjnym z kilku powodów. Po pierwsze, organizacje produkujące złożone treści multimedialne — takie jak podmioty ochrony zdrowia publikujące wideo szkoleniowe z zakresu chirurgii, instytucje publiczne udostępniające filmy wyjaśniające polityki czy szkoły prywatne rozpowszechniające edukacyjne treści wideo — mają silne etyczne i praktyczne podstawy, by wdrażać rozszerzoną audiodeskrypcję w swoich najważniejszych materiałach, nawet bez ścisłego wymogu prawnego.

Po drugie, w miarę dojrzewania tureckich regulacji dotyczących dostępności cyfrowej i wzmacniania mechanizmów egzekwowania, kryteria poziomu AAA są coraz częściej przywoływane jako wskaźniki praktyk na najwyższym poziomie. Organizacje, które dobrowolnie wykazują zgodność z poziomem AAA — szczególnie w obszarach o wysokiej wadze, takich jak zdrowie, edukacja i finanse — są lepiej przygotowane na przyszłe aktualizacje regulacyjne i mają mniejsze ryzyko skarg w ramach szerszych ram antydyskryminacyjnych.

Po trzecie, dla nadawców publicznych i organizacji medialnych — nawet jeśli nie są bezpośrednio wymienione w okrężnicy 2025/10 — Turecka Najwyższa Rada Radia i Telewizji (RTÜK) historycznie zajmowała się kwestiami dostępności treści nadawanych. Rozszerzona audiodeskrypcja jest zgodna z duchem tych obowiązków, gdy jest stosowana do wideo na żądanie i treści dystrybuowanych w sieci.

Organizacje korzystające z Accsible widget SDK powinny być świadome, że choć nakładkowy widget może udostępniać użytkownikom funkcje i elementy sterujące związane z dostępnością, sama rozszerzona audiodeskrypcja musi być zaimplementowana na poziomie produkcji treści — nie może zostać automatycznie dodana przez narzędzie po stronie klienta. SDK może jednak udostępnić przełącznik wersji opisanej lub link w panelu dostępności, czyniąc tę alternatywną wersję bardziej dostępną dla użytkowników, którzy jej potrzebują.

Źródła i odniesienia

Powiązane artykuły

AWCAG 1.1.1: Treści nietekstowe AWCAG 1.2.1: Tylko audio i tylko wideo (nagranie)AWCAG 1.2.2: Napisy (nagrania wcześniej przygotowane)