WCAG 1.2.3: Audiodeskrypcja lub alternatywa dla mediów (nagranie)

WCAG 1.2.3 wymaga, aby uprzednio nagrane zsynchronizowane media (wideo z dźwiękiem) zapewniały albo audiodeskrypcję treści wizualnych, albo pełną alternatywę tekstową, tak aby osoby niewidome lub słabowidzące mogły uzyskać dostęp do informacji przekazywanych wizualnie.

Co Oznacza Ta Zasada

Kryterium sukcesu WCAG 1.2.3 dotyczy jednej z najbardziej fundamentalnych barier dla niewidomych i słabowidzących użytkowników korzystających z treści wideo: utraty informacji wizualnych, które nigdy nie są wypowiadane na głos. Kryterium stanowi, że dla wszystkich uprzednio nagranych mediów zsynchronizowanych — czyli treści wideo połączonych z dźwiękiem — autorzy stron muszą zapewnić albo audiodeskrypcję ścieżki wizualnej, albo pełną alternatywę medialną w formie tekstu.

Audiodeskrypcja to narracja dodana do ścieżki dźwiękowej wideo, która opisuje istotne szczegóły wizualne, których nie da się zrozumieć wyłącznie na podstawie głównego dźwięku. Opisy te są zazwyczaj wstawiane w naturalnych przerwach w dialogu lub wideo może zostać na chwilę wstrzymane, aby narrator miał czas opisać złożone zdarzenia wizualne. Na przykład, jeśli w filmie szkoleniowym prezenter rysuje diagram na tablicy, nie komentując go słownie, audiodeskrypcja opisałaby, co jest rysowane i dlaczego ma to znaczenie.

Pełna tekstowa alternatywa dla mediów to dokument, który przekazuje w formie tekstu wszystkie informacje zawarte w mediach zsynchronizowanych — zarówno treści dźwiękowe (dialog, narracja, efekty dźwiękowe), jak i treści wizualne (działania, scenerie, tekst na ekranie, identyfikacja mówców). Jest to bardziej rozbudowana wersja transkrypcji; musi opisywać zdarzenia wizualne na tyle precyzyjnie, aby użytkownik, który nie może ani widzieć, ani słyszeć wideo, mógł zrozumieć wszystkie informacje przekazywane przez film.

To kryterium dotyczy konkretnie uprzednio nagranych mediów zsynchronizowanych. Transmisje wideo na żywo są objęte innymi kryteriami (1.2.4 dla napisów), a treści wyłącznie dźwiękowe są objęte 1.2.1. Co istotne, jeśli ścieżka wideo ma charakter wyłącznie dekoracyjny — na przykład animowane tło, które nie przekazuje żadnych informacji — kryterium nie ma zastosowania. Podobnie, jeśli ścieżka dźwiękowa wideo już w pełni opisuje wszystkie istotne informacje wizualne (sytuacja czasem określana jako „równoważny dźwięk”), dodatkowa audiodeskrypcja nie jest wymagana.

Zaliczenie kryterium 1.2.3 wymaga, aby dla każdego elementu uprzednio nagranych mediów zsynchronizowanych spełniony był co najmniej jeden z następujących warunków: zapewniono audiodeskrypcję lub alternatywę tekstową, która przekazuje wszystkie informacje dźwiękowe i wizualne, powiązaną z mediami lub umieszczoną bezpośrednio obok nich. Niespełnienie kryterium ma miejsce, gdy treści wideo zawierają istotne elementy wizualne — tekst na ekranie, dane graficzne, wyraz twarzy przekazujący kluczowe emocje, kroki demonstracji — które nie są przekazane w żadnej formie dźwiękowej ani tekstowej.

Należy zauważyć, że 1.2.3 jest wymaganiem na poziomie A, co czyni je podstawowym oczekiwaniem. Bardziej rygorystyczne kryterium poziomu AA 1.2.5 (Audiodeskrypcja — nagrania uprzednie) wymaga audiodeskrypcji we wszystkich przypadkach, gdy jest ona potrzebna, podczas gdy 1.2.3 dopuszcza alternatywę tekstową jako substytut na poziomie A.

Dlaczego To Ma Znaczenie

Około 2,2 miliarda osób na świecie ma jakąś formę upośledzenia wzroku, według Światowej Organizacji Zdrowia. Dla użytkowników niewidomych treści wideo bez audiodeskrypcji lub alternatywy tekstowej są całkowicie niedostępne jako źródło informacji wizualnych. Czytnik ekranu może ogłosić, że na stronie znajduje się element wideo i odczytać powiązane napisy, ale nie jest w stanie zinterpretować treści wizualnej samych klatek wideo. Bez audiodeskrypcji lub alternatywy medialnej tacy użytkownicy po prostu tracą wszystko, co wideo pokazuje, ale czego nie mówi.

Rozważmy konkretny scenariusz: turecka platforma e-commerce publikuje film demonstracyjny produktu dla inteligentnego urządzenia domowego. Wideo pokazuje prezentera parującego urządzenie z aplikacją na smartfonie, nawigującego po menu na obu ekranach i podłączającego kable do konkretnych portów. Narracja prezentera koncentruje się na korzyściach z urządzenia, ale nie opisuje, które przyciski są naciskane ani które pozycje menu są wybierane. Niewidomy użytkownik oglądający ten film z czytnikiem ekranu słyszy jedynie narrację — nie otrzymuje żadnych proceduralnych informacji wizualnych, które pozwoliłyby mu odtworzyć konfigurację w domu. Dzięki audiodeskrypcji lub szczegółowej alternatywie tekstowej ten użytkownik zyskuje pełny dostęp do tych samych treści instruktażowych.

Poza użytkownikami niewidomymi, szczegółowe alternatywy tekstowe pomagają osobom z niepełnosprawnościami poznawczymi, które mogą łatwiej przetwarzać instrukcje pisemne niż szybko zmieniające się wideo. Korzystają z nich także użytkownicy w środowiskach o ograniczonej przepustowości, którzy nie mogą strumieniować wideo, użytkownicy w sieciach korporacyjnych, gdzie wideo jest blokowane, oraz użytkownicy, których urządzenia lub przeglądarki nie obsługują określonych formatów wideo. Wyszukiwarki indeksują również alternatywy tekstowe, co oznacza, że ich zapewnienie poprawia SEO, czyniąc treści wideo możliwymi do odnalezienia poprzez wyszukiwanie pełnotekstowe — to istotna korzyść biznesowa obok wartości dostępności.

Dla użytkowników z niepełnosprawnościami ruchowymi, którzy nie mogą precyzyjnie obsługiwać kontrolek wideo, alternatywa tekstowa pozwala konsumować treść we własnym tempie, bez zmagania się z przyciskami pauzy, przewijania czy odtwarzania. Krótko mówiąc, audiodeskrypcje i alternatywy medialne służą szerokiej grupie użytkowników i poprawiają ogólną jakość oraz zasięg treści wideo daleko poza osoby, które ściśle rzecz biorąc wymagają ich dla uzyskania dostępu.

Powiązane Reguły Axe-core

WCAG 1.2.3 wymaga testów manualnych. Nie istnieje reguła axe-core, która automatycznie oznacza naruszenie tego kryterium, a zrozumienie dlaczego tak jest, pomaga doprecyzować, na co testerzy muszą zwracać uwagę ręcznie.

Wymagane testy manualne — analiza treści wizualnej: Narzędzia automatyczne mogą wykryć obecność elementu <video>, elementu <track> lub powiązanego linku do transkrypcji, ale nie są w stanie ocenić, czy treść audiodeskrypcji lub alternatywy tekstowej jest wystarczająca. Wystarczalność zależy od tego, czy wszystkie istotne informacje wizualne są przekazane — to ocena, która wymaga, aby człowiek obejrzał wideo, przeczytał alternatywę i porównał je. Skan axe może potwierdzić, że element <track kind='descriptions'> jest obecny, ale nie może zweryfikować, czy opisy faktycznie obejmują wszystkie kluczowe zdarzenia wizualne w wideo.
Wymagane testy manualne — ocena równoważności: Ustalenie, czy główna ścieżka dźwiękowa już opisuje wszystkie informacje wizualne (co czyni dodatkową audiodeskrypcję zbędną), jest z natury oceną treści. Recenzent musi obejrzeć wideo i ocenić, czy niewidomy użytkownik, słuchając wyłącznie dźwięku, pominąłby jakiekolwiek istotne informacje. Żadna reguła automatyczna nie jest w stanie wiarygodnie dokonać takiej oceny.
Wymagane testy manualne — kompletność alternatywy tekstowej: Jeśli zamiast audiodeskrypcji zapewniono alternatywę tekstową (pełną alternatywę medialną), człowiek musi przeczytać tę alternatywę i porównać ją z wideo, aby potwierdzić, że wszystkie zdarzenia wizualne, tekst na ekranie i istotne działania są odzwierciedlone. Narzędzia automatyczne mogą sprawdzić, czy istnieje link do transkrypcji, ale nie mogą ocenić, czy ta transkrypcja jest kompletna i dokładna.

Jak Testować

Podstawowy skan automatyczny: Uruchom axe DevTools lub Google Lighthouse na stronie zawierającej wideo. Choć żadne z tych narzędzi nie oznaczy bezpośrednio naruszenia 1.2.3, skan może ujawnić powiązane problemy, takie jak brak elementów <track> (oznaczany w ramach 1.2.2 dla napisów) lub brak alternatyw tekstowych dla mediów opartych na obrazach. Zanotuj wszystkie elementy wideo obecne na stronie, aby wiedzieć, które z nich wymagają ręcznego przeglądu zgodnie z 1.2.3.
Identyfikacja mediów zsynchronizowanych: Zlokalizuj każdy element <video> (lub osadzony odtwarzacz zewnętrzny, taki jak iframe YouTube lub Vimeo) na stronie. Potwierdź, czy każde wideo jest uprzednio nagrane i zsynchronizowane (tzn. ma zarówno ścieżkę dźwiękową, jak i wideo, które są znaczące). Jeśli wideo jest wyłącznie dźwiękowe lub ma dekoracyjną ścieżkę wideo, nie wchodzi w zakres 1.2.3.
Obejrzyj wideo z włączonym dźwiękiem: Obejrzyj wideo w normalny sposób i zwróć szczególną uwagę na wszelkie informacje przekazywane wizualnie, ale nieopisywane w dźwięku. Typowe przykłady obejmują: nakładki tekstowe na ekranie, rysowane diagramy lub wykresy, demonstracje krok po kroku procesu fizycznego, wyraz twarzy lub mowa ciała niosące ładunek emocjonalny oraz identyfikację mówców, gdy na ekranie pojawia się wiele osób.
Sprawdź obecność ścieżki audiodeskrypcji: Sprawdź kod elementu wideo pod kątem elementu <track kind='descriptions'>. Jeśli jest obecny, włącz opisy w odtwarzaczu wideo (lub użyj przeglądarki, która je udostępnia) i obejrzyj wideo ponownie. Zweryfikuj, czy każde istotne zdarzenie wizualne zidentyfikowane w kroku 3 jest opisane w ścieżce audiodeskrypcji w odpowiednim momencie.
Sprawdź pełną alternatywę tekstową: Jeśli nie ma ścieżki audiodeskrypcji, poszukaj linku do transkrypcji lub pełnej alternatywy medialnej umieszczonej obok wideo lub bezpośrednio po nim. Potwierdź, że powiązany dokument lub tekst wbudowany opisuje wszystkie treści dźwiękowe (dialog, narrację, istotne efekty dźwiękowe) oraz wszystkie treści wizualne (działania, tekst na ekranie, opisy scenerii, identyfikację mówców).
Weryfikacja z czytnikiem ekranu (NVDA + Firefox): Otwórz stronę z uruchomionym NVDA. Przejdź do elementu wideo i potwierdź, że NVDA ogłasza obecność wideo i powiązanych kontrolek. Jeśli alternatywa tekstowa jest dostępna w treści lub poprzez link, przejdź do niej i potwierdź, że NVDA odczytuje całą treść bez pominięć. Uwaga: NVDA nie może odczytać treści wizualnej klatek wideo, co podkreśla, dlaczego porównanie dokonane przez człowieka w kroku 3 jest kluczowe.
Weryfikacja z czytnikiem ekranu (VoiceOver + Safari na macOS): Aktywuj VoiceOver i przejdź do wideo. Użyj rotorów VoiceOver, aby znaleźć element wideo oraz powiązane elementy track lub link. Potwierdź, że ścieżka opisów, jeśli jest obecna, jest dostępna poprzez kontrolki multimediów w Safari.
Odtwarzacze zewnętrzne: Dla osadzonych filmów z YouTube sprawdź, czy wideo ma wersję z audiodeskrypcją (często osobne wideo podlinkowane w opisie) lub czy dostępna jest powiązana transkrypcja i czy jest podlinkowana na stronie osadzającej. Dla Vimeo sprawdź ustawienia dostępności wideo. Odtwarzacze zewnętrzne nie spełniają automatycznie 1.2.3 — to autor strony jest odpowiedzialny za zapewnienie lub podlinkowanie alternatywy.

Jak Naprawić

Scenariusz 1: Wideo HTML5 bez audiodeskrypcji — Niepoprawne

<!-- A product demo video with meaningful visual content but no audio description or text alternative -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>

Scenariusz 1: Wideo HTML5 ze ścieżką audiodeskrypcji — Poprawne

<!-- Audio description track added using kind='descriptions'.
     The VTT file contains timed narrations of visual events
     that are not conveyed through the main audio. -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>

Scenariusz 2: Wideo HTML5 bez alternatywy tekstowej — Niepoprawne

<!-- Tutorial video with on-screen steps and diagrams; no transcript provided -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
</section>

Scenariusz 2: Wideo HTML5 z pełną alternatywą medialną — Poprawne

<!-- Full media alternative linked immediately after the video.
     The linked page contains both transcript text (all dialogue and narration)
     and descriptions of all visual steps shown in the video. -->
<section>
  <h2>How to Configure Your Router</h2>
  <video controls width='800'>
    <source src='router-setup.mp4' type='video/mp4'>
    <track kind='captions' src='captions-tr.vtt' srclang='tr' label='Turkish' default>
  </video>
  <p>
    <a href='router-setup-full-transcript.html'>
      Full text alternative for this video (includes all dialogue and visual descriptions)
    </a>
  </p>
</section>

Scenariusz 3: Osadzone wideo z YouTube bez dodatkowej alternatywy — Niepoprawne

<!-- Embedded YouTube video; the video on YouTube has no audio description
     and no transcript is linked on this page -->
<iframe width='560' height='315'
  src='https://www.youtube.com/embed/XXXXXXXXXXX'
  title='Annual Report Highlights 2024'
  allowfullscreen>
</iframe>

Scenariusz 3: Osadzone wideo z YouTube z podlinkowaną alternatywą tekstową — Poprawne

<!-- Embedding page provides a link to a full text alternative.
     The linked document describes all visual content in the video
     (slides, charts, on-screen data) in addition to the spoken content. -->
<figure>
  <iframe width='560' height='315'
    src='https://www.youtube.com/embed/XXXXXXXXXXX'
    title='Annual Report Highlights 2024'
    allowfullscreen>
  </iframe>
  <figcaption>
    <a href='annual-report-2024-full-transcript.html'>
      Read the full text alternative for Annual Report Highlights 2024
    </a>
  </figcaption>
</figure>

Scenariusz 4: Wideo, którego dźwięk już opisuje całą treść wizualną (wyjątek) — Poprawne

<!-- This video features a narrator who explicitly describes every action
     being performed on screen: 'I am now clicking the blue Settings button
     in the top-right corner and selecting Account from the dropdown menu.'
     Because the audio fully conveys all visual information, no separate
     audio description is required under 1.2.3. -->
<video controls width='800'>
  <source src='fully-described-tutorial.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<!-- Document the rationale in an internal accessibility conformance note -->

Typowe Błędy

Zapewnienie napisów zamiast audiodeskrypcji: Napisy transkrybują dźwięk mówiony dla osób niesłyszących; nie opisują informacji wizualnych dla osób niewidomych. Dodanie elementu <track kind='captions'> spełnia 1.2.2, ale nie spełnia 1.2.3. Są to dwa odrębne wymagania, dotyczące dwóch różnych grup osób z niepełnosprawnościami.
Podlinkowanie transkrypcji obejmującej tylko dialog: Alternatywa tekstowa dla 1.2.3 musi opisywać całą istotną treść wizualną — tekst na ekranie, diagramy, działania fizyczne, identyfikację mówców — a nie tylko to, co jest wypowiadane. Transkrypcja zawierająca wyłącznie scenariusz dialogów zazwyczaj nie spełnia tego kryterium, jeśli wideo zawiera informacje wyłącznie wizualne.
Umieszczenie linku do alternatywy tekstowej daleko od wideo: Jeśli pełna alternatywa medialna jest ukryta w przypisie lub na osobnej stronie bez wyraźnego, sąsiadującego linku, użytkownicy mogą jej nie znaleźć. Link powinien pojawiać się bezpośrednio przed lub po elemencie wideo, aby użytkownicy czytników ekranu napotykali go w naturalnym porządku czytania.
Zakładanie, że automatycznie generowana transkrypcja YouTube spełnia kryterium: Automatycznie generowane transkrypcje YouTube obejmują tylko dźwięk mówiony. Nie opisują treści wizualnych i często są niedokładne. Nie stanowią wystarczającej pełnej alternatywy medialnej zgodnie z 1.2.3.
Użycie elementu <track kind='descriptions'>, ale pozostawienie pliku VTT pustego lub niekompletnego: Sama obecność elementu track nie jest wystarczająca; plik VTT musi zawierać dokładne, odpowiednio zsynchronizowane opisy wszystkich istotnych zdarzeń wizualnych. Pusty lub szczątkowy plik VTT nie spełnia kryterium.
Brak opisu nakładek tekstowych na ekranie: Filmy marketingowe często wyświetlają statystyki, nazwy produktów lub tekst zachęcający do działania jako animowane nakładki. Jeśli te nakładki nie są odczytywane na głos przez narratora, muszą pojawić się w audiodeskrypcji lub alternatywie tekstowej — autorzy często o nich zapominają.
Tworzenie zbyt ogólnikowych audiodeskrypcji: Opisy takie jak „prezenter demonstruje proces” są niewystarczające. Skuteczne opisy nazywają konkretne działania, elementy interfejsu, kolory, gdy mają znaczenie, oraz relacje przestrzenne: „Prezenter klika czerwony przycisk Delete po prawej stronie paska narzędzi, a następnie potwierdza, wybierając OK w oknie dialogowym.”
Brak alternatywy dla filmów odtwarzanych automatycznie lub w tle, które niosą informacje: Wideo, które odtwarza się automatycznie i wyświetla ważne informacje (na przykład sekcja hero pokazująca funkcje produktu z nakładkami tekstowymi), nadal jest mediami zsynchronizowanymi i wymaga spełnienia kryterium, jeśli przekazuje istotne treści.
Traktowanie filmów dekoracyjnych jako zwolnionych bez weryfikacji: Zespoły czasem oznaczają wideo jako „dekoracyjne”, aby uniknąć wymogu, nawet gdy faktycznie przekazuje ono informacje o produkcie lub treści instruktażowe. Wyjątek dekoracyjny ma zastosowanie tylko wtedy, gdy wideo rzeczywiście nie dodaje żadnych istotnych informacji ponad to, co już jest dostępne w sąsiadującym tekście.
Zapominanie o aktualizacji audiodeskrypcji lub alternatywy tekstowej po aktualizacji wideo: Jeśli treść wideo ulega zmianie — na przykład kroki dotyczące produktu są zaktualizowane lub dane cenowe są zmienione — audiodeskrypcja i alternatywa tekstowa muszą zostać zaktualizowane, aby odpowiadały nowej wersji. Nieaktualne alternatywy stanowią naruszenie zgodności, nawet jeśli pierwotne alternatywy były poprawne.

Związek z Tureckimi Regulacjami Dotyczącymi Dostępności

Okrężnik Prezydencki Turcji 2025/10, opublikowany w Dzienniku Urzędowym nr 32933 w dniu 21 czerwca 2025 r., ustanawia obowiązkowe standardy dostępności stron internetowych dla szerokiego zakresu podmiotów publicznych i prywatnych działających w Turcji. Okrężnik odwołuje się do międzynarodowo uznanych standardów dostępności, przy czym WCAG 2.2 poziomu A i poziomu AA stanowi techniczną podstawę zgodności. Ponieważ WCAG 1.2.3 jest wymaganiem na poziomie A, należy do najbardziej fundamentalnych obowiązków wynikających z okrężnika — nie ma niższego poziomu zgodności, który pozwalałby organizacjom go zignorować.

Okrężnik obejmuje szeroki zakres typów podmiotów. Instytucje publiczne i organy rządowe — w tym ministerstwa, gminy, uniwersytety państwowe i inne agencje publiczne — muszą osiągnąć zgodność w ciągu jednego roku od daty publikacji okrężnika. Podmioty sektora prywatnego objęte okrężnikiem obejmują platformy e-commerce, banki i instytucje finansowe, szpitale i prywatnych świadczeniodawców opieki zdrowotnej, firmy telekomunikacyjne z 200 000 lub większą liczbą abonentów, licencjonowane biura podróży, prywatne firmy transportowe oraz szkoły prywatne upoważnione przez Ministerstwo Edukacji Narodowej (MoNE). Te organizacje sektora prywatnego mają dwa lata od daty publikacji na osiągnięcie zgodności.

Dla każdego objętego podmiotu, który publikuje treści wideo — co dziś obejmuje praktycznie każdą większą turecką instytucję i firmę — WCAG 1.2.3 tworzy konkretne, egzekwowalne zobowiązanie. Bank, który publikuje filmy instruktażowe wyjaśniające, jak korzystać z aplikacji mobilnej, szpital publiczny, który zamieszcza filmy przewodniki dotyczące rejestracji pacjentów, dostawca usług telekomunikacyjnych, który udostępnia filmy promocyjne z porównaniami planów na ekranie, czy serwis e-commerce, który zawiera filmy demonstracyjne produktów — wszyscy muszą zapewnić, że każdy uprzednio nagrany zasób mediów zsynchronizowanych jest opatrzony audiodeskrypcją lub pełną alternatywą tekstową.

Brak zgodności z wymaganiami okrężnika może skutkować kontrolą regulacyjną i szkodą dla reputacji, a wraz z dojrzewaniem tureckiego systemu egzekwowania dostępności cyfrowej — także ryzykiem prawnym dla objętych podmiotów. Organizacje powinny traktować WCAG 1.2.3 nie jako opcjonalne udoskonalenie, lecz jako podstawowy obowiązek prawny. W praktyce oznacza to przeprowadzenie inwentaryzacji wszystkich treści wideo, ocenę, które filmy zawierają informacje wyłącznie wizualne, oraz systematyczne tworzenie audiodeskrypcji lub pełnych alternatyw tekstowych dla tych, które je zawierają. Nowe procesy produkcji wideo powinny uwzględniać elementy związane z dostępnością — scenariusze opisów i alternatywy tekstowe — jako standardowe rezultaty obok napisów i tłumaczeń.

Źródła i odniesienia

Powiązane artykuły

AWCAG 1.1.1: Treści nietekstowe AWCAG 1.2.1: Tylko audio i tylko wideo (nagranie)AWCAG 1.2.2: Napisy (nagrania wcześniej przygotowane)