WCAG 성공 기준 · Level AAA

WCAG 1.2.7: 확장 오디오 설명 (사전 녹음됨)

WCAG 1.2.7은 전경 오디오의 일시 정지가 모든 시각 정보를 전달하기에 충분하지 않을 때, 비디오를 일시 정지하는 방식으로 구현되는 확장 오디오 설명을 사전 녹화된 동기화 미디어에 제공해야 한다고 요구합니다. 이는 표준 오디오 설명만으로는 전달할 수 없는 복잡한 시각적 콘텐츠를 시각장애인 및 저시력 사용자가 완전히 이해할 수 있도록 보장합니다.

이 규칙의 의미

WCAG 성공 기준 1.2.7 — 확장 오디오 설명(사전 녹음)은 AAA 수준에서 적용되며, AA 수준 요구 사항인 SC 1.2.5(사전 녹음된 콘텐츠에 대한 오디오 설명)를 직접적으로 확장한 것입니다. 표준 오디오 설명은 동영상의 오디오 트랙에 존재하는 자연스러운 일시 정지 구간을 활용해 시각 정보를 설명하는 반면, 확장 오디오 설명은 한 단계 더 나아갑니다. 자연스러운 일시 정지 구간이 모든 필요한 설명을 담기에는 너무 짧거나 너무 드문 경우, 동영상이 일시 정지되고 오디오 설명이 재생된 뒤, 다시 동영상이 재생됩니다.

이 기준은 특히 사전 녹음된 동기화 미디어에 적용됩니다. 즉, 교육용 영상, 기업 교육 비디오, 다큐멘터리, 제품 시연 영상 등과 같이 시각 요소와 동기화된 사운드트랙을 가진 동영상 콘텐츠를 의미합니다. 라이브 미디어, 오디오 전용 콘텐츠, 사운드트랙이 없는 비디오 전용 콘텐츠에는 적용되지 않습니다.

이 기준에서 준수로 인정받으려면 다음 중 하나를 충족해야 합니다. (a) 자연스러운 일시 정지 구간에 담을 수 없는 중요한 시각 정보를 설명하기 위해 재생을 일시 정지하고 설명을 제공하는 확장 오디오 설명 트랙 또는 미디어 버전을 제공하거나, (b) 모든 시각 정보가 이미 기존 오디오 트랙을 통해 추가 설명 없이 전달되는 경우(종종 “동등하게 설명된” 버전이라고 부름)입니다. 실패는 사전 녹음된 동기화 비디오에 화면의 텍스트, 다이어그램, 서사를 이끄는 표정, 시연과 같은 의미 있는 시각 정보가 포함되어 있음에도, 자연스러운 일시 정지 구간의 오디오 설명이나 확장 설명 어느 쪽으로도 전달되지 않고, 기존 오디오만으로는 시각장애 사용자가 그 정보를 얻을 수 없는 경우에 발생합니다.

WCAG는 또한 중요한 예외를 인정합니다. 미디어 자체가 텍스트의 미디어 대체물인 경우 — 예를 들어, 그러한 용도로 명확히 표시된 텍스트 문서의 비디오 버전 — 확장 오디오 설명은 요구되지 않습니다. 또한, 전경 오디오가 이미 모든 시각 콘텐츠를 완전히 설명하고 있다면 추가 설명은 필요하지 않습니다.

확장 오디오 설명을 제공하려면 대부분의 경우 동영상의 완전히 별도 버전을 제작해야 한다는 점도 주목할 만합니다. 대부분의 미디어 플레이어는 설명 제공을 위한 일시 정지 및 재개 메커니즘을 기본적으로 지원하지 않기 때문입니다. 일반적인 접근 방식으로는 별도의 URL을 통해 접근 가능한 전용 “설명 버전”을 제공하거나, 플레이어에 토글 버튼을 두는 방법, 또는 TTML(시간 지정 텍스트 마크업 언어)이나 SMIL 기반 확장 설명 트랙을 지원하는 미디어 플레이어를 사용하는 방법이 있습니다.

왜 중요한가

확장 오디오 설명은 전맹이거나 심각한 저시력 사용자에게 매우 중요합니다. 이 사용자층은 많은 개발자가 생각하는 것보다 훨씬 큽니다. 세계보건기구(WHO)에 따르면 전 세계적으로 약 22억 명이 어떤 형태로든 시각 장애를 가지고 있으며, 이 중 최소 10억 명은 예방 가능했거나 여전히 해결되지 않은 상태의 시각 장애를 겪고 있습니다. 화면 읽기 프로그램과 오디오 출력에 전적으로 의존하는 사용자에게, 자연스러운 일시 정지 구간에서 허용하는 범위만 설명하는 동영상은 이해에 큰 공백을 남길 수 있습니다.

외과 수술 기법을 시연하는 의학 교육 영상을 생각해 봅시다. 내레이터가 “이제 여기에서 절개를 합니다.”라고 말하는 동안 카메라는 특정 해부학적 지점을 확대하고, 외과의의 손은 정교한 조작을 수행합니다. 음성 내레이션은 시청자가 시각적 맥락을 보고 있다고 가정합니다. 표준 오디오 설명은 짧은 일시 정지 동안 간단한 설명을 삽입할 수 있을지 모르지만, 2분 동안 말이 계속 이어지고 동작도 끊기지 않는다면, 시각장애가 있는 의대생은 기법 학습에 핵심적인 시각적 세부 정보를 거의 얻지 못합니다. 확장 오디오 설명은 동영상을 일시 정지하고, 보이는 해부 구조, 사용된 정확한 도구, 접근 각도, 조직 반응 등 전체 설명을 제공합니다. 그 후 동영상이 다시 재생되며, 학생은 학습 자료에 동등하게 접근할 수 있게 됩니다.

전맹 이외에도, 확장 오디오 설명은 정보를 더 천천히 처리하고 설명적 내레이션이 제공하는 추가 맥락에서 이득을 얻는 인지 장애 사용자에게 도움이 됩니다. 또한, 출퇴근 중 교육 영상을 듣는 사람처럼 오디오 전용 환경에서 화면을 볼 수 없는 사용자에게도 유용합니다. 이 경우 시각 능력과 관계없이 화면을 볼 수 없습니다.

비즈니스 및 법적 관점에서 확장 오디오 설명을 제공하는 것은 포용에 대한 진지하고 측정 가능한 의지를 보여 줍니다. 공공기관, 은행, 의료 제공자, 교육 기관 등 규제 대상 부문에 속한 조직의 경우, 복잡한 미디어 콘텐츠에서 AAA 수준 준수를 입증하는 것은 법적 위험과 평판 리스크를 의미 있게 줄여 줍니다. 실질적인 SEO 이점도 있습니다. 확장 오디오 설명 제작에 사용되는 스크립트는 종종 풍부한 전사본 역할을 하며, 검색 엔진은 이를 의미 있는 콘텐츠로 색인화하여 동영상 기반 자료의 검색 가능성을 향상시킵니다.

관련 Axe-core 규칙

WCAG 1.2.7은 수동 테스트를 요구합니다. 자동화 도구는 동영상의 의미론적 콘텐츠를 평가하거나, 오디오 트랙과 시각 트랙을 비교하거나, 시각 정보가 충분히 설명되었는지 판단할 수 없기 때문입니다. 동영상을 시청하고, 화면에 무엇이 나타나는지 이해하고, 확장 오디오 설명이 존재하는지, 정확한지, 완전한지 판단할 수 있는 axe-core 규칙은 존재하지 않습니다. 이는 본질적으로 인간의 판단이 필요한 작업입니다.

  • 수동 평가 — 시각 콘텐츠 vs. 오디오 콘텐츠 비교: 사람 평가자는 눈을 뜬 상태와 감은 상태(또는 화면 읽기 프로그램 사용)로 동영상을 시청하고, 표준 오디오 설명을 포함한 오디오만으로 모든 의미 있는 시각 정보가 전달되는지 판단해야 합니다. 그렇지 않은 경우, 확장 오디오 설명 버전이 제공되는지 확인해야 합니다. 자동화 도구는 동영상 프레임을 의미 있는 시각적 사건으로 해석하거나, 이를 오디오의 의미론적 내용과 연관 지을 수 없기 때문에 이러한 비교를 수행할 수 없습니다.
  • 수동 평가 — 일시 정지 및 재개 메커니즘: 확장 설명이 제공된다고 주장하는 경우, 평가자는 설명이 재생되는 동안 플레이어가 실제로 일시 정지하고 이후 올바르게 재개하는지 확인해야 합니다. 이 동작은 미디어 플레이어와 타이밍에 관한 문제로, 자동 스캐너는 미디어 재생 상태를 실행하거나 관찰하지 않으므로 사람이 직접 재생 테스트를 해야 합니다.
  • 수동 평가 — 설명의 정확성과 완전성: 확장 오디오 설명 트랙이 존재하더라도, 그 내용은 정확해야 하고 모든 시각적으로 중요한 정보를 포함해야 합니다. 자동 규칙은 설명 텍스트가 화면에 표시되는 내용을 정확하고 완전하게 나타내는지 평가할 수 없습니다. 예를 들어, 화면에 중요한 데이터 포인트가 표시된 다이어그램이 있는데 설명이 “발표자가 칠판을 가리킨다.”라고만 되어 있다면, 설명이 기술적으로 존재하더라도 이 기준을 충족하지 못합니다.

테스트 방법

  1. 먼저 자동 접근성 스캔을 실행합니다. 동영상이 포함된 페이지에서 axe DevTools(브라우저 확장) 또는 Lighthouse를 사용합니다. 두 도구 모두 확장 오디오 설명 준수 여부를 직접 검증할 수는 없지만, 누락되었거나 깨진 미디어 요소, track 요소 부재, 기타 구조적 문제를 표시할 수 있습니다. 미디어 콘텐츠에 대한 경고를 시작점으로 기록합니다. Axe는 요소 수준에서 캡션 트랙이나 오디오 설명 트랙의 부재를 표시할 수 있으며, 이는 수동 검토 범위를 좁히는 데 도움이 됩니다.
  2. 페이지의 모든 사전 녹음된 동기화 미디어를 식별합니다. 모든 <video> 요소나 임베디드 미디어 플레이어(YouTube iframe, Vimeo 임베드, 커스텀 플레이어)를 찾습니다. 각각에 동기화된 오디오와 비디오가 포함되어 있는지 확인합니다. 순수 오디오 팟캐스트나 무성 동영상은 이 기준의 범위에 포함되지 않습니다.
  3. 오디오만으로 동영상을 시청합니다. 눈을 감거나 화면 읽기 프로그램(NVDA+Firefox, VoiceOver+Safari, JAWS+Chrome)을 사용해 기존 오디오 설명 트랙을 포함한 전체 동영상을 청취합니다. 시각적으로 어떤 일이 일어나는지 이해하지 못하는 모든 순간 — 동작, 화면의 텍스트, 다이어그램, 장면 전환, 서사를 이끄는 등장인물의 표정 등을 기록합니다.
  4. 메모를 시각 트랙과 비교합니다. 이제 오디오를 음소거한 상태로 동영상을 시청하며 화면에 나타나는 모든 시각 정보를 기록합니다. 앞서 들은 내용과 교차 검토합니다. 의미 있는 시각 콘텐츠가 오디오에서 전달되지 않았다면, 해당 동영상에는 오디오 설명이 필요합니다. 오디오의 자연스러운 일시 정지 구간이 설명을 담기에는 너무 짧거나 존재하지 않는다면, 확장 오디오 설명이 필요합니다.
  5. 확장 설명 버전이 있는지 확인합니다. “오디오 설명 버전(Audio Described Version)”으로 명확히 표시된 링크, 동영상 플레이어의 토글, 또는 다른 URL에 있는 설명 버전을 찾습니다. 존재한다면 이를 활성화하고, 설명 버전을 재생하면서 3번과 4번 단계를 반복하여, 일시 정지와 설명이 누락된 시각 정보를 이제는 모두 다루는지 확인합니다.
  6. NVDA + Firefox로 일시 정지 및 재개 동작을 테스트합니다. 확장 설명 버전을 재생하면서 동영상이 일시 정지되고, 오디오 설명이 명확히 전달되며, 동영상이 올바른 지점에서 다시 재생되는지 확인합니다. 화면 읽기 프로그램이 설명 콘텐츠를 알리거나, 시각장애 사용자에게 충분히 들릴 수 있는지 검증합니다.
  7. macOS/iOS에서 VoiceOver + Safari로 테스트합니다. 재생 테스트를 반복합니다. 설명 버전이 키보드 탐색(Tab, Space, Enter)으로 조작 가능하고, VoiceOver가 플레이어 컨트롤(설명 토글 포함)을 올바르게 알리는지 확인합니다.
  8. 설명 스크립트의 정확성을 검증합니다. 가능하다면 확장 설명 스크립트나 전사본을 확보합니다. 이를 동영상과 대조하여 사실에 부합하는지, 모든 중요한 시각적 사건을 다루는지, 시각 사용자가 콘텐츠를 이해하는 데 사용하는 정보를 누락하지 않았는지 확인합니다.

수정 방법

시나리오 1: 오디오 설명이 전혀 없는 동영상 — 잘못된 예

<!-- A training video with no audio description track and no described version link.
     Blind users receive only the foreground narration, missing all visual demonstrations. -->
<video controls width='800'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
</video>

시나리오 1: 확장 오디오 설명 버전이 있는 동영상 — 올바른 예

<!-- Provide a clearly labeled link to the extended described version.
     The described version pauses at critical moments to deliver full visual descriptions.
     This is the most reliable cross-browser approach. -->
<video controls width='800' id='main-video'>
  <source src='surgical-technique.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English Captions' default>
  <track kind='descriptions' src='descriptions-en.vtt' srclang='en' label='Audio Descriptions'>
</video>
<p>
  <a href='surgical-technique-extended-described.mp4'>
    Watch extended audio described version of this video
  </a>
</p>

시나리오 2: 빠르게 전개되는 시각 요소를 가진 임베디드 YouTube 동영상 — 잘못된 예

<!-- An iframe embed of a product demo video. The YouTube auto-captions exist
     but there is no audio description, and the visual demonstrations are rapid
     with no natural pauses long enough for description. -->
<iframe
  width='560'
  height='315'
  src='https://www.youtube.com/embed/EXAMPLE_ID'
  title='Product demonstration video'
  allowfullscreen>
</iframe>

시나리오 2: 설명 버전 토글이 있는 임베디드 동영상 — 올바른 예

<!-- Offer a button that swaps the src to the extended described version.
     The described version was produced as a separate MP4 with pauses built in.
     The button is keyboard-accessible and has a clear accessible name. -->
<div role='region' aria-label='Product demonstration video player'>
  <iframe
    id='demo-video-frame'
    width='560'
    height='315'
    src='https://www.youtube.com/embed/EXAMPLE_ID'
    title='Product demonstration video'
    allowfullscreen>
  </iframe>
  <p>
    <button
      type='button'
      aria-pressed='false'
      onclick='toggleDescribedVersion(this)'>
      Enable extended audio description
    </button>
  </p>
</div>
<!-- The toggleDescribedVersion() function swaps the iframe src
     to the described YouTube video ID and updates aria-pressed. -->

시나리오 3: 설명 트랙이 있으나 너무 짧은 HTML5 비디오 플레이어 — 잘못된 예

<!-- A descriptions track exists but its cue text is truncated to fit within
     existing audio pauses. Key visual information (a data chart with five labeled
     columns) is summarized as 'a chart appears on screen' — insufficient. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
  <track kind='descriptions' src='brief-descriptions.vtt' srclang='en' label='Descriptions'>
</video>
<!-- brief-descriptions.vtt contains only: 'A chart appears on screen.' -->

시나리오 3: 전체 내레이션이 포함된 별도의 확장 설명 버전 — 올바른 예

<!-- The extended described version pauses playback at the chart moment
     and delivers: 'A bar chart titled Annual Revenue by Region appears.
     Five bars are shown: Europe 2.1 million, Asia 3.4 million,
     North America 4.8 million, South America 1.2 million, Africa 0.9 million.
     North America leads all regions.' The video then resumes. -->
<video controls width='800'>
  <source src='annual-report.mp4' type='video/mp4'>
  <track kind='captions' src='captions-en.vtt' srclang='en' label='English' default>
</video>
<p>
  <strong>Extended audio described version:</strong>
  <a href='annual-report-extended-described.mp4'>
    Annual report video with extended audio descriptions
  </a>
</p>

자주 발생하는 실수

  • 캡션 트랙을 오디오 설명의 대체물로 취급하는 경우: 캡션은 청각장애 사용자를 위해 음성 대화와 음향 효과를 텍스트로 전달합니다. 시각장애 사용자를 위한 시각 콘텐츠 설명은 제공하지 않습니다. 화면의 시각 정보가 오디오로 설명되지 않은 상태에서 캡션 트랙만 있는 동영상은 이 기준을 여전히 충족하지 못합니다.
  • 일시 정지 시간이 충분한지 확인하지 않은 채 표준 오디오 설명 트랙만 제공하는 경우: 많은 팀이 <track kind='descriptions'> 요소를 추가한 뒤 작업이 끝났다고 생각하지만, 모든 중요한 시각적 사건마다 설명이 들어갈 만큼 충분한 일시 정지 시간이 있는지 검증하지 않습니다. 빠르게 전개되는 데모, 복잡한 다이어그램, 화면에 빽빽이 표시된 텍스트는 일반적으로 확장 설명이 필요합니다.
  • 눈에 띄는 시각적 변화만 설명하고 화면의 텍스트 콘텐츠를 생략하는 경우: 화면의 텍스트 — 슬라이드 제목, 폼 레이블, 차트 축, 데모에 표시되는 버튼 레이블 등 — 은 오디오 설명에서 모두 읽어야 합니다. “슬라이드가 나타난다.”라고만 말하고 슬라이드의 제목과 핵심 불릿 포인트를 읽지 않으면 중요한 정보가 접근 불가능하게 남습니다.
  • 명확하고 프로그램적으로 결정 가능한 접근 가능한 이름 없이 설명 버전 링크를 제공하는 경우: “여기를 클릭” 또는 “설명 버전”처럼, 어떤 동영상을 설명하는지 식별하지 못하는 링크 텍스트는 WCAG 2.4.6을 위반하며, 여러 동영상이 있는 페이지에서 화면 읽기 사용자에게 혼란을 줍니다.
  • 설명 버전 토글 버튼을 사용하면서 aria-pressed를 업데이트하지 않거나 피드백을 제공하지 않는 경우: 버튼이 표준 재생과 설명 재생 사이를 전환한다면, aria-pressed(true/false)를 사용하거나 이에 상응하는 라이브 리전 알림을 제공해 화면 읽기 사용자가 현재 상태와 자신의 조작 결과를 알 수 있도록 해야 합니다.
  • 확장 설명 버전을 제작하면서 재개 지점의 정확성을 테스트하지 않는 경우: 설명을 위한 일시 정지 이후 동영상은 정확히 중단된 지점에서 다시 재생되어야 합니다. 약간 앞이나 뒤에서 재개되면 서사 맥락이 손실되고, 시각장애 사용자에게 혼란이 가중됩니다.
  • 동영상 전사본만으로 이 기준을 충족한다고 가정하는 경우: 전사본은 유용하며 SC 1.2.8(미디어 대체물)을 지원하지만, 1.2.7을 충족하지는 못합니다. 확장 오디오 설명은 시간 동기화된 오디오 기반 메커니즘이지, 별도로 읽는 문서가 아닙니다.
  • 장면의 감정적·서사적 의미를 이끄는 시각 정보를 설명하지 않는 경우: 고객 추천 영상 등에서 등장인물의 표정, 몸짓, 시각적 반응이 상황 이해에 핵심적이라면, 이를 설명하지 않으면 음성 대사가 온전히 제공되더라도 시각장애 사용자는 동등한 이해를 할 수 없습니다.
  • 원본 동영상이 업데이트될 때 설명 버전을 갱신하지 않는 경우: 원본 동영상이 재편집, 업데이트, 교체되는 경우(교육 콘텐츠에서 흔함), 확장 설명 트랙 또는 버전도 함께 업데이트해야 합니다. 오래된 설명은 더 이상 존재하지 않는 장면을 설명함으로써 오히려 사용자를 오도할 수 있습니다.
  • 서드파티 iframe(YouTube, Vimeo)으로 동영상을 임베드하고 플랫폼이 설명을 처리한다고 가정하는 경우: 플랫폼에서 제공하는 오디오 설명(있는 경우조차도)은 거의 확장 설명이 아닙니다. 콘텐츠 소유자는 확장 설명 버전이 존재하고, 임베드 페이지에서 링크되거나 접근 가능하도록 하는 책임이 있습니다.

터키 접근성 규정과의 관계

터키의 대통령령 2025/10은 2025년 6월 21일 관보 제32933호에 게재되었으며, 특정 디지털 서비스 제공자 집단에 대한 접근성 의무를 규정합니다. 이 대통령령은 대중에게 제공되는 디지털 제품 및 서비스에 대해 접근성 표준 준수를 의무화하며, 기본 준수 요구 사항으로 WCAG 2.1 AA 수준과 대체로 정렬됩니다.

대통령령이 적용되는 주체 유형에는 공공 기관 및 기관, 전자상거래 플랫폼, 은행 및 금융 기관, 병원 및 의료 제공자, 200,000명 이상의 가입자를 보유한 통신 사업자, 허가받은 여행사, 민간 운송 회사, 그리고 교육부(MoNE)의 인가를 받은 사립학교가 포함됩니다. 이들 기관에 대해 WCAG 2.1 AA 수준 준수는 강제되는 최소 기준입니다.

WCAG 1.2.7(확장 오디오 설명)은 AAA 수준 기준이므로, 대통령령의 기본 요구 사항에 의해 직접적으로 의무화되지는 않습니다. 그러나 터키 규제 환경에서 그 중요성이 과소평가되어서는 안 되는 여러 이유가 있습니다. 첫째, 복잡한 미디어 콘텐츠를 제작하는 조직 — 예를 들어, 외과 교육 영상을 게시하는 의료 제공자, 정책 설명 영상을 공개하는 공공기관, 교육용 동영상을 배포하는 사립학교 — 는 엄격한 법적 의무가 없더라도 가장 중요한 자료에 확장 오디오 설명을 구현해야 할 윤리적·실무적 근거가 충분합니다.

둘째, 터키의 디지털 접근성 규제가 성숙해지고 집행 메커니즘이 강화됨에 따라, AAA 수준 기준은 점점 더 모범 사례의 지표로 참조되고 있습니다. 특히 보건, 교육, 금융처럼 중요도가 높은 영역에서 자발적으로 AAA 준수를 입증하는 조직은 향후 규제 업데이트에 더 잘 대비할 수 있으며, 보다 광범위한 차별 금지 프레임워크 하에서 제기될 수 있는 민원 위험도 줄어듭니다.

셋째, 공영 방송사 및 미디어 조직의 경우 — 2025/10 대통령령에 직접 명시되어 있지 않더라도 — 터키의 라디오·TV 최고위원회(RTÜK)는 역사적으로 방송 콘텐츠에 대한 접근성 규정을 다뤄 왔습니다. 확장 오디오 설명은 주문형 및 웹 배포 동영상에 적용될 때 이러한 의무의 취지와 부합합니다.

Accsible 위젯 SDK를 사용하는 조직은 오버레이 위젯이 최종 사용자에게 접근성 기능과 컨트롤을 노출할 수는 있지만, 확장 오디오 설명 자체는 콘텐츠 제작 단계에서 구현되어야 하며, 클라이언트 측 도구로 자동으로 후처리할 수 없다는 점을 인지해야 합니다. 다만 SDK는 접근성 패널 내에 설명 버전 토글이나 링크를 노출하여, 해당 대체 버전을 필요로 하는 사용자가 더 쉽게 찾을 수 있도록 도울 수 있습니다.