WCAG 1.2.2: 자막 (사전 녹화)

WCAG 1.2.2는 동기화된 미디어(오디오가 포함된 비디오)의 모든 사전 녹음된 오디오 콘텐츠에 정확한 자막을 포함할 것을 요구합니다. 이는 청각장애인과 난청 사용자가 음성 대화, 음향 효과 및 기타 의미 있는 오디오 정보를 이용할 수 있도록 보장합니다.

이 규칙의 의미

WCAG 1.2.2 — 자막(사전 녹화)은 동기화된 미디어에 포함된 모든 사전 녹화 음성 콘텐츠에 대해 자막을 제공할 것을 요구한다. 동기화된 미디어는 다른 형식과 동기화되거나, 시간 기반의 상호작용 구성요소와 동기화된 오디오 또는 비디오 콘텐츠로 정의된다. 실제로는 녹화된 강의, 제품 시연, 뉴스 클립, 추천 영상, 마케팅 영상처럼 오디오를 함께 포함하는 모든 동영상 파일을 의미한다.

자막은 비디오 타임라인과 동기화된 텍스트 대체 수단이다. 자막은 말로 된 대화뿐 아니라 모든 의미 있는 오디오를 전달해야 한다. 여기에는 화자 식별, 관련 음향 효과(예: [applause], [door slams], [music plays])와 이해에 영향을 미치는 말투나 어조가 포함된다. 이는 일반적으로 말로 된 단어만을 제시하고, 오디오는 들을 수 있지만 구어를 이해하지 못하는 시청자를 대상으로 하는 자막(subtitles)과 구분되는 점이다.

이 기준에서 준수(pass)로 인정받으려면 다음 모든 조건을 충족해야 한다. 모든 사전 녹화 동기화 미디어에 자막이 존재할 것, 자막이 해당 오디오와 정확히 동기화되어 있을 것, 모든 의미 있는 오디오(대화, 화자 정체, 관련 음향 효과)를 설명할 것, 그리고 자막이 미디어 자체와 동일한 위치에서 제공될 것(별도의 페이지에서 링크만 제공되는 것이 아니라).

실패(fail)는 다음과 같은 경우에 발생한다. 자막이 전혀 제공되지 않았거나, 자막이 존재하지만 부정확하거나 불완전한 경우(예: 수정 없이 자동 생성된 자막), 자막이 의미 있는 비음성 오디오를 누락한 경우, 자막이 존재하지만 제대로 동기화되지 않은 경우, 또는 자막이 동기화된 자막이 아닌 별도의 대본(transcript)만으로 제공되는 경우(대본만으로는 이 기준을 충족하지 못한다).

WCAG에서 정의한 공식적인 예외는 하나뿐이며, 텍스트에 대한 미디어 대체물로서의 미디어인 경우이다. 예를 들어, 웹 페이지에 작성된 기사와 그 기사와 동일한 정보를 단순히 다시 제시하는 비디오가 함께 있고, 그 비디오가 그렇게 명확히 표시되어 있다면, 해당 비디오에 자막을 제공할 필요는 없다. 이 예외는 범위가 좁고 의도적으로 제한적이며, 텍스트 형태로 제공되지 않는 실질적인 콘텐츠를 담고 있는 비디오에 자막을 제공하지 않기 위한 편법으로 사용되어서는 안 된다.

자막은 오픈 자막(비디오에 직접 입혀 항상 보이는 자막)일 수도 있고, 클로즈드 자막(사용자가 켜거나 끌 수 있는 별도의 트랙으로 제공되는 자막)일 수도 있다. 둘 다 WCAG 1.2.2에서 허용되지만, 일반적으로 클로즈드 자막이 더 바람직하다. 사용자가 자막의 표시 방식을 사용자화할 수 있고, 필요 없는 사용자는 자막을 끌 수 있기 때문이다. HTML에서는 클로즈드 자막을 보통 <video> 요소 안에 kind='captions' 속성을 가진 <track> 요소를 사용해 구현하며, WebVTT 또는 SRT 자막 파일을 가리키도록 한다.

왜 중요한가

세계보건기구(WHO)에 따르면 전 세계적으로 약 4억 6,600만 명이 장애 수준의 청각 손실을 가지고 있으며, 이 수치는 2050년까지 9억 명을 넘어설 것으로 예상된다. 심각한 농인뿐 아니라, 훨씬 더 많은 인구가 상황적 청각 어려움을 겪는다. 예를 들어 대중교통, 오픈형 사무실, 붐비는 카페와 같은 시끄러운 환경에서 정상적인 청력을 가지고 있어도 오디오를 들을 수 없는 사람들, 일시적으로 오디오 하드웨어에 접근할 수 없는 사용자, 그리고 조용한 환경에서 소리를 끄고 콘텐츠를 시청해야 하는 사람들이다.

농인 또는 난청 사용자에게 자막은 편의 기능이 아니라, 비디오의 음성 콘텐츠에 접근할 수 있는 유일한 수단이다. 자막이 없다면, 전자상거래 사이트를 방문한 농인 사용자는 제품 시연 영상을 이해할 수 없고, 농인 학생은 녹화된 강의를 따라갈 수 없으며, 농인 환자는 병원의 안내 영상에 담긴 정보를 습득할 수 없다. 영상이 얼마나 선명하게 촬영되었는지, 제작 품질이 얼마나 높은지와 상관없이, 정보는 그들에게 완전히 접근 불가능하다.

자막은 주의력결핍/과잉행동장애(ADHD)나 난독증과 같은 인지 및 학습 장애가 있는 사람들에게도 도움이 된다. 이들은 정보가 오디오와 텍스트 형태로 동시에 제시될 때 더 쉽게 처리할 수 있는 경우가 많다. 비원어민 사용자도 자막을 통해 억양이 강하거나 말 속도가 빠른 음성을 더 잘 이해할 수 있다. 65세 이상 인구의 약 3분의 1에 영향을 미치는 연령 관련 청력 저하를 겪는 고령 사용자 역시 자막에 의존한다.

구체적인 상황을 생각해 보자. 한 터키 은행이 디지털 계좌 개설 방법을 설명하는 영상을 웹사이트에 게시한다. 농인인 잠재 고객이 사이트를 방문한다. 자막이 없다면, 그녀는 말로 설명되는 단계들을 전혀 이해할 수 없고, 절차를 따라갈 수 없으며, 작업을 완료할 수 없다. 이는 접근성 실패일 뿐 아니라 은행 입장에서는 비즈니스 기회 상실이기도 하다. 반면 정확하고 동기화된 자막이 있다면, 그녀는 모든 단계를 따라가 온보딩을 완료하고 고객이 될 수 있다.

장애인의 접근성 외에도, 자막은 측정 가능한 SEO 및 사용성 이점을 제공한다. WebVTT나 SRT 형식의 자막 파일은 기계가 읽을 수 있으므로, 검색 엔진이 비디오 콘텐츠의 전체 텍스트를 색인화할 수 있어 검색 가능성이 향상된다. 연구에 따르면 대다수의 사용자가 소셜 미디어 동영상을 소리 없이 시청하며, 이 경우 자막은 사실상 일반 사용자에게도 유용한 사용성 기능이 된다. 자막은 또한 검색 엔진과 접근성 평가 도구가 삽입된 비디오의 목적과 내용을 더 잘 이해하도록 도와, 전체 페이지 품질 신호에 기여한다.

테스트 방법

모든 동기화 미디어 목록 작성: 어떤 도구를 실행하기 전에, 페이지를 수동으로 검토하여 모든 비디오 요소를 식별한다. 삽입된 <video> 태그, iframe으로 삽입된 플레이어(YouTube, Vimeo, 서드파티), 그리고 모든 HTML5 미디어 플레이어를 포함한다. 각 비디오를 나열하고, 의미 있는 오디오(대화, 내레이션, 중요한 음향 효과)를 포함하는지 여부를 기록한다. 오디오 트랙이 없거나 정보 전달 역할을 하지 않는 배경 음악만 있는 비디오는 다르게 취급할 수 있지만, 그 근거를 문서화해야 한다.
axe DevTools 또는 Lighthouse로 자동 스캔 실행: 브라우저 개발자 도구에서 axe DevTools를 열고 전체 페이지 스캔을 실행한다. 비디오나 오디오 요소와 관련된 위반 또는 불완전 항목이 있는지 확인한다. Chrome DevTools의 Accessibility 감사 카테고리에서 실행하는 Lighthouse 역시 <track> 요소가 없는 비디오를 표시한다. 자동 검사 결과에 문제가 없다고 해서 기준을 충족했다는 의미는 아니다. 이는 단지 명백히 누락된 트랙이 감지되지 않았다는 뜻이다. 자동 검사 결과는 결론이 아니라 출발점으로 취급해야 한다.
HTML 소스 검사: 페이지의 각 <video> 요소에 대해 DOM을 검사하여 <track kind='captions'> 요소가 존재하는지, 그리고 그 src 속성이 유효하고 접근 가능한 자막 파일(WebVTT 또는 SRT)을 가리키는지 확인한다. srclang 속성이 적절한 언어로 설정되어 있는지 확인한다. 브라우저에서 URL을 직접 열어 네트워크 오류 없이 파일이 로드되는지도 확인한다.
비디오를 재생하며 자막을 수동 평가: 비디오 플레이어에서 자막을 활성화한다(오픈 자막인 경우 자동으로 표시되는지 확인). 비디오 전체를 시청하거나, 시작·중간·끝에 걸쳐 통계적으로 대표성이 있는 구간을 샘플링해 시청한다. 각 구간에서 다음을 확인한다. (a) 대화가 큰 오류 없이 정확히 전사되어 있는지, (b) 이해에 도움이 되는 경우 화자 변경이 식별되는지, (c) 의미 있는 비음성 오디오가 대괄호로 설명되는지(예: [phone ringing]), (d) 자막이 오디오와 동기화되어 나타나고 사라지는지(발화보다 현저히 앞서거나 뒤처지지 않는지).
필요 시 스크린 리더로 테스트: NVDA+Firefox, VoiceOver+Safari, JAWS+Chrome을 사용해 비디오 요소로 이동한다. 플레이어 컨트롤이 키보드로 접근 가능한지, 마우스 없이 자막을 켜고 끌 수 있는지 확인한다. 이는 자막 기능의 존재뿐 아니라 사용성을 함께 테스트하는 것이다.
서드파티 삽입 플레이어 테스트: YouTube나 Vimeo 플레이어를 iframe으로 삽입한 경우, 해당 플랫폼에서 직접 비디오를 열어 자막이 업로드되어 있고 기본적으로 활성화되어 있거나 쉽게 켜고 끌 수 있는지 확인한다. YouTube와 같은 플랫폼의 자동 생성 자막은 사람이 검토하고 수정하지 않는 한 WCAG 1.2.2를 충족하지 못한다.
증거와 함께 통과/실패 문서화: 테스트한 각 비디오에 대해 페이지 URL, 비디오 제목 또는 설명, 자막 존재 여부, 정확성 평가를 기록한다. 검토 과정에서 캡처한 스크린샷이나 타임스탬프가 있는 메모는 감사 증거가 된다.

수정 방법

캡션 트랙이 없는 HTML5 비디오 — 잘못된 예

<!-- Fails 1.2.2: video with audio has no caption track at all -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  Your browser does not support the video element.
</video>

캡션 트랙이 없는 HTML5 비디오 — 올바른 예

<!-- Passes 1.2.2: a WebVTT caption track is linked with kind='captions' -->
<video controls width='800'>
  <source src='product-demo.mp4' type='video/mp4'>
  <!-- The track element links the WebVTT file; srclang and label aid player UI -->
  <track
    kind='captions'
    src='product-demo-captions-en.vtt'
    srclang='en'
    label='English Captions'
    default
  >
  Your browser does not support the video element.
</video>

자막 트랙 없이 자막(subtitle) 트랙만 있는 다국어 비디오 — 잘못된 예

<!-- Fails 1.2.2: kind='subtitles' provides translated dialogue but omits -->
<!-- sound effect descriptions and speaker identification needed for deaf users -->
<video controls width='800'>
  <source src='webinar.mp4' type='video/mp4'>
  <track kind='subtitles' src='webinar-tr.vtt' srclang='tr' label='Turkish'>
</video>

자막 트랙 없이 자막(subtitle) 트랙만 있는 다국어 비디오 — 올바른 예

<!-- Passes 1.2.2: a dedicated captions track is provided alongside subtitles. -->
<!-- The captions file includes [Speaker: Dr. Aydin], [applause], etc. -->
<video controls width='800'>
  <source src='webinar.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='webinar-captions-tr.vtt'
    srclang='tr'
    label='Turkish Captions'
    default
  >
  <track kind='subtitles' src='webinar-en.vtt' srclang='en' label='English'>
</video>

수정되지 않은 자동 생성 자막에 의존하는 YouTube 임베드 — 잘못된 예

<!-- Fails 1.2.2: uncorrected auto-captions are not considered accurate captions -->
<iframe
  width='800'
  height='450'
  src='https://www.youtube.com/embed/VIDEOID'
  title='Company Introduction Video'
  allowfullscreen
></iframe>

검증된 사람 편집 자막이 있는 YouTube 임베드 — 올바른 예

<!-- Passes 1.2.2 provided that captions have been uploaded or reviewed -->
<!-- in YouTube Studio and confirmed accurate by a human reviewer. -->
<!-- The &cc_load_policy=1 parameter enables captions by default. -->
<iframe
  width='800'
  height='450'
  src='https://www.youtube.com/embed/VIDEOID?cc_load_policy=1&cc_lang_pref=tr'
  title='Company Introduction Video'
  allowfullscreen
></iframe>
<!-- Also ensure in YouTube Studio that the caption track is marked as -->
<!-- human-reviewed and that auto-captions have been corrected. -->

자주 발생하는 실수

동기화된 자막 대신 텍스트 대본만 제공하는 경우: 비디오 아래나 옆에 표시되는 대본은 일부 상황에서 WCAG 1.2.3(오디오 설명 또는 미디어 대체)을 충족할 수 있지만, 1.2.2를 충족하지는 못한다. 자막은 비디오 타임라인과 동기화되어야 하며, 해당 오디오가 재생되는 순간에 텍스트가 나타나야 한다. 정적인 텍스트 블록은 이 요구 사항을 충족하지 못한다.
kind='captions' 대신 kind='subtitles'를 사용하는 경우: 자막(subtitles)은 오디오를 들을 수 있지만 언어를 이해하지 못하는 시청자를 위해 설계되었으며, 일반적으로 다른 언어로 번역된 말로 된 대화만 포함한다. 캡션(captions)은 오디오를 전혀 들을 수 없는 시청자를 위해 설계되었으며, 화자 식별, 의미 있는 음향 효과, 기타 비음성 정보를 포함해야 한다. 캡션이 필요한 곳에 자막 트랙을 대신 사용하는 것은 흔하지만 영향이 큰 오류다.
YouTube 등 플랫폼의 수정되지 않은 자동 생성 자막에 의존하는 경우: 자동 생성 자막은 음성 인식을 사용하며, 특히 기술 용어, 고유명사, 억양, 빠른 말 속도에서 자주 오류를 낸다. WCAG는 자막의 정확성을 요구한다. 사람이 검토하고 수정하지 않은 자동 생성 자막은 1.2.2의 정확성 기준을 충족하지 못한다.
<track> 요소는 있지만 깨졌거나 누락된 VTT 파일을 가리키는 경우: track 요소의 src 속성이 404 오류를 반환하는 파일 경로를 참조하면, 자막은 조용히 로드에 실패한다. HTML은 자동 검사에서 통과하지만, 사용자는 자막을 전혀 받지 못한다. 항상 운영 환경에서 자막 파일 URL이 올바르게 응답하는지 확인해야 한다.
자막 파일에서 의미 있는 비음성 오디오를 누락하는 경우: 말로 된 단어만 전사하고 중요한 소리(알람, 전화 벨소리, 박수, 영상 이해에 핵심적인 충돌음 등)를 무시하는 자막 파일은 이 기준을 충족하지 못한다. 자막은 대화뿐 아니라 콘텐츠 이해에 필요한 모든 오디오 정보를 설명해야 한다.
오디오와 현저히 동기화되지 않은 자막: 타임스탬프가 잘못된 WebVTT 파일은 자막을 해당 발화보다 몇 초 앞서거나 뒤에 표시할 수 있다. 이는 이해를 방해하며, 자막 텍스트 자체가 정확하더라도 실패에 해당한다. 특히 장면 전환과 일시 정지 구간에서 비디오 전체에 걸쳐 동기화를 검토해야 한다.
미디어 대체 예외가 광범위하게 적용된다고 가정하는 경우: 일부 팀은 비디오와 함께 작성된 기사가 있으면, 비디오가 미디어 대체물에 해당하므로 자막이 필요 없다고 가정한다. 이 예외는 비디오가 텍스트에 담긴 정보 이상을 전혀 추가하지 않고, 그 관계가 사용자에게 명시적이며, 비디오가 대체물로 명확히 표시된 경우에만 적용된다. 시연, 화자의 어조, 텍스트에 포함되지 않은 시각 정보를 추가하는 비디오는 예외에 해당하지 않는다.
마우스로만 접근 가능한 자막 컨트롤을 두는 경우: 자막이 존재하더라도, 커스텀 비디오 플레이어에서 자막을 켜는 버튼이 키보드로 접근 불가능하다면(예: onclick 핸들러만 있는 스타일링된 <div>이고 tabindex='0'나 키보드 이벤트 리스너가 없는 경우), 키보드 내비게이션에 의존하는 사용자는 자막을 켤 수 없다. 자막 기능 자체가 키보드로 조작 가능해야 한다.
삽입 또는 서드파티 플레이어에서 자막을 테스트하지 않는 경우: 팀은 개발 환경에서 자막 동작을 테스트하면서, 운영 환경에서의 서드파티 플레이어(Vimeo, Wistia, JW Player 등) 임베드가 다른 자막 로딩 동작, 기본 상태, API 구성을 가질 수 있다는 점을 간과하는 경우가 많다. 실제 운영 임베드 환경에서 자막 경험을 항상 테스트해야 한다.
다국어 사이트에서 한 언어로만 자막을 제공하는 경우: WCAG는 사이트가 지원하는 모든 언어에 자막을 제공할 것을 엄격히 요구하지는 않지만, 예를 들어 사이트와 비디오 콘텐츠가 터키어와 영어로 제공되는데 자막이 한 언어로만 제공된다면, 일부 사용자는 접근 가능한 콘텐츠를 받는 반면 다른 사용자는 그렇지 못하게 된다. 모범 사례는 비디오의 각 언어 버전에 맞는 자막 트랙을 제공하는 것이다.

터키 접근성 규정과의 관계

2025년 6월 21일, 관보 제32933호에 게재된 터키 대통령령 2025/10은 터키에서 운영되는 광범위한 공공 및 민간 기관에 대해 구속력 있는 웹 접근성 의무를 수립한다. 이 대통령령은 최소 기준으로 WCAG 2.2 A 레벨 준수를 의무화하고, AA 레벨 준수를 강력히 권고한다. WCAG 1.2.2 — 자막(사전 녹화)은 A 레벨 요구사항으로, 대통령령에서 가장 기본적인 의무 중 하나에 해당하며, 이를 준수하지 않는 것은 직접적인 규정 위반이 된다.

대통령령의 적용 대상에는 모든 수준의 공공기관 및 정부 기관, 전자상거래 플랫폼, 은행 및 금융기관, 병원 및 의료 서비스 제공자, 200,000명 이상의 가입자를 보유한 통신 사업자, 허가받은 여행사, 민간 운송 회사, 그리고 교육부(MoNE)의 인가를 받은 사립학교가 포함된다. 공공기관은 대통령령 공포일로부터 1년 이내에 준수를 달성해야 한다. 해당 범주에 속하는 민간 부문 기관은 2년의 준수 기간을 가진다.

이 범주에 속한 조직에게 WCAG 1.2.2의 실질적 의미는 명확하다. 웹사이트나 디지털 플랫폼에 게시되는 모든 비디오 콘텐츠 중 의미 있는 오디오를 포함하는 것은 정확한 자막을 제공해야 한다. 이는 제품 설명 및 온보딩 영상이 흔한 은행, 환자 교육 영상을 온라인에 자주 게시하는 의료 분야, 제품 시연 영상이 쇼핑 경험의 핵심인 전자상거래 분야에서 특히 중요하다. 모바일 뱅킹 사용 방법을 설명하는 비디오 튜토리얼을 자막 없이 게시하는 은행이나, 수술 후 관리 지침을 설명하는 비디오를 자막 없이 게시하는 병원은 대통령령의 A 레벨 요구사항을 직접적으로 위반하는 것이다.

대통령령은 별도의 터키 표준을 제정하지 않고, 국제적으로 인정된 WCAG 2.2 기준을 직접 참조한다. 이는 터키의 컴플라이언스 팀이 W3C가 정의하고 이 글에서 설명하는 WCAG 1.2.2 명세를 따라야 함을 의미한다. 조직은 자막 제공 관행을 문서화하고, 비디오 콘텐츠와 함께 자막 파일 버전 기록을 유지하며, 비디오 콘텐츠 게시 워크플로에 자막 정확성 검토를 표준 단계로 포함해야 한다. 규정 준수를 위한 접근성 감사에는 자막 정확성에 대한 수동 검토가 반드시 포함되어야 하며, 자동 도구만으로는 이 기준에 대한 준수를 입증하기에 충분하지 않다.