비디오는 웹에서 지배적인 콘텐츠 형식이지만, 자막, 대본, 음성 해설이 없으면 수백만 명의 사용자를 배제하고 조직을 심각한 법적 위험에 노출시킵니다. 이 가이드는 WCAG가 정확히 무엇을 요구하는지, 각 접근성 계층이 어떻게 작동하는지, 그리고 사이트 전반에 이를 구현하기 위한 실질적인 단계들을 자세히 설명합니다.

웹사이트 소유자라면 누구나 멈춰 서서 봐야 할 숫자가 있다. 2024년 한 해에만 미국에서 4,187건의 디지털 접근성 소송이 제기되었고, 2025년은 이보다 37% 더 높은 추세를 보이고 있다. 이들 사례의 중심에는 동영상 콘텐츠가 자리하고 있다. 적절한 접근성 기능이 없는 동영상은 감사 담당자나 원고 측 변호사가 가장 쉽게 찾아낼 수 있는, 가장 눈에 띄는 컴플라이언스 실패 사례이기 때문이다. 그러나 문제는 법적 리스크를 훨씬 넘어선다. 4,800만 명이 넘는 미국인이 어느 정도의 청력 손실을 겪고 있고, 수백만 명이 시각장애 또는 저시력을 가지고 있는 상황에서, 접근 불가능한 동영상은 곧 당신의 메시지가 상당한 비율의 잠재 시청자에게 도달하지 못한다는 뜻이다. 다행히 동영상을 접근 가능하게 만드는 일은 충분히 실현 가능하며, 여기에 사용되는 기술 — 자막, 대본(transcript), 화면해설(audio description) — 은 컴플라이언스와 무관하게 측정 가능한 비즈니스 성과까지 가져다준다.

왜 이제 동영상 접근성은 선택이 아닌가

최근 몇 년 사이 동영상 접근성을 둘러싼 법적 환경은 극적으로 명확해졌다. 2024년 4월 8일, 미국 법무부(DOJ)는 ADA 제2편(Title II) 하에서 웹과 모바일 앱 접근성을 개선하는 최종 규칙을 발표했으며, 이를 WCAG 2.1 AA 레벨과 정렬시켜 주·지방 정부 웹사이트와 앱의 표준으로 확립했다. 개정된 규칙은 이들 기관이 자막, 화면해설, 접근 가능한 동영상 플레이어를 제공하고, ADA 동영상 컴플라이언스를 위해 키보드 내비게이션을 보장할 것을 요구한다. 인구 50,000명 이상을 서비스하는 공공기관의 컴플라이언스 마감일은 2026년 4월 24일이며, 더 작은 공공기관은 2027년 4월까지猶予가 있다.

민간 기업은 ADA 제3편(Title III)의 적용을 받는데, 단일한 연방 차원의 마감일은 없지만 활발하고 지속적인 소송에 직면해 있다. 법원은 점점 더 WCAG 2.1 AA 레벨을 기준으로 참조하고 있으며, 선제적 컴플라이언스가 더 안전한 선택이 되고 있다. 이러한 전개는 자막과 화면해설이 ADA에서 말하는 필수적인 “보조 수단(auxiliary aids)”임을 확인해 주며, 모든 사용자를 위한 디지털 콘텐츠 접근성을 높인다.

법적 리스크를 넘어, 강력한 “시청자” 관점의 논거도 존재한다. Verizon Media와 Publicis Media가 실시한 설문조사에 따르면, 자막을 사용하는 사람들 중 80%는 청각장애가 없으며, 50%는 자주 소리 없이 동영상을 시청하기 때문에 자막이 중요하다고 생각한다. 동영상 시청은 점점 공공장소에서 이루어지고 있으며, 응답자의 69%가 공공장소에서 소리를 끄고 동영상을 시청했다고 답했다. 다시 말해, 접근성 기능은 틈새적 배려가 아니라 주류 시청자의 선호다.

장애가 있는 사람의 71%는 웹사이트가 접근 가능하지 않으면 즉시 떠난다. 당신의 사이트에 있는 접근 불가능한 동영상 하나하나는, 잠재 시청자의 상당한 일부에게 당신이 직접 닫아 버리는 문과 같다. 그리고 나중에 보겠지만, 검색 엔진도 이 문제에서 자유롭지 않다.

WCAG 프레임워크: 가이드라인이 실제로 요구하는 것

웹 콘텐츠 접근성 가이드라인(WCAG)은 네 가지 핵심 원칙 — 인지 가능(Perceivable), 운용 가능(Operable), 이해 가능(Understandable), 견고(Robust) — 과 세 가지 적합성 레벨 A, AA, AAA로 구성된다. 대부분의 관할 구역에서 법적 컴플라이언스의 목표는 AA 레벨이며, 이는 동영상 접근성 요구사항 전반을 포괄한다. 어떤 성공 기준이 어떤 유형의 콘텐츠에 적용되는지 이해하는 것은, 개선 작업의 우선순위를 정하기 전에 필수적이다.

사전 녹화된 동기화 미디어(오디오와 비주얼이 모두 있는 동영상)의 경우, 핵심 A 및 AA 레벨 요구사항은 다음과 같다.

SC 1.2.1 — 오디오 전용 및 비디오 전용(사전 녹화): 사전 녹화된 오디오 전용 및 비디오 전용 미디어의 경우, 콘텐츠와 동등한 정보를 제공하는 시간 기반 미디어 대체 수단이 제공되어야 한다.
SC 1.2.2 — 자막(사전 녹화): 사전 녹화된 모든 동기화 미디어의 오디오 콘텐츠에는 자막이 제공되어야 하며, 해당 미디어가 텍스트의 미디어 대체 수단이고 그 사실이 명확히 표시된 경우는 예외다.
SC 1.2.3 — 화면해설 또는 미디어 대체(사전 녹화): 동기화 미디어의 사전 녹화된 비디오 콘텐츠에 대해, 시간 기반 미디어 대체 수단 또는 화면해설이 제공되어야 하며, 해당 미디어가 텍스트의 미디어 대체 수단이고 그 사실이 명확히 표시된 경우는 예외다. 이는 A 레벨 요구사항이다.
SC 1.2.4 — 자막(실시간): 동기화 미디어의 모든 실시간 오디오 콘텐츠에는 자막이 제공되어야 한다. 이는 AA 레벨 요구사항이다.
SC 1.2.5 — 화면해설(사전 녹화): 동기화 미디어의 모든 사전 녹화된 비디오 콘텐츠에는 화면해설이 제공되어야 한다. 이는 SC 1.2.3의 더 엄격한 AA 레벨 버전이다.

WCAG 2.1과 2.2는 자막이나 화면해설 요구사항과 관련해 2.0과 차이를 도입하지 않았다는 점은 주목할 만하다. 즉, 근본적인 의무는 최근 버전 전반에 걸쳐 일관되게 유지되어 왔다. 달라진 것은 이 기준을 참조하는 법·규제 환경이다.

흔한 오해 중 하나는, 대본(transcript)을 제공하면 자막 요구사항을 충족한다는 것이다. 그렇지 않다. 동영상 콘텐츠의 경우, 텍스트가 동영상과 동기화되어야 하기 때문에 대본만으로는 충분하지 않다. 대본과 자막은 서로 겹치는 부분이 있지만, 목적이 분명히 다르다.

자막: 접근 가능한 동영상의 토대

자막은 동영상의 오디오 트랙을 동기화된 시간 코드 텍스트로 표현한 것이다. 시청자가 소리는 들을 수 있지만 언어를 이해하지 못한다고 가정하는 자막(subtitles)과 달리, 폐쇄 자막(closed captions)은 시청자가 소리를 들을 수 없다고 가정한다. 폐쇄 자막은 청각장애 및 난청 사용자를 위해 오디오를 보완하거나 대체하는 시간-텍스트 트랙을 제공하며, 자막 텍스트는 주로 음성 위주이지만, 화자 표시와 효과음처럼 콘텐츠 이해에 중요한 비음성 요소도 포함한다.

진정으로 접근 가능한 자막과 형식적 체크리스트용 자막을 가르는 변수는 “품질”이다. 업계 표준 자막 정확도는 99%다. University of Minnesota at Duluth의 Media Hub에 따르면, YouTube 자동 자막의 정확도는 오디오 품질에 따라 60–70% 수준에 불과하다. 이 격차는 매우 중요하다. 오류투성이 자막은 도움이 되지 않을 뿐 아니라, 콘텐츠에 의존하는 청각장애·난청 시청자를 적극적으로 오도하며, 그들이 의존하는 내용을 왜곡한다. 제작 워크플로에서 AI가 생성한 자막은 “초안”으로 취급해야 하며, 반드시 사람의 검토를 거쳐야 하는 완성 전 단계일 뿐이다.

고품질 자막은 Described and Captioned Media Program(DCMP)이 설명하는 세 가지 특성을 공유한다. 정확하다(오류 없는 자막이 목표), 일관성이 있다(스타일과 표현 방식의 통일), 명확하다(화자 식별과 비음성 정보를 포함한 오디오의 완전한 텍스트 표현). 기술적인 측면에서, 가독성은 자막 표시 방식에도 좌우된다. WCAG 가이드라인은 텍스트에 최소 4.5:1의 명도 대비 비율을 권장하며, 글꼴 크기는 최소 14포인트 이상이어야 한다 — 획이 가늘거나 특이한 글꼴은 읽기 어렵기 때문에 권장되지 않는다.

웹에서 지배적인 두 가지 자막 파일 형식은 WebVTT와 SRT다. WebVTT는 웹 동영상에 권장되는 형식으로, HTML5 동영상 플레이어의 기본 자막 형식이며, 스타일 지정 옵션을 지원하고 브라우저와 동영상 플랫폼 전반에서 폭넓게 지원된다. SRT는 또 다른 일반적인 형식으로 대부분의 플랫폼에서 잘 작동하지만, VTT보다 스타일 옵션이 적다. 다음은 자막 트랙이 연결된 HTML5 video 요소의 최소 예시다.

<video controls>
  <source src='product-demo.mp4' type='video/mp4'>
  <track
    kind='captions'
    src='product-demo-en.vtt'
    srclang='en'
    label='English'
    default>
</video>

kind='captions' 속성은 중요하다. 이 속성은 브라우저와 보조 기술에 이 트랙이 언어 번역이 아니라 청각장애·난청 사용자를 위한 것임을 알려준다. default 속성을 추가하면 자막이 자동으로 표시되는데, 사용자가 CC 버튼을 눈치채지 못할 수 있는 콘텐츠가 많은 페이지에서는 고려해 볼 만하다.

실시간 동영상 — 웨비나, 라이브 스트림, 가상 이벤트 — 의 경우, WCAG 2.1 AA 레벨은 동기화 미디어의 모든 실시간 오디오에 자막을 요구하며, 이는 웨비나, 라이브 이벤트, 실시간 방송에서 특히 중요하다. Zoom 같은 플랫폼은 자동 음성 인식을 활용한 실시간 자막을 지원하며, 더 높은 정확도가 필요할 때는 사람 자막 작성자를 연동하는 메커니즘도 제공한다.

대본(Transcripts): 더 넓은 접근성, 더 깊은 도달

대본은 동영상의 모든 내용을 담은 문서로, 모든 대화, 관련 효과음, (설명형 대본의 경우) 중요한 시각 정보를 포함한다. 대본은 동영상 콘텐츠의 오디오 부분을 단어 그대로 텍스트로 옮기고, 독자가 콘텐츠를 이해하는 데 도움이 되는 비음성 오디오 정보도 포함한다 — 설명형 대본은 한 걸음 더 나아가, 사람들의 이해를 돕는 시각 정보까지 추가한다.

WCAG 2.1 AA 레벨에서는 팟캐스트나 오디오 녹음처럼 오디오 전용 콘텐츠에 대해 대본을 엄격히 요구한다. 자막이 있는 동영상의 경우, WCAG 2.1 AA 레벨에서 대본이 필수는 아니지만, 모든 동영상에 대본을 제공하는 것이 권장된다. 대본은 자막보다 시청각장애(청각·시각 중복 장애) 사용자에게 더 접근 가능하고, 인터넷 속도가 느린 사람, 동영상 내용을 빠르게 훑어보거나 검색하고 싶은 사람, 단순히 텍스트를 선호하는 사람에게도 도움이 되기 때문이다. 엄격한 WCAG 의무 여부와 관계없이, 대본을 제공하는 것이 모범 사례다.

설명형 대본을 작성할 때는 다음을 포함하는 것을 목표로 하라.

모든 대화 내용과 각 발화자의 이름
의미 있는 효과음과 비언어적 오디오 신호(예: [박수], [경보음])
음성으로 설명되지 않은 화면상의 텍스트, 차트, 시각 자료에 대한 설명
이해에 영향을 미치는 장면 설정 정보

실무에서 자주 논의되는 쟁점은, 대본을 완전한 구어 그대로 옮길지(verbatim) 아니면 약간 편집할지 여부다. 일부 자료는 완전한 구어 대본을 고집하지만, 실제 사람을 위한 글이라는 점을 고려하면 편집된 대본이 더 나은 경우가 많다 — 명확하고 간결한 언어가 접근성을 높이기 때문이다. “음”, “어” 같은 군더더기 말은 정확성을 해치지 않으면서도 가독성을 높이는 방향으로 제거하는 것이 일반적으로 좋다.

대본은 SEO 측면에서도 상당한 이점을 제공한다. 검색 엔진은 동영상을 시청할 수는 없지만, 자막과 대본은 색인할 수 있다 — 동영상 페이지에 텍스트 대본을 추가하면, 검색 엔진이 검색어와 일치하는 크롤링 가능한 콘텐츠를 확보하게 된다. Discovery Digital Networks는 YouTube 채널에서 자막이 있는 동영상과 없는 동영상을 비교하는 실험을 진행했다. 그 결과, 자막이 있는 동영상은 평균 7.32% 더 많은 조회수를 기록했으며, 자막이 검색 봇에 의해 색인된다는 사실도 확인했다 — 자막에만 등장하고 다른 어디에도 없는 문구를 검색해 보았을 때, 해당 동영상이 YouTube 검색 결과 4위에 노출되었다.

화면해설(Audio Descriptions): 시각장애·저시력 사용자를 위한 접근성

화면해설(AD)은 자막과는 완전히 다른 접근성 장벽을 다룬다. 자막이 소리를 들을 수 없는 사용자를 위한 것이라면, 화면해설은 볼 수 없는 사용자를 위한 것이다. 화면해설은 동영상 속 의미 있는 시각 정보를 설명하는 내레이션으로, 맥락을 제공하고 화자를 명확히 하며 시각 요소를 구체화한다 — 동영상용 대체 텍스트(alt text)라고 생각하면 된다. 관련 정보의 예로는 표정과 장면 등, 시각 사용자가 시각적으로 받아들이지만 대화나 내레이션으로 전달되지 않는 모든 것이 포함된다.

모든 동영상에 화면해설이 필요한 것은 아니다. 일반적으로 눈을 감고도 프로그램을 따라갈 수 있다면 — 예를 들어, 화자가 모든 내용을 말로 설명하는 인터뷰 형식의 동영상 — 화면해설이 필요하지 않을 수 있다. 그러나 발표자가 시각 자료를 언급하면서도 이를 말로 설명하지 않는다면, 화면해설이 필요할 가능성이 크다. UI를 클릭하는 모습만 보여주고 동작을 설명하지 않는 제품 데모, 도표를 설명하는 교육 영상, 장면 연출 위주의 마케팅 영상 등은 모두 화면해설이 필요하다.

이해해야 할 화면해설 유형은 두 가지다.

표준 화면해설(Standard audio description): 기존 사운드트랙의 자연스러운 공백을 활용해, 행동, 배경, 등장인물의 외모, 몸짓, 의상, 조명, 화면 텍스트 같은 시각 요소를 설명하는 내레이션을 삽입한다.
확장 화면해설(Extended audio description): 확장 화면해설에서는 필요할 때 동영상을 잠시 멈춰 설명을 위한 시간을 더 확보한다. 확장 AD의 경우, 확장 화면해설이 포함된 버전과 포함되지 않은 버전 두 가지를 제공해야 한다. 이는 WCAG AAA 레벨(SC 1.2.7)에서 요구되지만, 표준 공백만으로는 설명이 충분하지 않을 때 모범 사례로 간주된다.

웹 환경에서 화면해설을 구현하는 데는 실무적인 어려움이 있다. 화면해설 구현의 주요 과제 중 하나는 플레이어 지원이다 — 대부분의 브라우저와 동영상 플레이어는 자막을 지원하는 방식으로 화면해설을 지원하지 않는다. 그러나 Able Player는 화면해설을 별도 동영상으로 또는 현대 브라우저가 읽어 줄 수 있는 WebVTT 파일로 지원하는, 완전 접근 가능한 크로스 브라우저 HTML5 미디어 플레이어다. 가장 신뢰할 수 있는 제작 방식은 여전히 화면해설 오디오를 사운드트랙에 통합한 별도 버전의 동영상을 녹음하고, 표준 버전과 화면해설 버전 사이를 명확히 표시된 토글로 제공하는 것이다.

WCAG 2.1 AA 기준은 화면해설이 시각 정보에 대한 동등한 접근을 제공할 것을 요구하며, 이는 시각 사용자가 이해하는 핵심 정보를 반드시 담아야 한다는 의미다. 설명은 평이하고 객관적인 언어로 작성하라. 화면에 실제로 보이는 것을 묘사하되, 해석을 덧붙이지 말라 — 예를 들어 “한 학생이 손을 든다”라고 말하고, “한 학생이 답하고 싶어 하는 것처럼 보인다”라고 말하지 않는다.

접근 가능한 동영상 플레이어: 자주 간과되는 층위

자막과 화면해설이 아무리 완벽해도, 동영상 플레이어 자체가 키보드나 보조 기술로 조작할 수 없다면 아무 소용이 없다. 플레이어는 전달 메커니즘이며, 그 자체로 접근 가능해야 한다. 많은 사용자가 키보드나 보조 기술만으로 웹을 탐색하므로, 모든 콘텐츠는 마우스 없이도 키보드 인터페이스로 조작 가능해야 한다.

플레이어 접근성의 핵심 요구사항에는 전체 키보드 조작 가능(재생, 일시정지, 탐색, 볼륨, 자막 토글, 전체 화면을 모두 키보드로 조작 가능), 컨트롤에 대한 시각적 포커스 표시, 모든 인터랙티브 요소에 대한 ARIA 레이블, 찾기 쉬운 자막 컨트롤 등이 포함된다. Section 508은 또한 자막과 화면해설을 위한 사용자 컨트롤이 볼륨이나 재생/일시정지 버튼과 동일한 수준에서 제공될 것을 요구한다.

자동 재생(auto-play)은 특별히 주의해야 할 흔한 접근성 위험 요소다. 자동으로 재생되는 동영상은 많은 사용자에게 불편을 줄 수 있으며, 주의력 장애, 자폐 스펙트럼, 화면 읽기 프로그램에 의존하는 시각장애 사용자에게 심각한 문제를 야기할 수 있다 — 자동 재생 콘텐츠가 스크린 리더 출력을 방해해 혼란을 초래하고 접근을 가로막을 수 있기 때문이다. 모든 동영상 임베드에서 기본적으로 자동 재생을 비활성화하고, 꼭 사용해야 한다면 볼륨을 음소거 상태로 시작하고 즉시 접근 가능한 일시정지 메커니즘을 제공하라.

YouTube, Vimeo, Wistia 등 서드파티 동영상을 임베드할 때는, 플랫폼의 임베드 코드가 키보드 포커스를 올바르게 전달하는지, 그리고 iframe에 의미 있는 title 속성이 있어 스크린 리더 사용자가 플레이어로 이동하기 전에 무엇과 상호작용하는지 알 수 있는지 확인하라.

<iframe
  src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
  title='Product walkthrough: Setting up your dashboard'
  allowfullscreen>
</iframe>

접근 가능한 동영상 워크플로 구축

동영상 접근성에 대한 가장 지속 가능한 접근 방식은 사후 개선이 아니라, 처음부터 제작·게시 파이프라인에 접근성을 통합하는 것이다. 방대한 동영상 라이브러리를 사후에 수정하는 비용은 상당하지만, 처음부터 제대로 만드는 비용은 그에 비해 미미하다.

실용적인 워크플로는 다음과 같다. 사전 제작 단계에서 상세한 스크립트를 작성한다. 완성도 높은 스크립트는 이후 모든 접근성 산출물 — 자막, 대본, 화면해설 스크립트 — 의 토대가 되며, 좋은 원본 자료가 있을 때 이 모든 작업이 훨씬 쉬워진다. 제작 단계에서는 배경 소음을 최소화하고, 명확한 발음을 사용하며, 화면 텍스트·그래픽·의미 있는 시각적 행동을 가능한 한 말로 설명하도록 한다. 이는 화면해설 부담을 크게 줄여 준다.

후반 작업 단계에서 접근성 산출물이 제작된다. 선호하는 AI 자막 도구를 사용해 초안을 생성한 뒤, 특히 기술 용어, 고유명사, 도메인 특화 언어처럼 AI 음성 인식이 오류를 내기 쉬운 부분은 사람 검토를 통해 수정한다. 자막 파일에 의미 있는 시각 정보에 대한 설명을 결합해 설명형 대본을 만든다. 화면해설 내레이션은 내부 성우나 전문 AD 서비스 중 하나를 활용해 제작한다.

방대한 기존 동영상 라이브러리를 보유한 조직의 경우, 사용량을 기준으로 개선 우선순위를 정하라. 트래픽이 가장 많은 동영상, 온보딩 및 교육 콘텐츠, 제품 데모, 전환 퍼널에 포함된 페이지에 임베드된 동영상부터 시작하라. 지금 바로 접근성 감사를 시작하고, 사용량이 높은 자료를 우선적으로 개선한 뒤, 앞으로 제작되는 모든 동영상 워크플로에 접근성을 내재화하라.

비용이 많이 드는 흔한 실수는 자막을 게시 직전에 추가하는 “최종 단계 산출물”로 취급하는 것이다. 인코딩이나 썸네일 생성처럼, 자막 검토를 QA 체크리스트에 포함하라. 워크플로의 적절한 시점에 1시간을 투자하면, 나중에 많은 시간의 사후 수정 작업을 절약할 수 있다.

비즈니스 관점: 컴플라이언스를 넘어

접근 가능한 동영상은 장애가 있는 사람뿐 아니라 모든 시청자에게 더 나은 동영상이다. 이를 뒷받침하는 데이터는 설득력이 있다. 15개 대학에서 2,124명의 학생을 대상으로 한 전국 연구에 따르면, 98.6%의 학생이 자막이 도움이 된다고 답했다. 청각에 문제가 없는 학생의 71%가 적어도 가끔은 자막을 사용하며, ESL(제2언어로 영어를 사용하는) 학생의 66%는 자막이 “매우” 또는 “극도로” 도움이 된다고 답했다.

참여도(engagement) 영향도 마찬가지로 크다. Facebook은 자막이 없는 동영상에 비해 자막이 있는 동영상의 조회수가 12% 증가했다고 밝혔고, 별도의 연구에서는 자막이 있는 동영상의 조회수가 40% 증가했으며, 폐쇄 자막이 제공될 때 시청자가 동영상을 끝까지 볼 가능성이 80% 더 높다는 결과가 나왔다.

SEO 이점은 참여도 이점 위에 더해진다. 동영상 대본은 검색 엔진에 맥락을 제공해 SEO를 극대화하는 데 도움이 되며 — 이는 사용자가 관련 검색어를 입력했을 때 동영상이 검색 결과 페이지에서 더 높은 가시성을 확보할 수 있음을 의미한다. 대본은 동영상에서 블로그 게시물, 뉴스레터, 소셜 미디어 스니펫을 쉽게 만들어낼 수 있게 해 준다 — 단일 동영상 콘텐츠를 최소한의 추가 비용으로 다채널 콘텐츠 자산으로 전환하는 셈이다.

마지막으로, 장기적인 인구 통계 추세를 고려해 보라. 세계보건기구(WHO)는 2050년까지 25억 명에 가까운 인구가 어느 정도의 청력 손실을 겪게 되고, 10명 중 1명은 상당한 청력 손실을 겪게 될 것으로 추정한다. 접근 가능한 동영상에 의존하는 시청자층은 줄어들지 않는다. 오늘 동영상 접근성에 투자하는 모든 비용은, 그 시청자층이 성장함에 따라 복리로 돌아오는 투자다.

핵심 요약

자막은 모든 사전 녹화 및 실시간 동기화 미디어에 필수이며, WCAG 2.1 AA 레벨에서 요구된다. 자동 생성 자막은 출발점일 뿐이다 — 업계 모범 사례는 99% 정확도를 요구하며, 이는 공용 콘텐츠의 경우 AI 출력에 대한 사람 검토가 필수적이라는 뜻이다.
대본은 모든 동영상에 강력히 권장되며, 필수는 아니더라도 시청각장애 사용자를 지원하고, 검색 엔진에 크롤링 가능한 텍스트를 제공해 SEO를 개선하며, 콘텐츠를 텍스트로 훑어보거나 참고하길 원하는 모든 시청자에게 도움이 된다.
화면해설은 오디오로 전달되지 않는 의미 있는 시각 정보가 있는 사전 녹화 동영상에 대해 WCAG AA 레벨에서 요구된다. 눈을 감고 테스트해 보라 — 중요한 내용을 놓친다면 화면해설이 필요하다.
동영상 플레이어는 키보드로 접근 가능해야 하며, 자막과 화면해설을 위한 컨트롤에 적절한 레이블이 붙어 있어야 한다. 접근 불가능한 플레이어는 콘텐츠 자체에 투자한 모든 접근성 노력을 무력화한다.
동영상 접근성에 대한 비즈니스 논거는 그 자체로 강력하다. 자막이 있는 동영상은 조회수와 완시율이 크게 증가하고, 대본은 SEO 순위를 개선하며, 자막 사용자 중 80%는 청각장애가 없다 — 접근 가능한 동영상은 조직에 중요한 모든 지표에서 더 넓은 시청자에게 도달한다.

동영상 접근성 높이기: 자막, 대본, 그리고 음성 해설