・原文の意味と意図を正確に保ちます ・文体とトーンを原文に合わせて再現します ・行区切りや段落構成をそのまま維持します ・固有名詞や数値、記号は原文どおりに扱います ・文化的・文脈的なニュアンスを自然な日本語で表現します 動画はウェブにおける支配的なコンテンツ形式ですが、キャプション、トランスクリプト、音声解説がなければ、何百万人ものユーザーを排除し、組織を重大な法的リスクにさらすことになります。このガイドでは、WCAGが具体的に何を求めているのか、各アクセシビリティレイヤーがどのように機能するのか、そしてそれらをサイト全体に実装するための実践的な手順を詳しく解説します。
あらゆるウェブサイト運営者の足を止めるべき数字があります。2024年だけで、米国では4,187件のデジタル・アクセシビリティ訴訟が提起されており、2025年はその件数を37%上回るペースで推移しています。 多くの訴訟の中心にあるのが動画コンテンツです。なぜなら、適切なアクセシビリティ機能を備えていない動画は、監査人や原告側弁護士が最も見つけやすいコンプライアンス違反のひとつだからです。しかし問題は法的リスクにとどまりません。米国だけでも4,800万人以上が何らかの聴覚障害を抱え、さらに何百万人もの人が全盲またはロービジョンであることを考えると、アクセシブルでない動画は、メッセージがオーディエンスの相当な割合にまったく届かないことを意味します。朗報なのは、動画をアクセシブルにすることは十分に実現可能であり、そのための技術——キャプション、トランスクリプト、音声解説——は、コンプライアンスとは無関係の、測定可能なビジネス上のメリットももたらすという点です。
なぜ動画アクセシビリティはもはや「任意」ではないのか
動画アクセシビリティをめぐる法的環境は、近年劇的に明確化されています。2024年4月8日、米国司法省(DOJ)は、ADA第2編の下でウェブおよびモバイルアプリへのアクセスを改善する最終規則を発表し、WCAG 2.1レベルAAと整合させました——これにより、州および地方自治体のウェブサイトやアプリにとっての標準が確立されました。 改訂された規則では、これらの主体に対し、キャプション、音声解説、アクセシブルな動画プレーヤーを提供し、さらにキーボード操作によるADA準拠の動画ナビゲーションを確保することを求めています。 人口5万人超の地域を対象とする公的機関のコンプライアンス期限は2026年4月24日であり、より小規模な公的機関には2027年4月までの猶予があります。
民間企業はADA第3編の対象となりますが、ここには単一の連邦レベルの期限はなく、代わりに継続的かつ活発な訴訟が存在します。裁判所は標準としてWCAG 2.1レベルAAを参照するケースが増えており、能動的なコンプライアンスがより安全な選択肢となっています。 この動きは、キャプションと音声解説がADAにおける不可欠な「補助的手段(auxiliary aids)」であることを確認するものであり、すべてのユーザーにとってデジタルコンテンツをよりアクセシブルにします。
法的リスクを超えて、オーディエンスの観点からも強力な論拠があります。Verizon MediaとPublicis Mediaが実施した調査によると、キャプションを利用している人の80%は聴覚障害を持っておらず、50%が「音声なしで動画を見ることが多いため、キャプションは重要だ」と考えています。 動画視聴は公共の場で行われることが増えており、調査対象者の69%が「公共の場で音声をオフにして動画を視聴した」と回答しています。 つまり、アクセシビリティ機能はニッチな配慮ではなく、メインストリームの視聴者の好みなのです。
障害のある人の71%は、ウェブサイトがアクセシブルでないと判断すると即座に離脱します。 サイト上のアクセシブルでない動画は1本ごとに、オーディエンスの大きなセグメントに対して自ら扉を閉ざしているのと同じです——そして、後述するように検索エンジンもこの問題から無縁ではありません。
WCAGフレームワーク:ガイドラインが実際に求めていること
Web Content Accessibility Guidelines(WCAG)は、「知覚可能(Perceivable)」「操作可能(Operable)」「理解可能(Understandable)」「堅牢(Robust)」という4つの中核原則と、「A」「AA」「AAA」という3つの適合レベルで構成されています。多くの法域において、法的コンプライアンスの目標となるのはレベルAAであり、動画アクセシビリティ要件の全範囲をカバーしています。どの成功基準がどのタイプのコンテンツに適用されるのかを理解することは、是正作業の優先順位を付ける前提として不可欠です。
事前に録画された同期メディア(音声と映像の両方を含む動画)について、レベルAおよびAAの主な要件は次のとおりです。
- SC 1.2.1 — 音声のみおよび動画のみ(事前録画): 事前に録音された音声のみメディアおよび事前に録画された動画のみメディアについては、コンテンツと同等の情報を提供する時間依存メディアの代替手段を提供しなければなりません。
- SC 1.2.2 — キャプション(事前録画): 同期メディア内のすべての事前録音された音声コンテンツにはキャプションを提供しなければなりません。ただし、そのメディアがテキストのメディア代替であり、その旨が明確にラベル付けされている場合を除きます。
- SC 1.2.3 — 音声解説またはメディアの代替(事前録画): 同期メディア内の事前録画された動画コンテンツについては、時間依存メディアの代替手段または音声解説を提供しなければなりません。ただし、そのメディアがテキストのメディア代替であり、その旨が明確にラベル付けされている場合を除きます。 これはレベルAの要件です。
- SC 1.2.4 — キャプション(ライブ): 同期メディア内のすべてのライブ音声コンテンツにはキャプションを提供しなければなりません。 これはレベルAAの要件です。
- SC 1.2.5 — 音声解説(事前録画): 同期メディア内のすべての事前録画された動画コンテンツには音声解説を提供しなければなりません。 これはSC 1.2.3の、より厳格なレベルAA版です。
WCAG 2.1および2.2は、キャプションや音声解説の要件に関して2.0と異なる点を導入していないことは注目に値します。つまり、基本的な義務は最近のバージョンを通じて一貫しています。変化したのは、これらの基準を参照する法的・規制上の環境です。
よくある誤解として、「トランスクリプトを提供すればキャプション要件を満たす」と考えられていることがありますが、これは誤りです。動画コンテンツにおいて、トランスクリプトだけでは不十分です。テキストは動画と同期していなければならないからです。 トランスクリプトとキャプションは重なる部分もありますが、目的は異なります。
キャプション:アクセシブルな動画の土台
キャプションとは、動画の音声トラックを同期・時間コード付きのテキストで表現したものです。視聴者が音声は聞こえるが言語が理解できないことを前提とする字幕とは異なり、クローズドキャプションは視聴者が音声を聞くことができないことを前提としています。 キャプションは、音声の補完または代替として時間とテキストを対応させたトラックを提供することで、ろう者や難聴のユーザーに動画へのアクセスを可能にします——そしてキャプションテキストの大部分は発話ですが、話者の識別や効果音など、コンテンツ理解に不可欠な非音声要素も含まれます。
本当にアクセシブルなキャプションと、単なるチェックボックス的なキャプションを分けるのは品質です。業界標準のキャプション精度は99%です。Minnesota大学Duluth校のMedia Hubによると、YouTubeの自動キャプションの精度は音声品質にもよりますが60〜70%にとどまります。 この差は非常に重要です。誤りだらけのキャプションは役に立たないだけでなく、ろう者や難聴の視聴者を積極的に誤解させ、彼らが依拠するコンテンツを歪めてしまいます。制作ワークフローにおいて、AI生成キャプションは「初稿」として扱うべきであり、完成品として扱うべきではありません。必ず人間によるレビューが必要です。
高品質なキャプションには、Described and Captioned Media Program(DCMP)が示す3つの特性があります。正確であること(誤りのないキャプションが理想)、一貫していること(スタイルと表示の統一)、明瞭であること(話者の識別や非音声情報を含む、音声の完全なテキスト表現)です。技術的な側面では、可読性はキャプションの表示方法にも左右されます。WCAGガイドラインでは、テキストの最小コントラスト比を4.5:1とすることを推奨しており、フォントサイズは少なくとも14ポイントとすべきだとしています。線が細いフォントや特異な特徴を持つフォントは読みづらいため推奨されません。
ウェブ向けの主要なキャプションファイル形式はWebVTTとSRTの2つです。WebVTTはウェブ動画に推奨される形式であり、HTML5動画プレーヤーのネイティブなキャプション形式で、スタイル指定をサポートし、ブラウザや動画プラットフォーム間で広くサポートされています。 SRTも一般的な形式であり、多くのプラットフォームで問題なく動作しますが、VTTに比べるとスタイル指定のオプションが少なくなります。 以下は、キャプショントラックを付与したHTML5 video要素の最小例です。
<video controls>
<source src='product-demo.mp4' type='video/mp4'>
<track
kind='captions'
src='product-demo-en.vtt'
srclang='en'
label='English'
default>
</video>
kind='captions'属性は重要です——このトラックが言語翻訳ではなく、ろう者や難聴のユーザー向けであることをブラウザや支援技術に示します。default属性を追加するとキャプションが自動的に表示されるようになり、ユーザーがCCボタンに気づかない可能性があるコンテンツ量の多いページでは検討に値します。
ライブ動画——ウェビナー、ライブ配信、オンラインイベント——については、WCAG 2.1レベルAAは、同期メディア内のすべてのライブ音声にキャプションを付けることを求めており、これはウェビナー、ライブイベント、リアルタイム放送において特に重要です。 Zoomのようなプラットフォームは、自動音声認識を用いたライブキャプションに対応しており、より高い精度が必要な場合には人間のキャプショナーを統合する仕組みも提供しています。
トランスクリプト:より広いアクセシビリティと深いリーチ
トランスクリプトとは、動画内のすべてを記録した文書であり、すべての発話、関連する効果音、そして(記述的トランスクリプトの場合は)重要な視覚情報を含みます。トランスクリプトは、動画コンテンツの音声部分を一語一句テキスト化したものに加え、読者の理解を助ける非音声情報も提供します——そして記述的トランスクリプトはさらに一歩進み、コンテンツ理解に役立つ視覚情報も追加します。
WCAG 2.1レベルAAの下では、トランスクリプトはポッドキャストや音声録音などの音声のみコンテンツに対して厳格に要求されます。キャプション付き動画については、WCAG 2.1レベルAAはトランスクリプトを必須とはしていません——しかし、トランスクリプトはすべての動画に対して推奨されます。なぜなら、トランスクリプトはろう・盲の人々にとってキャプションよりもアクセシブルであり、回線速度の遅いユーザー、動画の内容を素早くスキャンまたは検索したい人、単にテキストを好む人にもメリットがあるからです。 厳密なWCAG義務の有無にかかわらず、提供することがベストプラクティスです。
記述的トランスクリプトを書く際には、次の点を含めることを目指してください。
- すべての発話と、その話者の明示
- [拍手]、[警報音]のような意味のある効果音や非言語的な音声の手がかり
- 口頭で説明されていない画面上のテキスト、チャート、ビジュアルの説明
- 理解に影響する場面設定の情報
実務上の議論として、トランスクリプトを逐語的にすべきか、軽く編集すべきかという問題があります。逐語的トランスクリプトを求めるリソースもありますが、実際には編集されたトランスクリプトの方が望ましい場合が多いのです——なぜなら、あなたが書いている相手は実在の人間であり、明確で簡潔な言葉遣いの方がアクセシビリティを高めるからです。 「えー」「あのー」といったフィラー語を削除することは、正確性を損なうことなく可読性を高めるのが一般的です。
トランスクリプトはSEO面でも大きな効果をもたらします。検索エンジンは動画そのものを見ることはできませんが、キャプションやトランスクリプトはインデックスできます——動画ページにテキストトランスクリプトを追加することで、検索クエリと一致するクロール可能なコンテンツを検索エンジンに提供できるのです。 Discovery Digital Networksは、自社のYouTubeチャンネルでキャプションあり・なしの動画を比較する実験を行い、キャプション付き動画は平均7.32%多く再生されることを発見しました。また、キャプション内にしか存在しないフレーズを検索し、その動画がYouTube検索結果の4番目に表示されたことから、キャプションが検索ボットにインデックスされていることを確認しました。
音声解説:全盲・ロービジョンユーザーのためのアクセシビリティ
音声解説(Audio Description, AD)は、キャプションとはまったく異なるアクセシビリティの障壁に対処します。キャプションが「聞こえない」ユーザーに対応するのに対し、音声解説は「見えない」ユーザーに対応します。音声解説とは、動画内の意味のある視覚情報をナレーションすることで、文脈を提供し、話者を明確にし、視覚要素を言語化するものです——動画版の代替テキストと考えるとよいでしょう。 関連情報の例としては、表情やシーンなど、視覚のある視聴者が目で自然に受け取る一方で、セリフやナレーションでは伝えられないものが挙げられます。
すべての動画に音声解説が必要なわけではありません。一般的に、目を閉じても内容についていけるのであれば——たとえば、話し手がすべてを口頭で説明しているトーキングヘッドのインタビューなど——音声解説は不要な場合が多いでしょう。しかし、プレゼンテーションで視覚資料に言及しながら、それを口頭で説明していない場合には、音声解説が必要になる可能性が高いです。 UIをクリックしている様子だけを見せて操作をナレーションしないプロダクトデモ、図表を説明するトレーニング動画、シーン描写の多いマーケティング動画——これらはいずれも音声解説が必要なタイプのコンテンツです。
理解しておくべき音声解説には2種類あります。
- 標準音声解説: 既存のサウンドトラックの自然なポーズを利用して、動作、設定、登場人物の外見、ボディランゲージ、衣装、照明、画面上のテキストなどの視覚要素をナレーションとして挿入します。
- 拡張音声解説: 拡張音声解説では、必要に応じて解説のための時間を確保するために動画を一時的に停止します。拡張ADを提供する場合は、拡張音声解説付きバージョンと、そうでないバージョンの両方を用意します。 これはWCAGレベルAAA(SC 1.2.7)で要求されるものですが、標準のポーズでは不十分な場合のベストプラクティスでもあります。
ウェブ上で音声解説を実装するには、実務上の課題があります。音声解説の実装における課題のひとつはプレーヤーのサポートです——多くのブラウザや動画プレーヤーは、キャプションと同じ方法で音声解説をサポートしていません。しかし、Able Playerは完全にアクセシブルなクロスブラウザ対応HTML5メディアプレーヤーであり、別動画としての音声解説や、最新ブラウザが読み上げるWebVTTファイルとしての音声解説をサポートしています。 現時点で最も確実な制作手法は、音声解説をサウンドトラックに組み込んだ別バージョンの動画を録画し、標準版と解説付き版をユーザーが明確に切り替えられるように提供することです。
WCAG 2.1レベルAAの基準では、音声解説は視覚情報への同等のアクセスを提供しなければならないとされており、視覚のある視聴者が理解する主要な情報を捉える必要があります。 解説は平易で客観的な言葉で書きましょう。画面上に実際にあるものを描写し、解釈を述べないようにします——たとえば、「学生が手を挙げる」と言い、「学生が答えたがっているように見える」とは言わないようにします。
アクセシブルな動画プレーヤー:見落とされがちなレイヤー
キャプションや音声解説が完璧でも、動画プレーヤー自体がキーボードや支援技術で操作できなければ意味がありません。プレーヤーはコンテンツの配信メカニズムであり、それ自体がアクセシブルでなければならないのです。多くのユーザーはキーボードや支援技術だけでウェブを操作しているため、すべてのコンテンツはマウスを使わずにキーボードインターフェースで操作できる必要があります。
プレーヤーのアクセシビリティ要件として重要なのは、キーボードだけで完全に操作できること(再生、一時停止、シーク、音量、キャプションの切り替え、フルスクリーンなどにキーボードでアクセスできること)、コントロールにフォーカスインジケーターが視覚的に表示されること、すべてのインタラクティブ要素にARIAラベルが付与されていること、そしてキャプションのコントロールが見つけやすいことです。Section 508では、キャプションや音声解説のユーザーコントロールが、音量や再生/一時停止ボタンと同じレベルで利用可能であることも求めています。
自動再生は、特に注意すべき一般的なアクセシビリティ上の危険要因です。自動的に再生される動画は、多くのユーザーにとって不快であるだけでなく、注意欠如障害や自閉症のある視聴者、スクリーンリーダーに依存する視覚障害者にとって深刻な問題となり得ます——自動再生コンテンツがスクリーンリーダーの出力を妨げ、混乱を招き、アクセスを阻害する可能性があるからです。 すべての動画埋め込みで自動再生はデフォルトで無効にし、どうしても使用する場合は音量をミュートから開始し、すぐにアクセスできる一時停止機能を用意してください。
YouTube、Vimeo、Wistiaなどのサードパーティ動画を埋め込む際には、プラットフォームの埋め込みコードがキーボードフォーカスを正しく処理しているか、そしてiframeに意味のあるtitle属性が付与されているかを確認してください。これにより、スクリーンリーダーユーザーはプレーヤーに入る前に、自分が何と対話しようとしているのかを把握できます。
<iframe
src='https://www.youtube-nocookie.com/embed/VIDEO_ID'
title='Product walkthrough: Setting up your dashboard'
allowfullscreen>
</iframe>
アクセシブルな動画ワークフローの構築
動画アクセシビリティに最も持続可能なアプローチは、事後の是正ではなく、制作・公開のパイプラインに最初からアクセシビリティを組み込むことです。大規模な動画ライブラリを後から改修するコストは相当なものになり得ますが、最初から正しく作るコストはそれに比べればわずかです。
実践的なワークフローは次のようになります。プリプロダクションでは、詳細な台本を書きます。完成された台本は、その後に続くすべてのアクセシビリティ資産——キャプション、トランスクリプト、音声解説用スクリプト——の土台となり、良質なソースがあればこれらは格段に作りやすくなります。制作段階では、背景ノイズを最小限に抑え、明瞭な発話を心がけ、画面上のテキストやグラフィック、意味のある視覚的な動きは可能な限り口頭で説明するようにします。これにより、音声解説の負担が大幅に軽減されます。
ポストプロダクションは、アクセシビリティ資産を実際に作成する段階です。まず、好みのAIキャプションツールを使って初稿を生成し、その後必ず人間がレビューして修正します——特に専門用語、固有名詞、ドメイン固有の言葉遣いなど、AIの書き起こしが誤りやすい部分は注意が必要です。キャプションファイルに意味のある視覚情報の説明を加えることで、記述的トランスクリプトを作成します。音声解説のナレーションは、社内のナレーターかプロのADサービスを利用して制作します。
大規模な既存動画ライブラリを持つ組織では、利用状況に基づいて是正の優先順位を付けましょう。トラフィックの多い動画、オンボーディングやトレーニングコンテンツ、プロダクトデモ、コンバージョンファネル上のページに埋め込まれている動画から着手します。アクセシビリティ監査は今すぐ開始し、まず利用頻度の高い素材を優先し、そのうえで今後制作するすべての動画ワークフローにアクセシビリティを組み込んでいきましょう。
よくある高コストな失敗は、キャプションを「最終段階の成果物」——公開直前に追加するもの——として扱ってしまうことです。動画のエンコードやサムネイル作成をチェックするのと同じように、キャプションのレビューをQAチェックリストに組み込んでください。ワークフローの適切なタイミングで1時間かけるだけで、後の多くの是正作業を節約できます。
ビジネス上の意義:コンプライアンスを超えて
アクセシブルな動画は、障害のある人だけでなく、すべての視聴者にとって「より良い動画」です。この点に関するデータは説得力があります。15の大学・カレッジから2,124人の学生を対象にした全国調査では、98.6%の学生がキャプションを「役に立つ」と回答しました。 聴覚に問題のない学生の71%が少なくとも一部の時間でキャプションを利用しており、ESL(第二言語として英語を学ぶ)学生の66%がキャプションを「非常に」または「極めて」有用だと感じています。
エンゲージメントへの影響も同様に大きいものです。Facebookは、キャプション付き動画はキャプションなし動画と比べて再生回数が12%増加することを発見しました。別の調査では、キャプション付き動画の再生回数が40%増加し、クローズドキャプションが利用可能な場合、視聴者は動画を最後まで視聴する可能性が80%高くなることが示されました。
SEOのメリットは、こうしたエンゲージメントのメリットにさらに上乗せされます。動画トランスクリプトは、検索エンジンにコンテキストを提供することでSEOを最大化するのに役立ちます——これにより、ユーザーが関連する検索を行った際に、動画が検索結果ページでより高い可視性を得られる可能性があります。 トランスクリプトがあれば、動画からブログ記事、ニュースレター、ソーシャルメディア用スニペットを簡単に作成できます——つまり、ひとつの動画コンテンツを、ほとんど追加コストなしでマルチチャネルのコンテンツ資産へと転用できるのです。
最後に、長期的な人口動態のトレンドを考えてみましょう。世界保健機関(WHO)は、2050年までに約25億人が何らかの聴覚障害を抱え、そのうち10人に1人が重度の聴覚障害を持つと推計しています。 アクセシブルな動画に依存するオーディエンスは縮小していません。今日、動画アクセシビリティに投資するたびに、そのオーディエンスの拡大とともに複利的なリターンが得られるのです。
重要なポイント
- キャプションは、すべての事前録画およびライブの同期メディアに対して必須であり、これはWCAG 2.1レベルAAの要件です。自動生成キャプションはあくまで出発点に過ぎません——業界のベストプラクティスでは99%の精度が求められ、そのためにはAI出力に対する人間のレビューが、対外的なコンテンツにおいては不可欠です。
- トランスクリプトは、厳密に必須でない場合でも、すべての動画に対して強く推奨されます。 ろう・盲のユーザーに対応し、検索エンジンにクロール可能なテキストを提供することでSEOを改善し、コンテンツをテキストで流し読みしたい、あるいは参照したい視聴者すべてにメリットをもたらします。
- 音声解説は、音声で伝えられていない意味のある視覚情報を含む事前録画動画に対して、WCAGレベルAAで必須です。目を閉じてテストしてみて、重要な内容を見逃すようであれば、音声解説が必要です。
- 動画プレーヤーはキーボードで操作可能でなければならず、キャプションと音声解説のコントロールには適切なラベルが付いている必要があります。アクセシブルでないプレーヤーは、コンテンツ自体に対して行ったあらゆるアクセシビリティ投資を台無しにしてしまいます。
- 動画アクセシビリティのビジネス上の意義は、それ自体で十分に強力です。キャプション付き動画は再生回数と完視聴率が大幅に向上し、トランスクリプトはSEO順位を改善し、キャプション利用者の80%は聴覚障害を持っていません——アクセシブルな動画は、組織にとって重要なあらゆる指標において、より広いオーディエンスにリーチします。
