WCAG 達成基準 · Level A
WCAG 1.2.1: 音声のみおよび映像のみ(事前録画)
WCAG 1.2.1 は、事前に録音された音声のみおよび映像のみのコンテンツについて、音声や映像を聞いたり見たりできないユーザーも情報にアクセスできるよう、テキストベースまたはメディアによる代替手段を用意することを求めています。これはレベルAの要件であり、ウェブアクセシビリティ遵守のための最低限の基準であることを意味します。
- Level A
- Wcag
- Wcag 2 2 a
- 知覚可能
- アクセシビリティ
このルールの意味
WCAG 1.2.1 は、2つの異なる種類の時間依存メディアを対象としています。つまり、(ポッドキャストのエピソード、録音された電話案内、意味のある情報を伝える音楽トラックなどの)音声のみコンテンツと、(無音の説明アニメーションや音声のない製品デモ動画クリップなどの)動画のみコンテンツです。この達成基準は、これらそれぞれのメディアタイプに対して、元の形式を知覚できない人にも同じ情報が提供されるよう、同等の代替手段を付与することを求めています。
事前録音された音声のみコンテンツについては、必要な代替手段はテキストのトランスクリプトです。トランスクリプトには、話されたすべての言葉が記録され、必要に応じて話者が特定され、拍手、警報音、情報的な意味を持つ音楽などの、意味のある非音声の音も記述されていなければなりません。タイトルや短い説明を提供するだけでは不十分であり、トランスクリプトは、聞き手が耳で聞くすべての内容を完全にテキストで等価に再現している必要があります。
事前録音された動画のみコンテンツ(音声トラックがない、または音声トラックに意味のある情報が含まれていない動画)の場合、必要な代替手段はテキストのトランスクリプトまたは音声解説トラックのいずれかです。音声解説は、視覚的なコンテンツをナレーションし、画面上の動き、場面転換、画面に表示されるテキスト、その他の視覚的な詳細を説明することで、視覚障害者や弱視のユーザーが音声だけでコンテンツを理解できるようにします。
適合(pass)とみなされるには、代替手段がメディアと明確に関連付けられており、見つけやすく、情報内容として完全に同等である必要があります。代替手段は、ページ内にインラインで提供しても、リンクされた文書として提供しても、補助的な音声トラックとして提供しても構いませんが、同じページまたはプレーヤーインターフェースから容易にアクセスできなければなりません。
不適合(fail)となるのは、代替手段がまったく提供されていない場合、代替手段が不完全で意味のある情報を省略している場合、代替手段は存在するがあまりに見つけにくく、ユーザーがその存在を知っていることを前提としてしまっている場合、あるいは代替手段がメディアの実際の内容を再現せずに説明だけを行っている場合です(たとえば、「プレゼンターがデバイスのリセット方法を説明します」と書くだけで、実際の手順を一つひとつ記載していないケースなど)。
WCAG 1.2.1 には公式な例外が1つあります。音声のみまたは動画のみのコンテンツ自体が、すでにページ上にあるテキストのメディア代替として機能しており、その旨が明確にラベル付けされている場合には、追加の代替手段は不要です。たとえば、近くにある文章のチュートリアルで既に完全に説明されている内容を、そのまま視覚的に実演する短い動画は、ラベルによってその関係性がすべてのユーザーに明確に示されている限り、例外の対象となる可能性があります。
また、この達成基準は事前録音コンテンツのみを対象としている点にも注意が必要です。ライブの音声のみおよびライブの動画のみストリームは WCAG 1.2.9 で別途扱われており、ここでの対象外です。音声と動画の両方を含む(同期メディア)コンテンツは、1.2.1 ではなく WCAG 1.2.2(キャプション)および 1.2.3(音声解説またはメディアの代替)に該当します。
なぜ重要か
音声のみおよび動画のみのコンテンツは、複数の異なるユーザーグループにとって障壁となり得ます。それぞれのグループがどのような体験をしているかを理解することは、この達成基準が基礎的なレベル A に位置付けられている理由を理解するうえで不可欠です。
ろう者および難聴のユーザーは、テキストのトランスクリプトがなければ、事前録音された音声のみコンテンツの情報にアクセスできません。先天的に高度のろうである人にとって、ポッドキャストのインタビュー、録音されたカスタマーサービスの説明、音声のみの FAQ 回答などは、事実上アクセス不能であり、そのコンテンツが存在しないのと同じです。世界保健機関によると、世界で 15 億人以上が何らかの形の聴力低下を経験しており、そのうち約 4 億 3,000 万人がリハビリテーションを必要としています。トルコだけでも、調査によれば数百万人の市民が重大な聴覚障害を抱えており、その多くがトルコ手話や書き言葉を主なコミュニケーション手段としています。
盲人および視覚障害のあるユーザーは、動画のみコンテンツの代替手段の主な対象者です。無音の製品組み立て動画、データ可視化アニメーション、視覚のみのチュートリアルは、スクリーンリーダーが「動画要素がある」と告げるだけでは意味を成しません。音声解説やテキストのトランスクリプトがなければ、これらのユーザーはコンテンツから一切の情報を得ることができません。
認知障害や学習障害のあるユーザーは、情報が複数の形式で提供されていることで恩恵を受けることがよくあります。ディスレクシアのある人は、長い視覚的なシーケンスを読むよりも、音声解説を聞く方が理解しやすいかもしれません。一方で、別のユーザーは、自分のペースで何度も読み返せるステップごとの書き起こしを好むかもしれません。代替手段を提供することは、より幅広い情報処理スタイルを支援することにつながります。
状況的・環境的な制約もまた、恒久的な障害のあるユーザーをはるかに超えた広範なユーザビリティ上の根拠を生み出します。静かな図書館やオープンオフィスにいる人は音声コンテンツを再生できず、トランスクリプトがあれば大きな助けになります。低速なモバイル回線で動画をバッファリングできないユーザーは、テキストの代替手段をすぐに読むことができます。音声で使われている言語の非母語話者は、早口の話し言葉を追うよりも、トランスクリプトを読む方がはるかに理解しやすい場合があります。
具体的な現実のシナリオを考えてみましょう。あるトルコの銀行のウェブサイトが、新しいデビットカードの有効化方法を説明する事前録音の音声ガイドを公開しているとします。ろうの顧客が、このガイドを歓迎メールの一部として受け取ります。トランスクリプトがなければ、その顧客はサポート窓口に電話しない限り有効化を完了できませんが、そのプロセス自体がアクセシビリティ上の障壁となる可能性があります。構造化されたテキストのトランスクリプトを提供すれば、この依存関係は完全になくなり、顧客は他の人と同等にサービスを受けられます。
SEO の観点から見ると、テキストのトランスクリプトは検索エンジンによって完全にインデックス可能です。トランスクリプトのない音声・動画コンテンツは、オーガニック検索での露出機会を逃していることになります。ポッドキャストのエピソードや説明動画と並行してトランスクリプトを公開することで、そのページ上のクロール可能なコンテンツは実質的に倍増し、メディアのテーマに関連する検索クエリに対するキーワードの関連性を大きく高めることができます。
関連する Axe-core のルール
WCAG 1.2.1 には手動テストが必要です。なぜなら、自動ツールではメディア代替の内容や完全性を評価できないからです。自動スキャナーは <video> や <audio> 要素の存在を検出することはできますが、リンクされたトランスクリプトが音声トラックのすべてを正確に表現しているか、音声解説が意味のある視覚的イベントをすべてカバーしているかを判断することはできません。以下は、この達成基準に対する axe-core のアプローチに関連する考慮事項です。
- WCAG 1.2.1 に特化した自動 axe-core ルールは存在しません。 Axe-core と Deque の axe DevTools エンジンは、この達成基準を手動レビューが必要なものとしてフラグ付けします。これは意図的で正しい設計判断です。このルールを自動化すると、許容できないレベルの誤検出(偽陽性または偽陰性)が発生するからです。スキャナーは音声ファイルを「読む」ことも動画を「見る」こともできないため、トランスクリプトが完全かつ正確かどうかを検証できません。その結果、人によるレビューなしに WCAG 1.2.1 の適合・不適合を自動的に判定できると主張する監査ツールは、懐疑的に扱うべきです。
- 自動ツールが補助的なシグナルとしてフラグ付けできるもの: axe のベストプラクティスモードを含む一部のツールは、直近の DOM コンテキストに関連するテキストコンテンツがまったくない
<audio>や<video>要素をフラグ付けします。これは手動レビューを促すうえで有用ですが、フラグが立ったからといってトランスクリプトが十分であることを意味せず、フラグがないからといってトランスクリプトが存在することを意味するわけでもありません。別ページにリンクされたトランスクリプトは、要素レベルのスキャナーからは見えないからです。 - 手動テストが必要な理由: この達成基準を評価するには、人間のレビュアーが音声または動画コンテンツを最後まで視聴・聴取し、そのうえで提供されている代替手段と一行ずつ比較して同等性を確認する必要があります。レビュアーはまた、代替手段がメディア要素から見つけやすいかどうかも評価しなければなりません。これは、ユーザーと同じようにページを操作することを意味し、現時点の自動ツールでは信頼性をもって再現できません。
テスト方法
- 出発点として自動スキャンを実行する。 axe DevTools、Lighthouse、または Accsible の監査パネルを使用してページをスキャンします。結果の中でフラグ付けされた
<audio>や<video>要素を探します。自動テストで問題なしと表示されても、それは 1.2.1 への適合を保証するものではなく、明らかな構造上の問題が検出されなかったことを意味するに過ぎません。このスキャン結果を使って、手動レビューが必要なページ上のすべてのメディア要素のインベントリを作成します。 - すべての事前録音された音声のみ・動画のみコンテンツを特定する。 ページのソースとレンダリング結果を手動で確認します。
<audio>要素、意味のある音声を含まない<video>要素、SoundCloud や Spotify のウィジェットなどの埋め込みメディアプレーヤー、音声や動画コンテンツをサードパーティソースから読み込む<iframe>要素を探します。 - 各音声のみ要素について、関連するトランスクリプトを探す。 トランスクリプトはページ内にインラインで存在する場合もあれば、折りたたみセクション内にある場合、プレーヤー付近のアンカーリンクから参照される場合もあります。トランスクリプトに移動し、音声を聞きながら全文を読みます。話されたすべての言葉が記録されていること、必要に応じてすべての話者が特定されていること、意味のある非音声の音のイベントがすべて記述されていることを確認します。
- 各動画のみ要素について、関連する代替手段を探す。 テキストのトランスクリプトが提供されているか、音声解説トラックが提供されているかを確認します。音声解説トラックが使用されている場合は、メディアプレーヤーでそれを有効にし、動画を視聴しながら解説を聞きます。行動、場面転換、画面上のテキスト、グラフィカルな情報など、意味のある視覚的イベントがすべて、盲人ユーザーが動画を見なくても内容を理解できる程度に十分な詳細で説明されていることを確認します。
- スクリーンリーダーを使って発見可能性を検証する。 NVDA と Firefox、macOS/iOS の Safari と VoiceOver、または JAWS と Chrome を使用し、キーボードのみ(Tab キーや矢印キー)でメディア要素に移動します。マウスを使わずに、メディアプレーヤーからトランスクリプトまたは音声解説へのリンクを、キーボード操作とスクリーンリーダーの読み上げだけで見つけられるか確認します。マウスなしでは代替手段に到達できない場合、代替手段の内容が十分であっても、この達成基準は不適合となります。
- ラベリングによる例外を確認する。 トランスクリプトや代替手段が存在しない場合、そのメディア要素が同一ページ上の隣接するテキストコンテンツのメディア代替であることを明示的にラベル付けされているか確認します。そのうえで、周囲のテキストがメディアコンテンツの完全な同等物であること、ラベルがすべてのユーザーに知覚可能であることを確認します。
修正方法
音声のみのポッドキャストまたは録音ナレーション — 不適切な例
<!-- No transcript provided; the audio content is completely inaccessible
to deaf and hard-of-hearing users -->
<audio controls src='welcome-guide.mp3'>
Your browser does not support the audio element.
</audio>
音声のみのポッドキャストまたは録音ナレーション — 適切な例
<!-- A full text transcript is provided immediately after the player,
making it discoverable by keyboard and screen reader users
without requiring any additional navigation -->
<figure>
<figcaption>Welcome Guide Audio — Card Activation Instructions</figcaption>
<audio controls src='welcome-guide.mp3'>
Your browser does not support the audio element.
</audio>
</figure>
<details>
<summary>Read the full transcript of this audio guide</summary>
<div>
<p><strong>Narrator:</strong> Welcome to your new debit card activation guide.
To begin, locate the 16-digit card number on the front of your card.</p>
<p><strong>Narrator:</strong> Enter this number in the field provided on
the activation screen, then press Confirm. [Confirmation chime sounds.]</p>
<p><strong>Narrator:</strong> Your card is now active and ready for use.</p>
</div>
</details>
無音の説明動画(動画のみ) — 不適切な例
<!-- Silent animation with no audio description or text transcript.
A blind user navigating with a screen reader will only hear
"video" announced — no information about the content is conveyed. -->
<video controls width='640' height='360'>
<source src='assembly-instructions.mp4' type='video/mp4'>
</video>
テキストトランスクリプト付きの無音の説明動画(動画のみ) — 適切な例
<!-- A text transcript describing all meaningful visual actions is
linked immediately below the video player. The link text clearly
communicates the purpose of the destination. -->
<video controls width='640' height='360' aria-labelledby='video-title'>
<source src='assembly-instructions.mp4' type='video/mp4'>
</video>
<p id='video-title'>Product Assembly: Attaching the Base Unit</p>
<p>
<a href='assembly-transcript.html'>
View the full text description of this assembly video
</a>
</p>
インラインの音声解説トラック付き無音動画 — 適切な例
<!-- For users who prefer audio, a described audio track is offered
as a <track> element with kind='descriptions'.
The text transcript link is also retained for deaf-blind users
and those using text-only browsing. -->
<video controls width='640' height='360'>
<source src='product-demo-silent.mp4' type='video/mp4'>
<track
kind='descriptions'
src='product-demo-descriptions.vtt'
srclang='en'
label='Audio Description (English)'
>
<track
kind='descriptions'
src='product-demo-descriptions-tr.vtt'
srclang='tr'
label='Sesli Betimleme (Türkçe)'
>
</video>
<p>
<a href='product-demo-transcript.html'>
Read the full text description of this product demonstration
</a>
</p>
よくある間違い
- 完全なトランスクリプトではなく要約だけを提供してしまう。「この音声では当社の返金ポリシーを説明しています」といった短い段落を書くことは、同等の代替手段にはなりません。トランスクリプトは、すべての文、すべての手順、すべての意味のある詳細を再現し、音声を聞くことができないユーザーが、代わりにトランスクリプトを読んでも何も失われないようにしなければなりません。
- トランスクリプトから非音声の音のイベントを省略してしまう。録音に警告音、歓声、ドアベル、場面転換を示す背景音楽などが含まれている場合、それらは [alarm sounds] や [applause] のような角括弧付きの説明でトランスクリプトに記載する必要があります。これらを省略すると、トランスクリプトは情報的に不完全になります。
- トランスクリプトを完全に別ページに置き、目に見えるキーボード操作可能なリンクを用意しない。ユーザーがトランスクリプトの存在を事前に知っていて、メディアのページから離れて探しに行かなければならないような場合、発見可能性は失敗しています。代替手段へのリンクはメディア要素のすぐ近くに配置され、キーボードで到達できなければなりません。
- 無音トラックの
<video>要素がキャプションでカバーされていると誤解する。キャプション(WCAG 1.2.2)は、同期メディアにおける話し言葉の音声を対象としています。本当に無音の動画、つまり意味のある音声がまったくない動画は、動画のみコンテンツであり、1.2.1 の下で独自のテキスト説明または音声解説が必要です。無音を示すキャプションは情報を提供しません。 - 音声認識ツールの自動生成トランスクリプトをレビューせずに使用する。YouTube の自動キャプションや AI 文字起こし API などのサービスによる機械生成トランスクリプトには、固有名詞、専門用語、非標準的な言い回しなどに誤りが含まれることがよくあります。重大な誤りを含む未レビューの自動トランスクリプトを公開しても、この達成基準は満たされません。不正確なトランスクリプトは、同等の代替手段とは言えないからです。
- 複数人が話す音声録音で話者を特定しない。話者の区別がない単一のテキストブロックとして書かれたトランスクリプトは、混乱を招き、意味が曖昧になる可能性があります。複数の声が登場する録音では、話者ラベルを一貫して使用する必要があります。
- ポスター画像の
alt属性を動画トランスクリプトの代わりとみなしてしまう。<video>のポスター画像に付与されたalt属性は、静的なサムネイルを説明するものであり、動画コンテンツ自体を説明するものではありません。どのような解釈においても、1.2.1 におけるメディア代替の要件を満たすものではありません。 - 音声解説で場面だけを説明し、画面上のテキストを無視してしまう。無音動画に重要なテキスト(ステップ番号、ラベル、寸法、エラーメッセージなど)が表示される場合、音声解説やトランスクリプトはそのテキストを明示的に読み上げる必要があります。視覚的な場面だけを説明し、画面上のテキストを書き起こさないままにすると、重要な情報がアクセス不能のままになります。
- 完全同等性の条件を確認せずにコンテンツを例外扱いしてしまう。テキストに対するメディア代替の例外は、ページ上のテキストがメディアの完全な同等物である場合にのみ適用されます。ページのテキストが動画で示されている内容の一部しかカバーしていない場合、その例外は適用されず、テキストでカバーされていない部分については依然として代替手段が必要です。
- トルコ語メディアに対してトルコ語の代替手段を提供しない。音声のみまたは動画のみのコンテンツがトルコ語で提供されている場合、その代替手段もトルコ語(少なくとも対象ユーザーの主要言語)であるべきです。トルコ語の音声コンテンツに対して英語のトランスクリプトだけを提供しても、トルコ語話者のユーザーにとって同等の代替手段とは言えません。
トルコのアクセシビリティ規制との関係
トルコの大統領通達 2025/10は、2025 年 6 月 21 日付官報(第 32933 号)で公布され、WCAG 2.2 に整合したデジタルアクセシビリティの法的義務枠組みを定めています。WCAG 1.2.1 はレベル Aの達成基準であり、この通達における最も基本的な要件群に位置付けられています。レベル A への適合は、許容される最低限の基準を表しており、このレベルでの不適合は、該当するユーザーにとってアクセスを完全に妨げる根本的な障壁とみなされます。
この通達は、公的部門と民間部門の両方に広く適用されます。すべての省庁、政府機関、自治体、国有企業などの公的機関は、通達の公布日から1 年以内にレベル A への完全な適合を達成することが求められます。通達の対象となる民間部門の事業者には、2 年間の移行期間が与えられています。
大統領通達 2025/10 に明示的に含まれる民間部門の事業者には、登録所在地にかかわらずトルコで事業を行う電子商取引プラットフォーム、トルコの銀行法の規制対象となる銀行および金融機関、病院および民間医療提供者、20 万人以上の加入者を有する通信会社、トルコの観光ライセンス要件の下で事業を行う旅行代理店、民間旅客輸送会社、および国民教育省(MoNE)に認可された民間教育機関が含まれます。
これらの事業者にとって、WCAG 1.2.1 は直接的かつ実務的な影響を持ちます。モバイルバンキング機能について音声のみのガイドを公開しながらトランスクリプトを提供していない銀行、患者受付手続きのために無音の動画のみチュートリアルを提供している病院、サポートポータルで音声のみの録音案内を使用しながらテキストの代替手段を提供していない通信事業者などは、それぞれの適合期限を過ぎた時点で、この要件に直接違反していることになります。
通達に適合しない場合、行政制裁や評判上の悪影響に加え、トルコの情報通信技術庁(BTK)や大統領府デジタル変革局を通じた苦情申し立ての対象となる可能性があります。1.2.1 は、複雑な技術的変更ではなくテキストのトランスクリプトや音声解説の作成を求める、比較的容易に是正できる達成基準の一つであることを踏まえると、組織はアクセシビリティ適合プログラムの初期かつ効果の高いステップとして、自社のデジタル資産に含まれるすべての音声のみ・動画のみコンテンツの監査を優先すべきです。
1.2.1 の適合を達成するうえでは、開発者だけでなくコンテンツチームも中心的な役割を担います。トランスクリプトは作成され、正確性についてレビューされ、メディアコンテンツの更新に合わせて維持されなければなりません。組織は、トランスクリプトの作成を、SEO メタデータやコンテンツレビューと同等の重要性を持つ必須ステップとして扱う編集ワークフローを確立し、そのワークフローがプラットフォーム上で使用される他の言語と同様に、トルコ語メディアにも対応していることを確実にする必要があります。
出典と参考資料
- W3C Understanding 1.2.1 Audio-only and Video-only (Prerecorded)
- W3C Techniques for 1.2.1
- WebAIM: Captions, Transcripts, and Audio Descriptions
- MDN: HTMLMediaElement — The HTML audio and video elements
- MDN: The track element for timed text tracks
- W3C Technique G158: Providing an alternative for time-based media for audio-only content
- W3C Technique G159: Providing an alternative for time-based media for video-only content
