Address
大阪府大阪市中央区淡路町3丁目1番9号  淡路町ダイビル6F

Work Hours
平日:9AM - 6PM

「ライブ配信アーキテクチャ設計の3大課題とその解決策」 – 遅延・スケール・品質の問題をどう克服するか?

「ライブ配信アーキテクチャ設計の3大課題とその解決策」 – 遅延・スケール・品質の問題をどう克服するか?

  • ユースケースに応じた最適なライブ配信アーキテクチャを選ぶことで、低遅延・高品質な配信を実現しビジネス成果に直結します。
  • HLSやWebRTCなど配信方式にはそれぞれ特性があり、大規模配信ではCDNによるスケーラビリティ確保が鍵、双方向配信では超低遅延技術が不可欠です。
  • AWSのMediaLiveやCloudFront、Meta(Facebook)のライブ配信事例など大手の技術を活用すれば、数百万規模の同時視聴にも耐える安定したシステム構築が可能です
  • 配信遅延や同時接続数などビジネス上の課題を踏まえてアーキテクチャを選定することで、視聴者のエンゲージメント向上やブランドイメージ向上につながります。

監修者:竹内 望

大学・大学院でAIによる画像処理の研究やレーザー機器制御による物理メモリの研究を行った後、外資系大手ITコンサルティング会社に入社。現在はAIエンジニアとして、業界を問わず業務効率化のためのRPAシステムやAIによる業務代替システムの開発と導入を行っています。

 

目次

  1. はじめに:ビジネス視点で考えるライブ配信の課題
  2. ライブ配信アーキテクチャの基本構成
    1. 2.1 ライブ配信のワークフローと主要要素
    2. 2.2 4層モデル:Source・Origin・Distribution・Client
  3. 配信方式の種類と特性の比較
    1. 3.1 HLS/DASH(HTTPライブストリーミング)の特徴
    2. 3.2 超低遅延配信(WebRTC)の特徴
    3. 3.3 その他の方式(RTMPや低遅延HLS等)
    4. 3.4 主要プロトコルの比較表
  4. ユースケース別:最適なライブ配信アーキテクチャ
    1. 4.1 ケース1:大規模イベント配信(高品質・多数同時視聴)
    2. 4.2 ケース2:双方向ウェビナー・会議(超低遅延が最優先)
    3. 4.3 ケース3:ライブコマース(低遅延かつスケーラブル)
  5. 大手プラットフォームに学ぶライブ配信技術 (AWS・Facebook ほか)
  6. まとめ:ビジネスに最適な配信基盤を構築するために

はじめに:ビジネス視点で考えるライブ配信の課題

近年、マーケティングや社内コミュニケーションにライブ配信を取り入れる企業が増えています。製品発表会のリアルタイム中継、オンラインセミナー、社内向け説明会、ライブコマース(リアルタイムの商品販売)など、その活用範囲は広がっています。しかし、ライブ配信を成功させるためには技術的なアーキテクチャ設計が極めて重要です。配信が途切れたり映像が粗くなれば視聴者の満足度は下がり、ひいてはブランドイメージにも影響しかねません。一方、最適なアーキテクチャを選択し構築できれば、安定した高品質配信によって視聴者のエンゲージメントを高め、ビジネス成果につなげることができます。

本記事では、ライブ配信システムの基本的な構成要素と主要な配信技術について解説し、ユースケース別に最適なアーキテクチャ構成を考察します。経営層の方にも理解いただけるよう、ビジネス上の課題と技術選定のポイントを結びつけて、できるだけ親しみやすい言葉で説明していきます。専門用語も出てきますが、その都度ポイントを押さえていきますのでご安心ください。

ライブ配信アーキテクチャの基本構成

2.1 ライブ配信のワークフローと主要要素

ライブ配信のアーキテクチャは、大きく映像音声の取得から視聴者の再生までの一連のワークフローとして捉えることができます。以下の図は、典型的なライブ配信システムの構成要素を示したものです。

一般的なライブ配信の流れは次の通りです。

  • コンテンツ取得(エンコード): カメラやマイクで取得した映像・音声をエンコーダ(配信用の変換ソフト/ハード)でデジタル圧縮し、配信に適した形式にします。エンコーダにはソフトウェア(例:OBS Studio、XSplit 等)やハードウェア(業務用エンコーダ機器)があります。ここではRTMPなどのプロトコルで配信サーバへ映像を送り出すのが一般的です。
  • オリジンサーバ: エンコードされた映像を受け取り、必要に応じて複数ビットレートへの変換(視聴者のネット環境に応じて、高画質・中画質・低画質の映像を自動的に切り替えられるようにする処理)やコンテンツ保管を行うサーバです。視聴者への配信元となるため「Origin(オリジン)」とも呼ばれます。クラウドの場合、AWS Elemental MediaLive/MediaPackageやAzure Media Servicesなどがこれに相当します。自前で構築する場合はWowzaやNginx+RTMPモジュール、Red5などのサーバソフトを用いることもあります。
  • コンテンツ配信(CDN / 配信ネットワーク): オリジンサーバからの映像を各地の視聴者に届ける配信ネットワークです。多くの場合CDN(Content Delivery Network)が使われ、世界中に配置されたエッジサーバから視聴者にコンテンツを配信します。CDNを用いることで、視聴者に近いサーバから映像を届けられるため遅延が減り、同時アクセス増にも耐えられます。例えばAmazon CloudFrontは2024年時点で約600拠点のエッジロケーションを持ち、グローバルに低遅延配信を実現しています
  • クライアント再生: 視聴者側のデバイス(PC・スマホ・TVなど)での再生段階です。Webブラウザやモバイルアプリ上のプレイヤー(例:HTML5 videoタグや専用アプリ)が、CDN経由で映像を受信して再生します。再生方式はHLSならブラウザ上でM3U8を読み込むかネイティブ再生、WebRTCならブラウザ内のピア接続、など配信方式によって異なります。

こうした一連の流れを把握することで、どの部分にどんな技術やサービスが必要かが見えてきます。次節では、この流れをさらに整理するためによく用いられる「4層モデル」で配信システムを分解してみましょう。

2.2 4層モデル:Source・Origin・Distribution・Client

ライブ配信アーキテクチャを考える際には、Source(ソース)Origin(オリジン)Distribution(配信)Client(クライアント)の4層に分ける見方が有用です。AWSの公式ブログでもライブ配信基盤をこの4層で整理しています。それぞれの層の役割は以下の通りです。

 

  • Source層(ソース): コンテンツの発信源です。ライブカメラやマイクからの入力をエンコードするエンコーダが該当します。一般にライブエンコーダ(ソフトウェアまたはハードウェア)を自前で用意する必要があります。例えばOBS StudioやWirecastなどのソフト、またはAWS Elemental Liveのような放送品質エンコーダ機器がSource層です。
  • Origin層(オリジン): 配信サーバ層です。エンコーダから送られた映像を受け取り、必要なら複数ビットレートにトランスコードし、視聴者配信用の形式(HLSのセグメントファイル等)にパッケージ化して待機します。クラウドではMediaLiveやMediaPackage、MediaStoreなどがオリジンに相当し、自前構築ならWowzaサーバやNginx+拡張モジュール等が相当します。
  • Distribution層(配信): CDNなど配信ネットワーク層です。オリジンのコンテンツを大規模に配信・キャッシュし、視聴者に届けます。AWSではAmazon CloudFrontがこれに当たります。CDNを挟むことで、たとえ視聴者数が少数(例えば50名以下)でもオリジンサーバの負荷軽減やネットワーク経路最適化などのメリットがあります。
  • Client層(クライアント): 視聴者のデバイス側です。PCのブラウザ、スマホアプリ、スマートTVアプリなどが該当します。配信方式に対応したプレイヤーでコンテンツを再生します。たとえばHLSならブラウザ(Safari等)や各種プレイヤーSDK、WebRTCなら対応ブラウザや専用アプリなど。

以上の4層モデルで整理すると、自社で用意すべき部分とクラウドサービスに任せられる部分が明確になります。例えばAWSを使う場合、Source層は自前エンコーダOrigin層はMediaLive等のクラウドサービスDistribution層はCloudFront CDNClient層はユーザーデバイスという形で分担できます

自社開発で全てを作り込むことも可能ですが、視聴者数増加時のスケーリングや高可用性の確保など課題も多いため、近年はクラウドのマネージドサービスを組み合わせるケースが増えています実際AWSのMediaLiveやMediaPackageを用いれば、冗長構成(サーバーが故障しても配信が止まらないよう、バックアップのシステムを用意しておくこと)やオートスケール機能(視聴者数が増えたときに、自動でサーバーを増やして負荷分散する仕組み)がサービス側で提供されるため、開発者は配信内容に専念できます

 

ユースケース別:最適なライブ配信アーキテクチャ

4.1 ケース1:大規模イベント配信(高品質・多数同時視聴)

想定ユースケース: 新製品発表会や音楽ライブ、スポーツ試合の中継など、不特定多数に向けて同時視聴者が数万〜数百万に及ぶようなライブ配信。

ビジネス要件:

  • 高スケーラビリティ: ピーク時に百万以上の同時接続があっても配信が滞らないこと。突然の視聴者急増(バイラルなど)にも耐える。
  • 高画質・安定性: 視聴者にとって映像の乱れや中断が極力無いようにする。4Kや高音質で配信したい場合も。
  • 多少の遅延は許容: 双方向対話は無い想定なので、遅延は数十秒あっても構わない(ただしあまり長すぎるとSNSでネタバレする等の問題はあり得るため極力短い方が望ましい)。

最適アーキテクチャの考え方:
上記要件から、まずHLS/DASHベース+CDNの王道アプローチが適しています。大規模配信ではHTTPベース配信+CDNが圧倒的に有利で、既存のインフラをフル活用できます。具体的構成例としては以下になります。

  • エンコード: 現場からの映像を高品質エンコーダで圧縮。放送並みの品質を求めるならAWS Elemental Liveのような専用ハードや、ソフトでも高ビットレート対応のものを使用。**ビットレート梯子(ABR)**として1080p, 720p, 480p…と複数解像度を用意し、あらゆる視聴環境で最適画質が出るようにします。
  • オリジンサーバ: クラウドならAWS MediaLive+MediaPackageが好適です。MediaLiveでマルチビットレートにトランスコードし、MediaPackageでHLS/DASHにパッケージング。加えてDRM(著作権保護)やサーバーサイド広告挿入(SSAI)もここで可能です。オンプレの場合はWowzaストリーミングエンジンなどが似た役割を果たします。
  • CDN配信: Amazon CloudFront等のCDNを利用。オリジンサーバをMediaPackageエンドポイントにし、CloudFront経由でグローバル配信する構成が推奨されています。CDNにより世界中の視聴者に高速に届けられ、オリジン負荷も軽減します。CloudFrontのような大規模CDNなら世界数百拠点のエッジから配信されるため、急なアクセス増も自動でトラフィック分散されます
  • 再生: 視聴者はWebページ埋め込みのプレイヤーまたは専用アプリで再生。HLSならSafariやiOSネイティブでそのまま再生可能、他ブラウザでもJavaScriptプレイヤー(hls.js等)で再生可能です。DASHなら対応プレイヤー(ShakaPlayer等)を使用。

ポイント: 大規模配信では冗長化監視も重要です。AWSではMediaLiveが冗長入力・出力に対応しており、異なるAZに複製ストリームを送って障害に備えることができます。オリジンやCDNに障害が起きてもバックアップに切り替わる設計にしておくと安心です。また大規模イベントでは事前に負荷テストリハーサルを行い、配信遅延が想定範囲か(約10秒程度に収まるか)確認しておくことも肝要です。

 

4.2 ケース2:双方向ウェビナー・会議(超低遅延が最優先)

想定ユースケース: オンラインセミナーで講師と参加者が質疑応答する場面、あるいは社内の全社集会でCEOが各拠点社員とやり取りするケース、さらには少人数のビデオ会議。

ビジネス要件:

  • リアルタイム性(低遅延)最優先: 発言や質問に対しほぼリアルタイムに反応できること。遅延は1秒以内が望ましい。
  • 双方向コミュニケーション: 視聴者側も発言したり画面共有したりできる仕組み。参加者が少数の場合は全員双方向、大規模ウェビナーでは一部双方向(主催者とゲスト間のみ)もありうる。
  • 参加規模: ビデオ会議なら数人〜数十人。ウェビナーなら視聴専門の参加者が数百人程度+発言者数人といったイメージ。会議ほどの対称性はないが質問など能動視聴者がいる。

最適アーキテクチャの考え方:
このシナリオではWebRTCベースの構成が最適です。遅延0.5秒以下で双方向通信を実現するWebRTCが望ましいです。。具体的な構成は以下のようになります。

  • WebRTCメディアサーバ(SFU): 複数人が参加する場合、P2P接続を全員で張り巡らせるのは非効率なので、SFUと呼ばれる中継サーバを用います。例えばオープンソースのJitsiやmediasoup、商用サービスのAgoraやTwilio Live、あるいは自社開発ならSkyWayや時雨堂のSoraといったWebRTC SFUライブラリもあります。SFUは各参加者から映像を受け取り、他の参加者に配信する役割を担います。これにより通信経路を一本化し、上り帯域の節約と多人数参加を可能にします。
  • シグナリングサーバ: WebRTCを使った通信で、お互いの端末がどのように接続するかを決める最初のやり取りに使います。ここはWebSocketや独自プロトコルで実装する部分で、各参加者の接続情報、映像や音声以外の情報(配信者のID、映像の解像度など)をやり取りを行います。多くのWebRTC用プラットフォームではシグナリングもサービス提供されていますが、自社実装も可能です。
  • TURNサーバ: インターネットの仕組み上、家庭のWi-Fiルーターなどが直接通信をブロックしてしまい、相手に映像が届かない状況などでP2Pが直結できない場合の中継サーバです。グローバルIPを持たない参加者同士でも通信できるようにします。オープンソースのcoturnなどが使えます。
  • クライアント: ChromeやFirefoxなどWebRTC対応ブラウザ上のアプリ、またはネイティブアプリ(WebRTCライブラリ組込み)を使用します。参加者は各自のカメラ・マイクから映像を送出しつつ、他者の映像を受信して表示します。

ポイント: 双方向配信では誰がどのくらい発言するかによっても設計が変わります。少人数全員が自由に会話する場合(会議)は全員送受信ですが、多人数ウェビナーで視聴専用が大半の場合、発言者のみWebRTC接続し、視聴専用者にはその映像をHLS配信するハイブリッド型も考えられます。この場合発言者↔視聴者間は一方向なので遅延が多少増えても許容され、視聴専用者はHLS経由で配信することで例えば1000人規模でも捌けるといった構成です。

逆に全員参加型の場合は上限人数に注意が必要です。WebRTC SFU一台あたり数百〜数千接続が上限となるため、それ以上の場合はSFUをクラスタリングして負荷分散する高度な構成が要ります。例えばZoomのようにサーバを多数用意して地理的にも分散配置し、各会議を振り分ける仕組みです。

また、双方向系では音声遅延同期も重要です。映像と音声のズレ、誰かの声が遅れてエコーのように返る現象など、会議システム特有の問題にも配慮が必要です。幸いWebRTCはこうしたリアルタイムコミュニケーション向けに最適化されており、遅延も jitter buffer で制御され、エコーキャンセラなどもブラウザ実装されています。

したがって開発者はWebRTCプラットフォームを活用することで、比較的短期間で双方向サービスを構築できます。AWSにもリアルタイムコミュニケーション向けサービスとしてAmazon Chime SDK(ビデオ会議SDK)やAmazon IVSがあり、これらを利用するのも有力です。

4.3 ケース3:ライブコマース(低遅延かつスケーラブル)

想定ユースケース: ECサイト上でライブ動画を配信し、その場で商品を紹介・販売するライブコマース。視聴者はコメントや「いいね」で参加し、商品をその場で購入できます。テレビ通販のオンライン強化版のような位置付け。

ビジネス要件:

  • ある程度のリアルタイム性: 司会者の呼びかけに視聴者が即座に反応(コメント投稿や購入ボタン押下)できるよう、遅延は数秒以内に抑えたい。ユーザー体感で「ほぼリアルタイム」と感じるレベル。
  • 大規模視聴: 人気商品であれば視聴者数が数万〜十万規模になる可能性もある。突然バズってアクセスが殺到するケースにも対応したい。
  • 安定性とコマース連携: 動画とEC機能(在庫表示や購入処理)が連携する必要があり、動画遅延が大きいと在庫切れ情報が遅れて混乱する可能性も。できるだけ同期性を高めたい。

最適アーキテクチャの考え方:
ライブコマースはリアルタイム性スケーラビリティのバランスが難しいユースケースです。フルWebRTCにすると大規模時の負荷が心配、かといってHLSだと遅延が大きすぎる。そこで間を取って低遅延HLS独自プロトコルを用いるケースが見られます。

  • 低遅延HLSの活用: 例えばApple LL-HLSやCMAFを導入し、遅延3秒程度で配信します。3秒ならユーザー体感でもかなりリアルタイムに近く、コメントを読んで司会者がすぐ返事する、といったやり取りも違和感ありません。既存のCDN(例えばAkamaiやCloudFront)も利用できるため、視聴者5万・10万といった規模にもスムーズに拡張できます。課題は視聴側デバイスの対応ですが、モバイルアプリならLL-HLS対応のプレイヤーSDKを組み込むことで解決可能です。
  • WebRTC+CDNハイブリッド: 一部のソリューションでは、配信者→エッジサーバ間はWebRTCで超低遅延伝送し、エッジサーバ→多数視聴者はHTML5プレイヤーで分配するというアーキテクチャがあります。たとえばWowzaの超低遅延サービスはWebRTCをサーバー側で受け、それをWebSocket+MSEで配信するアプローチで1〜2秒の遅延を実現しています。このように入口出口で技術を変えることで、リアルタイム性とスケールを両立する工夫もあります。
  • コメント・購入システムとの統合: アーキテクチャとは少し離れますが、ライブコマースでは動画と同時に低遅延の双方向データチャンネルが重要です。視聴者からのコメント送信、在庫数のリアルタイム表示、購入ボタン押下と在庫更新など、双方向データ通信にはWebSocketなど常時接続の仕組みを組み合わせます。動画が3秒遅延でも、コメントはほぼ瞬時にサーバーへ届き、司会者に提示されるようにすればインタラクションは円滑です。このため動画配信とデータ通信のシステム全体でリアルタイム性を最適化する必要があります。

ポイント: ライブコマースではKPIの計測も重視されます。視聴者数推移、エンゲージメント率(コメント数やいいね数)、購入転換率などをリアルタイムに分析することで売上向上に繋げます。そのため配信プラットフォームは単に映像を届けるだけでなく、こうしたデータ解析基盤との連携も求められます。アーキテクチャ設計時には、配信サーバ側で視聴イベントをトラッキングしたり、アプリ側SDKでユーザー行動を計測して分析基盤に送信するなど、ビジネス価値を高める仕掛けも組み込むと良いでしょう。

配信方式の種類と特性の比較

 

ライブ配信には様々な配信方式(プロトコルやフォーマット)が存在し、目的に応じて使い分けられています。それぞれ遅延特性スケーラビリティ対応プラットフォームなどが異なり、ユースケースに適した選択が重要です。ここでは代表的な方式であるHTTPライブストリーミング(HLS/DASH)WebRTCを中心に、RTMPなどその他方式も含め特徴を解説します。

 

3.1 HLS/DASH(HTTPライブストリーミング)の特徴

HLS(HTTP Live Streaming)はAppleが開発したライブ配信方式で、現在もっとも広く使われている手法です。映像を数秒単位の小さなチャンクファイル(拡張子.ts 等)に分割し、M3U8プレイリストを通じて順次配信します。HTTPベースのため通常のWebサーバやCDNで配信でき、スケーラビリティが高いのが利点です。HLSの遅延は一般的に10〜30秒程度と言われます。これはチャンクの長さやプレイリストの設計によります。例えばデフォルト設定では6秒のチャンク×3~4個分バッファするため20秒以上の遅延が生じます。

しかし低遅延化の工夫も可能で、チャンク長を短くしたり(例:2秒)、最新チャンクを逐次配信することで10秒以下に抑えることもできます実際AWSの実証では、HLSのセグメント長2秒・3セグメント先読みの設定でエンドツーエンド遅延約10秒前後を達成していますこの程度の遅延はテレビ放送の中継と同程度であり、多くのライブイベント(コンサートやスポーツ中継など)では許容範囲とされています。

HLSと類似の方式にMPEG-DASHがあります。こちらはISO標準規格で、原理はHLSとほぼ同じくHTTPベース・チャンク分割配信です。(動画を数秒ごとの小さなファイルに分けて配信し、ブラウザやアプリが順次ダウンロードして再生する仕組み)HLSが主に.ts形式なのに対し、DASHはコンテナ形式に制約が少なく最新コーデック(H.265等)にも柔軟に対応できます。遅延やスケーラビリティの観点ではHLSと同等であり、両者を総称して「HTTPベースのストリーミング」と呼ぶこともあります。

HTTPベース配信(HLS/DASH)の長所は以下です:

  • 大規模配信に強い: CDNを活用して数百万ユーザーに同時配信が可能。エッジサーバを多数配置することで世界中どこでも低遅延かつ負荷分散された配信を実現できます。
  • 汎用性・互換性: ブラウザやスマホアプリなど多くのプラットフォームで再生可能。HLSはSafariやiOSでネイティブ対応し、DASHもAndroidやChrome等で広くサポートされています。
  • Adaptiveストリーム: 複数ビットレートの映像を用意しておき、視聴側の回線状況に応じて自動で画質を切り替えるアダプティブ配信(ABR)が容易です。MediaLiveなどではこのABRラダー(マルチビットレート群)を生成して、MediaPackageでHLS/DASHのマニフェストを配信する構成が取られます

一方、短所・課題としては遅延が大きい点が挙げられます。標準的なHLSでは前述の通り10秒以上の遅延が生じ、リアルタイムな双方向コミュニケーションには不向きです。視聴者がコメントする程度であれば多少遅延があっても問題ありませんが、講師と参加者がやり取りするウェビナーやオークション形式のライブコマースでは、この遅延が致命的になる場合があります。

 

こうした課題に対し、近年は低遅延HLS(LL-HLS)やCMAFといった新技術も登場しています。AppleのLow-Latency HLSや、CMAF+Chunked Transferの組合せにより、HTTPベースでも2〜3秒程度の遅延を目指すソリューションが開発されています。これにより従来のHLSより遅延を大幅に削減できますが、プレイヤー側の対応やシステム全体の最適化が必要で、実装の難易度は上がります。また2〜3秒でもインタラクティブ用途(後述のリアルタイム性を要求するユースケース)には充分でない場合もあり、超低遅延を求める場面では次に述べるWebRTC系技術が必要となります

 

3.2 超低遅延配信(WebRTC)の特徴

WebRTC(Web Real-Time Communication)はブラウザ間のリアルタイム通信を実現する技術で、主にビデオ会議や双方向コミュニケーション用途で使われます。ブラウザやモバイルアプリ間でP2P接続を確立し、数百ミリ秒以内の遅延で映像・音声をやりとりできるのが最大の特徴ですWebRTCを使うと理論上0.5秒未満、場合によっては0.2秒以下の遅延も実現可能で、これは人間が対話して「ほぼ同時」と感じられるレベルです

例えばZoomやGoogle Meetなどのビデオ会議ではWebRTC技術が使われており、話者の発言に対して即座に反応できるインタラクティブ性が確保されています。双方向にコミュニケーションが必要な場合、一般に遅延が200ms(0.2秒)を超えると違和感が出ると言われ、WebRTCはそうした用途に応えるために開発されました。

WebRTCの仕組みはP2Pベースですが、実際にはサーバの助けが必要です。接続初期にはシグナリングサーバを介して(WebRTCで映像を送る前に、通信相手を探して接続情報を交換するためのサーバー)お互いのネットワーク情報を交換し、さらにNAT越えのためSTUN/TURNサーバを使って通信経路を確立します

また1対多の配信(例:1人のホストが複数視聴者にリアルタイム配信する場合)では、SFU(Selective Forwarding Unit)という中継サーバを使い、ホストの映像を各視聴者に複製転送する仕組みが用いられます。SFUを用いると配信者は一つの映像を送るだけで済み、サーバが複数に配信してくれるためスケーラビリティが向上します。ただし視聴者数が非常に多くなるとSFUサーバ自体をスケールさせる必要があり、CDNほど容易にはスケールしない点には注意が必要です。

 

WebRTC系のメリットは何と言ってもそのリアルタイム性インタラクティブ性です。視聴者が配信者に対して即座に反応を返したり、双方向の会話・質疑応答をしたりするシナリオでは、WebRTCなしでは成立しません。例えば早押しクイズリアルタイム投票を伴うイベント、ライブオークションオンライン会議などではWebRTCの超低遅延が必須です

 

一方でデメリット(課題)もあります。スケーラビリティの課題はその代表で、HLSのように簡単にCDNに乗せて100万ユーザ配信、とは行きません。同時接続数が増えると、視聴者が増えたときに、負荷を分散するために複数のSFUサーバーを連携させたり、世界中のサーバーに分散させるなど高度なインフラ設計が求められます。またブラウザ互換の問題(古いブラウザだと動かない等)や、実装の複雑さ(シグナリングやTURNサーバの構築など初学者には難しい)もあります。とはいえ最近ではWebRTCサービスのSaaSやマネージドサービスも増えており、例えばAWSのAmazon IVS(Interactive Video Service)はWebRTCベースで大規模配信を実現するサービスです。NTTの「Smart vLive」のように1秒未満の低遅延で大規模イベント配信を可能にする商用プラットフォームも登場しており、技術の進歩によりWebRTCのスケール問題は徐々に解決が図られています。

 

3.3 その他の方式(RTMPや低遅延HLS等)

上記以外にもライブ配信で知っておくべき方式があります。代表的なものを簡単に触れておきます。

  • RTMP (Real Time Messaging Protocol): かつてFlash動画再生で使われていたプロトコルです。元々は超低遅延配信を目的に設計されており、Flashプレイヤーでは1〜2秒程度の遅延で再生できました。しかしFlashのサポート終了(2020年末)により、RTMPは現在主にエンコーダからサーバへの入力用プロトコルとして使われています。例えばOBSからYouTube Live/Facebook Liveへ配信する際にはRTMPS(RTMPの暗号化版)で映像を送るのが一般的です。再生自体は視聴者側ではHLSなどに変換されています。
  • 低遅延HLS (LL-HLS)CMAF: 先述の通り、HTTPベース配信の遅延を短縮するための技術です。チャンクを細切れにして逐次転送することで、HLSでも3秒前後のガラス(配信遅延の下限)を目指します。Appleが提唱する公式LL-HLSでは、拡張M3U8で「Part」という部分チャンクを通知する仕組みになっています。CMAFはコンテナ形式の標準ですが、チャンク付きのCMAF+HTTP Chunked Transferにより似た効果を得ます。これらは既存CDNを使ったまま低遅延化できる利点がありますが、プレイヤーやエンコーダ全体の対応が必要です。また遅延2〜3秒程度はWebRTCほどのリアルタイム性はないため、疑似双方向(コメントやいいね程度)の用途には適しますが、真の双方向用途にはギリギリか少し不足する場合もあります
  • SRT (Secure Reliable Transport): 映像配信の伝送品質を高めるために近年注目されているプロトコルです。Haivision社が開発したオープンソースプロトコルで、インターネット経由の不安定な回線でもパケットロス補償(インターネットの通信途中で失われたデータを補完し、映像や音声が途切れないようにする技術)や暗号化により信頼性の高い伝送を実現します。主にエンコーダ〜サーバ間(ファーストマイル)の伝送に使われ、RTMPの代替として導入が進みつつあります。遅延は多少増えますが安定性を優先したいケース(例:遠隔地からの映像中継)で有用です。
 

3.4 主要プロトコルの比較表

以上の配信方式を、遅延スケーラビリティ主な用途の観点でまとめたのが次の表です。



※遅延は環境や設定によって変動します。またRTMPは現在視聴者側で直接再生されるケースが少ないため参考値です。

上記のように、一口に「ライブ配信」と言っても技術的には大きな違いがありますユースケースの違いによって必要なアーキテクチャが180°変わるとも言われ、開発・運用側はこれらの特性を踏まえて方式を選定する必要があります。次章では具体的なユースケースを取り上げ、それぞれに適したアーキテクチャの構成例とポイントを見ていきましょう。

 

まとめ:ビジネスに最適な配信基盤を構築するために

ライブ配信のアーキテクチャ設計は、技術的選択肢が多岐にわたるため一見難しく感じられるかもしれません。しかし、本記事で述べたようにまずビジネスの要件や課題を整理し、それに合致する技術を組み合わせることが大切です。

  • 視聴者規模が大きく、安定配信が最優先なら HLS+DASH×CDN という実績ある構成でスケーラブルな基盤を作りましょう。クラウドのメディアサービスを使えば迅速に構築できます。
  • 視聴者とのリアルタイムなやり取りが重要なら WebRTC の採用を検討しましょう。既存のビデオ会議SDKやリアルタイム配信サービスを使うことで、超低遅延の双方向配信を比較的容易に導入できます。
  • その中間のユースケース(ライブコマース等)では 低遅延ストリーミング技術ハイブリッド構成 で両立を図ります。実装コストと効果を見極め、必要な遅延水準に応じて技術を選定してください。

ライブ配信は失敗が許されない場面も多く、事前検証とチューニングも成功の鍵です。ネットワーク帯域のシミュレーション、様々なデバイスでの再生テスト、遅延計測などを行い、想定通りのパフォーマンスが出ているか確認しましょう。また、配信当日のオペレーションも準備が必要です。バックアップ回線の用意、トラブル発生時の連絡フロー決定、視聴者からのフィードバック受付体制など、技術+運用の両面で万全を期すことが大切です。

貴社のライブ配信アーキテクチャの構築に関して、「自社ではどの方式が良いのか?」「具体的にAWSのどのサービスを使えば?」などお悩みがございましたら、お気軽に開発相談してください。

監修者:竹内 望

大学・大学院でAIによる画像処理の研究やレーザー機器制御による物理メモリの研究を行った後、外資系大手ITコンサルティング会社に入社。現在はAIエンジニアとして、業界を問わず業務効率化のためのRPAシステムやAIによる業務代替システムの開発と導入を行っています。