エンコードとは?動画に必要なエンコードの仕組みを基本から解説します
近年、幅広い世代で、パソコンやスマートフォンでの動画コンテンツ視聴が人気となっています。これはインターネット環境の充実や、スマートフォンの性能が大幅に向上したことにより、オンラインで動画コンテンツを視聴することが一般的になったといえるでしょう。 動画配信を配信者の目線で考えてゆく中では、オンラインで配信・視聴してもらうためには、必ず「エンコード」という作業を実施することとなります。この記事ではエンコードの基本と仕組みを解説していきます。 エンコードの前に【動画の基本を解説】 最初に、動画ファイルの仕組みについて解説します。 私たちは今、当たり前のようにスマートフォンやパソコンでインターネット上で配信されている、さまざまな動画コンテンツを視聴しています。しかし、動画コンテンツのデータというものがどのように構成されているかをご存知ではない方もいらっしゃるでしょう。 動画は「映像」と「音声」によって構成されている 動画ファイルは「映像データ」と「音声データ」によって構成されています。映像データと音声データはそれぞれ別な形式を持っています。その異なる形式を持ったデータを1つにまとめて、動画として視聴ができるようにしたものを「動画ファイル」と呼んでいます。 動画ファイルの形式にはさまざまな種類がある 映像と音声データなど、異なる形式をもつデータをまとめることができるファイル形式は、コンテナフォーマットと呼ばれます。このコンテナフォーマットにはさまざまな形式があり、そのため動画ファイルには「.mp4」や「.wmv」など、それぞれの形式を示す拡張子がついています。 ざっと挙げるだけでも、動画ファイルの形式には以下のようなものがあります。 AVI(.avi)、MP4(.mp4)、MOV(.mov)、WMV(.wmv)、MPEG2(.mpg)、GIF(.gif)ほか なぜこのように、動画ファイルに多くの種類があるかというと、動画コンテンツを再生する機器や環境によって、再生できる形式が違うためなのです。 エンコードとは? では次に、エンコードとは何か? についてご説明しましょう。 エンコードとは、動画ファイルの映像データと音声データを圧縮し、任意のファイル形式に変換する作業のことを指します。本章ではエンコードが必要となる理由を詳しく解説していきます。 エンコードが必要な理由 編集後の動画は、最終的に任意のファイル形式に変換して書き出します。この仕上げの作業こそが「エンコード」です。そのため、世の中で配信され視聴することができる動画コンテンツは、必ずエンコードされているのです。 では、なぜこのようなエンコード作業が必要になるのでしょうか。 それは動画ファイルのデータ構造自体に理由があるのです。 動画ファイルの「映像データ」とは、簡単にいうとパラパラ漫画のように静止画が並び集まっている状態です。パラパラ漫画のように並び集まった一枚ずつの静止画は「フレーム」と呼ばれます。一般的に1秒間の動画を視聴する間に表示されるフレームの数を「フレームレート」と言い、fps(エフ・ピー・エス)という単位であらわされます。fpsとは、「Frame Per second(フレーム・パー・セコンド)」の略です。 このフレームレートは再生する媒体によって規格が異なります。例えば、テレビであれば1秒間30フレームですが、映画は24フレームです。これはつまり、30分間のテレビ用動画であれば30フレーム×60秒×30分=54000フレームの静止画が使用されているということです。動画ファイル内の映像データは、再生媒体によって違いはありますが、非常に多くのフレームで構成されているのです。 このような理由で、動画のデータは非常に大きなデータ容量を持つことになります。さらに、そこに音声のデータも加わるわけです。 ですから、動画のデータを元のサイズそのままにサーバへ置くと、容量が非常に大きなものとなります。また、データサイズが大きいままでは、再生に時間がかかる可能性が高く、視聴者がストレスを感じる原因にもなりかねません。 そのため、適正なファイル形式・データサイズとした「動画ファイル」を作成する、圧縮・変換作業である、「エンコード」が必要不可欠なのです。 動画配信サイトに動画をアップロードする場合は、別な理由でもエンコードが必要になる場合があります。それは、配信するプラットフォームや、視聴に利用するメディアによって、再生できるファイル形式には制限があり、それに合わせる必要が出てくるためです。 動画をエンコードする方法 次に、動画をエンコードする方法について解説します。 動画エンコードにはいくつかのやり方があり、動画の用途やエンコードに使うパソコンのスペック、かけられる予算などにより最適な方法が異なります。本章と次章で網羅的に解説しますので、状況に応じて最適なエンコード方法を見つけてください。 動画エンコードの種類 実際にエンコードをおこなうツールやソフトウェアは「エンコーダ」と呼ばれます。 エンコードは、どのようなエンコーダを使うかによって「ソフトウェアエンコード」と「ハードウェアエンコード」に分けられます。 これらの違いは、機材のどこでエンコードを行うのかという点にあります。 ソフトウェアエンコード:主にパソコンのCPUを使用 パソコンに専用ソフトウェアをインストールして、主にパソコンに内蔵されたCPUの演算力を用いてエンコードをおこなう方法を「ソフトウェアエンコード」とよびます。 メリットとしては、専用エンコーダとして使えるソフトウェアには比較的安価なものがあり、中には無料で手に入るソフトもあるという点です。すでに動画編集ソフトが手元にある場合、その中にエンコーダ機能が含まれている場合もあります。 また、CPUによって動作するため、ある程度低いスペックのPCでも利用できることや、OSそれぞれに対応したソフトが存在することで、作業環境が比較的用意しやすい点が挙げられます。 デメリットは、エンコードの全ての動作が、パソコンのCPUスペックに依存するということです。安価なCPUでもエンコード可能ですが、安定しない・動作が遅いなどの問題が生じがちです。そのため、安定した作業には高性能なCPUが必要、ということになりますが、それでも次項で解説するハードウェアエンコードに比べてしまうと、パフォーマンスの点ではるかに及ばないという見逃せないポイントがあります。 ハードウェアエンコード:グラフィックボードや専用外部機器を使用 専用ソフトウェアをインストールしたパソコンを用い、内蔵されたグラフィックボードのGPUを利用してエンコードを行う場合や、専用のエンコーダ機器を用いてエンコードを行うことを「ハードウェアエンコード」とよびます。 メリットは、外部機器やグラフィックボードを使うため、ソフトウェアエンコードよりも圧倒的に高速かつ高画質なエンコード作業が行える点です。また、専用機材ならではといえる動作安定性の高さも見逃せないメリットです。 デメリットとしては、ある程度のスペックをもつグラフィックボードが搭載されたパソコンや、専用のエンコーダ機器を用意しなければならないので、初期費用が高くなることです。 ソフトウェアエンコードとハードウェアエンコードのどちらを用いるのか、これらのメリット・デメリットを鑑みて決めると良いでしょう。 エンコードの仕組み 続いて、エンコードの仕組みについて解説します。 動画ファイルの映像データが、複数の連続する画像データをパラパラ漫画のようにつなげることで成立していると、先に解説しました。エンコードの際は、この膨大なデータを圧縮する必要があるのですが、その時に2つの方法を組み合わせてデータを圧縮します。 それが、1つのフレーム毎にデータを圧縮する「フレーム内予測」と、連続するフレームの中でデータを圧縮する「フレーム間予測」です。これによって動画の見え方が変わらない程度にデータを間引いて圧縮し、ファイルのサイズを小さくしているのです。 フレーム内予測:1つのフレームの中でデータを圧縮する フレーム内予測では、1つのフレームをセルといわれる小さいブロックに分割します。そして、隣接する色が同じ場合や似ている場合はそのデータをまとめることで、情報を簡易化する手法です。 わかりやすく解説すると、以下のような方法になります。 ・フレームの中にたくさん使われている色の情報を分割し、1つのフレーム内に青のセルがいくつ、黄色のセルがいくつ、とセル単位で情報をまとめる。 ・そのうち、青に近い青緑のセルは、青のセルとしてまとめて扱うなどとする このような圧縮方法をとることで1つのフレーム当たりのデータ量を少なくすることが可能です。 フレーム間予測:連続するフレーム間でデータを圧縮する 動画はシーンやカットの切り替わり以外、連続的な動きで内容が表現されることが多いコンテンツです。そのような場合は「フレーム内予測」だけでは限界があります。 フレーム間予測は、隣り合ったフレームのデータは似ているという原則に基づき、前のフレームから現在のフレームを予測するという技術です。この技術を使った圧縮では、前のフレームと現在のフレームの差分だけをデータ化すれば良いので、画像全体のデータを圧縮するよりも、大幅にデータの軽量化を図ることが可能になります。 なお、フレーム間予測には前のフレームからの予測によるフレーム差分取得だけでなく、後のフレームや前後のフレームから予測して差分を取得する方法もあります。 「可逆圧縮」と「非可逆圧縮」 エンコードの仕組みを解説する中で出てきた、データの圧縮についてざっと解説します。 データの圧縮には「可逆圧縮」と「非可逆圧縮」の2種類があり、これは圧縮した後に元通りのデータを復元できるかできないかの違いとなります。 一般的に動画エンコードの際に用いられるのは、「非可逆圧縮」です。 可逆圧縮:元データを完全復元 「可逆圧縮」とは、元データを復元可能な状態で圧縮する手法です。 代表的なファイル形式はZIPファイルやRARファイルがあげられます。テキストファイルや画像ファイルを圧縮するのに適した手法です。 非可逆圧縮:画質音質の劣化を予防 「非可逆圧縮」とは、一部のデータを削除することでデータを圧縮する手法です。可逆圧縮とはことなり、元データの完全な復元は不可能です。動画や音声の非可逆圧縮の際には、人間では区別がつかないようにデータを削除することによって視聴の際に劣化を感じさせません。 代表的なファイル形式はMP4ファイルやAACファイルがあげられます。これらは動画ファイルや音声ファイルを圧縮するのに適した手法です。 エンコード作業前に確認【3つの注意点】 本章では、実際にエンコードに取りかかる前に確認しておきたい注意点について、3つご紹介します。 1.プラットフォームが対応しているファイル形式を確認する 動画のファイル形式にはさまざまな種類があります。 動画配信を各種のプラットフォームで実施する場合は、一般的にMP4が適しています。YouTubeや各種SNSはMP4であれば問題なく対応できますが、プラットフォームによってはMOVファイルやGIFファイルを受けつけている場合もあります。 利用目的やシーンによって最適な動画ファイル形式は変わる場合があるので、事前に確認しておくことが必要です。 2.元データは必ず残しておく エンコード作業は非可逆圧縮です。そのため、基本的に元の動画に戻すことは不可能です。特に初心者のうちはどんなビットレート・解像度でエンコードすればよいのかが分からず、想定よりも画質・音質が悪くなってしまうケースがあります。 バックアップとして元データはかならず保管しておきましょう。 3.エンコード作業は時間に余裕をもっておこなう エンコード作業に要する時間は、以下の要因によって変化します。 ・動画のフレーム数 ・フレームレートや解像度 ・ビットレート ・コーデック ・フィルタやエフェクトの有無 ・カメラ制御の有無 ・エンコーダに用いる機材の性能 配信予定や提出期限など、作業時間にリミットのある場合は余裕をもってスケジューリングし、エンコードが理由で間に合わないということがないようにしましょう。 特にソフトウェアエンコードを実施する場合は、毎回同じ時間で作業が終わるとは限りませんので、特に注意が必要です。 エンコードの動画への影響 エンコードを行う際は、以下項目を変更することで動画ファイルの容量を変えることができます。 ・フレームレート ・解像度 ・ビットレート ・動画の長さ(フレーム数) 以下、1項目ずつ解説します。 フレームレート フレームレートは先にも述べた通り、1秒間に使用される画像の数を表す規格です。 エンコーダでの書き出し設定時には、フレームレートの変更ができます。1秒間に使用される画像枚数を多くすれば(フレームレートを上げれば)映像は滑らかに動き、枚数を減らせば(フレームレートを下げれば)1フレームに多くのデータを割り当てるため画質は上がります。 基本的に、動画コンテンツのエンコード時に、フレームレートを撮影時や編集時の設定から変更することはありません。エンコードは動画コンテンツ制作の最終工程に当たり、フレームレートを変更して映像に違和感が出るのを防ぐためです。 実際にはエンコーダでフレームレートを再設定することが可能です。しかし上記の理由から、動画コンテンツ制作時に、はじめから再生媒体または編集後を想定したフレームレートで制作し、エンコード時には変更しない事をおすすめします。 解像度 映像における解像度とは、画面上にあるピクセル(画像を構成するサイズとその色)の数を縦横比で表したものです。このピクセルの数が多いほど画質が良くなります。 動画コンテンツでよく使用される解像度は以下のとおりです。 ・SD 720×480px ・HD 1280×720px ・フルHD 1920×1080px ・4K 3840×2160px 解像度に関しては、エンコードの際に元の解像度を上回る設定でない限りは、画質の劣化が起きにくいものです。 そのため、多くの配信プラットフォームでは、視聴者の視聴環境に合わせて、最適な解像度で配信できるような仕組みを用意しています。 ビットレート ビットレートは1秒間に送受信できるデータの量を表す単位です。「bit per second」の頭文字を取って「bps(ビー・ピー・エス)」と表記されます。 動画エンコードでは、映像ビットレートと音声ビットレートの二つを設定することができます。エンコード時に各ビットレートの数値を高く設定すると、綺麗でスムーズな映像やノイズのない美しい音声が再生できる動画ファイルが出来上がります。ただし、ビットレートを高くするほどデータの容量が大きくなります。 また、映像ビットレートはフレームレートや解像度とも密接に関係しています。例えばスポーツの動画であれば、プレイヤーの滑らかな動きを再現するには高いフレームレートで高いビットレートが必要になります。一方あまり動きのないセミナー動画であれば低いフレームレートに低いビットレートでも十分綺麗な画質で配信することが可能です。 動画の長さ 動画コンテンツをエンコードする際、動画の長さに比例して容量は大きくなり、エンコードにも時間がかかります。これは動画が長くなるほどフレーム数が増えるためです。 動画コンテンツのエンコードで「想定外」の書き出し結果にならないようにするには、制作の企画・構成段階で、しっかり内容や再生媒体を詰めておくことが大事です。最初に色々と決めておけば、エンコードのやり直しを繰り返す可能性は、ぐっと低くなります。 配信時の最適なエンコードにお悩みなら「admintTV Portal」 当社のadmintTV Portalは、動画配信に必要なエンコード機能、配信用ポータルサイト作成機能、会員管理機能、決済機能などを備えた動画配信ソリューションです。 特別なアプリを入れずに、スマホやPCのブラウザ上で視聴ができるHTML5動画プレイヤーや、コンテンツのコピーを防ぐDRM(デジタル著作権管理)など、会員のグループ管理、サイトの限定公開機能など、動画配信を行う人に便利なサービスや機能が充実しています。 admintTV Portalであれば、企業や団体での研修や情報共有などにもご活用いただける、クローズドな環境での動画配信や、動画コンテンツの販売サイトの構築もワンストップで可能です。 動画コンテンツの販売や配信を検討されているようでしたら、さまざまな形でお役に立てますので、ぜひ一度お問い合わせください。 ⇒admintTV Portalはこちら まとめ 動画のエンコードに関する仕組みを解説してきましたが、いかがでしたでしょうか。 このコラムが動画コンテンツを作りたい皆さまの、お役に少しでも立てば幸いです。これを読んで動画配信にご興味を持たれた方は、ぜひ、お気軽にご連絡ください。お問い合わせをお待ちしております。 » 続きを読む
2022/6/25