インターサンプルピーク/トゥルーピークの復習をして、Ceiling設定について考える

マスタリングとかの話題になる時に目にするISP(インターサンプルピーク)/トゥルーピーク

「DA変換の際のリサンプリングでクリップする」的な感じでさらっと説明される事が多いですが、皆さん実際にどういう理屈で問題が発生するかご存知でしょうか?

別にISP/トゥルーピーク自体は目新しい事柄では無く認知されつつあるのですが、実はちゃんと理解してなかったな〜っと何となく思ったので復習してみました。のでそのレポっす。

ワタクシ物分かりが悪い方なので結構簡単な内容に咀嚼していると思います笑

ついでにセルフマスタリングにおけるCeiling設定の考察も書いときますので、理屈はいいからって人はそこだけでもチェックしてもらえればッ

しかし軽い気持ちで書き始めたら、やたらと長くなってしまったなー

目次

1.前提知識としてデジタル音声信号の超基本をおさらい
2.ISP/トゥルーピークとは
3.どんな時にISP/トゥルーピークが問題になり得るのか?
4.DACによるリサンプリング
5.実際のISP/トゥルーピークはメーターでは分からない
6.マキシマイザーはISPが問題になりやすい
7.トゥルーピーク/ISPの対処方法
8.MP3等の圧縮音源とISP
9.Windowsの内部リミッターの話
10.おまけ:Ceiling設定について考える
11.おまけのおまけ:リスナーサイドでの対処法

前提知識としてデジタル音声信号の超基本をおさらい

まず初めに前提知識として音声信号がデジタル上でどのように記録されるのかをザックリ振り返ってみます。ここでは現在まで広く普及していて音楽制作でも基本のPCM方式(wzvとかaifとか)についてです。

ここはISP/トゥルーピークを知るためには必須なので一応書かなければならんのです。

音声信号はアナログの世界では気圧とか電圧の連続的な変化で表現されますが、サンプリング(標本化)と量子化によりデジタル変換されると連続的ではない離散的と表現されるデータになります。

離散的…と言われてもピンと来ない(私は来なかった笑)と思うので、絵にすると連続的な線で表しているアナログデータから連続的でない点のようになるイメージですかね。


※横軸は時間、縦軸は圧力(音量)

デジタルの方の「点」は1秒間にサンプリングレートの数値分等間隔に「サンプリング」されていて、それぞれの点は「サンプル」と呼ばれます。そして、そのサンプリングレートを2で割った値の周波数までがアナログ信号に完全復元出来ます。

例えばCDのサンプリングレート44100Hzという場合は1秒間に44100回サンプリングされて、22050Hz(44100/2)までが理論上は完全に再現可能。ちなみにここでの再現可能な周波数のことをナイキスト周波数と言います。

ででで、等間隔にサンプリングされたサンプルには量子化によって固有の数値(基本整数)が与えられます。

例えばCD等に代表される16bitの場合は2の16乗=65536までの数値が得られるので、これを音声のプラスとマイナスに動く特性に当てはめるべく(+)32768〜(-)32768の範囲の数値を各サンプルに与えることになります。

ここで、与えられた範囲の最大値(+-32768)を超えるデータは切り捨てられ、切り捨てられた状態のデータをアナログ音声に変換するとハードクリップという歪みになります。

いわゆる「0dBFSを超えると音が割れる」というやつですね

DAW内部のミキサーやプラグインエフェクト内部などで使用されている「浮動小数点」という方式では、またちょっと話が変わってきますが、今回はISPの話なので割愛します。詳しくは以下のページを参照されたし。

ビット・レートとバス幅 – Studio Gyokimae

ちなみにビット深度が高くなると割り当てることの出来る数値が増えることによって、記録できるダイナミックレンジが増える…平たく言うとより小さい音が記録できるようになります。

まあそんな感じで、簡潔にまとめると…

・連続的な変化を持つアナログ音声はサンプリングと量子化で飛び飛びの離散的なサンプル(点)になる。
・サンプリングレートの値を2で割った値までの周波数がアナログに「完全復元」できる。
・デジタル内では音声の最大値がビット深度によって先に決まり、それを超えるデータは切り捨てられアナログ変換の際にハードクリップを起こす。

細かい所はさておき、こんなところでしょうか

ちなみに、ここで基本となっている「標本化定理/サンプリング定理」は数学的に証明された「定理」なので、数学やそれを基づくフィールドでは覆すことが出来ないのであしあらず。

てことで、本題に移りましょう!

ISP/トゥルーピークとは

とりあえず前提をさらっと書きましたので、トゥルーピーク、またの名をインターサンプルピーク(ISP)とは何なのかをザックリおさらいしてみましょう。

まず、とある波形のサンプル点とそこから予想されるアナログ波形の画を見てみます。「□」がデジタル上でのサンプルで、「線」がアナログ変換された時に出てくる(と予想される)波です。

ここで一番高い位置にあるサンプルとサンプルの間に注目して下さい。予想されるアナログ信号はサンプルの位置よりも高いところにあります。

この部分がISP/トゥルーピークです。


Inter-sample Peak
を日本語的に略すと「サンプル間のピーク」になるので、まさにそのままです。

要はデジタル内のサンプルのピーク(一番高いところ)はアナログ信号と照らしあわせた時に波形のピークとは限らないよ…という事です。

かなーり単純な話でISP/トゥルーピークというのはデジタル信号の中で常にあるものだと考えられます。

複雑な波形の一番高いところを常にサンプリング出来るとは限らないですからね。

しかしながらナイキストの定理が正しければ、ISP/トゥルーピークがあっても(というか基本的にある)サンプリングされたデジタルデータはアナログ信号に完全再現可能なはず(そのナイキスト周波数の範囲で)…

ナゼそれが問題になってくるのか!?

どんな時にトゥルーピーク/ISPが問題になり得るのか?

ISP/トゥルーピークはナゼ問題になり得るのか…

ここでのキーワードは「リサンプリング」という工程にあります。

リサンプリングとはサンプリングをし直すということで、サンプルの数を増やしたり減らしたりしすることです。

サンプルの数が変わるということはサンプリングレートが変わる=ナイキスト周波数が変わるということで、再現可能な周波数帯域が変わります。

よくある誤解ですが、サンプルが増える=点が増えるから波形が滑らかになる…というのは間違いです。あくまでナイキスト周波数が変わる=再現可能な周波数の帯域が変わるというだけで、例えば440Hzのサンプル数が多くなっても出てくるアナログ波形は滑らかになりません。

ちょっと話がソレましたが、本題に戻りましてリサンプリングした時に各サンプルはどうなるか図で見てみましょう。

まずリサンプリングする前の図。この時のサンプルの位置が一番高い所に横線でマークを付けておきます。

そして次にリサンプリングをした時の図。ここではx2でアップサンプリングをしていますので、元のサンプルよりも2倍分のサンプルが出来きます(補間する)。

そしてリサンプリングする前に一番高い位置であったサンプルよりも高いところに新たなサンプルができてるのが分かると思います。

ここで、最初に付けた赤い横線が0dBFSすなわちデジタル上での最大値であったとするとどうなるでしょう?

実際にやってみます。まず、サンプリングレート44100Hzで約2KHzのサイン波を最大値0dBFSで作りました。

True Peakはやはり超えると予想されますが、こいつをリサンプリングしてサンプリングレート176400Hzにすると…

ハイ!サンプルが0dBFS超えてしまっています!これにディザーなど掛けて固定小数点にしてしまうとハードクリップしちゃいます。

おわかりでしょうか?つまりISP/トゥルーピークが問題になるのは、リサンプリングをした時に出来る新たな「サンプル」が0dBFSを超えてしまうときなのです。(超えることが出来ないからオーバーシュートする)

この状態をInter Samle Overshootと表現したりします。

その結果がハードクリップを起こしてしまうようなデータになってしまうのですね。

DACによるリサンプリング

「じゃあリサンプリングしなきゃ良くない?」…って思うやんかー

残念ながら我々がしたくなくても、現在ではDAC(デジタルからアナログ変換する機械)によってリサンプリングされてしまうという事実があるのです。

何故にそんな事をするか…簡潔に言うとデジタルからアナログへ変換する最後の工程であるアナログLPF(ローパスフィルター)に余裕を持たせたいからです。

デジタルからアナログへ変換する時に最初に出てくるのはこういったカクカクした波形だという。これをアナログ領域でLPFによりナイキスト周波数以上の高調波を取り除くことでなめらかな波形となる…らしい

最後のアナログ領域でのLPFはAnti-Imaging FilterとかReconstruction Filterという名称で、デジタルからアナログ信号に変換された最初の信号に含まれるナイキスト周波数以上の高周波を取り除きスムーズな波形に完全復元するためのもの

ここでナイキスト周波数以上の高周波をカットできないと波形の完全復元とならないので、出来るだけ鋭くバッサリと高周波をカット出来るフィルターが望ましいのですが、アナログ領域でのLPFなので色々と副作用が出たり中々難しいのです。

そこでアナログ変換をする前にデジタル内でのリサンプリングによりナイキスト周波数を高くすることで、アナログLPFの設計に余裕を持たせよう!っという考えからリサンプリングするデザインが生まれたのですね。

そして現在世の中に出回っているDACのほぼ全てが内部でリサンプリングをするタイプの設計になっているらしいのです。

というわけで、我々がリサンプリングなんかしたくない!と考えていても現状DACによるリサンプリングが避けられないということになります。

とは言うものの、DACを作っている技術者たちがこの事実を知らないわけないので、最近では各社それなりにISP/トゥルーピーク対策はしている…という意見を多数見かけたので、昔はともかく最近ではISP/トゥルーピークが直接的原因による悪影響は多くはないかも?

具体的に言うとDACがリサンプルする前に少し音量を下げてからリサンプルする…的な方法等が採用されているみたいです。

もしかして多くの人はISP/トゥルーピークとは別の原因で歪みを感じていることが多いのではないか…とも思えます。

実際のISP/トゥルーピークはメーターでは分からない

ということで、ISP/トゥルーピークが原因で起こる諸問題はもっぱらDACによるリサンプリングが起因となっていると分かりました。

ここで厄介なのはDACで使われているリサンプリングのアルゴリズムは統一されていないということです。

つまり、各DACのリサンプリングによってISP/トゥルーピークがどのくらい飛び出るのか異なってくるのです。AというDACでは+1dBTPとなるけどBのDACでは+3dBTPになる…というのがあり得ない話では無い。

しかも我々は通常ラウドネスメーター等に搭載されているISP/トゥルーピークメーターを使って確認しますが、それも「x4のオーバーサンプリング時」という規定があるだけで各DACで行われるリサンプリングとは別物。

つまり、ラウドネスメーターの数値も確実では無いってことです。

実際に上で2kHzのサイン派をアップサンプリングした図で、リサンプリング前にTrue Peak+1.76dBとなってるところリサンプリング後にはSample Peak+1.83dBとなっていて誤差がありますよね。

あくまで分かるのは目安だけ…うーんなんと言うか、なんなんでしょう笑

マキシマイザーはISPが問題になりやすい

さてISPが問題になるケースについて振り返りましたが、これって要はサンプルが最大値(0dBFS)付近にたくさんあるとヤバイってことです。

そんな状態が頻繁に発生するのはマキシマイザーを使う時、つまり「平均音量/音圧」を上げた状態ですよね。

正直言って1つのアタックで一瞬ISPオーバーシュートが発生しても大きな問題にはなるとは思えません。

しかしマキシマイザーでバキバキにリダクションされた常にサンプルが最大値付近に張り付いているような場合だと継続的にISPオーバーシュートが発生してしまう可能性が大きくなります。

つまりISP/トゥルーピーク問題というのは「音圧戦争」が生み出した現代病的な側面もあると言えます。

とはいえ、そんな病気を乗り越えるサバイバーになるために対処方法を考えていきましょう。

トゥルーピーク/ISPの対処方法

というわけで、トゥルーピーク/ISPのオーバーシュートは可能な限り避けたい!ので、有効な方法を挙げてみます。

1.Ceilingを下げる。

まず、一番単純明快な方法はマキシマイザーのCeilingを下げてヘッドルームを確保する事です。

例えばISP/トゥルーピークメーターで+3dBTPとか出てたらCeilingを-3dBよりも下げれば問題は一応便宜上回避できます。

まあ、そんなISPが飛び出てるということは音圧マシマシにしたいのでしょうから、Ceilingを下げて音量を低くするというのはアリエナイ選択肢になるでしょうね笑

2.オーバーサンプリングする

Ceilingをガッツリ下げるのは現実的じゃあない!ということで実践的な解決方法として挙げられるのはオーバーサンプリングという技術。また名前が出てきました。

これはプラグイン内部なりでサンプルレートをいくつかの倍率に上げることで、一時的にサンプル数を増やす=ナイキスト周波数を上げる技法です。

最近は任意で選択できるものからそうでないものまで多くのマキシマイザーはオーバーサンプリングしていると思われます。

マキシマイザーにおけるオーバーサンプリングの大きなメリットはリダクションをする際に発生する多くの高調波歪み(および相互変調歪)がナイキスト周波数を越えてしまう事によって引き起こされる折り返し歪みを防ぐことです。

サンプル数を多くしてから計算するということは、通常のサンプリングレート時のサンプルの間に出来るサンプルも処理出来るということですね。つまりISP/トゥルーピークをより正確に捕まえられる。

オーバーサンプリングをした場合はダウンサンプリング時に(おそらくギブス現象とかいうヤツの影響で)またISP/トゥルーピークの値は変わるのですが、その変化は高倍率のオーバーサンプリング時には+0.1〜0.5dB程度のもの。

つまりCeilingを僅かに下げるだけでISP/トゥルーピークのオーバーシュートを防ぐことが出来るようになります。

3.トゥルーピークリミッターを使う

最後の対応策はISP/トゥルーピークを抑えてくれる機能を持ったリミッターを使うことです。

文字通りISP/トゥルーピークを抑えこみますが、一方で音質的な変化を伴ってしまう(多くはネガテイブな方向に)ので一長一短と言えますね。

「残りあと0.2dB音量を上げたい」…なんていう理由だったら使うのもアホらしいですが、「高倍率のオーバーサンプリングが出来ないマキシマイザーの「味付」を利用したいけどトゥルーピークも抑えたい」…という場合に使うのはアリでしょうね。

あとは放送とかリアルタイムで絶対にISP/トゥルーピークを抑えたいって場合にも有効なツールなのでしょう。

MP3等の圧縮音源とISP

ISP/トゥルーピークの話題が語られる時に、よくMP3やAAC等のデータ圧縮をした際のピークの変動が例えに上げられますが、実はMP3変換によるピークの変動はISP/トゥルーピークとは直接的な原因では無いです。

MP3などの圧縮変換は単純なリサンプリングではなくて、周波数をカットしたりビットレートに応じて新たにディザノイズを加えるような感じで、ある種新たにエフェクトを掛けているようなものなので必然的に元の音源よりピークが変動するのですね。

なので、いくらISP/トゥルーピークを抑えたとしてもMP3変換によるピークの変動は防げないし、それどころかISP/トゥルーピークが0dBFSになるように設定をしていたらMP3変換でハードクリップを生じてしまう可能性大です。

当然ながらビットレートが低い時ほどにピークの変動が激しくなり、低ビットレートの変換では+1dB以上の変動はザラに起こります。

ISP/トゥルーピークを抑えたほうがマシな結果になるかもしれませんが、それだけでは根本的な解決にならないので適切なCeiling設定=ヘッドルーム確保が必要となりますね。

ちょっと脱線:Windowsの内部リミッターの話

Windowsを使ってないので直接体験しているわけではないのですが、Windows Vista以降では-0.2dBFS以上の音声はPC内部でリミッターが自動で発動してしまい、元の音から変化してしまうらしいです。

メリットとしてはおそらく単純なハードクリップを防ぐことが出来るという事があると思いますが、こだわりをもって作った音源のニュアンスが微妙に変化してしまう可能性も孕んでいます。

ここでのミソは「-0.2dBFSを超えた音声である」ということ。

つまりはピークを-0.3dBTP以下に抑えれば大丈夫であろうということです。

一般のリスナーがWindowsのPCから直でリスニングをする可能性を考えると、考慮する必要があるかもしれませんね。

おまけ:Ceiling設定について考える

さて、以上のように長々とISP/トゥルーピークについて書いてきましたが、結局の所Ceilingの設定=ヘッドルームはどのくらい取ればよいのか!?

別にマスタリングエンジニアではありませんが、ワタクシの考えをケース別に紹介していきましょう。

1.理想の世界でのCeiling設定

まず、まあ、あり得ない話ではありますが理想の話を…

どんなDACで再生されても、後から非可逆圧縮されても耐えうるような音源を目指すならヘッドルームは-6dBTP以上取るのが理想です。

理論上ISP/トゥルーピークは最大6dB〜10dBくらい飛び出すと言われています。さらにはMP3やAAC等の非可逆圧縮を低ビットレートで行われると簡単に1dB以上のピークの変動が発生します。

製作者側では消費者がどのような環境で、どのように再生するかを指定することは出来ません。

となると、あらゆる状況を想定した場合に絶対歪み防ごうと思うと6dB〜10dBくらいのヘッドルームが必要なのではないかと考えられます。

その分DACのS/N比自体は下がりますが、想定外の歪みは防げるのでクオリティコントロールが出来るというものです。

まあ、でもこれは理想の話なので現実的ではないでしょうね。

3.現実的なCeiling設定:配信/CD編

ということで、実践的な状況でのマスタリング時のCeiling設定を考えてみます。

CDも依然として健在ですが、最近は配信サービスの方がメインになりつつある流れですよね。

配信では各社がオリジナルの音源から非可逆圧縮を施して配信をするので、CDメディア以上にCeiling設定に気を使わなければいけません。(いや、CDも気をつけなきゃイケないのだけど…)

特にストリーミング再生のプラットフォームの場合は、低ビットレートでの圧縮が採用されるのでヘッドルームを適切に取っていないと圧縮変換時にハードクリップが発生してしまいます。

これはAppleの”Mastering for iTunes”というサービスのガイドラインが非常に参考になりまして、ここで規定されているのは-1dBTP以上ヘッドルームを取るというもの。

なので配信サービス向けもマスタリングをする時は、最低でも-1dBTPのヘッドルームを取るべくCeilingを設定するのが望ましいと言えます。

で、もうCDも同じく-1dBTPのCeiling設定でいーんじゃないの!?っていうのがワタクシの最近辿り着いた結論です。

大抵は-0.1dBTP〜-0.3dBTPに設定する場合が多いと思いますが、これだと圧縮変換した時にハードクリップしてしまう可能性がかなり高い。

-1dBTPのヘッドルームを取れば音圧マシマシ海苔波形だったとしても、192kbpsくらいまでならおそらくハードクリップを起こさない範囲で収まります。

CD買っても多くのリスナーは圧縮変換するっしょ。なので、皆も-1dBTPで行こーぜ!笑

3.現実的なCeiling設定:動画編

あと純粋な音楽配信プラットフォームでなないですが、Youtubeでアップロードする動画向けのマスタリングの場合は、ワタクシの実験だと音圧マシマシのマスタリングの場合-1dBTPではヘッドルームが足りませんでした。

というのも、ワタクシの場合はiMovieでの動画エンコードの際に一度音声圧縮が行われてしまい、Youtube側にアップロードする際にまたピーク変動があったので-1dBTPだと所々ハードクリップ(メーター上)してしまったのですね。

最初から動画に圧縮音源が使える動画編集ソフトの場合は大丈夫かも?

まあ、動画の場合は放送業界のラウドネス規格もあるし、Youtubeもラウドネスノーマライゼーション的なこと施しているので、Ceilingを気にしてまで音量を詰め込む意味はあまりないと思いますけどね。

おまけのおまけ:リスナーサイドでの対処法

色々書きましたが、世の中のメジャー音源はISP飛び出しまくりなので、リスナー専門の方でメーターで表示するISPにヤキモキしてしまう場合があると思います。

ので、簡単に回避する方法を伝授します。

それは…

デジタルボリュームを絞ることです!

要はデジタルからアナログに変換する前のデジタルボリューム(itunesとかのボリューム)でちょっと音量を下げてしまえば、おそらくISPのオーバーシュートは回避出来ます。その分ちょっとだけDACのSN比は下がりますが、どーってこっちゃないです。

ただ…mp3変換とかされている音源はもう単純に0dBFS超えてしまっている可能性が高いので、それはもうどうしようもないですけど…

これは変換前にファイルのボリュームを下げてからmp3変換すれば回避出来ますが、メンドーすぎるね。

以上

ということで、ISP/トゥルーピークの復習でした。

ISP/トゥルーピークについて書かれてる時に大抵「DA変換の際に〜」としか説明されてなかったので、気になって復習してみたらまとめるのが結構キツかった…笑

おそらく微妙に間違ってるとことかあるかもしれないので、あったらコッソリ教えてね

あと、いつものように下記に参考にしたWEBページのリンクはあるから、確実な情報を得たい方はそちらを参照して下さい。特にpdfになってるところは信頼性が高そうです。

(終)

参考にしたページ(思い出せる限り)