ボイチェビ_調声データ置き場

VOICEROIDやCeVIOの調声データなどを投稿しています。。

第五回ひじき祭で投稿したCeVIO解説動画の補足(2021/12/9 URL修正)

【第五回ひじき祭】タカハシのCeVIOのDeepな話【CeVIO解説】


第五回のひじき祭は、前回のひじき祭で投稿した動画

に引き続き、CeVIOの仕様について調査・解説した動画を投稿しました。
その動画の補足と動画内で使用した表を載せています。

CeVIOとVOICEROID、SofTalkの音量の比較について

CeVIOとVOICEROIDの両方を使用している動画を見ているとCeVIOのキャラクター達の音量が小さい動画が時々見られました。それが少しでも減ればと思い、各キャラクターの音量を調査・解説しています。
[2019/12/28追記] ついなちゃんとSofTalk(一部)を追加しました。
[2020/4/6追記]伊織弓鶴、v_flower、かんたんAI Talk3、東北ずん子等を追加しました。

<VOICEROIDとCeVIOの音量の差を小さくするにはどうすれば良いか>
CeVIOのマスターボリュームを+6.0dBにするとおおよそVOICEROIDと同じ音量になります。


マスターボリュームは全てのトラック かつ wavファイル作成時の音量(Ver6.0.28.3以降 2018/1/22公開)に影響を与えるため、もし、CeVIO内で外部のオーディオトラックを使用する方は、マスターボリュームを±0dBにして各トラックにあるVOLボリュームを+6.0dBにすることで代用できます。


もちろん、コンディションパラメータの"大きさ"を+6.08dB(旧表示:88)にしてマスターボリュームとトラックボリュームを±0dBにする方法もあります。
しかし、各セリフの音量調整の範囲が狭まるため、マスターボリュームかトラックボリュームを使用することをお勧めします。

後は、調査方法と調査結果についてです。

<使用したソフトについて>
音量の比較には、FFmpegとSound Engine Freeを用いて計測を行いました。

FFmpeg: https://ffmpeg.org/
計測時に参考にしたWebサイト:https://pspunch.com/pd/article/measuring_loudness/
FFmpegで用いたコマンド:
ffmpeg -nostats -i 音声ファイル名と拡張子 -filter_complex ebur128 -f null -

〇 Sound Engine Free:https://soundengine.jp/
上部タブにある"解析"を用いて計測


<計測結果について>
動画ではCeVIOのバージョンは、Ver6.1.40.0を使用して計測を行いましたが、
このブロマガでは、2020/4/6時点最新版のVer7.0.22.3を使用して計測を行いました。
また、CeVIOの各キャラクターの各感情を100にした場合を追加しています。
 動画では、各感情を入れると表が小さくなり過ぎるのでカットしました。
 
セリフ:

CeVIO Creative Studioは、最新のHMM音声合成技術により人間の発声をシミュレートした明瞭で自然な歌声と、感情を交えた表現力豊かな読み上げ音声を実現した音声創作ソフトウェアです。
〇 CeVIO 2020/4/6更新(Ver 7.0.22.3を使用)



〇 VOICEROID 2020/4/6更新(伊織弓鶴などを追加)



〇 AI TalkガイノイドTalk 2020/4/6更新(v_flowerを追加)



SofTalk (Ver1.93.30) 2020/4/6更新(平均を追加)
<読み設定>
ちぇびお/くりえーてぃぶ/すたじおお+わ、さいしんの/えいちえむえむ/おんせい/ごうせい/ぎじゅつ+に+より/にんげん+の/はっせい+を/しみゅれーと+_シた/めいりょう+で/しぜん+な/うたごえ+と、かんじょう+を/まじえ+た/ひょうげんりょく/ゆたか+な/よみあげ/おんせい+を/じつげん+_シた/おんせい/そうさく/そ_フとうぇあ+で_ス。


〇 かんたん AI Talk 2020/4/6追加



〇 まとめ (2020/4/6更新)

※3.5dBの差は約1.5倍の音量差になります。
〇 動画で使用した表



<補足> 2020/4/6 補足内容を変更
動画で使用した音量の表ですが、CeVIOのキャラクター達の音量を後日、計測したところ、微妙に結果が変わりました。
各フレーズのアクセント句間にあるポーズの長さを初期化していなかったことが原因だと考えられます。
2020/4/6に調査した際には、各フレーズで"初期値に戻す"を行ったため、より正確な値が調査できたと思います。
ただし、辞書データ有りの状態で調査を行ったため、環境によっては多少の差異はあると思います。しかし、そのずれは誤差レベルであると考えられ、厳密に音量を調べることが目的ではなかったので、再調査の手間を減らすために辞書ありで調査を行いました。

<調査結果より> 2020/4/6 結果内容の解説を大きく変更
東北イタコ、伊織弓鶴、CeVIO、SofTalk_男性1、鳴花ヒメ、ミコト、ギャラ子、音街ウナが音量が小さいようです。
特に注意すべきキャラクタは、伊織弓鶴の"感情無し"の音声になります。
"感情無し"と"感情あり"の音声で音量の差が約4, 5dB(約1.7倍)ほどあり、音量の差が大きいです。
そのため、"感情無し"と"感情あり"の音声を両方使用する場合は、"感情無し"の音量を"感情あり"の音声よりも大きくしておかなければ、"感情無し"の音声の音量が"感情あり"と比べて小さくなります。

やや音量が小さいのは、ついなちゃん(関西、標準)、v_flower、のぞみ(かんたんAI Talk3)、SofTalk_男性2になります。

それに対して、音量が大きいのは、ゆっくり霊夢(女性1)、ゆっくり魔理沙(女性2)、ななこ(かんたんAI Talk3)、せいじ(かんたんAI Talk3)になります。
平均との差が約3.5dBであるため、それらの音声の音量の大きさは、平均よりも約1.5倍の大きさになります。
特にSofTalkの音量の初期設定が100であるためSofTalkをCeVIOやVOICEROIDなどと一緒に使用する場合は、SofTalkの各キャラクターの音量設定に注意しておかなければ、SofTalkの音声の音量がCeVIOやVOICEROIDに比べてとても大きくなります。

LUPSの平均値において、結月ゆかりの音声(感情なし)は-24.7dB、ゆっくり霊夢魔理沙の音声(音量100)は約-16dBとなっています。差が約8dBであることから、ゆっくり霊夢魔理沙の音声は結月ゆかりの音声よりも約2.5倍音量が大きいことになります。


音量が小さいキャラクタ達は、大きさを1.5倍(CeVIOは+6dB)にするとVOICEROIDの音量が大きいキャラクタとおおよそ同じ音量になります。

そのため、音量が小さいキャラクター(※)達は、音量を1.5倍にすることをお勧めします。
SofTalkについては、全ての声を調べた訳ではないため、音量が大きい男性の声がある可能性があります。同様に音量が小さい女性の声がある可能性もあります。

ちなみに音量が大きいVOICEROIDの音量を既に大きくしている場合、CeVIOやAI TalkSofTalk(男性)の音量をそれに合わせるには、その倍率を掛けるとおおよそ一致します

(例) 結月ゆかりの音量を1.5倍にしている場合は、
CeVIOは 6×1.5=+9dB
AI Talkは1.5×1.5=2.25倍
SofTalk(男性)は音量75×1.5=112.5 最大値が100であるため100
にするとおおよそ一致します。



※伊織弓鶴の音声は、感情ありである場合は、約2倍でおおよそ音量が一致しますが、感情無しの場合は、2倍でもまだ音量が小さいです。音量を約3倍にすることで結月ゆかりの1.5倍の音声(感情無し)とおおよそ一致します。

調査で使用したセリフと伊織弓鶴の音声(感情無し)の相性が悪く、通常よりも音量が小さい可能性も考えられますが、伊織弓鶴の感情無しと感情ありの音声を両方使用する場合は、感情無しの音量に注意が必要です。

各キャラクターの音量は、セリフによって変わるため、あくまで目安としてこの音量設定を使用してください。作成した音声を実際に聴いて他のキャラクターの音声の音量に大きな差がないかを確認することをお勧めします。

子音、母音の種類について

[2019/12/28追記]
CS7より仕様がいくつか変更されました。
そのため、この項目では、CS7での仕様について説明しています。

CeVIOには子音32種類(CS6では34種類)、母音10種類があります。
〇 子音 (CS7で仕様が変更されました)

CS6と書かれたものはCS6のみ、CS7と書かれたものはCS7のみになります。
CS7から"フャ"、"フュ"、"フィェ"、"フョ"が子音hyの行に追加されました。
また、CS6では単語の読みに小文字のヵがあるとそれ以降が読まれなくなる不具合がありましたが、CS7からはカとして扱われるように修正されました。

〇 母音

2文字の組み合わせを一通り調べたので子音と母音はこれで全てだと思いますが、まだあるかもしれません。
CS7において、フィェという3文字が登場したため、何かしらの子音がまだある可能性があります。(検証する組み合わせが膨大であるため、調査は行っていません)

ちなみに余談ですが、3文字で1モーラは想定されていなかったのか、Ver7.0.8.0において、
"フィェ"は、単語登録のアクセントの表示が1モーラではなく2モーラ表示になっています。(未報告)
単語登録のアクセントの表示が2モーラになっているのみで
実際には1モーラとして扱われます。


<kwとgwについて>
初めに調査したときは、小さいワの存在を知らなかったため、kwとgwが表に存在せず、子音は32種類だと思っていました。その後、JISコードにあるカタカナの一覧を見ていた時に小さいワの存在を知り、調べたところ、kwとgwの子音を見つけました。
また、その時にCeVIOにkwとgwにバグがあることが分かり、公式に報告しました。
その不具合は、Ver6.1.43.0の時に修正されました。
そして、CS7でkwとgwの子音が廃止されました。
CS6において、kwとgwの発音が元々おかしかった(子音と母音の間にブレスが入るような音になっていた)こともあり、廃止されたのだと思われます。
クヮとグヮはそれぞれ、kuwa(クワ)とguwa(グワ)という扱いになりました。
(小文字のヮが大文字のワとしての扱い)

<これ以降はCS6以前のみ>
kwとgwは、単語登録の読みでクヮとグヮを使用しないと出てくることはない子音だと思います。動画の例で挙げたシークヮーサーですが、クヮ(kw)は使用されず、"ヮ"は"ワ"に変換されます。


<kw|gwの不具合(Ver 6.1.43.0で修正済み)について>
読みでクヮ、グヮを使用するとアクセントが下の画像の様になります。

kw|gwの次の音素に繋がる線が無くなり、kw|gwと次の音素の間の音が途切れます。

各音素のPITの初期値の決まり方について

この調査と解説については、調声に役立つ内容ではありません。
第四回ひじき祭のCeVIOの仕様について解説した動画を作った後、気になっていたため、調べてみた内容になります。そのため、そうなんだくらいの気持ちで見て頂ければ幸いです。

調査についても、おおまかなルールを見つけることを目的にしていたため、全て同じ母音にするなど調べる量を減らしています。
そのため、調べた結果が間違っている可能性が高く、例外も多くあると思います。

〇 頭高型_セリフ連続
1個のセリフ:あ×10  音声:ささらさん 普通100


<結果>


〇 頭高型_セリフ間に区切り(、や空白等)あり
音声:ささらさん 普通100

<結果>


<色について>
 2つの表の各列において、出てきた順番で色分け

〇 PITの初期値の規則について
<各列のグループ分け>


<各グループのPITの初期値の決まり方について>





結果からCeVIOは、語尾のPITの初期値が様々な条件によって変わることが分かります。
それに対して、セリフの先頭や中間近くにある音素はあまり変化していません。
そのことからCeVIOは、語尾のPITが重要であり、変化が少ないところは重要ではないと考えているとも言えます。
調査では、全て同じ母音を使用しているため、その考えが正しいとは言えませんが、一つの目安になります。

<繋がるアの個数によるPITの初期値の変化について>
動画で触れた繋がるアの数によってPITの初期値が変わるかについて、動画では省略しましたが、調べた結果は以下の画像になります。
[ア×n 後ろが文末]

黄色でマークしたものは、ア×10で調査した時に存在しなかったPITの初期値になります。

[ア×n 後ろが区切り]

動画では6個以上と予測していましたが、実際はアが5個以上であれば、同じ規則でPITの初期値が決まるようです。

〇 尾高型と中高型の比較
<尾高型>
音声:ささらさん 普通100



<中高型>
音声:ささらさん 普通100



尾高型と中高型はアクセントが上であるものについてはPITが同じ初期値になるようです。

〇 疑問符が付いた場合について
音声:ささらさん 普通100



疑問符は、疑問符が付くセリフのみ影響を与えるようです。
調査では、1つのセリフが10音素と長いため、疑問符が付くセリフのみ影響を受けている可能性も考えられ、正しくは疑問符の前にある一定の音素の数に影響を与える仕様であるかもしれません。

〇 規則D,Eかつ前後が母音である母音のPITの初期値について
セリフは文末とした場合を調べています。
音声:ささらさん 普通100

結果から母音のPITの初期値は、前は「a, e, o」と「i, u」のグループに分かれ、後ろは、「a, u, o」と「i, e」に分かれています。また、各母音は3パターンのPITの初期値を持っているようです。
調べる前は、各母音でPITの初期値が異なると予測していましたが、「a, e, o」と「i, u」でPITの初期値が同じになることは予想外でした。
ただし、規則DとEは音素の数が6個以上で現れる規則であり、長いセリフになるとパターンが増加するためにそれぞれに適したPITの初期値の規則を考えることが難しいことから、シンプルなPITの初期値の規則をしている可能性もあります。

解説した内容のまとめ
  • CeVIOのマスターボリュームまたはトラックボリュームを+6.0dBにしておくとVOICEROIDのキャラクターとの音量の違いが小さくなります。
  • 子音と母音の種類については、変わった調声を行いたいときに参考になります。変わった調声を行うときは、通常ではあまり使用しない子音を使用する場合があるので。
  • 各音素のPITの初期値については、特に伝えたいことはありません。


以上で第五回ひじき祭で投稿したCeVIO解説動画の補足になります。
皆さんの調声に少しでも役立つことが出来れば幸いです。

<宣伝>
もう一本第五回ひじき祭に投稿しています。(2019/8/26 0時公開予定)
【第五回ひじき祭】IA「アクセント分割機能が欲しい!!」

CeVIOの調査を行っているときに思いついた動画です。
特に調声に役立つ情報はありませんが、暇な時にご視聴ください。
[2019/12/28追記]
CeVIOのCS7ベータが12/24に公開され、アクセント分割機能が実装されました。
実装されたアクセント分割はとても操作しやすいので、アップデートを行っていない方はアップデートをお勧めします。
(注)ソフトが32bitから64bit仕様になったため、OSが64bitでない場合は、CS7へアップデートできませんので、ご注意ください。

[2019/9/4 追記]
<過去動画のCCSファイル>
タカハシのCeVIOのDeepな話のCCSファイルを以下のURLにアップロードしました。

[2021/12/9 URL修正] 共有用のURLが変わったため、修正しました。

drive.google.com