ボイチェビ_調声データ置き場

VOICEROIDやCeVIOの調声データなどを投稿しています。。

コエアバターの調声に関しての備忘録

コエアバターを使用したソフトウェアトーク劇場の動画を作りました。

その動画を作成するにあたり、コエアバターの調声に関して

調べました。

一部はツイッターでツイートしましたが

記事として残す方が良いと考え、備忘録として残します。

 

動画の黒須やひろ様の調声データ(jsonファイル)は、

以下のURLからダウンロードできます。

コエアバター - Google ドライブ

エステーションで保存したjsonファイルには

ユーザIDが含まれていたため、そのデータを削除して公開しています。

 

調子タグと感情タグの追加方法

調子タグをテキストに付けるには、

入力テキスト編集ボックス内の設定したいテキストを選択した状態で

適用ボタンを押す。または、手動でXMLを入力する。

f:id:tsts4767:20220220204409p:plain

適用ボタンを押すと選択したセリフに調子タグや感情タグが追加される。

f:id:tsts4767:20220220204412p:plain

どのテキストも選択していない状態であると適用ボタンが押せないので注意。

感情タグについて

感情は、「通常(設定しなかった場合)」「喜び」

「怒り」「哀しみ」 の4つ。

説明書を読むと対応していないコエの場合は、無視されるとあったが、

今回支援した声(黒須やひろ様) については、対応している様子。

各感情を混ぜることも可能。

感情値は0が0, 100が50%, 200が100%と考えるとよさそう。

アクセントについて

アクセントは、

    • '  (シングルクォーテーション) : 通常
    • *  (アスタリスク) : 弱め
    • " (ダブルクォーテーション) :  とても弱め

3つの記号を音節の後ろに付ける方法。

SofTalkの記述方式に近い。

無声化について

無声化は、音節の後ろに "%" を付けることで可能だが

無声化できる音節は、

キ, ク, シ, ス, シュ, チ, ツ, チュ, ヒ, フ, ピ, プである様子。(説明書に記述あり)

何でもかんでも無声化してみることはできない。

特徴パラメータについて

コエリストの":"マークをクリックし、「コエ編集」をクリックすると

各コエの特徴パラメータを編集することができる。

f:id:tsts4767:20220220213209p:plain

f:id:tsts4767:20220220213212p:plain

パラメータが多くあり、このコエ編集にしかないパラメータで

「声の太さ」「性別」「若さ」「明瞭さ(音色)」

は声を大きく変える。

そのため、調声を始める前に、それらのパラメータを

決めておくことをお勧めする。

または、コエ1人分で複数のキャラクターを演じるときに

それらのパラメータが重宝する。

 

どのように調声しても、求めている声が出なかった場合は、

これらのパラメータの変更を試してみる価値はある。

(ただし、調声沼となる)

母音と伸ばし棒について

読み調整テキスト編集にて

音声を伸ばしたいとき、「母音」と「"ー" (伸ばし棒)」の

どちらを使用するかで調声結果が異なる。

伸ばし棒は、1個の場合と複数個を繋げた場合で

伸びる長さがあまり変わらないので、

伸ばし棒1本で伸びが足りない場合は、

母音を複数個追加した方が伸びる。

 

例として、

「アーーー」は「アー」よりものばし棒が2本多いが、

母音の伸びがあまり変わらない。

「アアアア」か「アアアー」とした方が、母音が伸びる。

調子タグと感情タグの優先順位について

同じ調子タグや感情タグを2個付けた場合は、

内側のタグが優先になる。

例として

<話速A><話速B>セリフ</話速B></話速A>の場合は

話速Bの設定が優先される。

調子タグと感情タグの順番による影響について

調子タグや感情タグの順番が変わっても音声は一致する。

例として

<喜び><怒り>セリフ1</怒り></喜び> と

<怒り><喜び>セリフ1</喜び></怒り>

は一致する。

 

<喜び><話速>セリフ2</話速></喜び> と

<話速><喜び>セリフ2</喜び></話速>

についても一致する。

アクセントの区切りの処理について

読み調整テキスト編集にて

アクセント句の区切りは、

  • 空白
  • "/" (スラッシュ)
  • ":" (コロン)
  • "," (カンマ)
  • "." (ピリオド)
  • "?" (クエスチョン) 

の6種類ある。

調声に影響を与える記号のグループは、

「空白 と "/"」「":" と ","」「.」「?」の4種類に分かれる

空白と "/" の違いについて

空白 と "/"は、説明書では異なる説明であるが、

読み調整テキスト編集

空白 を "/", "/" を 空白

に変えても同じ音声になった。

音声をバイナリ比較しても一致した。

空白と "/" で大きな違いはない様子。(さらなる検証が必要)

区切り記号の違いについて

話速が初期値において

カンマは約0.3秒のポーズ、コロンは約0.1秒のポーズである。

そして、カンマ1個(,) を コロン3個(:::) に変換しても

調声結果は同じ。

複数の記号を重ねるとそれだけポーズの長さが伸びる。

区切り記号で別の記号が隣接していた場合の優先度について

読み調整テキスト編集にて

「空白 と "/"」, 「":" と ","」が隣接していた場合は、

「":" と ","」の記号が優先される。

 

例として

「空白 + ","」「"," + 空白」「"/" + ","」「"," + "/"」

はいずれも「","」と調声結果は同じ。

(","がポーズの長さとして優先される)

末尾の区切り記号に関して

読み調整テキスト編集にて

「"." (ピリオド)」「"?" (クエスチョン)」「"." + "?"」「"?" + "."」

「"," (カンマ)」「無し」

のいずれにおいても、調声結果が異なった。

「"." + "?"」は「"."」と音声が似ており、

「"?" + "."」は「"?"」と音声が似ていた。

末尾において、「空白」と「無し」は同じ音声になることから

末尾の空白文字は無視される様子。

ポーズタグについて

ポーズタグ <break time="[任意の時間]ms" />の長さは

話速の影響を受けない。

50msとすれば、話速の設定がいくつであっても、ポーズは50msとなる。

 

「":"」「","」「"."」「"?"」(区切り記号) のポーズの長さは

話速の影響を受ける。

話速が速いとポーズが短くなり、遅いとポーズが長くなる。

区切り記号の後ろにポーズタグが付いた場合について

読み調整テキスト編集にて

「":"」「","」「"."」「"?"」(区切り記号) の後ろに

ポーズのタグを追加した場合は、

それらの記号によるポーズの長さが、

追加したポーズタグの秒数に上書きされる。(最小5ms)

上書きされた秒数は、話速の影響を受けない。

 

例として、

"," (カンマ)は通常であれば、ポーズの長さは約300msになるが、

"," + ポーズタグ50ms <break time="50ms" />とした場合は、

ポーズの長さは、300 + 50 = 350msとはならず、約50msとなる。

その約50msは、話速の設定がいくつであっても約50msとなる。

区切り文字をポーズタグに変更した場合について

話速が初期値において

","(カンマ) を ポーズタグ300ms(カンマと同じポーズの長さ)

に変更した場合は、音声が一致する。

「空白 + ポーズタグ300ms」は、「"," (カンマ)」と同じ音声になる。

":" (コロン)についても、ポーズタグ100msに変更した音声と同じになる。

 

"." (ピリオド) と "?" (クエスチョン) については、

それらの標準のポーズの長さと同じポーズタグを追加すると音声が一致する。

 

例として、

「"."」→「"." + ポーズ800ms」 や

「"?"」→「"?" + ポーズ800ms」

にすると音声が一致する。

テキストファイルの出力について

音声と一緒にテキストファイルを出力する方法はなさそう。(2022/2/20現在)

そのため、別で音声とは別にテキストファイルを用意する必要がある。

エクスポートでcsvかtsvとして、セリフの一覧は出力できる。

しかし、セリフのテキストに調子タグや感情タグが含まれているので使い辛い。

別のソフトでテキスト内の調子タグや感情タグを除く自作ソフト作成が必要。