UTAUであそぼ⑤～音源製作編～

2025-05-16 15:00:25

8961文字

Public

UTAUであそぼ⑤～音源製作編～

音源録れ

原音設定をする

いよいよ設定の時間です。正直ここがいちばんしんどいです。収録した音が多ければ多いほど設定する数も多くなるため地獄です。
ここではUTAU/OpenUtau内蔵の原音設定エディタではなく有志が作ったものを使います。
今回は単独音とCVVCの原音設定だけやります。連続音の設定は調べてください。
途中で使うソフトによって一瞬分岐しますがやることはだいたい一緒です。

①フォルダを整理する
音源フォルダをUTAUのvoiceフォルダに移します。OpenUtauで音源の保存場所を初期から変えてなければSingersフォルダです。
複数音階録っているときは一つのフォルダの中にそれぞれの音階のフォルダを入れてください。
1音階だけならそのままでOKです。音源名はわかりやすく変えとこう。
フォルダの中にcharacter.txtというテキストファイルを新しく作ります。

単音階(1音階のみ)ならこれでOK

多音階(複数音階)ならこんな風に

いろんなファイルが入ってますが、この段階では
・録音した音声ファイル(をまとめたフォルダ)
・character.txt
だけあれば大丈夫です。その他のファイルは設定中に勝手に増えていきます。

character.txtの中身ですが、いろいろ設定できてちょっと面白いです。
自分用ならとりあえず「name=(音源の名前)」だけ書いておいてください。
UTAU/OpenUtauに読み込んだ時にその名前で表示されます。

②録音リストに原音設定のテンプレートがあれば、それを録音した音源のファイルに移す
今回の椎真式さくっとCVVCリストには、録音リストの他に原音設定ファイルが入っています。

oto.iniが原音設定ファイルです。
presamp.iniは今回の場合録音しない音を別の音に置き換えるための補助的なファイルです。常にあるとは限らない。

oto.iniとpresamp.iniを音源フォルダ内に移します。
多音階の場合はそれぞれの音階に1つずつ入れていってください。

こんな風に.wavファイルが入ってる場所に入れればOKです。

ここから使うソフトによって分岐します。

③-1: 古いWindowsを使っている場合の下準備
SetParamがおすすめ。↓からダウンロードしてください。
https://onedrive.live.com/?redeem=aHR0cHM6Ly8xZHJ2Lm1zL2YvYy80ZTU2YzZkOTExZTBmYWEzL0VxUDY0QkhaeGxZZ2dFNUdBUUFBQUFBQnEzMEZNNGVHOVIwbm56NnhvakpSQXc&id=4E56C6D911E0FAA3%21326&cid=4E56C6D911E0FAA3

SetParamを起動したらファイル選択画面が出てくるので、原音設定したい音声が入ってるフォルダを選択します。

oto.iniを読み込みますか？という画面が出てくるので、②でテンプレがあったらそのoto.iniを選んで読み込んでください。

このままだと画面が見にくいのと操作がちょっと面倒なので設定を調整します。
表示→波形を表示、スペクトルを表示、パワーを表示のすべてにチェックを入れます。

これで設定に使うデータが全部見えるようになりました。

デフォルトだと波形が画面内に収まるようにかなり小さく表示されるので、編集中細かい作業をしやすいように拡大率を変えておきましょう。
表示→横軸の拡大→波形拡大率の数値指定　から好きな数値を入れて拡大してください。私は800％にしてる。

また、オプションをこんな感じにしておくと調節が便利です。
特にマウスで先行発生を動かす時、他パラメータを一緒に動かす設定はほぼ必須級です。
各パラメータの比率を変えないまま左右に動かせるので、テンプレを自分の声に合わせるときに便利です。

あとはお好みで。
設定→詳細設定→スペクトルの色からcolor2を選択するとスペクトルが*Rainbow*になって見やすい気がするので私はそうしています。
原音設定するときは色というより密度のほうを見るので、デフォルトの灰色のほうが見やすい人はそのままでOK。
ツール→パラメータ一覧の並べ替えから音の並び順を変えられます。
個人的にはCVVCだとCV音素(あ、か、さ、た……)とVC音素(a k, a s, a t, a n……)を分けられるので仮名順に並べるほうが好きです。これもお好みでどうぞ。

③-2: Mac/比較的新しめのWindowsを使っている場合の下準備
(今日初めて触ったのであまり自信がありません)
vLavelerがおすすめ。↓のサイトのLatest Releaseをクリックし、自分の使ってる機種の最新バージョンをダウンロードしてください。
https://vlabeler.com/

vLabeler.exeを起動したら新規プロジェクトを選択。
サンプルディレクトリは録った音源のフォルダを選択してください。
多音階録ってるときは各音階の個別フォルダではなく、まとめたファイルを選択します。

プロジェクトファイルはわかりやすければなんでも。

次に進み、カテゴリはUTAUにします。
ラベラーは単音階ならUTAU oto、多音階ならUTAU singerラベラーを選択。

さらに進み、②で原音設定のテンプレがあればデフォルト、なければテンプレート生成器を選択。

テンプレート生成器についてはこのページが詳しいです。
https://w.atwiki.jp/vbmaker/pages/58.html

音声波形が出てきたらOKです。多音階録音してる場合は左上に各音階に切り替えるボタンが出るはずです。

開けたら設定を調整します。
設定→環境設定→グラフ→パワー→パワーの表示をオンにします。
vLabelerの場合は必須の設定は多分このくらいです。

こっちもあとはお好みでどうぞ。
グラフ→スペクトログラム→配色からスペクトログラムの色を変えられます。なんか妙に種類が多いんですが好きなやつでいいです。
私は*Rainbow*が好きなので*Rainbow*にしています。

ここから共通に戻ります

④パラメータを調節する
一番大事なところです。とりあえず各パラメータの意味だけ確認しましょう。

・左ブランク/右ブランク
いらない部分をカットするパラメータ。
左ブランクより前/右ブランクより後は使われません。

この画像だと緑と黄色の部分は切られ、白色の部分だけ音が鳴るということです。

・オーバーラップ
前の音符と重なる範囲を指定するパラメータ。
オーバーラップで指定された範囲は、前の音符の後ろのほうと滑らかにつながります。
これによって、ただ音を並べてぶつぶつ途切れた感じになることを防げます。
か行、た行、ぱ行など発音の都合上絶対に音が切れるような音はオーバーラップをマイナスにすることもあります。

・先行発声
音を再生するタイミングを指定するパラメータ。
人の声の場合、音が鳴り始めるタイミングが必ずしも拍の最初のタイミングとは限りません。
たとえばさ行の場合、「さ」とはっきり発音する前に子音の「s」が入ってくるはずです。
基本的に母音が始まる部分に置いておけば曲にばっちり合わせられるはず。

・子音部(固定範囲)
UTAU上で音を伸ばす時に、この地点までは引き延ばさないということを決めるパラメータ。
UTAUでは、3秒分の長さの音符を置きたいけど、元の音声は1秒分の長さしかない…というとき、長さを補うために元の音を伸ばします。
それはいいんですが、全部一斉に引き延ばすと子音まで長くなってしまい、スロー再生したときみたいな発音になってしまいます。
それを防ぐために、ここまでは引き延ばすと音が変わってしまうという部分を指定しておくことで、その地点より後を引き延ばすようになり発音をきれいに保てます。

これをもとに調節していくんですが、そんなん言われてもなあ……という気持ちになります。どれをどの辺に置けばいい感じになるんだよ。
解説するにはあまりにも大変なので参考になるサイトを載せておきます。
・単独音
https://w.atwiki.jp/vbmaker/pages/60.html

・CVVC(VC音素部分)

twitter.com/Cma_MIZKI/status/1919822593449705529

https://tanpopo-bibouroku.hatenablog.com/entry/2024/03/21/104724
CV音素は単独音のページ、VV音素(a あ、a いなど)は連続音のページを参考にしたほうがいいかも

・連続音
https://amitaro.net/utau/otoini01.html

繋がってる音(特にあ行とか)だと音声波形だけだと音の変わり目どこ？？？になるので、スペクトログラムを見てください。
母音によって濃く・密度が高くなる部分が変わります。

左のスッカスカの部分が「ん」、右が「え」です。
こんな感じで声を出したときにできる周波数のピーク(密集する部分)をフォルマントといい、フォルマントの位置によって母音がだいたい決まります。
(UTAU全く関係ないけど、音声学に興味がある人はPraatというソフトでフォルマントを可視化できておもしろいのでやってみてください)

実際に設定してる写真なんにもないのは寂しいので入れてみましょう

「に」の原音設定。上の音声波形だとほとんど大きさが変わらなくてわかりにくいんですけど、下の*Rainbow*スペクトログラムを見てみると
・ある地点から上のほうがスッカスカになってるな→「な」が終わって「に」に入り始めてる
・そこからもうちょっと経つと上が埋まって今度は下がスッカスカになったな→「に」の中でも子音の「n」から母音の「i」に切り替わったな
という移り変わりが視覚的にわかって設定しやすいです。

あとは実際に何回も聞こう。SetParamならctrl+space、vLabelerならspaceキーで左ブランクから右ブランク間を再生できます。
vLabelerだと、例えばオーバーラップと先行発声の間を右クリックするとその間だけ再生されるので、スペクトログラム見ても子音と母音の境目がわからん微妙な音の設定をするとき便利です。

パラメータ調節が全部終わったら保存しておきましょう。お疲れ様です。
単音階ならこれで終わり、多音階の場合は音階に合わせて切り替えできるように設定する必要があります。

⑤それぞれの音にラベリングする
この音はこの音階で録音したよ！というのをわかりやすくしておきたいので、それぞれの音の末尾に録った音階を書いておきましょう。
ここではエイリアスの変更機能を使います。
もとの録音データは「かきくけこかんか」みたいな名前がついてますが、それを切り出して「この音は『か』」「この音は『き』」というようにUTAUで使うときに読み取ってもらえるように新しくつけるあだ名みたいなのがエイリアスです。

SetParamではツール→エイリアスの一括変換から変換できます。
一番上のボックスに「%a(音階名)」と入力し、全wavに対して実行します。

説明を見た感じ%mでもよさそうなんですが、そっちだとCVVCの一部の音の名前が変なところで切れちゃうらしい。とりあえず%aにしといたらいいと思います。

vLabelerではツール→一括編集→エントリの接頭辞/接尾辞を一括編集から変換できます。(エントリはエイリアスの誤訳っぽい？)
処理する位置を接尾辞、処理を追加、追加するテキストを音階名とかにしておきましょう。

その時開いてる音階にだけ適用されます。

⑥prefix.mapを編集する
ラベルつけて終わりだと思うじゃん？
このラベルがついてる音はここからここまでの音階で使ってね！というのを指定してあげる必要があります。それを書いたのがprefix.mapです。

本家UTAU使ってる人はUTAU本体で直接編集できます。
録った音源を選択したいのですが、音源一覧に表示されないことがあるかもしれません。
参照から直接指定すれば読み込んでくれますが、character.txtがある位置にoto.iniを作っておけば今後表示されます。中身は空でOKです。
ツール→prefixmapを編集で編集画面を開きます。
ここからこの音まではA3、ここより上はE4……みたいに音域を選択して、suffix欄に音階名を書いてセットを押すと書き込まれます。
全部設定出来たらOKで適用されます。

他にもメモ帳に直接書き込む方法もあります。まいこさんのページが参考になります
https://ameblo.jp/maiko3utau/entry-12168127966.html

OpenUtau勢もOpenUtau本体で編集できます。
音源を選択し、ツール→シンガー…で設定画面を開いたら、右端のサブバンクを編集を押すと編集画面が出ます。
あとは同じように音域を選び、サフィックス欄に音階を書いてセット。
保存した後、一応prefix.mapをエクスポートしておきましょう。character.txtがある場所に置いておけばOK。

これで歌わせる準備は完了です。長いよ。

Custom color