N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
<< [Arduino] AquesTalk ライブラリ | main | AquesTone2 MIDI打ち込みの基本(初級) >>
歌唱音声合成 Plug-In 「AquesTone2」を公開しました

AquesTone2とは
ボーカル系のシンセサイザーです。
VSTプラグインであり、対応のDAWホストで使います。
AquesToneの後継バージョンとなります。


開発の背景
大変お待たせしました。ようやくバージョンアップです。
すでに2010年のASCII.jpのインタビューのとき、
『新しいものを作るね!』と約束していたのですが・・・。
開発の方向性はこの時の話の内容と変わっていません。
"生身のボーカルを目指すんじゃなくて、機械の声を狙う"
人間の声のような音が出る楽器を目指して開発しました1)

VOCALOIDのように人間のボーカルの代わりとして使うのでなく2)
インスト曲にさらりと使ってもらうのを想像してます。
たとえば、Denkitribe氏の「AquesTone and EMX」のイメージ。
もちろん、部分的にバックコーラスのようにとか、ボーカル曲のようにソロとして前面に使っても・・・
使い方を私がとやかく言っても意味ないので、とにかく、斬新な表現で使われることを期待しております。

今回はMac版も用意
プラグイン仕様がVSTなので、使えるDAWには制限がありますが、Macユーザには喜んでもらえるかなぁ。

今回、WindowsからMacへの移植はとても簡単でした。
SDKのバージョンやらで基本的な開発ができるまではそれなりに大変でしたが、
コード的には自分で書いたWindowsのOS依存部分をOSX用に書き換えただけ。
VSTのSDKは良くできてますね。


新規に作り直したAquesTone2

AquesToneのときは、テキスト音声合成のAquesTalkエンジンを流用したのですが、AquesTone2の音声合成のエンジンは、AquesToneの延長でなく一から作りました。

AqesTone2の音声生成方式に最も近いのは、AquesTalk picoになります。
ただ、こちらは最軽量を目指した規則音声合成エンジンで、すべて時間軸で信号処理しています。
AquesTone2では、PCの性能を活かし、より複雑なアルゴリズムで時間領域と周波数領域を
行き交いながら音声を合成しています。
まぁ、基本は古典的な音声合成技術の駆動音源と声道特性フィルタって構成です。
したがって、AquesToneの軽量という特徴はなくなりました。
最近のPCは速いから、良いですよねっ!

音節のつなぎをあえて無視
規則音声合成では、音節を単純に並べただけでは異音感や明瞭性に欠けるため、
各音節が滑らかに接続するように、後続音節に合わせて前節の後半部の特性を変化させる必要があります。

歌唱合成でも同じことが行われています。AquesToneやVOCALOIDでは後続の音節に移るための音声素片(VC)が用意されていますし3)、UTAUが「連続音音源」に発展していったのもこれが理由でしょう。

しかし、今回、AquesTone2ではこれを完全に無視しました。
その代わりに、前後の音節を順番に切り替えて鳴らすのでなく、
前の音節の後ろと次の音節の頭の部分を重ねるように同時に鳴らして連続性を得ています。
ようするに、音節間のつなぎをクロスフェードで行うということです。
MIDIメッセージで音符と音符の間隔を調整するのが、綺麗に重ねるポイントでもあります。

音声合成を長年やってると、固定概念からこのようなCV素片だけのシステムを馬鹿にしてしまうのですが、
実際にやってみると、このクロスフェードだけでも歌唱合成には意外に使えると実感しました。
ちなみに、ポリフォニックの機能は、これを実現するための実装の副産物です。

ハスキー声の新しいモデル
今回の開発中に、ハスキー声にするためのモデル(アルゴリズム)にちょっとした技術的進歩がありました。
従来はピッチ成分と摩擦性(ランダム位相)成分のゲイン調整のみで、ハスキー化を表現していたのですが、
今回、駆動音源の波形を変化させることで、ハスキーやウィスパーを表現しています(パネルでは「Hard」つまみ)。

どう変化させるかの具体的なことは内緒ですが、わかる人にだけわかるヒントを・・・。
"ピッチ成分の特性を、のこぎり波から三角波の変化に類比させる。"
これって人間の声帯振動ともマッチしてるんですよね。

今後
AquesTone2の今後ですが・・・完全に未定です。
すでに、音源ファイルを追加する機能が実装されているのですが、
実際どんな音源を用意するかといった肝心なことが未定。
中性的な音源なのかなと漠然と思ってます。

満足いくような"機械的だけど綺麗な声"はいつになるやら・・・


1) というわけで、"自然じゃない"という評価は根本的にズレてますからね。
2) VOCALOIDだって、音域を越えたり早口だったりと人間にできない表現を狙うこともありますね
3) 剣持秀紀: "歌声合成ソフトウェアVOCALOIDのメカニズム", Interface Oct. 2012 CQ出版

■関連リンク
AquesTone2
http://www.a-quest.com/products/aquestone.html

AquesTone2紹介動画
http://www.nicovideo.jp/watch/sm19767691

AquesTone
http://www.a-quest.com/products/aquestone1.html

ASCII.jp「初音ミクと「ゆっくり」の声、何が違う? 」
http://ascii.jp/elem/000/000/550/550525/

Denkitribe: 「AquesTone and EMX」
http://www.youtube.com/watch?v=DISvTLDdhXk

AquesTalk pico
http://www.a-quest.com/products/aquestalk.html

 

| AquesTone | 18:30 | - | - |
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
Arduino Uno
Arduino Uno (JUGEMレビュー »)

AquesTalk pico LSIの評価ボードとして最適
RECOMMEND
Raspberry Pi Model B+ (Plus)
Raspberry Pi Model B+ (Plus) (JUGEMレビュー »)

これと AquesTalk pi で簡単にテキスト音声合成!
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND