N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
<< ビルド時のリンクエラー AquesTalk2 iPhone | main | ロボットボイス第二弾(AquesTalk-FX) >>
おかしな声の音声合成エンジン AquesTalk-FX リリース

変わった声を合成するの音声合成エンジン『AquesTalk-FX』をリリースしました。




このエンジンは、とっても変な合成音声を生成します。
なんと、ピッチ(基本周波数とか声の高さの意)が無い音声です。
とても人間にはマネの出来ない声(?)なのですが、発声内容はだいたい理解できます。

今回配布するパッケージにはAquesTalk2上位互換のダイナミックライブラリと共に、
そのライブラリを実行するためのGUIアプリケーション(上画像)が含まれています。
対応OSは、WindowsとMacです。

サンプル音声はこちらから。
パッケージのダウンロードはこちらから Mac   Win


使い方は、ほぼAqTk2Appと同じなので、こちらを参照してください。
声質を変更するパラメータが一つ追加されています。

なお、今回公開するものはβ版であり、予告なく変更することがあります。
また、生成した音声データはご自由にお使いいただけます。
お使い頂いたときには、ご感想をいただければ幸いです。 @nyaqu (twitter)

2010/11/04 追記 改良版リリースしました。詳細はこちら

ところで・・・・


今回の合成方法、音声合成の研究者なら絶対やらないけど、素人ならやっても不思議でない方式です。特に、"フォルマント"というものを間違って理解してしまうと、こんな音声合成器が出来上がってしまう例でもあります。また、単に母音の合成だけなら比較的簡単にこの方式を実装できるので、実際に同じことを試された方もいるのではないかと思います。

基本的な原理的を簡単に説明すると、数個のフォルマントのピークの周波数とその大きさに対応する、sin波形を重ねて音声(?)を合成するというものです。
次の図は普通に有声音を合成した時のスペクトルと、今回の合成音声のスペクトルを示したものです。

  通常の有声音のスペクトル                       AquesTalk-FXのスペクトル
 

どうです、まったく違いますよね。
人間は、こんな大雑把な特性の音でもそこそこ何を言っているかわかる(音韻を認識できる)なんて、すごいと思いませんか。

今回の方式はとてもシンプルなので、DTMのシンセサイザーを使って数個の周波数の異なる正弦波を重ねても、同じような合成音が作れるかと思います。

ちなみに、今回の製作のきっかけは、通常の音声合成の開発している最中に、合成フィルタのパラメータを誤って指定してフォルマントの周波数で発振させてしまったのですが、意外に発声内容が聞き取れるなと感じたのが始まりでした。

 
| AquesTalk | 23:41 | - | - |
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND