N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
<< AquesTalkをVBで使う | main | 音声読み合わせをエクセルで行う >>
自然な合成音声
合成音声の品質について述べるとき、
「より自然な合成音声」とか「もっと自然に」などと
「自然」という単語が頻繁に使われています。

ところで、この「音声」の部分を別の単語に置き換えてみると・・・
「自然な合成食品」 「自然な合成素材」
どうもピンときませんね。
自然と合成ってのが対立しているように感じませんか?

では、「自然な合成音声」って、どういう意味で使ってるのでしょう?
まず、一番近いところが、
人の声に似ている(人間の声っぽい、人間的)
あたりではないかと思います。

そのほかにも、
明瞭である、美しい声、滑らか、などの意味にも使われることもあります。

しかし、
自然な音声は、必ずしも美しく明瞭とは限らないですね。
電話の会話や、会議のやり取りを録音して後で聞いてみれば、
通常、人間が発声している音声が、いかに不明瞭であるかわかるでしょう。

ここからわかることは、
「明瞭な声」とか「美しい声」という表現は、あきらかに「人間的な声」とは異なるベクトルであるということです。

このような理由により、普段何気なく使っている「自然な合成音声」という表現ですが、合成音声の品質を云々するときに「自然」って単語は、あまり使わないほうが良いかなとも思ってます。
「より人の声に近づいた」とか「明瞭さを向上した」などと言ったほうが間違いが無いのではないかな。
もっとも、いろんな理由で、あえて曖昧にしておきたい場合には便利な表現ですが・・・


この話に関連して、人間的では無いけど、美しい、明瞭な合成音声の存在の可能性もでてきます。
人間っぽい声を目指すだけが、音声合成の研究開発の方向性ではないようです。
この話題はまた別の機会に・・・

| 音声合成一般 | 14:58 | comments(1) | trackbacks(0) |
コメント
すばらしいライブラリをありがとうございます。
黎明期?ではYAMAHAのぎこちないフォルマント音源にも驚いたものですが最近はいろいろすごいですね。
しかし貴社のライブラリにはかわるものがなく本当にオンリーワンだと思います。
いろいろ意見はありますが記事に書かれていることもまったくそのとおりだと思います。
ゆっくり音声で知られる前から存じていましたが個人的にはノーベル賞ものだと思っています。
非常に聞き取りやすくほかにも同じ感想を持つ人はいるのではないでしょうか。
非常にコンパクトなコードでいろんなプラットフォームに展開されているのもすごいですね。
最近はDTMで抑揚など色づけもされているようですがもっと使いやすくして全面に押し出して製品化もありじゃないかと思っています。
ボーカロイドに負けないウィスパーボイスは魅力的で個人的にも作曲などに使いたいと思ったりしています。
また貴社のライブラリはまえにあるロボット関係の仕事でドキュメントトーカを通じて使ったことがあります。
ざんねんながらそのときはぽしゃってしまったようですが。
SAPIなどよくわからず製造会社の社長さんにも御世話になったりしました。
また何か機会がありましたら御世話になるかもしれませんがよろしく御願い申し上げます。
| むうみん | 2015/03/02 7:27 PM |
コメントする









この記事のトラックバックURL
http://blog-yama.a-quest.com/trackback/300717
トラックバック
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
Arduino Uno
Arduino Uno (JUGEMレビュー »)

AquesTalk pico LSIの評価ボードとして最適
RECOMMEND
Raspberry Pi Model B+ (Plus)
Raspberry Pi Model B+ (Plus) (JUGEMレビュー »)

これと AquesTalk pi で簡単にテキスト音声合成!
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND