N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
<< WAVの音量調整プログラム | main | VoiceOverの音声合成エンジンは? >>
合成音声における『不気味の谷現象』
不気味の谷現象 Wikipediaより
ロボットがその外観や動作においてより人間らしく作られるようになるにつれ、より好感的、共感的になっていくが、ある時点で突然強い嫌悪感に変わると予想した。人間の外観や動作と見分けがつかなくなると再びより強い好感に転じ、人間と同じような親近感を覚えるようになると考えた。

最近になって、この言葉を知りました。
提唱されたのが1970年ということですから、今更ですね。

経験的に、音声合成にも似たアナロジーがあると感じています。
音声合成の技術が未熟だったころは、
 「うん、何を言っているかわかるじゃない!」
のような良い評価も多かったのですが、
技術が進歩して自然音声(人間の発声した音声のこと)に近づくほど、
 「なんか不自然だよね」
という意見が多く聞かれるようになってきました。

個人的には、不気味の谷でいわれる"嫌悪感"というより、むしろ"違和感"という感覚なのですが、人が合成音声を評価するとき、それが自然音声に近づくほど、その差に敏感になっているように思います。

この不気味の谷の概念によれば、今の音声合成の技術は谷の部分にいるということかな。だとすると、音声合成の技術は、いつ、この谷を抜け出すことができるでしょうか?

以前にもちょっと書きましたが、私自身は合成音声に人間の声を目指していないので、
そもそもこの開発競争からは脱落してます。⇒自然な合成音声
| 音声合成一般 | 10:23 | - | - |
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND