N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
<< Make: Tokyo Meeting 07 出展予告 | main | AVR Studio5.0 には stk500.exe が入っていない! >>
AquesTalk pico リリースとその開発の背景
新しい日本語規則音声合成エンジン 「AquesTalk pico」 をリリースしました。
- 処理量とRAMサイズがAquesTalk2の1/10に -


開発の背景

AquesTalk(2)自体もかなり軽量であり、パソコンや携帯電話のプラットフォームでは、まったく負荷を気にせずに実装できますし、システム規模の小さい家電製品などの場合には多少のチューニングを施すことで実装しています。

ところで、音声合成というものは所詮1つの情報出力手段、マン・マシンインターフェースのアウトプットの一手法に過ぎないわけで、このような観点から眺めると、音声合成というのは他のLEDや液晶といったものと比べると、まだまだ使いにくい技術だと思うのです。

実際にシステムに音声合成機能を追加するときは、音声波形を生成しながら音声出力するための割り込みを処理を追加しなければならないし、他のソフトモジュールとの同期やら、クリティカルパスでの実行処理が間に合うか、・・・など多くの検討や検証が必要となります。

音声合成をもっと簡単に使ってもらうには、やはりLCDモジュールのように、物理的にも独立した一つの部品にして、システム側からは単にデータを与えるだけで音声出力するのが一番ではないかと・・・

というわけで、最終的に目指すところはLCDモジュールの感覚で使える音声合成モジュールです。そのためには、コスト面で、AquesTalk(2)をさらに小型化する必要があったというわけです。

音声合成のアルゴリズムってのは、基本的に大量の小数点の積和演算で構成され、精度もそこそこ必要です。AquesTalk(2)ではこれを固定小数点演算にするなど工夫して、16bit環境でも動かせるようにしていました。
しかし、さらに小型軽量化するためには、抜本的にアルゴリズムを見直さなければなりませんでした。また、当初から安価な8bitCPU環境でも動かせるようにと、ゼロベースで研究開発を進め、ようやく出来上がったのが下記仕様の AquesTalk pico なのです。


AquesTalk pico 仕様
  • CPU: 8bit 4MHz以上
  • 最小RAMサイズ: 500byte
  • 最小ROMサイズ: 23Kbyte
  • 入力: ローマ字表記音声記号列
  • 出力: 8KHzサンプリング,16bitPCM
  • 声種:女声1種(今後追加予定)

今後の目標は、これをハードウェア化(ようは1チップ化)し、コスト面でLCDモジュールなどに対抗できるようにしていくことです!


| AquesTalk | 23:48 | - | - |
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
Arduino Uno
Arduino Uno (JUGEMレビュー »)

AquesTalk pico LSIの評価ボードとして最適
RECOMMEND
Raspberry Pi Model B+ (Plus)
Raspberry Pi Model B+ (Plus) (JUGEMレビュー »)

これと AquesTalk pi で簡単にテキスト音声合成!
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND