N.Yamazaki's blog

主に音声合成について思ったことを書いてみようと思います。
まじめな女声を開発

AquesTalk音声合成ライブラリの、新しい女声の声種を開発しました。
これまでになく落ち着いた真面目な声質に仕上がってます。

今までの代表的女声データ(→音声サンプル)は、ニコ動の「ゆっくり実況プレイ」でも使われ、ちょっと小憎らしいキャラクターとともに「ゆっくりボイス」などと呼ばれ、このイメージが強くなってます。
→「ゆっくりしていってね!!!」の画像検索

このイメージの定着自体は嬉しく思っているのですが、最近「仕事で使うにはちょっと・・・」、「もう少し落ち着いた声が欲しい」との意見をいただくことが増えたため、少し個性を抑えた業務用途にも使えるような声種の開発に着手し、そうして完成したのが今回の声種 f5 です。(→音声サンプル)

すでに、AquesTalk pico*エンジンとしてリリース可です。
また、近日中に音声合成LSIとしても販売を予定しています。

もちろん、サイズ20-30KBの音声合成エンジンですので、数10MB以上のコーパスベース*の合成音声と比べると、いわゆる自然でない*とか、肉声感に乏しい部分はありますが、ちゃんと内容が聞き取れて、実際にその電子機器に載せられる組み込み向けの音声合成エンジンとしては自信を持っております。

録音型の音声合成(決められたメッセージの組み合わせ)と同程度のハードウェアとコストで任意メッセージの音声合成が可能ですので、是非この機会に各種機器への規則音声合成ライブラリAquesTalkの利用をご検討ください。

と、最後は営業になりました。

■リンク

さらに合成音のサンプルを聞いてみる
http://www.a-quest.com/demo/index.html#sample
(サンプル音声の声種"AquesTalk pico f5"を選択)

「コーパスベースの音声合成」
http://blog-yama.a-quest.com/?eid=181362

「自然な合成音声」
http://blog-yama.a-quest.com/?eid=300717

「AquesTalk pico リリースとその開発の背景」
http://blog-yama.a-quest.com/?eid=970130

 

| AquesTalk | 13:02 | - | - |
AquesTalk pico リリースとその開発の背景
新しい日本語規則音声合成エンジン 「AquesTalk pico」 をリリースしました。
- 処理量とRAMサイズがAquesTalk2の1/10に -


開発の背景

AquesTalk(2)自体もかなり軽量であり、パソコンや携帯電話のプラットフォームでは、まったく負荷を気にせずに実装できますし、システム規模の小さい家電製品などの場合には多少のチューニングを施すことで実装しています。

ところで、音声合成というものは所詮1つの情報出力手段、マン・マシンインターフェースのアウトプットの一手法に過ぎないわけで、このような観点から眺めると、音声合成というのは他のLEDや液晶といったものと比べると、まだまだ使いにくい技術だと思うのです。

実際にシステムに音声合成機能を追加するときは、音声波形を生成しながら音声出力するための割り込みを処理を追加しなければならないし、他のソフトモジュールとの同期やら、クリティカルパスでの実行処理が間に合うか、・・・など多くの検討や検証が必要となります。

音声合成をもっと簡単に使ってもらうには、やはりLCDモジュールのように、物理的にも独立した一つの部品にして、システム側からは単にデータを与えるだけで音声出力するのが一番ではないかと・・・

というわけで、最終的に目指すところはLCDモジュールの感覚で使える音声合成モジュールです。そのためには、コスト面で、AquesTalk(2)をさらに小型化する必要があったというわけです。

音声合成のアルゴリズムってのは、基本的に大量の小数点の積和演算で構成され、精度もそこそこ必要です。AquesTalk(2)ではこれを固定小数点演算にするなど工夫して、16bit環境でも動かせるようにしていました。
しかし、さらに小型軽量化するためには、抜本的にアルゴリズムを見直さなければなりませんでした。また、当初から安価な8bitCPU環境でも動かせるようにと、ゼロベースで研究開発を進め、ようやく出来上がったのが下記仕様の AquesTalk pico なのです。


AquesTalk pico 仕様
  • CPU: 8bit 4MHz以上
  • 最小RAMサイズ: 500byte
  • 最小ROMサイズ: 23Kbyte
  • 入力: ローマ字表記音声記号列
  • 出力: 8KHzサンプリング,16bitPCM
  • 声種:女声1種(今後追加予定)

今後の目標は、これをハードウェア化(ようは1チップ化)し、コスト面でLCDモジュールなどに対抗できるようにしていくことです!


| AquesTalk | 23:48 | - | - |
AquesTalk2 エラー:1002
 AquesTalk2ライブラリ関数を呼び出したときに、何らかのエラーがあると、エラーコードが返されます。エラーコードの説明は、ライブラリ付属のドキュメント(aqtk2_XXX_man.pdf) の最後に示してあります。
ここで、エラーコード 1000から1008は「Phontデータが正しくない」となっていますが、若干補足をします。

エラーコード1002で戻る場合、大抵の場合はAquesTalk2ライブラリのバージョンが古いのが原因です。

ファイル名が「ar_」で始まるPhont(声種データ)は、「aq_」で始まるPhontと内部フォーマットが異なっており、前者は新しいピッチパタンモデル用、後者は以前のモデル用のデータが入っています。
そして、AquesTalk2 V2.3より前のライブラリはこの新しいピッチパタンモデルが入っていませんので、このPhontフォーマットを認識できず、エラー1002を返すのです。

このときの対策としては、AquesTalk2 V2.3以降のライブラリに差し替える。または、「ar_」で始まるPhontを使用しない。のどちらかとなります。

ちなみに、ライブラリのバージョンを確認するには、ライブラリ付属のライセンスドキュメントを参照します(windowsではライブラリファイルのプロパティで確認できる場合もあります)。
| AquesTalk | 16:21 | - | - |
AquesTalk2 V2.3 リリース状況
バージョンアップしたAquesTalk2の、各プラットフォームのライブラリや、
デモアプリのリリース状況をまとめました。

■ライブラリ
AquesTalk2 Win     リリース済 2011/07/26
AquesTalk2 Linux   リリース済 2011/07/28
AquesTalk2 Mac     リリース済 2011/07/28
AquesTalk2 iOS      リリース済 2011/07/28
AquesTalk2 Android   リリース済 2011/07/28
AquesTalk2 WinCE   ASK
※評価版ライブラリのダウンロードはこちら

■デモアプリ
AqTk2Demo Win    リリース済 2011/07/28
AqTk2Demo Mac    リリース済 2011/07/28
AqTk2Demo Android    リリース済 2011/07/28
AqTk2App iOS        Waiting for  Review

※各デモアプリの説明とダウンロードはこちら(ページの下の方)
| AquesTalk | 22:11 | - | - |
AquesTalk2 バージョンアップ Ver.2.3
 AquesTalk2 をバージョンアップしました(Ver.2.1 → Ver.2.3)


韻律モデルを変更
ピッチ(基本周波数)パタンを生成するモデルが新しくなりました。これにより、イントネーションの品質が向上しています。

また、新しい韻律モデルでは、音声記号列の区切り記号の指定に対して、ピッチパタンの変化が、より直感的に変化するようになっています。手動で音声記号列を編集される場合に所望のピッチパタンが作り易くなります。
例えば、特定の単語にプロミネンスを与える(強調したい場合)、通常のアクセント句切記号「/」の代わりに「;」を指定することで次の単語のアクセントが強くなります。逆にアクセントを弱めたいときは「+」の区切り記号を指定します。

Phontを4種追加
ar_f4  :カワイイ系(?)の女声
ar_rm3:少し落ち着いた女声(aq_rmの中高域を持ち上げたもの)
ar_m5 :若返った(aq_m4と比べて)男声
ar_mf2:某クイズ番組のキャラクターのような変わり種の声おまけサンプルWAV)

サンプル音声は、デモページの「サンプル音声」で試聴することができます。

今回リリースした新Phontは、新しい韻律モデル用のフォーマットになっています。
Phontのファイル名が「ar_」で始まるものは、Ver.2.1 以前のAquesTalk2では使用できません。ご注意ください。



現時点では、Windows版のみのリリースですが、今後、他のプラットフォームもバージョンアップする予定です。評価版はダウンロードページから入手できます。


| AquesTalk | 16:51 | - | - |
AquesTalk TTS インストール方法
2011/03/22
AquesTalk TTS for Android のインストール手順

「Google翻訳」などの各種のAndroidアプリで日本語の音声合成が可能となる、音声合成エンジン『AquesTalk TTS』のインストール&設定方法をまとめてみました。


動作環境
  • Android OS 2.2 以降
  • SDカード(内蔵)内部ストレージに40MB以上の空き領域
  • 辞書データインストール時にインターネット接続必要

インストール方法
基本的な流れは次のとおりです。
  1. アプリパッケージをインストール
  2. 辞書データをダウンロード
  3. 音声合成の設定

以下に詳細を示します。

1. アプリパッケージをインストール
Android Market から"AquesTalk TTS"で検索、または下記URLのページからダウンロードして下さい。
http://market.android.com/details?id=com.a_quest.aquestalka

ダウンロード完了後、インストールの確認メッセージがでたら[インストール]
インストール完了後、[開く]でこのアプリを起動
[開く]が出ないときは Menu>アプリ>AquesTalk TTS で手動で起動します

   

2. 辞書データをダウンロード
AquesTalk TTS アプリが起動すると、辞書データのダウンロードを促すダイアログが出ます。辞書データは10MB程度ありますので、携帯電話のデータ回線では厳しいと思います。家庭内など高速のインターネット回線が使える環境でダウンロードして下さい。なお、ここで[No]を選択して辞書データを後からダウンロードすることもできます。

ダウンロード[Yes] で、ダウンロードが始まります。ちなみに、ダウンロードした辞書データは展開されてSDカードの/sdcard/aquestalk内部ストレージ内に複数のファイルとして保存されます。

正常に辞書データをダウンロードできた場合は、辞書設定の最上項目が「インストール済み」になっているはずです。
もし、「インストール済み」にならない場合は、ネットワークが切断されていないか、内部ストレージの空き容量が十分かを確認してください。
あるいは、一度、「AquesTalk TTS」アプリをアンインストールしてから再インストールするとダウンロードできる場合もあるようです。



   

3. 音声合成の設定
最後に、音声合成の設定を行います。

   Menu>設定>音声入出力>音声合成設定
  * MenuはAndroid OSのMenuです。一旦Homeボタンでメイン画面に戻ってください。

「エンジン」カテゴリにAquesTalk TTS が追加されているはずです。これをチェックします。このとき、「パスワードやクレジットカード…」なんて大層な警告が出ますが、このアプリがネットワークにアクセスするのは、最初に辞書データをダウンロードする時だけで、あとはネットワーク無しで動作しますので、ご安心(?)ください。


 

「基本設定」カテゴリの標準エンジンを選択すると、音声合成エンジンの種類を選択できますので、ここでは AquesTalk TTS を選択します。
続いて、「基本設定」カテゴリの言語で、日本語を選択します。
この状態で、サンプル試聴を選択すると、合成音声が聞こえるはずです。

 

以上で、音声合成の設定は終了です。


外部アプリでの動作確認
Google翻訳アプリで、翻訳後の言語が日本語の場合にもスピーカアイコンが表示されて、これをタップすれば合成音声が聞こえればOKです。
他にも、TTS API を使用したAndroidアプリなら、使えるかと思います。
こちらでは、「Speak Manager」というアプリでも動作確認をしてみました。




「Google Map ナビ」でも動作を確認できました。このアプリはXMLで発声内容を渡してくるので、β版ではそのままXMLを読み上げてしまっていましたが、製品版ではXMLをパースするようにしました。もっとも、このアプリは音声合成エンジンが入っていない場合でも、クラウド(Googleのサーバ)側で音声データを生成して返してくれるようなのですが、AquesTalk TTSを組み込んでおけば、ナビ中にネット接続が失われても音声ガイダンスがされるようです。

Android音声合成プログラミング
「AquesTalk TTS」を呼び出すアプリのプログラミング技法については、
「Android TextToSpeech」あたりで検索してみてください。


先の記事 『Android用の日本語TTSエンジン』
             『Android用の日本語TTSエンジン その2』
| AquesTalk | 14:04 | - | - |
Android用の日本語TTSエンジン その2

2011/02/28


AquesTalk TTS for Android



Google翻訳でも日本語音声合成が可能になる、
Android用の日本語TTSエンジン『AquesTalk TTSのβ版をリリースしました。
このソフトの概要は先の記事をご覧ください。
先の記事 『Android用の日本語TTSエンジン』

動作環境
  • Android OS 2.2 以降
  • SDカードに40MB以上の空き領域
  • 辞書データインストール時にはインターネット接続必要

= β版の配布は終了しました =
お願い
お試しいただいた場合、是非ともこちらのBBSに動作レポートの投稿をお願いします。使用端末、Android OSのバージョン、動いたとか、うまく動作しないときはどうなってしまうかなどを報告いただければと思います。
なお、ベータ版につき公開期間限定です。また、製品版は有料の予定ですので、興味を持たれた方は早めにお試しください。

お約束
再配布を禁止します。
本プログラムの著作権は(株)アクエストに帰属します。
動作保証はいたしません。また利用により生じた損害・不利益に関して一切の責任を負いません。

インストール方法
基本的な流れは次のとおりです。

  1. アプリパッケージをインストール
  2. 辞書データをダウンロード
  3. 音声合成の設定

以下に詳細を示します。

1. アプリパッケージをインストール
Android Market から"AquesTalk TTS"で検索、または下記URLのページからダウンロードして下さい。
http://market.android.com/details?id=com.a_quest.aquestalka

当サイトからのダウンロードですので、次がチェックされている必要があります。
設定>アプリケーション>提供元不明のアプリ

アプリのパッケージはこちらから直接ダウンロードして下さい。
または 右のQR

追記2011/03/01 実行可能な最低API Levelを4(OS1.6)に下げたパッケージをこちらに置きました。こちらでは1.6環境でインストール&辞書のダウンロードまでは動作確認しましたが、どうしても音声合成の言語設定で日本語が表示されません。チャレンジ可能な方は是非!

ダウンロード完了後、インストールの確認メッセージがでたら[インストール]
インストール完了後、[開く]でこのアプリを起動

   

2. 辞書データをダウンロード
アプリが起動すると、辞書データのダウンロードを促すダイアログが出ます。辞書データは10MB程度ありますので、携帯電話のデータ回線では厳しいと思います。家庭内など高速のインターネット回線が使える環境でダウンロードして下さい。なお、ここで[No]を選択して辞書データを後からダウンロードすることもできます。

ダウンロード[Yes] で、ダウンロードが始まります。ちなみに、ダウンロードした辞書データは展開されてSDカードの/sdcard/aquestalk内にファイルとして保存されます。

正常に辞書データをダウンロードできた場合は、辞書設定の最上項目が「インストール済み」になっているはずです。

   

3. 音声合成の設定
最後に、音声合成の設定を行います。

   Menu>設定>音声入出力>音声合成設定

「エンジン」カテゴリにAquesTalk TTS が追加されているはずです。これをチェックします。このとき、「パスワードやクレジットカード…」なんて大層な警告が出ますが、このアプリがネットワークにアクセスするのは、最初に辞書データをダウンロードする時だけで、あとはネットワーク無しで動作しますので、ご安心(?)ください。


 

「基本設定」カテゴリの標準エンジンを選択すると、音声合成エンジンの種類を選択できますので、ここでは AquesTalk TTS を選択します。
続いて、「基本設定」カテゴリの言語で、日本語を選択します。
この状態で、サンプル試聴を選択すると、合成音声が聞こえるはずです。

 

以上で、音声合成の設定は終了です。

Google翻訳アプリで、翻訳後の言語が日本語の場合にもスピーカアイコンが表示されて、これをタップすれば合成音声が聞こえればOKです。
他にも、TTS API を使用したAndroidアプリなら、使えるかと思います。
こちらでは、「Speak Manager」というアプリでも動作確認をしてみました。



あとがき
Android OS 2.2未満でも動作させたかったのですが、設定画面に音声合成エンジンの選択が出てこない。言語の種類にも日本語が出てこない。 TTSのAPI自体はAndroid 1.6から実装されているようなのですが…。
もし、2.2未満で、eSpeakなど他の音声合成エンジンを使う方法をご存じの方がおられましたら情報をいただければ幸いです。ちなみに、このプログラム自体は 1.6環境のAPIで動くように作ってます。

| AquesTalk | 20:00 | - | - |
Android用の日本語TTSエンジン
Android用の日本語Text-To-Speech Engine、いわゆる音声合成エンジンを開発しました。

既にAndroid用のライブラリはリリースしていますが、今回のはライブラリでも単体の音声合成アプリでもなく、AndroidのTTSエンジンとしてのソフトウェアです。

どういうことかというと、
ライブラリの場合は個々のアプリケーションに音声合成ライブラリを組み込む必要があるし、音声合成単体のアプリでは、そのアプリを起動してそこから読み上げるテキストを指定しなくてはならないなどで、使い勝手がいまひとつ。

今回は、AndroidのTTSエンジンとして実装したので、アプリ側からは、どんな音声合成エンジンが組み込まれているかを意識せず、単にAndroid TTS APIを呼び出すだけで"話す"ことが可能になります。

例えば”Google翻訳”というアプリがありますが、翻訳結果が英語ならスピーカのアイコンが表示されて、これをタップすれば英語の合成音声を聞くことができます。しかし、翻訳結果を日本語にすると、日本語に対応した音声合成エンジンがなかったので、スピーカアイコンは表示されない残念な状況でした。

今回開発したエンジンをインストールすると、この”Google翻訳"でも、日本語の合成音声が出来るようになりました。下の動画は、実際にGoogle翻訳アプリと、"Speak Manager"という音声合成エンジンを呼び出す既存のアプリで使ってみたものです。

リリースの予定は、近いうちにβ版として野良アプリとして公開。
その後、Android Marketでの公開(有料)の予定です。準備が整い次第、追記したいと思います。
2011/02/28 ベータ版公開しました。ダウンロード・インストールは次の記事を参照

YouTube

| AquesTalk | 11:09 | - | - |
Androidの音声合成アプリ AqTk2Demo
音声合成ライブラリAquesTalk2を使用した Android用のデモアプリを公開しました。
追記 2011/07/28 バージョンアップしました。AquesTalk2 v2.3実装+Phont追加

AqTk2Demo

すでに公開しているAquesTalk2 Androidのライブラリパッケージにもサンプルアプリが入ってますが、今回公開のアプリは、言語処理ライブラリAqKanji2Koeを組み込んで、漢字を含んだテキストからの音声合成が出来るようになっています。そうそう、このAqKanji2Koeライブラリは近日リリース予定です。

使用方法
使い方は、特に説明不要かと思いますが、上のテキストボックスに日本語テキストを入れて[Convert]ボタンの押下すると、下のテキストボックスにその音声記号列が表示されます。
[Play/Stop]ボタンの押下で音声合成します。
なお、下のテキストボックスに、直接音声記号列を入力してもOKです。

ダウンロード(追記:配布は終了しました)
今回はライブラリパッケージでの配布ではなく、アプリ単体で用意しましたので、
Android端末をお持ちなら、こちらまたは下のQRコードからダウンロード(10MB程あります)してインストール(ブラウザのダウンロード履歴をタップ?)すれば、すぐにお試しいただけます!

お約束事項
このアプリは無保証ですので予めご了承ください。また、このアプリの無断配布を禁じます。


不具合報告や要望等は喜んで受け付けております。infoaq(アット)a-quest.com またはAquesTalk BBSまで。


先程、Googleの音声認識で文を入力して音声合成してみて遊んでみたら、ちょっと楽しかった。この音声認識、かなり優秀!
Googleの音声認識+人工無能bot+AquesTalk(+AqKanji2Koe)の組み合わせで、ちょっとした対話アプリが作れそうですね。
 
| AquesTalk | 10:28 | - | - |
ロボットボイス第二弾(AquesTalk-FX)
 先日リリースした、変わった声を合成する音声合成エンジン『AquesTalk-FX』を、改良しました。
改良ポイントは声質で、よりSF的なロボット声になったかなと思ってます。

サンプル音声はこちら[Sample fx01 2]
ちなみに、前回のサンプル音声はこちら[Sample fx01]です。

改良版のアプリのダウンロードはこちらから Mac   Win
2010/11/05 01:30 バグってて合成できません(たぶんWinのみ)。ただいまデバッグ中です.
2010/11/05 01:56 デバッグ完了
2011/01/11 16:13 11/05のWinバージョンはDebugビルドでしたm(_ _)m

使い方その他は、前回リリース時の記事を参照ください。
あと、窓の杜の記事も参考にしてください。

| AquesTalk | 17:57 | - | - |
PROFILE
Follow
CATEGORIES
LATEST ENTRIES
SEARCH THIS SITE
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND
SONY MDR-CD900ST
SONY MDR-CD900ST (JUGEMレビュー »)

普段これで開発しています。
RECOMMEND
RECOMMEND
RECOMMEND
RECOMMEND