音声合成 ・ PLEXTALKで考察

23.03.16
太郎、です。
音声合成・プレックストークで考察。
このページは、テキスト文を音声合成ソフトを使って読み上げ、それをファイルとして保存することを考察します。
音声合成の方法は、最初に文章を解読して音声認識ファイルを作成。それを音声合成で処理して声に変換します。音声認識エンジン、音声合成エンジンなどとも呼ばれます。

ここまでの文章を、以下のソフトで読み上げ、サンプルを下段に付記しました。
「PLEXTALK」は市販ソフトです。標準価格¥18,900-。

PLEXTALK   (市販ソフトです)

このソフトは、視覚障害者がご自身が、DAISY図書を制作することのできるアクセシブルなPCレコーディングソフトウェアです。DAISY図書制作の一連の流れである、音声の録音、編集、CD書き込みといった作業を、このソフトウェア1つで実現できます。 (この文章は、PLEXTALKの解説から、借用)

インストールします

アイコン、plextalk
左のアイコンをクリックしてソフトを起動します。
詳細は、付属の「ユーザーズマニュアル」をご覧ください。
このページの説明は、随分省略しています。

初期動作選択、設定

「初期動作選択」から、「作る」を選択。その後、作る箇所、ファイル形式などを指定します。

テキストファイルの読み込み

設定をすると、画面のバーのアイコンに色がつき使えるようになります。
「ツール」、「テキストインポート」を選択し、読み込みファイルを選択、音声の種類を選択肢、などの画面が出て、読み込みます。

音声ファイルのエクスポート

上の画面、下段のフレーズという箇所に、読み込んだファイルの長さに応じて、ファイルが増加してゆきます。文字数で128文字づつ、もしくは、1フレーズづつに分割して、音声ファイルとして保存されます。
「ツール」「音声エクスポート」を選択し、ファイルを保存します。
このソフトは、視覚障害者用ですので、上記に記載してない多くの設定を音声で質問されます。しかし、画面が見えない方々には重要です。

PLEXTALK ・ 完成した音声ファイル

音声合成の声の種類、8種の表示
音声合成の声の種類は8種です。  その中の、太郎、花子の声でサンプルを作成。

アイコン、ムービー 画像、もしくはここをクリックすると、画像と音声が再生されます。 どの声を再生しているかが画面から解ります。 Windows ムービー メーカーを使用。
wmv 1.6MB

アイコン、mp3 画像、もしくはここをクリックすると、音声のみが再生されます。 どの声を再生しているかは内容で解ります。 PlexTalk に2個の音声ファイルを「音声インポート」し、「音声エクスポート」します。
mp3 200KB


総括 ・ 音声合成ソフトの差異

ここでは、音声合成の3方式の差異や、使い勝手、設定の問題、などを記します。

音声合成を考察したいきさつ
インターネットのWebページに、音声ファイルを挿入して、音声で説明することを考えた。
1番最初に考えたことは、テキスト読み込み画面で、編集しながら、それを読ませ、 発音や読みのおかしい箇所を修正しながら、作成することです。 この方法では、漢字を間違えて読むときには、ひらがなで書けば大部分を正常に読みます。 行間に間を設定したいときには、改行もしくは、「。」を挿入すると時間が取れます。 これらの要望に合うフリーソフトで、実用になるかを考察。
青空ろーどく
音声合成を考えるきっかけは、青空ろーどくの記事が雑誌に記載されていて、 フリーソフトが付属していたことが最初です。
標準の発声は女声で、少し癖があり、好き嫌いが生じます。ほかの声での発声も試行錯誤の結果、可能になり、実用としては、十分だと考えます。
音声ファイルの録音、もしくは保存では、読み上げないので、実行が早いのが取り得です。
音声の設定変更をすると、ソフトの再起動が必要です。
おしゃべりテキスト
おしゃべりテキストが原因ではないのですが、PLEXTALKをインストールしたあとで、これを実行すると、AquesTalk が組み込まれ、発声の種類が増えます。この原因がわからずに随分時間を要しました。PLEXTALKをアンインストールして、問題点がわかりました。
SAPI 4 は日本語の発声がありますが、SAPI 5 では出来ないようです。
音声ファイルの録音、もしくは保存では、読み上げながら行うので、時間を要します。
音声の設定変更は、画面上で可能です。再起動の必要はありません。
PLEXTALK
このアプリケーションソフトは、視覚障害者に使いやすく構成されています。 そのため、最初に全てを設定して、テキストファイルを読み込むことが不可能です。 外部のテキストファイルを読み込むたびに、全ての設定を問い合わせてきます。そのため、 時間を要します。テキストファイルの表示画面はありません。
音声ファイルの録音、もしくは保存では、読み上げながら行うので、時間を要します。
音声の設定変更は、テキストファイルを読み込むときに、問われます。 つまり、テキストファイルを読み込みながら、音声ファイルを作成しています。 行単位、もしくは128文字で区切られて音声ファイルを作成します。 音声エクスポートを実行すると、ファイルがまとめられて1個が保存されます。
実行結果の結論
音声合成の方法には多くの種類があり、人の声に近いものも有料では存在するようです。 電車の駅名案内や、駅の構内放送などは、人声で原稿を読み上げ、フレーズを分割し、駅名などを挿入すれば簡単にファイルが作成できます。また、それらを資料として使い、発声を手直しすれば、より人声に近い音声合成が可能になります。特定の単語のみを使う場合は、このような方法もあるようです。
特定の目的に当てはまらない、通常の文章の読み上げは、まだまだ、発展途上で際限がないと考えられます。内容が伝わればよい、と割り切れば、上記のフリーソフトで十分で、音声や発音は、好みの問題と慣れで解決すれば、良いと考えます。
おすすめは、「青空ろーどく」です。
「おしゃべりテキスト」も次に良いですが テキストを読みながらファイルを作成保存というのは時間を要します。 しかし、Aques Talk を組み込めば多くの声の種類が使えます。