まずはVoiceTextの概要を教えていただけますか?
コンピュータのテキストを人間の音声に出力するソフトウェアです。今まではコールセンター向け音声などは専門の会社でしかつくれませんでしたが、このVoiceTextなら、パソコン1台あればつくることができます。変更があったときも今までは再度収録しなければなりませんでしたが、変更があった場合でもパソコン1台でできるのも大きなメリットです。
なるほど。ではそのVoiceTextの技術はどのような現場で採用されているのですか?
今までナレーターが音声をつくっていたところであれば、どの現場でも対応できます。コールセンターの電話の応答システムでご利用いただいたり、eラーニングなどで有効に使っていただいています。防災無線放送や、気象関連の案内、ちょっと変わったところだと車のオークション会場などもあります。ソフトなので1日中しゃべっても疲れませんしね。
実際に音声を聞くとすごく自然に聞こえますね。人間の声を録音してつくられるそうですが、1つの話者の音声をつくるのにどのくらい時間がかかっていますか?
話者の選考からできあがるまで、だいたい1年がかりで1話者をつくりますね。まずは製品のコンセプトを決めて、どういった分野に向けてどういったイメージの声をつくろうか検討し多数の中からオーディションを行って、1人の話者を選んで開発していきます。
コーパスベース方式について詳しく教えてください。
コーパスは大容量のデータベースのことを指しますが、人間の声を大量に録音しておいてそこからテキストを解析して、一番最適だと思われる音素や文のかたまりを取り出す方式です。
日本語を読み上げさせるなかで特に難しい点は何ですか?
たとえば「橋」と「箸」など同じ言葉でも読み方が変わるなどの変化が多いとか、句読点でどれだけ間を空けるかとか、文章と文章のつなぎめであるとか、そういった人間であれば無意識でやる部分を、コンピュータでは1つ1つプログラムを与えなければならないですからね。括弧でどれだけ間を空けるかというのもお客様によって違いますね。また音読み訓読みなども日本語はありますからね。
他の音声合成と比べて、VoiceTextが優れている点はどこですか?
読みの流暢さですね。これが人工の音声かと思うぐらい綺麗に読み上げます。
新しい言葉の追加は行っているのですか?
これは常にやっています。言葉は生き物ですから。たとえ間違った日本語の使い方だったとしても、それが今風で世の中で使われるような流れであれば、追加していきます。
最後に、一太郎をお使いの方にメッセージをいただけますか?
音声合成自身もバージョンアップをしていくので、一太郎を使っていく中で、こういう機能を追加して欲しい、こういう日本語に対応して欲しいなどがあれば是非ご意見をお寄せいただきたいです。われわれも一太郎、ATOKとともに成長していければと思っています。
※「詠太」での音声利用は個人利用のみでの許諾となっております。