TTS(テキストトゥスピーチ/音声合成)とは?
TTSとは、text-to-speechの頭文字をとったもので、文字を人間のように自然な音声や話し言葉に変換する技術です。日本語ではテキストトゥスピーチとも読みます。あらかじめ録音されたメッセージを再生するのではなく、音声を合成して読み上げを行います。日本語の場合、雨とアメのように、読み方は同じでも文脈によって意味が異なる単語が多いため、音声合成が難しい場合があります。その場合、可能性の高い言葉を選び読み上げますが、発音に違和感が残るケースもあります。
TTSは元々、視覚障がい者のための音声支援技術として開発されたものです。例えば、Webサイトのテキストを読み上げることで、サイトの内容を理解できるようにするものです。TTSシステムは現在、サイトやマイクロソフトのようなアプリケーションの一般的な機能となっています。音声合成技術のプロバイダーはいくつもあり、TTS機能はシンプルなAPIを使ってブラウザやサイト、アプリケーションに組み込むことができます。TTSは、視覚障がい者のためだけでなく、受信したメールを読み上げるといった日常的な行為にも利用されているため、より多くのユーザーにとっても馴染みがあるサービスになっています。
コールセンターで活用されるTTS技術
音声合成は、
カスタマーサービス を提供する
コールセンター でも広く活用されており、今後もさらにその用途が広がる可能性があります。例えば
IVR では、TTSを活用して、問い合わせをしてきた顧客に、口座残高やカードの支払額などの情報を自動音声で回答することができます。TTSは、通話後の
顧客満足度調査 の実施にも利用できます。質問したい内容をテキストで入力するだけで、システムが音声を合成し、質問の追加や変更など柔軟に対応することができます。
ディープ・ニューラル・ネットワーク(DNN)により、合成音声の自然さや明瞭さは、大幅に向上しています。ニューラル音声システムは、イントネーション、強調、多言語対応など、人間の音声の複雑なパターンを学習することができます。これにより、コールセンターは人間の表情や感情を忠実に模倣した音声を生成することができ、自動音声との対話をより人間味のあるものにすることが可能です。