先月開催された「コールセンター/CRM デモ&コンファレンス2015」には、最新のコンタクトセンター向けのソリューションが数多く出展されていましたが、昔と大きく異なる点の一つが、自動音声応答機能に関する展示が増えたことでしょう。 
もちろん、あらかじめ用意された自動音声メッセージにしたがい、電話を掛けてきたお客様に”選択肢”をプッシュしてもらうことで各担当オペレーターにつなぐというもの(IVR)は以前から一般的でしたが、現在では、通話内容(自然言語)を認識し、それに応じた回答(応答)を音声で出力するというところまで進化しています。
この機能においてキーとなるテクノロジーが、お客様との会話内容を聞き分ける「音声認識(Speech To Text)」、お客様の要件を分析する「アナリティクス」、分析結果を返すための「音声合成」の三つなのですが、今回はその中の音声合成(Text To Speech(テキスト読み上げ)。以下、"TTS")のお話です。

日本発・TTSの品質を徹底的に追求し続ける、意外なあのメーカー

「TTSっていっても、SiriやMicrosoft ”Haruka”と大差ないんでしょ?」 という声が聞こえてきそうです。「ホ゜ートヒ゜アれんそ゛くさつし゛んし゛けん」の『声』を知る世代からすれば、SiriやMS-"Haruka"も十分に高品質だと感じますが、確かにSiriもMS-"Haruka"も、単純な読み上げだけでは、芝居臭さや、棒読みっぽい冷たい感じがしますよね。

画像: HOYAの展示ブース。メガネやレンズのイメージが強いのですが、TTSエンジンも高性能です。

HOYAの展示ブース。メガネやレンズのイメージが強いのですが、TTSエンジンも高性能です。

そこで目にとまったのが、 HOYAの「VoiceText」 。高品質な音声合成を手軽に実現するVoiceTextは、日本語だけでなく、米語、英語、スペイン語、中国語、中国語(台湾)(※)、韓国語、およびケベック・フレンチまで、8か国語、25話者(種類)にも及ぶ、幅広いラインアップを擁し、TTSを使った数多くのソリューションで採用されています。
HOYAといえばレンズやメガネ、IT系ではHDDのプラッターの生産で有名な光学メーカーですが、それらとは全然関係のないソフトウェアの分野でも、とんでもなく高品質な逸品を磨き上げていたようです。
そのクオリティーたるや、最強クラス、戦闘力53万です。用意したテキストを読ませている「読み上げ」のはずなのに、棒読みにならず、何の設定もしなくてもかなり自然に聞こえます。
特に日本語の話者は女声6種類、男声4種類(※)と、ラインアップが豊富。お姉様系、お嬢様系、妹系…という分け方なのかどうかは分かりませんが、とにかくどれも徹底的に作り込まれています。さすがはMade in JAPAN!
嘘か真かは、とにかくVoiceTextのデモ・ページで実際に試してみることをおすすめします。
※:中国語(台湾)、ケベック・フレンチの男声、日本語の男声の「4種類目」はイベント開催時点では未発表(12月15日提供開始)。

→VoiceTextのデモ・ページはこちら

画像: デモ機の画面。入力したテキストを自然に発声…と言っても分からないでしょうから、 VoiceText のデモ・ページ で実際に試してみてください。

デモ機の画面。入力したテキストを自然に発声…と言っても分からないでしょうから、 VoiceText のデモ・ページ で実際に試してみてください。

そういえば、テレ東の某人気モヤモヤおさんぽ番組のナレーションが、じつはこのVoiceTextです。あの特徴的な語尾は、あえて人間っぽくしないで淡々とした喋りにすることで違和感を演出しているのだとか。ほかにも「音声合成なら噛まないからNGが出ない」という理由も聞いたことがあります。きっと「新進シャンソン歌手総出演新春シャンソンショー」や「Peter Piper picked a peck of pickled peppers」や「キャピキャピのきゃりーぱみゅぱみゅ」みたいな早口言葉なんてお手のものでしょうから、テレビやラジオの仕事にはうってつけなのかも知れません(←勝手な思い込み)。

ニーズは圧倒的に"女声"が多いけど、安心できるのはやっぱり"男声"?

HOYAのブースで受けた説明によれば、今回は新顔(新声?)の話者「RISA」と「ERICA」をプッシュしているそうです。VoiceTextの日本語の話者(声)は、前述のとおり女声6種類、男声4種類。なぜ女声の方が多いのか尋ねてみたら、IVR、アナウンス、ナレーション等の一般的な「読み上げ」用途に女声へのニーズが多いだけ、ということらしいです。

画像: 日本語、英語(米語)、スペイン語等、VoiceTextの豊富な「話者」のラインアップ。(VoiceText パンフレットより)

日本語、英語(米語)、スペイン語等、VoiceTextの豊富な「話者」のラインアップ。(VoiceText パンフレットより)

一方、男声へのニーズはといえば、「読み上げ」用途よりも、災害時の避難誘導や自治体などの防災放送のように「警告」を発する用途に多いのだそうです。それも、緊急性を強調しながらも落ち着かせる必要がある声には、「女性よりも男声の方が向いている」のだとか。
その辺の違いは、いろいろな研究調査の結果だとは思いますが、地震や避難訓練のときの誘導の音声って、確かに男声が多いですよね。緊急性は伝えたい、でも慌てているように聞こえたらパニックを引き起こすかもしれない。それなら、人間が直接呼びかけるよりも安全なのかも知れません。

また、喜び/怒り/悲しみを表現できる「感情音声合成」の技術によって、同じ話者でも発話のスタイルを変えることで口調を変えるデモ展示のほか、ERICAは会話の間に笑い声や相づちが入るようなシーンにも対応し、RISAは残響音やエコーがかかるような場所でのアナウンスにも適しているなど、さまざまな用途を想定して新しい技術を取り入れていってるそうです。
いずれ単純なアナウンスやナレーションだけではなく、カウンセラーやコンシェルジュっぽい柔らかい物腰の返事もできるようになったり、もっと研究が進めば寄席の高座に上がったり、なんて日が来るかも知れません。その場合、 空気を読む 機能の研究も必要そうですけど…。 それ、私が欲しい機能かも。

おまけの展示コーナーに「ズキュゥゥゥン!!」キター( ゜∀ ゜)ーー!!

VoiceTextは単体での販売はなく、あくまで、ソリューションの中のTTSエンジン、つまりミドルウェアとして提供しているだけなので、利用するにはVoiceTextを搭載したソリューションを購入するしかありません。テキストエディターと組み合わせて販売するだけでも、動画投稿者たちがホイホイ手を出すと思うのですが…。
ただ、ワープロソフトの「一太郎 プレミアム」と同「スーパープレミアム」にVoiceTextを搭載したテキストリーダーが付属するそうなので、ATOKユーザーには少し敷居が低く感じるかも知れません。
また、ブースの脇には VoiceTextを搭載したさまざまな製品も展示。その中に発売されたばかりの「オムニボット メカノイドG15」も鎮座していました。「へぇ、こんなものにまで…」と感心する一方、 メカメカ とか ロボロボ に弱い私の購買欲は激しく揺さぶられ、その場を離れるのに苦労しました。

画像: 「一太郎」や「オムニボット メカノイド」等、コンタクトセンター/CRM業界以外のソリューションも展示。

「一太郎」や「オムニボット メカノイド」等、コンタクトセンター/CRM業界以外のソリューションも展示。

コメントを読む・書く

This article is a sponsored article by
''.