人間のような自然な発声を目指す!
AI時代に音声合成技術をサービス化

人工知能・機械学習・AI

執筆者: 佐々木 正孝 編集:菊池 徳行(ハイキックス)

人間の声をデータベース化し
最適な合成音声として出力する 展開している事業の内容・特徴

20170406-1-1AIがめざましく進化を遂げ、私たちがロボットやスマホのサービスと会話するシーンも増えてきた。機械が人間の声を理解する「音声認識」に注目が集まっているが、スムーズな会話を感じさせるために欠かせないのが、人間と同じように話す「音声合成」技術だ。社名にズバリ「人工知能」を冠した株式会社エーアイは「音声合成に特化した日本唯一の会社」を自認し、多彩な音声合成サービス、製品を手がけてきた。

「収録した音声を母音や子音の音素に分けて分析してから音声辞書(コーパス)を作成し、コーパスをベースに強弱や抑揚などのイントネーションを調整して音声として組み合わせる。これが音声合成技術です。この仕組みによって、人の声色のような自然なアウトプットができるのです。私たちは音声合成エンジンを独自に開発し、様々なノウハウや知見を投入して機能を向上させてきました」(株式会社エーアイ代表・吉田大介氏)

1990年代に電話の自動音声応答システムが各企業で採用され始めたのが音声合成サービスの端緒。2000年代からは防災行政無線、eラーニングなどに広く使われ、縁の下の力持ちとして各種インフラ、サービスを支えている。エーアイ社は全国で500社以上に音声合成製品のライセンスを販売しており、Jアラート(全国瞬時警報システム)やカーナビ、交通機関の道路交通案内など採用実績は多数。NTTドコモの音声案内サービス「しゃべってコンシェル」、ソフトバンクの人型ロボット「ペッパー」、マツコ・デラックスを模した「マツコロイド」などにも搭載されている。

20170406-1-2エーアイ社の優位性は、開発と営業が一体になって提供するフットワーク軽いサービス展開だ。たとえば、従来の音声合成では、ナレーションを更新するたびに収録コストが発生していた。しかも平板な口調しか提供できない。しかし、同社の音声合成エンジンは収録を簡素化した。ナレーターの収録は30分~1時間程度で済み、「うれしい時」「かなしい時」といったシチュエーションに応じて感情を乗せることもできる。

「競馬ゲームに音声合成を提供したときのことです。プレイヤーが独自に入力した馬の名前を実況アナが読み上げてレースを盛り上げるのですが、メーカーからは『第4コーナーを回った時、テンションを上げて馬名を連呼したい』という要望がありました。そこで、開発陣と相談して発話のテンションを上げるモジュールを作成。大好評を得ることができました」

独自の音声合成エンジンを開発し、
インフラとしての普及を目指した ビジネスアイディア発想のきっかけ

20170406-2代表の吉田氏は、産学官連携による情報通信系の研究所「ATR」で営業に携わってきたというキャリアの持ち主。そこで音声合成技術と出合い、面白さ、可能性に惚れ込んだ。

「当時、宝塚スターが天気予報を読み上げるというコンテンツを作ったことがあります。天気予報という情報量が限定されたコンテンツではありましたが、ファンが聞いても本人が実際に読み上げていると思うほどの完成度。これはもっと世の中に広めなければ! という思いで、研究の成果を世の中に出す広報および販売に邁進していたのです」

ATRでは吉田氏自身が理想とする事業展開に制約があったため、独立を決意。そして、2003年に株式会社エーアイを設立する。起業当初はATRの製品を販売していたが、ユーザーから要望を受けても開発やカスタマイズが自由にできなかった。ジレンマに悩んだ吉田氏はATRからライセンスを買い取り、開発販売路線に舵を取った。

「よりシームレスな発話を目指すうえでいくつかの問題があり、私たちは独自の音声合成エンジンの開発に着手。今までのコア技術を捨て、ゼロからのチャレンジを始めたのです。イントネーションをきれいにし、より自然な会話ができるエンジンを目指しました」

主力製品「AITalk」のベースになる「AITalk V1.0」が完成したのは2007年のこと。創業2年目にはベンチャーキャピタルの出資を獲得したが、腰を据えての研究・開発であっという間に資金は底をつく。吉田氏も資金調達に奔走する日々が続いたという。

「プロトタイプでは音質も良くなく、読み間違いも多発していました。ただ、イントネーションは流れるようで違和感がなかった。課題は山積ですが、私たちが目指す『自然な会話』のコア技術はクリアできています。これは絶対に世の中に出せる! そんな思いがあったから、苦しい開発期でもメンバー一丸となって乗り切れたと思います」

誰もが自身の合成音声を持つ時代へ。
サービスの拡充、深化は続く 将来の展望

20170406-3防災無線や交通案内などのシステムに組み込む製品、パソコンにインストールするソフト、そしてWebサービスで気軽に利用できるAPIサービスなど、「AITalk」は幅広いラインナップで提供されている。感情表現のプラスオンはもちろん、男声や女声、方言や外国語対応など、クライアントの要望に応じてバリエーションは広がる一方だ。

「創業当初は300万円ほどで販売していましたが、営業スタッフが拡充してからは50万~100万円程度のパッケージソフトで販売できるようになりました。価格がこなれてきたのは、音声合成というサービスそのものが普及期に入ってきたから。新奇性に興味を持つアーリーアダプターから、より一般的な層にターゲットが移りつつあるのです。お客様の要望に応えるうち、外国語は36か国語にまで対応しました。音声認識・翻訳サービスとの親和性も高いですから、東京オリンピックに向けたインバウンド需要にもビジネスチャンスが広がっていくと考えています」

営業拠点の本社を東京に構え、研究開発を担う開発センターは京都。自社開発、専業メーカーならではの柔軟・迅速な対応で「世界一の音声プロバイダー」を目指す同社。しかし、吉田氏が「野望」として注力していきたいのは、意外にも個人向けの音声合成技術だという。展望するのは、インフラとして広くあまねく音声合成が親しまれる未来だ。

「私が思い描くのは、全員がそれぞれ自分の声の合成音声を持っている、という世の中です。現在も個人の製品・サービスを用意してはおりますが、価格が50万円程度と高額で、気軽な購入はやや難しい。ただ、喉頭がんで声を失ってしまう方が自分の声を残せたり、子どもの声をデータ化して当時の写真と組み合わせて聞けるようにしたりと、生活に潤いを与え、豊かにするためのベースになるのが音声合成です。さらなるブレイクスルーを目指し、研究・開発を続けていきたいですね」

株式会社エーアイ
代表者:吉田 大介氏 設立:2003年4月
URL:http://www.ai-j.jp/ スタッフ数:38名
事業内容:音声合成システムに関するソリューションの開発、提供。
音声合成に関するコンサルティング・周辺システムの開発。
※「AITalk」は株式会社エーアイの登録商標です。

当記事の内容は 2017/04/06 時点のもので、該当のサービス内容が変わっていたり、サービス自体が停止している場合もございますので、あらかじめご了承ください。