/*Google Adsence用*/

 昨夜、テレビ東京様のWBSWorld Business Satellite)の、「アマゾンが”AI技術”をレンタル!?」という特集で、ちょっとだけFamTimeも登場させて頂きました。

http://www.tv-tokyo.co.jp/mv/wbs/newsl/post_166143/

 今回は、Fam-Timeが自宅で家族と料理を楽しむスマホアプリFamCook」に採用したAmazonAIについて、技術的な背景をご紹介します。

採用したのはAmazon Polly

 今回、採用したのはAmazon Pollyという音声合成のAIです。

 クラウドにテキストデータを登録すると、Amazon Pollyが読み上げた音声データに変換してくれます。

 この変換された音声データはリアルタイム再生の他に、mp3形式で保存して無制限に再利用することもできます(かなり重要)。

Amazon Pollyの採用理由

 恐らく専門家の方々は、音声合成なら他にも沢山ある中で、何故awsを採用したのか?と思われるので少し補足します。

 弊社の診断基準と採用理由は以下の通りです。

診断基準および前提条件

  • イントネーションよりも誤発声率を重視
  • マルチOSスマホアプリでの読み上げを想定
  • コスト(ファイル作成費用とテスト工数)
  • レスポンス性能要件の約1秒に近づけるか?

採用理由

  • 相対的な読み上げ精度品質
  • アウトプットの検証コスト
  • 音声合成の変換コスト
  • レスポンス性能1.1秒を達成
  • 今後の精度向上に向けた成長への期待

以上でわかる方は、もう説明は不要なので、読み飛ばしてください。

以下に補足が続きます。


診断基準および前提条件

イントネーションよりも誤発声率を重視

我々が提供しているFamCookでは、料理の手順やノウハウを、正しく伝える事が重要です。その為には料理用語を正確に読み上げる事が重要課題でした。

例えば、FamCook Ver.1で採用した音声認識では、「豆板醤」について、「トウバンジャン」と正しく読み上げるのではなく、「マメイタショウ」と読み上げるようなケースが散見されました。

マルチOSスマホアプリでの読み上げ

FamCook Ver.1ではiOSとAndroidの両OSでアプリを提供しており、それぞれ別の音声認識技術を採用していました。

その為、一方の音声合成で正確だった読み上げも、もう一方のOSでは間違ってしまう事が発生していました。

この誤発声に対する対応と、確認の工数が運用面で無視できない負荷になっていました。

コスト(ファイル作成費用とテスト工数)

創業間もないスタートアップにとって数百円/月の差でも深刻です。

レスポンス性能要件の約1秒に近づけるか?

音声UIアプリに重要なのが、ユーザが聞き取れたか瞬時に把握できるようにより早いレスポンスが必要です。音声認識にクラウドを採用した場合、このレスポンスがどれだけ遅延してしまうのかも重要な判断基準でした。

採用理由

相対的な読み上げ精度品質

弊社がFamCook Ver.1で認識していた誤発声しやすい料理用語のテストにおいて、Amazon Pollyの誤発声率は8%(G社12%、A社80%以上)と、最も優秀な結果となりました。

アウトプットの検証コスト

マルチOSスマホで異なる音声合成技術を採用すると、生成された音声の確認を2回実施しなければなりません。しかし、両OSで共通して使える音声合成であれば、確認は1回。確認コストは1/2に低減する事ができます。

音声合成の変換コスト

Amazon Pollyの音声合成の変換コストは、無料枠で1 か月あたり 500 万文字、無料枠を超えても100 万文字に対して 4.00 USD。更に一度作成した音声ファイルに利用制限なし。

 FamCookでは大部分を音声ファイル再生にしている為、残りのリアルタイム再生と新規コンテンツ登録時にしかコストが発生しないのです。

レスポンス性能1.1秒を達成

大幅に遅延することも懸念されたレスポンス性能ですが、結果は1.1秒。全く違和感のないレスポンス性能を達成する事ができました。

  • 今後の精度向上に向けた成長への期待

もちろん、現時点でAmazon Pollyが100点満点ではありません。発声は正しくても、イントネーションに課題があるケースも散見されます。

しかし、これらに対しては、弊社もawsへ学習データを提供することで、より読み上げ精度を向上させることが期待できます。

この点が、AIの最大の強みです。


補足

Amazon Pollyがどんなサービスにでも百点満点である事ではなく、我々のサービスにとってはこれが現時点の最適解と判断しました。

よく、こう言った先端技術は注目されますが、どんな技術でも「銀の弾丸は無い」と言われる通り、万能ではありません。

重要なのは、自分達のサービスに必要な要件と、採用候補の技術の強み、弱みを把握した上で、その時の最適解を選択する。そして、その選択も時系列で見直したり、ブラッシュアップさせていく。そんなスタンスがAI時代に必要な、技術との付き合い方だと考えています。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

%d人のブロガーが「いいね」をつけました。