Googleは4月9日、同社の提供する音声テキスト変換サービス「Google Cloud Speech API」のメジャーアップデートを行ったことを発表しました。
アップデートされたAPIでは、シチュエーションに応じて4つの変換モデルを選択できます。
1つめは命令や検索といった短い発話に適したモデル、2つめは電話での会話に適したモデル、3つめはビデオファイルの音声認識に適したモデル、4つめは「default」というあらゆるシチュエーションに応じる事ができるモデルです。
Googleが実施したテストによると、アップデートされたAPIは、全体で54%もの音声認識エラーを減らすことができ、場合によってはそれ以上の改善も見込めるとのこと。
また、パンクチュエーション(句読法)のモデルも大幅に強化されました。これまでの音声認識は、正しいパンクチュエーションの生成が最大の課題でした。
しかし、アップデートされたモデルでは、長文にコンマ、ピリオド、クエスチョンマークなどが正しく挿入され、以前よりはるかに読みやすい文章を生成できるそうです。
Google Cloud Speech APIのアップデートにより利用者は、ビデオや音声データの文字起こしとともに、タグ付けなどといったメタデータを付与できるようになりました。
Googleは、これら各種機能の利用状況を鑑みて、今後の開発の優先順位をきめていくとのことです。
サービスの料金体系については、これまで、音声ファイルの変換は15秒ごとに0.006ドル、ビデオの変換は15秒ごとに0.012ドルです。ただし5月31日までは、音声・ビデオともに新モデルの利用料金は15秒ごとに0.006ドルで提供されます。