Google、Cloud Speech APIをアップデート 音声認識エラーの大幅改善や正しい句読点の挿入が実現

Googleは4月9日、同社の提供する音声テキスト変換サービス「Google Cloud Speech API」のメジャーアップデートを行ったことを発表しました。

アップデートされたAPIでは、シチュエーションに応じて4つの変換モデルを選択できます。

1つめは命令や検索といった短い発話に適したモデル、2つめは電話での会話に適したモデル、3つめはビデオファイルの音声認識に適したモデル、4つめは「default」というあらゆるシチュエーションに応じる事ができるモデルです。

Googleが実施したテストによると、アップデートされたAPIは、全体で54%もの音声認識エラーを減らすことができ、場合によってはそれ以上の改善も見込めるとのこと。

また、パンクチュエーション(句読法)のモデルも大幅に強化されました。これまでの音声認識は、正しいパンクチュエーションの生成が最大の課題でした。

しかし、アップデートされたモデルでは、長文にコンマ、ピリオド、クエスチョンマークなどが正しく挿入され、以前よりはるかに読みやすい文章を生成できるそうです。

Google Cloud Speech APIのアップデートにより利用者は、ビデオや音声データの文字起こしとともに、タグ付けなどといったメタデータを付与できるようになりました。
Googleは、これら各種機能の利用状況を鑑みて、今後の開発の優先順位をきめていくとのことです。

サービスの料金体系については、これまで、音声ファイルの変換は15秒ごとに0.006ドル、ビデオの変換は15秒ごとに0.012ドルです。ただし5月31日までは、音声・ビデオともに新モデルの利用料金は15秒ごとに0.006ドルで提供されます。

Googleのテキスト音声変換APIにメジャー・アップデート――音声認識も改善 | TechCrunch Japan