メルマガ
会員
募集中

若手SEのAWSコラム第4弾 Amazon Pollyでニューラル音声がサポートされたので、Amazon Connect で試してみました

AWS
2022.4.19(更新日:2022.5.27)

はじめに

ついに、わたくしもこの4月で入社2年目になりました。

なので、「入社1年目の」ではなくなったのでタイトル変更しました(^^

さて、AWSで2021年12月6日にAmazon Polly の日本人男性のテキスト読み上げ (TTS) 音声のニューラルバージョン「Takumi」の一般提供の開始が発表されました。

日本語でもニューラル音声が対応されたということですので、Amazon Connectで試してみました。

ニューラル音声とは

Amazon ConnectはAmaozn Pollyの読み上げの音声システムを利用しています。

Amazon Pollyには、読み上げの音声システムとして”ニューラル音声”と”スタンダード音声”の2つが用意されてます。
”ニューラル音声”はニューラルTTS(NTTS)とも呼ばれ、”スタンダード音声”よりも高品質の音声を生成出来るシステムです。また、”ニューラル音声”では、可能な限り自然で人間に似たテキスト読み上げ音声を生成しており、親しみやすく、スムーズに聞こえます。

”スタンダード音声”では連結合成を使用し、音声の品質が制限されますが、”ニューラル音声”では、連結合成を使用しませんので、音声の品質に制限がありません。

Amazon Connectの設定

Amazon Connectにおける、”問い合わせフロー”の作成と”音声の設定”を行います。

■問合せフローの作成

以下のような、”音声の設定”と”プロンプトの再生”のみの簡単な”問い合わせフロー”を作成します。

音声の設定

”音声の設定”は、以下のとおり設定します。

①”ニューラル音声”は、”発声スタイルを上書き-ニューラル:なし”と”ニューラル発話スタイル”のチェックボタンにチェックを入れます。

②”スタンダード音声”は、”発声スタイルを上書き-ニューラル:なし”と”スタンダード(レガシー)”のチェックボタンにチェックを入れます。

     ① ”ニューラル音声”         ② ”スタンダード音声”

試してみる

”ニューラル音声”は、日本語で利用可能になりましたが、現時点で対応している音声は”Takumi”のみです。日本語の音声はTakumiとMizukiの2つが選択出来ますが、Mizukiはまだ”スタンダード音声”しか選択出来ません。

以下のツイートの一部分を、音声変換してみたいと思います。

[試した文章]

こんにちは、たくみです。ニューラル音声を試してみます。

アマゾンポリーにはニューラル音声があり、

スタンダード音声よりも高品質の音声を生成できます。

ニューラル音声は可能な限り、自然で、人間に似たテキスト読み上げ音声を生成します。

スタンダード音声では連結合成を使用し、音声の品質が制限されます。

ニューラル音声では、連結合成を使用しませんので、音声の品質に制限がありません。

”スタンダード音声”の実行結果は次のとおりです。

”ニューラル音声”の実行結果は次のとおりです。

両方聴いてもらうと分かりますが、”ニューラル音声”の方が断然柔らかくなっています。

”スタンダード音声”では、音にザラつきがあったり発音が潰れたりしていますし、イントネーションに違和感があります。

一方、”ニューラル音声”だと、ザラつきや発音のつぶれもなくよりスムーズですし、かなり自然な発音に聞こえます。

また、”スタンダード音声”と比較すると”ニューラル音声”は高音質で流暢に読み上げており、かなり滑らかで人間に近い感じがします。

料金

Amazon Pollyは従量課金制です。

処理したテキストの文字数に応じて毎月課金されます。

⇒Amazon Polly のスタンダード音声の料金は、音声文字、または Speech Marks のリクエスト 100 万字に対して 4.00 USD です (無料利用枠を超えた場合)。

⇒Amazon Polly のニューラル音声の料金は、音声文字、または Speech Marks のリクエスト 100 万字に対して 16.00 USD です (無料利用枠を超えた場合)。

計算例

 

■無料利用枠

Amazon Polly のスタンダード音声の場合、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで、音声または Speech Marks リクエストを利用できます。

Amazon Polly のニューラル音声の場合、音声の最初のリクエストから 12 か月間は 1 か月あたり 100 万文字まで、音声または Speech Marks リクエストを利用できます。

最後に

本日は、Amazon Connectで日本語対応の”ニューラル音声”と”スタンダード音声”の比較を行ってみました。

”スタンダード音声”でも音声読み上げとしては十分ですが、Amazon Connectの自動応答音声等で利用する場合、高品質でより自然で人間に似た音声であり、親しみやすく、またスムーズに聞こえる”ニューラル音声”がかなり良いですし、顧客に与える印象はかなり違ってくると思います。

Amazon Connectを利用している方々は、ぜひ日本語に対応した”ニューラル音声”を利用して頂きたいです。

ただ、”ニューラル音声”は現在”Takumi”だけの対応なのが残念です。”Mizuki”も早く対応して欲しい機能ですね。