メルマガ
会員
募集中

若手SEのAWSコラム第7弾 Contact Lens for Amazon Connectでカスタム語彙が使えるようになりました

AWS
2022.6.8(更新日:2022.6.8)

はじめに

少し、古いネタですが、AWSから「Contact Lens for Amazon Connect で文字起こしの精度をチューニングするためのカスタム語彙がサポートされました」と発表されました。

この機能は、Contact Lens の音声テキスト化エンジンが持つ語彙を拡張するので、各ビジネスの現場では、製品名、ブランド名、そしてドメイン固有の用語に関する音声認識能力が向上するということです。 以前、試した文字起こしは精度的に高いとは言えるものではなかったので、カスタム語彙の機能が提供されたことで、どこまで改善されているか早速試してみます。

Contact Lens for Amazon Connectとは

Contact Lens for Amazon Connectって一体何なのか? と思っている方のために説明します。
Contact Lens for Amazon Connectは、Amazon Connectに組み込まれた機械学習機能(ML)です。

機械学習を活用してコンタクトセンターの分析をする機能です。もう少し端的にいうと機械学習を用いて顧客との会話を分析できるサービスで、顧客との会話分析により、エージェントの効果的なトレーニングと顧客の重要なフィードバックを受けることができます。

Contact Lens for Amazon Connectの活用で、コンタクトセンターのスーパーバイザーは顧客との会話の感情や傾向、コンプライアンスを理解することが可能ですし、(Amazon Transcribeの機能を利用して)会話の内容もテキスト化されてリアルタイムに表示することが出来ます。

カスタム語彙とは

Contact Lens for Amazon Connectは、何となく便利だな! と分かりました。

ところで、Contact Lens for Amazon Connectでの文字起こしは、Amazon Transcribeの機能を利用しており、Amazon Transcribeは音声をテキストに変換する機能です。


Amazon Transcribeは機械学習により学習を深めてかなり進化してきています。しかし、いくら汎用的なテキスト化の学習を深めることをしても、利用者独自の学習をすることができません。

そこでAWSでは、Amazon Transcribeに「カスタム語彙」という機能を用意しています。
カスタム語彙」とは、 Amazon Transcribe による文字起こしの精度を高めるために使用できる機能です。辞書に載っていない言葉などシステムが認識するのが難しい言葉に対して、発音や表示形式を定義したリストを予め渡しておくことによって、より自然な文字起こし結果を得ることができるというものです。

カスタム語彙も、いい機能で何となく「使ってみたいな」と思いましたので、早速、実際に使ってみます。

Amazn Connectの設定

カスタム語彙を登録するには、Amazon Connectのセキュリティプロファイルで利用できるよう設定する必要があります。

まずは、セキュリティプロファイルの設定を行います。

1.セキュリティプロファイルの設定

Amazon Connectの管理画面からユーザーセキュリティプロファイルと進み、利用するユーザーのセキュリティプロファイル画面を開きます。

セキュリティプロファイルの編集」画面が開いたら、分析Contact Lens-カスタム語彙の項目ですべての欄にチェック入れ、保存ボタンをクリックします。

これで、カスタム語彙の登録ができるようになります。

これで、Amazon Connectでの設定は完了です。

カスタム語彙ファイルを作成

Amazon Connectの画面から直接カスタム語彙を登録、編集、削除することはできないので、事前に登録する「カスタム語彙ファイル」を作成します。

カスタム語彙を作成するためにはテキストファイルを作成する必要があります。テキストファイルの形式にはリスト形式とテーブル形式の2種類があります。

今回はテーブルを使用して作成してみました。
テーブル形式は、以下の4つのフィールドを持ちます。

Phrase(句、フレーズ):
 ・認識する必要がある単語もしくはフレーズ。指定が必須。

IPA(International Phonetic Alphabet、国際音声記号):
 ・音声記号を用いて発音を指定することができる。SoundsLikeフィールドと併用はできない。

SoundsLike :
 ・単語やフレーズを分割して発音を指定できる。IPAフィールドと併用はできない。

DisplayAs :
 ・単語やフレーズを文字に出力する時の表示を定義できる。省略した場合、Phraseフィールドの内容が採用される。

リスト形式においては、Phraseフィールド相当の情報のみを指定していることになりますが、テーブル形式においては、発音や表示についても情報を追加することができます。

テーブル形式を用いたテキストファイルの例は以下のとおりです。

各フィールドはTAB文字によって区切る必要があります。また、フィールドの順番は任意です。
登録したい単語をファイルに記載して、テキストファイル形式で保存します。
※なお、参考までに

保存は「文字コード:UTF-8」、「改行コード:LF」で行いました。通常の「文字コード:UTF-8」、「改行コード:CRLF」で行うと登録に失敗し、上手くいきませんでした。

また、カスタム語彙のテキストファイルにはリスト形式、テーブル形式問わず以下の制約がありますので注意が必要です。

 ・テキストファイルのサイズは50KBが上限

 ・テキストファイル内のエントリは256文字未満であること

 ・使用文字セットのみが含まれていること

カスタム語彙ファイルの作成方法はAWSから公開されているContact Lens for Amazon ConnectまたはAmazon Transcribeのデベロッパーガイドを確認してください。

さて、カスタム語彙ファイルの作成が済みましたので、いよいよ登録です。

カスタム語彙を登録

カスタム語彙ファイルの準備ができたので、Amazon Connect 画面からカスタム語彙を登録します。

Amazon Connect 管理画面から分析カスタム語彙と進み、カスタム語彙の登録画面を開きます。

カスタム語彙の登録画面が開きますので、”カスタム語彙を追加”ボタンをクリックして登録します。

カスタム語彙を追加”の画面が開きますので、”名前”を入力して、言語をプルダウンメニューから”日本語”を選択します。前述で作成したカスタム語彙ファイルを”ファイルを選択”ボタンから貼り付けます。ファイルの貼り付けまで終わったら、”保存してアップロード”ボタンをクリックして登録します。

ボタンをクリックすると、”状態”の項目欄が”準備中”と表示されます。ここでしばらく待ちます。

次は、上手く登録(追加)できたかどうかです。
カスタム語彙の追加画面で、”状態”の項目欄が”準備完了”と表示されたら登録は完了です。

失敗”と表示された場合は、カスタム語彙ファイルに間違いがありますので、作成し直して登録をやり直して下さい。

カスタム語彙ファイルを登録して”状態”の項目欄が”準備完了”となっても利用することができませんので、”デフォルトとして設定”に変更します。


名前”の欄の右側の”・・・”をクリックします。クリックすると3つの選択項目が表示されるので、”デフォルトとして設定”を選択します。

選択すると、以下の通り”状態”の項目欄が”準備完了(デフォルト)”に変更されます。

これでカスタム語彙の登録は完了です。
カスタム語彙が利用できるようになりました。

カスタム語彙を使って音声を認識させてみる

では、実際にContact Lens for Amazon Connectを使って会話をしてみます。
なお、会話した文章は次の通りです。

テレワーク用にパソコンを購入しました。期待した通りで満足しています。また、高画質のカメラとライト機能のコスパがいいです。

ただ、マイクについては、外付けディスプレイの上部についているせいか、若干遠く感じます

まずは、カスタム語彙を使わず会話した場合の、認識結果を見てみると、

活舌が悪く、単語が上手く表示されませんね。

会話内容が上手くテキスト化されていませんし、「テレワーク」が「点の枠」と表示されるなど、一部意味不明です。

次に、カスタム語彙を使って会話した場合の、認識結果を見てみると、

やったー! 句読点や文章の切り具合に若干違和感がありますが、単語は正確に表示されていますし、会話内容も分かります。期待した通り認識結果とテキスト化は正しく行われています。

利用方法

  1. まずはContact Lens for Amazon Connectを利用して、商品名や会社名や業界用語などよくご認識されるワードの誤変換されるリストを作成する 。
  2. リストに基づきカスタム語彙ファイルを作成して登録する。
  3. カスタム語彙がうまく利用できているか確認し、できていない場合はカスタム語彙ファイルを調整する。
  4. 定期的に誤変換リストをアップデートし、カスタム語彙ファイルをメンテナンスしていく。

手間と時間は掛かりますが、少しずつ調整していく必要があるようです。
カスタム語彙ファイルには制約があるため、登録できる言葉に限りがあります。

利用料金

カスタム語彙の利用は無料です。
ただし、Contact Lens for Amazon Connectは従量課金のサービスとなります。

最後に

カスタム語彙の機能はまだ提供されたばかりですので、実装にはまだ荒削で不十分さを感じますが、カスタム語彙でテキスト化のコントロールができるようになったのは大変いいことですし、Amazon Connectの利用幅が大きくなったと感じます。

Contact Lens for Amazon Connectの利用をより進めていきやすくなります。

しかも、Contact Lens for Amazon Connectは試用してみて、便利さを感じなければ利用を停止することも簡単にできます。ぜひ一度機能を実際に体感してみてください。

これからAmazon Connectを始められる方、Amazon Connectについてお聞きしたいこと等ございましたら、お気軽に問い合わせ下さい。