JP2023158272A

JP2023158272A - 同時通訳装置、同時通訳システム、同時通訳処理方法、および、プログラム

Info

Publication number: JP2023158272A
Application number: JP2022068004A
Authority: JP
Inventors: シャオリンワン; Xiaolin Wang; 将夫内山; Masao Uchiyama; 英一郎隅田; Eiichiro Sumida
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2023-10-30
Also published as: WO2023203924A1

Abstract

【課題】リアルタイムで機械翻訳処理及び話者特定処理を行う同時通訳システムを実現する同時通訳装置、同時通訳処理方法及びプログラムを提供する。
【解決手段】同時通訳システム１０００において、同時通訳装置１００は、高速、高精度なセグメント処理を実行し、データＤ＿ｗｏｒｄｓに含まれる単語列を、センテンス毎に区切ることで、文章データとともに時間範囲データを取得するセグメント処理部２と、セグメント処理部２から出力されるデータＤｓ＿ｓｒｃ（翻訳元の言語（原言語））の文章データに対して機械翻訳処理を実行する機械翻訳処理部４と、入力ビデオストリーム及び取得した時間範囲の情報を含むデータＤ＿ｔ＿ｒｎｇに基づいて時間範囲の情報を含むデータで特定される期間において発話した話者を予測する話者予測処理部３とを備え、並行して機械翻訳処理及び話者特定処理を実行して表示処理装置Ｄｅｖ２に出力する。
【選択図】図１

Description

本発明は、マルチモード同時通訳技術に関し、例えば、ＡＶ同期がとれた音声信号および映像信号を用いて、リアルタイムで話者特定を行いながら、翻訳処理を実行する技術に関する。

近年、ビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を入力とし、ビデオストリームから音声を抽出し、自動音声認識、機械翻訳を行うことで、入力されたビデオストリームから取得される音声付き映像に、機械翻訳結果を（例えば、字幕として）表示させる同時通訳システム（リアルタイム通訳システム）が開発されている。

このような同時通訳システムでは、機械翻訳結果が、入力されたビデオストリームから取得される音声付き映像上に表示されるため、当該映像を見ているユーザは、何を言っているのかを認識することができる。

しかしながら、上記のような同時通訳システムでは、複数人が会話をしているようなシーンでは、誰が何を言っているかを把握することが困難な場合がある。つまり、このような場合、上記のような同時通訳システムでは、ユーザが音声付き映像上に（例えば、字幕として）表示される機械翻訳結果だけを見ていても、話者を特定することができず、その結果、ユーザを混乱させてしまうという問題がある。

一方、複数人が発話する会議等の音声データを記録し、記録した音声データを解析し、話者を特定し、発話内容と、その話者とを容易に識別することを可能にする会話記録装置が開発されている（例えば、特許文献１を参照）。具体的には、この会話記録装置では、会議等の記録が終了した時点で全音声特徴を対象としてクラスタリング処理を行い、会話に参加していた人数、及び各話者の代表的な音声特徴を求め、各話者の音声特徴と記録データを比較して話者を判別し、同一話者の発言内容を色や表示位置で区分して表示することで、話者別に識別可能な表示を行うことができる。

特開平１０－１９８３９３号公報

しかしながら、上記技術では、音声データを記録した後、話者特定するために、記録した音声データを解析する必要があり、話者特定をリアルタイム処理（処理開始から処理終了までの時間（遅延時間）が一定の時間内におさまることを保証する処理）で行うことはできない。

そこで、本発明は、上記課題に鑑み、リアルタイムで、自動音声認識処理、機械翻訳処理、および、話者特定処理を行うことが可能な同時通訳システムを実現することを目的とする。

上記課題を解決するための第１の発明は、音声認識処理部と、セグメント処理部と、話者予測処理部と、機械翻訳処理部と、を備える同時通訳装置である。

音声認識処理部は、時間情報、音声信号および映像信号を含むビデオストリーム(このビデオストリームは、時間情報および音声信号を含むストリームであってもよい）に対して音声認識処理を行うことで、音声信号に対応する単語列のデータであって、当該単語列の各単語が発せられた時間情報を含むデータである単語列データを取得する。

セグメント処理部は、単語列データに対してセグメント処理を行うことで、セグメント化された単語列データである文章データを取得するとともに、当該文章データに含まれる単語列が発せられた時間範囲を特定する時間範囲データを取得する。

話者予測処理部は、ビデオストリームおよび時間範囲データに基づいて、時間範囲データで特定される期間において発話した話者を予測する。

機械翻訳処理部は、文章データに対して機械翻訳処理を実行することで、文章データに対応する機械翻訳処理結果データを取得する。

この同時通訳装置では、セグメント処理部により、高速、高精度なセグメント処理を実行し、文章データを取得するとともに、当該文章データに含まれる単語列が発話された時間範囲のデータを取得できるので、リアルタイムで、機械翻訳処理、および、話者特定処理を行うことが可能となる。つまり、この同時通訳装置では、高速、高精度なセグメント処理により取得された文章データに対して、機械翻訳処理部で機械翻訳処理を実行するのと並行して、入力ビデオストリームおよび時間範囲データに基づいて、時間範囲データで特定される期間において発話した話者を予測する処理を実行するので、リアルタイム処理（所定の遅延時間に収まることを保証する処理）で、機械翻訳処理、および、話者特定処理を行うことが可能となる。

第２の発明は、第１の発明であって、話者予測処理部は、ビデオクリップ処理部と、話者検出処理部と、音声用エンコーダと、顔用エンコーダと、話者特定処理部と、を備える。

ビデオクリップ処理部は、ビデオストリームのうち、時間範囲データで特定される期間のデータであるクリップビデオストリームを取得する。

話者検出処理部は、クリップビデオストリームにより形成されるフレーム画像から、話者の顔画像領域を抽出する。

音声用エンコーダは、クリップビデオストリームに含まれる音声信号に対して、音声用エンコード処理を行うことで、音声信号に対応する埋込表現データである音声用埋込表現データを取得する。

顔用エンコーダは、話者の顔画像領域を形成する画像データに対して、顔用エンコード処理を行うことで、話者の顔画像領域に対応する埋込表現データである顔用埋込表現データを取得する。

話者特定処理部は、音声用埋込表現データおよび顔用埋込表現データに基づいて、クリップビデオストリームに含まれる音声信号で再現される音声を発話した話者を特定する。

この同時通訳装置では、音声用埋込表現データおよび顔用埋込表現データに基づいて、クリップビデオストリームに含まれる音声信号で再現される音声を発話した話者を特定することができる。つまり、この同時通訳装置では、少ないデータ量の埋込表現データを用いて、話者特定処理を行うので、より高速（より少ない演算量で）、高精度に話者特定処理を行うことができる。

第３の発明は、第２の発明であって、話者を特定する話者識別子とともに、話者識別子に紐付けされた音声用埋込表現データおよび顔用埋込表現データを記憶するデータ格納部をさらに備える。

そして、話者特定処理部は、音声用エンコーダにより取得された音声用埋込表現データ、および、顔用エンコーダにより取得された顔用埋込表現データと、データ格納部に記憶されている音声用埋込表現データおよび顔用埋込表現データとに対してベストマッチング処理を行い、ベストマッチング処理における両データの類似度合いを示す類似スコアが所定の値よりも高い場合、ベストマッチング処理でマッチング処理対象としたデータ格納部に記憶されている音声用埋込表現データおよび顔用埋込表現データに対応する話者識別子で特定される話者が、クリップビデオストリームに含まれる音声信号で再現される音声を発話した話者であると特定する。

これにより、この同時通訳装置では、データ格納部に記憶したデータを参照することで、話者特定処理を行うことができる。

なお、ベストマッチング処理における２つのデータの類似度度合いは、例えば、２つのデータのコサイン類似度や距離情報（例えば、ユークリッド距離）に基づいて、取得される。

第４の発明は、第１から第３のいずれかの発明である同時通訳装置と、同時通訳装置により取得された、ビデオストリームに含まれる音声信号で再現される音声を発話した話者を特定するためのデータである話者特定データと、同時通訳装置の機械翻訳処理部により取得された、文章データに対応する機械翻訳処理結果データとを入力し、話者特定データと、機械翻訳処理結果データとを表示装置に表示される画面の所定の画像領域に表示させる表示データを生成する表示処理装置と、を備える同時通訳システムである。

これにより、この同時通訳システムでは、話者を特定するデータとともに、当該話者が発話した原言語の機械翻訳結果を所定の画像領域（表示画面の同一画像領域）に表示させることができるので、ユーザは、「誰が何を言ったのか」を容易に認識することができる。

第５の発明は、音声認識処理ステップと、セグメント処理ステップと、話者予測処理ステップと、機械翻訳処理ステップと、を備える同時通訳処理方法である。

音声認識処理ステップは、時間情報、音声信号および映像信号を含むビデオストリーム(このビデオストリームは、時間情報および音声信号を含むストリームであってもよい）に対して音声認識処理を行うことで、音声信号に対応する単語列のデータであって、当該単語列の各単語が発せられた時間情報を含むデータである単語列データを取得する。

セグメント処理ステップは、単語列データに対してセグメント処理を行うことで、セグメント化された単語列データである文章データを取得するとともに、当該文章データに含まれる単語列が発せられた時間範囲を特定する時間範囲データを取得する。

話者予測処理ステップは、ビデオストリームおよび時間範囲データに基づいて、時間範囲データで特定される期間において発話した話者を予測する。

機械翻訳処理ステップは、文章データに対して機械翻訳処理を実行することで、文章データに対応する機械翻訳処理結果データを取得する。

これにより、第１の発明と同様の効果を奏する同時通訳処理方法を実現することができる。

第６の発明は、第５の発明である同時通訳処理方法をコンピュータに実行させるためのプログラムである。

これにより、第５の発明と同様の効果を奏する同時通訳処理方法をコンピュータに実行させるためのプログラムを実現することができる。

本発明によれば、リアルタイムで、自動音声認識処理、機械翻訳処理、および、話者特定処理を行うことが可能な同時通訳システムを実現することができる。

第１実施形態に係る同時通訳システム１０００の概略構成図。第１実施形態に係る同時通訳装置１００の話者予測処理部３の概略構成図。同時通訳装置１００に入力されるビデオストリーム（一例）より形成される動画（音声付き動画）を模式的に示した図。同時通訳システム１０００で実行されるセグメント処理のフローチャート。同時通訳システム１０００で実行されるセグメント処理を説明するための図。話者検出処理を説明するための図。同時通訳システム１０００で実行される話者予測処理のフローチャート。図３のビデオストリームを、同時通訳システム１０００により処理して取得された表示データを表示装置に表示させたときの画面を模式的に示す図。図３のビデオストリームを、同時通訳システム１０００により処理して取得された表示データを表示装置に表示させたときの画面を模式的に示す図。図３のビデオストリームを、同時通訳システム１０００により処理して取得された表示データを表示装置に表示させたときの画面を模式的に示す図。ＣＰＵバス構成を示す図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：同時通訳システムの構成＞
図１は、第１実施形態に係る同時通訳システム１０００の概略構成図である。

図２は、第１実施形態に係る同時通訳装置１００の話者予測処理部３の概略構成図である。

同時通訳システム１０００は、図１に示すように、ビデオストリーム取得処理装置Ｄｅｖ１と、同時通訳装置１００と、表示処理装置Ｄｅｖ２とを備える。

ビデオストリーム取得処理装置Ｄｅｖ１は、ビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を取得する装置である。ビデオストリーム取得処理装置Ｄｅｖ１は、例えば、音声取得装置（例えば、マイク）および撮像装置（例えば、カメラ）と接続することが可能であり、音声取得装置（例えば、マイク、集音装置）および撮像装置（例えば、カメラ）から音声信号および映像信号を取得し、取得した音声信号および映像信号に対して、ＡＶ同期処理を行い、ビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を取得する。そして、ビデオストリーム取得処理装置Ｄｅｖ１は、取得したビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を、データＤ＿ａｖとして、同時通訳装置１００に出力する。また、ビデオストリーム取得処理装置Ｄｅｖ１は、例えば、外部の記録装置から、あるいは、外部のネットワーク（例えば、インターネット）を介して、外部のサーバ（例えば、ストリーミングサーバや動画配信サーバ）から、ビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を取得し、取得したビデオストリームを、データＤ＿ａｖとして、同時通訳装置１００に出力する。なお、ビデオストリーム取得処理装置Ｄｅｖ１は、ビデオストリーム取得処理装置Ｄｅｖ１に入力される音声信号、および、映像信号にそれぞれ時間情報（例えば、タイムスタンプ）が含まれており、ＡＶ同期がとれていない場合、当該音声信号、および、映像信号にそれぞれ含まれている時間情報（例えば、タイムスタンプ）に基づいて、ＡＶ同期がとれた音声信号、および、映像信号を取得し、当該音声信号および当該映像信号を含むビデオストリーム（ＡＶ同期がとれたビデオストリーム）を、データＤ＿ａｖとして、同時通訳装置１００および表示処理装置Ｄｅｖ２に出力する。

同時通訳装置１００は、図１に示すように、音声認識処理部１と、セグメント処理部２と、話者予測処理部３と、機械翻訳処理部４とを備える。

音声認識処理部１は、ビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖ（ビデオストリーム（ＡＶ同期がとれたビデオストリーム）のデータ）を入力する。音声認識処理部１は、データＤ＿ａｖから音声データ（音声信号）を抽出し、抽出した音声データ（音声信号）に対して、音声認識処理を実行し、上記音声データ（音声信号）に対応する単語列（ワードストリーム）と当該単語列に含まれる各単語が発話された時間情報とを取得する。そして、音声認識処理部１は、取得した単語列および上記時間情報を含むデータを、データＤ＿ｗｏｒｄｓとして、セグメント処理部２に出力する。

セグメント処理部２は、音声認識処理部１から出力されるデータＤ＿ｗｏｒｄｓを入力する。セグメント処理部２は、データＤ＿ｗｏｒｄｓに対して、セグメント処理を実行し、データＤ＿ｗｏｒｄｓに含まれる単語列を、センテンスごとに区切ることで、文章データを取得する。そして、セグメント処理部２は、セグメント処理で取得した文章データ（センテンスごとに区切られた単語列（１つの文を構成する単語列のデータ））を、データＤｓ＿ｓｒｃとして機械翻訳処理部４に出力する。

また、セグメント処理部２は、データＤ＿ｗｏｒｄｓに対して、セグメント処理を実行して上記文章データを取得したときの当該文章データを構成する単語列の時間情報から、当該文章が発話された期間（時間範囲）の情報を取得する。そして、セグメント処理部２は、取得した、上記期間（時間範囲）の情報を含むデータを、データＤ＿ｔ＿ｒｎｇとして、話者予測処理部３に出力する。

話者予測処理部３は、図２に示すように、ビデオクリップ処理部３１と、音声用エンコーダ３２と、話者検出処理部３３と、顔用エンコーダ３４と、話者特定処理部３５と、データ格納部ＤＢ１とを備える。

ビデオクリップ処理部３１は、ビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖ（ＡＶ同期がとれたビデオストリームのデータ）と、セグメント処理部２から出力されるデータＤ＿ｔ＿ｒｎｇとを入力する。ビデオクリップ処理部３１は、データＤ＿ｔ＿ｒｎｇに基づいて、データＤ＿ａｖに含まれるビデオストリームのデータに対してクリップ処理を行う。具体的には、ビデオクリップ処理部３１は、データＤ＿ｔ＿ｒｎｇから、期間（時間範囲）の情報を取得し、当該期間（時間範囲）の情報に相当する（当該期間（時間範囲）に取得された）ビデオストリームのデータを取得する。そして、ビデオクリップ処理部３１は、取得したビデオストリームのデータを、データＤ１＿ａｖとして、話者検出処理部３３に出力する。また、ビデオクリップ処理部３１は、取得したビデオストリームのデータのうちオーディオストリームのデータのみを抽出し、抽出したオーディオストリームのデータを、データＤ１＿ａとして、音声用エンコーダ３２に出力する。

音声用エンコーダ３２は、ビデオクリップ処理部３１から出力されるデータＤ１＿ａ（オーディオストリームのデータ）を入力し、当該データＤ＿ａに対してエンコード処理を実行し、入力されたデータＤ＿ａ（オーディオストリーム（音声ストリーム））に対応する埋込表現データを取得する。そして、音声用エンコーダ３２は、取得した埋込表現データを、データＤ＿ａ＿ｅｍｂとして、話者特定処理部３５に出力する。

話者検出処理部３３は、ビデオクリップ処理部３１から出力されるデータＤ１＿ａｖ（ビデオストリームのデータ）を入力し、当該データＤ１＿ａｖに対して、話者検出処理を実行し、入力されたデータＤ１＿ａｖにより形成される音声付き動画上で発話している人に相当する画像領域を検出し、検出した画像領域に基づいて、話者アイコンデータを取得する。そして、話者検出処理部３３は、取得した話者アイコンデータを含むデータを、データＤｏ＿ｆａｃｅ＿ｉｃｏｎとして、表示処理装置Ｄｅｖ２に出力する。

また、話者検出処理部３３は、入力されたデータＤ１＿ａｖに対して、話者検出処理を実行し、入力されたデータＤ１＿ａｖにより形成される音声付き動画上で発話している人の顔に相当する画像領域を検出し、検出した画像領域を形成する画像信号（画像データ）を含むデータを、データＤ＿ｆａｃｅとして、顔用エンコーダ３４に出力する。

顔用エンコーダ３４は、話者検出処理部３３から出力されるデータＤ＿ｆａｃｅを入力し、当該データＤ＿ｆａｃｅに対してエンコード処理を実行し、入力されたデータＤ＿ｆａｃｅに対応する埋込表現データを取得する。そして、顔用エンコーダ３４は、取得した埋込表現データを、データＤ＿ｆａｃｅ＿ｅｍｂとして、話者特定処理部３５に出力する。

話者特定処理部３５は、音声用エンコーダ３２から出力されるデータＤ＿ａ＿ｅｍｂ（音声データの埋込表現データ）と、顔用エンコーダ３４から出力されるデータＤ＿ｆａｃｅ＿ｅｍｂ（顔画像領域データの埋込表現データ）と、を入力する。また、話者特定処理部３５は、データ格納部ＤＢ１に対して、データ読み出し指令、あるいは、データ書き込み指令を出力することで、データの読み出し処理、あるいは、データの書き込み処理を行うことができる。

話者特定処理部３５は、データＤ＿ａ＿ｅｍｂ（音声データの埋込表現データ）、および、データＤ＿ｆａｃｅ＿ｅｍｂ（顔画像領域データの埋込表現データ）と、データ格納部ＤＢ１に格納されているデータとを参照することで話者特定処理を実行し、話者特定を行う（詳細については後述）。そして、話者特定処理部３５は、上記処理により特定した話者のデータ（例えば、話者を特定するためのタグデータ）を、データＤｏ＿ｓｐｋ＿ｔａｇとして、表示処理装置Ｄｅｖ２に出力する。

なお、話者検出処理部３３から表示処理装置Ｄｅｖ２に出力されるデータＤｏ＿ｆａｃｅ＿ｉｃｏｎ、および、話者特定処理部３５から表示処理装置Ｄｅｖ２に出力されるデータＤｏ＿ｓｐｋ＿ｔａｇを、まとめて、データＤｏ＿ｓｐｋと表記する。

データ格納部ＤＢ１は、データを記憶保持することができる記憶部であり、例えば、データベースにより実現される。データ格納部ＤＢ１は、話者特定処理部３５からのデータ読み出し指令に基づいて、記憶保持しているデータを読み出し、読み出したデータを話者特定処理部３５に出力する。また、データ格納部ＤＢ１は、話者特定処理部３５からのデータ書き込み指令に基づいて、話者特定処理部３５から出力されるデータを、データ格納部ＤＢ１の所定の記憶領域に記憶する。なお、データ格納部ＤＢ１は、同時通訳装置１００の外部に設置されるものであってもよい。

機械翻訳処理部４は、セグメント処理部２から出力されるデータＤｓ＿ｓｒｃ（翻訳元の言語（原言語））の文章データを入力し、入力した原言語の文章データＤｓ＿ｓｒｃに対して、機械翻訳処理を行うことで、原言語の文章データＤｓ＿ｓｒｃに対応する翻訳言語（翻訳先言語）の単語列データ（翻訳結果データ）を取得する。そして、機械翻訳処理部４は、取得した翻訳結果データ（翻訳言語の単語列データ）を、データＤｏ＿ＭＴとして、表示処理装置Ｄｅｖ２に出力する。

表示処理装置Ｄｅｖ２は、ビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖと、同時通訳装置１００から出力されるＤｏ＿ＭＴ（機械翻訳結果データ）、および、データＤｏ＿ｓｐｋ（話者特定データ）とを入力する。表示処理装置Ｄｅｖ２は、ビデオストリームのデータＤ＿ａｖと、機械翻訳結果データＤｏ＿ＭＴと、話者特定データＤｏ＿ｓｐｋとに基づいて、表示装置（不図示）に表示させるためのデータを生成する。

＜１．２：同時通訳システムの動作＞
以上のように構成された同時通訳システム１０００の動作について説明する。

図３は、同時通訳装置１００に入力されるビデオストリーム（一例）より形成される動画（音声付き動画）を模式的に示した図である。

図４は、同時通訳システム１０００で実行されるセグメント処理のフローチャートである。

図５は、同時通訳システム１０００で実行されるセグメント処理を説明するための図である。

図６は、話者検出処理を説明するための図。

図７は、同時通訳システム１０００で実行される話者予測処理のフローチャートである。

ビデオストリーム取得処理装置Ｄｅｖ１は、ビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）を取得する。ここでは、説明便宜のため、ビデオストリーム取得処理装置Ｄｅｖ１により、図３に示した動画（音声付き動画）を形成するビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）が取得されたものとし、同時通訳システム１０００において、当該ビデオストリームを処理する場合について、以下説明する。

なお、図３において、説明便宜のため、発話された音声の内容を吹き出し内に文字で表示しているが、実際の動画（音声付き動画）では、当該吹き出し（およびその中の文字）は、動画上（映像上）には存在しない。また、図３では、ビデオストリームにより形成される動画に含まれる一部のフレーム画像（所定の時刻に抽出したフレーム画像）を時系列に示しており、ビデオストリームにより形成される動画に含まれる全てのフレーム画像を示している訳ではない。そして、図３では、説明便宜のために、図３に表示したフレーム画像に、所定の時間（期間）に発せられた音声を吹き出し内に文字として表示している。

また、ビデオストリーム取得処理装置Ｄｅｖ１により取得されたビデオストリームにより形成される音声付き動画（図３の音声付き動画）は、男女二人が会話しているシーンの動画であり、男女二人が英語（翻訳元言語（原言語））で会話しているものとする。

ビデオストリーム取得処理装置Ｄｅｖ１は、処理対象のビデオストリームを構成する音声信号および映像信号のＡＶ同期がとれていない場合は、当該音声信号の時間情報（例えば、タイムスタンプ）と、当該映像信号の時間情報（例えば、タイムスタンプ）とに基づいて、ＡＶ同期処理を行い、ＡＶ同期がとれた音声信号および映像信号を取得する。そして、ビデオストリーム取得処理装置Ｄｅｖ１は、取得したビデオストリーム（ＡＶ同期がとれた音声信号および映像信号）（図３の音声付き動画像を形成するビデオストリーム）を、データＤ＿ａｖとして、同時通訳装置１００および表示処理装置Ｄｅｖ２に出力する。

同時通訳装置１００の音声認識処理部１は、ビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖ（ビデオストリーム（ＡＶ同期がとれたビデオストリーム）のデータ）を入力する。音声認識処理部１は、入力したデータＤ＿ａｖから音声データ（音声信号）を抽出し、抽出した音声データ（音声信号）に対して、音声認識処理を実行し、上記音声データ（音声信号）に対応する単語列（ワードストリーム）と当該単語列に含まれる各単語が発話された時間情報（タイムスタンプ）とを取得する。

音声認識処理部１は、例えば、以下のように、各単語とその単語が発せられた時間情報（タイムスタンプ）とを組みにしたデータ（タイムスタンプ付き単語列のデータ）を取得する。
「Ｉ’ｍ」（０．５ｓ）
「Ｓｍｉｔｈ」（０．９ｓ）
「ｎｉｃｅ」（１．１ｓ）
「ｔｏ」（１．３ｓ）
「ｍｅｅｔ」（１．４ｓ）
・・・
なお、上記において「」内の文字列が単語のデータであり、（）内の数値が時刻（単位は秒）で示した時間情報（タイムスタンプ）である。

そして、音声認識処理部１は、取得した単語列および上記時間情報を含むデータ（タイムスタンプ付き単語列のデータ）を、データＤ＿ｗｏｒｄｓとして、セグメント処理部２に出力する。

セグメント処理部２は、音声認識処理部１から出力されるデータＤ＿ｗｏｒｄｓに対して、セグメント処理を実行する。具体的には、セグメント処理部２は、以下の処理を行う。なお、セグメント処理について、図４のフローチャート、図５の説明図を参照しながら、説明する。

（ステップＳ１１）：
ステップＳ１１において、セグメント処理部２は、文字列の順番を示す変数ｋを初期値にセットする（ｋ＝０にする）。

（ステップＳ１２）：
ステップＳ１２において、セグメント処理部２は、セグメント処理用の特徴量を取得する。具体的には、セグメント処理部２は、単語に付されている時間情報（タイムスタンプ）をｔｉｍｅ^ｔとすると、時刻ｔｉｍｅ^ｔにおけるｎ個（ｎ：自然数）の特徴量ｆｅａｔ^ｔ _０，ｆｅａｔ^ｔ _１，・・・，ｆｅａｔ^ｔ _ｎ－１を取得する。上記特徴量は、セグメント処理を実行し、セグメント評価値（セグメントスコア（例えば、単語列の区切りである確率を示す値（文の区切り（文末）である確率を示す値）））を取得するのに必要となるデータである。本実施形態では、２つの特徴量（つまり、ｎ＝２）を用いるものとし、第１の特徴量は、単語（単語を示すデータ）であり、第２の特徴量は、各単語の後のポーズ（無音時間）の継続時間であるものとする。

（ステップＳ１３）：
ステップＳ１３において、セグメント処理部２は、セグメント処理用の特徴量に基づいて、セグメント評価値（セグメントスコア）ｓｃｏｒｅ_ｓｅｇを取得する。具体的には、セグメント処理部２は、下記数式に相当する処理を実行することで、ｋ番目の単語のセグメント評価値（セグメントスコア）（ｋ番目（ｋ：自然数）の単語の後が文末（単語列の区切り）である可能性を示す値）ｓｃｏｒｅ_ｓｅｇ（ｋ）を取得する。

Ｆ_ｓｅｇ（ｋ）：ｋ番目の単語の後がセグメントの区切り（単語列の区切り（文末））である確率を返す関数（Ｆ_ｓｅｇ（ｋ）は、例えば、ニューラルネットワークによるモデルにより実現される。）
Ｋ：コンテキスト取得用の係数（Ｋ：自然数）（ｋ番目の単語の後に続く（時系列で未来の）Ｋ個の特徴量を関数Ｆ_ｓｅｇ（ｋ）に入力することで、ｋ番目の単語の後がセグメントの区切りである確率をより高精度に取得することができる。このため、上記数式では、ｋ番目の単語の後に続く（時系列で未来の）Ｋ個の特徴量を関数Ｆ_ｓｅｇ（ｋ）に入力する。）
なお、本実施形態では、上記（数式１）の具現化例（一例）として、セグメント処理部２は、下記数式に相当する処理を行うことで、セグメント処理を実行するものとする。

なお、上記数式において、ｓｃｏｒｅ_ＲＮＮ（ｗ_０，・・・，ｗ_ｋ＋Ｋ）は、ｋ＋Ｋ＋１個の単語からなる単語列（文章）を入力したときに、第ｋ番目の単語の後がセグメントの区切り（文末）となる確率を出力する関数である。なお、当該関数に相当する処理は、例えば、下記文献Ａに開示されいるように、ＲＮＮ（リカレントニューラルネットワーク）により実現されるモデル（学習済みモデル）を用いて実現できる。
（文献Ａ）：Xiaolin Wang, Masao Utiyama, and Eiichiro Sumita, "Online sentence segmentation for simultaneous interpretation using multi-shifted recurrent neural network." In Proceedings of Machine Translation Summit XVII Volume 1: Research Track, pages 1-11.
また、上記数式において、αは調整用の係数（α：実数）であり、ｐａｕｓｅ（ｋ）は、ｋ番目の単語（単語ｗ_ｋ）の後のポーズ（無音期間）の継続時間（例えば、単位は秒）である。

（ステップＳ１４）：
ステップＳ１４において、セグメント処理部２は、ステップＳ１２で取得したセグメント評価値（セグメントスコア）ｓｃｏｒｅ_ｓｅｇ（ｋ）と閾値ｔｈ１とを比較する処理を行う。当該比較処理の結果、ｓｃｏｒｅ_ｓｅｇ（ｋ）＞ｔｈ１である場合、セグメント処理部２は、処理をステップＳ１６に進め、一方、ｓｃｏｒｅ_ｓｅｇ（ｋ）＞ｔｈ１ではない場合、セグメント処理部２は、処理をステップＳ１５に進める。

（ステップＳ１５）：
ステップＳ１５において、セグメント処理部２は、変数ｋの値を＋１インクリメントし、処理をステップＳ１２に戻す。そして、ステップＳ１２～Ｓ１４の処理が上記と同様に実行される。

（ステップＳ１６、Ｓ１７）：
ステップＳ１６において、セグメント処理部２は、セグメント処理が開始されたときの最初の単語から、その後がセグメントの区切りであると判定された単語までを文章データ（１つの文を構成する単語列のデータ）として取得するとともに、当該文章データの単語列の時間情報（タイムスタンプ）の時間範囲のデータを取得する。

そして、ステップＳ１７において、セグメント処理部２は、上記により取得した文章データを、データＤｓ＿ｓｒｃとして、機械翻訳処理部４に出力するとともに、上記により取得した時間範囲のデータを、データＤ＿ｔ＿ｒｎｇとして、話者予測処理部３に出力する。

ここで、セグメント処理の具体例について、図５を参照しながら説明する。

図５において、上段の図は、セグメント処理での入力データ、処理、出力データを模式的に示す図であり、図５の中段、下段の図は、実際のデータが入力されたときのセグメント処理での入力データ、処理、出力データを模式的に示す図である。なお、図５において、セグメント処理に用いる第１の特徴量は、単語のデータであり、第２の特徴量は、処理対象の単語の後のポーズ（無音期間）の継続時間（単位は秒）である。

図５の上段の図では、時刻ｔｉｍｅ^ｋでの特徴量ｆｅａｔ^ｋ _０，・・・，ｆｅａｔ^ｋ _ｎ－１が時系列で順番にセグメント処理部２で取得され、セグメント評価値ｓｃｏｒｅ_ｓｅｇ ^ｋ（＝ｓｃｏｒｅ_ｓｅｇ（ｋ））が取得され、取得されたセグメント評価値ｓｃｏｒｅ_ｓｅｇ ^ｋと閾値ｔｈ１とを比較し、ｓｃｏｒｅ_ｓｅｇ（ｋ）＞ｔｈ１である場合、０番目からｋ番目までの単語からなる文字列（単語列）ｓｅｎｔｅｎｃｅと、当該０番目からｋ番目までの単語からなる文字列（単語列）が発話されている時間範囲のデータ、すなわち、当該文字列の発話開始時刻ｔｉｍｅ_{ｓｔａｒｔ}と、当該文字列の発話終了時刻ｔｉｍｅ_ｅｎｄとが取得される様子を模式的に示している。

図５の中段の図に示すように、単語「Ｓｍｉｔｈ」が入力された時刻０．９ｓ（ｔｉｍｅ^１＝０．９ｓ）（時刻は、単語に付された時間情報（タイムスタンプ）から取得される）において、セグメント処理で取得されたセグメント評価値ｓｃｏｒｅ_ｓｅｇ ^ｋ（＝ｓｃｏｒｅ_ｓｅｇ（ｋ）、ｋ＝１）の値が「０．６５」となり、閾値ｔｈ１よりも大きな値となっている。なお、閾値ｔｈ１は、「０．６」に設定されているものとする。したがって、セグメント処理部２は、このとき、第１番目の単語「Ｓｍｉｔｈ」（時刻：０．９ｓ）の後にセグメントの区切り（文末）があると判定し、第０番目の単語「Ｉ’ｍ」（時刻：０．５ｓ）から第１番目の単語「Ｓｍｉｔｈ」（時刻：０．９ｓ）までの単語列を文章データ（セグメント化した単語列のデータ）Ｄｓ＿ｓｒｃとして取得する。

また、セグメント処理部２は、取得した上記文章データが発話された時間範囲を、第０番目の単語「Ｉ’ｍ」の時間情報（タイムスタンプ）から取得した「時刻：０．５ｓ」から第１番目の単語「Ｓｍｉｔｈ」（時刻：０．９ｓ）の次の単語（図５の中段図の場合、単語「ｎｉｃｅ」）の時間情報（タイムスタンプ）から取得した「時刻：１．１ｓ」までの期間とする。つまり、セグメント処理部２は、
ｔｉｍｅ_{ｓｔａｒｔ}＝０．５ｓ（第０番目の単語の時間情報）
ｔｉｍｅ_ｅｎｄ＝１．１ｓ（第１番目の単語の次の単語（第２番目の単語）の時間情報）
として、当該情報を含むデータを、時間範囲のデータＤ＿ｔ＿ｒｎｇとして取得する。

そして、セグメント処理部２は、上記により取得したデータＤｓ＿ｓｒｃを機械翻訳処理部４に出力するとともに、上記により取得したデータＤ＿ｔ＿ｒｎｇを話者予測処理部３に出力する。

そして、セグメント処理部２は、セグメントの区切りであると判定した次の単語（図５の場合、時刻：１．１ｓの「ｎｉｃｅ」）からの単語列に対して、上記と同様の処理を行う（時刻：１．１ｓの単語「ｎｉｃｅ」をｋ＝０の単語として、セグメント処理を行う）ことで、セグメント処理を継続して実行することができる。

上記のようにしてセグメント処理で取得された文章データ（センテンスごとに区切られた単語列（１つの文を構成する単語列のデータ））を含むデータＤｓ＿ｓｒｃは、セグメント処理部２から機械翻訳処理部４に出力される。そして、上記のようにしてセグメント処理で取得された文章データ（センテンスごとに区切られた単語列（１つの文を構成する単語列のデータ））の発話期間の情報である時間範囲のデータＤ＿ｔ＿ｒｎｇは、セグメント処理部２から話者予測処理部３に出力される。

話者予測処理部３のビデオクリップ処理部３１は、ビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖ（ＡＶ同期がとれたビデオストリームのデータ）と、セグメント処理部２から出力されるデータＤ＿ｔ＿ｒｎｇとを入力する。ビデオクリップ処理部３１は、データＤ＿ｔ＿ｒｎｇに基づいて、データＤ＿ａｖに含まれるビデオストリームのデータに対してクリップ処理を行う。具体的には、ビデオクリップ処理部３１は、データＤ＿ｔ＿ｒｎｇから、期間（時間範囲）の情報を取得し、当該期間（時間範囲）の情報に相当する（当該期間（時間範囲）に取得された）ビデオストリームのデータを取得する。例えば、図５の場合であって、データＤｓ＿ｓｒｃが「Ｉ’ｍＳｍｉｔｈ」である場合、時間範囲のデータＤ＿ｔ＿ｒｎｇ＝（ｔｉｍｅ_{ｓｔａｒｔ}，ｔｉｍｅ_ｅｎｄ）＝（０．５ｓ，１．１ｓ）であるので、ビデオクリップ処理部３１は、時刻０．５ｓから時刻１．１ｓまでの期間のデータをデータＤ＿ａｖから取得し、取得したデータを、データＤ１＿ａｖとする。

そして、ビデオクリップ処理部３１は、取得したビデオストリームのデータＤ１＿ａｖを話者検出処理部３３に出力する。また、ビデオクリップ処理部３１は、取得したビデオストリームのデータＤ１＿ａｖのうちオーディオストリームのデータのみを抽出し、抽出したオーディオストリームのデータを、データＤ１＿ａとして、音声用エンコーダ３２に出力する。

音声用エンコーダ３２は、ビデオクリップ処理部３１から出力されるデータＤ１＿ａ（オーディオストリームのデータ）を入力し、当該データＤ＿ａに対してエンコード処理（オーディオストリームから、当該オーディオストリームに対応する埋込表現データを取得する処理）を実行し、入力されたデータＤ＿ａ（オーディオストリーム（音声ストリーム））に対応する埋込表現データを取得する。そして、音声用エンコーダ３２は、取得した埋込表現データを、データＤ＿ａ＿ｅｍｂとして、話者特定処理部３５に出力する。

話者検出処理部３３は、ビデオクリップ処理部３１から出力されるデータＤ１＿ａｖ（ビデオストリームのデータ）Ｄ１＿ａｖに対して、話者検出処理を実行し、入力されたデータＤ１＿ａｖにより形成される音声付き動画上で発話している人に相当する画像領域を検出し、検出した画像領域に基づいて、話者アイコンデータを取得する。なお、この話者検出処理は、例えば、下記文献Ｂに開示されている技術により実現できる。
（文献Ｂ）：Joseph Roth, Sourish Chaudhuri, Ondrej Klejch, Radhika Marvin, Andrew Gallagher, Liat Kaver, Sharadh Ramaswamy, Arkadiusz Stopczynski, Cordelia Schmid, Zhonghua Xi, and Caroline Pantofaru, "AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection" 2019.
例えば、図６に示す場合、話者検出処理部３３は、データＤ１＿ａｖにより形成される音声付き動画上で発話している人に相当する画像領域Ｒ１＿ｄｅｔ＿ｓｐｋ、Ｒ２＿ｄｅｔ＿ｓｐｋ、および、Ｒ３＿ｄｅｔ＿ｓｐｋを取得し、当該画像領域の縮小した画像を話者アイコンデータとして取得する。

そして、話者検出処理部３３は、取得した話者アイコンデータを含むデータを、データＤｏ＿ｆａｃｅ＿ｉｃｏｎとして、表示処理装置Ｄｅｖ２に出力する。

顔用エンコーダ３４は、話者検出処理部３３から出力されるデータＤ＿ｆａｃｅを入力し、当該データＤ＿ｆａｃｅに対してエンコード処理（顔に相当する画像領域を形成する画像データ（画像信号）から、当該画像データに対応する埋込表現データを取得する処理）を実行し、入力されたデータＤ＿ｆａｃｅに対応する埋込表現データを取得する。そして、顔用エンコーダ３４は、取得した埋込表現データを、データＤ＿ｆａｃｅ＿ｅｍｂとして、話者特定処理部３５に出力する。

話者特定処理部３５は、音声用エンコーダ３２から出力されるデータＤ＿ａ＿ｅｍｂ（音声データの埋込表現データ）と、顔用エンコーダ３４から出力されるデータＤ＿ｆａｃｅ＿ｅｍｂ（顔画像領域データの埋込表現データ）と、を入力する。

話者特定処理部３５は、データＤ＿ａ＿ｅｍｂ（音声データの埋込表現データ）、および、データＤ＿ｆａｃｅ＿ｅｍｂ（顔画像領域データの埋込表現データ）と、データ格納部ＤＢ１に格納されているデータとを参照することで話者特定処理を実行し、話者特定を行う。なお、データ格納部ＤＢ１には、話者ごとに、顔画像領域データの埋込表現データおよび音声データの埋込表現データが記憶さているものとし、当該データは、話者特定処理部３５により読み出される。なお、ＩＤ＝ｘの話者（これを「話者ｘ」という）の顔画像領域データの埋込表現データをｖ_ｆ ^ｘとし、ＩＤ＝ｘの話者の音声データの埋込表現データをｖ_ａ ^ｘと表記する。

具体的処理について、図７のフローチャートを参照しながら説明する。

（ステップＳ２１）：
ステップＳ２１において、ベストマッチングデータの探索処理が実行される。具体的には、以下の処理が実行される。

話者特定処理部３５は、下記数式に相当する処理を行うことで、データ格納部ＤＢ１に記憶されているデータの中からベストマッチングデータとなるＩＤを有する話者のＩＤ＝ｘ’を特定する。

ｃｏｓ（ｖ１，ｖ２）：ｖ１およびｖ２のコサイン類似度を取得する関数
（ステップＳ２２）：
ステップＳ２２において、話者特定処理部３５は、ベストマッチングデータとなるＩＤ＝ｘ’を有する話者の類似度スコアｓｃｏｒｅ_ｓｉｍ（ｘ’）を下記数式に相当する処理を行うことで、取得する。

ｃｏｓ（ｖ１，ｖ２）：ｖ１およびｖ２のコサイン類似度を取得する関数
（ステップＳ２３）：
ステップＳ２３において、話者特定処理部３５は、ＩＤ＝ｘ’を有する話者の類似度スコアｓｃｏｒｅ_ｓｉｍ（ｘ’）と所定の閾値ｔｈ２とを比較し、ｓｃｏｒｅ_ｓｉｍ（ｘ’）＞ｔｈ２である場合、処理をステップＳ２４に進め、一方、ｓｃｏｒｅ_ｓｉｍ（ｘ’）＞ｔｈ２ではない場合、処理をステップＳ２５に進める。

（ステップＳ２４）：
ステップＳ２４において、話者特定処理部３５は、処理対象のデータＤ１＿ａｖ（時間範囲でクリップしたビデオストリーム）により形成される音声付き動画で発話している人（話者）をＩＤ＝ｘ’を有する話者であると特定する。

（ステップＳ２５、ステップＳ２６）：
ステップＳ２５において、話者特定処理部３５は、処理対象のデータＤ１＿ａｖ（時間範囲でクリップしたビデオストリーム）により形成される音声付き動画で発話している人（話者）のデータは、データ格納部ＤＢ１に記憶されている話者のデータではないと判断する。

そして、ステップＳ２６において、話者特定処理部３５は、処理対象のデータＤ１＿ａｖ（時間範囲でクリップしたビデオストリーム）により形成される音声付き動画で発話している人（話者）は、新しい話者であると判断し、当該話者のＩＤを、データ格納部ＤＢ１に記憶されていない新しいＩＤに設定する（例えば、データ格納部ＤＢ１に記憶されている話者のＩＤが１≦ＩＤ≦Ｍである場合、当該話者のＩＤを「Ｍ＋１」に設定する）。そして、話者特定処理部３５は、当該ＩＤ（新しい話者のＩＤ）と、当該ＩＤの話者の顔画像領域データの埋込表現データおよび音声データの埋込表現データとを組みにして（当該ＩＤで紐付けたデータにして）、データ格納部ＤＢ１に記憶させる。

（ステップＳ２７）：
ステップＳ２７において、話者特定処理部３５は、特定した話者のタグデータ（例えば、話者を特定する文字列のデータ）を取得し、当該タグデータを、データＤｏ＿ｓｐｋ＿ｔａｇとして、表示処理装置Ｄｅｖ２に出力する。

ここで、表示処理装置Ｄｅｖ２により生成される表示データの具体例について、図８～図１０を用いて、説明する。

図８～図１０は、図３のビデオストリームを、同時通訳システム１０００により処理して取得された表示データを表示装置に表示させたときの画面を模式的に示す図である。図８～図１０において、領域Ｄｉｓｐ１が全体の表示領域であり、領域Ｄｉｓｐ１１が音声付き動画（同時通訳装置１００および表示処理装置Ｄｅｖ２に入力されたビデオストリームにより形成される音声付き動画）を表示する領域であり、領域Ｄｉｓｐ１２が機械翻訳処理部４により取得された翻訳結果データ（翻訳先言語（図８～図１０の場合、日本語）の単語列のデータ）を表示する領域である。また、図８～図１０において、領域Ｄｉｓｐ１３が同時通訳装置１００により取得された話者を特定するためのタグデータ（図８～図１０において、「ｓｐｋ０」、「ｓｐｋ１」と表示されているデータ）、話者アイコンデータ（話者の顔部分の画像からなるアイコンデータ）、および、翻訳結果データを表示する領域である。

≪図８の場合≫
図８は、男性が英語「Ｉ’ｍＳｍｉｔｈ」を発話したシーンであり、同時通訳装置１００のセグメント処理部２により、セグメント処理が実行され、データＤｓ＿ｓｒｃとして、英語の文章データ「Ｉ’ｍＳｍｉｔｈ」が取得され、当該文章データが翻訳処理部４に出力される。それと同時に、セグメント処理部２により、男性が英語「Ｉ’ｍＳｍｉｔｈ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇが取得され、当該データＤ＿ｔ＿ｒｎｇが話者予測処理部３に出力される。そして、話者予測処理部３により、発話した男性の顔領域が特定され、当該男性のアイコンデータが取得されるとともに、当該男性のタグデータ（図８では、「ｓｐｋ０」として示したデータ）が取得される。このとき、同時通訳装置１００では、以下の処理が実行される。すなわち、同時通訳装置１００の話者予測処理部３は、男性が英語「Ｉ’ｍＳｍｉｔｈ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇで示される時間範囲のビデオストリームに含まれる音声を取得し、当該音声の埋込表現データＤ＿ａ＿ｅｍｂを取得し、また、上記時間範囲のビデオストリームから発話している人の顔領域の画像データＤ＿ｆａｃｅを取得し、当該画像データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂを取得する。そして、話者予測処理部３は、取得した音声の埋込表現データＤ＿ａ＿ｅｍｂおよび顔画像領域データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂと、データ格納部ＤＢ１に記憶されているデータ（音声の埋込表現データおよび顔画像領域データの埋込表現データ）とベストマッチング処理を実行し、マッチングデータのスコアが所定の閾値を超えている場合、ベストマッチした話者ＩＤを有する話者が、「Ｉ’ｍＳｍｉｔｈ」を発話した話者（男性）と同一であると判定し、当該話者ＩＤのタグデータを表示処理装置Ｄｅｖ２に出力する。一方、マッチングデータのスコアが所定の閾値を超えていない場合、話者予測処理部３は、「Ｉ’ｍＳｍｉｔｈ」を発話した話者（男性）のデータは、データ格納部ＤＢ１には存在しないと判定し、当該話者に対して、新しいＩＤを設定し、さらに、当該話者のデータ（音声の埋込表現データおよび顔画像領域データの埋込表現データ）をデータ格納部ＤＢ１に記憶させる。

そして、上記により取得されたタグデータが話者予測処理部３から表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、領域Ｄｉｓｐ１３に表示される（図８の場合、タグデータ「ｓｐｋ０」と表示される）。

また、話者予測処理部３により取得されたアイコンデータ（男性の顔領域画像のアイコン）が表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、当該アイコンデータが領域Ｄｉｓｐ１３に表示される。

さらに、機械翻訳処理部４により取得された機械翻訳結果データＤｏ＿ＭＴが表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、当該機械翻訳結果データ（図８の場合、「私は、スミスです。」（翻訳先言語（日本語）の単語列））が領域Ｄｉｓｐ１３および領域Ｄｉｓｐ１２（字幕を表示する領域）に表示される。

≪図９の場合≫
図９は、男性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」を発話したシーンであり、同時通訳装置１００のセグメント処理部２により、セグメント処理が実行され、データＤｓ＿ｓｒｃとして、英語の文章データ「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」が取得され、当該文章データが翻訳処理部４に出力される（上記で説明したセグメント処理により、単語「ｙｏｕ」の後がセグメントの区切りであると判定される）。それと同時に、セグメント処理部２により、男性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇが取得され、当該データＤ＿ｔ＿ｒｎｇが話者予測処理部３に出力される。そして、話者予測処理部３により、発話した男性の顔領域が特定され、当該男性のアイコンデータが取得されるとともに、当該男性のタグデータ（図９では、「ｓｐｋ０」として示したデータ）が取得される。このとき、同時通訳装置１００では、以下の処理が実行される。すなわち、同時通訳装置１００の話者予測処理部３は、男性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇで示される時間範囲のビデオストリームに含まれる音声を取得し、当該音声の埋込表現データＤ＿ａ＿ｅｍｂを取得し、また、上記時間範囲のビデオストリームから発話している人の顔領域の画像データＤ＿ｆａｃｅを取得し、当該画像データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂを取得する。そして、話者予測処理部３は、取得した音声の埋込表現データＤ＿ａ＿ｅｍｂおよび顔画像領域データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂと、データ格納部ＤＢ１に記憶されているデータ（音声の埋込表現データおよび顔画像領域データの埋込表現データ）とベストマッチング処理を実行し、マッチングデータのスコアが所定の閾値を超えている場合、ベストマッチした話者ＩＤを有する話者が、「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」を発話した話者（男性）と同一であると判定し、当該話者ＩＤのタグデータを表示処理装置Ｄｅｖ２に出力する。図９の場合、上記話者のデータがデータ格納部ＤＢ１に記憶されているため、マッチングデータのスコアが所定の閾値を超え、その結果、話者予測処理部３は、「Ｎｉｃｅｔｏｍｅｅｔｙｏｕ」を発話した話者（男性）が、タグデータ「ｓｐｋ０」に相当する話者であると判定する。

そして、上記により取得されたタグデータが話者予測処理部３から表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、領域Ｄｉｓｐ１３に表示される（図９の場合、タグデータ「ｓｐｋ０」と表示される）。

さらに、機械翻訳処理部４により取得された機械翻訳結果データＤｏ＿ＭＴが表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、当該機械翻訳結果データ（図９の場合、「はじめまして。」（翻訳先言語（日本語）の単語列））が領域Ｄｉｓｐ１３および領域Ｄｉｓｐ１２（字幕を表示する領域）に表示される。

≪図１０の場合≫
図１０は、女性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」を発話したシーンであり、同時通訳装置１００のセグメント処理部２により、セグメント処理が実行され、データＤｓ＿ｓｒｃとして、英語の文章データ「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」が取得され、当該文章データが翻訳処理部４に出力される。それと同時に、セグメント処理部２により、女性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇが取得され、当該データＤ＿ｔ＿ｒｎｇが話者予測処理部３に出力される。そして、話者予測処理部３により、発話した女性の顔領域が特定され、当該女性のアイコンデータが取得されるとともに、当該女性のタグデータ（図１０では、「ｓｐｋ１」として示したデータ）が取得される。このとき、同時通訳装置１００では、以下の処理が実行される。すなわち、同時通訳装置１００の話者予測処理部３は、女性が英語「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」を発話した時間範囲のデータＤ＿ｔ＿ｒｎｇで示される時間範囲のビデオストリームに含まれる音声を取得し、当該音声の埋込表現データＤ＿ａ＿ｅｍｂを取得し、また、上記時間範囲のビデオストリームから発話している人の顔領域の画像データＤ＿ｆａｃｅを取得し、当該画像データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂを取得する。そして、話者予測処理部３は、取得した音声の埋込表現データＤ＿ａ＿ｅｍｂおよび顔画像領域データの埋込表現データＤ＿ｆａｃｅ＿ｅｍｂと、データ格納部ＤＢ１に記憶されているデータ（音声の埋込表現データおよび顔画像領域データの埋込表現データ）とベストマッチング処理を実行し、マッチングデータのスコアが所定の閾値を超えている場合、ベストマッチした話者ＩＤを有する話者が、「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」を発話した話者（女性）と同一であると判定し、当該話者ＩＤのタグデータを表示処理装置Ｄｅｖ２に出力する。一方、マッチングデータのスコアが所定の閾値を超えていない場合、話者予測処理部３は、「Ｎｉｃｅｔｏｍｅｅｔｙｏｕｔｏｏ，Ｍｒ．Ｓｍｉｔｈ」を発話した話者（女性）のデータは、データ格納部ＤＢ１には存在しないと判定し、当該話者に対して、新しいＩＤを設定し、さらに、当該話者のデータ（音声の埋込表現データおよび顔画像領域データの埋込表現データ）をデータ格納部ＤＢ１に記憶させる。

そして、上記により取得されたタグデータが話者予測処理部３から表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、領域Ｄｉｓｐ１３に表示される（図１０の場合、タグデータ「ｓｐｋ１」と表示される）。

また、話者予測処理部３により取得されたアイコンデータ（女性の顔領域画像のアイコン）が表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、当該アイコンデータが領域Ｄｉｓｐ１３に表示される。

さらに、機械翻訳処理部４により取得された機械翻訳結果データＤｏ＿ＭＴが表示処理装置Ｄｅｖ２に出力され、表示処理装置Ｄｅｖ２により、当該機械翻訳結果データ（図１０の場合、「はじめまして、スミスさん。」（翻訳先言語（日本語）の単語列））が領域Ｄｉｓｐ１３および領域Ｄｉｓｐ１２（字幕を表示する領域）に表示される。

このように、同時通訳システム１０００では、話者を特定するタグデータ、アイコンデータとともに、当該話者が発話した原言語の機械翻訳結果を領域Ｄｉｓｐ１３に表示させることができるので、ユーザは、「誰が何を言ったのか」を容易に認識することができる。

また、同時通訳システム１０００では、同時通訳装置１００のセグメント処理部２により、高速、高精度なセグメント処理を実行し、文章データを取得するとともに、当該文章データに含まれる単語列が発話された時間範囲のデータを取得できるので、リアルタイムで、機械翻訳処理、および、話者特定処理を行うことが可能となる。つまり、同時通訳システム１０００では、高速、高精度なセグメント処理により取得された文章データに対して、機械翻訳処理部４で機械翻訳処理を実行するのと並行して、入力されたビデオストリームに対して、時間範囲でクリップしたデータ（ストリーム）を用いて話者予測処理部３により話者特定処理を実行するので、リアルタイム処理（所定の遅延時間に収まることを保証する処理）で、機械翻訳処理、および、話者特定処理を行うことが可能となる。

［他の実施形態］
上記実施形態で説明した同時通訳システムの各機能部は、１つの装置（システム）により実現されてもよいし、複数の装置により実現されてもよい。

また、上記実施形態において、同時通訳装置１００の音声認識処理部１にビデオストリーム取得処理装置Ｄｅｖ１から出力されるデータＤ＿ａｖ（ビデオストリーム（ＡＶ同期がとれたビデオストリーム）のデータ）が入力され、音声認識処理部１が、データＤ＿ａｖから音声データ（音声信号）を抽出し、抽出した音声データ（音声信号）に対して、音声認識処理を実行する場合について説明したが、これに限定されることはない。例えば、同時通訳装置１００の音声認識処理部１に、時間情報が付与された音声データ（音声信号）が入力され、音声認識処理部１が、当該音声データに対して音声認識処理を実行し、上記音声データ（音声信号）に対応する単語列（ワードストリーム）と当該単語列に含まれる各単語が発話された時間情報とを取得するようにしてもよい。つまり、同時通訳装置１００に入力されるデータＤ＿ａｖ（ビデオストリーム（ＡＶ同期がとれたビデオストリーム）のデータ）（時間情報、映像信号、および、音声信号を含むデータ（信号））から、音声信号および時間情報を抽出する処理を音声認識処理部１が実行するのではなく、例えば、ビデオストリーム取得処理装置Ｄｅｖ１から、時間情報が付与された音声信号が同時通訳装置１００の音声認識処理部１に入力するようにしてもよい。なお、この場合においても、同時通訳装置１００の話者予測処理部３には、データＤ＿ａｖ（ビデオストリーム（ＡＶ同期がとれたビデオストリーム）のデータ）（時間情報、映像信号、および、音声信号を含むデータ（信号））が入力される。

また、上記実施形態において、入力言語が英語である場合について説明したが、入力言語は英語に限定されることはなく、他の言語であってもよい。つまり、上記実施形態の同時通訳システムにおいて、翻訳元言語および翻訳先言語は、任意の言語であってよい。

また、上記実施形態において、話者特定処理部３５において、コサイン類似度を用いて、（数式３）に相当する処理を実行することで、データ格納部ＤＢ１に記憶されているデータの中からベストマッチングデータとなるＩＤを有する話者のＩＤ＝ｘ’を特定する場合について説明したが、これに限定されることはない。例えば、話者特定処理部３５は、距離情報（例えば、ユークリッド距離）を用いて、｛ｄ（ｖ_ｆ、ｖ_ｆ ^ｘ）＋ｄ（ｖ_ｆ、ｖ_ｆ ^ｘ）｝を最小にするｘをｘ’として求め、データ格納部ＤＢ１に記憶されているデータの中からベストマッチングデータとなるＩＤを有する話者のＩＤ＝ｘ’を特定するようにしてもよい。なお、ｄ（ｖ１，ｖ２）は、データｖ１、ｖ２間の距離情報（例えば、ユークリッド距離）を取得する関数である。

また上記実施形態で説明した同時通訳システム１０００において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図１１に示したハードウェア構成（例えばＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図１１に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１０００同時通訳システム
１００同時通訳装置
１音声認識処理部
２セグメント処理部
３話者予測処理部
３１ビデオクリップ処理部
３２音声用エンコーダ
３３話者検出処理部
３４顔用エンコーダ
３５話者特定処理部
ＤＢ１データ格納部
４機械翻訳処理部
Ｄｅｖ２表示処理装置

Claims

時間情報、音声信号および映像信号を含むビデオストリームに対して音声認識処理を行うことで、前記音声信号に対応する単語列のデータであって、当該単語列の各単語が発せられた時間情報を含むデータである単語列データを取得する音声認識処理部と、
前記単語列データに対してセグメント処理を行うことで、セグメント化された単語列データである文章データを取得するとともに、当該文章データに含まれる単語列が発せられた時間範囲を特定する時間範囲データを取得するセグメント処理部と、
前記ビデオストリームおよび前記時間範囲データに基づいて、前記時間範囲データで特定される期間において発話した話者を予測する話者予測処理部と、
前記文章データに対して機械翻訳処理を実行することで、前記文章データに対応する機械翻訳処理結果データを取得する機械翻訳処理部と、
を備える同時通訳装置。
前記話者予測処理部は、
前記ビデオストリームのうち、前記時間範囲データで特定される期間のデータであるクリップビデオストリームを取得するビデオクリップ処理部と、
前記クリップビデオストリームにより形成されるフレーム画像から、話者の顔画像領域を抽出する話者検出処理部と、
前記クリップビデオストリームに含まれる音声信号に対して、音声用エンコード処理を行うことで、前記音声信号に対応する埋込表現データである音声用埋込表現データを取得する音声用エンコーダと、
前記話者の顔画像領域を形成する画像データに対して、顔用エンコード処理を行うことで、前記話者の顔画像領域に対応する埋込表現データである顔用埋込表現データを取得する顔用エンコーダと、
前記音声用埋込表現データおよび前記顔用埋込表現データに基づいて、前記クリップビデオストリームに含まれる音声信号で再現される音声を発話した話者を特定する話者特定処理部と、
を備える請求項１に記載の同時通訳装置。
話者を特定する話者識別子とともに、前記話者識別子に紐付けされた前記音声用埋込表現データおよび前記顔用埋込表現データを記憶するデータ格納部をさらに備え、
前記話者特定処理部は、
前記音声用エンコーダにより取得された前記音声用埋込表現データ、および、前記顔用エンコーダにより取得された前記顔用埋込表現データと、前記データ格納部に記憶されている前記音声用埋込表現データおよび前記顔用埋込表現データとに対してベストマッチング処理を行い、ベストマッチング処理における両データの類似度合いを示す類似スコアが所定の値よりも高い場合、前記ベストマッチング処理でマッチング処理対象とした前記データ格納部に記憶されている前記音声用埋込表現データおよび前記顔用埋込表現データに対応する話者識別子で特定される話者が、前記クリップビデオストリームに含まれる音声信号で再現される音声を発話した話者であると特定する、
請求項２に記載の同時通訳装置。
請求項１から３のいずれかに記載の同時通訳装置と、
前記同時通訳装置により取得された、前記ビデオストリームに含まれる音声信号で再現される音声を発話した話者を特定するためのデータである話者特定データと、前記同時通訳装置の前記機械翻訳処理部により取得された、前記文章データに対応する前記機械翻訳処理結果データとを入力し、前記話者特定データと、前記機械翻訳処理結果データとを表示装置に表示される画面の所定の画像領域に表示させる表示データを生成する表示処理装置と、
を備える同時通訳システム。
時間情報、音声信号および映像信号を含むビデオストリームに対して音声認識処理を行うことで、前記音声信号に対応する単語列のデータであって、当該単語列の各単語が発せられた時間情報を含むデータである単語列データを取得する音声認識処理ステップと、
前記単語列データに対してセグメント処理を行うことで、セグメント化された単語列データである文章データを取得するとともに、当該文章データに含まれる単語列が発せられた時間範囲を特定する時間範囲データを取得するセグメント処理ステップと、
前記ビデオストリームおよび前記時間範囲データに基づいて、前記時間範囲データで特定される期間において発話した話者を予測する話者予測処理ステップと、
前記文章データに対して機械翻訳処理を実行することで、前記文章データに対応する機械翻訳処理結果データを取得する機械翻訳処理ステップと、
を備える同時通訳処理方法。
請求項５に記載の同時通訳処理方法をコンピュータに実行させるためのプログラム。