WO2023171124A1

WO2023171124A1 - 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Info

Publication number: WO2023171124A1
Application number: PCT/JP2023/000764
Authority: WO
Inventors: 佑介三澤
Original assignee: ソニーグループ株式会社
Priority date: 2022-03-07
Filing date: 2023-01-13
Publication date: 2023-09-14

Abstract

【課題】特定のユーザの発話した発話音声を抽出する。【解決手段】情報処理装置は、ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、を具備する。

Description

情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

　本開示は、ユーザの発話した発話音声を抽出する情報処理装置、情報処理方法、情報処理プログラム及び情報処理システムに関する。

　ユーザがマイクロフォンに向かって発話した発話音声を抽出する技術が知られている。

特開２０１４－１７４２５５号公報

　機械学習型の音声抽出技術は、多種多様な音声サンプルを学習することでノイズを含む信号から参考信号を利用せずに人の音声のみを抽出することを図る。一方、マイクロフォンの入力信号が複数人の音声を含む場合、その中から特定の話者の音声信号のみを抽出することは困難である。

　オンライン会議等が普及する現在、マイクロフォンに向かって発話する特定のユーザの発話音声を高精度に抽出することが要求される。

　以上のような事情に鑑み、本開示の目的は、特定のユーザの発話した発話音声を抽出することにある。

　本開示の一形態に係る情報処理装置は、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を具備する。

　本実施形態によれば、補正信号に基づき第１の音声抽出信号を後処理するので、第１の音声抽出信号を最終的な出力とすると仮定した場合に比べて、発話音声信号の精度が向上する。

　前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部を含み、
　前記後処理部は、前記第２の音声抽出信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。

　第２の音声抽出信号の基になる振動信号は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号を生成できる。

　前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
　前記後処理部は、前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。

　マスキング信号の基になる振動信号は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号を生成できる。

　前記補正信号生成部は、
　　前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部と、
　　前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
　前記後処理部は、前記第２の音声抽出信号及び前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。

　本実施形態によれば、第２の音声抽出信号及びマスキング信号に基づき第１の音声抽出信号を後処理するので、いずれか一方に基づき第１の音声抽出信号を後処理する場合に比べて、発話音声信号の精度が向上する。

　前記第１の音声抽出処理部は、音声信号を教師データとして第１の音声抽出信号を出力するように学習した第１の学習モデルに、前記音声信号を入力することにより、前記第１の音声抽出信号を生成してもよい。

　前記第２の音声抽出処理部は、音声信号及び振動信号を教師データとして第２の音声抽出信号を出力するように学習した第２の学習モデルに、前記振動信号を入力することにより、前記第２の音声抽出信号を生成してもよい。

　前記発話検出部は、前記マスキング信号として包絡線情報を生成してもよい。

　包絡線情報は、発話音声の有無及び強度を示す。包絡線情報は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高いマスキング信号を生成できる。

　前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器でもよい。

　ユーザが発話するのと連動して振動するユーザの部位は、例えば、器官、人工声帯、典型的には、声帯である。

　前記後処理部は、
　　前記発話音声信号を出力する、又は
　　前記音声信号から前記発話音声信号を除去して生成した除去信号を出力してもよい。

　発話音声信号は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形と一致することが望ましい。ターゲットのユーザの発話した発話音声のみを出力してもよいし、逆に、背景音を出力してもよい。

　前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成されてもよい。

　振動信号処理部は、情報処理装置と別個でもよいし、情報処理装置に含まれてもよい。

　前記振動入力デバイスは、
　　前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
　　前記部位にレーザを照射して前記部位の振動を検出してもよい。

　人体に装着するデバイスは、例えば、ネックバンド型デバイス（ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等）、アパレル（ハイネックティーシャツ等）、皮膚に貼り付けるシール（パッチ）、チョーカ、リボン、ネックレス等の形態でよい。あるいは、振動入力デバイスは、振動を間接的に検出してもよい。

　前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成されてもよい。

　音声信号処理部は、情報処理装置と別個でもよいし、情報処理装置に含まれてもよい。

　本開示の一形態に係る情報処理方法は、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成し、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する。

　本開示の一形態に係る情報処理プログラムは、
　情報処理装置を、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
　として動作させる。

　本開示の一形態に係る情報処理システムは、
　ユーザの発話した発話音声を入力する音声入力デバイスと、
　ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
　　前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　　前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を有する情報処理装置と、
　を具備する。

本開示の一実施形態に係る情報処理システムの構成を示す。ネックバンド型デバイスの一例を示す。ネックバンド型デバイスの装着時の様子を示す。情報処理システムの動作フローを示す。各信号波形を示す。

　以下、図面を参照しながら、本開示の実施形態を説明する。

　１．情報処理システムの構成

　図１は、本開示の一実施形態に係る情報処理システムの構成を示す。

　情報処理システム１は、背景音や他のユーザの発話音声を含むノイズを除去して特定の１人のユーザがマイクロフォンに向かって発話した発話音声だけを抽出する。情報処理システム１のユースケースの一例として、オンライン会議システムにおいて、ユーザの発話音声をだけを抽出し、オンライン会議の相手のスピーカデバイスに出力するケースが挙げられる。ユースケースの別の例として、ＩＣレコーダ等の録音機において、ユーザの発話音声をだけを抽出し、録音するケースが挙げられる。ユースケースの別の例として、明瞭に発話することが困難なユーザ（ハンディキャップのあるユーザ、高齢者等）の発話音声をだけを抽出し、明瞭な人工音声で出力する発話補助デバイスが挙げられる。発話補助デバイスは集音機（ヒアリング補助デバイス）と一体的に構成されたデバイスでもよい。

　情報処理システム１は、前処理装置５０と、情報処理装置１０と、音声入力デバイス２０と、振動入力デバイス３０と、を有する。

　音声入力デバイス２０は、ユーザの発話した発話音声を入力する。音声入力デバイス２０は、マイクロフォンを含む。音声入力デバイス２０は、例えば、ネックバンド型デバイス（ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等）の様に人体に装着するデバイスに内蔵されてもよい。音声入力デバイス２０は、スマートフォン、タブレットコンピュータ、パーソナルコンピュータ、ヘッドマウントディスプレイ、ウェアラブルデバイス等に内蔵のマイクロフォンや、これらのデバイスに有線又は無線で接続されるマイクロフォンでもよい。

　振動入力デバイス３０は、ユーザが発話するのと連動して振動するユーザの部位の振動を入力する。ユーザが発話するのと連動して振動するユーザの部位は、例えば、喉頭に位置する又は喉頭の周辺に位置する人体の部位（例えば、器官）、人工器官（人工声帯等）又は医療機器である。典型的には、ユーザの部位は、声帯である。振動入力デバイス３０は、部位の振動を直接検出するセンサ（振動センサ、加速度センサ、角速度センサ等）であり、人体に装着するデバイスに内蔵される。人体に装着するデバイスは、例えば、ネックバンド型デバイス（ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等）、アパレル（ハイネックティーシャツ等）、皮膚に貼り付けるシール（パッチ）、チョーカ、リボン、ネックレス等の形態でよい。あるいは、振動入力デバイス３０は、振動を間接的に検出してもよく、例えば、部位にレーザを照射して部位の振動を検出してもよい。

　図２は、ネックバンド型デバイスの一例を示す。図３は、ネックバンド型デバイスの装着時の様子を示す。

　一例として、音声入力デバイス２０及び振動入力デバイス３０は、ネックバンド型デバイス４０に内蔵されてもよい。この場合、音声入力デバイス２０と振動入力デバイス３０とは有線で接続されてもよいし（図２）、無線で接続されてもよい。本図で、振動入力デバイス３０は、ユーザが発話するのと連動して振動するユーザの部位として、喉頭に位置する声帯や、喉頭付近の人体の部位（皮膚、筋肉、骨等）の振動を直接的又は間接的に検出する。

　ネックバンド型デバイス４０は、本実施形態に係る機能（後述）をＯｎ・Ｏｆｆするボタン４１等のＵＩを有してもよい。なお、機能をＯｆｆとは、音声入力デバイス２０に入力された音声を未処理で出力するモードを意味する。ネックバンド型デバイス４０と接続されるスマートフォンやパーソナルコンピュータ（不図示）を用いて、機能のＯｎ・Ｏｆｆや、Ｏｎ・Ｏｆｆの状態の確認が可能でもよい。

　前処理装置５０は、例えば、スマートフォン、タブレットコンピュータ、パーソナルコンピュータ、ヘッドマウントディスプレイ、ウェアラブルデバイス等により実現される。音声入力デバイス２０及び振動入力デバイス３０がネックバンド型デバイス４０に内蔵される場合、前処理装置５０は、ネックバンド型デバイス４０に内蔵されてもよい。

　前処理装置５０は、音声信号処理部５０１及び振動信号処理部５０２を含む。音声信号処理部５０１は、音声入力デバイス２０に入力される発話音声を処理して音声信号を生成する。振動信号処理部５０２は、振動入力デバイス３０に入力される振動を処理して振動信号を生成する。前処理装置５０は、音声信号及び振動信号を同期して情報処理装置１０に供給する。典型的には、前処理装置５０は、音声信号及び振動信号を、ネットワークを介して情報処理装置１０に供給する。なお、前処理装置５０は、情報処理装置１０と別個ではなく、情報処理装置１０に含まれてもよい。

　情報処理装置１０は、典型的には、前処理装置５０とネットワークを介して接続されるサーバ装置である。情報処理装置１０は、ＣＰＵがＲＯＭに記録された情報処理プログラムをＲＡＭにロードして実行することにより、第１の音声抽出処理部１０１、補正信号生成部１０２及び後処理部１０７として動作する。補正信号生成部１０２は、第２の音声抽出処理部１０５及び発話検出部１０３を含む。

　２．情報処理システムの動作フロー

　図４は、情報処理システムの動作フローを示す。図５は、各信号波形を示す。

　ユーザは、音声入力デバイス２０に向かって発話する。音声信号処理部５０１は、ユーザの発話した発話音声を入力する音声入力デバイス２０に入力される音声を処理（ハイパスフィルタ、ローパスフィルタ等）して音声信号２０２を生成する（ステップＳ１０１）。音声信号２０２は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形２０１に加えて、背景音や他のユーザの発話音声を含むノイズを含む。図５において、横軸は時間、縦軸は強度を示す。

　振動信号処理部５０２は、ユーザが発話するのと連動して振動するユーザの部位（声帯等）振動入力デバイス３０に入力される振動を処理（ハイパスフィルタ、ローパスフィルタ等）して振動信号２０３を生成する（ステップＳ１０２）。

　第１の音声抽出処理部１０１は、ユーザの発話した発話音声を含む音声信号２０２から、発話音声の成分を抽出することにより第１の音声抽出信号２０４を生成する（ステップＳ１０３）。具体的には、第１の音声抽出処理部１０１は、第１の学習モデル１０４に音声信号２０２を入力することにより、第１の音声抽出信号２０４を生成する。第１の学習モデル１０４は、多数の音声信号を教師データとして音声抽出信号（第１の音声抽出信号に相当）を出力するように学習した機械学習モデルである。

　補正信号生成部１０２において、発話検出部１０３は、振動信号２０３からマスキング信号２０５（補正信号の一例）を生成する（ステップＳ１０４）。マスキング信号２０５は、発話音声の有無及び強度を示す。図５のマスキング信号２０５では、横軸方向に空白が連続する部分の時間は、発話音声が無いことを意味する。発話検出部１０３は、マスキング信号２０５として包絡線情報を生成する。振動信号２０３は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高いマスキング信号２０５を生成できる。

　補正信号生成部１０２において、第２の音声抽出処理部１０５は、振動信号２０３から、発話音声の成分を抽出することにより第２の音声抽出信号２０６（補正信号の一例）を生成する（ステップＳ１０５）。具体的には、第２の音声抽出処理部１０５は、第２の学習モデル１０６に振動信号２０３を入力することにより、第２の音声抽出信号２０６を生成する。第２の学習モデル１０６は、多数の音声信号及び振動信号の両方を教師データとして音声抽出信号（第２の音声抽出信号に相当）を出力するように学習した機械学習モデルである。振動信号２０３は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い第２の音声抽出信号２０６を生成できる。

　後処理部１０７は、第２の音声抽出信号２０６及びマスキング信号２０５に基づき第１の音声抽出信号２０４を後処理することにより、発話音声信号２０７を生成する。生成された発話音声信号２０７は、オンライン会議に参加している他の参加者が使用する情報処理装置１０に送信され、再生される。後処理の一例として、特徴関連付け処理が挙げられる。例えば、後処理部１０７は、第１の音声抽出信号２０４に第２の音声抽出信号２０６を関連付け、マスキング信号２０５でマスクした結果を発話音声信号２０７として生成してもよい。発話音声信号２０７は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形２０１と一致することが望ましい。第２の音声抽出信号２０６及びマスキング信号２０５の基になる振動信号２０３は、単に振動の有無があるか（発話の有無があるか）を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号２０７を生成できる。後処理部１０７は、発話音声信号２０７を出力する（ステップＳ１０６）。逆に、後処理部１０７は、音声信号２０２から発話音声信号２０７を除去して生成した除去信号（背景音等）を出力してもよい。

　変形例として、補正信号生成部１０２は、第２の音声抽出処理部１０５又は発話検出部１０３の少なくとも何れか一方を有すればよい。この場合、後処理部１０７は、第２の音声抽出信号２０６又はマスキング信号２０５の少なくとも何れか一方に基づき第１の音声抽出信号２０４を後処理することにより、発話音声信号２０７を生成すればよい。また、何らかの理由により第２の音声抽出処理部１０５又は発話検出部１０３が第２の音声抽出信号２０６又はマスキング信号２０５を生成できない場合も、後処理部１０７は、第２の音声抽出信号２０６又はマスキング信号２０５の少なくとも何れか一方に基づき第１の音声抽出信号２０４を後処理することにより、発話音声信号２０７を生成すればよい。この方法でも、第２の音声抽出信号２０６又はマスキング信号２０５の少なくとも何れか一方に基づき第１の音声抽出信号２０４を後処理するので、第１の音声抽出信号２０４を最終的な出力とすると仮定した場合に比べて、発話音声信号２０７の精度が向上する。

　３．結語

　典型的に、機械学習型の音声抽出技術は、多種多様な音声サンプルを学習することでノイズを含む信号から参考信号を利用せずに人の音声のみを抽出することを図る。一方、マイクロフォンの入力信号が複数人の音声を含む場合、その中から特定の話者の音声信号のみを抽出することは困難である。

　これに対して、本実施形態によれば、背景音や他のユーザの発話音声を含むノイズがある状況下でも、ユーザの音声のみを正確に抽出し、送信や録音することが可能である。また、小声での抽出精度も改善できるため、オンライン会議など場所を選ばずに実施することが可能である。

　本開示は、以下の各構成を有してもよい。

　（１）
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を具備する情報処理装置。
　（２）
　上記（１）に記載の情報処理装置であって、
　前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部を含み、
　前記後処理部は、前記第２の音声抽出信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　（３）
　上記（１）に記載の情報処理装置であって、
　前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
　前記後処理部は、前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　（４）
　上記（１）に記載の情報処理装置であって、
　前記補正信号生成部は、
　　前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部と、
　　前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
　前記後処理部は、前記第２の音声抽出信号及び前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　（５）
　上記（１）乃至（４）のいずれか一項に記載の情報処理装置であって、
　前記第１の音声抽出処理部は、音声信号を教師データとして第１の音声抽出信号を出力するように学習した第１の学習モデルに、前記音声信号を入力することにより、前記第１の音声抽出信号を生成する
　情報処理装置。
　（６）
　上記（２）又は（４）に記載の情報処理装置であって、
　前記第２の音声抽出処理部は、音声信号及び振動信号を教師データとして第２の音声抽出信号を出力するように学習した第２の学習モデルに、前記振動信号を入力することにより、前記第２の音声抽出信号を生成する
　情報処理装置。
　（７）
　上記（３）又は（４）に記載の情報処理装置であって、
　前記発話検出部は、前記マスキング信号として包絡線情報を生成する
　情報処理装置。
　（８）
　上記（１）乃至（７）のいずれか一項に記載の情報処理装置であって、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器である
　情報処理装置。
　（９）
　上記（１）乃至（８）のいずれか一項に記載の情報処理装置であって、
　前記後処理部は、
　　前記発話音声信号を出力する、又は
　　前記音声信号から前記発話音声信号を除去して生成した除去信号を出力する
　情報処理装置。
　（１０）
　上記（１）乃至（９）のいずれか一項に記載の情報処理装置であって、
　前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成される
　情報処理装置。
　（１１）
　上記（１０）に記載の情報処理装置であって、
　前記振動入力デバイスは、
　　前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
　　前記部位にレーザを照射して前記部位の振動を検出する
　情報処理装置。
　（１２）
　上記（１）乃至（１１）のいずれか一項に記載の情報処理装置であって、
　前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成される
　情報処理装置。
　（１３）
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成し、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する
　情報処理方法。
　（１４）
　情報処理装置を、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
　として動作させる情報処理プログラム。
　（１５）
　ユーザの発話した発話音声を入力する音声入力デバイスと、
　ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
　　前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　　前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を有する情報処理装置と、
　を具備する情報処理システム。
　（１６）
　情報処理装置を、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
　として動作させる情報処理プログラム
　を記録した非一過性のコンピュータ読み取り可能な記録媒体。

　本技術の各実施形態及び各変形例について上に説明したが、本技術は上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

１　情報処理システム
１０　情報処理装置
１０１　第１の音声抽出処理部
１０２　補正信号生成部
１０３　発話検出部
１０４　第１の学習モデル
１０５　第２の音声抽出処理部
１０６　第２の学習モデル
１０７　後処理部
２０　音声入力デバイス
２０１　発話音声波形
２０２　音声信号
２０３　振動信号
２０４　第１の音声抽出信号
２０５　マスキング信号
２０６　第２の音声抽出信号
２０７　発話音声信号
３０　振動入力デバイス
４０　ネックバンド型デバイス
４１　ボタン
５０　前処理装置
５０１　音声信号処理部
５０２　振動信号処理部

Claims

　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部を含み、
　前記後処理部は、前記第２の音声抽出信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
　前記後処理部は、前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記補正信号生成部は、
　　前記振動信号から、前記発話音声の成分を抽出することにより第２の音声抽出信号を生成する第２の音声抽出処理部と、
　　前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
　前記後処理部は、前記第２の音声抽出信号及び前記マスキング信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声信号を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の音声抽出処理部は、音声信号を教師データとして第１の音声抽出信号を出力するように学習した第１の学習モデルに、前記音声信号を入力することにより、前記第１の音声抽出信号を生成する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記第２の音声抽出処理部は、音声信号及び振動信号を教師データとして第２の音声抽出信号を出力するように学習した第２の学習モデルに、前記振動信号を入力することにより、前記第２の音声抽出信号を生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記発話検出部は、前記マスキング信号として包絡線情報を生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器である
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記後処理部は、
　　前記発話音声信号を出力する、又は
　　前記音声信号から前記発話音声信号を除去して生成した除去信号を出力する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成される
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記振動入力デバイスは、
　　前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
　　前記部位にレーザを照射して前記部位の振動を検出する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成される
　情報処理装置。
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成し、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する
　情報処理方法。
　情報処理装置を、
　ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
　として動作させる情報処理プログラム。
　ユーザの発話した発話音声を入力する音声入力デバイスと、
　ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
　　前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第１の音声抽出信号を生成する第１の音声抽出処理部と、
　　前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
　　前記補正信号に基づき前記第１の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
　を有する情報処理装置と、
　を具備する情報処理システム。