JP2014109770A - Speech processing unit, speech recognition system, speech processing method, and speech processing program - Google Patents
Speech processing unit, speech recognition system, speech processing method, and speech processing program Download PDFInfo
- Publication number
- JP2014109770A JP2014109770A JP2012265707A JP2012265707A JP2014109770A JP 2014109770 A JP2014109770 A JP 2014109770A JP 2012265707 A JP2012265707 A JP 2012265707A JP 2012265707 A JP2012265707 A JP 2012265707A JP 2014109770 A JP2014109770 A JP 2014109770A
- Authority
- JP
- Japan
- Prior art keywords
- period
- behavior
- speaker
- input signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声処理装置、音声認識システム、音声処理方法及び音声処理プログラムに関する。 The present invention relates to a voice processing device, a voice recognition system, a voice processing method, and a voice processing program.
入力として取得した発話者(以降では、単に「話者」と呼ぶ)の発した音声を解析して、操作内容や入力文字を判断する技術として、音声認識技術が広く用いられている。 A speech recognition technique is widely used as a technique for determining the operation content and input characters by analyzing a voice uttered by a speaker (hereinafter simply referred to as “speaker”) acquired as an input.
このような音声認識技術では、話者が発した音声を正しく認識する必要があるが、これを阻害する要因として音声以外の雑音のようなノイズが挙げられる。特許文献1には、このようなノイズを除去するための技術の一例が開示されている。 In such voice recognition technology, it is necessary to correctly recognize the voice uttered by the speaker, but noise such as noise other than voice can be cited as a factor that hinders this. Patent Document 1 discloses an example of a technique for removing such noise.
一方で、話者により発せられ所定のマイクで集音される音声は、話者ごとに独特の揺らぎを持っている。これに対して、雑音のようなノイズは、話者の動作に影響されない。即ち、この揺らぎの位相に応じて音声信号に対するノイズの影響の大きさが変化する場合がある。一方で、話者ごとの揺らぎの影響は、例えば、口の動きのような発話の動作や、頭や身体の動き、表情の変化等のような話者の動作のリズムにも表れている。 On the other hand, the sound emitted by a speaker and collected by a predetermined microphone has a unique fluctuation for each speaker. On the other hand, noise such as noise is not affected by the operation of the speaker. That is, the magnitude of the influence of noise on the audio signal may change according to the phase of the fluctuation. On the other hand, the influence of fluctuation for each speaker is also reflected in the rhythm of the movement of the speaker, such as the movement of the utterance such as the movement of the mouth, the movement of the head and body, the change of the facial expression, and the like.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、話者の動作に基づいて、音声の揺らぎに応じて変化する、音声信号へのノイズの影響を低減し、より鮮明に音声を抽出することが可能な、新規かつ改良された音声処理装置を提供することにある。 Accordingly, the present invention has been made in view of the above problems, and an object of the present invention is to influence the influence of noise on a voice signal that changes according to the fluctuation of the voice based on the operation of the speaker. It is an object of the present invention to provide a new and improved speech processing apparatus that can reduce speech and extract speech more clearly.
上記課題を解決するために、本発明のある観点によれば、話者の振舞いの周期を検出する検出部と、検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定部と、特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理部と、を備えたことを特徴とする音声処理装置が提供される。 In order to solve the above problems, according to an aspect of the present invention, a detection unit that detects a period of a speaker's behavior and a change in gain along a time series are identified based on the detected period of the behavior. And a signal processing unit that adjusts the amplitude of the input signal including the audio signal in time series based on the specified change in the gain. The
このような構成により、音声信号の揺らぎを話者の振舞いの周期として推定され、この話者の振舞いの周期中の所望のタイミングと、他のタイミングとの間で入力信号に振幅に差を生じさせる。これにより、話者の振舞いの周期(ひいては、音声信号の揺らぎ)にあわせて、その所望のタイミングの入力信号(ひいては、音声信号)が強調される。 With such a configuration, the fluctuation of the voice signal is estimated as the period of the speaker's behavior, and a difference occurs in the amplitude of the input signal between the desired timing and the other timing in the period of the speaker's behavior. Let Thereby, the input signal (and voice signal) at the desired timing is emphasized in accordance with the period of the speaker's behavior (and thus fluctuation of the voice signal).
前記話者の振舞いの周期と前記入力信号との間の同期タイミングを特定する同期演算部を備え、前記信号処理部は、特定された当該同期タイミングに基づき、前記入力信号の振幅を調整するタイミングを決定してもよい。 A synchronization operation unit that identifies a synchronization timing between the period of the speaker's behavior and the input signal, and the signal processing unit adjusts the amplitude of the input signal based on the identified synchronization timing May be determined.
これにより、この同期タイミングにあわせて、入力信号と、この入力信号に対する時系列に沿った振幅の調整に係る処理とを同期させることが可能となる。 Thereby, it is possible to synchronize the input signal and the process related to the amplitude adjustment along the time series for the input signal in accordance with the synchronization timing.
前記同期演算部は、時系列に沿って検出された話者の発話の動作を示す情報と、時系列に沿った前記入力信号の振幅の変化とを基に、前記話者の振舞いの周期と前記入力信号との間の時系列に沿ったずれ量を算出し、当該ずれ量を基に前記同期タイミングを特定してもよい。 The synchronization calculation unit, based on the information indicating the operation of the speaker's utterance detected along the time series, and the change in the amplitude of the input signal along the time series, the period of the speaker's behavior and A shift amount along the time series with the input signal may be calculated, and the synchronization timing may be specified based on the shift amount.
前記同期演算部は、前記入力信号の振幅が所定量以上増加したタイミングと、前記発話の動作が開始されるタイミングとの間の差を前記ずれ量としてもよい。 The synchronization calculation unit may use a difference between a timing at which the amplitude of the input signal increases by a predetermined amount or more and a timing at which the speech operation is started as the shift amount.
前記検出部は、話者の動作を示す画像情報に基づき、前記振舞いの周期を検出してもよい。 The detection unit may detect the period of the behavior based on image information indicating a speaker's operation.
前記検出部は、前記画像情報から、話者の各部位のうち、あらかじめ決められた部位の動作の周期を検出し、検出された当該周期に基づき、前記振舞いの周期を特定してもよい。 The detection unit may detect an operation period of a predetermined part of each part of the speaker from the image information, and specify the period of the behavior based on the detected period.
前記検出部は、前記あらかじめ決められた部位の動作として、複数の部位の動作の周期を検出し、前記複数の部位それぞれの周期に所定の統計処理を適用することで、前記振舞いの周期を特定してもよい。 The detection unit detects the period of movement of a plurality of parts as the action of the predetermined part, and specifies a period of the behavior by applying a predetermined statistical process to each period of the plurality of parts. May be.
このような構成とすることで、複数の部位の動きの組み合わせに応じて変化する話者の振舞いの周期を、より正確に特定することが可能となる。 With such a configuration, it is possible to more accurately specify the period of the speaker's behavior that changes according to the combination of movements of a plurality of parts.
前記検出部は、前記統計処理として、前記複数の部位それぞれの周期に重み付けを行い、重み付けされた当該周期の平均をとることで前記振舞いの周期を特定してもよい。 The detection unit may weight the periods of the plurality of parts as the statistical process, and specify the period of the behavior by taking an average of the weighted periods.
前記検出部は、前記統計処理として、前記複数の部位それぞれの周期と、前記振舞いの周期との因果関係に基づきあらかじめ作成されたベイジアンネットワークを基に、検出された前記複数の部位それぞれの周期から前記振舞いの周期を特定してもよい。 Based on a Bayesian network created in advance based on a causal relationship between the period of each of the plurality of parts and the period of the behavior as the statistical process, the detection unit calculates the period from each of the detected parts of the plurality of parts. The period of the behavior may be specified.
前記特定部は、検出された前記振舞いの周期に同期するように、前記ゲインの変化を特定してもよい。 The specifying unit may specify the change in the gain so as to synchronize with the detected period of the behavior.
前記特定部は、前記ゲインの変化のピーク位置が、前記振舞いの周期のピーク位置からあらかじめ決められた時間幅だけずれるように前記ゲインの変化を特定してもよい。 The specifying unit may specify the gain change such that a peak position of the gain change deviates from a peak position of the behavior period by a predetermined time width.
前記特定部は、検出された前記振舞いの周期中の所定の位相でゲインが増幅するように、当該振舞いの周期に対してあらかじめ決められた時間幅だけ位相がずれるように、前記ゲインの変化を特定してもよい。 The specifying unit changes the gain so that the phase is shifted by a predetermined time width with respect to the period of the behavior so that the gain is amplified at a predetermined phase in the detected period of the behavior. You may specify.
また、上記課題を解決するために、本発明の別の観点によれば、音声信号を含む入力信号を集音する集音部と、話者の動作を動画像として取得する画像取得部と、前記動画像に基づき話者の振舞いの周期を検出する検出部と、検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定部と、特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理部と、振幅が調整された前記入力信号に基づき音声認識を行う音声認識部と、を備えた音声認識装置が提供される。 In order to solve the above-described problem, according to another aspect of the present invention, a sound collection unit that collects an input signal including an audio signal, an image acquisition unit that acquires a motion of a speaker as a moving image, A detection unit that detects a period of a speaker's behavior based on the moving image, a specification unit that specifies a change in gain along a time series based on the detected period of the behavior, and a change in the specified gain A speech recognition apparatus comprising: a signal processing unit that adjusts the amplitude of an input signal including a speech signal along a time series; and a speech recognition unit that performs speech recognition based on the input signal whose amplitude is adjusted. Provided.
また、上記課題を解決するために、本発明の別の観点によれば、話者の振舞いの周期を検出する検出ステップと、検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定ステップと、特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理ステップと、を含むことを特徴とする音声処理方法が提供される。 In order to solve the above problem, according to another aspect of the present invention, a detection step for detecting a period of a speaker's behavior, and a gain along a time series based on the detected period of the behavior. An audio processing method comprising: a specifying step for specifying a change; and a signal processing step for adjusting the amplitude of an input signal including the audio signal along a time series based on the specified change in the gain. Provided.
また、上記課題を解決するために、本発明の別の観点によれば、話者の振舞いの周期を検出する検出処理と、検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定処理と、特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理と、を実行することを特徴とする音声処理プログラムが提供される。 In order to solve the above problem, according to another aspect of the present invention, a detection process for detecting a period of a speaker's behavior and a gain along a time series based on the detected period of the behavior. An audio processing program that executes a specifying process for specifying a change, and a signal process for adjusting the amplitude of an input signal including an audio signal along a time series based on the specified change in the gain. Provided.
以上説明したように本発明によれば、話者の動作に基づいて、音声の揺らぎに応じて変化する、音声信号へのノイズの影響を低減し、より鮮明に音声を抽出することが可能となる。 As described above, according to the present invention, it is possible to reduce the influence of noise on a voice signal, which changes according to the fluctuation of the voice, based on the action of the speaker, and to extract the voice more clearly. Become.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
まず、図1Aを参照しながら、本実施形態に係る音声認識システムの適用シーンの一例について説明する。図1Aは、この実施形態に係る音声認識システムの適用シーンの一例について説明するための概念図である。図1Aは、一例として、本体M11とディスプレイM13を含んで構成され、入力インタフェースとしてユーザU1の音声を集音するマイクM12と、ユーザU1の外観を撮影するカメラM131とを備えたPC(Personal Computer)を示している。 First, an example of an application scene of the speech recognition system according to the present embodiment will be described with reference to FIG. 1A. FIG. 1A is a conceptual diagram for explaining an example of an application scene of the speech recognition system according to this embodiment. As an example, FIG. 1A includes a main body M11 and a display M13. A PC (Personal Computer) including a microphone M12 that collects the voice of the user U1 as an input interface and a camera M131 that captures the appearance of the user U1. ).
本実施形態に係る音声認識してステムは、例えば、図1Aに示したようなPCに適用される。この音声認識システムは、マイクM12のような集音部で話者(ユーザU1)の音声を入力信号として取得し、その入力信号を解析して話者の指示内容(例えば、操作内容や入力文字等)を判断する。そして、この音声認識システムは、判断された指示内容に対応する処理を、例えば、本体M11にインストールされたOS(Operating System)を介して、各処理を実行する実行部(例えば、本体M11のCPU)に実行させる。以降では、この音声認識システムの構成について説明する。 The speech recognition and stem according to the present embodiment is applied to a PC as shown in FIG. 1A, for example. This voice recognition system acquires the voice of a speaker (user U1) as an input signal at a sound collection unit such as a microphone M12, analyzes the input signal, and instructs the speaker's instructions (for example, operation contents and input characters). Etc.). The voice recognition system then executes a process corresponding to the determined instruction content, for example, an execution unit (for example, a CPU of the main body M11) via an OS (Operating System) installed in the main body M11. ). Hereinafter, the configuration of the voice recognition system will be described.
[音声認識システム]
まず、図1Bを参照しながら、本実施形態に係る音声認識システムの構成について説明する。図1Bは、本実施形態に係る音声認識システムの構成を示したブロック図である。図1Bに示すように、この音声認識システムは、集音部101と、画像取得部102と、音声処理ユニット11と、音声認識部12と、動作制御部13とを含んで構成されている。なお、この音声認識システムが、「音声認識装置」に相当する。
[Voice recognition system]
First, the configuration of the speech recognition system according to the present embodiment will be described with reference to FIG. 1B. FIG. 1B is a block diagram showing the configuration of the speech recognition system according to the present embodiment. As shown in FIG. 1B, this voice recognition system includes a
集音部101は、話者の発した音声を入力信号として取得する。この入力信号には、話者の発した音声を示す音声信号と、雑音のようなノイズが含まれる。集音部101の具体的な一例として、図1Aに示されたマイクM12が挙げられる。集音部101は、取得した入力信号InAを音声処理ユニット11に出力する。
The
画像取得部102は、話者の外観を時系列に沿って撮影し、その動作が示された動画像を取得する。画像取得部102の具体的な一例として、図1Aに示されたカメラM131が挙げられる。画像取得部102は、取得された動画像InBを音声処理ユニット11に出力する。なお、この動画像InBが、「話者の動作を示す画像情報」に相当する。
The
音声処理ユニット11は、集音部101から入力信号InAを取得する。前述のとおり、この入力信号InAには音声信号が含まれている場合がある。この音声信号は、話者ごとに独特の揺らぎを持っている。即ち、音声信号は、時系列に沿って振幅が変化する。この揺らぎの影響は、口の動きなどの発話の動作や、首や手の動作のような、話者の動作(以降では、これらを総じて「話者の振舞い」と呼ぶ)にも表れている。
The
そこで、音声処理ユニット11は、画像取得部102から動画像InBを取得し、この動画像InBを解析して話者の振舞いを特定する。音声処理ユニット11は、特定された話者の振舞いに基づき、時系列に沿った音声信号の振幅の変化を推定し、推定された振幅の変化にあわせて入力信号の振幅を調整することで、入力信号中の音声信号を強調する。なお、この動作原理と音声処理ユニット11の構成及び処理の内容の詳細については後述する。
Therefore, the
音声処理ユニット11は、時系列に沿って振幅が調整された入力信号Outを音声認識部12に出力する。なお、この音声処理ユニット11が、「音声処理装置」に相当する。
The
音声認識部12は、音声処理ユニット11から、時系列に沿って振幅が調整された入力信号Outを受ける。音声認識部12は、この入力信号Outに対して音声認識処理を施し、話者により音声として発話された文章を特定する。この音声認識処理は、例えば、入力信号の周波数成分を解析し、周波数成分の分布に基づき文章を構成する各文字を特定すればよい。また、この音声認識処理は、入力信号Outに基づき文章が特定できれば、上記方法には限定されない。
The
音声認識部12は、特定された文章に対して構文解析(例えば、字句解析、意味解析等)を施し、その文章の意味を認識する。音声認識部12は、意味が認識された文章に基づき、その文章が示す処理を動作制御部13に指示する。また、この構文解析は、入力信号Outに基づき文章の意味が構文解析特定できれば、上記方法には限定されない。
The
なお、入力信号Ont中の一部の音声信号の振幅が小さいため、その文字を特定できない場合がある。その場合には、音声認識部12が、音声認識処理と構文解析とのうちのいずれか、または双方で、特定できた他の部分の文字を基に、特定できなかった文字を推定するように動作させてもよい。
In addition, since the amplitude of a part of audio signal in the input signal Ont is small, the character may not be specified. In that case, the
動作制御部13は、この音声認識システムが導入された装置またはシステムを構成する各部(図示しない)の動作を制御する制御部を模擬的に示している。動作制御部13は、音声認識部12から入力信号Outに基づく処理の実行の指示を受ける。動作制御部13は、この指示に基づき、この装置またはシステムを構成する各部の動作を制御する。動作制御部13の具体的な一例として、図1Aに示された本体M11のCPUが挙げられる。
The
[音声処理ユニット11]
次に、音声処理ユニット11の動作原理と詳細な構成及び処理の内容について説明する。
[Audio processing unit 11]
Next, the operation principle, detailed configuration and processing contents of the
(動作原理)
まず、図2を参照しながら、入力信号に含まれる各信号の態様と、これに基づく音声処理ユニット11の動作原理について説明する。図2は、入力信号に含まれる各信号の時系列に沿った振幅の変化について説明するための図である。図2の縦軸は各信号の振幅Aを示しており、横軸は時間tを示している。図2中のf10は、入力信号を示しており、入力信号f10には、話者の音声を示す音声信号f110と、雑音等のノイズf130が含まれている。音声信号f110には、例えば、文、節、句、文節、音節、音素等に起因する周期の信号が含まれている。なお、一般的に音声信号f110とノイズf130とは重畳するが、図2の例では、模擬的に音声信号f110とノイズf130とを分離して別々に示している。
(Operating principle)
First, with reference to FIG. 2, the mode of each signal included in the input signal and the principle of operation of the
前述したように、この音声信号f110には、話者に応じた揺らぎが生じ、この揺らぎの影響は、話者の発話の動作(または、これに伴う文、節、句、文節等の文章の切れ目)や、首や手等の動作のような話者の振舞いにも表れている。即ち、音声信号f110は、図2に示すように、話者の振舞いに応じた周期で時系列に沿って振幅が変化しているともいえる。この揺らぎの周期、即ち、音声信号の時系列に沿った振幅の変化の周期を、以降では周期f20と呼ぶ。 As described above, the voice signal f110 is fluctuated according to the speaker, and the influence of the fluctuation is the behavior of the utterance of the speaker (or the accompanying sentence, clause, phrase, phrase, etc.). This also appears in the speaker's behavior such as the movement of the neck and hand. That is, as shown in FIG. 2, it can be said that the amplitude of the audio signal f110 changes along the time series in a cycle corresponding to the behavior of the speaker. This period of fluctuation, that is, the period of change in amplitude along the time series of the audio signal is hereinafter referred to as period f20.
一方で、ノイズf130は、話者の振舞いに依存しないため、音声信号f110とは異なり、話者に応じた揺らぎが生じない。そのため、音声信号f110の振幅が小さくなる場合に(小さくなる位相では)、音声信号f110の振幅に対するノイズf130の振幅の比率が大きくなり、ノイズf130が支配的となる。これに対して、音声信号f110の振幅が大きくなる場合に(大きくなる位相では)、音声信号f110の振幅に対するノイズf130の振幅の比率が小さくなり、前者に比べて音声信号f110が支配的となる。 On the other hand, since the noise f130 does not depend on the behavior of the speaker, unlike the audio signal f110, fluctuation according to the speaker does not occur. Therefore, when the amplitude of the audio signal f110 is small (at a small phase), the ratio of the amplitude of the noise f130 to the amplitude of the audio signal f110 is large, and the noise f130 becomes dominant. On the other hand, when the amplitude of the audio signal f110 increases (in a phase that increases), the ratio of the amplitude of the noise f130 to the amplitude of the audio signal f110 decreases, and the audio signal f110 becomes dominant compared to the former. .
そこで、この実施形態に係る音声処理ユニット11は、話者の振舞いに基づき、音声信号の振幅が時系列に沿って変化する周期f20を推定し、推定された周期に基づき入力信号の振幅を時系列に沿って調整する。この推定された周期を、以降では「話者の振舞いの周期」と呼ぶ。
Therefore, the
具体的な一例として、音声処理ユニット11は、話者の振舞いの周期に基づき、音声信号f110の振幅が小さくなるほど、入力信号f10の振幅を減衰させる。このように動作させることで、音声処理ユニット11は、音声信号f110の振幅に対してノイズf130の振幅の比率が大きくなるタイミングほど(即ち、ノイズf130が支配的になるほど)、入力信号f10の振幅をより減衰させることになる。これにより、音声信号f110の振幅に対してノイズf130の振幅の比率が小さいタイミング(即ち、音声信号f110が支配的なタイミング)が強調され、後段の音声認識部12による音声認識処理の精度を向上させる。なお、図2における入力信号f10が、前述の入力信号InAに相当する。
As a specific example, the
(構成)
次に、図1Cを参照しながら、音声処理ユニット11の構成について説明する。図1Cは、この音声処理ユニット11の構成を示したブロック図である。図1Cに示すように、音声処理ユニット11は、動作検出部111と、ゲイン特定部112と、音声信号取得部113と、遅延処理部114と、同期演算部115と、信号処理部116とを含んで構成される。また、信号処理部116は、増幅器1161と、ゲイン制御部1162とを福運で構成されている。以下に、これら各部の動作について説明する。
(Constitution)
Next, the configuration of the
動作検出部111は、入力として画像取得部102から動画像InBを受ける。この動画像InBには、話者の外観を時系列に沿って撮影されたものであり、話者の動作が示されている。動作検出部111は、この動画像InBに対して画像解析処理を施して、話者の振舞いの周期を特定する。以下に、その動作の具体的な一例について説明する。
The
動作検出部111は、動画像InBを構成する各フレーム画像から、話者の身体を構成する各部位のうち、あらかじめ決められた1または複数の部位の位置を特定する。なお、以降では、この位置が特定された部位のことを特に「対象部位」と呼ぶ場合がある。このような位置の特定は、例えば、対象部位の形状特徴を抽出し、その形状特徴の位置や向きに基づいて行うとよい。
The
ここで図3を参照する。図3は、話者の振舞いの周期の特定方法について説明するための図であり、話者U11を構成する各部位を模式的に示したものである。例えば、この図が示す例では、「頭」に対応する部位U111と、「腕」に対応する部位U112を対象部位としている。「腕」に対応する部位U112の位置や向きは、例えば、「肘」または「肩」のような「関節」や「手」等のような、この部位の形状特徴を示す特徴点P12の位置や向きとして特定することができる。なお、各部位から複数の特徴点を抽出することで、その部位の位置や向きの特定に係る精度を向上させることができる。同様に、「頭」に対応する部位U111の動きは、例えば、「目」、「鼻」、「耳」等のような、形状特徴を示す特徴点P11の位置や向きとして特定することができる。このようにして、動作検出部111は、各対象部位の位置や向きを特定する。
Reference is now made to FIG. FIG. 3 is a diagram for explaining a method for specifying the period of the speaker's behavior, and schematically shows each part constituting the speaker U11. For example, in the example shown in this figure, a part U111 corresponding to “head” and a part U112 corresponding to “arm” are set as target parts. The position and orientation of the part U112 corresponding to “arm” is the position of the feature point P12 indicating the shape feature of this part, such as “joint” such as “elbow” or “shoulder”, “hand”, etc. And can be specified as orientation. Note that by extracting a plurality of feature points from each part, it is possible to improve the accuracy of specifying the position and orientation of the part. Similarly, the movement of the part U111 corresponding to the “head” can be specified as the position and orientation of the feature point P11 indicating the shape feature such as “eyes”, “nose”, “ear”, and the like. . In this way, the
次に、動作検出部111は、各対象部位の動作、即ち、各対象部位の位置の変化を、あらかじめ決められたフレーム数の間だけ監視して、その動作の周期を対象部位ごとに特定する。そのため、この周期の特定に係る監視のためのフレーム数は、対象部位の動きの周期を特定するために十分な期間であることが望ましく、対象部位の種類に応じてあらかじめ決めておく。なお、各部位の周期を特定するために、どの程度のフレーム数分だけ監視期間を設ければよいかは、あらかじめ実験等に基づき調べておく。以降では、このあらかじめ決められたフレーム数分の時間幅をh111とする。また、以降では、「対象部位の周期」と表記した場合には、その対象部位の動作の周期を示すものとする。
Next, the
動作検出部111は、特定された各対象部位の周期に対して、あらかじめ決められた統計処理を施すことで、これら各対象部位の動作に基づき時系列に沿って振幅が変化する1つの周期を、話者の振舞いの周期として特定する。この統計処理の一例として、重み付け平均処理が挙げられる。具体的には、各対象部位の周期に対して、その部位ごとにあらかじめ決められた重み付けを行い、重み付け後の各対象部位の周期の平均を話者の振舞いの周期として特定する。なお、各部位に対する重み付けの度合いは、各部位の動作と音声信号f110の時系列に沿った振幅の変化(即ち、周期f20)との間の因果関係を実験等によりあらかじめ求め、この結果に基づき決定しておく。
The
また、この統計処理の別の一例として、ベイジアンネットワークによる推定を用いてもよい。具体的には、各部位の動作と話者の振舞いの周期との因果関係(ひいては、周期f20との因果関係)に基づき、あらかじめベイジアンネットワークを作成しておく。動作検出部111は、特定された各対象部位の周期を入力として、このベイジアンネットワークを適用し、その出力を話者の振舞いの周期とすればよい。このように複数の対象部位を対象として動作の周期を特定し、統計処理を施すことで、複数の部位の動きの組み合わせに応じて変化する話者の振舞いの周期を、より正確に特定することが可能となる。
As another example of this statistical processing, estimation by a Bayesian network may be used. Specifically, a Bayesian network is created in advance based on the causal relationship between the movement of each part and the period of the speaker's behavior (and consequently the causal relation with the period f20). The
なお、話者の振舞いの周期は、いわゆる周期のような時系列を明示的に特定しない情報に限らず、例えば、監視期間(時間幅h111)中の時系列に沿った振幅の変化を示す情報のように、時系列上の位置を明示する情報であってもよい。このような情報を用いることで、例えば、監視期間の開始タイミングと、話者の振舞いの周期の開始タイミング(振幅が変化し始めるタイミング)とが必ずしも一致していなくてもよくなる。具体的な一例をあげると、話者が発話を開始してある時間が経過した後、話者が動作を開始した場合などが該当する。なお、以降では、これらを包含して、単に「話者の振舞いの周期」として説明する。 The period of the speaker's behavior is not limited to information that does not explicitly specify a time series such as a so-called period. For example, information indicating a change in amplitude along the time series during the monitoring period (time width h111). As described above, the information may clearly indicate time-series positions. By using such information, for example, the start timing of the monitoring period and the start timing of the speaker's behavior cycle (timing at which the amplitude starts to change) do not necessarily have to match. As a specific example, this may be the case when the speaker starts to operate after a certain time has elapsed since the speaker started speaking. In the following, these will be included and described simply as the “speaker behavior cycle”.
動作検出部111は、特定された話者の振舞いの周期をゲイン特定部112に出力する。
The
また、動作検出部111は、所定のフレーム毎(例えば、1フレーム毎)に、「口」のように話者の発話の動作を示す部位の特徴点P20a及びP20bの位置や向きを特定する。動作検出部111は、特定された特徴点P20a及びP20bの位置や向きを示す情報を同期演算部115に逐次出力する。
In addition, the
ゲイン特定部112は、動作検出部111から話者の振舞いの周期を示す情報を受ける。ゲイン特定部112は、この話者の振舞いの周期を基に、時系列に沿って入力信号InAの振幅を変化させるための制御信号、即ち、時系列に沿った入力信号InAに対するゲインの変化を示す制御信号を生成する。具体的な一例として、本実施形態に係るゲイン特定部112は、動作検出部111から受けた話者の振舞いの周期に同期して、入力信号InAを減衰させるように制御信号を生成する。これにより、話者の振舞いの周期において、振幅が小さくなるタイミング(位相)で、入力信号InAが減衰されるように、制御信号が生成される。
The
例えば、図4は、この実施形態における、話者の振舞いの周期に基づくゲイン制御について説明するための図である。図4におけるf50は、生成された制御信号に基づく時系列に沿ったゲインの変化を模擬的に示したグラフである。この図4の例では、特定された話者の振舞いの周期に同期して、生成された制御信号に基づくゲイン制御を適用した場合を示しており、理想的には、この時系列に沿ったゲイン制御が周期f20に同期する。なお、この制御信号に基づくゲイン制御の詳細については後述する。また、以降では、上述したゲイン特定部112の一連の動作に係る処理時間をh112とする。このように、時系列に沿ったゲイン制御(即ち、時系列に沿ったゲインの変化)が、制御信号として、ゲイン特定部112により特定される。
For example, FIG. 4 is a diagram for explaining gain control based on the period of the speaker's behavior in this embodiment. F50 in FIG. 4 is a graph that schematically shows a change in gain along a time series based on the generated control signal. The example in FIG. 4 shows a case where gain control based on the generated control signal is applied in synchronization with the specified period of the speaker's behavior, and ideally along this time series. Gain control is synchronized with the period f20. Details of gain control based on this control signal will be described later. Further, hereinafter, the processing time related to the series of operations of the above-described
ゲイン特定部112は、生成された制御信号をゲイン制御部1162に出力する。
The
音声信号取得部113は、入力として集音部101から音声信号f110を含む入力信号InAを逐次受ける。音声信号取得部113は、この入力信号InAを遅延処理部114に逐次出力する。
The audio
また、音声信号取得部113は、入力信号InAの振幅を監視し、少なくとも、この振幅を示す情報を同期演算部115に逐次出力する。
The audio
遅延処理部114は、音声信号取得部113から入力信号InAを逐次受ける。遅延処理部114は、この入力信号InAが、あらかじめ決めた遅延量h114だけ遅延するように遅延処理を施す。このときの遅延量h114は、動作検出部111及びゲイン特定部112の処理時間を鑑みてあらかじめ決定しておく。具体的には、この遅延量h114は、少なくとも、動作検出部111が話者の振舞いの周期を特定するために要するフレーム数分の時間幅h111と、ゲイン特定部112の処理時間h112とを加算した時間幅h111+h112だけ設ける。即ち、h114≧h111+h112の条件を満たすように、遅延量h114をあらかじめ決定しておく。これは、入力信号InAの振幅を時系列に沿って調整するための制御信号が、入力信号InAに対して、少なくともこの時間幅h111+h112分だけ遅延して出力されるためである。
The
遅延処理部114は、遅延処理が施された入力信号InAを増幅器1161に出力する。
The
同期演算部115は、動作検出部111から、話者の発話の動作を示す部位の特徴点P20a及びP20bの位置や向き示す情報を逐次受ける。同期演算部115は、この情報を基に特徴点P20a及びP20bの位置や向きの変化を監視し、話者の発話の動作が開始されるタイミングtBを検出する。
The
また、同期演算部115は、音声信号取得部113から、入力信号InAの振幅を示す情報を逐次受ける。入力信号InAは、話者が発話していないタイミングでは、ノイズf130のみが含まれる。即ち、このタイミングにおける入力信号InAの振幅は、ノイズf130の振幅となる。これに対して、話者が発話しているタイミングでは、このノイズf130の振幅に、音声信号f110の振幅が重畳する。即ち、話者が発話を開始するタイミングで、入力信号InAの振幅が増加する。そこで、同期演算部115は、この情報を基に入力信号InAの振幅の変化を監視し、入力信号InAの振幅が所定量以上変化(増加)するタイミングtAを検出する。
Further, the
集音部101を介して取得される入力信号InAと、画像取得部102を介して取得される動画像InBとは、厳密には同期しているとは限らない。即ち、入力信号InAと動画像InBから特定された話者の振舞いの周期(及び、話者の振舞いの周期に基づく処理)とは、厳密には同期しているとは限らない。なお、この話者の振舞いの周期に基づく処理とは、ゲイン特定部112により生成された制御信号を用いた、ゲイン制御部1162による、時系列に沿ったゲイン制御を示している。ゲイン制御部1162の詳細については後述する。
The input signal InA acquired through the
例えば、図5は、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理との同期について説明するための図である。図5の横軸は時間tを示している。図5におけるf10a〜f10cは、それぞれ、異なるタイミングにおける、ノイズf130に音声信号f110が重畳した入力信号InAを模擬的に示している。また、t10a〜t10cは、入力信号f10a〜f10cそれぞれの開始タイミング(即ち、入力信号InAの振幅が所定量以上変化(増加)するタイミング)を示している。また、t30a〜t30cは、それぞれ、話者の発話の動作が開始されたタイミングを示している。また、f50a〜f50cは、それぞれ、異なるタイミングにおける、話者の振舞いの周期に基づく処理(即ち、時系列に沿ったゲイン制御)を模擬的に示している。また、t50a〜t50cは、話者の振舞いの周期に基づく処理f50a〜f50cそれぞれの開始タイミングを示している。 For example, FIG. 5 is a diagram for explaining the synchronization between the input signal InA subjected to the delay process and the process based on the period of the speaker's behavior. The horizontal axis in FIG. 5 indicates time t. F10a to f10c in FIG. 5 schematically illustrate the input signal InA in which the audio signal f110 is superimposed on the noise f130 at different timings. Further, t10a to t10c indicate start timings of the input signals f10a to f10c (that is, timings at which the amplitude of the input signal InA changes (increases) by a predetermined amount or more). Further, t30a to t30c indicate timings when the speaker's speech operation is started. Also, f50a to f50c schematically show processing (that is, gain control along a time series) based on the period of the speaker's behavior at different timings. Further, t50a to t50c indicate the start timings of the processes f50a to f50c based on the period of the speaker's behavior.
前述の通り、話者の振舞いの周期に基づく処理f50a〜f50cの開始タイミングt50a〜t50cと、発話の動作の開始タイミングt30a〜t30cとは同期している。これは、開始タイミングt50a〜t50cと開始タイミングt30a〜t30cとが、同じ動画像InBから特定されるためである。これに対して、入力信号InAと動画像InBとは厳密には同期しているとは限らない。換言すると、開始タイミングt10a〜t10cと、開始タイミングt30a〜t30c及びt50a〜t50cとは、同期しているとは限らない。即ち、開始タイミングt10a〜t10cと、開始タイミングt30a〜t30c及びt50a〜t50cとの間のいずれかが遅延している場合がある。 As described above, the start timings t50a to t50c of the processes f50a to f50c based on the period of the speaker's behavior are synchronized with the start timings t30a to t30c of the speech operation. This is because the start timings t50a to t50c and the start timings t30a to t30c are specified from the same moving image InB. On the other hand, the input signal InA and the moving image InB are not strictly synchronized. In other words, the start timings t10a to t10c are not always synchronized with the start timings t30a to t30c and t50a to t50c. That is, one of the start timings t10a to t10c and the start timings t30a to t30c and t50a to t50c may be delayed.
そこで、同期演算部115は、入力信号InAと、話者の振舞いの周期、厳密には、話者の振舞いの周期に基づく処理とを同期させるために、これらの間の時系列に沿ったずれ量(即ち、時間差)Δtを算出する。具体的には、同期演算部115は、図5に示すように、入力信号f10a〜f10cそれぞれの開始タイミングt10a〜t10cと、話者の発話の開始タイミングt30a〜t30cとがそれぞれ同期するように、これらのずれ量Δtを算出する。ここで、開始タイミングt10a〜t10cは、検出されたタイミングtAで示される。また、開始タイミングt30a〜t30cは、検出されたタイミングtBで示される。即ち、同期演算部115は、検出されたタイミングtA及びtBの差として、ずれ量Δt=tA−tBを算出する。
Therefore, in order to synchronize the input signal InA and the period of the speaker's behavior, strictly speaking, the processing based on the period of the speaker's behavior, the
同期演算部115は、入力信号InA、または、話者の振舞いの周期に基づく処理が、このΔtだけ時系列に沿ってシフトする(遅延させる)ように制御することで、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理とを同期させる。
The
具体的には、動画像InBに対して入力信号InAが遅延している場合(Δt<0)には、話者の振舞いの周期に基づく処理に対して、遅延処理後の入力信号InAが遅延することになる。この場合には、同期演算部115は、ずれ量Δtをゲイン制御部1162に通知する。このずれ量Δtを受けて、ゲイン制御部1162は、自身の処理の開始タイミングを、このずれ量Δt分だけ遅延させる。
Specifically, when the input signal InA is delayed with respect to the moving image InB (Δt <0), the input signal InA after the delay process is delayed with respect to the process based on the period of the speaker's behavior. Will do. In this case, the
また、入力信号InAに対して動画像InBが遅延している場合(Δt>0)には、遅延処理後の入力信号InAに対して、話者の振舞いの周期に基づく処理が遅延していることになる。この場合には、同期演算部115は、ずれ量Δtを遅延処理部114に通知する。この通知を受けた場合に、遅延処理部114は、遅延量h114に加えて、さらにΔt分だけ入力信号InAを遅延させる。なお、この遅延処理部114へのΔtの通知は、遅延処理部114による遅延処理が完了する前に行われる必要がある。そのため、Δtの算出に係る処理時間よりも、遅延量h114を十分に長く設定する必要がある。しかしながら、多くの場合には、Δtの算出に係る処理は、遅延量h114よりも十分に短い。なお、このとき同期演算部115は、Δt=0をゲイン制御部1162に通知して、ゲイン制御部1162がただちに処理を開始するようにしてもよい。
When the moving image InB is delayed with respect to the input signal InA (Δt> 0), the processing based on the period of the speaker's behavior is delayed with respect to the input signal InA after the delay processing. It will be. In this case, the
入力信号InAと動画像InBとが同期している場合(Δt=0)には、遅延処理後の入力信号InAと、話者の振舞いの周期に基づく処理とが同期していることになる。そのため、この場合には、同期演算部115は、ずれ量Δtの通知に係る処理を行わない、もしくは、ゲイン制御部1162及び遅延処理部114のうちのいずれかまたは双方にΔt=0を通知すればよい。
When the input signal InA and the moving image InB are synchronized (Δt = 0), the input signal InA after the delay process and the process based on the period of the speaker's behavior are synchronized. Therefore, in this case, the
このように、同期演算部115は、ずれ量Δtに基づき、入力信号InAと話者の振舞いの周期との間の同期タイミングを特定し、この同期タイミングにあわせて、入力信号InAまたは話者の振舞いの周期に基づく処理を時系列に沿ってシフト(遅延)させる。これにより、入力信号InAと、話者の振舞いの周期に基づく処理とが同期する。
As described above, the
なお、上記説明では、同期演算部115は、入力信号InAと動画像InBとの間のずれ量Δtを基に、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理との同期タイミングを間接的に特定していた。別の方法として、同期演算部115は、検出されたタイミングtA及びtBと、前述した、時間幅h111、処理時間h112、及び遅延量h114とを基に、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理との同期タイミングを直接特定してもよい。この場合には、例えば、遅延処理が施された入力信号InAに対応するタイミングは、tA+h114で表される。また、話者の振舞いの周期に基づく処理を開始可能なタイミングは、tB+h111+h112とで表される。そのため、ずれ量Δtを、Δt=(tA+h114)−(tB+h111+h112)に基づき算出することで、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理との同期タイミングを特定することができる。
In the above description, the
また、上記では、同期演算部115が、入力信号InAの振幅が所定量以上変化(増加)したタイミングtAを特定していたが、これを音声信号取得部113が行ってもよい。この場合には、音声信号取得部113は、特定されたタイミングtAを示す情報を同期演算部115に通知すればよい。同様に、動作検出部111が、話者の発話の動作が開始されたタイミングtBを特定してもよい。この場合には、動作検出部111は、特定されたタイミングtBを示す情報を同期演算部115に通知すればよい。
In the above description, the
増幅器1161は、遅延処理部114から、遅延処理が施された入力信号InAを受ける。増幅器1161の利得Gainは、ゲイン制御部1162に基づき制御されている。即ち、増幅器1161は、ゲイン制御部1162に従い、入力信号InAの振幅を調整する(増幅または減衰させる)。増幅器1161は、振幅が調整された入力信号InAを、後段に位置する音声認識部12(図1B参照)に出力する。
The
ゲイン制御部1162は、ゲイン特定部112から、時系列に沿った入力信号InAに対するゲインの変化を示す制御信号を受ける。ゲイン制御部1162は、この制御信号に基づき、増幅器1161の利得Gainを時系列に沿って制御する(この動作が「ゲイン制御」に相当する)。
The
また、ゲイン制御部1162は、同期演算部115からずれ量Δtの通知を受ける。このずれ量Δtの通知を受けた場合には、ゲイン制御部1162は、ずれ量Δtだけ自身の処理、即ち、ゲイン制御の開始タイミングを遅延させる。これにより、ゲイン制御部1162による時系列に沿ったゲイン制御(即ち、話者の振舞いの周期に基づく処理)が、遅延処理が施された入力信号InAに同期する。この態様について、図4を参照しながら以下に説明する。
Further, the
前述の通り、話者の振舞いの周期は、音声信号の振幅が時系列に沿って変化する周期f20を推定したものに相当する。そのため、遅延処理が施された入力信号InAに、ゲイン制御部1162による時系列に沿ったゲイン制御を同期させることで、理想的には、図4に示すように、周期f20に時系列に沿ったゲイン制御(グラフf50に対応)が同期する。
As described above, the period of the speaker's behavior corresponds to an estimation of the period f20 at which the amplitude of the voice signal changes along the time series. Therefore, by synchronizing the gain control along the time series by the
この場合には、利得Gainが低下し信号が減衰されるタイミングt501、t503と、入力信号f10(即ち、入力信号InA)中の音声信号f110の振幅が小さくなるタイミングt201、t203とが一致する。また、利得Gainが増加し信号が減衰されない(または、増幅される)タイミングt502と、入力信号f10中の音声信号f110の振幅が大きくなるタイミングt202とが一致する。 In this case, timings t501 and t503 at which the gain Gain decreases and the signal is attenuated coincide with timings t201 and t203 at which the amplitude of the audio signal f110 in the input signal f10 (that is, the input signal InA) decreases. Also, the timing t502 at which the gain is increased and the signal is not attenuated (or amplified) coincides with the timing t202 at which the amplitude of the audio signal f110 in the input signal f10 increases.
これにより、音声信号f110の振幅に対してノイズf130の振幅の比率が高いほど、入力信号f10の減衰量が大きくなる。即ち、ノイズf130が支配的なタイミングで入力信号f10がより減衰され、音声信号f110が支配的なタイミングにおける入力信号f10の振幅が強調される。 Thereby, the higher the ratio of the amplitude of the noise f130 to the amplitude of the audio signal f110, the greater the attenuation of the input signal f10. That is, the input signal f10 is further attenuated at the timing when the noise f130 is dominant, and the amplitude of the input signal f10 is emphasized at the timing when the audio signal f110 is dominant.
なお、同期演算部115は、話者の発話の動作を示す部位の特徴点P20a及びP20bの位置や向きが、あらかじめ決められた時間以上変化しなかった場合には、入力信号InAに音声信号f110が含まれていないと判断してもよい。この場合には、同期演算部115は、例えば、ゲイン制御部1162による、時系列に沿ったゲイン制御の処理を一旦停止させ、再度、特徴点P20a及びP20bの位置や向きが変化したときに、改めてゲイン制御部1162による処理を開始させてもよい。また、このときには、動作検出部11が、改めて話者の振舞いの周期を特定し、ゲイン特定部112が、この話者の振舞いの周期に基づき制御信号を生成しなおしてもよい。
It should be noted that the
また、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理とを厳密に同期させる必要が無い場合や、入力信号InAと動画像InBとの間の同期が保障されている場合には、同期演算部115を設けない構成としてもよい。この場合には、話者の発話の動作が開始されるタイミングtBが、ノイズf130に音声信号f110が重畳し始めるタイミング、即ち、入力信号InAの振幅が所定量以上変化(増加)するタイミングtAと等しいものとして処理することとなる。このような構成とする場合には、ゲイン制御部1162は、同期演算部115からの通知を待たず、直ちに処理を開始すればよい。
In addition, when it is not necessary to strictly synchronize the input signal InA subjected to the delay processing and the processing based on the period of the speaker's behavior, the synchronization between the input signal InA and the moving image InB is guaranteed. In such a case, the
また、上記では、話者が単一の場合の処理について説明していたが、複数の話者を対象として、この中のいずれかの話者を選択的に処理の対象とするように動作させてもよい。この場合には、動作検出部111は、例えば、顔認識のような個人を特定する技術を応用することで、処理対象の話者を識別するとよい。
Also, in the above description, the processing in the case of a single speaker has been described. However, for a plurality of speakers, one of them is selectively operated as a processing target. May be. In this case, the
なお、対象となる話者の選択基準については、所定の処理毎に操作者(例えば、話者)が指定できるようにしてもよいし、対象の話者をあらかじめ決めておいてもよい。また、識別された話者ごとに、各部位の周期に適用する統計処理のパラメタ、例えば、重み付け平均処理における重みのつけ方や、適用するベイジアンネットワークを切り替えてもよい。これらの情報は、あらかじめ作成しておき、動作検出部111が適宜読み出せる場所に記憶させておけばよい。
Note that the selection criterion for the target speaker may be specified by an operator (for example, a speaker) for each predetermined process, or the target speaker may be determined in advance. In addition, for each identified speaker, a parameter of statistical processing applied to the period of each part, for example, how to apply a weight in weighted average processing, or applied Bayesian network may be switched. These pieces of information may be created in advance and stored in a place where the
このように動作させることで、例えば、複数の話者が同時に発話している場合においても、対象の話者の発話に合わせて話者の振舞いの周期が特定され、この周期に基づき入力信号InAの振幅が時系列に沿って調整される。そのため、対象の話者の発話が、他の話者の発話に比べてより強調されやすくなり、複数の話者が発話する場合においても、この対象の話者の発話を入力とした音声認識の精度を向上させることが可能となる。 By operating in this way, for example, even when a plurality of speakers are speaking at the same time, the cycle of the speaker's behavior is specified according to the speech of the target speaker, and the input signal InA is based on this cycle. Is adjusted along the time series. As a result, the speech of the target speaker is more easily emphasized than the speech of other speakers, and even when multiple speakers speak, The accuracy can be improved.
[音声処理ユニット11の一連の処理]
次に、図6を参照しながら、音声処理ユニット11の一連の処理について説明する。図6は、音声処理ユニット11の一連の動作を示したフローチャートである。
[A series of processes of the audio processing unit 11]
Next, a series of processes of the
(ステップS11)
動作検出部111は、入力として画像取得部102から動画像InBを受ける。この動画像InBには、話者の外観を時系列に沿って撮影されたものであり、話者の動作が示されている。
(Step S11)
The
動作検出部111は、所定のフレーム毎(例えば、1フレーム毎)に、「口」のように話者の発話の動作を示す部位の特徴点P20a及びP20bの位置や向きを特定する。動作検出部111は、特定された特徴点P20a及びP20bの位置や向きを示す情報を同期演算部115に逐次出力する。
The
また、動作検出部111は、動画像InBを構成する各フレーム画像から、話者の身体を構成する各部位のうち、あらかじめ決められた1または複数の部位の位置を特定する。
Further, the
(ステップS12)
次に、動作検出部111は、各対象部位の動作、即ち、各対象部位の位置の変化を、あらかじめ決められたフレーム数の間だけ監視して、その動作の周期を対象部位ごとに特定する。
(Step S12)
Next, the
動作検出部111は、特定された各対象部位の周期に対して、あらかじめ決められた統計処理を施すことで、これら各対象部位の動作に基づき時系列に沿って振幅が変化する1つの周期を、話者の振舞いの周期として特定する。この統計処理の一例として、重み付け平均処理やベイジアンネットワークを用いた推定が挙げられる。
The
動作検出部111は、特定された話者の振舞いの周期をゲイン特定部112に出力する。なお、この話者の振舞いの周期の特定に係る動作が、「検出ステップ」に相当する。
The
ゲイン特定部112は、動作検出部111から話者の振舞いの周期を示す情報を受ける。ゲイン特定部112は、この話者の振舞いの周期を基に、時系列に沿って入力信号InAの振幅を変化させるための制御信号、即ち、時系列に沿った入力信号InAに対するゲインの変化を示す制御信号を生成する。具体的な一例として、本実施形態に係るゲイン特定部112は、動作検出部111から受けた話者の振舞いの周期に同期して入力信号InAを減衰させるように制御信号を生成する。これにより、話者の振舞いの周期において、振幅が小さくなるタイミング(位相)で、入力信号InAが減衰されるように、制御信号が生成される。
The
ゲイン特定部112は、生成された制御信号をゲイン制御部1162に出力する。なお、この制御信号の生成に係る動作が、「特定ステップ」に相当する。
The
(ステップS21)
音声信号取得部113は、入力として集音部101から音声信号f110を含む入力信号InAを逐次受ける。音声信号取得部113は、この入力信号InAを遅延処理部114に逐次出力する。
(Step S21)
The audio
また、音声信号取得部113は、入力信号InAの振幅を監視し、少なくとも、この振幅を示す情報を同期演算部115に逐次出力する。
The audio
(ステップS22)
遅延処理部114は、音声信号取得部113から入力信号InAを逐次受ける。遅延処理部114は、この入力信号InAが、あらかじめ決めた遅延量h114だけ遅延するように遅延処理を施す。このときの遅延量h114は、動作検出部111及びゲイン特定部112の処理時間を鑑みてあらかじめ決定しておく。
(Step S22)
The
遅延処理部114は、遅延処理が施された入力信号InAを増幅器1161に出力する。
The
(ステップS30)
同期演算部115は、動作検出部111から、話者の発話の動作を示す部位の特徴点P20a及びP20bの位置や向き示す情報を逐次受ける。同期演算部115は、この情報を基に特徴点P20a及びP20bの位置や向きの変化を監視し、話者の発話の動作が開始されるタイミングtBを検出する。
(Step S30)
The
また、同期演算部115は、音声信号取得部113から、入力信号InAの振幅を示す情報を逐次受ける。同期演算部115は、この情報を基に入力信号InAの振幅の変化を監視し、入力信号InAの振幅が所定量以上変化(増加)するタイミングtAを検出する。
Further, the
同期演算部115は、検出されたタイミングtA及びtBの差として、ずれ量Δt=tA−tBを算出する。このずれ量Δtが、入力信号InAと、話者の振舞いの周期に基づく処理との間の時系列に沿ったずれ量(時間差)を示している。
The
(ステップS41)
同期演算部115は、入力信号InA、または、話者の振舞いの周期に基づく処理が、このΔtだけ時系列に沿ってシフトする(遅延させる)ように制御することで、遅延処理が施された入力信号InAと、話者の振舞いの周期に基づく処理とを同期させる。
(Step S41)
The
具体的には、同期演算部115は、動画像InBに対して入力信号InAが遅延している場合(Δt<0)には、ずれ量Δtをゲイン制御部1162に通知する。このずれ量Δtを受けて、ゲイン制御部1162は、自身の処理の開始タイミングを、このずれ量Δt分だけ遅延させる。
Specifically, when the input signal InA is delayed with respect to the moving image InB (Δt <0), the
また、同期演算部115は、入力信号InAに対して動画像InBが遅延している場合(Δt>0)には、ずれ量Δtを遅延処理部114に通知する。この通知を受けた場合に、遅延処理部114は、遅延量h114に加えて、さらにΔt分だけ入力信号InAを遅延させる。なお、このとき同期演算部115は、Δt=0をゲイン制御部1162に通知して、ゲイン制御部1162がただちに処理を開始するようにしてもよい。
Further, when the moving image InB is delayed with respect to the input signal InA (Δt> 0), the
入力信号InAと動画像InBとが同期している場合(Δt=0)には、遅延処理後の入力信号InAと、話者の振舞いの周期に基づく処理とが同期していることになる。そのため、この場合には、同期演算部115は、ずれ量Δtの通知に係る処理を行わない、もしくは、ゲイン制御部1162及び遅延処理部114のうちのいずれかまたは双方にΔt=0を通知する。
When the input signal InA and the moving image InB are synchronized (Δt = 0), the input signal InA after the delay process and the process based on the period of the speaker's behavior are synchronized. Therefore, in this case, the
(ステップS42)
ゲイン制御部1162は、ゲイン特定部112から、時系列に沿った入力信号InAに対するゲインの変化を示す制御信号を受ける。ゲイン制御部1162は、この制御信号に基づき、増幅器1161の利得Gainを時系列に沿って制御する(この動作が「ゲイン制御」に相当する)。
(Step S42)
The
また、ゲイン制御部1162は、同期演算部115からずれ量Δtの通知を受ける。このずれ量Δtの通知を受けた場合には、ゲイン制御部1162は、ずれ量Δtだけ自身の処理、即ち、ゲイン制御の開始タイミングを遅延させる。
Further, the
増幅器1161は、遅延処理部114から、遅延処理が施された入力信号InAを受ける。増幅器1161の利得Gainは、ゲイン制御部1162に基づき制御されている。即ち、増幅器1161は、ゲイン制御部1162に従い、入力信号InAの振幅を調整する(増幅/減衰させる)。増幅器1161は、振幅が調整された入力信号InAを、後段に位置する音声認識部12(図1B参照)に出力する。なお、この時系列に沿った入力信号InAの振幅の調整に係る動作が、「信号処理ステップ」に相当する。
The
なお、上述した一連の動作は、音声処理ユニット11(または、この音声処理ユニット11を含む音声認識システム)を動作させる装置(例えば、図1Aの本体M11)のCPUを機能させるためのプログラムによって構成することができる。このプログラムは、その装置(例えば、本体M11)にインストールされたOS(Operating System)を介して実行されるように構成してもよい。また、このプログラムは、音声処理ユニット11を動作させる装置が読み出し可能であれば、記憶される位置は限定されない。例えば、このプログラムは、装置の外部から接続される記録媒体に格納されていてもよい。この場合には、この記録媒体を装置に接続することによって、その装置のCPUに当該プログラムを実行させるように構成するとよい。
The series of operations described above is configured by a program for causing a CPU of a device (for example, the main body M11 in FIG. 1A) that operates the voice processing unit 11 (or the voice recognition system including the voice processing unit 11) to function. can do. This program may be configured to be executed via an OS (Operating System) installed in the apparatus (for example, the main body M11). Moreover, as long as the apparatus which operates the audio |
[変形例]
次に、変形例に係る音声処理ユニット11の動作について説明する。音声認識部12で実行される音声認識処理や構文解析は、一部の音声が認識できず、その音声に対応する文字が欠落した場合に、認識できた音声(文字)から、その認識できなかった部分を推定する処理を有する場合がある。この処理は、音声認識処理や構文解析の特性(例えば、アルゴリズム)に応じて、例えば、文、節、句などの所定の単位の文字の集合のうち、どの部分が認識できたかにより、欠落した部分の推定のしやすさに差が生じる場合がある。具体的な一例として、所定の単位の文字の集合のうち、中間部分が認識できた場合よりも、前半部分が認識できた場合の方が、認識率が高くなる場合がある。変形例に係る音声処理ユニット11では、話者の振舞いの周期を基に、この所定単位の文字の集合(もしくは、文、節、句などの間の文章の切れ目)の時系列に沿った位置を推定し、入力信号中で強調する部分を調整することで、音声認識処理の認識率を向上させる。
[Modification]
Next, the operation of the
そこで、変形例に係る音声処理ユニット11では、音声信号の揺らぎの周期、即ち、特定された話者の振舞いの周期のうち、所定周期分(例えば、1/2周期分や1周期分)が、所定の単位の文字の集合の時系列に沿った位置と同期しているものとみなす。そのうえで、この音声処理ユニット11は、声認識処理や構文解析の特性に応じて、この所定の単位の文字の集合のうち、時系列に沿った所定の位置(タイミング)が強調されるようにゲインを制御する。
Therefore, in the
以下に、その一例について、図7A及び図7Bを参照しながら説明する。図7Aは、変形例に係る音声処理ユニットの一態様における、話者の振舞いの周期に基づくゲイン制御について説明するための図である。また、図7Bは、変形例に係る音声処理ユニットの図7Aとは異なる一態様を示しおり、この態様における、話者の振舞いの周期に基づくゲイン制御について説明するための図である。なお、図7A及び図7Bに示す例では、所定の単位の文字の集合のうち、前半部分を強調する場合を示している。なお、以降では、前述した実施形態と処理の異なるゲイン特定部112に着目して説明することとし、その他の構成については、前述した実施形態と同様のため、詳細な説明は省略する。
An example thereof will be described below with reference to FIGS. 7A and 7B. FIG. 7A is a diagram for describing gain control based on a period of a speaker's behavior in one aspect of a voice processing unit according to a modification. FIG. 7B shows an aspect different from FIG. 7A of the speech processing unit according to the modification, and is a diagram for describing gain control based on the period of the speaker's behavior in this aspect. In the example shown in FIGS. 7A and 7B, the first half of a set of characters in a predetermined unit is emphasized. In the following, the description will be made with attention paid to the
まず、図7Aに示す例について説明する。図7Aにおけるf10は、図4で示した入力信号f10(即ち、入力信号InA)に対応しており、f20は、図4で示した周期f20に対応している。また、f50は、時系列に沿ったゲインの変化を模擬的に示したグラフであり、図4のf50に対応している。また、図7Aにおけるf51は、この例における、時系列に沿ったゲインの変化を模擬的に示したグラフである。 First, the example shown in FIG. 7A will be described. 7A corresponds to the input signal f10 shown in FIG. 4 (that is, the input signal InA), and f20 corresponds to the period f20 shown in FIG. Further, f50 is a graph that schematically shows a change in gain along a time series, and corresponds to f50 in FIG. In addition, f51 in FIG. 7A is a graph that schematically shows a change in gain along the time series in this example.
この変形例に係るゲイン特定部112は、ゲインの変化を示す制御信号を、動作検出部111から受けた話者の振舞いの周期に対して、時系列に沿って所定の時間幅h51だけ位相をずれるように生成する。例えば、図7Aに示す例では、グラフf51は、グラフf50に比べて、時間幅h51だけ前側(時系列上の前側)に位相がずれている。この時間幅h51には、所定の定数値を用いてもよいし、話者の振舞いの周期の長さ(例えば、1周期の長さ)に対する相対値を用いてもよい。これらのいずれを利用するかは、例えば、音声認識処理や構文解析の特性に応じて決定するとよい。このようにして、このゲイン特定部112は、話者の振舞いの周期中の所望の位相でゲインが増幅するように、時系列に沿ったゲインの変化の位相を調整する。
The
これにより、図7Aに示すように、グラフf51で示された、時系列に沿ったゲインの変化のピーク位置が、時間幅h51だけ前側にシフトする。そのため、例えば、音声信号f110のうちのタイミングt201からt203の間で示された部分のうち、前側の信号が減衰されずに残る。即ち、タイミングt201からt203の間のうち、前側の部分が強調されることになり、この期間に対応する所定の単位の文字の集合の認識率を向上させることが可能となる。 As a result, as shown in FIG. 7A, the peak position of the gain change along the time series shown by the graph f51 is shifted forward by the time width h51. Therefore, for example, in the portion of the audio signal f110 indicated between timings t201 and t203, the front signal remains without being attenuated. That is, the front part is emphasized between the timings t201 and t203, and the recognition rate of a set of characters of a predetermined unit corresponding to this period can be improved.
なお、上記では、ゲイン特定部112が、ゲインの変化を示す制御信号の位相を調整していたが、例えば、同期演算部115が、時間幅h51を鑑みて、ゲイン制御部1162による時系列に沿ったゲイン制御の開始タイミングを調整してもよい。
In the above description, the
次に、図7Bに示す例について説明する。図7Aに示す例では、ゲインの変化を示す制御信号の位相を調整することで、所定の単位の文字の集合のうち、時系列に沿った所定の位置(タイミング)が強調されるようにゲインを制御していた。図7Bに示す例では、位相の調整に替えて、時系列に沿ったゲインの変化のピーク位置をずらすことで、所望の部分が強調されるように制御する。 Next, the example shown in FIG. 7B will be described. In the example shown in FIG. 7A, by adjusting the phase of the control signal indicating a change in gain, the gain is set so that a predetermined position (timing) along a time series is emphasized in a set of characters in a predetermined unit. Was controlling. In the example illustrated in FIG. 7B, control is performed so that a desired portion is emphasized by shifting the peak position of the gain change along the time series instead of adjusting the phase.
図7Bにおけるf10は、図4及び図7Aで示した入力信号f10(即ち、入力信号InA)に対応しており、f20は、図4及び図7Aで示した周期f20に対応している。また、f50は、時系列に沿ったゲインの変化を模擬的に示したグラフであり、図4及び図7Aのf50に対応している。また、図7Bにおけるf52は、この例における、時系列に沿ったゲインの変化を模擬的に示したグラフである。 7B corresponds to the input signal f10 (that is, the input signal InA) shown in FIGS. 4 and 7A, and f20 corresponds to the period f20 shown in FIGS. 4 and 7A. Further, f50 is a graph that schematically shows a change in gain along the time series, and corresponds to f50 in FIGS. 4 and 7A. Further, f52 in FIG. 7B is a graph that schematically shows a change in gain along the time series in this example.
この変形例に係るゲイン特定部112は、ゲインの変化を示す制御信号のピーク位置が、動作検出部111から受けた話者の振舞いの周期に対して、時系列に沿って所定の時間幅h52だけずれるように生成する。例えば、図7Bに示す例では、グラフf52は、グラフf50に比べて、時間幅h52だけ前側(時系列上の前側)にピーク位置がずれている。この時間幅h52には、所定の定数値を用いてもよいし、話者の振舞いの周期の長さ(例えば、1周期の長さ)に対する相対値を用いてもよい。これらのいずれを利用するかは、例えば、音声認識処理や構文解析の特性に応じて決定するとよい。
The
これにより、図7Bに示すように、グラフf52で示された、時系列に沿ったゲインの変化のピーク位置が、時間幅h52だけ前側にシフトする。そのため、例えば、音声信号f110のうちのタイミングt201からt203の間で示された部分のうち、前側の信号が減衰されずに残る。即ち、タイミングt201からt203の間のうち、前側の部分が強調されることになり、この期間に対応する所定の単位の文字の集合の認識率を向上させることが可能となる。また、図7Bに示す例では、音声信号f110の振幅が最も低下するタイミング(例えば、t201、t203)と、利得Gainが最も低下するタイミング(例えば、t501、t503)が一致する。そのため、音声信号f110の振幅に対してノイズf130の振幅の比率が最も大きくなるタイミング、即ち、ノイズf130が支配的となるタイミングの信号を減衰させ、他の部分を強調することが可能となる。 As a result, as shown in FIG. 7B, the peak position of the gain change along the time series shown by the graph f52 is shifted forward by the time width h52. Therefore, for example, in the portion of the audio signal f110 indicated between timings t201 and t203, the front signal remains without being attenuated. That is, the front part is emphasized between the timings t201 and t203, and the recognition rate of a set of characters of a predetermined unit corresponding to this period can be improved. In the example illustrated in FIG. 7B, the timing at which the amplitude of the audio signal f110 decreases most (for example, t201 and t203) matches the timing at which the gain Gain decreases most (for example, t501 and t503). Therefore, it is possible to attenuate the signal at the timing at which the ratio of the amplitude of the noise f130 to the amplitude of the audio signal f110 is the largest, that is, the timing at which the noise f130 is dominant, and emphasize other portions.
なお、上述で説明した実施形態及び変形例では、話者の振舞いの周期に基づき所望のタイミングで入力信号InAが強調されるように、他のタイミングの信号を減衰させる例について説明した。しかしながら、入力信号InAのうち、強調する部分と、それとは異なる他の部分との間で、信号の振幅に差を持たせることが可能であれば、この方法には限定されない。例えば、入力信号InA全体を増幅してから、他の部分の信号の振幅を減衰させてもよい。また、強調する部分の信号を増幅するように制御してもよい。このような制御は、例えば、ゲイン特定部112が、所望の制御にあわせて、各タイミングにおける利得Gainを調整して制御信号を生成すればよい。
In the embodiment and the modification described above, an example in which a signal at another timing is attenuated so that the input signal InA is emphasized at a desired timing based on the period of the speaker's behavior has been described. However, the method is not limited to this method as long as it is possible to make a difference in signal amplitude between the emphasized portion of the input signal InA and another portion different from the emphasized portion. For example, after the entire input signal InA is amplified, the amplitude of the signal of the other part may be attenuated. Further, control may be performed so as to amplify the signal of the emphasized portion. For example, the
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
101 集音部
102 画像取得部
11 音声処理ユニット
111 動作検出部
112 ゲイン特定部
113 音声信号取得部
114 遅延処理部
115 同期演算部
116 信号処理部
1161 増幅器
1162 ゲイン制御部
12 音声認識部
13 動作制御部
DESCRIPTION OF
Claims (15)
検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定部と、
特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理部と、
を備えたことを特徴とする音声処理装置。 A detector that detects the period of the speaker's behavior;
Based on the detected period of the behavior, a specifying unit that specifies a change in gain along a time series;
A signal processing unit that adjusts the amplitude of an input signal including an audio signal along a time series based on the identified change in the gain;
An audio processing apparatus comprising:
前記信号処理部は、特定された当該同期タイミングに基づき、前記入力信号の振幅を調整するタイミングを決定することを特徴とする請求項1に記載の音声処理装置。 A synchronization calculation unit for specifying a synchronization timing between the speaker's behavior period and the input signal;
The audio processing apparatus according to claim 1, wherein the signal processing unit determines a timing for adjusting an amplitude of the input signal based on the identified synchronization timing.
話者の動作を動画像として取得する画像取得部と、
前記動画像に基づき話者の振舞いの周期を検出する検出部と、
検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定部と、
特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理部と、
振幅が調整された前記入力信号に基づき音声認識を行う音声認識部と、
を備えた音声認識装置。 A sound collection unit for collecting an input signal including an audio signal;
An image acquisition unit for acquiring the motion of the speaker as a moving image;
A detection unit for detecting a period of a speaker's behavior based on the moving image;
Based on the detected period of the behavior, a specifying unit that specifies a change in gain along a time series;
A signal processing unit that adjusts the amplitude of an input signal including an audio signal along a time series based on the identified change in the gain;
A speech recognition unit for performing speech recognition based on the input signal whose amplitude is adjusted;
A speech recognition device comprising:
検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定ステップと、
特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理ステップと、
を含むことを特徴とする音声処理方法。 A detection step for detecting the period of the speaker's behavior;
A specific step of identifying a change in gain along a time series based on the detected period of the behavior;
A signal processing step of adjusting the amplitude of the input signal including the audio signal along a time series based on the specified change in the gain;
A speech processing method comprising:
検出された前記振舞いの周期に基づき、時系列に沿ったゲインの変化を特定する特定処理と、
特定された前記ゲインの変化に基づき、音声信号を含む入力信号の振幅を時系列に沿って調整する信号処理と、
を実行することを特徴とする音声処理プログラム。 A detection process that detects the period of the speaker's behavior;
Based on the detected period of the behavior, a specific process for specifying a change in gain along a time series;
Signal processing for adjusting the amplitude of the input signal including the audio signal along a time series based on the specified change in the gain;
A voice processing program characterized by executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012265707A JP6229869B2 (en) | 2012-12-04 | 2012-12-04 | Speech processing apparatus, speech recognition system, speech processing method, and speech processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012265707A JP6229869B2 (en) | 2012-12-04 | 2012-12-04 | Speech processing apparatus, speech recognition system, speech processing method, and speech processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014109770A true JP2014109770A (en) | 2014-06-12 |
JP6229869B2 JP6229869B2 (en) | 2017-11-15 |
Family
ID=51030415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012265707A Expired - Fee Related JP6229869B2 (en) | 2012-12-04 | 2012-12-04 | Speech processing apparatus, speech recognition system, speech processing method, and speech processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6229869B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355197A (en) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | Gain processing method and device for speech recognition system |
CN109511070A (en) * | 2018-11-10 | 2019-03-22 | 东莞市华睿电子科技有限公司 | Hearing aid sound processing method |
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59147398A (en) * | 1983-02-10 | 1984-08-23 | 株式会社リコー | Voice section detector |
JPH04180096A (en) * | 1990-11-15 | 1992-06-26 | Seiko Epson Corp | Voice recognition device |
JPH08179792A (en) * | 1994-12-22 | 1996-07-12 | Sony Corp | Speech processing device |
JP2013201642A (en) * | 2012-03-26 | 2013-10-03 | Nikon Corp | Electronic device |
-
2012
- 2012-12-04 JP JP2012265707A patent/JP6229869B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59147398A (en) * | 1983-02-10 | 1984-08-23 | 株式会社リコー | Voice section detector |
JPH04180096A (en) * | 1990-11-15 | 1992-06-26 | Seiko Epson Corp | Voice recognition device |
JPH08179792A (en) * | 1994-12-22 | 1996-07-12 | Sony Corp | Speech processing device |
JP2013201642A (en) * | 2012-03-26 | 2013-10-03 | Nikon Corp | Electronic device |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430157B2 (en) | 2015-01-19 | 2019-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing speech signal |
CN105355197A (en) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | Gain processing method and device for speech recognition system |
CN109511070A (en) * | 2018-11-10 | 2019-03-22 | 东莞市华睿电子科技有限公司 | Hearing aid sound processing method |
Also Published As
Publication number | Publication date |
---|---|
JP6229869B2 (en) | 2017-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8762144B2 (en) | Method and apparatus for voice activity detection | |
JP6171617B2 (en) | Response target speech determination apparatus, response target speech determination method, and response target speech determination program | |
JP6140579B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
US9514747B1 (en) | Reducing speech recognition latency | |
JP4557919B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP5870476B2 (en) | Noise estimation device, noise estimation method, and noise estimation program | |
JP2014123011A (en) | Noise detector, method, and program | |
CN104240718A (en) | Transcription support device, method, and computer program product | |
JP6759898B2 (en) | Utterance section detection device, utterance section detection method, and computer program for utterance section detection | |
JP6229869B2 (en) | Speech processing apparatus, speech recognition system, speech processing method, and speech processing program | |
JP2016180839A (en) | Noise suppression speech recognition apparatus and program thereof | |
JP2008168375A (en) | Body language robot, its controlling method and controlling program | |
CN109994129B (en) | Speech processing system, method and device | |
JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program | |
JP4791857B2 (en) | Utterance section detection device and utterance section detection program | |
JP2019020678A (en) | Noise reduction device and voice recognition device | |
CN103366737A (en) | An apparatus and a method for using tone characteristics in automatic voice recognition | |
KR101811716B1 (en) | Method for voice recognition and apparatus for voice recognition thereof | |
JP2011039222A (en) | Speech recognition system, speech recognition method and speech recognition program | |
JP5166470B2 (en) | Voice recognition device and content playback device | |
JP6071944B2 (en) | Speaker speed conversion system and method, and speed conversion apparatus | |
JP2019032400A (en) | Utterance determination program, utterance determination method, and utterance determination device | |
KR20120079342A (en) | Acoustic processing apparatus and method based on position information | |
JP2010237269A (en) | Speech recognition device, and method thereof and program thereof | |
JP4143487B2 (en) | Time-series information control system and method, and time-series information control program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20171004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6229869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |