JP2021163217A - Motion detection device, motion detection method, and program - Google Patents
Motion detection device, motion detection method, and program Download PDFInfo
- Publication number
- JP2021163217A JP2021163217A JP2020064339A JP2020064339A JP2021163217A JP 2021163217 A JP2021163217 A JP 2021163217A JP 2020064339 A JP2020064339 A JP 2020064339A JP 2020064339 A JP2020064339 A JP 2020064339A JP 2021163217 A JP2021163217 A JP 2021163217A
- Authority
- JP
- Japan
- Prior art keywords
- image
- acoustic signal
- detected
- acoustic
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 230000033001 locomotion Effects 0.000 title claims abstract description 79
- 230000008859 change Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 11
- 238000012545 processing Methods 0.000 description 46
- 230000001815 facial effect Effects 0.000 description 15
- 210000000056 organ Anatomy 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000000034 method Methods 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 206010002953 Aphonia Diseases 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】あいまいな動作であっても検出精度を、従来より向上させることができる動作検出装置、動作検出方法、およびプログラムを提供することを目的とする。【解決手段】動作検出装置は、動作を検出する対象の画像を取得する画像取得部と、環境の音響信号を取得する音響信号取得部と、取得された画像における特徴的な特徴点の動きを変化量として検出し、取得された音響信号の音響特徴情報を検出し、検出した変化量と音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行う検出部と、を備える。【選択図】図1PROBLEM TO BE SOLVED: To provide an operation detection device, an operation detection method, and a program capable of improving the detection accuracy even if the operation is ambiguous. SOLUTION: An motion detection device has an image acquisition unit that acquires an image of an object for which an motion is detected, an acoustic signal acquisition unit that acquires an acoustic signal of an environment, and movements of characteristic feature points in the acquired image. A detection unit that detects the amount of change, detects the acoustic feature information of the acquired acoustic signal, inputs the detected change amount and the acoustic feature information to the trained neural network, and detects a predetermined operation. To prepare for. [Selection diagram] Fig. 1
Description
本発明は、動作検出装置、動作検出方法、およびプログラムに関する。 The present invention relates to a motion detection device, a motion detection method, and a program.
実際の生活環境においてロボットと人間が協調するためには、人間とロボットのコミュニケーションが重要である。ロボットは、言語表現だけでなく、頷きやジェスチャーといった非言語表現も理解することが必要である。
人の動作を検出する手法として、人の動作の動画から動きを認識する装置が提案されている(例えば、特許文献1、特許文献2参照)。
Communication between humans and robots is important for robots and humans to cooperate in the actual living environment. Robots need to understand not only linguistic expressions but also non-verbal expressions such as nods and gestures.
As a method for detecting a human motion, a device that recognizes the motion from a moving image of the human motion has been proposed (see, for example,
しかしながら、従来技術では、動作があいまいである場合、動作の検出が困難であった。 However, in the prior art, when the operation is ambiguous, it is difficult to detect the operation.
本発明は、上記の問題点に鑑みてなされたものであって、あいまいな動作であっても検出精度を、従来より向上させることができる動作検出装置、動作検出方法、およびプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and provides an operation detection device, an operation detection method, and a program capable of improving the detection accuracy even if the operation is ambiguous. With the goal.
(1)上記目的を達成するため、本発明の一態様に係る動作検出装置は、動作を検出する対象の画像を取得する画像取得部と、環境の音響信号を取得する音響信号取得部と、取得された前記画像における特徴的な特徴点の動きを変化量として検出し、取得された音響信号の音響特徴情報を検出し、検出した前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行う検出部と、を備える。 (1) In order to achieve the above object, the motion detection device according to one aspect of the present invention includes an image acquisition unit that acquires an image of an object for which motion is detected, an acoustic signal acquisition unit that acquires an environmental acoustic signal, and an acoustic signal acquisition unit. The movement of the characteristic feature point in the acquired image is detected as a change amount, the acoustic feature information of the acquired acoustic signal is detected, and the detected change amount and the acoustic feature information are used in a trained neural network. It is provided with a detection unit for detecting a predetermined operation by inputting to.
(2)また、本発明の一態様に係る動作検出装置において、前記音響特徴情報は、所定時間の前記音響信号のパワー総和に基づく前記音響信号の強弱と、前記音響信号が所定の大きさ以上であるか否かであり、前記変化量は、撮影された前記画像から前記特徴点の位置を検出し、第1時刻における検出した前記特徴点の位置と、第2時刻における検出した前記特徴点の位置との差であるようにしてもよい。 (2) Further, in the motion detection device according to one aspect of the present invention, the acoustic feature information includes the strength and weakness of the acoustic signal based on the total power of the acoustic signal for a predetermined time, and the acoustic signal having a predetermined magnitude or more. The amount of change is the position of the feature point detected from the captured image, the position of the feature point detected at the first time, and the feature point detected at the second time. It may be the difference from the position of.
(3)また、本発明の一態様に係る動作検出装置において、前記所定時間は、前記画像のフレームレートに合わせるための長さであるようにしてもよい。 (3) Further, in the motion detection device according to one aspect of the present invention, the predetermined time may be a length for adjusting to the frame rate of the image.
(4)また、本発明の一態様に係る動作検出装置において、前記検出部は、前記変化量と前記音響特徴情報とを、前記ニューラルネットワークの入力前に連結するようにしてもよい。 (4) Further, in the motion detection device according to one aspect of the present invention, the detection unit may connect the change amount and the acoustic feature information before inputting to the neural network.
(5)また、本発明の一態様に係る動作検出装置において、前記動作を検出する対象は人であり、前記動作は頷きであるようにしてもよい。 (5) Further, in the motion detection device according to one aspect of the present invention, the target for detecting the motion may be a person, and the motion may be a nod.
(6)上記目的を達成するため、本発明の一態様に係る動作検出方法は、画像取得部が、動作を検出する対象の画像を取得し、音響信号取得部が、環境の音響信号を取得し、検出部が、取得された前記画像における特徴的な特徴点の動きを変化量として検出し、取得された音響信号の音響特徴情報を検出し、検出した前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行う。 (6) In order to achieve the above object, in the motion detection method according to one aspect of the present invention, the image acquisition unit acquires the image of the target for which the motion is detected, and the acoustic signal acquisition unit acquires the acoustic signal of the environment. Then, the detection unit detects the movement of the characteristic feature point in the acquired image as a change amount, detects the acoustic feature information of the acquired acoustic signal, and detects the change amount and the acoustic feature information. , Input to the trained neural network to detect a predetermined motion.
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、動作を検出する対象の画像を取得させ、音響信号取得部が、環境の音響信号を取得させ、取得された前記画像における特徴的な特徴点の動きを変化量として検出させ、取得された音響信号の音響特徴情報を検出させ、検出された前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行わせる。 (7) In order to achieve the above object, the program according to one aspect of the present invention causes a computer to acquire an image of a target for detecting an operation, and an acoustic signal acquisition unit acquires an environmental acoustic signal and acquires the image. The movement of characteristic feature points in the image is detected as a change amount, the acoustic feature information of the acquired acoustic signal is detected, and the detected change amount and the acoustic feature information are transmitted to a trained neural network. Input to detect a predetermined operation.
上述した(1)〜(6)によれば、あいまいな動作であっても検出精度を、従来より向上させることができる。
上述した(2)によれば、検出対象の動きの情報を取得することができ、環境の音響信号に関する情報を取得することができる。
上述した(3)によれば、音響特徴情報を画像に基づく変化量と合わせることができる。
上述した(4)によれば、あいまいな動作であっても検出精度を、従来より向上させることができる。
上述した(5)によれば、あいまいな行動である頷きを検出することができる。
According to the above-mentioned (1) to (6), the detection accuracy can be improved as compared with the conventional case even if the operation is ambiguous.
According to (2) described above, information on the movement of the detection target can be acquired, and information on the acoustic signal of the environment can be acquired.
According to (3) described above, the acoustic feature information can be combined with the amount of change based on the image.
According to (4) described above, the detection accuracy can be improved as compared with the conventional case even if the operation is ambiguous.
According to (5) described above, nodding, which is an ambiguous behavior, can be detected.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings used in the following description, the scale of each member is appropriately changed in order to make each member recognizable.
図1は、本実施形態に係る動作検出システム1の構成例を示すブロック図である。図1に示すように、動作検出システム1は、収音部2(音響信号取得部)、撮影部3(画像取得部)、および動作検出装置4を備えている。
動作検出装置4は、音声処理部41(音響信号取得部)、画像処理部42(画像取得部)、検出部43、および出力部44を備えている。
FIG. 1 is a block diagram showing a configuration example of the
The motion detection device 4 includes a voice processing unit 41 (acoustic signal acquisition unit), an image processing unit 42 (image acquisition unit), a
収音部2は、マイクロホンであり、音響信号を収音して、収音した音響信号を動作検出装置4に出力する。なお、収音部2は、複数のマイクロホンを備えるマイクロホンアレイであってもよい。また、収音部2は、収音した音響信号をアナログ信号からデジタル信号に変換し、変換したデジタル信号の音響信号を動作検出装置4に出力するようにしてもよい。
The
撮影部3は、例えばCMOS(Complementary MOS)撮像素子、またはCCD(Charge Coupled Device)撮影素子である。撮影部3は、撮影した画像を動作検出装置4に出力する。なお、撮影される画像は。所定時間毎の静止画であってもよく、動画であってもよい。
The photographing
動作検出装置4は、音響信号(音声信号)と、画像情報に基づいて、話し手の発話に対する聞き手の頷きである確率を推定する。 The motion detection device 4 estimates the probability that the listener nods to the speaker's utterance based on the acoustic signal (voice signal) and the image information.
音声処理部41は、収音部2が出力する音響信号を取得する。音声処理部41は、なお、収音部2が出力する音響信号に対して、アナログ信号からデジタル信号(例えば16ビットの離散データ)に変換する。音声処理部41は、取得した音響信号に対して、音声の有無(音響信号が所定の大きさ以上であるか否か)と、音声抑揚(音響信号の強弱)を検出する。なお、検出方法については後述する。音声処理部41は、検出した発話の有無情報と発話抑揚に関する情報を発話情報(音響特徴情報)として検出部43に出力する。発話情報は、話し手がロボットなどのシステムの場合、システム側の時系列情報でもある。
The
画像処理部42は、撮影部3が撮影した画像を取得する。画像処理部42は、聞き手のあいまいな動作として頷きを検出する場合、取得した画像に対して画像処理を行って、例えば聞き手の顔の領域を抽出し、抽出した顔に対応する画像から特徴量を抽出する。画像処理部42は、頷き認識に不要な情報を削除する。画像処理部42は、画像に含まれている話者の顔のキーポイントを検出する。画像処理部42は、検出した顔のキーポイントを示す顔キーポイントそれぞれの顔器官点の変化量を算出し、算出した顔器官点の変化量を検出部43に出力する。なお、顔のキーポイントの検出方法、顔器官点の変化量の算出方法については、後述する。
The
検出部43は、音声処理部41が出力する発話情報と、画像処理部が出力する顔キーポイント情報を取得する。検出部43は、取得した頷き情報と顔キーポイント情報を統合し、学習されたモデルを用いて、聞き手の動作を検出する。なお、検出部43の構成例、検出部43の動作例は、後述する。検出部43は、検出した聞き手の動作を示す動作情報を出力部44に出力する。
The
出力部44は、例えば画像表示装置、印刷装置等である。出力部44は、検出部43が出力する動作情報を出力する。
The
なお、以下の実施例では、聞き手のあいまいな動作の例として、頷きを例に説明するが、聞き手のあいまいな動作はこれに限らない。聞き手のあいまいな動作は、例えば、瞬きや手を振るジャスチャー、顔を横に向ける動作等であってもよい。 In the following embodiment, nodding will be described as an example of the listener's ambiguous movement, but the listener's ambiguous movement is not limited to this. The listener's ambiguous movements may be, for example, blinking, waving gestures, or turning the face sideways.
[話し手の発話抑揚と聞き手の頷き]
ここで、発話における話し手の発話抑揚と聞き手の頷きの例を説明する。
図2は、話し手の発話抑揚と聞き手の頷きを可視化した例を示す図である。図2において、横軸はフレーム番号であり、縦軸は発話抑揚(振幅の変化)である。なお、図2において、話者は話し手であり、頷きの動作を行っているのは聞き手である。また、頷きの区間g11は、目視で確認した。
[Speaker's speech intonation and listener's nod]
Here, an example of the speaker's utterance intonation and the listener's nod in the utterance will be described.
FIG. 2 is a diagram showing an example of visualizing the speaker's utterance intonation and the listener's nod. In FIG. 2, the horizontal axis is the frame number, and the vertical axis is the utterance intonation (change in amplitude). In FIG. 2, the speaker is the speaker, and the listener is performing the nodding action. In addition, the nodding section g11 was visually confirmed.
図2のように、話し手の発話中に頷きが発生しやすい。また、図2のように、話し手は、1文発話すると、発話抑揚の形状が山なりになる傾向がある。聞き手の頷きは、話者の話し声によって引き起こされるため、本実施形態では、聞き手の頷きのタイミングの追加の手がかりとして音声情報を使用する。
なお、本実施形態で用いる音響信号と聞き手の動作の画像は、例えばビデオチャット等を録画したものであってもよく、例えばビデオチャット中にリアルタイム取得したものであってもよい。
As shown in FIG. 2, nodding is likely to occur during the speaker's utterance. Further, as shown in FIG. 2, when a speaker speaks one sentence, the shape of the utterance intonation tends to be mountainous. Since the listener's nod is caused by the speaker's voice, the present embodiment uses voice information as an additional clue to the listener's nod timing.
The acoustic signal and the image of the listener's motion used in the present embodiment may be, for example, a recorded video chat or the like, or may be acquired in real time, for example, during the video chat.
[音声処理部の処理]
次に、音声処理部41が行う処理例を説明する。
音声処理部41は、例えばデジタル化された音声信号のバイナリ値と、音声有無のしきい値を比較して、音声の有無を検出する。音声処理部41は、例えば、発話区間全域を1とし、それ以外の区間を0とする。または、音声処理部41は、フレーム毎の音声パワーに基づいて、音声の有無を検出するようにしてもよい。
[Processing of voice processing unit]
Next, a processing example performed by the
The
また、音声処理部41は、音響信号の振幅に基づいて、音声抑揚を検出する。ただし、音声信号には負の値があるため、音声処理部41は、前処理で波形データから音声パワーを計算する。さらに、サンプリング周波数は、ビデオ画像シーケンスと音響信号で異なっている。
Further, the
このため、本実施形態において、音声処理部41が、次式(1)に示すように、時間tの前後10サンプルずつの音声パワーを合計した値を音声情報の特徴S(t)として使用する。これにより、本実施形態によれば、音響特徴情報を画像に基づく変化量と合わせることができる。
Therefore, in the present embodiment, as shown in the following equation (1), the
なお、式(2)において、s(t)は時刻tにおける音声パワーであり、s(t+i)2は音声パワーであり、iはサンプル数である。なお、本実施形態では、サンプル数を、時間tの前後10サンプルとした例を説明するが、サンプル数は一例であり、これに限らない。 In the equation (2), s (t) is the voice power at time t, s (t + i) 2 is the voice power, and i is the number of samples. In this embodiment, an example in which the number of samples is 10 samples before and after the time t will be described, but the number of samples is an example and is not limited to this.
一般的に、頷きには2つのタイプがある。他の人のスピーチに応じた頷き(「あなた(you)」というラベルで表される)と、自分のスピーチ中の頷き(「私(me)」ラベルで表される)である。本実施形態では、他の人のスピーチに応じて頷きに焦点を当てるため、トレーニングと評価には「あなた」のサンプルのみを使用する。 In general, there are two types of nods. Nods in response to other people's speeches (represented by the label "you") and nods in your own speech (represented by the "me" label). In this embodiment, only the "you" sample is used for training and evaluation because the focus is on nodding in response to the speeches of others.
[画像処理部の処理]
次に、画像処理部42が行う処理例を説明する。
本実施形態では、現在のフレームと前のフレームの間の顔のキーポイントの位置の違いを、動き情報として使用する。
顔画像全体の特徴を抽出すると、これにより外観の特徴が形成される。これにより、うなずき認識には、不要な情報が取得できる。このため、本実施形態では、顔のキーポイントの動きの違いを使用して、動き情報をキャプチャし、不要な外観情報を削除する。
[Processing of image processing unit]
Next, a processing example performed by the
In this embodiment, the difference in the position of the key point of the face between the current frame and the previous frame is used as motion information.
When the features of the entire face image are extracted, the features of the appearance are formed by this. As a result, information unnecessary for nodding recognition can be acquired. Therefore, in the present embodiment, the movement information is captured and unnecessary appearance information is deleted by using the difference in the movement of the key points of the face.
画像処理部42は、例えばDlib(参考文献1参照)によって、顔検出と顔のキーポイント検出を行う。
The
参考文献1;Davis E.King, “Dlib-ml: A machine learning toolkit.”, Journal of Machine Learning Research, Vol.10, pp.1755-1758, 2009.
図3は、Dlibを使用した顔のキーポイントの検出を説明するための図である。符号g21は検出された顔の領域であり、符号g22は検出された顔のキーポイントの例である。図3のように、Dlibは、例えば68の顔のキーポイントを検出する。 FIG. 3 is a diagram for explaining the detection of facial key points using Dlib. Reference numeral g21 is a region of the detected face, and reference numeral g22 is an example of the key points of the detected face. As shown in FIG. 3, Dlib detects, for example, 68 facial key points.
顔のキーポイントiの時間tにおけるx方向の移動量dx,iとy方向の移動量dy,iは、次式(2)で与えられる。画像処理部42は、時間tにおけるx方向の移動量dx,iとy方向の移動量dy,iを顔器官点の変化量として検出部43に出力する。
Movement amount d x in the x direction at time t keypoint i face, the movement amount d y i and y-direction, i is given by the following equation (2). The
式(2)において、iは顔器官点の対応番号であり、dx,i(t)とdx,i(t)は時刻t(第1時刻)における特徴量である。また、xi(t)とyi(t)は時刻tにおける顔器官点位置であり、xi(t−5)とyi(t−5)は5フレーム前(第2時刻)における顔器官点位置である。なお、本実施形態では、5フレーム前の位置と時刻tの位置の差を特徴量とする例を説明したが、比較に用いるフレーム数は5フレーム前に限らず、他のフレーム数であってもよい。
なお、顔のキーポイントの総数が68であるため、dx,i(t)とdx,i(t)を組み合わせると、モーション情報の特徴ベクトルは136次元になる。
また、Dlibによって顔検出できなかったフレームは、前後の顔検出の平均を用いて補間するようにしてもよい。
In the formula (2), i is the corresponding number of the facial organ point, and d x, i (t) and d x, i (t) are the feature quantities at the time t (first time). Further, x i (t) and y i (t) are facial organ point positions at time t, and x i (t-5) and y i (t-5) are faces 5 frames before (second time). Organ point position. In the present embodiment, an example in which the difference between the position 5 frames before and the position at time t is used as the feature quantity has been described, but the number of frames used for comparison is not limited to 5 frames before, but may be other frames. May be good.
Since the total number of key points on the face is 68, the feature vector of the motion information becomes 136 dimensions when d x, i (t) and d x, i (t) are combined.
Further, the frame whose face could not be detected by Dlib may be interpolated by using the average of the front and back face detection.
[検出部の構成例と処理例]
次に、検出部43が備えるモデルの構成例と処理例を説明する。
図4は、本実施形態に係る検出部43の構成例と処理例を説明するための図である。図4のように、検出部43は、連結部431(concat)、全結合層432(FC;Fully Connected)、LSTM433(Long Short Term Memory)、LSTM434、および全結合層435を備える。なお、図4のように、検出部43は、RNNを2層持つ構造のネットワークモデルである。
[Configuration example and processing example of detection unit]
Next, a configuration example and a processing example of the model included in the
FIG. 4 is a diagram for explaining a configuration example and a processing example of the
検出部43には、136次元の顔器官点の変化量と、1次元の発話情報が入力される。
連結部431は、136次元の顔器官点の変化量と、1次元の発話情報の各入力値を0〜1に正規化し、連結する。なお、連結部431は、連結中にこれらの機能値に重みを適用する。
全結合層432は、例えば、活性化関数がReLU(Rectified Linear Unit、参考文献2参照)である。
LSTM433は、例えば、ユニット数が256であり、ドロップアウトが0.5であり、活性化関数がReLUである。
LSTM434は、例えば、ユニット数が256であり、ドロップアウトが0.5であり、活性化関数がReLUである。
全結合層435は、例えば、活性化関数がReLUである。
The amount of change in the 136-dimensional facial organ points and the one-dimensional utterance information are input to the
The connecting
The activation function of the fully connected
The SSTM433 has, for example, 256 units, a dropout of 0.5, and an activation function of ReLU.
The SSTM434 has, for example, 256 units, a dropout of 0.5, and an activation function of ReLU.
The activation function of the fully connected
参考文献2;Vinod Nair, Geoffrey E. Hinton,”Rectied linear units improve restricted boltzmann machines”, Proceedings of the 27th International Conference on Machine Learning, pp. 807-814 (2010).
検出部43は、例えば、RMSpropを最適化に使用し、バッチサイズ32で300エポック(epoch)、検出部43が備えるモデルのトレーニングを行う。なお、RMSpropは、深層学習における勾配法の1つであり、AdaGradを改良したアルゴリズムである。また、検出結果は、例えば“1”が発話を行っていることを示し、“0”が発話を行っていないことを示す。
The
また、活性化関数はReLUに限らず、例えばsigmoidやtanh等の他の活性化関数であってもよい。
さらに、LSTMに限らず、現在のデータと過去のデータを時系列に扱える手法であってもよい。
Further, the activation function is not limited to ReLU, and may be another activation function such as sigmoid or tanh.
Further, the method is not limited to LSTM, and may be a method capable of handling current data and past data in time series.
[処理手順]
次に、処理手順例を説明する。
図5は、本実施形態に係る動作検出システム1が行う処理手順例のフローチャートである。なお、検出部43が備えるモデル(ニューラルネットワーク)は、例えばビデオ会議等の教師データを用いて学習させた後、以下の処理を行う。
[Processing procedure]
Next, an example of the processing procedure will be described.
FIG. 5 is a flowchart of an example of a processing procedure performed by the
(ステップS1)収音部2は、話し手の音響信号を収音する。動作検出装置4は、話し手の音響信号を取得する。
(Step S1) The
(ステップS2)撮影部3は、聞き手の顔を含む画像を撮影する。動作検出装置4は、聞き手の画像を取得する。
(Step S2) The photographing
(ステップS3)音声処理部41は、音響信号を用いて、発話情報(発話の有無、発話抑揚)を検出する。
(Step S3) The
(ステップS4)画像処理部42は、画像から顔の領域の検出、顔のキーポイントの検出を行う。続けて、画像処理部42は、顔のキーポイントの移動量を算出する。
(Step S4) The
(ステップS5)検出部43は、136次元の顔器官点の変化量と、1次元の発話情報の各入力値を0〜1に正規化し、連結する。
(Step S5) The
(ステップS6)検出部43は、連結した情報をモデルに入力して、頷きであるか否かを検出する。
(Step S6) The
(ステップS7)出力部44は、検出部43が判断した結果を出力する。
(Step S7) The
[評価結果]
次に、評価結果例を説明する。
図6は、第1の比較例の音声情報のみに基づいて頷きを判断した場合の精度例を示す図である。なお、第1の比較例に用いた検出部のネットワーク構造は、第1LSTMと第2LSTMと全結合層を備え、第1LSTM、第2LSTM、全結合層の順に接続されている。第1の比較例では、第1LSTMに1次元の発話情報が入力され、頷きの判断結果が出力される。
図6のように、入力としてのスピーチの有無だけでは、うなずきの判断ができない。
発話抑揚の情報は、約42.0%の認識精度を達成している。平均認識率は約63.6%である。
この結果、聞き手が頷いているかどうかを判断するには、話し手の発話抑揚の情報が重要であることを示している。
[Evaluation results]
Next, an example of the evaluation result will be described.
FIG. 6 is a diagram showing an accuracy example when the nod is determined based only on the voice information of the first comparative example. The network structure of the detection unit used in the first comparative example includes a first LSTM, a second LSTM, and a fully connected layer, and is connected in the order of the first LSTM, the second LSTM, and the fully connected layer. In the first comparative example, one-dimensional utterance information is input to the first LSTM, and a nodding judgment result is output.
As shown in FIG. 6, it is not possible to judge a nod only by the presence or absence of a speech as an input.
The speech intonation information achieves a recognition accuracy of about 42.0%. The average recognition rate is about 63.6%.
As a result, it is shown that the information of the speaker's speech intonation is important for determining whether the listener is nodding.
図7は、第2の比較例の顔器官点の変化量のみに基づいて頷きを判断した場合の精度例を示す図である。なお、第2の比較例に用いた検出部のネットワーク構造も、第1LSTMと第2LSTMと全結合層を備え、第1LSTM、第2LSTM、全結合層の順に接続されている。第2の比較例では、第1LSTMに136次元の顔器官点の変化量が入力され、頷きの判断結果が出力される。
上述したように、顔のキーポイントの移動量は、現在のフレームと前のフレームのキーポイントの位置の差である。
FIG. 7 is a diagram showing an accuracy example when the nod is determined based only on the amount of change in the facial organ points of the second comparative example. The network structure of the detection unit used in the second comparative example also includes a first LSTM, a second LSTM, and a fully connected layer, and is connected in the order of the first LSTM, the second LSTM, and the fully connected layer. In the second comparative example, the amount of change in the facial organ points of 136 dimensions is input to the first LSTM, and the nodding judgment result is output.
As described above, the amount of movement of the key points of the face is the difference between the positions of the key points of the current frame and the previous frame.
図7に示す例では、顔のキーポイントの移動量の計算に使用されるフレーム間隔の効果を評価した例である。図7のように、5フレームの間隔を使用した場合は、約83.1%頷きの認識精度が達成された。1フレームの間隔を使用した場合は、頷きの認識精度が5フレームより向上したが、5フレームの間隔を使用する場合よりも多くの誤検知(存在しない場合にうなずきを認識する)が発生した。このため、本実施形態では、顔のキーポイントの移動量の計算に使用されるフレーム間隔を5フレームとした。 In the example shown in FIG. 7, the effect of the frame interval used for calculating the movement amount of the key points of the face is evaluated. As shown in FIG. 7, when the interval of 5 frames was used, the recognition accuracy of nodding of about 83.1% was achieved. When the 1-frame interval was used, the nodding recognition accuracy was improved compared to 5 frames, but more false positives (recognizing the nod when it did not exist) occurred than when the 5-frame interval was used. Therefore, in the present embodiment, the frame interval used for calculating the movement amount of the key points of the face is set to 5 frames.
図8は、本実施形態における頷きを判断した場合の精度例を示す図である。
発話情報機と顔のキーポイントの移動量の両方についてモデルを同時にトレーニングした。図8に示すように、2つの情報を同時に使用すると、84.4%の全体的な精度が達成され、頷きがあるか否かが判断された。この結果は、一方の情報のみを使用して達成された第1の比較例や第2の比較例の結果よりも正確である。
FIG. 8 is a diagram showing an accuracy example when the nod in the present embodiment is determined.
The model was trained simultaneously on both the speech detector and the amount of movement of key points on the face. As shown in FIG. 8, when the two pieces of information were used simultaneously, an overall accuracy of 84.4% was achieved and it was determined whether or not there was a nod. This result is more accurate than the results of the first and second comparative examples achieved using only one piece of information.
[変形例]
なお、図4に示した検出部43が有するモデル(ニューラルネットワーク)の構成例は一例であり、これに限らない。例えばLSTMのユニット数は256未満であっても、256より多くてもよい。また、LSTMの個数も2つに限らず、1つであってもよく、3つ以上であってもよい。
また、連結部431の接続位置は、全結合層435の前であってもよい。この場合、モデルは、例えば2層のLSTMを、顔器官点の変化量用と、1次元の発話情報用の2系統備えていてもよい。
[Modification example]
The configuration example of the model (neural network) included in the
Further, the connection position of the connecting
図9は、本実施形態に係るニューラルネットワークの第1変形例を示す図である。図9の例では、全結合層が1つの例であり、連結部、LSTM、LSTM、全結合層の順に接続されている。このようなニューラルネットワークの構成であっても、従来と比較して、頷きの認識率(正答率)を向上させることができる。 FIG. 9 is a diagram showing a first modification of the neural network according to the present embodiment. In the example of FIG. 9, the fully connected layer is one example, and the connecting portion, the LSTM, the LSTM, and the fully connected layer are connected in this order. Even with such a neural network configuration, the nodding recognition rate (correct answer rate) can be improved as compared with the conventional case.
図10は、本実施形態に係るニューラルネットワークの第2変形例を示す図である。図10の例では、LTSM層が1つの例であり、連結部、全結合層、LSTM、全結合層の順に接続されている。このようなニューラルネットワークの構成であっても、従来と比較して、頷きの認識率(正答率)を向上させることができる。 FIG. 10 is a diagram showing a second modification of the neural network according to the present embodiment. In the example of FIG. 10, the LTSM layer is one example, and the connecting portion, the fully connected layer, the LSTM, and the fully connected layer are connected in this order. Even with such a neural network configuration, the nodding recognition rate (correct answer rate) can be improved as compared with the conventional case.
また、話し手は、動作時に音を発生させる物、例えばロボット等であってもよい。例えば、環境音を収音部2が収音し、その環境に存在する動作を検出する対象の人や物の画像を撮影部3が撮影するようにしてもよい。あるいは、例えば、話し手の発話を収音部2が収音し、その環境に存在する動作を検出する対象の人や物の画像を撮影部3が撮影するようにしてもよい。
また、動作の検出対象が物である場合、動作検出装置4は、撮影された物の画像から、動作している領域を抽出し、抽出した領域の画像の特徴的な位置をキーポイントとし、そのキーポイントのフレーム間での移動量を、顔器官点の変化量の代わりに用いてもよい。
Further, the speaker may be an object that generates sound during operation, for example, a robot or the like. For example, the
When the motion detection target is an object, the motion detection device 4 extracts an operating area from the captured image of the object, and uses the characteristic position of the image of the extracted area as a key point. The amount of movement of the key point between frames may be used instead of the amount of change in facial organ points.
以上のように、本実施形態では、音響信号から音響特徴情報を検出するようにし、画像から変化量を検出するようにした。また、本実施形態では、音響特徴情報を、所定時間の音響信号のパワー総和に基づく前記音響信号の強弱と、音響信号が所定の大きさ以上であるか否かであるようにし、変化量は、撮影された画像から特徴点の位置を検出し、第1時刻における検出した特徴点の位置と、第2時刻における検出した前記特徴点の位置との差であるようにした。また、本実施形態では、人の動きの動画に加え、話者の音声パワーを学習済みニューラルネットワークに入力して、頷きを判断するようにした。 As described above, in the present embodiment, the acoustic feature information is detected from the acoustic signal, and the amount of change is detected from the image. Further, in the present embodiment, the acoustic feature information is determined by the strength of the acoustic signal based on the total power of the acoustic signals for a predetermined time and whether or not the acoustic signal has a predetermined magnitude or more, and the amount of change is changed. , The position of the feature point was detected from the captured image, and the difference between the position of the detected feature point at the first time and the position of the detected feature point at the second time was set. Further, in the present embodiment, in addition to the moving image of the person, the voice power of the speaker is input to the trained neural network to judge the nod.
これにより、本実施形態によれば、検出対象の動きの情報を取得することができ、環境の音響信号に関する情報を取得することができる。この結果、本実施形態によれば、頷きなど特定の動きの検出を行うことができる。 As a result, according to the present embodiment, it is possible to acquire information on the movement of the detection target, and it is possible to acquire information on the acoustic signal of the environment. As a result, according to the present embodiment, it is possible to detect a specific movement such as nodding.
なお、本発明における動作検出装置4の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより動作検出装置4が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 A program for realizing all or a part of the functions of the motion detection device 4 in the present invention is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read by the computer system and executed. By doing so, all or part of the processing performed by the motion detection device 4 may be performed. The term "computer system" as used herein includes hardware such as an OS and peripheral devices. Further, the "computer system" shall also include a WWW system provided with a homepage providing environment (or display environment). Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, or a storage device such as a hard disk built in a computer system. Furthermore, a "computer-readable recording medium" is a volatile memory (RAM) inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, it shall include those that hold the program for a certain period of time.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the program may be transmitted from a computer system in which this program is stored in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the "transmission medium" for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the above program may be for realizing a part of the above-mentioned functions. Further, it may be a so-called difference file (difference program) that can realize the above-mentioned function in combination with a program already recorded in the computer system.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
1…動作検出システム、2…収音部、3…撮影部、4…動作検出装置、41…音声処理部、42…画像処理部、43…検出部、44…出力部 1 ... Motion detection system, 2 ... Sound collection unit, 3 ... Shooting unit, 4 ... Motion detection device, 41 ... Voice processing unit, 42 ... Image processing unit, 43 ... Detection unit, 44 ... Output unit
Claims (7)
環境の音響信号を取得する音響信号取得部と、
取得された前記画像における特徴的な特徴点の動きを変化量として検出し、取得された音響信号の音響特徴情報を検出し、検出した前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行う検出部と、
を備える動作検出装置。 An image acquisition unit that acquires an image of the target for which motion is detected, and an image acquisition unit
An acoustic signal acquisition unit that acquires the acoustic signal of the environment,
The movement of the characteristic feature point in the acquired image is detected as a change amount, the acoustic feature information of the acquired acoustic signal is detected, and the detected change amount and the acoustic feature information are used in a trained neural network. A detector that detects a predetermined operation by inputting to
Motion detection device.
前記変化量は、撮影された前記画像から前記特徴点の位置を検出し、第1時刻における検出した前記特徴点の位置と、第2時刻における検出した前記特徴点の位置との差である、
請求項1に記載の動作検出装置。 The acoustic feature information is the strength of the acoustic signal based on the total power of the acoustic signal for a predetermined time, and whether or not the acoustic signal has a predetermined magnitude or more.
The amount of change is the difference between the position of the feature point detected at the first time and the position of the feature point detected at the second time by detecting the position of the feature point from the captured image.
The motion detection device according to claim 1.
請求項2に記載の動作検出装置。 The predetermined time is a length for adjusting to the frame rate of the image.
The motion detection device according to claim 2.
前記変化量と前記音響特徴情報とを、前記ニューラルネットワークの入力前に連結する、
請求項1から請求項3のいずれか1項に記載の動作検出装置。 The detection unit
The change amount and the acoustic feature information are connected before the input of the neural network.
The motion detection device according to any one of claims 1 to 3.
前記動作は頷きである、
請求項1から請求項4のいずれか1項に記載の動作検出装置。 The target for detecting the above motion is a person.
The action is nodding,
The motion detection device according to any one of claims 1 to 4.
音響信号取得部が、環境の音響信号を取得し、
検出部が、取得された前記画像における特徴的な特徴点の動きを変化量として検出し、取得された音響信号の音響特徴情報を検出し、検出した前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行う、
動作検出方法。 The image acquisition unit acquires the image of the target for which the operation is detected,
The acoustic signal acquisition unit acquires the acoustic signal of the environment and
The detection unit detects the movement of the characteristic feature point in the acquired image as a change amount, detects the acoustic feature information of the acquired acoustic signal, and learns the detected change amount and the acoustic feature information. Input to a completed neural network to detect a predetermined motion,
Motion detection method.
動作を検出する対象の画像を取得させ、
音響信号取得部が、環境の音響信号を取得させ、
取得された前記画像における特徴的な特徴点の動きを変化量として検出させ、
取得された音響信号の音響特徴情報を検出させ、
検出された前記変化量と前記音響特徴情報を、学習済みのニューラルネットワークに入力して、所定の動作の検出を行わせる、
プログラム。 On the computer
Get the image of the target to detect the movement,
The acoustic signal acquisition unit acquires the acoustic signal of the environment,
The movement of the characteristic feature points in the acquired image is detected as the amount of change.
Detects the acoustic feature information of the acquired acoustic signal and
The detected change amount and the acoustic feature information are input to the trained neural network to detect a predetermined motion.
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020064339A JP2021163217A (en) | 2020-03-31 | 2020-03-31 | Motion detection device, motion detection method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020064339A JP2021163217A (en) | 2020-03-31 | 2020-03-31 | Motion detection device, motion detection method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021163217A true JP2021163217A (en) | 2021-10-11 |
Family
ID=78003538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020064339A Pending JP2021163217A (en) | 2020-03-31 | 2020-03-31 | Motion detection device, motion detection method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021163217A (en) |
-
2020
- 2020-03-31 JP JP2020064339A patent/JP2021163217A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
CN108363978B (en) | Emotion sensing method based on body language by adopting deep learning and UKF | |
US12214492B2 (en) | Information processing device and storage medium | |
CN107799126B (en) | Voice endpoint detection method and device based on supervised machine learning | |
CN112686048A (en) | Emotion recognition method and device based on fusion of voice, semantics and facial expressions | |
KR20100001928A (en) | Service apparatus and method based on emotional recognition | |
CN112801000B (en) | A fall detection method and system for the elderly at home based on multi-feature fusion | |
Abdulsalam et al. | Emotion recognition system based on hybrid techniques | |
JP6819633B2 (en) | Personal identification device and feature collection device | |
CN114492579A (en) | Emotion recognition method, camera device, emotion recognition device and storage device | |
JP6886651B2 (en) | Action command generation system, response system and action command generation method | |
Lee et al. | Identifying multiuser activity with overlapping acoustic data for mobile decision making in smart home environments | |
JP6540742B2 (en) | Object recognition apparatus and object recognition method | |
JP2021162685A (en) | Utterance section detection device, voice recognition device, utterance section detection system, utterance section detection method, and utterance section detection program | |
CN118228194B (en) | A multimodal personality prediction method and system integrating spatiotemporal graph attention network | |
JP7640964B2 (en) | Speech content recognition device, method, and program | |
JP6427807B2 (en) | Object authentication apparatus and object authentication method | |
Robi et al. | Active speaker detection using audio, visual and depth modalities: A survey | |
JP2021163217A (en) | Motion detection device, motion detection method, and program | |
WO2023017745A1 (en) | Communication robot, communication robot control method, and program | |
Raja et al. | Design and implementation of facial recognition system for visually impaired using image processing | |
Agnihotri et al. | Vision based interpreter for sign languages and static gesture control using convolutional neural network | |
JP2020067562A (en) | Device, program and method for determining action taking timing based on video of user's face | |
Godage | Sign language recognition for sentence level continuous signings | |
Palanivel et al. | Visual recognition system for hearing impairment using internet of things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200427 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20200828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200828 |