KR20250004637A - 속임수 검출 - Google Patents
속임수 검출 Download PDFInfo
- Publication number
- KR20250004637A KR20250004637A KR1020247032573A KR20247032573A KR20250004637A KR 20250004637 A KR20250004637 A KR 20250004637A KR 1020247032573 A KR1020247032573 A KR 1020247032573A KR 20247032573 A KR20247032573 A KR 20247032573A KR 20250004637 A KR20250004637 A KR 20250004637A
- Authority
- KR
- South Korea
- Prior art keywords
- video stream
- stream
- subject
- media stream
- implemented method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000001815 facial effect Effects 0.000 claims description 25
- 210000001747 pupil Anatomy 0.000 claims description 23
- 238000001931 thermography Methods 0.000 claims description 15
- 210000001061 forehead Anatomy 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 description 37
- 238000012544 monitoring process Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 8
- 210000001508 eye Anatomy 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004424 eye movement Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013186 photoplethysmography Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000537 electroencephalography Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000012076 audiometry Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 210000003467 cheek Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000000193 eyeblink Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003333 near-infrared imaging Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002106 pulse oximetry Methods 0.000 description 1
- 230000001179 pupillary effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001711 saccadic effect Effects 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/164—Lie detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0077—Devices for viewing the surface of the body, e.g. camera, magnifying lens
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/01—Measuring temperature of body parts ; Diagnostic temperature sensing, e.g. for malignant or inflamed tissue
- A61B5/015—By temperature mapping of body part
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
- A61B5/024—Measuring pulse rate or heart rate
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording for evaluating the cardiovascular system, e.g. pulse, heart rate, blood pressure or blood flow
- A61B5/024—Measuring pulse rate or heart rate
- A61B5/02416—Measuring pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/163—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/15—Biometric patterns based on physiological signals, e.g. heartbeat, blood flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Heart & Thoracic Surgery (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Surgery (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Cardiology (AREA)
- Educational Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Developmental Disabilities (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Image Analysis (AREA)
Abstract
피험자의 미디어 스트림을 캡처하고 ― 미디어 스트림은 프레임 시퀀스를 포함함 ― , 미디어 스트림의 각각의 프레임을 처리하여 복수의 생체 인식을 추적하고, 그리고 각각의 생체 인식의 변화에 기초하여 미디어 스트림 내의 피험자가 속이는지를 결정하는, 미디어 스트림으로부터 피험자의 속임수를 검출하는 시스템, 디바이스, 방법 및 비일시적 컴퓨터 판독 가능 명령이 개시된다.
Description
이 출원은 2022년 2월 28일에 출원된 미국 가출원 제63/314,589호의 우선권을 주장하며, 이는 그 전체로서 본원에 참조로 포함된다.
본 발명의 실시예는 일반적으로 생체 인식의 사용에 관한 것이며, 더 구체적으로는 맥박과 같은 복수의 양상(modality)을 사용하는 미디어 기반 속임수 검출 및 원격 생리적 모니터링에 관한 것이다.
일반적으로, 생체 인식은 다양한 방식으로 사용될 수 있는 피험자의 신체 상태에 대한 지표를 제공하는 활력 징후를 추적하는 데 사용될 수 있다. 예를 들어, 국경 보안 또는 건강 모니터링의 경우, 생체 신호는 건강 위험(예를 들어, 체온)을 선별하는 데 사용될 수 있다. 체온을 감지하는 것은 잘 발달된 기술이지만, 맥박수(즉, 심박수 또는 분당 심장 박동) 또는 맥박 파형과 같은 다른 유용하고 정확한 생체 신호를 수집하려면 피험자에게 물리적 디바이스를 부착해야 한다. 물리적 접촉 없이 생체 측정을 수행하고자 하는 욕구로 인해 일부 비디오 기반 기술이 탄생하였다.
카메라 센서에서 신뢰할 수 있는 맥박수 또는 맥박 파형 추정을 수행하는 것은 여러 가지 이유로 접촉식 맥파 기록(plethysmography)보다 어렵다. 혈액의 빛 흡수로 인해 피부 표면에서 반사되는 빛의 변화는 조명의 변화로 인한 것에 비해 매우 미미하다. 주변 조명이 있는 환경에서도, 피험자의 움직임은 반사광을 크게 변화시키고 맥박 신호를 압도한다.
현재, 속임수 검출은 일반적으로 단일 감지 양상을 사용하는 다양한 데이터세트에 의존한다. 초기 연구자들은, 거짓말 검출기에서 영감을 받아, 신경계의 정보가 속임수에 대한 가장 좋은 신호를 제공할 수 있을 것이라고 믿었다. 이에 따라, 뇌파 기록(electroencephalography; EEG) 데이터로만 구성된 EEG-P300 데이터세트가 개발되었다. 초기 연구자들은 인간이 미세한 표정을 사용하여 높은 정확도로 속임수를 검출하도록 훈련할 수 있다고 주장했다. 인간의 시각적 능력에서 영감을 얻은 다른 데이터세트에는 100명 이상의 피험자에 대한 높은 프레임율의 RGB 비디오가 포함되어 있다. 예를 들어, 거짓말 상자(Box-of-Lies) 데이터세트는 게임 쇼의 RGB 비디오와 오디오로 개발되었으며, 언어, 대화 및 시각적 특징을 사용하여 예비 결과를 제시한다.
더 강건한 속임수 검출을 위해 다중 양상(multiple modalities)이 도입되었다. 예를 들어, RGB 비디오를 포함한 속임수 데이터세트에 열화상 이미징과 생리적 및 오디오 기록이 도입되었다. 다른 연구자들은 일상적인 환경에서 속임수를 검출하기 위해 시선 데이터가 포함된 다중 양상 데이터세트인 거짓말 가방(Bag-of-Lies)을 제안했다. 제한된 환경에서의 속임수의 진위 여부에 대한 우려는 실제 재판(Real-life Trial) 데이터세트의 개발에 박차를 가했다. 공개 멀티미디어 소스로부터 법정의 녹취록과 비디오를 확보하여 거의 한 시간 분량의 실제 속임수 영상을 구성했다. 실험실 배경에서는 "고위험(high-stakes)" 행동에 대한 환경을 구현하기가 더 어렵지만, 현실 세계 데이터세트를 소급적으로 조립하는 데 관련되는 자유 변수(예를 들어, 카메라 해상도, 각도, 조명, 거리)가 많기 때문에 알고리즘 설계가 어렵다.
몇 가지 다른 데이터세트가 개발되었다. MAHNOB-HCI 데이터세트에서는 피험자의 얼굴이 상대적으로 고정되어 있다(중요한 제한 사항). PURE는 고정된 얼굴과 움직이는 얼굴이 포함된 최초의 데이터세트이다. MMSEHR 데이터세트는 감정을 유도하는 동안 rPPG에 사용되었다. 딥러닝 기반 해결책에 대한 데이터 요구 사항을 수용하기 위하여, VIPL-HR 데이터세트가 개발되었다. 이는 공개적으로 사용 가능한 가장 큰 rPPG용 데이터세트일 뿐만 아니라, CNN의 예비 결과가 당시의 기존 기술을 능가하는 성능을 보였다. 최근에는 UBFC-RPPG 데이터세트(rPPG용 강체 동작과 피부 분할 알고리즘 포함)가 출시되었다.
수많은 데이터세트가 개발되었지만, 원격(즉, 비접촉) 고정밀 속임수 검출은 여전히 과제로 남아 있다. 따라서, 본 발명자들은 물리적 접촉 없이 피험자의 움직임과 위치에 대한 제약을 최소화하면서 정확한 속임수 검출을 가능하게 하는 시스템, 디바이스, 방법 및 비일시적인 컴퓨터 판독 가능 명령을 개발하였다.
따라서, 본 발명은 관련 기술의 한계 및 단점으로 인한 하나 이상의 문제점을 실질적으로 제거하는 복수의 양상을 이용한 속임수 검출 및 원격 생리적 모니터링에 관한 것이다.
발명의 추가적인 특징 및 장점은 다음의 설명에 개시될 것이며, 부분적으로는 설명으로부터 명백하거나, 발명의 실행에 의해 학습될 수 있을 것이다. 발명의 목적 및 기타 장점은 본 명세서 및 청구범위와 첨부된 도면에 구체적으로 지적된 구조에 의해 실현되고 달성될 것이다.
이러한 및 다른 장점들을 달성하기 위하여, 그리고 본 발명의 목적에 따라, 구체화되고 광범위하게 설명된 바와 같이, 실시예들은 피험자의 미디어 스트림을 캡처하고 ― 미디어 스트림은 프레임 시퀀스를 포함함 ― , 미디어 스트림의 각각의 프레임을 처리하여 복수의 생체 인식을 추적하고, 각각의 생체 인식의 변화에 기초하여 미디어 스트림 내의 피험자가 속이는지를 결정하는 시스템, 디바이스, 방법 및 비일시적 컴퓨터 판독 가능 명령을 포함한다.
다양한 실시예 중 임의의 것과 관련하여, 미디어 스트림은 피험자의 가시광선 비디오 스트림, 근적외선 비디오 스트림, 장파장 적외선 비디오 스트림, 열화상 비디오 스트림, 및 오디오 스트림 중 하나 이상을 포함한다.
다양한 실시예 중 임의의 것과 관련하여, 복수의 생체 인식은 맥박수, 시선, 눈 깜박임 속도, 동공 직경, 얼굴 온도, 음성 및 미세 표정 중 둘 이상을 포함한다.
다양한 실시예 중 임의의 것과 관련하여, 복수의 생체 인식은 맥박수, 동공 직경, 및 얼굴 온도를 포함한다.
다양한 실시예 중 임의의 것과 관련하여, 미디어 스트림의 각각의 프레임을 크롭하여 얼굴, 뺨, 이마 또는 눈 중 하나 이상을 포함하는 관심 영역을 캡슐화한다.
다양한 실시예 중 임의의 것과 관련하여, 관심 영역은 두 개 이상의 신체 부위를 포함한다.
다양한 실시예 중 임의의 것과 관련하여, 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및 열화상 비디오 스트림 중 적어도 두 개를 융합 비디오 스트림으로 결합한다.
다양한 실시예 중 임의의 것과 관련하여, 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및/또는 열화상 비디오 스트림은 동기화 디바이스에 따라 결합된다.
앞의 일반적인 설명과 다음의 상세한 설명은 모두 예시이자 설명이며 청구된 발명에 대한 추가 설명을 제공하기 위한 것임을 이해하여야 한다.
발명의 상세한 이해를 제공하기 위해 포함되고, 본 명세서에 통합되어 본 명세서의 일부를 구성하는 첨부 도면은 발명의 실시예를 예시하며, 설명과 함께 발명의 원리를 설명하는 역할을 한다.
도 1은 펄스 파형 추정을 위한 시스템을 도시한다.
도 2는 상이한 스펙트럼에서 수집된 영상의 분석을 도시한다.
도 3은 피험자의 맥박수에서 관찰된 변화를 도시한다.
도 4는 각각의 안면 영역에서 추론된 rPPG 신호와 실측(ground truth) rPPG 신호 사이의 상관관계를 도시한다.
도 5는 안면 영역이 관심 영역으로 분할될 수 있음을 도시한다.
도 6은 홍채와 동공에 맞는 원의 검출을 도시한다.
도 7은 속임수 검출을 위한 컴퓨터 구현 방법을 도시한다.
도 1은 펄스 파형 추정을 위한 시스템을 도시한다.
도 2는 상이한 스펙트럼에서 수집된 영상의 분석을 도시한다.
도 3은 피험자의 맥박수에서 관찰된 변화를 도시한다.
도 4는 각각의 안면 영역에서 추론된 rPPG 신호와 실측(ground truth) rPPG 신호 사이의 상관관계를 도시한다.
도 5는 안면 영역이 관심 영역으로 분할될 수 있음을 도시한다.
도 6은 홍채와 동공에 맞는 원의 검출을 도시한다.
도 7은 속임수 검출을 위한 컴퓨터 구현 방법을 도시한다.
이제, 본 발명의 실시예들을 상세히 참조할 것이며, 그 예가 첨부된 도면에 도시되어 있다. 가능한 경우, 같은 요소에는 같은 참조 번호를 사용할 것이다.
디바이스를 사용하기 위한 사용자 인터페이스 및 연관된 방법의 실시예가 설명된다. 그러나, 사용자 인터페이스 및 연관된 방법은 태블릿 또는 휴대 전화와 같은 휴대용 통신 디바이스와 같은 수많은 디바이스 유형에 적용될 수 있다는 것을 이해해야 한다. 휴대용 통신 디바이스는 유선 또는 무선 통신과 같은 다양한 애플리케이션을 지원할 수 있다. 디바이스에서 실행할 수 있는 다양한 애플리케이션은 터치스크린과 같은 적어도 하나의 일반적인 물리적 사용자 인터페이스 디바이스를 사용할 수 있다. 터치스크린의 하나 이상의 기능 및 디바이스에 표시되는 대응하는 정보는 애플리케이션마다 및/또는 각각의 애플리케이션 내에서 조정 및/또는 변경될 수 있다. 이러한 방식으로, 디바이스의 일반적인 물리적 아키텍처는 직관적이고 투명한 사용자 인터페이스를 통해 다양한 애플리케이션을 지원할 수 있다.
본 발명의 실시예는 피험자와의 물리적 접촉 없이, 심박수 및 맥박 파형을 포함하는, 하나 이상의 생체 인식을 측정하기 위한 시스템, 디바이스, 방법 및 비일시적 컴퓨터 판독 가능 명령을 제공한다. 다양한 실시예에서 시스템, 디바이스, 방법 및 명령은 하나 이상의 양상(예를 들어, 가시광선, 근적외선, 장파 적외선, 열, 맥박, 시선, 깜박임, 동공 측정, 얼굴 온도 및 미세 표정 등)으로 촬영한 비디오를 수집, 처리 및 분석하여 피험자의 움직임이나 자세를 제약하지 않고 원거리에서 속임수를 검출한다. 새로운 디지털 센서는 원격 인간 모니터링의 문제를 해결할 수 있는 잠재력을 확장한다.
예를 들어, 피험자의 심장 박동에 대한 맥박 파형은 피험자의 신체 상태의 특징과 관찰 기간 동안(예를 들어, 질문 또는 기타 활동 중) 어떻게 변화하는지를 확립하기 위한 생체 인식 입력으로 사용될 수 있다. 원격 광혈류측정(remote photoplethysmography; rPPG)은 원거리에 있는 카메라로 맥파(blood volume pulse)를 모니터링하는 것이다. rPPG를 사용하면, 피부 표면에서 멀리 떨어진 비디오에서 맥파가 검출될 수 있다. 2022년 2월 3일에 출원된 미국 출원 제17/591,929호 "비디오 기반 펄스 파형 검출(VIDEO BASED DETECTION OF PULSE WAVEFORM)"의 개시는 그 전체로서 참조에 의해 본원에 통합된다.
다양한 실시예에서, 피험자의 시선, 눈 깜박임 속도, 동공 직경, 음성, 얼굴 온도 및 미세 표정의 변화가 속임수를 결정하는 데 사용된다. 불안 및/또는 인지 부하를 예측하기 위하여 EEG를 또한 사용할 수 있다. 예를 들어, 동공 직경은 거짓말을 하는 사람과 진실한 사람을 구별하는데, 피험자가 속이려고 할 때 동공이 확장되는 것을 발견할 수 있다. 다른 예로, 눈동자 움직임, 제스처 및 자세도 속임수를 검출하는 데 사용할 수 있다.
도 1은 펄스 파형 추정을 위한 시스템(100)을 도시한다. 시스템(100)은 광학 센서 시스템(1), 비디오 I/O 시스템(6) 및 비디오 처리 시스템(101)을 포함한다.
광학 센서 시스템(1)은 하나 이상의 카메라 센서를 포함하며, 각각의 카메라 센서는 프레임 시퀀스를 포함하는 비디오 스트림을 캡처하도록 구성된다. 예를 들어, 광학 센서 시스템(1)은 가시광선 카메라(2), 근적외선 카메라(3), 열화상 카메라(4), 또는 이들의 임의의 조합을 포함할 수 있다. 복수의 카메라 센서가 사용되는 경우(예를 들어, 단일 양상 또는 다중 양상), 결과적인 복수의 비디오 스트림은 동기화 디바이스(5)에 따라 동기화될 수 있다. 대안적으로, 또는 부가적으로, 하나 이상의 비디오 분석 기법이 비디오 스트림을 동기화하기 위해 활용될 수 있다. 가시광선 카메라(2), 근적외선 카메라(3), 열화상 카메라(4)가 열거되어 있지만, 음성 녹음기와 같은 다른 미디어 디바이스가 사용될 수 있다.
비디오 I/O 시스템(6)은 캡처된 하나 이상의 비디오 스트림을 수신한다. 예를 들어, 비디오 I/O 시스템(6)은 광학 센서 시스템(1)으로부터 원시 가시광선 비디오 스트림(7), 근적외선 비디오 스트림(8) 및 열화상 비디오 스트림(9)을 수신하도록 구성된다. 여기에서, 수신된 비디오 스트림은 공지된 디지털 포맷(들)에 따라 저장될 수 있다. 복수의 비디오 스트림이 수신되는 경우(예를 들어, 단일 양상 또는 다중 양상), 융합 프로세서(10)는 수신된 비디오 스트림을 결합하도록 구성된다. 예를 들어, 융합 프로세서(10)는 가시광선 비디오 스트림(7), 근적외선 비디오 스트림(8) 및/또는 열화상 비디오 스트림(9)을 융합 비디오 스트림(11)으로 결합할 수 있다. 여기에서, 각각의 스트림은 동기화 디바이스(5)의 출력(예를 들어, 클럭 신호)에 따라 동기화될 수 있다.
비디오 처리 시스템(101)에서, 관심 영역 검출기(12)는 각각의 비디오 프레임 내에서 하나 이상의 공간적 관심 영역(region of interest; ROI)을 검출(즉, 공간적으로 위치 지정)한다. ROI는 얼굴, 다른 신체 부위(예를 들어, 손, 팔, 발, 목 등) 또는 신체 부위의 임의의 조합일 수 있다. 초기에, 관심 영역 검출기(12)는 각각의 비디오 프레임 내에서 하나 이상의 거친(coarse) 공간 ROI를 결정한다. 관심 영역 검출기(12)는 안면 마스크 및 기타 머리 장식으로 인한 강한 안면 폐색에 강건하다. 이어서, 프레임 전처리기(13)가 프레임을 크롭(crop)하여 하나 이상의 ROI를 캡슐화한다. 일부 실시예에서, 크롭은 처리할 영상 화소 수를 줄이기 위해 2입방 보간을 통해 각각의 프레임의 크기를 축소하는 것을 포함한다. 대안적으로, 또는 부가적으로, 크롭된 프레임은 더 작은 영상으로 크기가 더 조정될 수 있다.
시퀀스 준비 시스템(14)은 프레임 프로세서(13)로부터 처리할 정렬된 프레임의 시퀀스 또는 서브시퀀스의 배치(batch)를 취합한다. 다음으로, 3DCNN(3-Dimensional Convolutional Neural Network)(15)은 시퀀스 준비 시스템(14)으로부터 프레임의 시퀀스 또는 서브시퀀스를 수신한다. 3DCNN(15)은 3차원 컨볼루션 신경망을 통해 프레임의 시퀀스 또는 서브시퀀스를 처리하여, 프레임의 시퀀스 또는 서브시퀀스의 각각의 프레임의 공간 및 시간 차원을 결정하고, 프레임 시퀀스의 각각의 프레임에 대한 펄스 파형 포인트를 생성한다. 3DCNN(15)은 일련의 3차원 컨볼루션, 평균화, 풀링 및 비선형성을 적용하여 입력 시퀀스 또는 서브시퀀스에 대한 펄스 파형(16)을 근사화하는 1차원 신호를 생성한다.
일부 구성에서, 펄스 집계 시스템(17)은 전체 비디오 스트림을 나타내기 위해 프레임의 시퀀스 또는 서브시퀀스로부터 임의의 수의 펄스 파형(16)을 집계된 펄스 파형(18)으로 결합한다. 진단 추출기(19)는 집계된 맥박 파형(18)으로부터 심박수 및 심박수 변동성을 계산하도록 구성된다. 심박수 변동성을 식별하기 위해, 다양한 서브시퀀스의 계산된 심박수를 비교할 수 있다. 표시부(20)는 진단 추출기(19)로부터 실시간 또는 실시간에 가까운 업데이트를 수신하여 집계된 맥박 파형(18), 심박수 및 심박수 변동성을 운영자에게 표시한다. 저장부(21)는 피험자와 연관된 집계된 맥박 파형(18), 심박수 및 심박수 변동성을 저장하도록 구성된다.
부가적으로, 또는 대안적으로, 프레임 시퀀스는 시퀀스 준비 시스템(14) 내에서 부분적으로 중첩되는 서브시퀀스들로 분할될 수 있으며, 여기에서 프레임의 제1 서브시퀀스가 프레임의 제2 서브시퀀스와 중첩된다. 서브시퀀스 사이에서 프레임의 중첩은 가장자리 효과(edge effect)를 방지한다. 여기에서, 펄스 집계 시스템(17)은 각각의 서브시퀀스에 한(Hann) 함수를 적용할 수 있고, 중첩되는 서브시퀀스가 추가되어 원래 비디오 스트림의 프레임과 동일한 수의 샘플을 갖는 집계된 펄스 파형(18)을 생성할 수 있다. 일부 구성에서, 각각의 서브시퀀스는 개별적으로 3DCNN(15)으로 전달되며, 3DCNN(15)은 일련의 연산을 수행하여 각각의 서브시퀀스(16)에 대한 펄스 파형을 생성한다. 3DCNN(15)에서 출력되는 각각의 펄스 파형은 각각의 비디오 프레임에 대해 실수 값을 갖는 시계열이다. 각각의 서브시퀀스는 3DCNN(15)에 의해 개별적으로 처리되므로, 이후 재결합된다.
일부 실시예에서, 하나 이상의 필터가 관심 영역에 적용될 수 있다. 예를 들어, LED 광의 하나 이상의 파장이 필터링될 수 있다. LED는 전체 관심 영역 및 주변 표면 또는 그 일부에 걸쳐 비춰질 수 있다. 부가적으로, 또는 대안적으로, 피부가 아닌 영역의 시간 신호가 추가로 처리될 수 있다. 예를 들어, 눈썹이나 눈의 공막을 분석하면 움직임과 강한 상관관계가 있는 변화를 식별할 수 있지만, 반드시 광혈류측정과 상관관계가 있는 것은 아니다. 맥박에 따라 예측된 동일한 주기적 신호가 피부가 아닌 다른 표면에서 발견되면, 이는 실제가 아닌 피험자 또는 보안 침입 시도를 나타낼 수 있다.
단일 시스템으로 도시되었지만, 시스템(100)의 기능은 분산 시스템으로 구현될 수 있다. 시스템(100)이 심박수를 결정하는 동안, 다른 분산 구성은, 예를 들어, 피험자의 시선, 눈 깜박임 속도, 동공 직경, 음성, 얼굴 온도 및 미세 표정 등의 변화를 추적한다. 또한, 본원에 개시된 기능은 백엔드 서버에 결합된 보안 키오스크와 같이, 네트워크를 통해 함께 결합될 수 있는 별도의 서버 또는 디바이스에서 구현될 수 있다. 또한, 시스템(100)의 하나 이상의 구성요소는 포함되지 않을 수도 있다. 예를 들어, 시스템(100)은 프로세서, 메모리 및 디스플레이를 포함하는 스마트폰 또는 태블릿 디바이스일 수 있지만, 도 1에 도시된 다른 구성요소 중 하나 이상을 포함하지 않을 수 있다. 실시예는 다양한 프로세싱 및 메모리 저장 디바이스를 사용하여 구현될 수 있다. 예를 들어, 실행 시간을 줄이고 거의 실시간으로 펄스를 계산하기 위해 처리 시스템에서 CPU 및/또는 GPU가 사용될 수 있다. 시스템(100)은 더 큰 시스템의 일부일 수 있다. 따라서, 시스템(100)은 하나 이상의 추가 기능 모듈을 포함할 수 있다.
다양한 실시예에 따르면, 속임수 검출 및 생리학적 모니터링(deception detection and physiological monitoring; DDPM) 데이터세트 및 이 데이터세트에 대한 기준선 실험이 설명된다. DDPM 데이터는 인터뷰 맥락에서 수집되며, 면접자(interviewee)가 선택한 응답으로 면접관(interviewer)을 속이려고 시도한다. DDPM은, 예를 들어, 맥박, 시선, 안구 움직임, 깜박임 속도, 동공 측정, 얼굴 온도, 미세 표정을 포함하는 얼굴 특징에 대한 비디오 및 펄스 데이터 분석을 지원한다. 데이터세트는 얼굴 비디오의 800만 개 이상의 고해상도 RGB, 근적외선(NIR) 및 열화상 프레임과 함께, 심장 맥박, 혈중 산소포화도, 오디오 및 속임수-지향적 인터뷰 데이터를 포함한다. 데이터세트는 자동화된 속임수 검출 기법을 정확하게 평가하기 위한 평가 프로토콜과 함께 제공된다.
실시예는: (a) 총 진실 및 속임수 응답, 기록 길이 및 원시 데이터 크기 측면에서 가장 큰 속임수 검출 데이터세트; (b) RGB, 근적외선 및 열화상 이미징 양상을 사용한 속임수 검출 및 원격 펄스 모니터링 모두를 위한 최초의 데이터세트; (c) 자연스러운 대화 환경에서 얼굴 움직임 및 표정을 포함하는 최초의 rPPG 데이터세트; 및 (d) 동공 측정, 심박수 추정 및 특징 융합 결과를 사용한 속임수 검출에 대한 기준선 결과를 제공한다. 또한, 실시예는: (a) rPPG에 대한 해결책인 RPNet의 강건성을 조사하는 실험 결과; (b) 저해상도 비디오 작업을 위한 동공 측정 방법; (c) 속임수 검출을 위해 rPPG, 동공 측정 및 열 데이터를 활용한 특징 융합 분석을 포함한다.
DDPM 데이터세트와 초기 기준 결과가 제공된다. 예를 들어, 문맥은 면접자가 선택한 응답에 대해 면접관을 속이려고 시도하는 면접 시나리오이다. 면접자는 심장 맥박, 혈중 산소포화도, 오디오와 함께 RGB, 근적외선, 장파장 적외선으로 기록된다. 수집 후, 데이터는 면접관/면접자에 대한 주석이 덧붙여지고, 큐레이팅되고, 실측되고(ground-truthed), 표준 속임수 검출 실험을 위한 세트에 대한 훈련/시험 부분으로 조직되었다. 특징 융합 실험에서 rPPG, 동공, 및 열 데이터를 조합하면 0.357의 동일한 오류율로 가장 우수한 속임수 검출 결과를 얻을 수 있음을 발견하였다. 피험자의 심박수는 (원격으로) 얼굴 영상에서 추정되었으며 평균 절대 오차가 2bpm 미만이었다. 데이터베이스에는 70명의 피험자에 대한 약 13시간 분량의 녹화 영상과 팔백(800)만 개 이상의 가시광선, 근적외선 및 열화상 비디오 프레임이 적절한 메타, 오디오 및 맥박 산소 측정 데이터와 함께 포함되어 있다. DDPM 데이터세트는 인터뷰 시나리오에서 5가지 양상의 기록을 포함하는 유일한 데이터세트로, 속임수 검출 및 원격 광혈류측정 연구와 상업적 애플리케이션에 모두 사용할 수 있다.
얼굴 움직임을 검출하려면 높은 공간적 및 시간적 해상도가 필요하다. 도 2는 상이한 스펙트럼에서 수집된 영상을 분석하는 것을 도시한다. 도 2는 수집된 DDPM 데이터세트에서 RGB, 근적외선 및 열화상 카메라의 샘플 영상(왼쪽에서 오른쪽)을 보여주며, 속임수와 연관된 얼굴 신호에 대한 심층적인 통찰력을 제공할 수 있다. 또한, 도 3에서와 같이 심장 맥박수에서 관찰되는 변화는 피험자의 감정 상태를 설명할 수 있다. 어조 변화와 같은 음성 역학은 속임수 검출의 다른 모드를 제공한다. 획득 장비는 3대의 카메라, 맥박 산소 측정기, 및 마이크를 조립하여 구성했다.
예를 들어, 감지 장치는 (i) 1920 × 1080 화소의 해상도로 90 FPS로 작동하는 더 이미징 소스(The Imaging Source; TIS)의 DFK 33UX290 RGB 카메라, (ii) 90 FPS 및 1920 × 1080 화소에서 근적외선 영상(730 내지 1100 nm)을 캡처하는 대역 통과 필터를 갖춘 TIS의 DMK 33UX290 흑백 카메라, (iii) 9 FPS에서 80 × 60 화소 영상을 생성하는 FLIR C2 컴팩트 열화상 카메라, (iv) 초당 60 샘플의 SpO2 및 심박수 프로파일을 제공하는 FDA 인증 Contec CMS50EA 맥박 산소 측정기, 및 (v) 면접관과 면접자 모두의 음성을 44.1kHz에서 16비트 오디오 측정으로 녹음하는 Jabra SPEAK 410 전방향 마이크로 구성된다. 센서는 아르두이노(Arduino) 제어 디바이스에서 생성된 시각 및 청각 아티팩트를 사용하여 시간 동기화되었다. 미디어 데이터는 3대의 카메라로부터 지속적으로 스트리밍되는 데이터(750Mbps)를 수용하도록 설계되며, 피험자 등록 및 인터뷰 진행 구성 요소가 포함된 그래픽 사용자 인터페이스(GUI)를 운영하는 워크스테이션에서 캡처되었다.
속임수 메타데이터. 모든 참가자의 연령, 성별, 민족, 인종이 기록되었다. 70개의 인터뷰는 각각 24개의 응답으로 구성되었으며, 그 중 9개는 속임수였다. 전체적으로, 630개의 속임수 응답과 1050개의 정직한 응답이 수집되었다. 발명가들이 알기로는, 1,680개의 주석이 달린 응답은 속임수 검출 데이터세트에서 가장 많이 기록된 것이다. 면접자는 각각의 질문에 대해 지시대로 답변했는지 여부를 기록했다. 속임수 답변에 대해서는, "전혀 설득력이 없었다"에서 "확실히 설득력이 있었다"에 이르는 5점 리커트 척도로 자신이 얼마나 설득력이 있다고 생각하는지 또한 평가했다. 면접관은 각각의 답변에 대한 믿음을 "확실히 속임수 답변이었다"에서 "확실히 정직한 답변이었다"까지 5점 척도로 기록하였다. 데이터에는 추가로 주석을 달아 어떤 사람(면접관 또는 면접자)이 말하고 있는지와 그들이 말한 시간 간격을 표시했다.
데이터 후처리. RGB 및 근적외선 비디오는 무손실 압축되었다. 인터뷰의 평균, 최소, 최대 길이는 각각 11분, 8.9분, 19.9분이었다. DDPM 데이터세트는 각각의 센서 양상에서 총 776분 분량의 기록으로 구성된다. 산소 포화도 측정기는 60Hz에서 SpO2, 심박수 및 맥박 파형을 기록하였으며, 전체 인터뷰의 평균 심박수는 40bpm내지 161bpm의 범위이었다.
맥박 검출 실험. 블라인드 소스 분리, 크로미넌스(chrominance) 및 색 공간 변환, 및 딥러닝을 기반으로, 5가지 맥박 검출 기법을 DDPM 데이터세트에 대해 평가했다.
방법. 펄스 검출을 위한 일반적인 파이프라인은 영역 선택, 공간 평균화, 변환 또는 신호 분해, 및 주파수 분석을 포함한다. 영역 선택의 경우, 얼굴 경계 상자(face bounding box)(예를 들어, 관심 영역)를 정의하는 데 사용되는 68개의 얼굴 랜드마크를 검출하기 위해 OpenFace를 사용했다. 경계 상자는 수평으로 양쪽에서 5%씩, 위로는 30%씩, 아래로는 5%씩 확장한 다음, 뺨, 이마, 및 턱이 포함되는 것을 보장하도록 확장된 수평 및 수직 크기 중 더 큰 측면 길이를 가진 정사각형으로 변환했다. 크로미넌스 기반 접근법의 경우, 얼굴 내의 피부 화소를 활용했다.
관심 영역이 주어지면, 채널별 공간 평균을 사용하여 각각의 채널에 대한 1D 시간 신호를 생성했다. 블라인드 소스 분리 접근 방식은 채널에 독립 성분 분석(independent component analysis; ICA)을 적용하는 반면, 크로미넌스 기반 접근 방식은 채널을 결합하여 강건한 펄스 신호를 정의한다. 그런 다음 신호를 주파수 영역으로 변환하고 피크 주파수 fp를 심장 맥박으로 선택하여 시간 창에 걸쳐 심박수를 찾는다. 심박수는 dHR = 60 × fp 분당 비트 수(bpm)로 계산된다.
딥러닝 기반 접근 방식을 훈련하기 위하여, 경계 상자에서 크롭되고 2차원 보간을 통해 64×64 화소로 축소된 얼굴이 공급되는 3D 컨볼루션 신경망(3DCNN)인 RPNet이 사용되었다. 훈련 및 평가 동안, 모델에는 136개의 프레임(즉, 1.5초)으로 구성된 비디오 클립이 제공된다. 여기에서, 136개의 프레임은 평균 피험자의 하한선이 40bpm임을 고려하여, 전체 심장 박동이 발생하는 최소 시간으로 사용되었다. RPNet은 예측된 및 정규화된 실측(ground truth) 펄스 파형 사이의 음의 피어슨 상관관계(negative Pearson correlation)를 최소화하도록 구성되었다.
산소포화도 측정기는 실측 파형과 심박수 추정치를 60Hz로 기록하고 RGB 카메라 프레임율과 일치하도록 90Hz로 업샘플링했다. 산소 포화도 측정기 파형을 표적으로 정의할 때 어려운 점 중 하나는 얼굴과 손가락에서 관찰되는 위상 차이와 수집 장치의 시간 지연으로 인해 발생한다. 위상 변화를 완화하기 위하여, CHROM(지도 훈련이 필요하지 않으므로 선택)에서 예측한 출력 파형을 사용하여 교차 상관관계가 최대화되도록 실측 파형을 이동시켰다. 실측 파형은 피험자가 맥박 산소 측정기 내부에서 손가락을 움직여 발생하는 드문 노이즈 세그먼트를 포함한다. 이러한 세그먼트는 대역 통과 범위가 40 및 160bpm이고 슬라이딩 창이 10초인 FFT를 사용하여 계산한 결과 초당 7bpm 이상의 심박수 점프로 검출된다. 이러한 점프가 발생하면, 해당 10초 FFT 창은 유효하지 않은 것으로 표시되고 데이터세트에서 마스킹된다.
학습률 α = 0.0001, 매개변수 값 β1 = 0.99 및 β2 = 0.999로 아담 최적화기(Adam optimizer)를 사용하여 모델을 50회(epoch) 훈련한 후, 검증 세트에서 손실이 가장 낮은 모델을 최종 모델로 선택한다.
클립 길이가 136개의 프레임보다 긴 동영상의 경우, 전체 동영상에 대해 슬라이딩 윈도우 방식으로 예측을 수행해야 한다. 클립 길이의 절반의 보폭을 사용하여 비디오를 가로질러 슬라이드한다. 윈도우된 출력은 표준화되고, 컨볼루션의 가장자리 효과를 완화하기 위해 한(Hann) 함수가 적용되며, 프레임당 단일 값을 생성하기 위해 합산된다.
맥박 검출 성능은 예측된 심박수와 실측 심박수 사이의 오차를 계산하여 분석된다. 심박수는 신호에 10초 폭의 해밍 윈도우(Hamming window)를 적용하고 주파수 도메인으로 변환하여 계산하며, 이로부터 0.66Hz와 3Hz사이(40bpm 내지 180bpm)의 최대 스펙트럼 피크의 지수가 심박수로 선택된다. 주파수 영역은 양자화 효과가 있기 때문에, 스펙트럼 피크는 인접한 밸리 사이의 스펙트럼 판독 값의 가중 평균을 취하여 역양자화(dequantize)하였다. 평균 절대 오차(mean absolute error; MAE), 평균 제곱근 오차(root mean squared error; RMSE), 펄스 파형인 r파에 대한 피어슨 상관 계수(Pearson correlation coefficient)와 같은 성능을 평가하기 위해 rPPG 문헌의 지표가 사용되었다. 실측 자료에서 노이즈가 있는 부분을 마스킹하면 CHROM과 RPNet의 평가 지표는 개선되었지만, 다른 방법의 결과는 저하되는 것으로 나타났다. 따라서, 마스킹은 CHROM과 RPNet에만 적용되었다.
기존의 블라인드 소스 분리 접근 방식인 POH10은 움직임으로부터 노이즈를 제거하는 신호 추세 제거(detrending) 및 필터링으로 인해 POH11보다 성능이 뛰어나다. 두 가지 크로미넌스 기반 접근 방식은 모두 비슷한 성능을 보이지만, POS는 필터링 없이도 우수한 정확도를 제공한다. 5배 교차 검증을 통해 RPNet을 평가하였으며, 각각의 성능 지표에 대한 평균과 95% 신뢰 구간을 보고했다. RPNet은 딥러닝이 아닌 기준선보다 우수한 성능을 보였다.
다양한 실시예에서, 발명자들은 얼굴의 어느 영역이 최상의 rPPG 결과를 생성하는지 확인하였다. 도 4는 각각의 얼굴 영역에서 추론된 rPPG 신호와 실측 rPPG 신호 사이의 상관관계를 나타낸다. 뺨과 이마는 얼굴의 다른 부위보다 실측 자료와 더 높은 상관관계를 갖는 rPPG 신호를 제공한다. 도 4의 히트맵은 64x64 화소 비디오의 모든 위치에서 2x2 화소 영역을 사용하여 (각 피험자에 대해) 평가를 수행하여 생성되었다. 그런 다음 이러한 632개의 영역을 피험자에 걸쳐 평균을 냈으며, 각각의 영역은 히트맵에서 단일 화소에 대응한다. 영상으로부터, 뺨과 이마가 다른 얼굴 피부보다 더 나은 rPPG 파동을 생성하는 것을 알 수 있는데, 이는 해당 부위가 얼굴의 다른 부위보다 혈관이 더 많이 분포되어 있기 때문에 그럴듯한 결과이다.
다양한 실시예에서, RPNet 성능은 신호가 더 강한 영역, 즉 이마 및 뺨에 집중함으로써 향상된다. 얼굴 영역은 도 5에 도시된 바와 같이 세 개의 영역 또는 관심 영역(예를 들어, 이마, 오른쪽 뺨, 왼쪽 뺨)으로 분할될 수 있다. 얼굴 전체에 대해 훈련된 모델을 사용하여, 이러한 영역에 대해 rPPG를 추론했다. 이마가 하위 영역 중 가장 정확한 결과를 얻었지만, 세 영역을 결합하더라도, 전체 프레임을 활용하는 RPNet이 이러한 더 집중된 영역에서 더 나은 성능을 보였다.
랜드마커 연구. 위에서 논의한 바와 같이, 오픈페이스 랜드마커(OpenFace landmarker)는 랜드마크 안정성이 뛰어나 랜드마크의 지터 양이 적기 때문에, 영상 처리 파이프라인에서 경계 상자를 생성하는 목적으로 사용되었다. 그러나, 특히 실시간 시스템에의 적용 가능성으로 인하여, 미디어파이프(MediaPipe)와 같은 대안을 사용할 수도 있다. 미디어파이프는 (연속 프레임 사이의 화소 평균 변위로 측정되는) 경계 상자 안정성이 더 떨어지지만, 260%까지 경계 상자 안정성이 저하되더라도 MAE가 33%만 증가하여, rPPG에 대한 경계 상자 방법으로서는 오픈페이스와 거의 비슷한 성능을 나타낸다. 미디어파이프는 구현이 더 쉽기 때문에, 실시간 rPPG 시스템에 사용될 것으로 예상된다.
동공 크기 추정. 동공 검출을 위한 일반적인 파이프라인에는 눈 영역 선택과 동공 및 홍채 반경의 추정이 포함된다. 눈 영역을 선택하기 위해, 오픈페이스를 사용하여 (예를 들어, 펄스 검출과 동일한 검출을 활용하여) 68개의 얼굴 랜드마크를 검출하고 눈꺼풀 주변의 점을 활용하여 눈 경계 상자를 정의했다. 경계 상자는 짧은 쪽(일반적으로 세로 쪽)을 길게 하여 4:3 종횡비를 갖도록 구성되었다.
동공 및 홍채 반경을 검출하기 위해, 수정된 CC-Net 아키텍처가 사용된다. 특히, 도 6에 도시된 바와 같이 홍채와 동공에 맞는 원을 검출하기 위해 CC-Net의 인코딩이 CNN 회귀를 구성하는 데 사용된다. 동공 및 홍채 원 매개변수의 경우, 마스크에서 동공과 홍채의 경계점을 추적하고 RANSAC을 사용하여 이 점에 원을 맞추었다. 그런 다음, 마스크와 동공 및 홍채 원 매개변수를 모두 예측하도록 수정된 CC-Net 아키텍처를 구성하였다. DDPM 데이터세트에서 모델의 성능을 평가하기 위해, DDPM 데이터세트에서, 눈을 뜨고 있는 상태에서, 눈 영역을 무작위로 추출하고 동공과 홍채의 원에 수동으로 주석을 달았다. CNN 회귀에는 다양한 아키텍처를 사용할 수 있다. 더 깊은 네트워크를 사용할수록 잔여 연결이 결과를 개선하는 것으로 관찰되었다
융합. 예를 들어, 맥박, 시선, 안구 운동(예를 들어, 사카딕(Saccadic)), 깜박임 속도, 동공 측정, 얼굴 온도 및 미세 표정을 포함하여 하나 이상의 양상을 속임수 검출에 사용할 수 있다. rPPG, 동공 측정, 열 데이터의 조합은 속임수 검출에 효과적이다. 독립형 기능으로는 rPPG가 효과적이다. 이러한 세 가지 특징을 사용하는 특징 융합은 0.357의 동일한 오차율을 얻으며, 이는 이러한 개별적인 특징 중 어느 것보다도 낫다.
자연스러운 대화 설정에서 속임수 검출 및 원격 생리적 모니터링 탐색을 지원하기 위하여, 상이한 양상의 수와 원시 비디오의 양 측면에서 현재까지 가장 포괄적인 데이터세트인 속임수 검출 및 생리적 모니터링(DDPM) 데이터세트가 설명된다. 센서는 시간적으로 동기화되며, 가시광선, 근적외선 및 장파장 적외선 스펙트럼에 걸친 이미징은 속임수에 초점을 맞춘 인터뷰 시나리오에서 거의 13시간 동안 녹화된 800만 개 이상의 고해상도 영상을 제공한다. 이 데이터세트와 함께, 심박수 검출에 대한 기준 결과와, 동공 측정, 심박수 및 열 데이터를 사용한 속임수 검출의 타당성이 제공된다.
도 7은 속임수 검출을 위한 컴퓨터 구현 방법을 도시한다.
710에서, 방법은 피험자의 미디어 스트림을 캡처하며, 미디어 스트림은 프레임의 시퀀스를 포함한다. 비디오 스트림은 피험자의 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및 열화상 비디오 스트림 중 하나 이상을 포함할 수 있다. 일부 경우, 방법은 가시광선 비디오 스트림, 근적외선 비디오 스트림 및/또는 열화상 비디오 스트림 중 적어도 두 개를 처리될 융합 비디오 스트림으로 결합할 수 있다. 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및/또는 열화상 비디오 스트림은 동기화 디바이스 및/또는 하나 이상의 비디오 분석 기술에 따라 결합된다.
다음으로, 720에서, 방법은 미디어 스트림의 각각의 프레임을 처리하여 복수의 생체 인식의 변화를 추적한다. 예를 들어, 복수의 생체 인식은 맥박수, 시선, 눈 깜박임 속도, 동공 직경, 얼굴 온도, 음성 및 미세 표정 중 둘 이상을 포함한다.
마지막으로, 방법은 각각의 생체 인식의 변화에 기초하여 미디어 스트림 내의 피험자가 속이고 있는지 여부를 결정한다. 예를 들어, 730에서, 피험자의 시선, 눈 깜박임 속도, 동공 직경, 음성, 얼굴 온도 및 미세 표정의 변화가 속임수를 판단하는 데 사용된다.
본 발명의 정신이나 범위를 벗어나지 않고 본 발명의 복수의 양상을 이용한 속임수 검출 및 원격 생리적 모니터링에서 다양한 수정 및 변형이 이루어질 수 있음은 당업자에게 명백할 것이다. 따라서, 본 발명은 이 발명의 수정 및 변형이 첨부된 청구범위 및 그 균등한 범위 내에 있는 한, 본 발명의 수정 및 변형을 포함하는 것을 의도한다.
Claims (16)
- 미디어 스트림으로부터 피험자(subject)의 속임수(deception)를 검출하는 컴퓨터 구현 방법에 있어서, 상기 컴퓨터 구현 방법은:
상기 피험자의 미디어 스트림을 캡처하는 단계 ― 상기 미디어 스트림은 프레임 시퀀스를 포함함 ― ;
상기 미디어 스트림의 각각의 프레임을 처리하여 복수의 생체 인식(biometrics)을 추적하는 단계; 및
각각의 생체 인식의 변화에 기초하여 상기 미디어 스트림 내의 상기 피험자가 속이는지(deceptive)를 결정하는 단계를 포함하는, 컴퓨터 구현 방법. - 제1항에 있어서, 상기 미디어 스트림은 상기 피험자의 가시광선 비디오 스트림, 근적외선 비디오 스트림, 장파장 적외선 비디오 스트림, 열화상 비디오 스트림, 및 오디오 스트림 중 하나 이상을 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서, 상기 복수의 생체 인식은 맥박수, 시선, 눈 깜박임 속도, 동공 직경, 얼굴 온도, 음성 및 미세 표정 중 둘 이상을 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서, 상기 복수의 생체 인식은 맥박수, 동공 직경, 및 얼굴 온도를 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서, 상기 미디어 스트림의 각각의 프레임을 크롭(crop)하여 얼굴, 뺨, 이마 또는 눈 중 하나 이상을 포함하는 관심 영역을 캡슐화하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제5항에 있어서, 상기 관심 영역은 두 개 이상의 신체 부위를 포함하는, 컴퓨터 구현 방법.
- 제1항에 있어서, 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및 열화상 비디오 스트림 중 적어도 두 개를 융합 비디오 스트림으로 결합하는 단계를 더 포함하는, 컴퓨터 구현 방법.
- 제7항에 있어서, 상기 가시광선 비디오 스트림, 상기 근적외선 비디오 스트림, 및/또는 상기 열화상 비디오 스트림은 동기화 디바이스에 따라 결합되는, 컴퓨터 구현 방법.
- 미디어 스트림으로부터 피험자의 속임수를 검출하는 시스템에 있어서, 상기 시스템은:
프로세서; 및
상기 프로세서에 의한 실행을 위한 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 하나 이상의 프로그램은:
상기 피험자의 미디어 스트림을 캡처하기 위한 명령 ― 상기 미디어 스트림은 프레임 시퀀스를 포함함 ― ;
상기 미디어 스트림의 각각의 프레임을 처리하여 복수의 생체 인식을 추적하기 위한 명령; 및
각각의 생체 인식의 변화에 기초하여 상기 미디어 스트림 내의 상기 피험자가 속이는지를 결정하기 위한 명령을 포함하는, 시스템. - 제9항에 있어서, 상기 미디어 스트림은 상기 피험자의 가시광선 비디오 스트림, 근적외선 비디오 스트림, 장파장 적외선 비디오 스트림, 열화상 비디오 스트림, 및 오디오 스트림 중 하나 이상을 포함하는, 시스템.
- 제9항에 있어서, 상기 복수의 생체 인식은 맥박수, 시선, 눈 깜박임 속도, 동공 직경, 얼굴 온도, 음성 및 미세 표정 중 둘 이상을 포함하는, 시스템.
- 제9항에 있어서, 상기 복수의 생체 인식은 맥박수, 동공 직경, 및 얼굴 온도를 포함하는, 시스템.
- 제9항에 있어서, 상기 미디어 스트림의 각각의 프레임을 크롭하여 얼굴, 뺨, 이마 또는 눈 중 하나 이상을 포함하는 관심 영역을 캡슐화하는 것을 더 포함하는, 시스템.
- 제13항에 있어서, 상기 관심 영역은 두 개 이상의 신체 부위를 포함하는, 시스템.
- 제9항에 있어서, 가시광선 비디오 스트림, 근적외선 비디오 스트림, 및 열화상 비디오 스트림 중 적어도 두 개를 융합 비디오 스트림으로 결합하는 것을 더 포함하는, 시스템.
- 제15항에 있어서, 상기 가시광선 비디오 스트림, 상기 근적외선 비디오 스트림, 및/또는 상기 열화상 비디오 스트림은 동기화 디바이스에 따라 결합되는, 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263314589P | 2022-02-28 | 2022-02-28 | |
US63/314,589 | 2022-02-28 | ||
PCT/IB2023/051873 WO2023161913A1 (en) | 2022-02-28 | 2023-02-28 | Deception detection |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20250004637A true KR20250004637A (ko) | 2025-01-08 |
Family
ID=87761916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247032573A Pending KR20250004637A (ko) | 2022-02-28 | 2023-02-28 | 속임수 검출 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230274582A1 (ko) |
EP (1) | EP4486209A1 (ko) |
JP (1) | JP2025507825A (ko) |
KR (1) | KR20250004637A (ko) |
WO (1) | WO2023161913A1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12277803B2 (en) * | 2021-04-21 | 2025-04-15 | Assa Abloy Global Solutions Ab | Thermal based presentation attack detection for biometric systems |
US12249180B2 (en) * | 2021-10-29 | 2025-03-11 | Centre For Intelligent Multidimensional Data Analysis Limited | System and method for detecting a facial apparatus |
US20240104690A1 (en) * | 2022-09-20 | 2024-03-28 | Nvidia Corporation | Application programming interface to indicate frame size information |
PE20250091A1 (es) * | 2023-06-16 | 2025-01-13 | Rodriguez Carlos Andres Cuestas | Sistema y metodo remoto no invasivo para determinar la probabilidad de engano basado en inteligencia artificial |
CN117557893B (zh) * | 2024-01-11 | 2024-08-16 | 湖北微模式科技发展有限公司 | 一种基于残差峰值的静态场景视频真伪鉴定方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6854879B2 (en) * | 2001-04-19 | 2005-02-15 | Honeywell International Inc. | System and method using thermal image analysis for polygraph testing |
US20070270659A1 (en) * | 2006-05-03 | 2007-11-22 | Giegerich Gary D | Apparatus and Method for Remotely Detecting Deception |
KR101739058B1 (ko) * | 2014-04-24 | 2017-05-25 | 주식회사 바이브라시스템 | 동영상 기반 생리 신호 검출을 이용한 왜곡에 대한 정신생리적 탐지 (거짓말 탐지) 방법 및 장치 |
US12265935B2 (en) * | 2019-12-19 | 2025-04-01 | Senseye, Inc. | Transillumination of iris muscles to infer stroma deformation |
-
2023
- 2023-02-28 EP EP23759448.6A patent/EP4486209A1/en active Pending
- 2023-02-28 JP JP2024551908A patent/JP2025507825A/ja active Pending
- 2023-02-28 WO PCT/IB2023/051873 patent/WO2023161913A1/en active Application Filing
- 2023-02-28 US US18/115,414 patent/US20230274582A1/en active Pending
- 2023-02-28 KR KR1020247032573A patent/KR20250004637A/ko active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230274582A1 (en) | 2023-08-31 |
WO2023161913A1 (en) | 2023-08-31 |
JP2025507825A (ja) | 2025-03-21 |
EP4486209A1 (en) | 2025-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu et al. | Rhythmnet: End-to-end heart rate estimation from face via spatial-temporal representation | |
US20230274582A1 (en) | Deception detection | |
Wang et al. | A comparative survey of methods for remote heart rate detection from frontal face videos | |
Alnaggar et al. | Video-based real-time monitoring for heart rate and respiration rate | |
US9642536B2 (en) | Mental state analysis using heart rate collection based on video imagery | |
Speth et al. | Deception detection and remote physiological monitoring: A dataset and baseline experimental results | |
KR102285999B1 (ko) | 얼굴 색상과 떨림을 이용한 카메라 기반 심박 측정 방법 및 시스템 | |
WO2014145204A1 (en) | Mental state analysis using heart rate collection based video imagery | |
US20210386343A1 (en) | Remote prediction of human neuropsychological state | |
US20240161498A1 (en) | Non-contrastive unsupervised learning of physiological signals from video | |
Wang et al. | VitaSi: A real-time contactless vital signs estimation system | |
Pirzada et al. | Remote photoplethysmography for heart rate and blood oxygenation measurement: a review | |
He et al. | Remote photoplethysmography heart rate variability detection using signal to noise ratio bandpass filtering | |
Oviyaa et al. | Real time tracking of heart rate from facial video using webcam | |
US20240334008A1 (en) | Liveness detection | |
US20250152029A1 (en) | Promoting generalization in cross-dataset remote photoplethysmography | |
Ben Salah et al. | Contactless heart rate estimation from facial video using skin detection and multi-resolution analysis | |
US20250072773A1 (en) | Cross-domain unrolling-based imaging photoplethysmography systems and methods for estimating vital signs | |
US12343177B2 (en) | Video based detection of pulse waveform | |
Qiu et al. | Artificial intelligence in remote photoplethysmography: Remote heart rate estimation from video images | |
Waqar | Contact-free heart rate measurement from human face videos and its biometric recognition application | |
Hendryani et al. | A review on human stress detection using biosignal based on image processing technique | |
Salim et al. | A comprehensive review of rPPG methods for heart rate estimation | |
Balaraman et al. | Recent Innovations and Improvements in Remote Heart Rate and Heart Disease Measuring Methods Using RGB Camera | |
Toley et al. | Facial Video Analytics: An Intelligent Approach to Heart Rate Estimation Using AI Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20240927 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PG1501 | Laying open of application |