CN110796699B - 多目相机系统的最优视角选择方法和三维人体骨骼检测方法 - Google Patents
多目相机系统的最优视角选择方法和三维人体骨骼检测方法 Download PDFInfo
- Publication number
- CN110796699B CN110796699B CN201910524334.1A CN201910524334A CN110796699B CN 110796699 B CN110796699 B CN 110796699B CN 201910524334 A CN201910524334 A CN 201910524334A CN 110796699 B CN110796699 B CN 110796699B
- Authority
- CN
- China
- Prior art keywords
- camera
- dimensional
- view angle
- optimal
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Processing (AREA)
Abstract
多目相机系统的最优视角选择方法和三维人体骨骼检测方法,最优视角选择方法包括:多目相机系统获得二维关键点,每个相机视角对应设关键点检测和一个置信度;关键点在该相机视角中不可见则为0;可见则为1;建立初始的最优相机集合作为初始化,并将置信度大于等于阈值γ的关键点对应的相机视角集合作为初始最优视角组合。三维人体骨骼检测方法包括数据采集获得人体图片的二维关键点及对应的置信度;对二维关键点选择出最优相机视角;生成三维骨骼点。本发明能够简便快捷地从多目相机系统中选择出最佳的视角组合做三角化,从而得到更加精确的三维人体骨骼,提高了视角选择的鲁棒性与准确性。
Description
技术领域
本发明涉及三维图形技术领域,具体地说是一种多目相机系统的最优视角选择方法和三维人体骨骼检测方法。
背景技术
在三维重建领域,常用的输入设备为单目相机、单目深度相机、双目相机和多目相机系统。由于拍摄的物体可能存在遮挡,尤其是拍摄人体时人体四肢可能出现自遮挡,单目(深度)相机受限于视角范围往往不能实施有效的骨骼识别,而双目相机也无法覆盖全部的视角,因此多目相机系统最适合这一任务。
但是,多目相机系统的相机数量、相机位置都是需要考虑的问题。理论上来说相机越多,覆盖的视角更多,效果应该更好。但是相机越多,越容易因为相机的标定误差造成更大的错误。目前,传统的方法是利用随机抽样一致性(Random Sample Consensus)算法排除异常点然后再做三角化(triangulation),但这个方法没有考虑到相机的空间位置信息,因此效果并不好。
发明内容
本发明为解决现有的问题,旨在提供一种多目相机系统的最优视角选择方法和三维人体骨骼检测方法。
为了达到上述目的,本发明采用的技术方案提供一种三维人体骨骼检测中多目相机系统的最优视角选择方法,多目相机系统获得二维关键点,每个相机视角vi对应设关键点检测di和一个置信度si;置信度si为关键点的0、1标记值,关键点在该相机视角vi中不可见则为0;可见则为1;
根据置信度si建立初始的最优相机集合作为初始化,并将置信度si大于等于阈值γ的关键点对应的相机视角集合作为初始最优视角组合。
其中,阈值γ∈[0.5,0.9]。
其中,将置信度si为0的相机视角抛弃;并选取与最优视角组合的平均距离大的相机。
其中,相机视角设为节点,相连成边,并构成图g=<v,ε>;并通过如下函数给节点标记0、1值:Ei,j=EU(vi→li)+λEB(vi→li,vj→lj);其中v表示相机集合,ε表示连接关系集合。
其中,其中Eu是相似性能量函数,用来衡量将标记li给相机vi的代价,公式如下:
其中i,j∈1,2,...,n。
其中,二元项EB是对选出的相机位置及视角方向的一个约束,定义如下:
EB(vi,vj)=d(ci,cj)+Θ(ci,cj)
d(ci,cj)是相机i和相机j之间的欧式距离,Θ(ci,cj)是两个相机的视角方向(Lookatdirection)的夹角归一化后的值。
本发明还提供一种三维人体骨骼检测方法:
步骤一,数据采集,即利用多目相机系统采集若干人体图片,
步骤二,获得人体图片的二维关键点及对应的置信度;
步骤三,根据置信度和相机空间信息建立视角图,依据上述的最优视角选择方法选择出最优相机视角;
步骤四,根据选出的最佳视角组合做二维点到三维的三角化与集束调整,最终生成三维骨骼点。
其中,所述多目相机系统包括穹幕,所述穹幕内设有72个阵列分布的相机,且相机视角均指向穹幕中心。
步骤二中,通过深度神经网络OpenPose获得每帧图像上的人体二维关键点,即从每帧图像中识别出人体的二维骨骼点,包括身体上25个点和手上21个点。步骤四中,给定每个相机Vi下都可见的一个二维骨骼点及相机投影矩阵/>列出如下公式:
AXi=0
Xi代表需要求的三维点位置。
步骤四中,接着利用集束调整来进一步优化结果,集束调整公式为:
给定最优视角集合下的图像v1,v2,...,vn,xij表示网络在vi上检测出的序号j的骨骼点,sij为网络对xij的置信度,pvi表示vi的投影矩阵。
和现有技术相比,本发明能够简便快捷地从多目相机系统中选择出最佳的视角组合做三角化,从而得到更加精确的三维人体骨骼;克服了目前多目相机系统因为相机过多导致的误差问题,在传统算法的基础上引入了相机的空间位置信息,提高了视角选择的鲁棒性与准确性。
附图说明
图1为多目相机系统的结构示意图;
图2a为OpenPose检测人体二维骨骼点的示意图;
图2b为用全部视角做三角化后与点云匹配后得到的结果的示意图;
图2c为经过视角选择后做三角化与点云匹配的结果的示意图。
具体实施方式
参见图1至图2c,图1展示的是本发明的一个实施例,是一种三维人体骨骼检测方法,具体阐述如下。
步骤一,数据采集。参见图1,本发明实施例采用了一个直径8米,高5米的穹幕(dome)多相机系统,其中72个相机分布在穹幕内且相机均指向穹幕中心,具体相机分布位置如图1所示。图1中,每个白色相机图标表示相机的三维位置,半透明矩形表示相机的像平面,本实施例中所采用的相机分辨率均在2000×2000以上。本实施例还使用一个棋盘格纹理的人体模型,利用传统算法对这个多相机系统进行了标定。
在数据采集过程中,采集对象在穹幕(dome)中心做自由动作,相机以30帧每秒的帧率采集动态视频,接下来本实施例对动态视频的每一帧做单独操作。步骤二,人体二维关键点获取。本发明利用现有的深度神经网络OpenPose获得每帧的72个图像上的人体二维关键点。OpenPose是一种人体姿态估计算法,基于卷积神经网络和监督学习并以caffe为框架写成的开源库,可以实现人的面部表情、躯干和四肢甚至手指的跟踪,该算法基于深度学习从大量的数据中学习出了一个人体姿态估计模型。OpenPose不仅适用于单人也适用于多人,同时具有较好的鲁棒性。该模型能够从单张图像中识别出人体的二维骨骼点,包括身体上25个点和手上21个点,此外OpenPose还能够对识别的结果提供一个0到1的浮点数表示该二维骨骼点的置信度。参见图2a,图中的线为关键点连线。
步骤三,建立视角图(viewgraph),并采用本发明的最优视角选择方法。在得到人体二维关键点之后,现有技术通常是将所有72张图片中关键点位置和相机参数一起做三角化(triangularion)得到三维关键点。但实际操作中发现有些图片的检测结果非常差,会对最后的三维结果产生影响。因此,本发明中增加图片视角的选择这一步骤,图片视角选择的目的是排除检测错误的视角,并且保证选择出来的视角能够使得三角化后三维点更加准确。
本实施例将这个最佳视角选择的问题定义为一个0、1标记(binarylabelling)问题。即给定现有的相机集合V={v1,v2,...vn},每个相机视角vi都对应一个关键点检测di和一个置信度si。
其中,置信度表示当前检测的可信程度,数值越高表示网络对于检测的结果越有信心,也就表示检测结果越准确。当该关键点在图中不可见(图片只拍了半身)或者由于遮挡没有被检测出来时,置信度为0。本实施例可以根据置信度建立一个初始的最优相机集合作为初始化。
本实施例将置信度大于等于阈值γ的关键点对应的相机视角集合作为初始最优视角组合。阈值γ的选择一般在0.5到0.9之间,具体可以根据选择出来的相机个数进行调整,保证最优视角组合中相机个数至少占全部相机个数的10%以上。对于置信度等于0的关键点对应的相机视角,本实施例将其作为初始不选择的视角组合。
接下来,本实施例将每个相机视角看作一个节点(node),将节点两两相连作为边(edge),而点集和边集可以构成一个图(graph)g=<v,ε>;其中v表示相机集合,ε表示连接关系集合。本实施例通过最小化一个能量函数,来给每个节点一个0、1标记li∈{选择(=1),抛弃(=0)}。本实施例为这个能量函数分别定义了一元项(unaryterm)和二元项(binaryterm)。
Ei,j=EU(vi→li)+λEB(vi→li,vj→lj)
一元项EU是相似性能量(likelihoodenergy)函数,用来衡量将标记li给相机vi的代价,公式如下:
其中i,j∈1,2,...,n。
根据上述公式,本实施例将置信度为0的相机视角强制抛弃,即选择标记li=1的能量(EU(vi=1)=∞)为无穷大,而选择标记li=0的能量(EU(vi=0)=0)为0。对于置信度大于等于γ的点强制选择,同理选择标记li=1的能量(EU(vi=1)=0)为0,而选择标记li=0的能量(EU(vi=0)=∞)为无穷大。
公式中的是视角vi到初始最优视角组合的平均距离,/>是视角vi到初始不选择的视角组合的平均距离。第三行公式的意思是,对于置信度大于0且小于γ的点,本实施例选择的依据是相机到已知视角集合的距离。距离最优视角组合的平均距离越大,/>就越大,相应的根据公式/>选择该点的能量就越小。同理距离初始不选择的视角组合的平均距离越大,/>就越大,根据公式/>标记该点为0的能量就越大。这两个公式意味着,本实施例倾向于选择与最优视角组合的平均距离大的相机点,这样的相机组合位置更加分散,能够覆盖整个场景。
二元项EB是对选出的相机位置及视角方向的一个约束,具体定义如下:
EB(vi,vj)=d(ci,cj)+Θ(ci,cj)
其中d(ci,cj)是相机i和相机j之间的欧式距离,Θ(ci,cj)是两个相机的视角方向(Lookatdirection)的夹角归一化后的值。本发明中,本实施例将二元项的权重λ设置为0.1。两个相机距离小,d(ci,cj)就越小,相机视角方向越相近,Θ(ci,cj)就越小。也就是说,距离近、视角相似的一对相机,他们的EB(vi,vj)会越小。那么在图割算法中,他们就越容易被分成不同的标记。也就是说二元项保证了距离近、视角相似的相机被赋予不同的标记,那么本实施例根据二元项的约束,本实施例选出来的相机可以看到更多不同的角度,也就能够获取更多的信息。
本实施例用图割算法(graphcut)最小化能量函数Ei,j来求解上述问题,最终本实施例就能得到一个相机集合满足关键点检测置信度高、相机距离远且视角不相似。满足这些条件的相机集合在三角化(triangulation)时就能够得到更加准确的结果。
步骤四,三维骨骼点生成。根据以上的算法,本实施例对每一个关键点都建立视角图(viewgraph),选出最优视角集合,然后运用三角化(triangulation)和集束调整(bundleadjustment)算法恢复出较为精确的人体三维骨骼点。三角化使多目相机恢复三维的手段如下:给定每个相机Vi下都可见的一个二维骨骼点及相机投影矩阵本实施例可以列出如下公式,其中Xi代表需要求的三维点位置:
AXi=0
求解这个线性方程组在就可以得到该关键点的三维位置Xi。通过对每一个关键点做三角化,本实施例就可以得到一个完整的三维骨骼,其中包括身体25个点以及每只手上21个点。接下来本实施例还利用集束调整来进一步优化结果,目的就是为了利用上OpenPose的置信度,使得结果更加准确。
集束调整公式可表达为:
给定最优视角集合下的图像v1,v2,...,vn,xij表示网络在vi上检测出的序号j的骨骼点,sij为网络对xij的置信度,pvi表示vi的投影矩阵。本实施例算法优化的目标是使所有67个(身体25个,每只手21个)三维骨骼点X1,X2,...,X67在经过每个视角的重投影变换Pvi后,与网络的二维骨骼点xij尽可能接近。
通过上述的三角化和集束调整,本实施例最终能够得到一组非常准确的人体三维骨骼点。
对动态视频的每一帧都做上述操作,本实施例就能得到一组准确的三维动态骨骼。
上面结合附图及实施例描述了本发明的实施方式,实施例给出的并不构成对本发明的限制,本领域内熟练的技术人员可依据需要做出调整,在所附权利要求的范围内做出各种变形或修改均在保护范围内。
Claims (9)
1.一种三维人体骨骼检测中多目相机系统的最优视角选择方法,多目相机系统获得二维关键点,其特征在于:
每个相机视角vi对应设关键点检测di和一个置信度si;
置信度si为关键点的0、1标记值,关键点在该相机视角vi中不可见则为0,可见则为1;
根据置信度si建立初始的最优相机集合作为初始化,并将置信度si大于等于阈值γ的关键点对应的相机视角集合作为初始最优视角组合;对于置信度si大于0且小于γ的点,选取与最优视角组合的平均距离大的相机;将置信度si为0的相机视角抛弃。
2.根据权利要求1所述的三维人体骨骼检测中多目相机系统的最优视角选择方法,其特征在于:阈值γ∈[0.5,0.9]。
3.根据权利要求1或2所述的三维人体骨骼检测中多目相机系统的最优视角选择方法,其特征在于:相机视角设为节点,相连成边,并构成图并通过如下函数给节点标记0、1值:Ei,j:=EU(vi→li)+λEB(vi→li,vj→lj);其中/>表示相机集合,ε表示连接关系集合。
4.根据权利要求3所述的三维人体骨骼检测中多目相机系统的最优视角选择方法,其特征在于:其中EU是相似性能量函数,用来衡量将标记li给相机vi的代价,公式如下:
其中i,j∈1,2,…,n。
5.根据权利要求4所述的三维人体骨骼检测中多目相机系统的最优视角选择方法,其特征在于:二元项EB是对选出的相机位置及视角方向的一个约束,定义如下:
EB(vi,vj)=d(ci,cj)+Θ(ci,cj)
d(ci,cj)是相机i和相机j之间的欧式距离,Θ(ci,cj)是两个相机的视角方向的夹角归一化后的值。
6.一种三维人体骨骼检测方法,其特征在于:
步骤一,数据采集,即利用多目相机系统采集若干人体图片,
步骤二,获得人体图片的二维关键点及对应的置信度;
步骤三,根据置信度和相机空间信息建立视角图,根据权利要求1-5任一所述的最优视角选择方法选择出最优相机视角;
步骤四,根据选出的最佳视角组合做二维点到三维的三角化与集束调整,最终生成三维骨骼点。
7.根据权利要求6所述的三维人体骨骼检测方法,其特征在于:步骤二中,通过深度神经网络OpenPose获得每帧图像上的人体二维关键点,即从每帧图像中识别出人体的二维骨骼点,包括身体上25个点和手上21个点。
8.根据权利要求6所述的三维人体骨骼检测方法,其特征在于:步骤四中,给定每个相机Vi下都可见的一个二维骨骼点及相机投影矩阵/>列出如下公式:
AXi=0
Xi代表需要求的三维点位置。
9.根据权利要求8所述的三维人体骨骼检测方法,其特征在于:步骤四中,接着利用集束调整来进一步优化结果,集束调整公式为:
给定最优视角集合下的图像v1,v2,…,vn,xij表示网络在vi上检测出的序号j的骨骼点,sij为网络对xij的置信度,pvi表示vi的投影矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524334.1A CN110796699B (zh) | 2019-06-18 | 2019-06-18 | 多目相机系统的最优视角选择方法和三维人体骨骼检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524334.1A CN110796699B (zh) | 2019-06-18 | 2019-06-18 | 多目相机系统的最优视角选择方法和三维人体骨骼检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796699A CN110796699A (zh) | 2020-02-14 |
CN110796699B true CN110796699B (zh) | 2024-03-01 |
Family
ID=69427373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524334.1A Active CN110796699B (zh) | 2019-06-18 | 2019-06-18 | 多目相机系统的最优视角选择方法和三维人体骨骼检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796699B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798486B (zh) * | 2020-06-16 | 2022-05-17 | 浙江大学 | 基于人体运动预测的多视角人体运动捕捉方法 |
EP3951715B1 (en) | 2020-08-05 | 2025-02-19 | Canon Kabushiki Kaisha | Generation apparatus, generation method, and program |
US12002214B1 (en) * | 2023-07-03 | 2024-06-04 | MOVRS, Inc. | System and method for object processing with multiple camera video data using epipolar-lines |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056050A (zh) * | 2016-05-23 | 2016-10-26 | 武汉盈力科技有限公司 | 一种基于自适应三维人体运动统计模型的多视角步态识别方法 |
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
CN109325995A (zh) * | 2018-09-13 | 2019-02-12 | 叠境数字科技(上海)有限公司 | 基于人手参数模型的低分辨率多视角手部重建方法 |
-
2019
- 2019-06-18 CN CN201910524334.1A patent/CN110796699B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056050A (zh) * | 2016-05-23 | 2016-10-26 | 武汉盈力科技有限公司 | 一种基于自适应三维人体运动统计模型的多视角步态识别方法 |
WO2018120964A1 (zh) * | 2016-12-30 | 2018-07-05 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
CN109325995A (zh) * | 2018-09-13 | 2019-02-12 | 叠境数字科技(上海)有限公司 | 基于人手参数模型的低分辨率多视角手部重建方法 |
Non-Patent Citations (2)
Title |
---|
杨凯 ; 魏本征 ; 任晓强 ; 王庆祥 ; 刘怀辉 ; .基于深度图像的人体运动姿态跟踪和识别算法.数据采集与处理.2015,(05),全文. * |
林瑞 ; 王俊英 ; 孙水发 ; 董方敏 ; .基于Kinect的骨骼配准的人体三维重建.信息通信.2016,(12),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110796699A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717712B (zh) | 一种基于地平面假设的视觉惯导slam方法 | |
CN109360240A (zh) | 一种基于双目视觉的小型无人机定位方法 | |
Gupta et al. | Texas 3D face recognition database | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
TWI320847B (en) | Systems and methods for object dimension estimation | |
CN111881887A (zh) | 基于多摄像头的运动姿态监测和指导方法及装置 | |
CN110617814A (zh) | 单目视觉和惯性传感器融合的远距离测距系统及方法 | |
US20150243035A1 (en) | Method and device for determining a transformation between an image coordinate system and an object coordinate system associated with an object of interest | |
CN107204010A (zh) | 一种单目图像深度估计方法与系统 | |
CN110796699B (zh) | 多目相机系统的最优视角选择方法和三维人体骨骼检测方法 | |
CN110555869B (zh) | 提取增强现实系统中主要和次级运动的方法和系统 | |
CN110555408B (zh) | 一种基于自适应映射关系的单摄像头实时三维人体姿态检测方法 | |
CN103198475B (zh) | 基于多层次迭代可视化优化的全聚焦合成孔径透视成像方法 | |
CN114627491A (zh) | 一种基于极线汇聚的单人三维姿态估计方法 | |
CN113822174B (zh) | 视线估计的方法、电子设备及存储介质 | |
CN112767467A (zh) | 一种基于自监督深度学习的双图深度估计方法 | |
CN104182968A (zh) | 宽基线多阵列光学探测系统模糊动目标分割方法 | |
CN112288813A (zh) | 基于多目视觉测量与激光点云地图匹配的位姿估计方法 | |
JP7498404B2 (ja) | 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
CN117974786A (zh) | 一种基于多视觉动态环境重建和测量方法及系统 | |
EP3185212A1 (en) | Dynamic particle filter parameterization | |
CN107845096A (zh) | 基于图像的行星三维信息测定方法 | |
US20230215096A1 (en) | System and method for mapping the skin | |
CN117496059B (zh) | 基于空间算法利用aigc技术的三维影像系统 | |
CN113111743A (zh) | 人员距离探测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |