CN117935352A - 手势识别方法、电子设备和计算机可读存储介质 - Google Patents
手势识别方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN117935352A CN117935352A CN202311827708.XA CN202311827708A CN117935352A CN 117935352 A CN117935352 A CN 117935352A CN 202311827708 A CN202311827708 A CN 202311827708A CN 117935352 A CN117935352 A CN 117935352A
- Authority
- CN
- China
- Prior art keywords
- training
- skeleton
- classified
- text
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003068 static effect Effects 0.000 claims description 15
- 230000000052 comparative effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 49
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种手势识别方法、电子设备和计算机可读存储介质,该方法包括:获取至少一个分类描述文本和至少一个待分类骨架序列;其中,分类描述文本包括对手势的描述内容,待分类骨架序列是基于多个标注有关键点的手部图像得到的;将所有分类描述文本输入对比学习模型的文本编码器,将所有待分类骨架序列输入对比学习模型的图像编码器,得到对比学习模型输出的待分类骨架序列与分类描述文本的匹配结果,基于匹配结果,确定待分类骨架序列匹配的目标手势;其中,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容。上述方案,能够提高手势识别的准确率和鲁棒性。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种手势识别方法、电子设备和计算机可读存储介质。
背景技术
随着计算机视觉领域的不断细化,对于手势识别也愈发得到重视,手势可以在无麦克风、难以收音、聋哑人群、远程指挥和人机交互等场景中有效地传递信息。现有技术中通常是采集训练数据并为训练数据设置标签,从而有监督地训练识别模型,由于手势具有动态变化的特征导致手势存在大量的组合,且不同场景下的手势区别较大,因此,常规的手势识别方法难以识别新的手势导致识别准确率较低,且在不同场景中进行手势识别时的鲁棒性较差。有鉴于此,如何提高手势识别的准确率和鲁棒性成为了亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种手势识别方法、电子设备和计算机可读存储介质,能够提高手势识别的准确率和鲁棒性。
为解决上述技术问题,本申请第一方面提供一种手势识别方法,该方法包括:获取至少一个分类描述文本和至少一个待分类骨架序列;其中,所述分类描述文本包括对手势的描述内容,所述待分类骨架序列是基于多个标注有关键点的手部图像得到的;将所有所述分类描述文本输入对比学习模型的文本编码器,将所有所述待分类骨架序列输入对比学习模型的图像编码器,得到所述对比学习模型输出的所述待分类骨架序列与所述分类描述文本的匹配结果,基于所述匹配结果,确定所述待分类骨架序列匹配的目标手势;其中,所述对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,所述训练描述文本包括对所述训练骨架序列匹配的训练手势的描述内容。
为解决上述技术问题,本申请第二方面提供一种电子设备,该电子设备包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述第一方面所述的方法。
为解决上述技术问题,本申请第三方面提供一种计算机可读存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述第一方面所述的方法。
上述方案,获取至少一个分类描述文本和至少一个待分类骨架序列,其中,分类描述文本中包括对手势进行描述的描述内容,待分类骨架序列是基于多个对手部的关键点进行标注后的手部图像得到的,多个标注有关键点的手部图像组成的待分类骨架序列能够更优地反馈手势的动态变化,将所有分类描述文本输入对比学习模型的文本编码器,将所有待分类骨架序列输入对比学习模型的图像编码器,得到对比学习模型分析后输出的待分类骨架序列与分类描述文本之间的匹配结果,基于待分类骨架序列匹配到的分类描述文本中对手势的描述内容,得到待分类骨架序列匹配的目标手势。其中,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容,因此,对比学习模型采用零样本学习方式进行训练,且在训练过程中能够学习描述文本的特征和骨架序列的特征之间的关联性,当待分类骨架序列中包括训练阶段未包括的手势时,或者将对比学习模型应用于不同场景中时,只要分类描述文本包括对手势的描述内容,对比学习模型仍能够对新的手势进行特征匹配,从而基于匹配结果准确识别出新的手势,提高手势识别的准确率和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请手势识别方法一实施方式的流程示意图;
图2是本申请手势识别方法另一实施方式的流程示意图;
图3是本申请手部图像一实施方式的应用场景示意图;
图4是本申请电子设备一实施方式的结构示意图;
图5是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本申请所提供的手势识别方法用于对手势进行识别,其对应的执行主体为能够处理文本和图像的处理终端。
请参阅图1,图1是本申请手势识别方法一实施方式的流程示意图,该方法包括:
S101:获取至少一个分类描述文本和至少一个待分类骨架序列;其中,分类描述文本包括对手势的描述内容,待分类骨架序列是基于多个标注有关键点的手部图像得到的。
具体地,获取至少一个分类描述文本和至少一个待分类骨架序列,其中,分类描述文本中包括对手势进行描述的描述内容,待分类骨架序列是基于多个对手部的关键点进行标注后的手部图像得到的。
需要说明的是,分类描述文本由用户输入,分类描述文本中描述内容所描述的手势即为手势的类别,描述内容可以包括手势在动态变化过程中所对应的内容。
在一应用方式中,分类描述文本对应有文本描述模板,获取填写至文本描述模板中的至少一个分类描述文本,每两个分类描述文本相互区别,每个分类描述文本中包括的描述内容用于描述一种手势。其中,文本描述模板至少包括对手指和手掌的描述模板格式,从而约束分类描述文本中的描述内容。
在另一应用方式中,获取用户输入的输入文本,确定输入文本的文本语义,基于输入文本的文本语义,将输入文本调整为分类描述文本。其中,用户输入的至少一个输入文本被调整为对应的分类描述文本,每两个分类描述文本相互区别,每个分类描述文本中包括的描述内容用于描述一种手势。
在一应用场景中,分类描述文本至少包括对部分手指进行描述的描述内容,例如手势的描述内容具体可以包括食指向上、指尖向下移动且指间旋转30度,用户未提及的部位可以不做补充,也可以按标准手势的内容进行补充,其中,标准手势可以是手部向上五指正常张开时的手势,本申请对此不做具体限制。
可以理解的是,多个标注有关键点的手部图像组成的待分类骨架序列能够更优地反馈手势的动态变化,也就是说待分类骨架序列是基于针对手部采集的连续的手部图像得到的,其中,手部图像在时序上存在先后关系,且手部图像经过尺寸归一化。
在一应用方式中,每个手部图像上标注有关键点,将关键点按手部特征连接,得到骨架图像,将手部对应的所有骨架图像按时序排列,得到待分类骨架序列。
在另一应用方式中,每个手部图像上标注有关键点对应的高斯圆,每个手部图像对应为热力图像,将手部对应的所有热力图像按时序排列,得到待分类骨架序列。
需要说明的是,每个手部图像上的关键点对应有关键点坐标,待分类骨架序列还包括基于关键点坐标得到的特征信息,以便于对待分类骨架序列进行解析。
在一应用场景中,待分类骨架序列包括的特征信息与单个手部图像上关键点坐标之间的距离和角度相关。
在另一应用场景中,待分类骨架序列包括的特征信息与多个手部图像上同一关键点坐标的变化趋势相关。
在又一应用场景中,待分类骨架序列包括的特征信息与单个手部图像上关键点坐标之间的距离和角度,以及多个手部图像上同一关键点坐标的变化趋势相关。
S102:将所有分类描述文本输入对比学习模型的文本编码器,将所有待分类骨架序列输入对比学习模型的图像编码器,得到对比学习模型输出的待分类骨架序列与分类描述文本的匹配结果,基于匹配结果,确定待分类骨架序列匹配的目标手势;其中,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容。
具体地,将所有分类描述文本输入对比学习模型的文本编码器,将所有待分类骨架序列输入对比学习模型的图像编码器,得到对比学习模型分析后输出的待分类骨架序列与分类描述文本之间的匹配结果,基于待分类骨架序列匹配到的分类描述文本中对手势的描述内容,得到待分类骨架序列匹配的目标手势。
需要说明的是,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容,因此,对比学习模型采用零样本学习方式进行训练,且在训练过程中能够学习描述文本的特征和骨架序列的特征之间的关联性。
可以理解的是,将所有分类描述文本输入对比学习模型的文本编码器,能够得到每个分类描述文本的描述文本特征,将所有待分类骨架序列输入对比学习模型的图像编码器,能够得到每个待分类骨架序列的待分类骨架特征,待分类骨架序列与分类描述文本的匹配结果与描述文本特征和待分类骨架特征的配对概率相关。
在一应用方式中,匹配结果包括待分类骨架序列对应的配对概率最高的分类描述文本,将分类描述文本所包括的描述内容作为待分类骨架序列匹配的目标手势。
在另一应用方式中,匹配结果包括待分类骨架序列对应的配对概率超过概率阈值的分类描述文本,当配对概率超过概率阈值时,将分类描述文本所包括的描述内容作为待分类骨架序列匹配的目标手势,当配对概率未超过概率阈值时,输出预设识别结果作为待分类骨架序列匹配的目标手势,其中,预设识别结果用于表征无法识别。
可以理解的是,当待分类骨架序列中包括训练阶段未包括的手势时,或者将对比学习模型应用于不同场景中时,只要分类描述文本包括对手势的描述内容,对比学习模型仍能够对新的手势进行特征匹配,从而基于匹配结果准确识别出新的手势,提高手势识别的准确率和鲁棒性。
进一步地,分类描述文本和待分类骨架序列的数量均至少为一个,两者的数量可以相同也可以不相同,匹配结果对应的条件可以按上述任意一种应用方式中采用的方案进行设置。
在一具体应用场景中,当分类描述文本的数量为一个,待分类骨架序列的数量为多个时,匹配结果包括待分类骨架序列对应的配对概率超过概率阈值的分类描述文本,所有待分类骨架序列的手势识别结果最终包括与分类描述文本中的描述内容相符,以及与分类描述文本中的描述内容不相符中的至少一者,从而实现对待分类骨架序列进行手势识别的二分类。
在另一具体应用场景中,当分类描述文本的数量为多个,待分类骨架序列的数量为一个时,匹配结果包括待分类骨架序列对应的配对概率最高的分类描述文本,从而能够设置多种可能的分类描述文本对待分类骨架序列对应的目标手势进行预测,得到概率最高也即最准确的手势识别结果。
上述方案,获取至少一个分类描述文本和至少一个待分类骨架序列,其中,分类描述文本中包括对手势进行描述的描述内容,待分类骨架序列是基于多个对手部的关键点进行标注后的手部图像得到的,多个标注有关键点的手部图像组成的待分类骨架序列能够更优地反馈手势的动态变化,将所有分类描述文本输入对比学习模型的文本编码器,将所有待分类骨架序列输入对比学习模型的图像编码器,得到对比学习模型分析后输出的待分类骨架序列与分类描述文本之间的匹配结果,基于待分类骨架序列匹配到的分类描述文本中对手势的描述内容,得到待分类骨架序列匹配的目标手势。其中,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容,因此,对比学习模型采用零样本学习方式进行训练,且在训练过程中能够学习描述文本的特征和骨架序列的特征之间的关联性,当待分类骨架序列中包括训练阶段未包括的手势时,或者将对比学习模型应用于不同场景中时,只要分类描述文本包括对手势的描述内容,对比学习模型仍能够对新的手势进行特征匹配,从而基于匹配结果准确识别出新的手势,提高手势识别的准确率和鲁棒性。
请参阅图2,图2是本申请手势识别方法另一实施方式的流程示意图,该方法包括:
S201:获取至少一个分类描述文本和至少一个待分类骨架序列;其中,分类描述文本包括对手势的描述内容,待分类骨架序列是基于多个标注有关键点的手部图像得到的。
具体地,获取至少一个分类描述文本和至少一个待分类骨架序列,其中,分类描述文本中包括对手势进行描述的描述内容,待分类骨架序列是基于多个对手部的关键点进行标注后的手部图像得到的。
需要说明的是,待分类骨架序列经过预处理,预处理的过程包括:获取多个尺寸归一化后的手部图像,确定每个手部图像上的所有关键点对应的关键点坐标;基于多个手部图像上的关键点坐标,确定每个手部图像对应的静态特征和多个手部图像对应的动态特征;基于多个手部图像及其对应的静态特征和动态特征,得到预处理后的骨架序列。
具体地,请参阅图3,图3是本申请手部图像一实施方式的应用场景示意图,其中,图3中手部的关键点是基于开源的手势识别框架MediaPipe得到的,获取多个尺寸统一的尺寸归一化后的手部图像,确定每个手部图像上的所有关键点对应的关键点坐标,基于每个手部图像上至少部分关键点之间的距离和角度,得到每个手部图像对应的静态特征,基于多个手部图像上至少部分关键点之间的变化趋势,得到多个手部图像对应的动态特征。
进一步地,利用多个手部图像及其对应的静态特征和动态特征,构建预处理后得到的骨架序列,以使预处理后得到的骨架序列包括更多的特征信息,以便于后续对比学习模型对骨架序列的深层次特征进行挖掘。
在一应用场景中,基于多个手部图像上的关键点坐标,确定每个手部图像对应的静态特征和多个手部图像对应的动态特征,包括:基于手部图像上的关键点对所对应的关键点坐标之间的距离和角度,得到骨架长度和骨架角度;其中,关键点对包括两个相连的关键点,静态特征包括骨架长度和骨架角度;基于多个手部图像上至少部分关键点对应的关键点坐标的位置变化,以及多个手部图像的时间戳,得到骨架运动速度、骨架运动方向和骨架运动角度;其中,动态特征包括骨架运动速度、骨架运动方向和骨架运动角度。
具体地,基于手部图像上每组关键点对所对应的关键点坐标之间的距离和角度,换算得到整个手部图像上所有关键点所组成的骨架所对应的骨架长度和骨架角度,从而确定手部图像的静态特征。
进一步地,基于多个手部图像上至少部分关键点对应的关键点坐标的位置变化,以及多个手部图像的时间戳之间的时间差,换算得到手部对应的骨架在运动时对应的骨架运动速度、骨架运动方向和骨架运动角度,从而确定多个手部图像对应的动态特征。故此,预处理后所得到的骨架序列除了基础的骨架序列中每个手部图像的关键点的数量,以及整改骨架序列包括的手部图像的数量之外,还能够包括静态特征和动态特征,使骨架序列的特征信息更加具有鲁棒性。
需要说明的是,关键点坐标设置在三维关键点坐标系中,三维关键点坐标系基于手部图像上的部分关键点构建。
具体地,关键点坐标设置在三维关键点坐标系中,以使关键点坐标能够涵盖更加全面的空间信息,便于提取更加准确的静态特征和动态特征。其中,三维关键点坐标系是基于手部图像上的部分关键点构建的,以图3为例,以手部关键点0和9的连线为三维关键点坐标系的X轴,以手部关键点5和13为三维关键点坐标系的Y轴,利用与X轴和Y轴正交的Z轴来描述深度信息,其中,深度信息与采集手部图像时的景深相关。
可选地,基于骨架序列中的任一手部图像上的部分关键点构建三维关键点坐标系,或者基于骨架序列对应的所有手部图像预测得到骨架序列对应的标准手势图像,基于预测得到的标准手势图像上的部分关键点构建三维关键点坐标系。
S202:将所有分类描述文本输入文本编码器,将所有待分类骨架序列输入图像编码器,得到每个待分类骨架序列和每个训练描述文本两两之间的识别匹配概率,将识别匹配概率最高的分类描述文本,作为对应的待分类骨架序列匹配的目标分类描述文本,得到匹配结果。
具体地,对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,训练描述文本包括对训练骨架序列匹配的训练手势的描述内容。
可以理解的是,训练骨架序列也经过上述预处理过程,本申请对此不再赘述。
需要说明的是,针对任一实施例中的对比学习模型,对比学习模型的训练过程包括:获取多个训练骨架序列及其各自匹配的训练描述文本;其中,每个训练骨架序列与每个训练描述文本两两组合,得到多个训练样本对;将所有训练描述文本输入文本编码器,将所有训练骨架序列输入图像编码器,得到每个训练样本对中训练骨架序列和训练描述文本之间的预估匹配概率;基于所有预估匹配概率,调整文本编码器和图像编码器的参数,直至满足收敛条件,得到训练后的对比学习模型。
具体地,获取多个训练骨架序列及其各自匹配的训练描述文本,将每个训练骨架序列与每个训练描述文本两两组合,得到多个训练样本对,也就是说N个训练骨架序列对应有N个训练描述文本,每个训练骨架序列与每个训练描述文本两两组合后,得到N2个训练样本对,以使训练样本对中充分包括各种组合。
进一步地,将所有训练描述文本输入文本编码器,将所有训练骨架序列输入图像编码器,得到每个训练样本对中训练骨架序列和训练描述文本之间的预估匹配概率,从而基于预估匹配概率反馈训练描述文本的特征和训练骨架序列的特征之间的关联性,利用所有预估匹配概率确定训练损失,基于训练损失调整文本编码器和图像编码器的参数,直至满足收敛条件,得到训练后的对比学习模型,以使对比学习模型采用零样本学习方式进行训练,且在训练过程中能够学习描述文本的特征和骨架序列的特征之间的关联性。
在一应用场景中,将所有训练描述文本输入文本编码器,将所有训练骨架序列输入图像编码器,得到每个训练样本对中训练骨架序列和训练描述文本之间的预估匹配概率,包括:将所有训练描述文本输入文本编码器,得到每个训练描述文本对应的训练文本特征,将所有训练骨架序列输入图像编码器,得到每个训练骨架序列对应的训练骨架特征;针对每个训练样本对,获取训练描述文本对应的训练文本特征和训练骨架序列对应的训练骨架特征之间的相似度,基于相似度确定训练样本对中训练骨架序列和训练描述文本之间的预估匹配概率。
具体地,将所有训练描述文本输入文本编码器,以使文本编码器对每个训练描述文本进行特征提取,得到每个训练描述文本对应的训练文本特征,其中,文本编码器提取的文本特征反馈描述文本更深层次的语义。将所有训练骨架序列输入图像编码器,以使图像编码器对每个训练骨架序列进行特征提取,得到每个训练骨架序列对应的训练骨架特征,其中,图像编码器提取的骨架特征反馈时间维度上的动态特征。
进一步地,针对每个训练样本对中的训练描述文本和训练骨架序列,获取训练描述文本对应的训练文本特征和训练骨架序列对应的训练骨架特征之间在更深维度上的相似度,基于相似度确定训练样本对中训练骨架序列和训练描述文本之间的预估匹配概率,其中,预估匹配概率与相似度正相关,以便预估匹配概率充分体现描述文本的特征和骨架序列的特征之间的关联性。
需要说明的是,相互匹配的训练骨架序列和训练描述文本对应有配对标签,对应有配对标签的训练样本对为训练正样本对,未对应配对标签的训练样本对为训练负样本对,收敛条件与训练正样本对的预估匹配概率以及训练负样本对的预估匹配概率相关。
具体地,相互匹配的训练骨架序列和训练描述文本设置有配对标签,配对标签能够标识相互匹配的训练骨架序列和训练描述文本组成的训练样本对,作为训练正样本对,未对应有配对标签的训练样本对为训练负样本对,从而通过配对标签能够明确对比学习模型在训练过程中的优化方向。
进一步地,仍以训练描述文本和训练骨架序列的数量均为N为例,训练正样本数量即为N,训练负样本数量即为N2-N,训练过程就是通过迭代不断最大化N个训练正样本的预估配对概率,同时最小化N2-N个训练负样本的预估配对概率,以满足收敛条件,使对比学习模型采用零样本学习方式有效学习描述文本的特征和骨架序列的特征之间的关联性。
可以理解的是,获取训练后的对比学习模型,将所有分类描述文本输入文本编码器,以使文本编码器提取分类描述文本的特征,将所有待分类骨架序列输入图像编码器,以使图像编码器提取分类骨架序列的特征,基于分类描述文本的特征和分类骨架序列的特征之间的相似度,确定每个待分类骨架序列和每个训练描述文本两两之间的识别匹配概率,从而将识别匹配概率最高的分类描述文本,作为对应的待分类骨架序列匹配的目标分类描述文本,得到匹配结果,实现端到端高效地输出准确的匹配结果。
S203:基于待分类骨架匹配的目标分类描述文本中的描述内容,确定待分类骨架序列匹配的目标手势。
具体地,获取待分类骨架匹配的目标分类描述文本中的描述内容,基于对应的描述内容确定待分类骨架序列匹配的目标手势。
可以理解的是,当待分类骨架序列对应的目标手势未知时,可以设置多个相互区别的分类描述文本,至少部分分类描述文本中的描述内容对应有所有手部区域的描述,从而提高匹配到更精确的目标分类描述文本的概率,提高目标手势的精度。
在本实施例中,骨架序列经过预处理,基于每个手部图像上至少部分关键点之间的距离和角度,得到每个手部图像对应的静态特征,基于多个手部图像上至少部分关键点之间的变化趋势,得到多个手部图像对应的动态特征,预处理后所得到的骨架序列除了基础的骨架序列中每个手部图像的关键点的数量,以及整改骨架序列包括的手部图像的数量之外,还能够包括静态特征和动态特征,使骨架序列的特征信息更加具有鲁棒性,将所有分类描述文本输入文本编码器,将所有待分类骨架序列输入图像编码器,得到待分类骨架序列匹配的目标分类描述文本,实现端到端高效地输出准确的匹配结果。
请参阅图4,图4是本申请电子设备一实施方式的结构示意图,该电子设备40包括相互耦接的存储器401和处理器402,其中,存储器401存储有程序数据(图未示),处理器402调用程序数据以实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
请参阅图5,图5是本申请计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质50存储有程序数据500,该程序数据500被处理器执行时实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
需要说明的是,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种手势识别方法,其特征在于,所述方法包括:
获取至少一个分类描述文本和至少一个待分类骨架序列;其中,所述分类描述文本包括对手势的描述内容,所述待分类骨架序列是基于多个标注有关键点的手部图像得到的;
将所有所述分类描述文本输入对比学习模型的文本编码器,将所有所述待分类骨架序列输入对比学习模型的图像编码器,得到所述对比学习模型输出的所述待分类骨架序列与所述分类描述文本的匹配结果,基于所述匹配结果,确定所述待分类骨架序列匹配的目标手势;其中,所述对比学习模型是利用训练骨架序列及其匹配的训练描述文本训练得到的,所述训练描述文本包括对所述训练骨架序列匹配的训练手势的描述内容。
2.根据权利要求1所述的方法,其特征在于,所述待分类骨架序列和所述训练骨架序列均经过预处理,所述预处理的过程包括:
获取多个尺寸归一化后的手部图像,确定每个所述手部图像上的所有关键点对应的关键点坐标;
基于多个所述手部图像上的关键点坐标,确定每个所述手部图像对应的静态特征和多个所述手部图像对应的动态特征;
基于多个所述手部图像及其对应的所述静态特征和所述动态特征,得到预处理后的骨架序列。
3.根据权利要求2所述的方法,其特征在于,所述基于多个所述手部图像上的关键点坐标,确定每个所述手部图像对应的静态特征和多个所述手部图像对应的动态特征,包括:
基于所述手部图像上的关键点对所对应的关键点坐标之间的距离和角度,得到骨架长度和骨架角度;其中,所述关键点对包括两个相连的关键点,所述静态特征包括所述骨架长度和所述骨架角度;
基于多个所述手部图像上至少部分关键点对应的关键点坐标的位置变化,以及多个所述手部图像的时间戳,得到骨架运动速度、骨架运动方向和骨架运动角度;其中,所述动态特征包括所述骨架运动速度、所述骨架运动方向和所述骨架运动角度。
4.根据权利要求2所述的方法,其特征在于,所述关键点坐标设置在三维关键点坐标系中,所述三维关键点坐标系基于所述手部图像上的部分关键点构建。
5.根据权利要求1所述的方法,其特征在于,所述对比学习模型的训练过程包括:
获取多个所述训练骨架序列及其各自匹配的所述训练描述文本;其中,每个所述训练骨架序列与每个所述训练描述文本两两组合,得到多个训练样本对;
将所有所述训练描述文本输入所述文本编码器,将所有所述训练骨架序列输入所述图像编码器,得到每个所述训练样本对中所述训练骨架序列和所述训练描述文本之间的预估匹配概率;
基于所有所述预估匹配概率,调整所述文本编码器和所述图像编码器的参数,直至满足收敛条件,得到训练后的对比学习模型。
6.根据权利要求5所述的方法,其特征在于,所述将所有所述训练描述文本输入所述文本编码器,将所有所述训练骨架序列输入所述图像编码器,得到每个所述训练样本对中所述训练骨架序列和所述训练描述文本之间的预估匹配概率,包括:
将所有所述训练描述文本输入所述文本编码器,得到每个所述训练描述文本对应的训练文本特征,将所有所述训练骨架序列输入所述图像编码器,得到每个所述训练骨架序列对应的训练骨架特征;
针对每个所述训练样本对,获取所述训练描述文本对应的训练文本特征和所述训练骨架序列对应的训练骨架特征之间的相似度,基于所述相似度确定所述训练样本对中所述训练骨架序列和所述训练描述文本之间的预估匹配概率。
7.根据权利要求5所述的方法,其特征在于,相互匹配的所述训练骨架序列和所述训练描述文本对应有配对标签,对应有所述配对标签的所述训练样本对为训练正样本对,未对应所述配对标签的所述训练样本对为训练负样本对,所述收敛条件与所述训练正样本对的预估匹配概率以及所述训练负样本对的预估匹配概率相关。
8.根据权利要求1所述的方法,其特征在于,所述将所有所述分类描述文本输入对比学习模型的文本编码器,将所有所述待分类骨架序列输入对比学习模型的图像编码器,得到所述对比学习模型输出的所述待分类骨架序列与所述分类描述文本的匹配结果,基于所述匹配结果,确定所述待分类骨架序列匹配的目标手势,包括:
将所有所述分类描述文本输入所述文本编码器,将所有所述待分类骨架序列输入所述图像编码器,得到每个所述待分类骨架序列和每个所述训练描述文本两两之间的识别匹配概率,将所述识别匹配概率最高的所述分类描述文本,作为对应的所述待分类骨架序列匹配的目标分类描述文本,得到所述匹配结果;
基于所述待分类骨架匹配的所述目标分类描述文本中的描述内容,确定所述待分类骨架序列匹配的目标手势。
9.一种电子设备,其特征在于,包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311827708.XA CN117935352A (zh) | 2023-12-27 | 2023-12-27 | 手势识别方法、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311827708.XA CN117935352A (zh) | 2023-12-27 | 2023-12-27 | 手势识别方法、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935352A true CN117935352A (zh) | 2024-04-26 |
Family
ID=90762223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311827708.XA Pending CN117935352A (zh) | 2023-12-27 | 2023-12-27 | 手势识别方法、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935352A (zh) |
-
2023
- 2023-12-27 CN CN202311827708.XA patent/CN117935352A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3320482B1 (en) | System for recognizing multiple object input and method and product for same | |
EP2802975B1 (en) | Intelligent touchscreen keyboard with finger differentiation | |
Awal et al. | First experiments on a new online handwritten flowchart database | |
US9384403B2 (en) | System and method for superimposed handwriting recognition technology | |
Sun et al. | Free hand-drawn sketch segmentation | |
TW200823773A (en) | A method and apparatus for recognition of handwritten symbols | |
EP2828793A1 (en) | Rotation-free recognition of handwritten characters | |
WO2006091155A1 (en) | Segmentation-based recognition | |
CN102750552B (zh) | 一种手写识别方法、系统及手写识别终端 | |
US7142715B2 (en) | Arabic handwriting recognition using feature matching | |
Yakovchuk et al. | Methods for lines and matrices segmentation in RNN-based online handwriting mathematical expression recognition systems | |
K Jabde et al. | A comprehensive literature review on air-written online handwritten recognition | |
Singh et al. | A Temporal Convolutional Network for modeling raw 3D sequences and air-writing recognition | |
US9250802B2 (en) | Shaping device | |
JP6735775B2 (ja) | 重畳手書き入力認識技術のためのシステム及び方法 | |
CN113220125A (zh) | 手指交互方法、装置、电子设备及计算机存储介质 | |
CN114821630A (zh) | 静态手势识别方法及其系统和电子设备 | |
Tang et al. | Online chemical symbol recognition for handwritten chemical expression recognition | |
CN117935352A (zh) | 手势识别方法、电子设备和计算机可读存储介质 | |
Chen | Recognition and interpretation of multi-touch gesture interaction | |
CN111898618A (zh) | 一种识别古代图形文字的方法、装置和程序储存介质 | |
AU2021101278A4 (en) | System and Method for Automatic Language Detection for Handwritten Text | |
Abuzaraida et al. | Online recognition of Arabic handwritten words system based on Alignments matching Algorithm | |
Ouyang | Understanding freehand diagrams: combining appearance and context for multi-domain sketch recognition | |
JP4180137B2 (ja) | オンライン手書き文字認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |