CN117009792A - 模型数据处理方法、装置、计算机设备和存储介质 - Google Patents
模型数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117009792A CN117009792A CN202311282895.8A CN202311282895A CN117009792A CN 117009792 A CN117009792 A CN 117009792A CN 202311282895 A CN202311282895 A CN 202311282895A CN 117009792 A CN117009792 A CN 117009792A
- Authority
- CN
- China
- Prior art keywords
- matrix
- model
- downsampled
- processing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/76—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
- G06F7/78—Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种模型数据处理方法、装置、计算机设备、存储介质和计算机程序产品。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。方法包括:对下采样输出特征进行非线性变换处理,得到非线性变换特征;基于上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征;基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。本申请训练过程中可学习的参数仅为共享矩阵、下采样特定矩阵和上采样特定矩阵这些小矩阵的参数,相比采样投影矩阵,从而可以减轻适配器数量较多和参数冗余的问题,从而提高转换器模型的计算效率和存储效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种模型数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术和人工智能(Artificial Intelligence, AI)技术的发展,出现机器学习。机器学习(Machine Learning, ML)是人工智能的一个重要方向,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
目前,在机器学习领域中通过微调大规模预训练模型以适应下游任务在各个领域已经取得了显著成功。然而,微调数百万或数十亿参数的模型会导致效率低下且浪费资源,因为需要为每个任务存储单独的模型副本,因此会降低模型的计算效率和存储效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高模型计算效率和存储效率的模型数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种模型数据处理方法,包括:
基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
第二方面,本申请还提供了一种模型数据处理装置,包括:
下采样模块,用于基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
非线性变换模块,用于对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
上采样模块,用于基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
矩阵参数更新模块,用于基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
上述模型数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,从而将输入的模型微调特征降维,减少参数量,而后对下采样输出特征进行非线性变换处理,得到非线性变换特征,从而改变下采样输出特征的线性关系,再基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,从而将非线性变换后的非线性变换特征恢复至原始维度,以便与预训练模型的其他部分进行融合。而下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到,上采样投影矩阵则是基于上采样特定矩阵和共享矩阵的克罗内克积得到,因此最后只需要基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。本申请的方案中,在模型训练过程中,转换器模型的上、下采样投影的可学习参数矩阵通过小矩阵的克罗内克积获得,这样训练过程中可学习的参数仅为共享矩阵、下采样特定矩阵和上采样特定矩阵这些小矩阵的参数,相比学习上、下采样投影矩阵的参数,大大降低了参数量。本申请可以减轻适配器数量较多和参数冗余的问题,从而提高转换器模型的计算效率和存储效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中模型数据方法的应用环境图;
图2为一个实施例中模型数据方法的流程示意图;
图3为一个实施例中基于共享矩阵和下采样特定矩阵生成下采样投影矩阵的流程示意图;
图4为一个实施例中基于共享矩阵和上采样特定矩阵生成上采样投影矩阵的示意图;
图5为一个实施例中基于共享矩阵和上、下采样特定矩阵生成上、下采样投影矩阵的示意图;
图6为一个实施例中图像分割处理过程的示意图;
图7为一个实施例中转换器模型中编码器结构的示意图;
图8为一个实施例中图像审核处理的流程示意图;
图9为一个实施例中转换器对图像处理流程的流程示意图,其中(1)为转换器层结构,(2)为适配器结构,(3)为适配器数量的变化折线图;
图10为另一个实施例中模型数据方法的流程示意图;
图11为一个实施例中模型数据处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能领域,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(ComputerVision, CV)、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及人工智能中的计算机视觉技术和机器学习技术。
其中,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习则是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的模型数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。当用户希望对预训练完成的转换器模型进行微调时,可以通过本申请的模型数据处理方法来实现对转换器模型的参数调整。当用户完成对转换器模型的预训练,并确定该转换器模型的应用方向,例如将其应用于图像分类的图像审核领域时,可以通过终端102向服务器104提供用于模型微调的训练数据,而后服务器104则基于用户提供的模型训练数据构造模型微调特征,而后基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;对下采样输出特征进行非线性变换处理,得到非线性变换特征;基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征,上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个示例性的实施例中,如图2所示,提供了一种模型数据处理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤201至步骤207。其中:
步骤201,基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到。
其中,转换器模型(Transformer)是基于自注意力机制的神经网络模型,用于处理序列数据。相比于传统的循环神经网络模型,转换器模型具有更好的并行性能和更短的训练时间,转换器模型中包含了多层编码器和解码器,每一层都由多个注意力机制模块和前馈神经网络模块组成。编码器用于将输入序列编码成一个高维特征向量表示,解码器则用于将该向量表示解码成目标序列。在转换器模型中,还使用了残差连接和层归一化等技术来加速模型收敛和提高模型性能。目前,通过微调大规模预训练模型以适应下游任务在各个领域已经取得了显著成功,即可以通过预训练结合微调的方式来对转换器模型进行训练,然而,微调数百万或数十亿参数的模型会导致效率低下且浪费资源,因为需要为每个任务存储单独的模型副本。而适配器一种可以实现转换器模型微调过程高效调参的方法。在适配器的结构中,主要的参数来源于上采样投影和下采样投影。其中下采样投影对应下采样投影矩阵,可以将预训练模型的隐藏层输出降维,从而减少参数量。上采样投影对应上采样投影矩阵,可以将非线性变换后的输出恢复至原始输入维度。模型微调特征是指微调过程中输入适配器的模型训练数据。下采样特定矩阵和共享矩阵可以为多组,具体可以根据实际的处理需要进行设置。克罗内克积是两个任意大小的矩阵间的运算。如果A是一个m×n的矩阵,而B是一个p×q的矩阵,则A和B的克罗内克积则是一个mp×nq的分块矩阵。因此,相对于下采样投影矩阵,下采样特定矩阵和共享矩阵两者的参数量更少,解决因为适配器导致的参数冗余问题。
示例性地,目前,一般可以通过适配器来实现对转换器模型的微调处理,在转换器模型的微调过程中只需要学习适配器中的参数,同时固定转换器模型中其他部分的参数。适配器的下采样投影和上采样投影之间可能存在参数冗余。这是因为下采样投影将隐藏层输出降维,而上采样投影则将降维后的输出恢复至原始维度。在这个过程中,两个投影层可能会学习到相似的信息,从而导致参数冗余。这种冗余可能会影响模型的泛化能力,并降低训练效率。同时,转换器中适配器的数量也会随着转换器的层数增加而增加,进一步增加微调过程中需要微调的参数量。因此,当用户需要完成对预训练模型的微调,以适应下游任务的需要时,可以通过终端102提交相应的微调训练数据并指定需要进行微调的转换器的模型,而后服务器104基于用户提交的微调训练数据和指定的模型开始进行微调。其中,转换器中包含有适配器,适配器的共享矩阵、下采样特定矩阵和上采样特定矩阵根据下游的处理任务涉及,模型微调过程需要对共享矩阵、下采样特定矩阵和上采样特定矩阵的参数进行调整,从而满足下游任务的需要。
首先,在输入微调训练数据后,转换器模型会对输入的微调训练数据进行处理,得到可以输入适配器的模型微调特征。而在得到模型微调特征后,则可以先通过下采样投影矩阵来对输入的模型微调特征进行下采样处理,这一层将预训练模型的隐藏层输出降维,从而减少参数量。设原始隐藏层维度为d,下采样投影将其降至较小的维度d'。这一过程可以表示为:
其中,h'为原始隐藏层输出,为下采样投影矩阵,h'为降维后的输出,h的
维度为d,而 h'的维度为d'。下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克
积得到,在一个实施例中,如图3所示,转换器中包含m个下采样特定矩阵和m个共享矩阵,使
用共享矩阵、下采样特定矩阵来生成下采样投影矩阵,即使用克罗内克积
的总和方式生成下采样投影矩阵的过程满足以下公式:
其中,在上式中,,,m表示共享矩阵的维度, d和d'分
别表示下采样投影矩阵的行数和列数,R代表数学上的维度表示,表示克罗内克积,具体
的计算方法如下:
在图3的实施例中,下采样投影矩阵为8*6的矩阵,也就是说每次对下采样投影矩阵更新都需要更新48个参数,而如果采用下采样特定矩阵和共享矩阵的克罗内克积,则包含2个3*4的下采样特定矩阵和两个2*2的共享矩阵。每次下采样投影的参数更新过程只需要更新2*3*4+2*2*2=32个参数,相对比直接更新下采样投影矩阵,可以有效减少适配器参数更新过程的参数冗余。
步骤203,对下采样输出特征进行非线性变换处理,得到非线性变换特征。
其中,非线性变换是指对一个输入的变量进行的变换,其变换关系不是一个线性函数。通过非线性变换,改变下采样输出特征的线性关系。在具体的实施例中,
具体地,在对输入的模型微调特征进行下采样处理,得到下采样输出特征后。可以进一步地对降维后的输出进行非线性变换,通过非线性变换来改变下采样输出特征的线性关系,加入非线性因素,提高模型的表达能力。而非线性变换可以通过激活函数实现,例如通过激活函数ReLU(Rectified Linear Unit,修正线性单元)来对下采样输出特征进行非线性变换处理。这一过程可以满足以下公式:
其中,h''为非线性变换后的输出,维度保持不变,与h'保持一致。
步骤205,基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征,上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到。
示例性地,在对下采样输出特征进行非线性变换处理,得到非线性变换特征,可以先通过上采样投影矩阵来对非线性变换特征进行上采样处理,这一层将非线性变换后的输出恢复至原始隐藏层维度,以便与预训练模型的其他部分进行融合。这一过程可以表示为:
其中,为上采样投影矩阵,h'''为恢复至原始维度的输出。上采样投影矩阵基
于上采样特定矩阵和共享矩阵的克罗内克积得到,在一个实施例中,如图4所示,转换器中
包含m个上采样特定矩阵和m个共享矩阵,使用共享矩阵、上采样特定矩阵来生成上
采样投影矩阵,即使用克罗内克积的总和方式生成上采样投影矩阵的过程满足以下公
式:
其中,,,m表示共享矩阵的维度,d和d'分别表示上采样
投影矩阵的行数和列数,R代表数学上的维度表示。在图4的实施例中,上采样投影矩阵为8*
6的矩阵,也就是说每次对上采样投影矩阵更新都需要更新48个参数,而如果采用上采样特
定矩阵和共享矩阵的克罗内克积,则包含2个3*4的上采样特定矩阵和两个2*2的共享矩阵,
每次上采样投影的参数更新过程只需要更新2*3*4+2*2*2=32个参数,相对比直接更新上采
样投影矩阵,可以有效减少适配器参数更新过程的参数冗余。
步骤207,基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
示例性地,在得到上采样输出特征,可以将得到的上采样输出特征从适配器输出,输入到转换器模型的其他部分,由其他部分来对当前输入的模型微调特征进行调整。最后通过目标函数来得到模型微调过程的损失,结合损失来对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理,完成转换器模型的一轮学习流程。在具体实施例中,完整的转换器模型包含多层转换器,每层的转换器都包含适配器,在模型微调的训练过程中,每轮训练都输入一个批次的模型微调特征来对转换器模型进行训练,而在每轮训练的过程中都需要对转换器模型中每个适配器的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。如图5所示,在其中一个实施例中,下采样矩阵和上采样投影矩阵为8*6的矩阵,也就是说每次一个适配器进行参数更新都需要更新96个参数,而如果采用上、下采样特定矩阵和共享矩阵的克罗内克积,则包含2个3*4的上采样特定矩阵、2个3*4的下采样特定矩阵和两个2*2的共享矩阵,每次适配器的参数更新过程只需要更新2*2*3*4+2*2*2=56个参数,相对比直接更新上采样投影矩阵,可以有效减少适配器参数更新过程的参数冗余。在其中一个实施例中,可以采用进一步地将共享矩阵、下采样特定矩阵和上采样特定矩阵分解为低秩矩阵,而后学习低秩矩阵的参数来实现模型数据处理。
上述模型数据处理方法,通过基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,从而将输入的模型微调特征降维,减少参数量,而后对下采样输出特征进行非线性变换处理,得到非线性变换特征,从而改变下采样输出特征的线性关系,再基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,从而将非线性变换后的非线性变换特征恢复至原始维度,以便与预训练模型的其他部分进行融合。而下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到,上采样投影矩阵则是基于上采样特定矩阵和共享矩阵的克罗内克积得到,因此最后只需要基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。本申请的方案中,在模型训练过程中,转换器模型的上、下采样投影的可学习参数矩阵通过小矩阵的克罗内克积获得,这样训练过程中可学习的参数仅为共享矩阵、下采样特定矩阵和上采样特定矩阵这些小矩阵的参数,相比学习上、下采样投影矩阵的参数,大大降低了参数量。本申请可以减轻适配器数量较多和参数冗余的问题,从而提高转换器模型的计算效率和存储效率。
在一个示例性的实施例中,方法还包括:确定各共享矩阵和各下采样特定矩阵;基于共享矩阵与对应的下采样特定矩阵的克罗内克积得到各下采样投影子矩阵;将各下采样投影子矩阵相加,得到下采样投影矩阵。
示例性地,在基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征之前,还需要对下采样特定矩阵和共享矩阵进行克罗内克积的操作。因为只有通过构建下采样投影矩阵才可以对输入的模型微调特征进行下采样处理。因此,适配器在得到输入的模型微调特征之后,会先基于适配器中上一轮训练后得到的各共享矩阵和各下采样特定矩阵来计算出完整的下采样投影矩阵,每一个共享矩阵都有与其对应的一个下采样特定矩阵,两者进行克罗内克积的处理,即可得到一个下采样投影子矩阵,而将所有的下采样投影子矩阵加起来,所得到的下采样投影矩阵。其满足公式:
其中,在上式中,,,m表示共享矩阵的维度, d和d'分
别表示下采样投影矩阵的行数和列数,R代表数学上的维度表示,表示克罗内克积。同理,对
于上采样投影矩阵的计算过程,同样需要先确定各共享矩阵和各上采样特定矩阵;基于共
享矩阵与对应的上采样特定矩阵的克罗内克积得到各上采样投影子矩阵;将各上采样投影
子矩阵相加,得到上采样投影矩阵。本实施例中,通过下采样特定矩阵和共享矩阵来进行下
采样投影矩阵的计算,可以有效地在适配器进行数据处理时,对输入的模型微调特征进行
相应的下采样处理,从而无需对完成的下采样投影矩阵中的参数进行训练,可以有效地减
少适配器训练过程中的参数量,避免出现参数冗余的问题。
在一个示例性的实施例中,如图3所示,方法还包括:获取模型输入特征;对模型输入特征进行自注意力处理,得到模型微调特征。
其中,自注意力即自注意力机制,自注意力机制实际上是注意力机制的一种,它也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理以及图像处理中。多层感知处理则是指通过多层感知机(MLP,Multilayer Perceptron)来对上采样输出特征处理,多层感知机由输入层、隐藏层和输出层组成。输入层接收输入数据,隐藏层通过学习特征表示,输出层产生最终的预测结果。隐藏层和输出层的每个神经元都具有激活函数,用于引入非线性映射。
示例性地,本申请的方案中主要通过对转换器模型中的适配器部进行参数调整,来实现针对转换器模型的预训练处理。而对于转换器模型,其主要通过构建序列特征数据来实现任务,例如应用于计算机视觉任务如图像分类时,如图6所示,视觉转换器可以将图像分割成固定大小的小块(称为图像块),然后将这些图像块线性嵌入到特征向量中,作为转换器的输入序列。具体来说,给定一个大小为H×W×C 的图像,首先将其分割成N个大小为P×P的图像块,其中N=H×W/P²。接下来,将每个图像块展平并线性嵌入到特征向量中,得到一个d维向量。而对于转换器,其每个编码器主要由两种类型的子层组成,即多头自注意力层和多层感知机层。因此,在得到输入转换器模型的特征数据后,可以先通过多头注意力层对模型输入特征进行自注意力处理,得到模型微调特征。在多头注意力层中,特征向量被线性投影并进一步重新制定为三个向量,即查询向量、键向量和值向量。而后即可基于构建查询向量、键向量和值向量进行自注意力处理,得到模型微调特征。对于该过程,其满足公式:
其中,是多头注意力层在第l层生成的结果。模型微调特征/>进一步发送到归一化层和多层感知机层。而对于多层感知机层,其由两个完全连接的层组成,这个过程满足以下公式:
其中,是第l个转换器层编码器块的输出。目前对于预训练转换器模型的微调处理,转换器的编码器结构参数微调时都不更新,仅更新插入的适配器结构,具体的适配器插入到MLP层,如图7所示,此时转换器模型编码器的最终输出有所改变,对上采样输出特征进行多层感知处理,得到编码输出特征,其满足公式为:
其中,Adapter表示适配器变换。本实施例中,通过自注意力处理和多层感知处理来分别对适配器输入和输出特征进行处理,从而使得输入输出特征能满足适配器和转换器的需求,保证模型数据处理的效率与准确性。
在一个示例性的实施例中,步骤207包括:基于上采样输出特征确定适配器损失;通过适配器损失对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
其中,适配器损失是指将上采样输出特征输出适配器后,通过转换器模型对上采样输出特征进行后续处理所得到的结果对应的损失数据,适配器损失具体可以通过损失函数进行计算,不同类型的任务对应了不同类型的损失函数,例如分类任务就可以采用交叉熵损失函数来计算适配器损失,而显著性检测和法向量估计的任务则可以采用L1 loss。
示例性地,在本申请的方案中,对于共享矩阵、下采样特定矩阵和上采样特定矩阵的参数微调过程,具体可以通过结合模型损失的方式来对共享矩阵、下采样特定矩阵和上采样特定矩阵这些矩阵内的参数进行优化处理。在具体实施例中,可以对转换器微调过程中的模型训练数据进行分批(size)处理,而后基于每一批次的模型训练数据来完成对转换器模型中矩阵参数的一次更新。即对于每一批次的模型训练数据,在通过特征处理和自注意力等处理方式得到模型微调特征后,先通过本申请的模型数据处理方法将得到的模型微调特征转换为上采样输出特征。而后可以通过转换器模型中的多层感知机以及解码等后续处理,将上采样输出特征转换完模型输出数据。在得到模型输出数据后,就可以通过交叉熵损失函数等来实现转换器模型处理过程中的损失计算,从而确定适配器损失。在确定适配器损失后,即可通过适配器损失对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。本实施例中,通过适配器输出的上采样输出特征来确定模型训练过程中适配器损失,从而基于适配器损失来对适配器中各个矩阵的参数进行调整,完成一轮适配器训练的流程,可以有效保证基于适配器进行模型数据处理的有效性,从而保证转换器模型的处理效果。
在一个示例性的实施例中,对于通过适配器损失对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理包括:获取适配器损失对应的优化参数;基于适配器损失和优化参数,通过梯度下降法对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
其中,优化参数具体可以根据选择的参数优化方法进行选择,例如对于随机梯度下降法,其优化参数包括了学习率、选取的待优化参数、动量因子、动量的抑制因子和权重衰减等。
具体地,用户可以在对转换器模型进行微调的模型数据处理之前,先设置优化过程中的优化参数,而后在转换器模型的微调过程中,在基于上采样输出特征确定适配器损失后,即可结合用户选择的优化参数,通过梯度下降法来直接对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。在一个具体的实施例中,可以通过随机梯度下降算法来实现对享矩阵、下采样特定矩阵和上采样特定矩阵的参数调整处理,其每次批处理训练时都会计算网络误差并作误差的反向传播,根据一阶梯度信息对参数进行更新,一阶梯度信息完全依赖于当前批数据在网络目标函数上的误差,所以可将学习率理解为当前批的梯度对网络整体参数更新的影响程度,通过随机梯度下降算法进行参数调整的收敛效果比较稳定,从而保证参数调优效果。本实施例中,通过结合优化参数,通过梯度下降法实现适配器的优化处理,可以有效保证参数调整的准确性与效率。
在一个示例性的实施例中,方法还包括:基于参数调整处理后的共享矩阵、下采样特定矩阵和上采样特定矩阵,确定目标适配器;基于目标适配器得到图像审核模型;通过图像审核模型对输入图像进行分类处理,得到图像审核结果。
其中,目标适配器是指在转换器模型训练完成后,可用于下游任务的适配器。图像审核模型则是指转换器模型在训练完成,并通过测试后所得到的模型,可以应用于图像审核过程中的图像分类处理。
示例性地,在对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整后,如果再通过训练过程的测试数据确认转换器模型通过了模型测试,则可以确认针对转换器模型的微调处理已经微调完成。此时转换器模型中的目标适配器也暂不需要参数调整,当应用于图像审核任务时,即可基于当前目标适配器的参数来得到完整的转换器模型,即图像审核模型,而后在模型处理过程中则可直接将待审核的图像输入到图像审核模型中,如图8所示,通过图像审核模型对输入图像进行分类处理,得到图像审核结果。对于图像类的数据,转换器模型可以对输入图像进行分割处理,将图像分割成固定大小的小块,得到图像块。然后将这些图像块可以通过线性嵌入的方式加入到特征向量中,构建出转换器模型的模型输入特征。而后再将构造出的模型输入特征输入到图像审核模型,通过图像审核模型对模型输入特征进行分类处理,得到图像审核结果。
对于通过图像审核模型对模型输入特征进行分类处理的具体流程,可以参照上述转换器和适配器的处理流程,在每层转换器中,都会先通过参数调整处理后的共享矩阵和下采样特定矩阵构建目标下采样投影矩阵,通过参数调整处理后的共享矩阵和上采样特定矩阵构建目标上采样投影矩阵。而后对模型输入特征进行自注意力处理,得到图像自注意力特征;通过目标下采样投影矩阵对图像自注意力特征进行下采样处理,得到图像下采样特征;对图像下采样特征进行非线性变换处理,得到图像非线性变换特征;通过目标上采样投影矩阵对图像非线性变换特征进行上采样处理,得到图像上采样特征;对图像上采样特征进行多层感知处理,得到图像编码输出特征。最后,基于图像编码输出特征对模型输入特征进行分类处理,得到图像审核结果。本实施例中,通过参数调整后的共享矩阵、下采样特定矩阵和上采样特定矩阵来确定适配器参数,从而得到可应用于图像分类的图像审核模型,而后即可基于图像审核模型来实现对输入图像的分类处理,保证分类准确性。
同时,由于本申请的方案中,适配器通过共享上、下采样投影的学习参数,可学习参数得到了降低。具体来说,上、下采样投影的可学习参数矩阵通过小矩阵的克罗内克积获得,这样可学习的参数仅为小矩阵的参数,大大降低了参数量。这种方法有助于减轻适配器数量较多和参数冗余带来的问题,提高模型的计算和存储效率,同时减少参数量意味着模型需要更少的计算资源进行训练和推理,从而降低了硬件要求和能源消耗。此外,较少的参数有助于提高模型的泛化能力,降低过拟合的风险。同时,本申请在减少适配器参数量的同时,同时可以通过共享参数来还原得到投影矩阵,从而保证了下游任务的性能。这意味着本申请的方法在进行微调时,能够在较小的计算和存储开销下,实现与传统适配器相当甚至更优的性能。保证下游任务性能的优势使得本申请的方法在实际应用中具有更高的价值。本申请的方案还具有适应多种场景的优势。这使得本申请的方法在单任务微调、多任务微调等不同应用场景中都能发挥出色的性能。此外,本申请的方案适用于其他场景,如领域自适应、增量学习等。在这些场景中,本申请的方法可以在有限的计算资源下,实现对预训练模型的高效微调,从而提高模型在特定领域或任务上的性能。
在一个示例性的实施例中,方法还包括:基于参数调整处理后的共享矩阵、下采样特定矩阵和上采样特定矩阵,确定目标适配器;基于目标适配器得到边缘图像处理模型;在接收到模型部署请求后,查找模型部署请求对应的目标边缘设备,并将边缘图像处理模型部署于目标边缘设备,目标边缘设备用于通过边缘图像处理模型进行图像的边缘处理。
其中,边缘图像处理模型是指可以部署在边缘设备端,可以实现边缘设备上图像处理相关边缘计算的机器学习模型。边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算中的边缘指的是网络边缘上的计算和存储资源,这里的网络边缘与数据中心相对,无论是从地理距离还是网络距离上来看都更贴近用户。边缘计算则是利用这些资源在网络边缘为用户提供服务的技术,使应用可以在数据源附近处理数据。而边缘设备的性能一般比云端设备的性能更差,因此对所搭载模型的计算和存储的开销要求更高,需要资源开销较少的模型才能符合边缘计算的需求。
示例性地,本申请的方案还可以应用于边缘计算设备,从而实现边缘设备上的机器学习计算性能。本实施例以应用于图像处理模型为例进行说明,首先,同样可以先基于参数调整处理后的共享矩阵、下采样特定矩阵和上采样特定矩阵,确定目标适配器。在通过对图像处理模型的微调处理得到目标适配器后,可以基于目标适配器来对图像处理模型进行更新处理,得到边缘图像处理模型。由于本申请的方案可以有效地减少模型适配器中的参数量,因此能够在较小的计算和存储开销下,实现与传统适配器相当甚至更优的性能,这使得基于目标适配器所构建的边缘图像处理模型可以部署于边缘设备上,在边缘设备实现低开销的图像处理工作。当用户需要部署训练完成的边缘图像处理模型时,可以根据需要部署的边缘设备想搭载本申请模型数据处理方法的服务器发起模型部署请求,而服务器则可以在接收到模型部署请求后,先通过解析模型部署请求,来查找模型部署请求对应的目标边缘设备。而后以远程部署的方式传输数据,从而将边缘图像处理模型部署于目标边缘设备。而目标边缘设备则可以通过部署的边缘图像处理模型执行图像处理相关的边缘计算。例如可以应用于智慧城市或者智能家具领域,实现路况检测或者智能认证等边缘计算处理。本实施例中,通过微调所得到参数量更小的适配器来构建边缘图像处理模型,并完成对边缘图像处理模型的部署,从而可以实现边缘设备端的模型处理,能够在较小的计算和存储开销下,保证下游边缘计算任务的顺利执行,提高图像处理模型的应用范围。
本申请还提供一种应用场景,该应用场景应用上述的模型数据处理方法。具体地,该模型数据处理方法在该应用场景的应用如下:
用户需要对用户生成内容(User Generated Content,UGC)平台上发布的图片内容进行审核时,可以通过图像分类处理的转换器模型来实现对图片内容的审核处理,而为了构建出可用的转换器模型,可以先获取适用于图像分类处理,且通过了预训练的转换器模型,而后结合平台的特点来对预训练的转换器模型进行微调处理。此时,为了提高微调后所得图像分类模型的处理效率和存储效率,可以通过本申请的模型数据处理方法来实现对转换器模型的微调。如图9所示,先获取平台历史数据中的图片作为微调过程的模型训练数据,而后通过图像分割处理,将输入的图像分割成大小相等的图像块,再通过线性嵌入处理,将图像块转化成模型输入特征,再输入到转换器模型中进行处理,转换器模型具体包含了自注意力层和多层感知机层这两部分,其中,自注意力层可以基于模型输入特征构建查询向量、键向量和值向量;基于构建查询向量、键向量和值向量进行自注意力处理,得到模型微调特征。
而多层感知层中包含了适配器,本申请的方案主要通过对适配器中的参数进行调整来实现模型的微调处理。首先确定适配器中的各共享矩阵和各下采样特定矩阵;基于共享矩阵与对应的下采样特定矩阵的克罗内克积得到各下采样投影子矩阵;将各下采样投影子矩阵相加,得到下采样投影矩阵。同时确定各共享矩阵和各上采样特定矩阵;基于共享矩阵与对应的上采样特定矩阵的克罗内克积得到各上采样投影子矩阵;将各上采样投影子矩阵相加,得到上采样投影矩阵。而后基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征;对下采样输出特征进行非线性变换处理,得到非线性变换特征;基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征;基于上采样输出特征确定模型输出数据;基于模型输出数据,通过适配器的损失函数确定适配器损失;获取适配器损失对应的优化参数;基于适配器损失和优化参数,通过梯度下降法对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。而后通过循环训练和测试,得到可用于下游审核任务的图像分类模型,而后通过图像分类模型来实现对平台用户所发布图像内容的审核处理。
在一个实施例中,本申请的模型数据处理方法的完整流程可以参照图10所示,包括:
步骤1001,获取模型输入特征。步骤1003,对模型输入特征进行自注意力处理,得到模型微调特征。步骤1005,基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征。步骤1007,对下采样输出特征进行非线性变换处理,得到非线性变换特征。步骤1009,基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征。步骤1011,基于上采样输出特征确定模型输出数据。步骤1013,基于模型输出数据,通过适配器的损失函数确定适配器损失。步骤1015,获取适配器损失对应的优化参数。步骤1017,基于适配器损失和优化参数,通过梯度下降法对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的模型数据处理方法的模型数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个模型数据处理装置实施例中的具体限定可以参见上文中对于模型数据处理方法的限定,在此不再赘述。
在一个示例性的实施例中,如图11所示,提供了一种模型数据处理装置,包括:
下采样模块1102,用于基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到。
非线性变换模块1104,用于对下采样输出特征进行非线性变换处理,得到非线性变换特征。
上采样模块1106,用于基于转换器模型的上采样投影矩阵对非线性变换特征进行上采样处理,得到上采样输出特征,上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到。
矩阵参数更新模块1108,用于基于上采样输出特征对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
在一个实施例中,还包括下采样投影矩阵构建模块,用于:确定各共享矩阵和各下采样特定矩阵;基于共享矩阵与对应的下采样特定矩阵的克罗内克积得到各下采样投影子矩阵;将各下采样投影子矩阵相加,得到下采样投影矩阵。
在一个实施例中,还包括上采样投影矩阵构建模块,用于:确定各共享矩阵和各上采样特定矩阵;基于共享矩阵与对应的上采样特定矩阵的克罗内克积得到各上采样投影子矩阵;将各上采样投影子矩阵相加,得到上采样投影矩阵。
在一个实施例中,还包括自注意力处理模块,自注意力处理模块用于:获取模型输入特征;对模型输入特征进行自注意力处理,得到模型微调特征。
在一个实施例中,自注意力处理模块具体用于:基于模型输入特征构建查询向量、键向量和值向量;基于构建查询向量、键向量和值向量进行自注意力处理,得到模型微调特征。
在一个实施例中,矩阵参数更新模块1108具体用于:基于上采样输出特征确定适配器损失;通过适配器损失对转换器模型的共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
在一个实施例中,矩阵参数更新模块1108还用于:基于上采样输出特征确定模型输出数据;基于模型输出数据,通过适配器的损失函数确定适配器损失。
在一个实施例中,矩阵参数更新模块1108还用于:获取适配器损失对应的优化参数;基于适配器损失和优化参数,通过梯度下降法对共享矩阵、下采样特定矩阵和上采样特定矩阵进行参数调整处理。
在一个实施例中,还包括图像审核模块,用于:基于参数调整处理后的共享矩阵、下采样特定矩阵和上采样特定矩阵,确定目标适配器;基于目标适配器得到图像审核模型;通过图像审核模型对输入图像进行分类处理,得到图像审核结果。
在一个实施例中,图像审核模块还用于:对输入图像进行分割处理,得到图像块;基于图像块进行线性嵌入处理,构建模型输入特征;将模型输入特征输入到图像审核模型,通过图像审核模型对模型输入特征进行分类处理,得到图像审核结果。
在一个实施例中,图像审核模块还用于:通过参数调整处理后的共享矩阵和下采样特定矩阵构建目标下采样投影矩阵,通过参数调整处理后的共享矩阵和上采样特定矩阵构建目标上采样投影矩阵;对模型输入特征进行自注意力处理,得到图像自注意力特征;通过目标下采样投影矩阵对图像自注意力特征进行下采样处理,得到图像下采样特征;对图像下采样特征进行非线性变换处理,得到图像非线性变换特征;通过目标上采样投影矩阵对图像非线性变换特征进行上采样处理,得到图像上采样特征;对图像上采样特征进行多层感知处理,得到图像编码输出特征;基于图像编码输出特征对模型输入特征进行分类处理,得到图像审核结果。
在一个实施例中,还包括边缘部署模块,用于:基于参数调整处理后的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵,确定目标适配器;基于所述目标适配器得到边缘图像处理模型;在接收到模型部署请求后,查找所述模型部署请求对应的目标边缘设备,并将所述边缘图像处理模型部署于所述目标边缘设备,所述目标边缘设备用于通过所述边缘图像处理模型进行图像的边缘处理。
上述模型数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型数据处理相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型数据处理方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种模型数据处理方法,其特征在于,所述方法包括:
基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定各共享矩阵和各下采样特定矩阵;
基于所述共享矩阵与对应的下采样特定矩阵的克罗内克积得到各下采样投影子矩阵;
将所述各下采样投影子矩阵相加,得到下采样投影矩阵。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定各共享矩阵和各上采样特定矩阵;
基于所述共享矩阵与对应的上采样特定矩阵的克罗内克积得到各上采样投影子矩阵;
将所述各上采样投影子矩阵相加,得到上采样投影矩阵。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取模型输入特征;
对所述模型输入特征进行自注意力处理,得到模型微调特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述模型输入特征进行自注意力处理,得到模型微调特征包括:
基于所述模型输入特征构建查询向量、键向量和值向量;
基于所述构建查询向量、所述键向量和所述值向量进行自注意力处理,得到模型微调特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理包括:
基于所述上采样输出特征确定适配器损失;
通过所述适配器损失对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
7.根据权利要求6所述的方法,其特征在于,所述基于所述上采样输出特征确定适配器损失包括:
基于所述上采样输出特征确定模型输出数据;
基于所述模型输出数据,通过适配器的损失函数确定适配器损失。
8.根据权利要求6所述的方法,其特征在于,所述通过所述适配器损失对所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理包括:
获取适配器损失对应的优化参数;
基于所述适配器损失和所述优化参数,通过梯度下降法对所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述方法还包括:
基于参数调整处理后的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵,确定目标适配器;
基于所述目标适配器得到图像审核模型;
通过所述图像审核模型对输入图像进行分类处理,得到图像审核结果。
10.根据权利要求9所述的方法,其特征在于,所述通过所述图像审核模型对输入图像进行分类处理,得到图像审核结果包括:
对输入图像进行分割处理,得到图像块;
基于所述图像块进行线性嵌入处理,构建模型输入特征;
将所述模型输入特征输入到图像审核模型,通过所述图像审核模型对所述模型输入特征进行分类处理,得到图像审核结果。
11.根据权利要求10所述的方法,其特征在于,所述将所述模型输入特征输入到图像审核模型,通过所述图像审核模型对所述模型输入特征进行分类处理,得到图像审核结果包括:
通过所述参数调整处理后的所述共享矩阵和所述下采样特定矩阵构建目标下采样投影矩阵,通过所述参数调整处理后的所述共享矩阵和所述上采样特定矩阵构建目标上采样投影矩阵;
对所述模型输入特征进行自注意力处理,得到图像自注意力特征;
通过所述目标下采样投影矩阵对所述图像自注意力特征进行下采样处理,得到图像下采样特征;
对所述图像下采样特征进行非线性变换处理,得到图像非线性变换特征;
通过所述目标上采样投影矩阵对所述图像非线性变换特征进行上采样处理,得到图像上采样特征;
对所述图像上采样特征进行多层感知处理,得到图像编码输出特征;
基于所述图像编码输出特征对所述模型输入特征进行分类处理,得到图像审核结果。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于参数调整处理后的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵,确定目标适配器;
基于所述目标适配器得到边缘图像处理模型;
在接收到模型部署请求后,查找所述模型部署请求对应的目标边缘设备,并将所述边缘图像处理模型部署于所述目标边缘设备,所述目标边缘设备用于通过所述边缘图像处理模型进行图像的边缘处理。
13.一种模型数据处理装置,其特征在于,所述装置包括:
下采样模块,用于基于转换器模型的下采样投影矩阵对模型微调特征进行下采样处理,得到下采样输出特征,所述下采样投影矩阵基于下采样特定矩阵和共享矩阵的克罗内克积得到;
非线性变换模块,用于对所述下采样输出特征进行非线性变换处理,得到非线性变换特征;
上采样模块,用于基于所述转换器模型的上采样投影矩阵对所述非线性变换特征进行上采样处理,得到上采样输出特征,所述上采样投影矩阵基于上采样特定矩阵和共享矩阵的克罗内克积得到;
矩阵参数更新模块,用于基于所述上采样输出特征对所述转换器模型的所述共享矩阵、所述下采样特定矩阵和所述上采样特定矩阵进行参数调整处理。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282895.8A CN117009792A (zh) | 2023-10-07 | 2023-10-07 | 模型数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282895.8A CN117009792A (zh) | 2023-10-07 | 2023-10-07 | 模型数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009792A true CN117009792A (zh) | 2023-11-07 |
Family
ID=88573040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311282895.8A Pending CN117009792A (zh) | 2023-10-07 | 2023-10-07 | 模型数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009792A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI871177B (zh) * | 2024-02-02 | 2025-01-21 | 威盛電子股份有限公司 | 資料處理系統、資料處理方法以及電子裝置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332574A (zh) * | 2021-07-31 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
-
2023
- 2023-10-07 CN CN202311282895.8A patent/CN117009792A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332574A (zh) * | 2021-07-31 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
YI-LIN SUNG等: "VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks", 《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, pages 5217 - 5227 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI871177B (zh) * | 2024-02-02 | 2025-01-21 | 威盛電子股份有限公司 | 資料處理系統、資料處理方法以及電子裝置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782395B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
US11488283B1 (en) | Point cloud reconstruction method and apparatus based on pyramid transformer, device, and medium | |
CN115083435B (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN115017178B (zh) | 数据到文本生成模型的训练方法和装置 | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN114283347B (zh) | 目标检测方法、系统、智能终端及计算机可读存储介质 | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
Zhu et al. | Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure | |
CN117009792A (zh) | 模型数据处理方法、装置、计算机设备和存储介质 | |
CN117591813A (zh) | 基于多维特征的复杂装备故障诊断方法及系统 | |
Ren | The advance of generative model and variational autoencoder | |
Fei et al. | A GNN architecture with local and global-attention feature for image classification | |
CN118734091B (zh) | 基于掩码指代建模的视觉定位和指代分割方法、系统、设备以及存储介质 | |
CN119580034A (zh) | 生成图片描述模型的训练方法、图片描述生成方法、装置、设备、介质和程序产品 | |
WO2025103521A1 (zh) | 模型训练方法、特征提取方法、装置、设备及介质 | |
He et al. | Crude oil price prediction using embedding convolutional neural network model | |
CN117851632A (zh) | 基于人工智能的图像检索方法、装置、设备及存储介质 | |
Bang et al. | CA-CMT: Coordinate Attention for Optimizing CMT Networks | |
CN116975651A (zh) | 相似度确定模型处理方法、目标对象搜索方法和装置 | |
CN116630336A (zh) | 图像分割、图像分割模型处理方法、装置和计算机设备 | |
CN115115835A (zh) | 图像的语义分割方法、装置、设备、存储介质及程序产品 | |
Deng et al. | Image compression based on genetic algorithm and deep neural network | |
CN116150462A (zh) | 针对目标对象的向量构建方法、装置和计算机设备 | |
Li et al. | Foundation Model for Lossy Compression of Spatiotemporal Scientific Data | |
CN118536557B (zh) | 模型处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |