[go: up one dir, main page]

CN118964545A - 一种文件生成方法、装置、设备以及存储介质 - Google Patents

一种文件生成方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN118964545A
CN118964545A CN202410936185.0A CN202410936185A CN118964545A CN 118964545 A CN118964545 A CN 118964545A CN 202410936185 A CN202410936185 A CN 202410936185A CN 118964545 A CN118964545 A CN 118964545A
Authority
CN
China
Prior art keywords
model
corpus
file
type
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410936185.0A
Other languages
English (en)
Inventor
黄超
乔刚
詹振鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co Ltd
Original Assignee
Baidu International Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co Ltd filed Critical Baidu International Technology Shenzhen Co Ltd
Priority to CN202410936185.0A priority Critical patent/CN118964545A/zh
Publication of CN118964545A publication Critical patent/CN118964545A/zh
Priority to JP2024223873A priority patent/JP2025028306A/ja
Priority to US19/020,179 priority patent/US20250156655A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文件生成方法、装置、设备以及存储介质,其中方法包括:将M1个第一类型文件分别输入第一模型,由该第一模型输出各个第一类型文件对应的第二类型文件;根据输出结果确定多个文件对,每个文件对包括一个第一类型文件及该第一类型文件对应的第二类型文件;利用该多个文件对,对第二模型进行调整;以及,将M2个第一类型文件分别输入调整后的第二模型,由该调整后的第二模型输出各个第一类型文件对应的第二类型文件;M1、M2为正整数。本公开能够节约成本,并且提高生成文件的数量和多样性。

Description

一种文件生成方法、装置、设备以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及人工智能、神经网络模型、大语言模型等技术领域。
背景技术
神经网络模型在应用之前,往往需要采用大规模高质量的训练样本进行训练,训练样本的质量和规模对于神经网络模型的表现和应用效果至关重要。
发明内容
本公开提供了一种文件生成方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种文件生成方法,包括:
将M1个第一类型文件分别输入第一模型,由该第一模型输出各个第一类型文件对应的第二类型文件;
根据输出结果确定多个文件对,每个文件对包括一个第一类型文件及该第一类型文件对应的第二类型文件;
利用多个文件对,对第二模型进行调整;以及,
将M2个第一类型文件分别输入调整后的第二模型,由该调整后的第二模型输出各个第一类型文件对应的第二类型文件;M1、M2为正整数。
一种文件生成装置,包括:
第一输入模块,用于将M1个第一类型文件分别输入第一模型,由该第一模型输出各个第一类型文件对应的第二类型文件;
确定模块,用于根据输出结果确定多个文件对,每个文件对包括一个第一类型文件及该第一类型文件对应的第二类型文件;
调整模块,用于利用多个文件对,对第二模型进行调整;以及,
第二输入模块,用于将M2个第一类型文件分别输入调整后的第二模型,由该调整后的第二模型输出各个第一类型文件对应的第二类型文件;M1、M2为正整数。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
本公开提出一种文件生成方法,利用该方法生成的文件可以作为神经网络模型的训练样本。具体地,利用第一模型生成多个文件对,每个文件对包括第一类型文件及该第一类型文件对应的第二类型文件;并利用这些文件对,对第二模型进行调整;之后,采用调整之后的第二模型,基于多个第一类型文件生成多个对应的第二类型文件;第二类型文件可以作为其它神经网络模型的训练样本。通过这种方式,可以利用第一模型生成的训练样本对第二模型进行训练,再由训练完成的第二模型生成其它神经网络模型的训练样本,从而提出了一种全新的训练样本生成方案,这种方案能够避免人工标注,从而节约成本;并且可以利用第一模型的生成能力,生成的文件能够涵盖各种领域和情境,从而提高生成文件的数量和多样性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的应用场景示意图;
图2是根据本公开一实施例的一种文件生成方法的实现流程图;
图3是本公开一实施例的文件生成方法的第一阶段示意图;
图4是本公开一实施例的文件生成方法的第二阶段示意图;
图5是本公开一实施例的文件生成方法的第三阶段示意图;
图6是根据本公开一实施例的文件生成装置600的结构示意图;
图7是可以用来实施本公开的实施例的示例电子设备700的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例的“和/或”表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
神经网络模型在应用之前,往往需要采用大规模高质量的训练样本进行训练,训练样本的质量和规模对于神经网络模型的表现和应用效果至关重要。以大语言模型(LargeLanguage Model,LLM)为例,大语言模型在应用于垂直领域时,往往需要经过大规模高质量对话语料(或称为对话型语料、对话级语料等)进行有监督微调,语料的质量和规模决定了大语言模型应用于垂直领域的上限。对话语料的质量是指对话语料中对话内容的准确性、一致性和表达的合理性,这对于模型的表现和应用效果至关重要。
准确性,是指对话内容应当基于可靠的信息源,经过验证和审查,以确保信息的真实性和可信度。准确性还包括对于特定领域和专业术语的理解和正确应用,以避免误导或错误的信息传递。
一致性,是指模型在不同对话中对相同问题或情境的回答保持一致。这要求对话语料的编写者或标注者具备一致的理解和标准,以确保模型输出的连贯性和可靠性。
语料的规模越大,模型在特定领域内的知识储备和应答能力就越丰富。大规模语料的使用可以帮助模型更好地理解和回答特定领域的问题,提供更准确、全面的信息。
可见,对话语料的质量和规模对于大语言模型在垂直领域的应用具有重要影响。只有利用大量的对话语料对模型进行微调,模型才能更好地适应特定领域的需求,并提供高质量、准确的回答和解决方案。因此,构建和维护一个质量高、规模大的对话型语料库对于提升大语言模型在垂直领域的应用潜力至关重要。
现有技术中存在多种实现方案,以获取可以作为模型训练样本的文件。以下是一些常见的实现方案:
(1)人工标注:这是目前最常见的方式之一,由专门的标注人员对文件进行标注,以确保训练样本的准确性和一致性。这种方法成本高,需要大量的人力资源和时间。
(2)垂直领域专家参与:邀请垂直领域的专家参与文件的标注。他们可以提供领域专业知识,确保作为训练样本的文件在垂直领域中的准确性和合理性。这种方法可以提高语料的质量,但需要与专家进行密切合作,并对其时间和资源进行合理安排。这可能会限制语料生成的速度和规模,并增加与专家的沟通和协调成本。
(3)领域内部数据收集:利用垂直领域内部的数据资源,例如内部对话记录、聊天记录等。这些数据可以经过整理和处理,转化为高质量的训练样本。这种方法可以充分利用领域内部的知识和资源,但可能存在数据规模有限的问题,并且特定领域的文件可能不易获取,尤其是在新兴领域或涉及机密信息的领域。这可能导致训练样本库的大小和多样性有限。
(4)数据对齐和迁移学习:利用已有的通用领域的训练样本库,通过数据对齐和迁移学习的技术,将其转化为适用于垂直领域的训练样本。这种方法可以减少对新领域语料的依赖,但仍需要一定的人工参与和领域知识。
可见,现有的生成训练样本的方法,存在需要人工标注、成本高、规模和多样性有限等问题。以上内容,是以生成用于训练大语言模型的训练样本为例进行说明的。现有技术中,针对其他功能的神经网络模型,如图像识别模型、分类模型等,在生成用于训练这些神经网络模型的训练样本时,同样存在需要人工标注、成本高、规模和多样性有限等问题。
为了解决上述问题,本公开实施例提出了一种文件生成方法,采用该方法生成的文件可以作为神经网络模型的训练样本。图1是根据本公开实施例的应用场景示意图,如图1所示,本公开实施例的应用场景示意图可以包括但不限于文件生成装置110和模型训练装置120,该文件生成装置110和模型训练装置120之间可以通过任意类型的有线或无线网络进行通信。具体地,该文件生成装置110能够生成可以作为神经网络模型训练样本的文件,并将该文件发送至模型训练装置120;模型训练装置120可以用于接收该文件,并采用该文件训练或微调神经网络模型。其中,本公开实施例提出的文件生成装置110和模型训练装置120可以包括电子设备或服务器。此外,本公开实施例并不对文件生成装置110或模型训练装置120的数量进行具体的限制,例如,本公开实施例的应用场景示意图可以包括一个或多个文件生成装置110和/或模型训练装置120。
图2是根据本公开一实施例的一种文件生成方法的实现流程图,包括:
S210、将M1个第一类型文件分别输入第一模型,由该第一模型输出各个第一类型文件对应的第二类型文件;
S220、根据输出结果确定多个文件对,每个文件对包括一个第一类型文件及该第一类型文件对应的第二类型文件;
S230、利用该多个文件对,对第二模型进行调整;以及,
S240、将M2个第一类型文件分别输入调整后的第二模型,由该调整后的第二模型输出各个第一类型文件对应的第二类型文件;
其中,M1、M2为正整数。
在一些实施方式中,第一模型可以包括已有的面向公众的大语言模型,第一模型的规模较大,可以为多种不同用户提供服务;第二模型可以包括高效低成本的语言模型,第二模型为自有模型,其规模较小、成本较低,第二模型可以用于特定的垂直领域。
本公开实施例通过结合较大规模的大语言模型、以及高效低成本的语言模型生成文件,该文件可以作为其它模型的训练样本或语料,本方案能够避免人工标注,从而节约成本;并且,本方案可以利用大语言模型的生成能力,生成的文件能够涵盖各种领域和情境,从而提高生成文件的数量和多样性。
在利用已有的大语言模型生成用于作为训练样本或语料的文件时,比较容易想到的方式是采用大语言模型生成所有训练样本或语料。但是,由于大语言模型的使用成本较高,为了生成数量巨大的训练样本或语料,需要大量使用大语言模型,因此这种方式成本较高;并且,在生成过程中,需要向大语言模型输入数据,由于该大语言模型是面向公众提供服务的,因此这些数据的安全性无法得到保障。
本公开实施例提出的文件生成方法,采用已有的大语言模型、以及高效低成本的自有语言模型进行,将部分第一类型文件(如上述方案中的M1个第一类型文件)分别输入大语言模型,由该大语言模型分别输出对应的M1个第二类型文件,一个第一类型文件和一个对应的第二类型文件可以构成一个文件对,共构成M1个文件对(为方便描述,此处暂未考虑数据清洗过程;如考虑清洗过程,则文件对的数量少于M1)。其中,第一类型文件可以是特定垂直领域的文件,这样,生成的M1个文件对也对应该特定垂直领域。
M1个文件对可以用于对第二模型进行调整,例如,该第二模型为预先训练的语言模型,第二模型为自有模型。本公开实施例采用第一模型生成的文件对,对第二模型进行调整(如进行有监督微调),这个调整过程可以提升第二模型在该特定垂直领域的能力。之后,再将大量第一类型文件(如上述方案中的M2个第一类型文件)分别输入调整后的第二模型,由该大语言模型分别输出对应的M2个第二类型文件,该M2个第二类型文件可以作为其它模型的训练样本或语料,用于训练其它模型在该特定垂直领域的能力。
在一些实施方式中,M2可以大于M1,例如M2远大于M1(M2>>M1);采用这种方式,可以向第一模型(如已有的大语言模型)输入少量第一类型文件;并利用已有的大语言模型的输出结果构建文件对,利用该文件对调整自有语言模型;之后向调整后的自有语言模型输入大量第一类型文件,从而由调整后的自有语言模型输出大量的第二类型文件,作为其他模型的训练样本或语料。通过这种方式,能够尽量减少对已有的大语言模型的使用,从而降低成本。
在一些实施方式中,向调整后的自有语言模型(即第二模型)输入的M2个第一类型文件包括需要进行安全保护的文件,而向已有的大语言模型(即第一模型)输入的M1个第一类型文件可以是安全需求较低的文件。因此,本方案无需向外界泄露需要安全保护的文件,而是可以在本地使用自有的语言模型进行转换,因此能够有效保护数据安全。
可见,本公开实施例提出的文件生成方法,通过结合已有的大语言模型和自有语言模型,能够同时达到节约成本和保护数据安全的效果。
本公开实施例提出的第一类型文件和第二类型文件可以是各种形式,例如,第一类型文件为篇章语料,第二类型文件为对话语料;或者,第一类型文件为对话语料,第二类型文件为篇章语料;或者,第一类型文件为文本(如篇章或对话),第二类型文件为图像、视频或漫画等;或者,第一类型文件为图像、视频或漫画等,第二类型文件为文本(如篇章或对话);或者,第一类型文件为文本(如篇章),第二类型文件为文本对应的文章提纲;或者,第一类型文件为文章提纲,第二类型文件为提纲对应的文本(如篇章);等等。本公开实施例不限制第一类型文件和第二类型文件的具体类型,并且,本公开实施例涉及的第一模型和第二模型也可以为其他类型的模型,例如多模态大语言模型(Multimodal Large LanguageModel,MLLM),MLLM能够结合多种模态(如文本、图像、视频等)的信息来进行更丰富的自然语言生成和理解。
以下以第一类型文件是篇章语料、第二类型文件是对话语料为例进行介绍。篇章语料,可以包括图书、文章、博客、研报等内容。篇章是一种组织完整的语言表达形式,是将各种句子和段落有机地组织在一起,通过统一的主题和逻辑关系,形成的一篇完整的文章或作品。对话语料,包括两个或多个人之间的谈话内容,对话语料可以包括多个对话问题、以及各个对话问题的回答。
本公开实施例提出的文件生成方法包括以下阶段:
第一阶段,收集篇章语料,并转换为对话语料:
图3是本公开一实施例的文件生成方法的第一阶段示意图,在第一阶段收集特定垂直领域的少量篇章语料(本实施例中记为P),这些篇章语料可以包括图书、博客、研报等。利用已有的大语言模型,结合特定的提示词(prompt),对篇章语料P进行转换,得到对应的对话语料(本实施例中记为D)。其中,prompt中可以包含篇章语料P的内容。通过这一步骤,可以获得数量为M1的文件对(或输入输出对),每个文件对包括一个篇章语料及其对应的对话语料,记为(篇章语料P,对话语料D)。这一阶段中的篇章语料和对话语料可以对应特定垂直领域,例如,收集特定垂直领域的篇章语料,相应地,已有的大语言模型基于该篇章语料生成的对话语料也对应该特定垂直领域。
第二阶段,微调自有的语言模型:
图4是本公开一实施例的文件生成方法的第二阶段示意图,本阶段利用第一阶段中收集到的M1个文件对(或输入输出对),对自有的语言模型进行有监督微调。例如,利用反向传播算法对自有的语言模型进行微调,具体地,将文件对中的篇章语料作为训练样本,将对应的对话语料作为该训练样本的标签;将训练样本输入自有的语言模型,由该自有的语言模型输出对应的对话语料,将输出的对话语料与该训练样本的标签进行比较,根据比较结果调整该自有的语言模型的参数,从而实现对自有的语言模型的有监督微调。这个微调过程可以提升自有语言模型在特定垂直领域的对话生成能力,该特定垂直领域为该文件对所对应的领域。该阶段的语言模型为高效低成本小模型。
第三阶段,生成大规模的高质量对话语料:
图5是本公开一实施例的文件生成方法的第三阶段示意图。本阶段中,利用更大规模的篇章语料,如数量为M2的篇章语料(M2远大于M1),输入到经过微调的高效低成本小模型中。这样,可以由该高效低成本小模型输出大规模的高质量对话语料,满足特定垂直领域的需求。本阶段中,采用的篇章语料可以从书籍、研报、博客等途径收集。
为了实现对话语料的定制化回复风格,本公开实施例可以在上述第一阶段中向已有的大语言模型输入特定表达风格(如特定口吻、语气和表达方式等)的少量篇章语料。通过引入这些特定表达风格的数据,能够使已有的大语言模型生成模仿这种特定表达风格的对话语料。
在一些实施方式中,上述第一阶段输入已有的大语言模型的一个prompt示例为:
“根据以下篇章语料生成对话语料,对话的双方为老师和学生。
例子1:
输入:《红楼梦》是中国古典四大名著之一。其通行本共120回,一般认为前80回是清代作家曹雪芹所著,后40回作者为无名氏,整理者为程伟元、高鹗。小说以贾、史、王、薛四大家族的兴衰为背景,以贾宝玉与林黛玉、薛宝钗的爱情婚姻悲剧为主线,描绘了人生百态,是一部史诗性著作。
输出:
学生A:老师,我正在读《红楼梦》,但感觉内容好丰富,不知道从哪里下手。
老师:《红楼梦》确实内容丰富,你可以先从它的主线入手,也就是贾宝玉与林黛玉、薛宝钗的爱情婚姻悲剧。
学生A:我明白了,那这本书的作者是谁呢?
老师:一般认为,《红楼梦》前80回是曹雪芹所著,他是清代著名的作家。而后40回则是由无名氏所写,后来由程伟元和高鹗整理出版的。
学生A:哦,那这本书的背景呢?
老师:《红楼梦》以贾、史、王、薛四大家族的兴衰为背景。
现在需要转换的篇章语料如下:
输入:
《三国演义》是元末明初小说家罗贯中写的长篇章回体历史演义小说,是中国古典四大名著之一。《三国演义》描写了从东汉末年到西晋初年之间近百年的历史风云,以描写战争为主,描述了东汉末年的群雄割据混战和魏、蜀、吴三国之间的政治和军事斗争。”
基于上述prompt,已有的大语言模型能够该生成prompt中包含的“需要转换的篇章语料”所对应的对话语料。
通过输入少量上述类型的prompt,已有的大语言模型能够生成多个对话语料,从而生成多个文件对,每个文件对包括一个篇章语料及其对应的对话语料,多个文件对用于在第二阶段对自有的语言模型进行微调。为了提高第一阶段生成的文件对的质量,从而提高对自有的语言模型的微调效果,本公开实施例至少可以采用如下方式:
方式一:
一示例中,将篇章语料输入第一模型(如已有的大语言模型),由该第一模型输出与该篇章语料相关的多个对话问题;
基于该篇章语料和该多个对话问题,由该第一模型输出对应的对话语料,该对话语料包括该多个对话问题、以及各个对话问题的回答。
通过上述方式,可以引导第一模型(如已有的大语言模型)分步骤生成对话语料,即,在第一步骤生成对话语料中的对话问题,在第二步骤生成各个对话问题的回答,从而组成完整的对话语料。这种方式能够更细化地指引大语言模型完成各个步骤的工作、并且各个步骤完成的工作相对简单,因此能够提高大语言模型的效果,从而提高文件对的质量,进而提高对第二模型(如自有的语言模型)的微调效果。
例如,输入第一模型的一个典型的prompt内容如下:
“请针对以下篇章语料提出多个对话问题:
……”
将该prompt输入大语言模型,在大语言模型输出对应该篇章语料的多个对话问题之后,再向该大语言模型输入以下prompt:
“请针对上述篇章语料、以及上述多个对话问题,生成对话语料。”
上述示例中,先后向第一模型输入两个prompt;其中,第一个prompt包含篇章语料的内容,并要求第一模型输出该篇章语料对应的多个对话问题;第二个prompt要求第一模型前述输出的基础上,输出该篇章语料对应的对话语料。通过先后输出两个prompt,细化对第一模型的指引,从而提高第一模型生成对话语料的效果。
方式二:
针对篇章语料生成prompt,该prompt中携带该篇章语料的内容以及对话方的身份特征;该对话方的身份特征用于使第一模型(如已有的大语言模型)输出满足该对话方的身份特征的对话语料。
例如,上述prompt示例中的“对话的双方为老师和学生”,即为对话方的身份特征,通过在prompt中包含对话方的身份特征,能够使大语言模型输出符合该身份特征的对话语料。利用这类符合身份特征的对话语料生成的文件对,在第二阶段微调自有的语言模型,能够使该自有的语言模型生成符合该对话方的身份特征的对话语料。
方式三:
采用prompt优化方法,对prompt进行优化;再将优化后的prompt输入第一模型(如已有的大语言模型)。
本公开实施例可以采用思维链(Chain-of-Thought,CoT)、上下文学习(In-Context Learning,ICL),自我优化方式,优化prompt,从而提高第一阶段中第一模型的效果,优化第一阶段的输出结果。
思维链是一种用于设计prompt的方法,即prompt中除了有任务的输入和输出外,还包含推理的中间步骤(中间思维)。思维链能够极大地提升LLM的能力。
ICL是一种使大语言模型通过少量标注样本在特定任务上进行学习的方法。这种方法的核心思想是,通过设计任务相关的指令形成prompt模板,利用少量标注样本作为prompt,从而引导模型在新的测试数据上生成预测结果。
自我优化的核心思路是由大语言模型自己优化prompt;具体地,大语言模型记录过往的迭代记录,优化目标,自己总结规律,并逐步迭代prompt。
上述几种方式可以实现对prompt进行优化,利用优化后的prompt能够提高第一模型的性能,即提高第一模型生成对话语料的效果。
方式四:
输入第一模型(如已有的大语言模型)的篇章语料具有预先设定的表达风格,并且向该第一模型输入的prompt中包含对话方的身份特征。在第一模型输出对应的对话语料之后,从第一模型的输出结果中,去除与该预先设定的表达风格不一致的对话语料,并去除与该身份特征不一致的对话语料,以得到剩余的输出结果;
根据剩余的输出结果确定多个文件对。
这一过程可以对第一模型的输出结果进行清洗,以去除质量较低的文件对。
在一些实施方式中,可以采用第一模型确定其生成的对话语料的表达风格和/或身份特征,例如,将第一模型生成的对话语料重新输入该第一模型,由该第一模型确定该对话语料的表达风格和/或身份特征。或者,可以采用其他神经网络模型,确定第一模型所输出的对话语料的表达风格和/或身份特征。
通过对第一阶段中第一模型的输出结果进行清洗,能够得到质量较高的文件对,在第二阶段中采用这些质量较高的文件对对第二模型进行调整,能够使第二模型的性能更优。
通过上述多种方式,能够提高第一阶段由第一模型生成的文件对的质量;在后续过程中,采用更高质量的文件对,对第二模型进行调整,则能够使调整后的第二模型性能更优,从而使调整后的第二模型生成的文件质量更高。
综上可见,本公开实施例提出的文件生成方法,利用少量样本数据和已有的大语言模型,可以生成少量特定垂直领域的训练样本,利用该训练样本对自有的语言模型进行微调,能够提升自有的语言模型在该特定垂直领域的能力;再将大量篇章语料输入调整后的语言模型,由该调整后的语言模型生成大量对话语料。通过生成大规模的高质量对话语料,可以更好地满足特定垂直领域的需求。这些对话语料可以涵盖特定领域的专业知识、问题解答、常见场景等,使得相关产品在该领域中的应用更加全面和实用。
并且,本公开实施例提出的文件生成方法,通过将涉密的篇章语料在本地的自有语言模型中进行转换,并利用已有的大语言模型进行微调,可以有效保护数据隐私。同时,与直接使用已有的大语言模型相比,本方案可以节约成本,降低使用大语言模型的费用。
利用本公开实施例提出的文件生成方法所生成的对话语料,可以构建自有的大语言模型,并在特定垂直领域进行微调和优化,从而使自有的大语言模型具备独特的技术优势和差异化特征。
本公开实施例还提出一种文件生成装置,图6是根据本公开一实施例的文件生成装置600的结构示意图,包括:
第一输入模块601,用于将M1个第一类型文件分别输入第一模型,由第一模型输出各个第一类型文件对应的第二类型文件;
确定模块602,用于根据输出结果确定多个文件对,每个文件对包括一个第一类型文件及该第一类型文件对应的第二类型文件;
调整模块603,用于利用多个文件对,对第二模型进行调整;以及,
第二输入模块604,用于将M2个第一类型文件分别输入调整后的第二模型,由调整后的第二模型输出各个第一类型文件对应的第二类型文件;M1、M2为正整数。
在一些实施方式中,M2大于M1。
在一些实施方式中,M2个第一类型文件包括需要进行安全保护的文件。
在一些实施方式中,第一类型文件包括篇章语料,第二类型文件包括对话语料。
在一些实施方式中,第一输入模块601用于,
将篇章语料输入第一模型,由该第一模型输出与该篇章语料相关的多个对话问题;
基于该篇章语料和多个对话问题,由该第一模型输出对应的对话语料,该对话语料包括多个对话问题以及各个该对话问题的回答。
在一些实施方式中,第一输入模块601用于,针对各个篇章语料生成提示词,将该提示词输入该第一模型;其中,该提示词中携带该篇章语料的内容以及对话方的身份特征;该对话方的身份特征用于使该第一模型输出满足该对话方的身份特征的对话语料。
在一些实施方式中,第一输入模块601用于:
采用提示词优化方法,对提示词进行优化;
将优化后的提示词输入第一模型。
在一些实施方式中,其中,篇章语料具有预先设定的表达风格。
在一些实施方式中,其中,确定模块602用于:
从第一模型的输出结果中,去除与预先设定的表达风格不一致的对话语料,并去除与该对话方的身份特征不一致的对话语料,以得到剩余的输出结果;
根据剩余的输出结果确定多个文件对。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如检测方法。例如,在一些实施例中,检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种文件生成方法,包括:
将M1个第一类型文件分别输入第一模型,由所述第一模型输出各个第一类型文件对应的第二类型文件;
根据输出结果确定多个文件对,每个文件对包括一个所述第一类型文件及所述第一类型文件对应的所述第二类型文件;
利用所述多个文件对,对第二模型进行调整;以及,
将M2个第一类型文件分别输入调整后的第二模型,由所述调整后的第二模型输出各个第一类型文件对应的第二类型文件;所述M1、M2为正整数。
2.根据权利要求1所述的方法,其中,所述M2大于所述M1。
3.根据权利要求1或2所述的方法,其中,所述M2个第一类型文件包括需要进行安全保护的文件。
4.根据权利要求1-3中任一所述的方法,其中,所述第一类型文件包括篇章语料,所述第二类型文件包括对话语料。
5.根据权利要求4所述的方法,其中,所述将M1个第一类型文件分别输入第一模型,由所述第一模型输出各个第一类型文件对应的第二类型文件,包括:
将所述篇章语料输入所述第一模型,由所述第一模型输出与所述篇章语料相关的多个对话问题;
基于所述篇章语料和所述多个对话问题,由所述第一模型输出对应的对话语料,所述对话语料包括所述多个对话问题以及各个所述对话问题的回答。
6.根据权利要求4或5所述的方法,其中,所述将M1个第一类型文件分别输入第一模型,包括:
针对各个所述篇章语料生成提示词,将所述提示词输入所述第一模型;其中,
所述提示词中携带所述篇章语料的内容以及对话方的身份特征;所述对话方的身份特征用于使所述第一模型输出满足所述对话方的身份特征的对话语料。
7.根据权利要求6所述的方法,其中,所述将所述提示词输入所述第一模型,包括:
采用提示词优化方法,对所述提示词进行优化;
将优化后的提示词输入所述第一模型。
8.根据权利要求6或7所述的方法,其中,所述篇章语料具有预先设定的表达风格。
9.根据权利要求8所述的方法,其中,所述根据输出结果确定多个文件对,包括:
从所述第一模型的输出结果中,去除与所述预先设定的表达风格不一致的所述对话语料,并去除与所述对话方的身份特征不一致的所述对话语料,以得到剩余的输出结果;
根据所述剩余的输出结果确定多个文件对。
10.一种文件生成装置,包括:
第一输入模块,用于将M1个第一类型文件分别输入第一模型,由所述第一模型输出各个第一类型文件对应的第二类型文件;
确定模块,用于根据输出结果确定多个文件对,每个文件对包括一个所述第一类型文件及所述第一类型文件对应的所述第二类型文件;
调整模块,用于利用所述多个文件对,对第二模型进行调整;以及,
第二输入模块,用于将M2个第一类型文件分别输入调整后的第二模型,由所述调整后的第二模型输出各个第一类型文件对应的第二类型文件;所述M1、M2为正整数。
11.根据权利要求10所述的装置,其中,所述M2大于所述M1。
12.根据权利要求10或11所述的装置,其中,所述M2个第一类型文件包括需要进行安全保护的文件。
13.根据权利要求10-12中任一所述的装置,其中,所述第一类型文件包括篇章语料,所述第二类型文件包括对话语料。
14.根据权利要求13所述的装置,其中,所述第一输入模块用于,
将所述篇章语料输入所述第一模型,由所述第一模型输出与所述篇章语料相关的多个对话问题;
基于所述篇章语料和所述多个对话问题,由所述第一模型输出对应的对话语料,所述对话语料包括所述多个对话问题以及各个所述对话问题的回答。
15.根据权利要求13或14所述的装置,其中,所述第一输入模块用于,针对各个所述篇章语料生成提示词,将所述提示词输入所述第一模型;其中,所述提示词中携带所述篇章语料的内容以及对话方的身份特征;所述对话方的身份特征用于使所述第一模型输出满足所述对话方的身份特征的对话语料。
16.根据权利要求15所述的装置,其中,所述第一输入模块用于:
采用提示词优化方法,对所述提示词进行优化;
将优化后的提示词输入所述第一模型。
17.根据权利要求15或16所述的装置,其中,所述篇章语料具有预先设定的表达风格。
18.根据权利要求17所述的装置,其中,所述确定模块用于:
从所述第一模型的输出结果中,去除与所述预先设定的表达风格不一致的所述对话语料,并去除与所述对话方的身份特征不一致的所述对话语料,以得到剩余的输出结果;
根据所述剩余的输出结果确定多个文件对。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
CN202410936185.0A 2024-07-12 2024-07-12 一种文件生成方法、装置、设备以及存储介质 Pending CN118964545A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202410936185.0A CN118964545A (zh) 2024-07-12 2024-07-12 一种文件生成方法、装置、设备以及存储介质
JP2024223873A JP2025028306A (ja) 2024-07-12 2024-12-19 ファイル生成方法、装置、電子デバイス、記憶媒体及びプログラム
US19/020,179 US20250156655A1 (en) 2024-07-12 2025-01-14 Method for generating file, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410936185.0A CN118964545A (zh) 2024-07-12 2024-07-12 一种文件生成方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN118964545A true CN118964545A (zh) 2024-11-15

Family

ID=93382517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410936185.0A Pending CN118964545A (zh) 2024-07-12 2024-07-12 一种文件生成方法、装置、设备以及存储介质

Country Status (3)

Country Link
US (1) US20250156655A1 (zh)
JP (1) JP2025028306A (zh)
CN (1) CN118964545A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119415962A (zh) * 2025-01-06 2025-02-11 吉林大学 一种基于大语言模型的价值观识别数据增强方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119415962A (zh) * 2025-01-06 2025-02-11 吉林大学 一种基于大语言模型的价值观识别数据增强方法

Also Published As

Publication number Publication date
US20250156655A1 (en) 2025-05-15
JP2025028306A (ja) 2025-02-28

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
US12131728B2 (en) Method and apparatus of training natural language processing model, and method and apparatus of processing natural language
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN109408826A (zh) 一种文本信息提取方法、装置、服务器及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN112562678B (zh) 基于客服录音的智能对话方法、系统、设备及存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN110347802A (zh) 一种文本分析方法及装置
CN112364167A (zh) 基于深度学习的意图识别方法、系统、设备及存储介质
US20250156655A1 (en) Method for generating file, electronic device and storage medium
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN115631261A (zh) 图像生成模型的训练方法、图像生成方法和装置
US20230095352A1 (en) Translation Method, Apparatus and Storage Medium
US12019991B2 (en) Neural network for interpreting sentences of a natural language
CN115130470B (zh) 一种文本关键词的生成方法、装置、设备及介质
CN115936018A (zh) 一种术语翻译方法、装置、电子设备及存储介质
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN119151012A (zh) 基于大模型的文本训练样本的生成方法、装置及电子设备
CN118378148A (zh) 多标签分类模型的训练方法、多标签分类方法及相关装置
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN114239583B (zh) 实体链指模型的训练及实体链指方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination