CN118520854A - 文本生成方法、装置、计算机设备、存储介质和程序产品 - Google Patents
文本生成方法、装置、计算机设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN118520854A CN118520854A CN202410781507.9A CN202410781507A CN118520854A CN 118520854 A CN118520854 A CN 118520854A CN 202410781507 A CN202410781507 A CN 202410781507A CN 118520854 A CN118520854 A CN 118520854A
- Authority
- CN
- China
- Prior art keywords
- text
- interpretation
- resource
- target resource
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000004590 computer program Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 55
- 239000000463 material Substances 0.000 claims description 37
- 230000002159 abnormal effect Effects 0.000 claims description 29
- 238000012217 deletion Methods 0.000 claims description 20
- 230000037430 deletion Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 22
- 238000005516 engineering process Methods 0.000 description 27
- 238000003058 natural language processing Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000000670 limiting effect Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 241000070023 Phoenicopterus roseus Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,特别是涉及一种文本生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取目标资源的资源标识信息;基于所述资源标识信息进行检索,得到与所述目标资源相关的资料文本;通过预先训练的文本生成模型对所述资料文本和预设提示词进行处理,得到所述目标资源的解读文本;对所述解读文本进行校验,输出符合资源解读要求的目标解读文本。采用本方法能够提高解读文本输出效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本生成方法、装置、计算机设备、存储介质和程序产品。
背景技术
随着产业升级和企业的发展,以及金融市场的丰富,出现了数字资源的概念。数字资源是电子形式的、具有一定价值的资源,比如股票、基金或电子优惠券等。由于数字资源是以电子形式存在,其自身所代表的价值在某些情况下可能会发生变化,为便于用户能够实时了解与其相关的数字资源的异动或状态,某些机构会提供资源解读服务。比如,数字资源为股票时,当个股的涨跌幅超过3%或5%时,对该个股进行异动分析。
传统的资源解读服务,是通过人工对异动的资源进行分析,输出资源异动的解读文本,但是,这存在解读文本输出效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高解读文本输出效率的文本生成方法、装置、计算机设备、存储介质和程序产品。
第一方面,本申请提供了一种文本生成方法。所述方法包括:
获取目标资源的资源标识信息;
基于资源标识信息进行检索,得到与目标资源相关的资料文本;
通过预先训练的文本生成模型对资料文本和预设提示词进行处理,得到目标资源的解读文本;
对解读文本进行校验,输出符合资源解读要求的目标解读文本。
第二方面,本申请还提供了一种文本生成装置。所述装置包括:
获取模块,用于获取目标资源的资源标识信息;
检索模块,用于基于资源标识信息进行检索,得到与目标资源相关的资料文本;
生成模块,用于通过预先训练的文本生成模型对资料文本和预设提示词进行处理,得到目标资源的解读文本;
校验模块,用于对解读文本进行校验,输出符合资源解读要求的目标解读文本。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的文本生成方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的文本生成方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一项所述的文本生成方法的步骤。
上述文本生成方法、装置、计算机设备、存储介质和程序产品,基于目标资源的资源标识信息进行检索,得到与目标资源相关的资料文本,进而将与目标资源相关的资料文本作为外部知识提供给文本生成模型,使得文本生成模型在预设提示词以及外部知识的引导下,得到目标资源的高质量的解读文本。而后对解读文本进行校验,输出符合资源解读要求的目标解读文本。这样通过文本生成模型得到目标资源的解读文本,并进一步对解读文本进行校验以得到符合资源解读要求的目标解读文本,相比于传统技术中的通过人工分析输出解读文本的方式,效率更高,并且还能生成高质量的符合资源解读要求的目标解读文本。
附图说明
图1为一个实施例中文本生成方法的应用环境图;
图2为一个实施例中文本生成方法的流程示意图;
图3为一个实施例中获取总结文本的原理示意图;
图4为另一个实施例中获取总结文本的原理示意图;
图5为一个实施例中训练预训练模型的原理示意图;
图6为一个实施例中目标解读文本的示意图;
图7为另一个实施例中文本生成方法的流程示意图;
图8为一个实施例中股票场景中的文本生成的原理示意图;
图9为另一个实施例中股票场景中的文本生成的原理示意图;
图10为一个实施例中人工输出个股异动的解读文本的原理示意图;
图11为一个实施例中文本生成装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在对本申请所提供的文本生成方法进行介绍之前,先介绍一下人工智能技术:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术:是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请涉及人工智能技术中的自然语言处理和机器学习,其中:
自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model,LLM)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
其中,预训练模型(Pre-training model),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
接下来针对本申请涉及的一些技术术语进行介绍:
大语言模型(Large Language Model,LLM):简称大模型,是一种基于神经网络的自然语言处理技术,旨在理解和生成人类语言。它通过大量训练数据学习语言规则、语义和上下文信息,从而实现各种自然语言任务,如机器翻译、问答、摘要生成等。
金融大模型(Financial Large Language Model,Fin-LLM):是适用于金融领域的大模型,具体可以是在大模型上完成了金融领域的二次增训,再加上通用模型微调(Scalable Fine-tuning,SFT)和金融SFT,可以达到能满足金融应用场景使用的需要。
RAG(Retrieval-Augmented Generation,检索增强生成):是一种自然语言处理技术,它结合了两种主要的NLP方法:检索(retrieval)和生成(generation)。检索部分的工作是从大量的文本数据中检索出与输入问题最相关的信息。它通常使用一个检索系统,比如基于双向变换器模型(Bidirectional Encoder Representations from Transformers,BERT),在大规模的文档集合(例如知识库)中寻找与输入相关的文段。生成部分则使用类似生成式预训练变换模型(Generative Pre-trained Transformer 4,GPT4)的语言模型,它会根据检索到的信息来生成响应或回答。这个过程涉及理解检索到的内容,并在此基础上生成连贯、相关且信息丰富的文本。RAG的关键在于它结合了这两种方法的优点:检索系统能提供具体、相关的事实和数据,而生成模型则能够灵活地构建回答,并融入更广泛的语境和信息。
语言链LangChain:LangChain是一个开源编排框架,用于简化使用LLM开发应用程序的过程。它提供了基于Python和Javascript的库,可以作为几乎所有LLM的通用接口,帮助开发者构建聊天机器人、虚拟代理等LLM驱动型应用程序,并将其与外部数据源和软件工作流程集成。LangChain采用模块化方法,使开发人员能够动态比较不同的提示和基础模型,同时简化集成和编程过程。
提示词Prompt:在LLM中,提示词是一种输入方式,它向模型提供一个初始文本片段或问题,以激发模型生成相关的响应或输出。提示词通常用于指导模型的行为,使其专注于特定任务、主题或领域,并生成符合用户需求的回答。提示词可以是简单的文本,也可以包含一些特定的关键词、短语或结构。
token:在模型中,token可以是一个单词、字符、短语甚至图像片段或声音片段等。它是模型理解和处理信息的基本单位。token被赋予数值或标识符,按序列或向量排列,并被输入或从模型中输出,是模型的语言构件。token作为原始文本数据和LLM可以使用的数字表示之间的桥梁。LLM使用token来确保文本的连贯性和一致性,有效地处理各种任务,如写作、翻译和回答查询。在LLM中,token的大小会影响模型的处理能力。例如,在人工智能研究公司OpenAI的应用程序编程接口(Application Programming Interface,API)参数中,最大长度max_tokens参数指定模型应该生成一个最大长度为60个token的输出。因此,了解token的大小对于理解LLM的性能和行为至关重要。
幻觉:是指人们在使用一些大型预训练的自然语言处理模型时,模型的输出结果异常,例如语法错误、不准确或模糊的回答等。这种幻觉可能是由模型生成的自然语言引起的,这种现象的原因可能是由于模型在训练过程中学到的统计规律和关联性,而不是真正的理解。此外,模型也可能受到训练数据中的偏见和噪声的影响,从而导致输出结果的不准确或不公平。
指令跟随:是指LLM在接收到用户的具体指令后,能够按照指令的要求输出相应的结果。
BERT:是一种基于Transformer架构的预训练语言模型。它的核心特点在于能够学习文本的双向表示,从而在处理各种自然语言处理任务时,能够更好地理解上下文信息。BERT在许多自然语言处理任务上均达到了最先进的性能,如文本分类、问题回答和命名实体识别等。作为一种预训练模型,BERT在特定场景使用时不需要用大量的语料来进行训练,从而可以节约时间成本,提高效率。同时,BERT是一种端到端的模型,不需要调整网络结构,只需要在最后加上特定于下游任务的输出层。
舆情判断:舆情判断是指在股票投资中,投资者通过分析和评估各种与公司、行业和市场相关的新闻、报道、政策、数据等信息,来判断这些信息对股票价格是利好还是利空。
命名实体识别(Named Entity Recognition,NER):是自然语言处理领域的一个重要任务,旨在从文本中识别和分类出具有特定意义的命名实体,如人名、地名、组织机构、时间、日期、货币、公司名称、金融实体名词等。
倒排索引:倒排索引是一种用于全文搜索的索引方法,实现了单词到文档的映射关系。在倒排索引中,每个单词都有一个对应的倒排列表,记录了包含该单词的所有文档的文档编号、单词在文档中的出现次数以及出现位置等信息。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
模型微调(Scalable Fine-tuning,SFT):是一种用于自然语言处理的技术,它通过对预训练的语言模型进行微调,使其适应特定任务。在大模型SFT中,使用的是大型的预训练语言模型,例如大型语言模型LLAMA、GPT等,这些模型具有数十亿甚至数百亿个参数,可以处理大量的文本数据。SFT的主要思想是在一个大型的预训练模型的基础上,针对特定的任务对模型进行微调。在微调过程中,模型会根据任务的特点调整模型的参数和结构,以提高模型在该任务上的表现。
随着产业升级和企业的发展,以及金融市场的丰富,出现了数字资源的概念。数字资源是电子形式的、具有一定价值的资源,比如股票、基金或电子优惠券等。由于数字资源是以电子形式存在,其自身所代表的价值在某些情况下可能会发生变化,为便于用户能够实时了解与其相关的数字资源的异动或状态,某些机构会提供资源解读服务。
比如,数字资源为股票时,当个股的涨跌幅超过3%或5%时,针对个股异动的解读文本的生成,传统技术中通常是根据异动信号,将异动的个股相关的量价指标数据自动填写至预先设定的模版中,从而得到解读文本。但是,这种解读文本均为客观数据描述,没有根据新闻、资讯等消息进行产生异动的原因分析内容,过于刻板单一,而股市变化万千,要求时效性高,仅凭客观数据很难帮用户直接提取到有效信息,因此,这样的解读文本难以满足用户对有效信息的需求。
而要输出满足用户需求的解读文本,目前还是通过人工来完成,但由于查询较为相关的异动原因难,且即便找到后还需要人工提取重点信息润色成文再推送给用户,很难在5分钟内完成,一般需要20分钟以上。因此,自选股的专业编辑每日仅对人气火热、有代表性的标的(异动个股)做分析输出解读文本。因此,目前存在个股异动的解读文本输出效率低以及成本高的问题。
基于此,有必要提出有效的技术手段来解决上述问题。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。
本申请实施例提供的文本生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。该文本生成方法可以执行于终端102,也可以通过终端102和服务器104的交互实现,以执行于终端102为例,终端102获取目标资源的资源标识信息;基于资源标识信息进行检索,得到与目标资源相关的资料文本;将资料文本和预设提示词输入预先训练的文本生成模型中,得到文本生成模型输出的目标资源的解读文本;对解读文本进行校验,得到符合资源解读要求的目标解读文本。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备和飞行器,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种文本生成方法,以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端102或服务器104)为例进行说明,包括以下步骤:
步骤202,获取目标资源的资源标识信息。
其中,目标资源是数字资产。数字资产是电子形式的、具有一定价值的资源,比如股票、基金或电子优惠券等。资源标识信息是用于唯一指代目标资源的标识,可以包括资源名称、资源简称、资源俗称或资源代码中的至少一种。
在一个可选的实施例中,在目标资源满足预设条件的情况下,获取目标资源的资源标识信息。
示例性地,计算机设备监测预设平台,在预设平台发放的目标资源超过预设发放时长的情况下,获取目标资源的资源标识信息。
例如,目标资源为电子优惠券,计算机设备监测某电商平台,在该电商平台发放的电子优惠卷超过预设发放时长时,获取电子优惠卷的资源标识信息。
示例性地,计算机设备监测目标资源,在目标资源的变化满足预设异动条件的情况下,获取目标资源的资源标识信息。
例如,目标资源为股票或基金,以股票为例,计算机设备监测股票的涨跌幅,在某股票的涨跌幅超过预设异动阈值时,也即是个股异动时,获取该股票的资源标识信息。
在目标资源满足预设条件的情况下,计算机设备获取目标资源的资源代码,在一些实施例中,计算机设备获取到目标资源的资源代码后,直接将该资源代码作为目标资源的资源标识信息。在另一些实施例中,计算机设备接收到目标资源的资源代码后,对资源代码进行实体识别,根据识别结果得到目标资源的资源标识信息。在其他的实施例中,计算机设备对资源代码进行实体识别,再对识别结果进行名称扩展,然后得到目标资源的资源标识信息。
在另一个可选的实施例中,计算机设备接收用户输入的问题,计算机设备对该问题进行实体识别,获得目标资源的标识,如资源名称、资源简称、资源俗称或资源代码。计算机设备对该标识进行名称扩展,得到目标资源的资源标识信息。
步骤204,基于资源标识信息进行检索,得到与目标资源相关的资料文本。
其中,资料文本是与目标资源相关的一些历史资料中的内容,例如,与目标资源相关的新闻资讯和研报等历史资料中的内容。
计算机设备基于资源标识信息进行检索,可以是计算机设备基于资源标识信息从资源数据库中进行检索,也可以是计算机设备基于资源标识信息通过互联网搜索引擎进行检索,本申请实施例对此不作限定。
在一种可能的实现方式中,计算机设备基于资源标识信息不仅从资源数据库中进行检索,还通过互联网搜索引擎进行检索,得到多个与目标资源相关的文档。进而对检索得到的文档进行处理,得到资料文本。其中,处理的方式具体可以是数据清洗、或者数据拆分等。
示例性地,由于是通过两种方式检索,得到的多个文档中难免会有两个内容完全相同的文档,因此,在得到多个文档之后,计算机设备可对多个文档进行排查清洗,删除冗余文档,也即是将多个文档中,内容相同的多个文档仅保留其中一个,其余的删除。将资源标识信息与排查清洗后的多个文档中的各文档进行匹配,依据匹配结果从排查清洗后的多个文档中选取预设文档数量的文档,将选取的预设文档数量的文档作为资料文本。
其中,依据匹配结果从排查清洗后的多个文档中选取预设文档数量的文档,具体可以是,依据资源标识信息与各文档的匹配度,从排查清洗后的多个文档中选取匹配度高的文档,选取的文档的数量为预设文档数量。
在另一种可能的实现方式中,基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档,对各文档进行切分得到多个第一文本块,从多个第一文本块中筛选得到资料文本。
在又一种可能的实现方式中,基于资源标识信息通过互联网搜索引擎进行检索,得到多个与目标资源相关的文档,对各文档进行切分得到多个第一文本块,从多个第一文本块中筛选得到资料文本。
步骤206,通过预先训练的文本生成模型对资料文本和预设提示词进行处理,得到目标资源的解读文本。
其中,提示词是与AI模型交互时使用的一系列指令性文字,用以指导AI模型生成特定内容或执行特定任务。在文本生成场景中,通过精确设计的预设提示词,可以引导AI模型按照特定的风格、格式或内容方向产生文本。
文本生成模型是能够对给定信息进行分析处理输出相应文本的模型,例如可以是Fin-LLM模型或LLM模型。
解读文本指的是对目标资源的异动或状态进行分析的内容。在一些实施例中,解读文本可以由文章标题和解读文章构成;在另一些实施例中,解读文本可以只包括解读文章。
需要说明的是,文本生成模型对给定信息通常会有字数限制要求,一般不能超过8k token。因此,在一种可能的实现方式中,计算机设备判断资料文本和预设提示词的总字数是否满足文本生成模型的最大字数限制条件,若资料文本和预设提示词的总字数满足文本生成模型的最大字数限制条件,则计算机设备通过调用文本生成模型直接对资料文本和预设提示词进行处理,得到目标资源的解读文本;若资料文本和预设提示词的总字数不满足文本生成模型的最大字数限制条件,则计算机设备先调用文本生成模型对资料文本进行处理,得到总结文本,再调用文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本。
在另一种可能的实现方式中,计算机设备无需判断资料文本和预设提示词的总字数是否满足文本生成模型的最大字数限制条件,计算机设备直接调用文本生成模型对资料文本进行处理,得到总结文本,再调用文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本。
其中,判断资料文本和预设提示词的总字数是否满足文本生成模型的最大字数限制条件,包括:若资料文本和预设提示词的总字数小于或等于文本生成模型的最大字数阈值,则确定满足文本生成模型的最大字数限制条件;若资料文本和预设提示词的总字数大于文本生成模型的最大字数阈值,则确定不满足文本生成模型的最大字数限制条件。
步骤208,对解读文本进行校验,输出符合资源解读要求的目标解读文本。
其中,资源解读要求是预先设置的文本规范要求,比如,文本中不可以有异常内容,如敏感词、断句、异常标点符号、过时的历史信息、与目标资源无关的非标的信息等。
具体的,资源解读要求包括至少一个要求,计算机设备可根据至少一个要求对解读文本进行校验,针对解读文本中不符合资源解读要求的内容进行调整,得到目标解读文本。调整的方式可以是删除、改写或补充等。
在一些实施例中,计算机设备可基于至少一个要求逐次对解读文本进行校验,定位出不符合资源解读要求的内容,并将不符合资源解读要求的内容进行删除,得到目标解读文本。
在一种可能的实现方式中,计算机设备可以通过训练好的机器学习模型对解读文本进行校验,针对解读文本中不符合资源解读要求的内容进行调整,得到目标解读文本。其中,在对机器学习模型的训练过程中,可以是利用文本样本和文本标签对机器学习模型进行有监督训练。其中,文本样本可以是新闻稿件,文本标签可以是异常内容校验。
在一些实施例中,计算机设备得到目标解读文本后,发布目标解读文本,具体的发布方式可以是官方网站发布、社交媒体发布、行业网站发布、网络推广发布等方式。
示例性地,本申请的文本生成方法应用于资源客户端,如股票APP,计算机设备在检测到个股异动时,获取该个股的股票代码,对股票代码进行名称扩展,基于扩展后的信息进行检索,得到与个股异动相关的资料文本,再基于预设提示词和资料文本生成个股异动的解读文本,并对该解读文本进行校验处理,得到目标解读文本,然后以目标媒体号发布该目标解读文本。
计算机设备在检测到针对该目标解读文本的触发操作后,显示内容显示界面,该内容展示界面用于显示目标解读文本。
上述文本生成方法中,基于目标资源的资源标识信息进行检索,得到与目标资源相关的资料文本,进而将与目标资源相关的资料文本作为外部知识提供给文本生成模型,使得文本生成模型在预设提示词以及外部知识的引导下,得到目标资源的高质量的解读文本。而后对解读文本进行校验,输出符合资源解读要求的目标解读文本。这样通过文本生成模型得到目标资源的解读文本,并进一步对解读文本进行校验以得到符合资源解读要求的目标解读文本,相比于传统技术中的通过人工分析输出解读文本的方式,效率更高,成本更低,并且还能生成高质量的符合资源解读要求的目标解读文本。
在一个实施例中,上述步骤202获取目标资源的资源标识信息,包括:监测目标资源,在目标资源的变化满足预设异动条件的情况下,获取目标资源的资源标识信息。
其中,预设异动条件是确定目标资源是否异动所依据的判断标准。
可选的,计算机设备从资源数据库中获取目标资源的异动值,在目标资源的异动值超过预设异动阈值时,获取该目标资源资源代码,根据该资源代码获取确定目标资源的资源标识信息。
例如,计算机设备实时监测各个股票的涨跌幅,当某个个股的涨跌幅超过5%时,获取该个股的股票代码,也即是资源代码;或者,当某个权重股的涨跌幅超过3%时,获取该权重股的股票代码,也即是资源代码。计算机设备根据该资源代码确定目标资源的资源标识信息。
本实施例中,通过监测目标资源,在目标资源的变化满足预设异动条件的情况下,获取目标资源的资源标识信息,实现获取异动的目标资源的资源标识信息,从而可实现对异动目标资源的解读文本的输出。
在一个实施例中,上述步骤202获取目标资源的资源标识信息,包括:接收目标资源的资源代码;对资源代码进行实体识别,根据识别结果进行名称扩展,得到目标资源的资源标识信息。
其中,资源代码是用于唯一标识资源的指示符。在目标资源为股票时,资源代码可以是标识资源市场上特定上市公司的一组字母或数字,例如,某市A股的代码以600作为起始,后面跟随三位表示公司的具体代码,构成资源代码。在目标资源为电子优惠券时,资源代码可以是唯一标识每个优惠券的一组字母、数字或二维码。
识别结果指的是对资源代码进行实体识别得到的结果,例如可以是目标资源的资源名称、资源简称或资源俗称。
在一种可选的实施例中,计算机设备监测目标资源,当目标资源满足预设异动条件时,获取目标资源的资源代码。
在另一种可选的实施例中,计算机设备接收用户输入的问题,计算机设备对该问题进行实体识别,获得目标资源的资源代码。
在又一个可选的实施例中,计算机设备接收其他计算机设备发送的资源代码。
计算机在接收到资源代码后,会对资源代码进行实体识别,得到资源代码对应的目标资源的资源名称。
计算机设备可以基于资源名称通过互联网搜索引擎检索到目标资源的资源简称和/或资源俗称,也可以通过使用数据服务商提供的应用程序编程接口(ApplicationProgramming Interface,API),获取目标资源的资源简称和/或资源俗称。然后计算机设备将资源代码、资源名称、资源简称、资源俗称和资源代码作为目标资源的资源标识信息。
本实施例中,通过接收目标资源的资源代码,对资源代码进行实体识别,根据识别结果进行名称扩展,得到目标资源的资源标识信息,这样,进行名称扩展得到的资源标识信息中的内容更丰富,从而基于该资源标识信息进行检索,可以得到更全面的与目标资源相关的文档。
在一个实施例中,上述步骤204基于资源标识信息进行检索,得到与目标资源相关的资料文本,包括:基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档;对各文档进行切分得到多个第一文本块;从多个第一文本块中筛选得到资料文本。
其中,资源数据库指的是存储有多个资源的相关历史资料的数据库,比如存储有多个股票的相关新闻资讯、研报的数据库。该资源数据库可以设置在本申请的计算机设备上,也可以设置在除本申请的计算机设备之外的其他计算机设备上。
基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档,其实现方式可以是,计算机设备通过资源数据库提供的API接口,向资源数据库发送携带资源标识信息的检索指令,资源数据库基于该检索指令将查询到的多个与目标资源相关的文档发送至计算机设备。
进一步地,计算机设备可检测各文档的文本长度,在文本长度超过第二预设长度阈值时,对超过第二预设长度阈值的文本进行切分,得到多个第一文本块。各第一文本块的文本长度在预设长度范围内。
在一些实施例中,计算机设备中预先存储有文本长度范围与切分篇数的映射表,该映射表中包括多个文本长度范围与多个切分篇数的对应关系。针对各文档,根据文档的文本长度查询映射表,确定文档的目标切分篇数,将文档切分为与目标切分篇数数量匹配的文本块,从而得到多个第一文本块。
进一步地,计算机设备可从多个第一文本块中筛选得到资料文本。在一种可能的实现方式中,计算机设备将资源标识信息与各第一文本块进行匹配,根据匹配结果从多个第一文本块中筛选出第二文本块,根据第二文本块得到资料文本。在另一种可能的实现方式中,计算机设备利用索引工具从多个第一文本块中筛选得到资料文本。
示例性地,计算机设备可对资源标识信息进行文本向量化,得到资源标识信息对应的第一文本向量,计算机设备对各第一文本块进行文本向量化,得到各第一文本块对应的第二文本向量。计算设备基于第一文本向量和各第二文本向量计算资源标识信息与各第一文本块的匹配度。然后计算机设备根据资源标识信息与各第一文本块的匹配度,从多个第一文本块中筛选出匹配度较高的第二文本块,将筛选出的第二文本块作为资料文本,其中,筛选出的第二文本块的数量为第一预设数量。其中,匹配度的计算方式,具体可以是基于余弦相似度计算公式。
示例性地,计算机设备将多个第一文本块存储至具有倒排索引功能的索引工具中,如ES(ElasticSearch,弹性搜索)索引工具,计算机设备将资源标识信息输入索引工具,索引工具根据资源标识信息进行与多个第一文本块的匹配,并将各第一文本块与资源标识信息的匹配度,以及多个第一文本块与资源标识信息的匹配度排序结果发送至计算机设备。计算机设备根据匹配度排序结果,从多个第一文本块中筛选出第二文本块,将满足删除条件的第二文本块进行删除;基于删除后剩余的第二文本块,获得与目标资源相关的资料文本。
本实施例中,通过基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档,再对各文档进行切分得到多个第一文本块,然后从多个第一文本块中筛选得到资料文本,这样,对各文档进行切分,从切分得到的多个第一文本块中筛选得到资料文本,相比于直接将检索到的文档作为资料文本的方式,一方面可以极大的减小资料文本的长度;另一方面,文档中的内容并不一定全部与目标资源有关,尤其是文本长度较长的文档,这样将文档进行切分再筛选的方式,可以进一步提高资料文本的内容与目标资源的相关性。
在一个实施例中,对各文档进行切分得到多个第一文本块,包括:基于文档的文本长度,对满足切分条件的文档进行切分,并根据切分得到的文本块和未切分的文档,得到多个第一文本块。
其中,文本长度指的是文档中所含字符的数目,字符包括所有字母、数字、符号及空格等。切分条件是确定对文档是否进行切分所依据的判断标准。
可选的,计算机设备中预先存储有文本长度范围切分篇数的映射表,该映射表中包括多个文本长度范围与多个切分篇数的一一对应关系。针对各文档,确定文档的文本长度是否大于或等于第一预设长度阈值,若是,则根据文档的文本长度查询映射表,确定文档的文本长度所属的目标文本长度范围,再根据目标文本长度范围确定文档的目标切分篇数,然后将文档切分为与目标切分篇数数量匹配的文本块;若否,则不对该文档进行切分。而后将切分得到的文本块和未切分的文档作为第一文本块。
本实施例中,通过基于文档的文本长度,对满足切分条件的文档进行切分,并根据切分得到的文本块和未切分的文档,得到多个第一文本块,这样仅对满足切分条件的文档进行切分的方式,相比于对所有文档进行切分的方式,可以降低计算机设备切分文档的功耗。
在一个实施例中,从多个第一文本块中筛选得到资料文本,包括:将资源标识信息与各第一文本块进行匹配,以从多个第一文本块中筛选出第二文本块;将满足删除条件的第二文本块进行删除;基于删除后剩余的第二文本块,获得与目标资源相关的资料文本。
其中,删除条件指的是确定对第二文本是否进行删除所依据的判断标准。
在一种可能的实现方式中,计算机设备将资源标识信息与各第一文本块进行匹配,根据资源标识信息与各第一文本块的匹配度从多个第一文本块中筛选出第二文本块,再将满足删除条件的第二文本块进行删除,再基于删除后剩余的第二文本块,获得与目标资源相关的资料文本。
示例性地,计算机设备对资源标识信息进行文本向量化,得到资源标识信息对应的第一文本向量,计算机设备对各第一文本块进行文本向量化,得到各第一文本块对应的第二文本向量,然后基于第一文本向量和各第二文本向量计算资源标识信息与各第一文本块的匹配度。计算机设备根据资源标识信息与各第一文本块的匹配度,对多个第一文本块进行排序,如按照匹配度从大到小排序,得到多个第一文本块与资源标识信息的匹配度排序结果。计算机设备根据匹配度排序结果从多个第一文本块中筛选出匹配度较高的第二文本块,第二文本块的数量为第一预设数量。
再将发表来源为非预设媒体库中的对象的、非首次发布的、信息类型与目标资源的异动趋势不匹配的等第二文本块进行删除。其中,预设媒体库指的是存储有多个媒体号的数据库。
基于删除后剩余的第二文本块,获得与目标资源相关的资料文本,可以是将删除后剩余的第二文本块进行合并,得到资料文本,也可以是从删除后剩余的第二文本块中提取出第三预设数量个第三文本块,将第三预设数量个第三文本块进行合并,得到资料文本。
具体的,从删除后剩余的第二文本块中提取出第三预设文本块数量个第三文本块,可以是随机提取,也可以是按照删除后剩余的第二文本块分别与资源标识信息的匹配度,从剩余的第二文本块中筛选出第三预设文本块数量个第三文本块。
本实施例中,通过将资源标识信息与各第一文本块进行匹配,以从多个第一文本块中筛选出第二文本块,然后将满足删除条件的第二文本块进行删除,再基于删除后剩余的第二文本块,获得与目标资源相关的资料文本,这样,在第二文本块中删除满足删除条件的第二文本块,可以使剩余的第二文本块与目标资源的相关性更大,从而进一步提高了资料文本的内容与目标资源的相关性进而可以提高生成解读文本的准确性。
在一个实施例中,删除条件包括以下内容中的至少一种:
第二文本块对应的文档的非首次发布;
第二文本块对应的文档的发表时间与当前时间的间隔超过第一预设时长;
第二文本块与资源标识信息的匹配度小于或等于预设匹配度阈值;
第二文本块的类型为预设数据类型;
第二文本块的信息类型与目标资源的异动趋势不匹配,所述信息类型包括正面或负面,异动趋势包括增长或降低。
其中,非首次发布为非一手媒体号发布。
第二文本块与资源标识信息的匹配度,可以利用事件相关性模型得到,也即是将第二文本块与资源标识信息输入事件相关性模型中,可以得到事件相关性模型输出的第二文本块与资源标识信息的匹配度。其中,事件相关性模型为机器学习模型,在对事件相关性模型的训练过程中,可以是利用标识样本、文本块样本和匹配标签对事件相关性模型进行有监督训练。其中,标识样本可以是资源名称、资源代码、资源简称、资源俗称等。文本块样本可以是对新闻稿件切分后的文本块。匹配标签可以是标识和文本块的匹配度。
预设数据类型指的是不适用于作为资料文本的类型,比如为数据类型的资金类和龙虎榜类新闻。
第二文本块的信息类型与目标资源的异动趋势不匹配,指的是在目标资源的异动趋势为增长的情况下,第二文本块的信息类型为负面,目标资源的异动趋势为降低的情况下,第二文本块的信息类型为正面。其中,可以利用BERT舆情判别模型判断第二文本块的信息类型为正面还是负面。在对BERT舆情判别模型的训练过程中,可以是文本块样本和判别标签对BERT舆情判别模型进行有监督训练。其中,文本块样本可以是对新闻稿件切分后的文本块。判别标签可以是情感分析类型的标签,如正面、负面。
本实施例中,删除那些非首次发布的的第二文本块,可以保证剩余的第二文本块的内容的真实性,进而可以提高生成解读文本的准确性。
发表时间与当前时间的间隔超过第一预设时长,说明这类第二文本块的内容已过时了,并不能作为当前要输出的解读文本的参考资料,例如发表时间超过48小时的第二文本块,因此,删除这类第二文本块,可以保证剩余的第二文本块的内容为最近发生的事情,进而可以提高生成解读文本的准确性。
与资源标识信息的匹配度小于或等于预设匹配度阈值,这类第二文本块的内容与目标资源的相关性比较小,因此,删除这类第二文本块,可以降低资料文本的干扰信息,从而可以提高生成解读文本的准确性。
数据对撰写消息面解读意义较小,因此删除那些预设数据类型的第二文本块,如删除资金类和龙虎榜类等数据类型的第二文本块,可以降低资料文本的干扰信息,从而可以提高生成解读文本的准确性。
信息类型与目标资源的异动趋势不匹配,说明这类第二文本块的内容并不能作为分析目标资源异动的原因的参考资料,因此,删除这类第二文本块,可以降低资料文本的干扰信息,从而可以提高生成解读文本的准确性。
在一个实施例中,上述步骤206通过预先训练的文本生成模型对资料文本和预设提示词进行处理,得到目标资源的解读文本,包括:通过文本生成模型对资料文本进行处理,得到总结文本;通过文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本。
其中,总结文本可以认为是对资料文本进行概括总结后的文本。
通过文本生成模型对资料文本进行处理,可以是计算机设备调用文本生成模型直接对资料文本进行处理,也可以是将资料文本进行切分,再按照预设规则调用文本生成模型对切分得到的子文本进行处理。
具体的,通过文本生成模型对资料文本进行处理,得到总结文本,其实现方式有多种:
在一种可能的实现方式中,在资料文本的文本长度小于预设长度的情况下,计算机设备调用文本生成模型直接对资料文本进行处理,得到总结文本。
在另一种可能的实现方式中,在资料文本的文本长度大于或等于预设长度的情况下,对资料文本进行切分,得到多个子文本;通过文本生成模型对各子文本分别进行处理,得到多个子总结文本;通过文本生成模型对多个子总结文本进行处理,得到总结文本。
可选的,在资料文本的文本长度大于或等于预设长度的情况下,计算机设备根据资料文本的文本长度,确定资料文本的切分数量,然后将资料文本切分成与切分数量匹配的多个子文本。
计算机设备调用文本生成模型对多个子文本依次进行处理,得到多个子总结文本,计算机设备再调用文本生成模型对多个子总结文本一起进行处理,得到总结文本。
例如,如图3所示,将资料文本切分为三个子文本,为子文本1、子文本2和子文本3,计算机设备调用文本生成模型,对子文本1、子文本2和子文本3分别进行处理,得到子总结文本1、子总结文本2和子总结文本3,然后再调用文本生成模型对子总结文本1、子总结文本2和子总结文本3进行处理,得到总结文本。
本实施例中,通过文本生成模型对各子文本分别进行处理,得到多个子总结文本,再通过文本生成模型对多个子总结文本进行处理,得到总结文本,这种通过分步骤地生成子总结文本,然后基于这些子总结再生成最终的总结文本的方式,可以帮助文本生成模型更好地提炼和聚焦于最关键的信息,从而得到更准确的总结文本,且这种分步式得到总结文本的方式,相比于直接对长文本进行处理得到总结文本的方式,计算资源的消耗量更少的。
在又一种可能的实现方式中,在资料文本的文本长度大于或等于预设长度的情况下,对资料文本进行切分,得到多个子文本;根据多个子文本,得到子文本序列;通过文本生成模型对子文本序列进行处理,得到总结文本。
可选的,通过文本生成模型对子文本序列进行处理,得到总结文本,包括:针对子文本序列中的非首个子文本,计算机设备调用文本生成模型对子文本序列中的第i个子文本和第i-1个子总结文本进行处理,得到第i个子总结文本。计算机设备将调用文本生成模型对子文本序列中最后一个子文本和前一次得到的子总结文本处理得到的子总结文本作为总结文本。i为大于1的正整数。
其中,针对子文本序列中的首个子文本,计算机设备调用文本生成模型对子文本序列中的第1个子文本进行,得到第1个子总结文本。
例如,如图5所示,将资料文本切分为三个子文本,为子文本1、子文本2和子文本3,调用文本生成模型对子文本1进行处理,得到总结文本1;调用文本生成模型对子文本2和子总结文本1进行处理,得到子总结文本2;调用文本生成模型对子文本3和子总结文本2进行处理,得到子总结文本3,也即是得到总结文本。
进一步地,在得到总结文本后,计算机设备可调用文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本。
在一些实施例中,计算机设备调用文本生成模型对总结文本和预设提示词一起进行处理,也即是调用文本生成模型按照预设提示词对总结文本进行分析,得到目标资源的解读文本。
在一些实施例中,预设提示词包括多个提示词,计算机设备可根据多个提示词,得到提示词序列。针对提示词序列中的首个提示词,计算机设备调用文本生成模型对首个提示词和总结文本进行处理,得到第1个输出结果。针对提示词序列中的非首个提示词,计算机设备调用文本生成模型对提示词序列中的第i个提示词和第i-1个输出结果进行处理,得到第i个输出结果。如此,一步一步地执行,直至得到最后的输出结果,计算机设备可将最后的输出结果作为目标资源的解读文本。
本实施例中,通过文本生成模型对资料文本进行处理,得到总结文本,再通过文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本,这样分步式通过文本生成模型得到解读文本的方式,相比于直接对长文本进行处理得到解读文本的方式,可以解决长文本处理导致的解读文本质量低,模型幻觉率提升高、指令跟随能力低等问题。
在一个实施例中,通过文本生成模型对总结文本和预设提示词进行处理,得到目标资源的解读文本,包括:通过文本生成模型对总结文本和第一提示词进行处理,得到第一输出结果;通过文本生成模型对第一输出结果和第二提示词进行处理,得到第二输出结果;通过文本生成模型对第二输出结果和第三提示词进行处理,得到第三输出结果;将第二输出结果和第三输出结果,作为目标资源的解读文本。
其中,预设提示词包括第一提示词、第二提示词和第三提示词。第一提示词用于指示文本生成模型提取总结文本中的关键信息;第二提示词用于指示文本生成模型输出解读文章;第三提示词用于指示文本生成模型输出文章标题。
第一输出结果为提取的总结文本中的关键信息;第二输出结果为解读文章;第三输出结果为文章标题。
另外,第一提示词、第二提示词和第三提示词中的至少一个提示词中预先预留有第一预留字段和/或第二预留字段,第三提示词中还包括第三预留字段。第一提示词中的第一预留字段用于写入总结文本;第二提示词中的第一预留字段用于写入第一输出结果;第三提示词中的第一预留字段用于写入总结文本,第三提示词中的第三预留字段用于写入第二输出结果。第一提示词、第二提示词和第三提示词中的第二预留字段均用于写入目标资源的异动趋势。
可选的,计算机设备将总结文本和目标资源的异动趋势分别写入第一提示词的第一预留字段和第二预留字段,得到第一输入信息,调用文本生成模型对第一输入信息进行处理,得到第一输出结果。
计算机设备将第一输出结果和目标资源的异动趋势分别写入第二提示词的第一预留字段和第二预留字段,得到第二输入信息,调用文本生成模型对第二输入信息进行处理,得到第二输出结果。
计算机设备将第二输出结果和目标资源的异动趋势分别写入第三提示词的第一预留字段和第二预留字段,得到第三输入信息,调用文本生成模型对第三输入信息进行处理,得到第三输出结果。
计算机设备将第二输出结果和第三输出结果进行拼接,得到目标资源的解读文本。
需要说明的是,提示词对输出结果的影响较大,本申请中通过优化提示词的方式,来提高解读文本的准确性。
例如,提示词中选用“采用原文表述”,而非“生成总结”。在提示词中添加强制要求,如涉及观点类的内容必须带有出处,且添加“不能输出xx”等指令限制。在提示词末尾强调二次校验,即要求文本生成模型按照要求生成了对应的内容后再检查一遍是否满足每个指令要求,满足后再进行输出。在提示词中给出参考示例,如不要出现“这一消息无疑是...”这样的句式,因输入长度限制,这种可以给出轻量化的例子。
示例性地,第一提示词包括任务描述和任务要求;第二提示词包括任务描述和任务要求,且任务描述中包括第一预留字段和第二预留字段;第三提示词包括任务描述、任务要求以及格式限制,且任务描述中包括第一预留字段和第二预留字段,格式限制中包括第三预留字段。
示例,第一提示词包括如下内容:
假如你是一个CFA(Chartered Financial Analyst,特许金融分析师),请你根据已知信息,按照如下要求抽取出对应的正文内容:
【要求1】公司基本面因素,即分析该公司的财务报表、盈利能力、成长性、偿债能力等基本面指标,以了解……。
【要求2】从行业因素,即关注所属行业的政策变化、市场需求、竞争格局等因素,以判断……。
【要求3】从技术面因素,即通过技术分析方法,如K线图、均线系统、成交量等技术指标,例如观察MACD(Moving Average Convergence Divergence,平滑异同移动平均线)、RSI(Relative Strength Index,相对强弱指数)……。示例,第二提示词包括如下内容:
假如你是一个证券APP(Application,应用程序)的内容编辑,你现在要写关于“{第一预留字段}”这个股票股价“{第二预留字段}”原因的解读文章,现在你已知的是下述几个信息。按照如下要求写出一篇稿件,如果按照下述要求写不出文章,则输出"无法写出文章",否则输出写好的文章内容即可:
【要求1】形成一篇可直接展示给用户阅读的文章,要求全文通顺、流畅。
【要求2】全文需要包含两个部分,“消息解读”部分和“机构分析”部分。
【要求3】“消息解读”部分的要求为:XXX。
【要求4】“机构分析”部分的要求为:XXX。
示例,第三提示词包括如下内容:
假如你是一个资深的内容编辑,请按照3个要求给下述“{第一预留字段}”这个股票股价“{第二预留字段}”的异动分析的文章内容生成一个标题。
【要求1】标题中要包含A和B两部分信息。
【要求2】标题中的A部分要参考文章第一段。
【要求3】标题中的B部分要选用解读文章中的原话。
以下为文章内容:“{第三预留字段}”。
最后,生成的标题的总字符数不能超过20个中文字符,且标题中只能输出格式如下:
标题:XXXX。
本实施例中,进一步实现了分布式通过文本生成模型得到解读文本的方式,相对于直接对长文本进行处理得到解读文本的方式,可以解决长文本处理导致的解读文本质量低,模型幻觉率提升高、指令跟随能力低等问题,使得文本生成模型能够输出高质量的解读文本。
在一个实施例中,校验处理包括以下内容中的至少一种:
基于解读文本中的时间信息,删除解读文本中产生时间与当前时间的间隔超过第二预设时长的历史信息;
对解读文本进行实体识别,删除解读文本中与目标资源无关的非标的信息;
对解读文本进行格式检测,删除解读文本中的异常标点符号;
对解读文本进行语句完整性检测,删除解读文本中的断句;
对解读文本进行敏感词检测,删除解读文本中包括敏感词的语句。
其中,基于解读文本中的时间信息,删除解读文本中产生时间与当前时间的间隔超过第二预设时长的历史信息,具体可以是,计算机设备获取解读文本中包含时间信息的语句,根据该时间信息判断产生时间与当前时间的间隔是否超过第二预设时长,例如,是否超过2个月,若是,则删除该语句;若否,则保留该语句。
对解读文本进行实体识别,删除解读文本中与目标资源无关的非标的信息,具体可以是,计算机设备利用实体识别插件,对解读文本进行实体识别,计算机设备根据实体识别结果,删除解读文本中包括其他实体的语句。例如,目标资源时A股,解读文本中有描述C股的语句,则删除描述C股的语句。
对解读文本进行格式检测,删除解读文本中的异常标点符号,具体可以是,计算机设备利用标点符号检测工具,对解读文本进行格式检测,删除解读文本中的异常标点符号。例如,删除多余的句号、引号等标点符号。
对解读文本进行语句完整性检测,删除解读文本中的断句,具体可以是,计算机设备将解读文本输入文本完整性判别模型中,得到文本完整性判别模型输出的断句,从解读文本中删除与断句匹配的语句。例如,删除“今天天气真”。其中,断句是不完整的句子。
对解读文本进行敏感词检测,删除解读文本中包括敏感词的语句,具体可以是,计算机设备基于敏感词词典对解读文本进行敏感词检测,删除解读文本中包括敏感词的语句。例如,删除“这一消息导致股价上涨”。
本实施例中,对解读文本进行上述校验处理后得到的目标解读文本,更加符合人类自然语言,可读性强。
在一个实施例中,如图5所示,提供了一种训练预训练模型的原理示意图,所述方法还包括:获取种子指令,并对种子指令进行扩充,得到多个指令跟随样本;获取资料文本样本;根据资料文本样本与多个指令跟随样本,对预训练模型进行训练,在达到训练停止条件时停止训练,得到训练完成的文本生成模型。
其中,种子指令指的是初始指令,包括基本指令元素。指令跟随样本指的是用于指示模型按照要求进行输出的指令,也即是提示词样本。
指令跟随样本存储在指令集中,指令跟随样本可以分为多种类型,如任务描述类型、任务要求类型、格式限制类型和输入信息类型。指令集包括多个子集,如任务集、要求集、格式集、信息集,每种类型的指令跟随样本存储在对应类型的子集中。任务描述类型对应任务集、任务要求类型对应要求集,格式限制类型对应格式集,输入信息类型对应信息集。任务集中包括有多个任务描述内容,如根据“XX”写标题、根据下述内容写标题。要求集中包括多个要求,如要求1、要求2、要求3、要求n;格式集中包括多个格式限制,如“输出:标题:XX”、“输出:XX”;信息集中包括多个输入信息,如真实信息、空白(即在训练过程中不输入输入信息类型的信息)。
预训练模型可以选用Fin-LLM或LLM。训练停止条件指的是在模型训练过程中设定的规则,当达到这些条件时,模型训练会被终止,例如,训练停止条件可以是训练时长达到预设训练时长,也可以是模型的损失值小于预设损失值。
可选的,结合预训练模型的使用场景,从种子指令库中确定与使用场景匹配的种子指令,再对种子指令进行衍生扩充,以得到多个指令跟随样本,其中,对种子指令进行衍生扩充,可以是利用指令扩充模型来进行衍生扩充,如将种子指令输入至指令扩充模型中,得到指令扩充模型输出的多个指令跟随样本。
资料文本样本可以是通过模型生成,如通过GPT4生成,具体实现方式可以是,计算机设备向模型发送文本生成指令,例如“生成与股票相关的资料文本”,得到模型输出的资料文本样本。资料文本样本也可以是从资源数据库中等方式获取得到。
在对预训练模型进行每轮训练过程中,将资料文本样本和从指令集中随机搜到的指令跟随样本输入至预训练模型,得到预训练模型输出的输出结果,将输出结果存储在结果集中,对结果集中的输出结果进行后处理,也即是进行过滤和修正,将后处理的输出结果作为新的训练样本训练预训练模型,实现对预训练模型的微调,以提高文本生成模型的准确性。
另外,还可以在微调中加入诚实样本,如“我不知道”、增加正确回答范式的训练样本以强化预训练模型对映射关系的理解和推理。还可以采用PPO(Proximal PolicyOptimization,近端策略优化)或DPO(Distributed Proximal Policy Optimization,分布式近端策略优化)的训练方式降低预训练模型生成“差”答案的概率。
本申请的文本生成方法可以应用于资源客户端,如股票APP,计算机设备在检测到个股异动时,获取该个股的股票代码,对股票代码进行名称扩展,基于扩展后的信息进行检索,得到与个股异动相关的资料文本,再基于预设提示词和资料文本生成个股异动的解读文本,并对该解读文本进行校验处理,得到目标解读文本,然后发布该目标解读文本,发布的目标解读文本如图6所示,包括文章标题、消息解读字样,以及解读文章,其中,解读文章在图6中以“这是内容”代替。
在一个实施例中,提供了一种文本生成方法,如图7所示,该文本生成方法为实现本申请最详细的步骤:
步骤701,监测目标资源,在目标资源的变化满足预设异动条件的情况下,获取目标资源的资源代码,对资源代码进行实体识别,根据识别结果进行名称扩展,得到目标资源的资源标识信息。
步骤702,基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档,基于文档的文本长度,对满足切分条件的文档进行切分,并根据切分得到的文本块和未切分的文档,得到多个第一文本块。
步骤703,将资源标识信息与各第一文本块进行匹配,以从多个第一文本块中筛选出第二文本块。
步骤704,将满足删除条件的第二文本块进行删除,基于删除后剩余的第二文本块,获得与目标资源相关的资料文本。
删除条件包括以下内容中的至少一种:
第二文本块对应的文档的非首次发布;
第二文本块对应的文档的发表时间与当前时间的间隔超过第一预设时长;
第二文本块与所述资源标识信息的匹配度小于或等于预设匹配度阈值;
第二文本块的类型为预设数据类型;
第二文本块的信息类型与所述目标资源的异动趋势不匹配,所述信息类型包括正面或负面,所述异动趋势包括增长或降低。
步骤705,在资料文本的文本长度大于或等于预设长度的情况下,对资料文本进行切分,得到多个子文本;通过文本生成模型对各子文本分别进行处理,得到多个子总结文本;通过文本生成模型对多个子总结文本进行处理,得到总结文本。
步骤706,通过文本生成模型对总结文本和第一提示词进行处理,得到第一输出结果;通过文本生成模型对第一输出结果和第二提示词进行处理,得到第二输出结果;通过文本生成模型对第二输出结果和第三提示词进行处理,得到第三输出结果;将第二输出结果和第三输出结果,作为目标资源的解读文本。
其中,第一提示词用于指示文本生成模型提取总结文本中的关键信息;第二提示词用于指示文本生成模型输出解读文章;第三提示词用于指示文本生成模型输出文章标题。
步骤707,对解读文本进行校验,输出符合资源解读要求的目标解读文本。
校验处理包括以下内容中的至少一种:
基于解读文本中的时间信息,删除解读文本中产生时间与当前时间的间隔超过第二预设时长的历史信息;
对解读文本进行实体识别,删除解读文本中与所述目标资源无关的非标的信息;
对解读文本进行格式检测,删除解读文本中的异常标点符号;
对解读文本进行语句完整性检测,删除解读文本中的断句;
对解读文本进行敏感词检测,删除解读文本中包括敏感词的语句。
另外,对文本生成模型的训练过程包括:获取种子指令,并对种子指令进行扩充,得到多个指令跟随样本;获取资料文本样本;根据资料文本样本与指令跟随样本,对预训练模型进行训练,在达到训练停止条件时停止训练,得到训练完成的文本生成模型。
在一个场景实施例中,参考图8所示,用户将包括异动股票代码的问题输入至计算机设备进行查询,如“A股涨”。计算机设备对该问题进行实体识别,根据识别结果进行名称扩展,得到资源标识信息,如股票名称,股票代码,股票简称,股票俗称,实现了问题的扩展,也即是进行检索前优化。
计算机设备基于扩展的问题,从资源数据库中进行检索,得到多个相关的文档,对各文档进行切分得到多个第一文本块,将第一文本块存储至ES索引,利用ES索引,从ES索引召回多个第二文本块。然后将非首次发布的、发表时间与当前时间的间隔超过第一预设时长的、与资源标识信息的匹配度小于或等于预设匹配度阈值的、类型为预设数据类型的、信息类型与目标资源的异动趋势不匹配的第二文本块进行删除。基于删除后剩余的第二文本块与扩展的问题的匹配度,对剩余的第二文本块进行重排序,基于排序结果从剩余的第二文本块中获得资料文本,也即是进行检索后优化。
上述从检索前优化到检索后优化的过程为RAG检索增强过程。
然后计算机设备将资料文本、预设提示词以及问题输入至文本生成模型中,得到文本生成模型输出的解读文本。
计算机设备在执行完RAG检索增强后,将资料文本、预设提示词以及问题输入至文本生成模型中,得到文本生成模型输出的解读文本,其具体实现过程,参考图9所示,生成解读文本主要需要三步。计算机设备通过语言链LangChain调用文本生成模型,将资料文本、第一提示词和问题输入至文本生成模型,或者是将资料文本输入文本生成模型,得到文本生成模型输出的总结文本,再将总结文本、第一提示词和问题输入至文本生成模型,得到文本生成模型输出的第一输出结果,实现生成解读文本过程中的第一步;再将第一输出结果和第二提示词输入至文本生成模型,得到文本生成模型输出的第二输出结果,实现生成解读文本过程中的第二步;再将第二输出结果和第三提示词输入至文本生成模型,得到文本生成模型输出的第三输出结果,实现生成解读文本过程中的第三步。而后计算机设备将第二输出结果和第三输出结果作为解读文本输出。
本实施例中通过RAG检索增强,使得资料文本具备实时发生的内容,从而使得基于资料文本生成的解读文本更准确。
而且,本申请解读文本生成过程与人工输出解读文本的过程紧密结合,如针对个股异动的解读文本生成,人工输出个股异动的解读文本的过程参考图10所示,在收到个股异动的触发信号时,在资讯库里进行近期相关新闻检索,检索时会考虑新闻时效,例如只看近48h的新闻,还会考虑新闻来源,如只看重要媒体清单中的媒体发布的新闻,然后进行消息提炼,再将提炼的消息修饰成文,并在成文中添加辅助判断的资金、行情等信息,最终写稿成文并发布。而本申请的解读文本生成过程也是会先检索得到资料文本,再基于资料文本按照提示词要求输出解读文本,并且在检索的过程中也会考虑文档的发表时间、以及文档的来源。因此,本申请解读文本生成过程与人工输出解读文本的过程逻辑相同,进而输出的解读文本也符合解读要求。
此外,本申请还适用于其他场景,如基金的涨跌分析、电子优惠券的市场行情分析等等。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本生成方法的文本生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本生成装置实施例中的具体限定可以参见上文中对于文本生成方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种文本生成装置,文本生成装置1100包括:获取模块1101、检索模块1102、生成模块1103和校验模块1104,其中:
获取模块1101,用于获取目标资源的资源标识信息;
检索模块1102,用于基于资源标识信息进行检索,得到与目标资源相关的资料文本;
生成模块1103,用于通过预先训练的文本生成模型对资料文本和预设提示词进行处理,得到目标资源的解读文本;
校验模块1104,用于对解读文本进行校验,输出符合资源解读要求的目标解读文本。
在一个实施例中,获取模块1101,具体用于监测目标资源,在目标资源的变化满足预设异动条件的情况下,获取目标资源的资源标识信息。
在一个实施例中,获取模块1101,具体用于接收目标资源的资源代码;对资源代码进行实体识别,根据识别结果进行名称扩展,得到目标资源的资源标识信息。
在一个实施例中,检索模块1102,具体用于基于资源标识信息从资源数据库中进行检索,得到多个与目标资源相关的文档;对各文档进行切分得到多个第一文本块;从多个第一文本块中筛选得到资料文本。
在一个实施例中,检索模块1102,具体用于基于文档的文本长度,对满足切分条件的文档进行切分,并根据切分得到的文本块和未切分的文档,得到多个第一文本块。
在一个实施例中,检索模块1102,具体用于从多个第一文本块中筛选得到资料文本,包括:将资源标识信息与各第一文本块进行匹配,以从多个第一文本块中筛选出第二文本块;将满足删除条件的第二文本块进行删除;基于删除后剩余的第二文本块,获得与目标资源相关的资料文本。
在一个实施例中,删除条件包括以下内容中的至少一种:
第二文本块对应的文档的非首次发布;
第二文本块对应的文档的发表时间与当前时间的间隔超过第一预设时长;
第二文本块与资源标识信息的匹配度小于或等于预设匹配度阈值;
第二文本块的类型为预设数据类型;
第二文本块的信息类型与目标资源的异动趋势不匹配,信息类型包括正面或负面,异动趋势包括增长或降低。
在一个实施例中,生成模块1103,具体用于通过文本生成模型对资料文本进行处理,通过总结文本;通过文本生成模型对总结文本和预设提示词进行处理,得到解读文本。
在一个实施例中,生成模块1103,具体用于在资料文本的文本长度大于或等于预设长度的情况下,对资料文本进行切分,得到多个子文本;通过文本生成模型对各子文本分别进行处理,得到多个子总结文本;通过文本生成模型对多个子总结文本进行处理,得到总结文本。
在一个实施例中,生成模块1103,具体用于通过文本生成模型对总结文本和第一提示词进行处理,得到第一输出结果;第一提示词用于指示文本生成模型提取总结文本中的关键信息;通过文本生成模型对第一输出结果和第二提示词进行处理,得到第二输出结果;第二提示词用于指示文本生成模型输出解读文章;通过文本生成模型对第二输出结果和第三提示词进行处理,得到第三输出结果;第三提示词用于指示文本生成模型输出文章标题;将第二输出结果和第三输出结果,作为目标资源的解读文本。
在一个实施例中,校验处理包括以下内容中的至少一种:
基于解读文本中的时间信息,删除解读文本中产生时间与当前时间的间隔超过第二预设时长的历史信息;
对解读文本进行实体识别,删除解读文本中与目标资源无关的非标的信息;
对解读文本进行格式检测,删除解读文本中的异常标点符号;
对解读文本进行语句完整性检测,删除解读文本中的断句;
对解读文本进行敏感词检测,删除解读文本中包括敏感词的语句。
在一个实施例中,所述装置还包括训练模块,用于获取种子指令,并对种子指令进行扩充,得到多个指令跟随样本;获取资料文本样本;根据资料文本样本与指令跟随样本,对预训练模型进行训练,在达到训练停止条件时停止训练,得到训练完成的文本生成模型。
上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本生成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述文本生成方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本生成方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文本生成方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (16)
1.一种文本生成方法,其特征在于,所述方法包括:
获取目标资源的资源标识信息;
基于所述资源标识信息进行检索,得到与所述目标资源相关的资料文本;
通过预先训练的文本生成模型对所述资料文本和预设提示词进行处理,得到所述目标资源的解读文本;
对所述解读文本进行校验,输出符合资源解读要求的目标解读文本。
2.根据权利要求1所述的方法,其特征在于,所述获取目标资源的资源标识信息,包括:
监测目标资源,在所述目标资源的变化满足预设异动条件的情况下,获取所述目标资源的资源标识信息。
3.根据权利要求1所述的方法,其特征在于,所述获取目标资源的资源标识信息,包括:
接收目标资源的资源代码;
对所述资源代码进行实体识别,根据识别结果进行名称扩展,得到所述目标资源的资源标识信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述资源标识信息进行检索,得到与所述目标资源相关的资料文本,包括:
基于所述资源标识信息从资源数据库中进行检索,得到多个与所述目标资源相关的文档;
对各所述文档进行切分得到多个第一文本块;
从多个所述第一文本块中筛选得到资料文本。
5.根据权利要求4所述的方法,其特征在于,所述对各所述文档进行切分得到多个第一文本块,包括:
基于所述文档的文本长度,对满足切分条件的文档进行切分,并根据切分得到的文本块和未切分的文档,得到多个第一文本块。
6.根据权利要求4所述的方法,其特征在于,所述从多个所述第一文本块中筛选得到资料文本,包括:
将所述资源标识信息与各所述第一文本块进行匹配,以从多个所述第一文本块中筛选出第二文本块;
将满足删除条件的第二文本块进行删除;
基于删除后剩余的第二文本块,获得与所述目标资源相关的资料文本。
7.根据权利要求6所述的方法,其特征在于,所述删除条件包括以下内容中的至少一种:
第二文本块对应的文档的非首次发布;
第二文本块对应的文档的发表时间与当前时间的间隔超过第一预设时长;
第二文本块与所述资源标识信息的匹配度小于或等于预设匹配度阈值;
第二文本块的类型为预设数据类型;
第二文本块的信息类型与所述目标资源的异动趋势不匹配,所述信息类型包括正面或负面,所述异动趋势包括增长或降低。
8.根据权利要求1所述的方法,其特征在于,所述通过预先训练的文本生成模型对所述资料文本和预设提示词进行处理,得到所述目标资源的解读文本,包括:
通过所述文本生成模型对所述资料文本进行处理,得到总结文本;
通过所述文本生成模型对所述总结文本和预设提示词进行处理,得到所述目标资源的解读文本。
9.根据权利要求8所述的方法,其特征在于,所述通过所述文本生成模型对所述资料文本进行处理,得到总结文本,包括:
在所述资料文本的文本长度大于或等于预设长度的情况下,对所述资料文本进行切分,得到多个子文本;
通过所述文本生成模型对各子文本分别进行处理,得到多个子总结文本;
通过所述文本生成模型对多个所述子总结文本进行处理,得到所述总结文本。
10.根据权利要求8所述的方法,其特征在于,所述通过所述文本生成模型对所述总结文本和预设提示词进行处理,得到所述目标资源的解读文本,包括:
通过所述文本生成模型对所述总结文本和第一提示词进行处理,得到第一输出结果;所述第一提示词用于指示所述文本生成模型提取所述总结文本中的关键信息;
通过所述文本生成模型对所述第一输出结果和第二提示词进行处理,得到第二输出结果;所述第二提示词用于指示所述文本生成模型输出解读文章;
通过所述文本生成模型对所述第二输出结果和第三提示词进行处理,得到第三输出结果;所述第三提示词用于指示所述文本生成模型输出文章标题;
将所述第二输出结果和所述第三输出结果,作为所述目标资源的解读文本。
11.根据权利要求1所述的方法,其特征在于,所述校验处理包括以下内容中的至少一种:
基于所述解读文本中的时间信息,删除所述解读文本中产生时间与当前时间的间隔超过第二预设时长的历史信息;
对所述解读文本进行实体识别,删除所述解读文本中与所述目标资源无关的非标的信息;
对所述解读文本进行格式检测,删除所述解读文本中的异常标点符号;
对所述解读文本进行语句完整性检测,删除所述解读文本中的断句;
对所述解读文本进行敏感词检测,删除所述解读文本中包括敏感词的语句。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述方法还包括:
获取种子指令,并对所述种子指令进行扩充,得到多个指令跟随样本;
获取资料文本样本;
根据所述资料文本样本与所述指令跟随样本,对预训练模型进行训练,在达到训练停止条件时停止训练,得到训练完成的文本生成模型。
13.一种文本生成装置,其特征在于,所述装置包括:
获取模块,用于获取目标资源的资源标识信息;
检索模块,用于基于所述资源标识信息进行检索,得到与所述目标资源相关的资料文本;
生成模块,用于通过预先训练的文本生成模型对所述资料文本和预设提示词进行处理,得到所述目标资源的解读文本;
校验模块,用于对所述解读文本进行校验,输出符合资源解读要求的目标解读文本。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410781507.9A CN118520854A (zh) | 2024-06-17 | 2024-06-17 | 文本生成方法、装置、计算机设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410781507.9A CN118520854A (zh) | 2024-06-17 | 2024-06-17 | 文本生成方法、装置、计算机设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118520854A true CN118520854A (zh) | 2024-08-20 |
Family
ID=92279572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410781507.9A Pending CN118520854A (zh) | 2024-06-17 | 2024-06-17 | 文本生成方法、装置、计算机设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118520854A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118897894A (zh) * | 2024-10-09 | 2024-11-05 | 中国科学技术信息研究所 | 一种科技领域网络热点话题发现的方法 |
CN119848555A (zh) * | 2025-03-20 | 2025-04-18 | 苏州元脑智能科技有限公司 | 大模型数据标注方法、装置、设备、介质及产品 |
-
2024
- 2024-06-17 CN CN202410781507.9A patent/CN118520854A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118897894A (zh) * | 2024-10-09 | 2024-11-05 | 中国科学技术信息研究所 | 一种科技领域网络热点话题发现的方法 |
CN118897894B (zh) * | 2024-10-09 | 2025-01-24 | 中国科学技术信息研究所 | 一种科技领域网络热点话题发现的方法 |
CN119848555A (zh) * | 2025-03-20 | 2025-04-18 | 苏州元脑智能科技有限公司 | 大模型数据标注方法、装置、设备、介质及产品 |
CN119848555B (zh) * | 2025-03-20 | 2025-06-27 | 苏州元脑智能科技有限公司 | 大模型数据标注方法、装置、设备、介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US9449271B2 (en) | Classifying resources using a deep network | |
US8972408B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a social sphere | |
US20220156175A1 (en) | Mapping of test cases to test data for computer software testing | |
CN118132719A (zh) | 一种基于自然语言处理的智能对话方法及系统 | |
CN118520854A (zh) | 文本生成方法、装置、计算机设备、存储介质和程序产品 | |
CN113704393B (zh) | 关键词提取方法、装置、设备及介质 | |
US20240311563A1 (en) | Enriching language model input with contextual data | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
KR20200041199A (ko) | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 | |
CN118377881A (zh) | 智能问答方法、系统、装置、计算机设备和可读存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN113761125B (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN118886519A (zh) | 模型训练方法、数据处理方法、电子设备及存储介质 | |
CN116821372A (zh) | 基于知识图谱的数据处理方法、装置、电子设备及介质 | |
CN114942981B (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN119903159A (zh) | 一种基于人工智能的知识问答快速处理系统 | |
US20250094929A1 (en) | Job ontology generation and maintaining system and method | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
CN118468863A (zh) | 标题生成方法以及装置 | |
Tian et al. | Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge | |
CN117217858A (zh) | 基于人工智能的物品推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |