CN114175041A

CN114175041A - 控制方法、控制程序以及信息处理装置

Info

Publication number: CN114175041A
Application number: CN201980098343.7A
Authority: CN
Inventors: 片冈正弘; 尾上聪; 酒井彬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2022-03-11
Also published as: JP7173351B2; WO2021019789A1; JPWO2021019789A1; US20220114347A1; AU2019459693B2; US12175203B2; EP4009217A1; AU2019459693A1; EP4009217A4

Abstract

信息处理装置获取将与单词以及单词的语义的组的出现频率对应的长度的代码与单词以及语义的组建立对应关系的压缩词典。信息处理装置通过压缩词典，获取任意一个单词以及任意一个单词的语义的组、和与任意一个单词以及任意一个单词的语义的组建立对应关系的代码。信息处理装置参照分别将同一长度的多个定长码与单词以及语义的组建立对应关系并存储的存储部，确定多个定长码中与获取的任意一个单词以及任意一个单词的语义的组建立了对应关系的定长码。信息处理装置生成将确定出的定长码与获取的代码建立对应关系的转换词典。信息处理装置基于转换词典，确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码。

Description

控制方法、控制程序以及信息处理装置

技术领域

本发明涉及控制方法、控制程序以及信息处理装置。

背景技术

近年来，利用应用了神经网络的翻译技术。具体而言，对输入的文本进行编码，并进行分割为具有意义的单位的单词的词素解析，并使用CBOW(Continuous Bag－of－Words：连续词袋)模型等生成各单词的向量。然后，使用RNN(Recurrent Neural Network：递归神经网络)等神经网络，执行各单词的向量的求和运算，并基于运算结果执行翻译。

专利文献1：日本特开2006－048685号公报

专利文献2：日本特开2018－068752号公报

非专利文献1：Piotr Bojanowski，Edouard Grave，Armand Joulin，and TomasMikolovr，“EnrichingWord Vectors with Subword Information”，arXiv preprintarXiv：1607.04606，2016

非专利文献2：Armand Joulin，Edouard Grave，Piotr Bojanowski，and TomasMikolov，“Bag of Tricks for Efficient Text Classification”，arXiv preprintarXiv：1607.01759，2016

然而，在上述技术中，通过CPU(Central Processing Unit：中央处理器)和GPU(Graphics Processing Unit：图形处理器)分担处理，从而实现高速化，但由于反复执行与复合词、各单词的词形变化对应的向量转换，所以结果而言处理速度降低。

例如，通过由CPU执行到向量生成为止的处理，并由GPU执行获取向量并执行运算的处理，来使处理分担。然而，在对利用ZIP(注册商标)进行了压缩的文本进行解压，并进行了词法解析(词素解析)的文本存在许多复合词、词形变化的情况下，与基本形的单词不同的向量转换多发，所以GPU从CPU获取向量的时间长时间化，而产生处理速度的降低。另一方面，也有对由“cool”等的多义词、“take out”等停用词(Stop word)构成的惯用句的向量分配的最佳化、高速化残留的问题。

发明内容

在一个侧面，目的在于提供能够使向量生成、机械学习的处理速度、精度提高的控制方法、控制程序以及信息处理装置。

在第一方案中，控制方法使计算机执行获取将与单词以及上述单词的语义的组的出现频率对应的长度的代码与上述单词以及上述语义的组建立对应关系的压缩词典的处理。控制方法使计算机执行通过上述压缩词典，获取任意一个单词以及上述任意一个单词的语义的组、和与上述任意一个单词以及上述任意一个单词的语义的组建立对应关系的代码的处理。控制方法使计算机执行参照分别将同一长度的多个定长码与单词以及语义的组建立对应关系并存储的存储部，确定上述多个定长码中与获取的上述任意一个单词以及上述任意一个单词的语义的组建立了对应关系的定长码的处理。控制方法使计算机执行生成将确定出的上述定长码与获取的上述代码建立对应关系的转换词典，并基于上述转换词典，确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码的处理。

根据一实施方式，能够使向量生成、机械学习的处理速度、精度提高。

附图说明

图1是说明实施例1所涉及的信息处理装置的图。

图2是表示实施例1所涉及的信息处理装置的功能构成的功能框图。

图3是说明静态词典以及动态词典的图。

图4是说明NNC与向量数据的对应关系的图。

图5是说明多义词的静态编码和动态编码的图。

图6是说明惯用句的静态编码和动态编码的图。

图7是说明根据多义词、惯用句的动态码生成NNC的图。

图8是说明根据词形变化的动态码生成NNC的图。

图9是说明实施例1的学习例的图。

图10是表示处理的流程的流程图。

图11是说明处理的高速化的图。

图12是说明将相关技术应用于碱基序列时的问题点的图。

图13A是用于说明确定基因组所包含的蛋白质的处理的图。

图13B是说明使产生了突变的碱基序列数据的评价高速化的例子的图。

图13C是说明实施例2所涉及的处理的图。

图14是说明实施例2的学习例的图。

图15是说明应用于数据库时的问题点的图。

图16是说明实施例3所涉及的应用于数据库的应用例的图。

图17是表示信息处理装置的硬件构成的图。

图18是表示在计算机进行动作的程序的构成例的图。

图19是表示实施方式的系统中的装置的构成例的图。

具体实施方式

以下，基于附图对本发明所涉及的控制方法、控制程序以及信息处理装置的实施例进行详细说明。此外，并不通过该实施例限定该发明。另外，各实施例能够在不矛盾的范围内适当地组合。

实施例1

[信息处理装置10的说明]

图1是说明实施例1所涉及的信息处理装置10的图。如图1所示，信息处理装置10是根据文本数据预测翻译结果的机械学习模型的计算机的一个例子。例如，信息处理装置10将设定了“向日语文本的翻译”作为目的变量的英文的文本数据作为学习数据，生成特征量，并基于该特征量使用机械学习模型进行机械翻译。

这里，信息处理装置10将分配给文本数据所包含的各单词的压缩码一览、神经网络代码(NNC)表格、以及向量表格建立对应关系。

压缩码一览是包含静态地设定给出现频率较高的高频单词的压缩码亦即静态代码(静态码)、和出现频率较低，且按照出现顺序动态地分配的压缩码亦即动态代码(动态码)的可变长度的信息。例如，静态代码是预先分配给go、take等单词的基本形的代码，动态代码是分配给goes、takes等单词的词形变化、cool等多义词、take off等惯用句的代码。

NNC表格是为了使运算处理高效化，而设定为能够由GPU(Graphics ProcessingUnit：图形处理器)高速地读出的固定长(例如32位(4字节))的代码的一览。向量表格是包含在机械学习模型的学习时成为输入数据的向量数据的各向量值的信息。另外，向量数据是与各NNC建立对应关系的200维的向量值。

在这样的状态下，信息处理装置10若输入作为学习数据的文本数据，则根据压缩码一览，对文本数据内的各单词分配静态代码或者动态代码，生成压缩文件。接着，信息处理装置10基于压缩码一览与NNC表格的对应关系，将压缩文件内的各压缩码转换为NNC，之后根据NNC表格与向量表格的对应关系，将各NNC转换为向量值。

这样一来，信息处理装置10将文本数据转换为向量值并执行机械学习模型的学习。因此，信息处理装置10能够削减在使用一般的压缩文件时重复的压缩码的读入、解压、词素解析、基于散列函数的地址运算等，能够实现大幅度的高速化，能够使处理速度提高。

[功能构成]

图2是表示实施例1所涉及的信息处理装置10的功能构成的功能框图。如图2所示，信息处理装置10具有通信部11、存储部12、以及控制部20。

通信部11是控制与其它的装置之间的通信的处理部，例如是通信接口等。例如，通信部11从管理者等的用户终端接收学习开始或者学习结束的指示、学习数据、预测对象的数据等，并将学习结果、预测结果等发送给用户终端。

存储部12是存储各种数据、控制部20执行的程序等的存储装置的一个例子，例如是存储器或者硬盘等。该存储部12存储文本数据13、静态词典14、动态词典15、NNC表格16、以及向量表格17。

文本数据13是利用于翻译模型的学习的学习数据。例如，文本数据13是设定了“向日语文本的翻译”作为目的变量的英文的文本数据。

静态词典14是存储出现频率较高的单词、和预先分配给该单词的压缩码的对应关系的数据库等。动态词典15存储未登记于静态词典14的出现频率较低的单词且为在编码对象的文本数据中出现的单词与分配给该单词的压缩码的对应关系的数据库。此外，能够使用未图示的缓存部等，对多义词、惯用句等单词管理分配给动态词典15的代码与该单词的语义的对应关系，例如能够采用日本特开2019－12468号公报等技术。

图3是说明静态词典14以及动态词典15的图。图3所示的词典是合并了静态词典14以及动态词典15的词典，压缩码与位图型倒排索引的Y轴一对一地建立对应关系。图3所示的横轴的“0＊h”～“6＊h”、“7＊＊＊h”～“9＊＊＊h”与静态词典14对应，“A＊＊＊h”～“E＊＊＊h”、以及“F＊＊＊＊＊h”与动态词典15对应。

图3的上部的横向的项目以0～F的16进制表示最初的16进制数，“＊”表示后续的16进制数。例如，“1＊h”表示“10h”～“1Fh”。“7＊＊＊h”以16进制表示“7000h”～“7FFFh”。“F＊＊＊＊＊h”以16进制表示“F00000h”～“FFFFFFh”。

“0＊h”、“6＊h”的代码是1字节的代码。“0＊h”、“1＊h”的代码与共用的控制代码建立对应关系。另外，“2＊h”～“3＊h”的代码预先与英语的在高频地出现的单词中频率也特别高的超高频单词建立对应关系，“4＊h”～“5＊h”的代码预先与日语的在高频地出现的单词中频率也特别高的超高频单词建立对应关系，“6＊h”的代码预先与数值的在高频地出现的单词中频率也特别高的超高频单词建立对应关系。

另外，“7＊＊＊h”～“E＊＊＊h”的代码是2字节的代码。“7＊＊＊h”的代码预先与英语的高频地出现的单词建立对应关系，“8＊＊＊h”的代码预先与日语的高频地出现的单词建立对应关系，“9＊＊＊h”的代码预先与数值、第三国语言的高频地出现的单词建立对应关系。对于“A＊＊＊h”～“E＊＊＊h”的代码，在低频率单词出现时动态地分配代码。此外，“F＊＊＊＊＊h”为了应对代码的不足，而为3字节的代码。

NNC表格16是将4字节(32位)的同一长度的固定长度的NNC与1/2/3字节的可变长度的压缩码建立对应关系的信息。例如，NNC表格16静态地将存储于静态词典14的静态代码与NNC建立对应关系。另外，NNC表格16对于新登记于动态词典15的单词，将NNC与给予该单词的动态代码新建立对应关系。此外，对于各静态代码与NNC的对应关系来说，能够通过预先生成静态转换表格等，而管理静态的对应关系。

向量表格17是将定长码的NNC与向量数据的200维的向量值建立对应关系的信息。例如，向量表格17为了生成用于模型学习的向量，将NNC与向量数据一对一地建立对应关系。通过该向量表格17，能够根据与文本数据内的单词对应的NNC，确定进行机械学习的向量数据。

图4是说明NNC与向量数据的对应关系的图。如图4所示，能够使用NNC表格16的起始代码和向量表格17的起始地址，通过相对地址、绝对地址，将NNC与向量数据建立对应关系。例如，在相对地址的情况下，根据NNC的相对代码×800字节，确定向量表格17内的位置并建立对应关系。另外，在绝对地址的情况下，根据向量表格17的起始地址+相对地址，或者，绝对代码－起始代码，确定向量表格17内的位置并建立对应关系。

控制部20是管理信息处理装置10整体的处理部，例如是处理器等。例如，控制部20具有编码部21、转换部22、向量化部23、以及学习部24。此外，编码部21、转换部22、向量化部23、学习部24是处理器具有的电子电路的一个例子或者是处理器执行的工序的一个例子。

编码部21是对文本数据13进行编码的处理部。具体而言，编码部21使用词素解析等方法将文本数据13分割为单词，并对各单词进行编码。例如，编码部21在单词登记于静态词典14的情况下，转换为在静态词典14设定的相应的静态代码。

另外，编码部21在单词未登记于静态词典14的情况下，判定是否参照动态词典15进行了登记。而且，在单词已经登记于动态词典15的情况下，编码部21转换为在动态词典15设定的相应的动态代码。另一方面，在单词并未已经登记于动态词典15的情况下，编码部21新登记于动态词典15并分配动态代码，之后转换为该动态代码。

图5是说明多义词的静态编码和动态编码图。这里，以作为多义词的“cool”为例进行说明。如图5所示，编码部21将以“冷”的意思使用的单词“cool”作为基本形识别为“cool(1)”。而且，编码部21对于与“cool(1)”对应的单词“cool”，由于在静态词典14中分配静态代码“712Ah”，所以在散列过滤器中将朝向“cool”的指针(Pointer)与“cool”的静态代码“712Ah”建立对应关系并储存。

另外，编码部21将以“酷”的意思使用的单词“cool”识别为“cool(5)”，由于未登记于静态词典14，所以分配动态代码。具体而言，编码部21对与“cool(5)”对应的单词“cool”分配动态代码“A002h”，并与种类(5＝多义词)一起登记于动态词典15。而且，编码部21在散列过滤器中将朝向与“cool(5)”对应的“cool”的指针与动态代码“A002h”建立对应关系并储存。另外，编码部21为了在代码的解码时以“cool(5)”的意思进行解码，而在动态词典15的缓存部，将被分配动态代码“A002h”的“cool(5)”的静态代码“712Ah”与作为ID的5建立对应关系并进行管理。换句话说，在缓存部储存有能够确定单词(cool)以及语义(酷)的组的信息。

这样一来，编码部21能够按照作为多义词的“cool”的意思，分配静态代码或者动态代码，能够区分意思来进行编码。此外，对于多义词，也能够由用户指定利用哪个意思，也能够通过按照意思管理前后的单词关系，自动地确定。

另外，图6是说明惯用句的静态编码和动态编码的图。这里，以用于“take off”等的“take”为例进行说明。如图6所示，编码部21将单词“take”作为基本形识别为“take(1)”。而且，对于与“take(1)”对应的单词“take”，由于在静态词典14中被分配静态代码“7A3Ch”，所以编码部21在散列过滤器中将向“take”的指针与“take”的静态代码“7A3Ch”建立对应关系并进行储存。此外，在图6中，对多个“take”分配相同的静态代码是为了以相同的代码对多个意思的“take”进行编码。

另外，编码部21将与“off”连结作为“take off”利用的单词“take”识别为“take(7)”，由于未登记于静态词典14，所以分配动态代码。具体而言，编码部21对与“take(7)”对应的单词“take”分配动态代码“A003h”，并与种类(6＝惯用句)一起登记于动态词典15。而且，编码部21在散列过滤器中将向与“take(7)”对应的单词“take”的指针和动态代码“A003h”建立对应关系并进行储存。另外，编码部21为了在代码的解码时以“take(7)”的意思进行解码，在动态词典15的缓存部，将分配了动态代码“A003h”的“take”的静态代码“7A3Ch”与作为ID的7建立对应关系进行管理。

这样一来，编码部21能够按照作为惯用句的“take”的意思，分配静态代码或者动态代码，能够区分意思来进行编码。此外，也能够由用户指定是哪个惯用句，也能够通过按照意思管理前后的单词关系来自动地确定。

返回到图2，转换部22是将通过编码部21进行了编码的压缩文件转换为NNC的处理部。具体而言，转换部22根据NNC表格16，确定与压缩文件所包含的各压缩码对应的NNC，将各压缩码转换为各NNC。即，转换部22将压缩文件内的可变长度的各压缩码置换为固定长度的NNC。

这里，对针对被分配动态代码的单词，使用该单词的基本形的静态代码与NNC的对应关系亦即基本形转换表格，从动态代码转换为NNC的方法进行具体的说明。例如，对于多义词“cool”，对作为基本形的“冷”的意思的“cool(1)”的静态代码与NNC的对应关系进行说明，并对从“酷”的意思的“cool(5)”的动态代码转换为NNC的方法进行说明。此外，对于多义词、惯用句来说，预先与NNC一对N地建立对应关系。

图7是说明使用基本形转换表格，根据多义词、惯用句的动态码生成NNC的图。图7的(a)是多义词的例子，图7的(b)是惯用句的例子。转换部22在多义词中，在压缩文件的动态词典储存该单词的基本形和确定该单词的意义的语义ID。

具体而言，如图7的(a)所示，转换部22将单词“cool”的静态代码“712Ah”与该NNC的位置“00001321h”建立对应关系并储存于基本形转换表格。转换部22使用该基本形转换表格，从具有“酷”的意思的“cool(5)”的动态码“A002h”的缓存器的信息“cool△712Ah+ID”获得“00001321h”，并加上作为ID的5，生成NNC。另外，如图7的(b)所示，将单词“take”的静态代码“7A3Ch”与该NNC的位置“00002E7Fh”建立对应关系并储存于基本形转换表格。转换部22使用该基本形转换表格，从惯用句“take(7)”的动态码“A003h”的缓存器的信息“take△7A3Ch+ID”获得“00002E7Fh”，并加上作为ID的7，生成NNC。

图8是说明根据词形变化、复合词的动态码生成NNC的图。转换部22除了多义词、惯用句之外，还根据词形变化的动态码生成NNC。具体而言，如图8所示，转换部22使用基本形转换表格从进行了词形变化的“goes”的动态码“71B1h”的缓存器的信息“go△71B1h+ID”获得“000019CDh”(不需要加上ID)，生成NNC。

此外，复合词与NNC表格一对一地建立对应关系，能够基于动态码的缓存器的信息的字符串获得NNC。具体而言，对于复合词“White House”来说，转换部22对动态码“A000h”的缓存器的信息“White△House”的字符串与NNC表格的字符串部进行比较，获得NNC“0053A34Bh”。

返回到图2，向量化部23是将通过转换部22进行了转换的NNC转换为向量值的处理部。具体而言，向量化部23预先对与静态代码建立对应关系的静态的NNC分配向量值，并在向量表格17进行管理。另外，对于动态代码来说，若对动态代码分配了NNC，则向量化部23动态地分配向量值，并在向量表格17进行管理。

而且，向量化部23通过在对各文本数据13执行了NNC的分配之后，执行向量值的分配，将压缩码(静态代码、动态代码)、NNC以及向量值建立对应关系并动态地进行管理。其结果，向量化部23参照向量表格17，将从各文本数据13进行了转换的各NNC转换为向量值生成向量数据，并输出到学习部24。

学习部24是使用根据文本数据13生成的向量数据，执行机械学习的处理部。具体而言，学习部24将向量数据输入到RNN(Recurrent Neural Network：递归神经网络)，并对RNN的各种参数等进行学习，以使从RNN的输出与作为正解信息的标签(日语翻译)的误差变小。而且，若学习完成，则学习部24将包含各参数的学习结果储存到存储部12。

图9是说明实施例1的学习例的图。在图9中，对使用输入数据“I take lunch outof store.”、和输出数据“我去店里购买午餐”，作为教师数据的例子进行说明。如图9所示，学习部24将根据文本数据“I take lunch out of store.”，经由压缩编码以及NNC化生成的向量数据“V1、V2、···、Vn”输入到RNN的各输入层。

然后，学习部24获取来自RNN的输出层的输出结果。接着，学习部24通过参照静态词典14以及动态词典15等，对各输出结果进行解码来获取单词，从而获取翻译结果。其后，学习部24对RNN进行学习，以使作为文本数据的正确的翻译的标签“我去店里购买午餐”与RNN的翻译结果的误差变小。

此外，在学习完成后，若输入翻译对象的文本数据，则信息处理装置10与学习时相同，执行压缩编码、NNC化、向量化来生成向量数据，并输入到学习完毕的RNN。然后，信息处理装置10将学习完毕的RNN的输出结果作为翻译结果输出给用户。

[处理的流程]

图10是表示处理的流程的流程图。如图10所示，编码部21若被指示处理开始(S101：是)，则从存储部12获取文本数据13(S102)，并通过词素解析等分割为单词(S103)。

接着，编码部21选择一个单词(S104)，并判定是否已登记于静态词典14(S105)。这里，编码部21在已登记于静态词典14的情况下(S105：是)，基于静态词典14进行编码(S106)。此外，在已登记于静态词典的情况下，与NNC表格16以及向量表格17的对应关系建立也完成。

另一方面，在未登记于静态词典14的情况下(S105：否)，编码部21判定是否已登记于动态词典15(S107)。这里，在已登记于动态词典15的情况下(S107：是)，编码部21基于动态词典15进行编码(S108)。此外，在已登记于动态词典的情况下，与NNC表格16以及向量表格17的对应关系建立也完成。

另一方面，在未登记于动态词典15的情况下(S107：否)，编码部21在动态词典15新分配代码，并对该单词进行编码(S109)。接着，转换部22对分配的代码(动态代码)新分配NNC(S110)。然后，向量化部23对新分配的NNC新分配向量值(S111)。

其后，在文本数据内存在未处理的单词的情况下(S112：否)，重复S102及其后面的步骤。另一方面，若文本数据内的全部单词的处理完成(S112：是)，则执行S113及其后面的步骤。

具体而言，转换部22根据NNC表格16，将对文本数据13进行了编码的压缩文件的各压缩码转换为NNC，向量化部23根据向量表格17，将各NNC转换为向量值(S113)。

接着，学习部24使用根据文本数据13生成的向量数据，执行翻译模型的机械学习(S114)。其后，在继续学习的情况下(S115：否)，重复S102及其后面的步骤，在为结束学习的定时的情况下(S115：是)，结束学习。

[效果]

如上述那样，信息处理装置10将单词的向量表格17与4字节的固定长的NNC的代码建立对应关系。另外，信息处理装置10根据可变长度的压缩码的动态词典生成动态代码转换表格，并代码转换为NNC。然后，信息处理装置10使用CBOW函数等，计算各单词的200维的向量值，并储存于单词的向量表格17。

接下来，信息处理装置10在RNN的机械学习中，读出压缩文件，将可变长度的压缩码代码转换为固定长度的NNC，并从与NNC的代码建立对应关系的单词的向量表格17获取200维的向量值。其后，信息处理装置10进行每个单词的求和运算，进行RNN的机械学习。

图11是说明处理的高速化的图。如图11所示，在一般地利用的相关技术的情况下，由CPU执行进行编码的压缩、读入压缩码、压缩码的解压、以及词法解析(词素解析)，并由GPU执行其后的散列运算、向量获取、以及函数运算。该情况下，在使用各文本数据进行学习时，反复代码的数目的解压和词法解析，并且也反复代码的数目的散列运算，所以处理时间较长。

另一方面，在实施例1的情况下，由CPU执行单词编码和压缩码的读入，并由GPU分担向量获取和函数运算。这样，以单词单位进行编码，并将压缩码、NNC以及向量值建立对应关系进行管理，所以能够减少在相关技术中重复的解压、词法解析、散列函数的地址运算等，能够实现大幅度的高速化。

实施例2

然而，虽然在实施例1中，对使用了文本数据的例子进行了说明，但实施例1的方法也能够应用于基因组的碱基序列。因此，在实施例2中，对应用于基因组的碱基序列的例子进行说明。

图12是说明将以往的技术应用于碱基序列时的问题点的图。如图12所示，在以往的压缩技术中，将输入数据的代码分配为最长一致字符串，所以即使在CUG、ACU、GAU等按照密码子单位具有作为氨基酸的意义的情况下，也不能够按照密码子单位进行编码，在密码子的中途产生编码的切断。该情况下，由于不能够按照具有意义的密码子单位进行编码，所以机械学习的精度降低。

因此，在实施例2中，例如按照蛋白质、氨基酸等那样具有意义的单位进行词素解析，并执行编码、NNC化、向量化。这里，作为一个例子，对将包含蛋白质、氨基酸等的临床试验数据作为输入数据进行学习的例子进行说明。此外，在临床试验数据设定有副作用作为标签。换句话说，构建将蛋白质等的组合作为特征量，预测副作用的产生、强度的机械学习模型。

图13A是用于说明确定基因组所包含的蛋白质的处理的图。如图13A所示，第二编码部210基于密码子压缩文件200a、密码子倒排索引200b、蛋白质词典210A、词典索引210B、蛋白质HMM210C，生成蛋白质压缩文件220a以及蛋白质倒排索引220b。

第二编码部210基于词典索引210B，确定密码子压缩文件200a所包含的各蛋白质的密码子代码序列的缝隙。第二编码部210基于各缝隙之间的密码子代码序列、和蛋白质词典210A，确定与各缝隙之间的密码子代码序列对应的蛋白质的代码，并将密码子代码序列转换为蛋白质的代码。

第二编码部210在接着蛋白质的代码(缝隙)的密码子代码序列相当于多个蛋白质的代码的情况下，基于蛋白质HMM210C，确定相应的多个蛋白质的代码中共现率最高的蛋白质的代码。第二编码部210将接着缝隙的密码子代码序列转换为确定出的蛋白质的代码。第二编码部210通过反复执行上述处理，生成蛋白质压缩文件220a。

如上述那样，密码子压缩文件200a通过计算所包含的蛋白质与该蛋白质的后续的蛋白质的共现率，生成蛋白质HMM210C。通过使用蛋白质HMM210C，能够按照正确的蛋白质单位切出密码子压缩文件200a的密码子代码序列。通过按照正确的蛋白质单位进行切出，能够生成按照蛋白质单位对密码子压缩文件200a进行了编码的蛋白质压缩文件220a。另外，能够确定密码子压缩文件200a所包含的蛋白质的序列，所以能够容易地确定蛋白质。

图13B是说明使产生了突变的碱基序列数据的评价高速化的例子的图。如图13B所示，信息处理装置10通过使成为评价对象的评价对象基因组数据200a产生突变“插入”，生成新的突变基因组数据250a。信息处理装置10基于基准位置200β确定突变基因组数据250a的基准密码子“AAA(6Ah)”。

信息处理装置10通过按照蛋白质的单位对突变基因组数据250a执行词素解析，从而确定突变基因组数据250a所包含的多个词素。例如，在一个词素包含有与蛋白质对应的密码子序列。

信息处理装置10将对突变基因组数据250a执行的词素解析的结果、和将规定的蛋白质(现有的蛋白质)的代码与密码子单位的代码的序列建立对应关系的静态词典的信息亦即蛋白质词典信息进行比较，在突变基因组数据250a的词素符合蛋白质词典信息的密码子序列的情况下，将突变基因组数据250a的词素转换为蛋白质的代码。在本实施例中，适当地通过蛋白质α、β、γ等希腊字母表述进行了编码的蛋白质。

信息处理装置10在包含基准密码子的词素的密码子序列不符合蛋白质词典信息的密码子序列的情况下，判定包含基准密码子的词素的密码子序列是否符合动态词典信息250A的密码子序列。信息处理装置在包含基准密码子的词素的密码子序列不符合动态词典信息250A的密码子序列的情况下，判定为在癌基因组DB不存在与突变基因组数据250a相似的癌基因组。

与此相对，信息处理装置10在包含基准密码子的词素的密码子序列符合动态词典信息250A的密码子序列的情况下，判定为在癌基因组DB存在与突变基因组数据250a相似的癌基因组。例如，包含基准密码子“AAA(6Ah)”的密码子序列“UUC(41h)/AAA(6Ah)/GUA(72h)”存在于动态词典信息250A，所以信息处理装置判定为在癌基因组DB存在与突变基因组数据250a相似的癌基因组。

在包含基准密码子的词素的密码子序列符合动态词典信息250A的密码子序列的情况下，信息处理装置10根据登记编号，对密码子序列进行编码。信息处理装置10通过执行上述处理，生成按照蛋白质单位进行了编码的突变基因组数据251a。在以下的说明中，为了相似度的评价，方便地将编码为动态码的包含基准密码子的未知的蛋白质表述为“基准蛋白质”。

图13C是说明实施例2所涉及的处理的图。如图13C所示，实施例2所涉及的信息处理装置10通过实施例1的方法，对各蛋白质分配静态代码或者动态代码，更新静态词典14或者动态词典15。

然后，信息处理装置10通过实施例1的方法，对分配给各蛋白质的代码分配NNC。例如，信息处理装置10对分配给蛋白质(1)的代码分配NNC(1)，并对分配给蛋白质(2)的代码分配NNC(2)，生成NNC表格16。

另外，信息处理装置10通过实施例1的方法，对各NNC分配向量值。例如，信息处理装置10对蛋白质(1)的NNC(1)分配V(1)，并对蛋白质(2)的NNC(2)分配V(2)，生成向量表格17。

这样一来，信息处理装置10若受理包含蛋白质、氨基酸等的临床试验数据，则根据静态词典14、动态词典15进行编码，根据NNC表格16进行NNC化，并根据向量表格17，执行临床试验数据的向量化。其后，信息处理装置10将进行了向量化的向量数据输入到RNN执行学习。

图14是说明实施例2的学习例的图。图14对使用输入数据“临床试验数据”、输出数据“副作用”作为教师数据的例子进行说明。如图14所示，信息处理装置10以有意义的单位对输入数据“临床试验数据”进行分割，之后执行压缩编码以及NNC化，生成向量数据“V1、V2、···、Vn”，并输入到RNN的各输入层。

然后，信息处理装置10获取来自RNN的输出层的输出结果。接着，信息处理装置10通过参照静态词典14以及动态词典15等，对各输出结果进行解码获取单词，来获取翻译结果。其后，学习部24对RNN进行学习，以使设定为输入数据的“副作用”与RNN的翻译结果的误差变小。

这样一来，信息处理装置10能够将没有划分的碱基序列分割为具有意义的单位并进行学习。其结果，信息处理装置10能够对碱基序列的特征与副作用的关系性进行学习，也能够有助于新药开发等。

实施例3

然而，虽然在上述实施例1中对输入了文本数据的情况，另外，在上述实施例2中对输入了碱基序列的情况，对一般的文件系统中的处理、其流程进行了说明，但并不限定于此，能够应用于数据库(DB)。

图15是说明以往的数据库的问题点的图。如图15所示，在以往技术中，文本被进行LZ78系压缩并登记，进行文本解压，从DB输出，并通过TensorFlow等进行向量生成、机械学习。

向量生成、RNN机械学习为多维解析，能够利用SQL语言进行处理，本来适合于DB。现在，在气象预测等数值输入的领域，也被称为In－Database分析技术，作为AI(Artificial Intelligence：人工智能)分析的应用技术普及。

但是，在文本数据的AI分析中，实际情况是需要对有意义的单位的单词进行词法解析(词素解析)，从DB输出，并通过TensorFlow等进行分析。

换句话说，在以往技术中，对文本数据重复图15的(a)所示的文本解压和DB输出，并重复图15的(b)所示的词法解析和散列运算。这样一来，虽然抑制多义词、惯用句等所引起的精度降低，但产生处理的延迟。因此，在实施例3中，通过省略在以往技术中反复进行的处理，实现处理的高速化。

图16是说明实施例3所涉及的向数据库的应用例的图。如图16所示，信息处理装置10在单词的编码下功夫，修改文本解压和DB的输出的处理，并应用In－Database分析技术，进行多维解析。具体而言，信息处理装置10不从数据库取出数据，而读入按照单词单位进行了压缩的压缩码，并转换为NNC，执行向量生成、RNN机械学习。另外，信息处理装置10在单词压缩中，执行词法解析(词素解析)、基于散列运算的静态代码或者动态代码的获取、编码、索引生成、向量生成等。此外，各单词的压缩码、NNC以及向量数据的对应关系建立使用与实施例1相同的方法。

这样，实施例3所涉及的信息处理装置10能够省略以往技术中的文本解压、DB输出以及词法解析、散列运算的重复，所以能够实现处理的高速化。

实施例4

另外，虽然到此为止对本发明的实施例进行了说明，但本发明除了上述的实施例以外，也可以以各种不同的方式实施。例如，压缩编码等能够采用日本特开2018－195028号公报等技术。

[机械学习模型]

上述的神经网络机械学习模型采用应用了Softmax函数的机械学习，但也能够使用其它的机械学习。另外，也能够使用受限玻尔兹曼机的函数进行学习。另外，虽然以日语和英语为例进行了说明，但并不限定语言，在其它的语言中也能够同样地进行处理。

[各种对应关系]

在上述实施例中，对使用基本形转换表格、动态转换表格，将各表格等建立对应关系的例子进行了说明，但并不限定于此，也能够使用地址转换、指针等技术。

[硬件构成]

图17是表示信息处理装置10的硬件构成的图。如图17的例子所示，计算机400具有执行各种运算处理的CPU401、受理来自用户的数据输入的输入装置402、以及监视器403。另外，计算机400具有从存储介质读取程序等的介质读取装置404、用于与其它的装置连接的接口装置405、以及用于通过无线与其它的装置连接的无线通信装置406。另外，计算机400具有暂时存储各种信息的RAM407、和硬盘装置408。另外，各装置401～408与总线409连接。

在硬盘装置408例如存储有具有与图2所示的编码部21、转换部22、向量化部23、学习部24的各处理部相同的功能的信息处理程序。另外，在硬盘装置408存储有用于实现信息处理程序的各种数据。

CPU401通过读出存储于硬盘装置408的各程序，展开于RAM407并执行来进行各种处理。这些程序能够使计算机400例如作为图2所示的编码部21、转换部22、向量化部23、学习部24发挥作用。

此外，上述的信息处理程序并不需要一定存储于硬盘装置408。例如，也可以由计算机400读出存储于计算机400能够读取的存储介质的程序并执行。计算机400能够读取的存储介质例如对应于CD－ROM、DVD盘、USB(Universal Serial Bus：通用串行总线)存储器等便携式记录介质、闪存等半导体存储器、硬盘驱动器等。另外，也可以使该程序存储于与公用线路、因特网、LAN(Local Area Network：局域网)等连接的装置，计算机400从这些装置读出程序并执行。

[程序构成]

图18是表示在计算机400进行动作的程序的构成例的图。在计算机400中，进行图17所示的硬件组26(401～409)的控制的OS(操作系统)27进行动作。CPU401根据基于OS27的程序进行动作，进行硬件组26的控制·管理，从而在硬件组26执行依照应用程序29、中间件28的处理。并且，在计算机400中，中间件28或者应用程序29被读出到RAM407并通过CPU401来执行。

在通过CPU401调出压缩功能的情况下，通过进行基于中间件28或者应用程序29的至少一部分的处理，(基于OS27控制硬件组26进行这些处理)实现压缩部110的功能。压缩功能既可以分别包含于应用程序29本身，也可以是根据应用程序29调出从而执行的中间件28的一部分。

通过应用程序29(或者中间件28)的压缩功能得到的压缩文件也能够部分地进行解压。在对压缩文件的中途进行解压的情况下，抑制到解压对象的部分为止的压缩数据的解压处理，所以能够抑制CPU401的负荷。另外，将解压对象的压缩数据部分地展开在RAM407上，所以也能够减少工作区。

[系统]

图19是表示实施方式的系统中的装置的构成例的图。图19的系统包含计算机400a、计算机400b、基站300以及网络40。计算机400a通过无线或者有线的至少一方，与计算机400b所连接的网络40连接。

在上述文件中、对于附图中示出的处理顺序、控制顺序、具体的名称、包含各种数据、参数的信息来说，除了特别说明的情况之外能够任意地变更。

另外，图示的各装置的各构成要素是功能概念性的要素，并不需要一定在物理上如图示那样构成。即，各装置的分散、集成的具体的方式并不限定于图示的方式。换句话说，能够根据各种负荷、使用状况等，按照任意的单位在功能上或者物理上将其全部或者一部分分散·集成来构成。

并且，对于在各装置进行的各处理功能来说，能够由CPU以及在该CPU解析执行的程序实现其全部或者任意的一部分，或者，作为基于布线逻辑的硬件实现。

附图标记说明

10…信息处理装置，11…通信部，12…存储部，13…文本数据，14…静态词典，15…动态词典，16…NNC表格，17…向量表格，20…控制部，21…编码部，22…转换部，23…向量化部，24…学习部。

Claims

1.一种控制方法，其特征在于，使计算机执行以下处理，即

获取压缩词典，上述压缩词典是将与单词以及上述单词的语义的组的出现频率对应的长度的代码与上述单词以及上述语义的组建立对应关系的压缩词典；

通过上述压缩词典，获取任意一个单词以及上述任意一个单词的语义的组、和与上述任意一个单词以及上述任意一个单词的语义的组建立对应关系的代码；

参照将同一长度的多个定长码分别与单词以及语义的组建立对应关系并存储的存储部，确定上述多个定长码中与获取的上述任意一个单词以及上述任意一个单词的语义的组建立了对应关系的定长码；

生成将确定出的上述定长码与获取的上述代码建立对应关系的转换词典；以及

基于上述转换词典，确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码。

2.根据权利要求1所述的控制方法，其特征在于，

上述压缩词典将上述代码与具有多个意思的多义词的各意思，或者，用于多个复合词的惯用句的各意思建立对应关系，

上述存储部将上述多义词的各意思或者上述惯用句的各意思与上述定长码建立对应关系进行存储，

上述生成的处理生成上述转换词典，上述转换词典将与上述多义词的各意思对应的各代码或者与上述惯用句的各意思对应的各代码与存储于上述存储部的各定长码建立了对应关系。

3.根据权利要求1所述的控制方法，其特征在于，

上述压缩词典将上述代码与包含形成蛋白质的密码子且为预先决定的基准密码子的各词素的密码子序列建立对应关系，

上述存储部将上述各词素的密码子序列与上述定长码建立对应关系进行存储，

上述生成的处理生成上述转换词典，上述转换词典将与上述各词素的密码子序列对应的各代码、和存储于上述存储部的各定长码建立了对应关系。

4.根据权利要求1所述的控制方法，其特征在于，使上述计算机执行以下处理，即

获取将上述多个定长码的每一个与向量值建立了对应关系的向量值一览；

不从数据库取出储存于上述数据库的数据，而确定与上述数据对应的代码；

基于上述向量值一览将与确定出的上述代码对应的定长码转换为向量值，生成向量数据；以及

使用上述向量数据执行机械学习。

5.根据权利要求1所述的控制方法，其特征在于，使上述计算机执行以下处理，即

基于上述向量值一览将上述压缩数据所包含的各代码所对应的各定长码转换为向量值，根据上述压缩数据生成向量数据；以及

使用上述向量数据执行机械学习。

6.根据权利要求5所述的控制方法，其特征在于，

上述文本数据是以第一语言生成的数据，设定以第二语言翻译的译文作为正解信息，

上述确定的处理确定与编码数据所包含的各代码对应的各定长码，其中，上述编码数据通过将对上述文本数据进行词素解析得到的各单词进行编码而得到，

上述生成的处理将上述各定长码转换为上述向量值，根据上述压缩数据生成上述向量数据，

上述执行机械学习的处理将上述向量数据作为说明变量，并将上述正解信息作为目的变量，执行将文本数据翻译为上述第二语言的翻译模型的学习。

7.根据权利要求6所述的控制方法，其特征在于，

上述执行机械学习的处理使用受限玻尔兹曼机的函数，执行上述翻译模型的学习。

8.一种控制程序，其特征在于，使计算机执行以下处理，即

9.一种信息处理装置，其特征在于，具有：

获取部，获取压缩词典，上述压缩词典是将与单词以及上述单词的语义的组的出现频率对应的长度的代码与上述单词以及上述语义的组建立对应关系的压缩词典；

获取部，通过上述压缩词典，获取任意一个单词以及上述任意一个单词的语义的组、和与上述任意一个单词以及上述任意一个单词的语义的组建立对应关系的代码；

确定部，参照将同一长度的多个定长码分别与单词以及语义的组建立对应关系并存储的存储部，确定上述多个定长码中与获取的上述任意一个单词以及上述任意一个单词的语义的组建立了对应关系的定长码；

生成部，生成将确定出的上述定长码与获取的上述代码建立对应关系的转换词典；以及

确定部，基于上述转换词典，确定与对文本数据进行了编码的压缩数据所包含的各代码建立了对应关系的各定长码。

10.一种控制方法，其特征在于，使计算机执行以下处理，即

对分配给文本数据所包含的各单词的可变长度的压缩码的每一个分配各定长码，

将分别与上述可变长度的压缩码对应的各定长码与利用于向应用了神经网络的机械翻译的输入的200维的向量值建立对应关系。