CN1128404C - 计算机新词学习方法与系统 - Google Patents
计算机新词学习方法与系统 Download PDFInfo
- Publication number
- CN1128404C CN1128404C CN 00132955 CN00132955A CN1128404C CN 1128404 C CN1128404 C CN 1128404C CN 00132955 CN00132955 CN 00132955 CN 00132955 A CN00132955 A CN 00132955A CN 1128404 C CN1128404 C CN 1128404C
- Authority
- CN
- China
- Prior art keywords
- speech
- sub
- word set
- neologisms
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Abstract
计算机新词学习方法,包括子词记录程序、第一删除程序以及第二删除程序。子词记录程序将记录在无词集的至少一无词部分分解成至少一子词,并将所得到的子词记录于子词集中,无词部分是指于一计算机可读取的文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分。第一删除程序分别计算各子词出现次数,将出现次数小于预定值的子词自子词集中删除。第二删除程序自子词集中选不同的第一子词与第二子词,当第一子词含于第二子词中,第一子词的出现次数不大于第二子词时,将第一子词自子词集删除,以由子词集中产生计算机可辨识的新词。
Description
本发明是涉及一种计算机新词学习方法与系统,特别涉及一种针对文件中任意相邻单字均无法构成计算机可辨识词汇的部分进行分析,藉以得到新词并增加计算机可辨识词汇的数量的计算机新词学习方法与系统。
在英文、法文或德文等拼音文字的文件中,由于各个字之间均有空白加以分隔,故并不存在对句子进行分割才能了解其真正含义的问题。然而,在中文、日文或韩文等,各个字之间并无空白加以分隔的文件中,若无法对文件的内容加以切割,将无法了解其真正的含义为何,而造成判读上的错误。
所谓的“断词”,是指将由成串中文、日文或韩文等的字所组成的文句进行分割,使文句被切割成许多有意义的词汇。在许多语言处理的应用上,如校正、翻译或语音辨识等,都必需要先对文件进行断词后,才能够作进一步的处理。
随着计算机科技的发展,已经有以计算机来断词的方法与系统出现。与以人工来进行断词相比较,计算机断词可以大幅减少所需的时间。然而,计算机断词的困难处之一,在于当其碰到其无法辨识的词汇时,若不以人工输入新的字汇,其将无法作适当的处理。
针对上述问题,本发明的目的为提供一种计算机新词学习方法与系统,其可自动学习文件中的新词汇。
本发明的另一目的为提供一种计算机新词学习方法与系统,其可做为计算机词汇数据库更新主维护的基础。
为达上述目的,依本发明的计算机新词学习方法包括一子词记录步骤,是将记录在一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;一第一删除步骤,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;一第二删除步骤,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;一判断步骤,是判断该子词集是否为空集,并当该子词集为空集时,结束该计算机新词学习方法的流程;一第三删除步骤,是在该第二删除步骤之后,还将该子词集中出现次数最多的子词以外的子词删除,籍以由该子词集中产生计算机可辨识的新词;一无词部分分割步骤,包括:将包含该新词的无词部分自该无词集移除;当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中;以及一子词集清空步骤,是清空该子词集并回到该子词记录步骤。
本发明还揭露一种计算机新词学习系统,其包括一词辨识模块,是对一文件进行词辨识处理;一无词部分记录模块,是当该文件中具有至少一无词部分时,将该无词部分记录于该无词集中,其中该无词部分是指在一计算机可读取的文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分;一子词记录模块,是将记录于一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;一第一删除模块,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;一第二删除模块,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;一第三删除模块,是将该子词集中出现次数最多的子词以外的子词删除,藉以由该子词集中产生计算机可辨识的新词;以及一无词部分分割模块,其中将包含该新词的无词部分自该无词集移除;当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中。
以下将参照相关附图,说明依本发明较佳实施例的计算机新词学习方法与系统,其中相同的元件将以相同的参照符号加以说明。
图1为一流程图,显示依本发明较佳实施例的计算机新词学习方法的流程。
图2为一示意图,显示依本发明较佳实施例的计算机新词学习方法的结构。
参照图1,依本发明较佳实施例的计算机新词学习方法1是先进行一词辨识程序11,以对一计算机可读取的文件51进行断词处理。如前所述,所谓“断词”是指将由成串中文、日文或韩文等的字所组成的文句进行分割,使文句被切割成许多有意义的词汇。在本实施例中,是使用一种公知的“字典统计式断词法”来对文件进行断词,亦即,利用词汇组成机率与词汇长度等对被切割的文件进行评估,以求得最佳的断词结果。然而,需注意者,熟悉该项技术者可轻易地采用其它断词法来对文件进行断词,而不脱离本发明的精神与范畴。
接着,进行无词部分记录程序12,以将文件51中的无词部分记录于一无词集52中。在本发明中,所谓的“无词部分”,是指在文件51中,任何相邻单字均无法构成计算机可辨识的词汇的部分。例如,若文件51中具有如下的句子:
“王明昨天拜访李小华”在本句中,由于“王明”与“李小华”这两个部分中,单字的各种组合(如,“李小华”可以有“李小”、“小华”、“李小华”等三种组合)均无法被系统辨识,因此会成为两个“无词部分”。亦即,此句的断词结果会成为:
“王 明 昨天 拜访 李 小 华”
“王明”与“李小华”这两个无词部分将会成为单字的组合。
接着,在子词记录程序13中,无词集52各无词部分会被分解成至少一子词,并将分解所得的子词记录于一子词集53中。以前面的“王明昨天拜访李小华”这句为例,在子词记录程序13中,无词部分“李小华”会被分解为“李小”、“小华”与“李小华”三个子词。换言之,子词记录程序13会将每一个无词部分的可能子词都分解出来。
接着,第一删除程序14分别计算各个子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除。在此程序中,所谓各个子词的“出现次数”,可指各子词于原本无词集52中的出现次数,亦可指各子词于子词集53中的出现次数。本领域的技术人员可视实际状况选择任一种计算方法。
当某个子词在整份文件51中的出现次数过少时,表示其在文件51中是偶而出现,故可将其自子词集53中删除。例如,若“王明”在整份文件51中仅出现一次,而“李小华”在整份文件中出现了十几次,则很明显地,“王明”并非一个具有记录价值的新词,其仅为一个偶而出现的子词,而“李小华”这个子词相对于文件51而言,由于出现次数众多,故为一具有记录价值的新词。
至于预定值的大小,则可视实际状况加以设定。例如,可以人工输入的方式更改预设值,或依文件51的字数,来机动性调整预定值的大小。如此将可针对不同的文件,设定不同的新词学习标准。
在第二删除程序15中,是先自该子词集53依序选取不相同的一第一子词与一第二子词。然后,当第一子词被包含于第二子词中,且第一子词的出现次数不大于第二子词时,将第一子词自子词集53删除。例如,当选取“李小”为第一子词,“李小华”为第二子词时,由于“李小”是包含于“李小华”中,故“李小”这个子词的出现次数会等于“李小华”这个子词的出现次数。在这种情况下,即将“李小”自子词集53删除,仅留下“李小华”这个子词。相同的道理,由于“小华”这个子词也包含于“李小华”中,故其也会自子词集53删除。如此,将可删除包含于较长子词的较短子词,保留长度较长的子词。
接着,在判断程序16中,若子词集53为空集,亦即,在第一删除程序14与第二删除程序15中已将所有的子词都删除,则结束整个依本发明较佳实施例的计算机新词学习方法1的流程。若子词集53中尚有子词,则进行第三删除程序17,仅保留出现次数最多的子词,删除所有其它出现次数较少的子词。如此,一次将只会产生一个新词。
在产生新词之后,即进行无词部分分割程序18,以将包括了新词的无词部分删除,并将包括了新词的无词部分中,新词以外的部分独立出来形成新的无词部分。亦即,当包括了新词的无词部分中,位于新词之前的单字数量为两个以上时,将无词部分中位于新词之前的部分视为另一无词部分,并加入至无词集52中。另一方面,当包括了新词的无词部分中,位于新词之后的单字数量为两个以上时,则将无词部分中位于新词之后的部分视为另一无词部分,并将其加入至无词集52。
例如,若文件51中另有一句:“他坐在李小华的前面”,由于整句都没有计算机可辨识的词汇,故全句九个字构成了一个无词部分,且其中包括了刚产生的新词“李小华”。针对此一无词部分,在无词部分分割程序18中,此一无词部分就会被删除,并被分割成两个新的无词部分,即新词“李小华”之前的“他坐在”三个字,以及新词“李小华”之后的“的前面”三个字。
在无词部分分割程序18之后,即进行子词集清空程序19,以将子词集53清空,并回到子词记录程序13重新进行子词分解的动作。
经由前述的流程,将可找出文件51中所有可能的新词,并且不会影响到计算机原本可辨识的词,以及文件51中既有存在的词。因此,其可有效地对计算机可读取的文件进行更适当的断词处理。
至于所产生的新词,可视实际状况使其成为新的计算机可辨识词汇。例如,若产生的新词为“电子商务”,即考虑将此一近年来才产生的新词汇加入计算机的词汇数据库,使其成为新的计算机可辨识词汇。如此,将有助于计算机词汇数据库的更新与维护。
参照图2,依本发明较佳实施例的计算机新词学习系统2包括一词辨识模块21、一无词部分记录模块22、一子词记录模块23、一第一删除模块24、一第二删除模块25、一第三删除模块26以及一无词部分分割模块27。在本实施例中,各模块均为存储于一计算机装置中的程序模块,其是记录在一存储装置,如存储器、硬盘机或光盘机等中,使一中央处理单元读取各模块之后,即可进行如前所述的计算机新词学习方法1的流程,以找出文件51中的新词。然而,需注意者,熟悉该项技术者亦可对其进行等效的修改与进一步的应用,例如将各模块制作成为集成电路,以将其内建于如电子字典或个人数位助理等电子装置中,以对文件51进行如前所述计算机新词学习方法1的断词与产生新词的工作,而不超出本发明的精神与范畴。
计算机新词学习系统2可自一存储装置(如存储器)或记录媒体(如磁盘片或光盘片)中读取文件51,或经由网际网络自另一网络伺服器读取文件51。进行词辨识时所需的词汇数据库30亦可存储于一计算机可读取的存储装置或记录媒体中,以便计算机新词学习系统2的存取。计算机新词学习系统2所产生的新词亦可加入至词汇数据库30中,以对其进行维护与更新的动作。
依本发明的计算机新词学习方法与系统是利用计算机技术来对计算机可读取文件进行断词,以将文件中的文句正确切割成有意义的词汇。其有助于许多语言处理的应用,如校正、翻译或语音辨识等科技的进一步发展。
依本发明的计算机新词学习方法与系统可自动学习文件中的新词汇,以对文件作适当的断词处理。
依本发明的计算机新词学习方法与系统可做为计算机词汇数据库更新及维护的基础。
以上所述仅为举例性,而非为限制性者。任何未脱离本发明的精神与范畴,而对其进行的等同修改或变更,均应包含在权利要求书所限定的范围中。
Claims (4)
1.一种计算机新词学习方法,包含以下步骤:
一词辨识步骤,是对一文件进行词辨识处理;
一无词部分记录步骤,是当该文件中具有至少一无词部分时,将该无词部分记录于该无词集中,其中该无词部分是指于该文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分;
一子词记录步骤,是将记录在一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;
一第一删除步骤,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;
一第二删除步骤,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;
一判断步骤,是判断该子词集是否为空集,并当该子词集为空集时,结束该计算机新词学习方法的流程;
一第三删除步骤,是在该第二删除步骤之后,还将该子词集中出现次数最多的子词以外的子词删除,籍以由该子词集中产生计算机可辨识的新词;
一无词部分分割步骤,包括:
将包含该新词的无词部分自该无词集移除;
当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且
当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中;以及
一子词集清空步骤,是清空该子词集并回到该子词记录步骤。
2.如权利要求1所述的计算机新词学习方法,其中
该预定值为2。
3.一种计算机新词学习系统,包含:
一词辨识模块,是对一文件进行词辨识处理;
一无词部分记录模块,是当该文件中具有至少一无词部分时,将该无词部分记录于该无词集中,其中该无词部分是指在一计算机可读取的文件中,任何相邻单字均无法构成计算机可辨识的词汇的部分;
一子词记录模块,是将记录于一无词集的至少一无词部分分解成至少一子词,并将该子词记录于一子词集中;
一第一删除模块,是分别计算各该等子词的出现次数,并将出现次数小于一预定值的子词自该子词集中删除;
一第二删除模块,是自该子词集中依序选取不相同的一第一子词与一第二子词,当该第一子词被包含于该第二子词中,且该第一子词的出现次数不大于该第二子词时,将该第一子词自该子词集删除;
一第三删除模块,是将该子词集中出现次数最多的子词以外的子词删除,藉以由该子词集中产生计算机可辨识的新词;以及
一无词部分分割模块,其中
将包含该新词的无词部分自该无词集移除;
当包含该新词的无词部分中,位于该新词之前的单字数量为两个以上时,将该无词部分中位于该新词之前的部分视为另一无词部分,并将其加入至该无词集中;且
当包含该新词的无词部分中,位于该新词之后的单字数量为两个以上时,将该无词部分中位于该新词之后的部分视为另一无词部分,并将其加入至该无词集中。
4.如权利要求3所述的计算机新词学习系统,其中
该预定值为2。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00132955 CN1128404C (zh) | 2000-11-16 | 2000-11-16 | 计算机新词学习方法与系统 |
HK02109097.1A HK1047636B (zh) | 2000-11-16 | 2002-12-16 | 計算機新詞學習方法與系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00132955 CN1128404C (zh) | 2000-11-16 | 2000-11-16 | 计算机新词学习方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1354422A CN1354422A (zh) | 2002-06-19 |
CN1128404C true CN1128404C (zh) | 2003-11-19 |
Family
ID=4595465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00132955 Expired - Fee Related CN1128404C (zh) | 2000-11-16 | 2000-11-16 | 计算机新词学习方法与系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN1128404C (zh) |
HK (1) | HK1047636B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100397392C (zh) * | 2003-12-17 | 2008-06-25 | 北京大学 | 处理中文新词的方法与装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100405371C (zh) * | 2006-07-25 | 2008-07-23 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
-
2000
- 2000-11-16 CN CN 00132955 patent/CN1128404C/zh not_active Expired - Fee Related
-
2002
- 2002-12-16 HK HK02109097.1A patent/HK1047636B/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100397392C (zh) * | 2003-12-17 | 2008-06-25 | 北京大学 | 处理中文新词的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1354422A (zh) | 2002-06-19 |
HK1047636A1 (en) | 2003-02-28 |
HK1047636B (zh) | 2004-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0282721B1 (en) | Paradigm-based morphological text analysis for natural languages | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US5384703A (en) | Method and apparatus for summarizing documents according to theme | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
CN1135485C (zh) | 利用计算机系统的日文文本字的识别 | |
US8447588B2 (en) | Region-matching transducers for natural language processing | |
US8266169B2 (en) | Complex queries for corpus indexing and search | |
JP2742115B2 (ja) | 類似文書検索装置 | |
US8510097B2 (en) | Region-matching transducers for text-characterization | |
EP1214643B1 (en) | System and method for parsing a document | |
JP2001034623A (ja) | 情報検索方法と情報検索装置 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US8170867B2 (en) | System for extracting information from a natural language text | |
US8327265B1 (en) | System and method for parsing a document | |
EP0524694B1 (en) | A method of inflecting words and a data processing unit for performing such method | |
CN107239455B (zh) | 核心词识别方法及装置 | |
CN1128404C (zh) | 计算机新词学习方法与系统 | |
CN1667614A (zh) | 语言数据日志的压缩 | |
Kaszkiel et al. | TREC 7 Ad Hoc, Speech, and Interactive tracks at MDS/CSIRO | |
JP4206266B2 (ja) | 全文検索装置、処理方法、処理プログラム及び記録媒体 | |
Mao et al. | Stochastic language models for automatic acquisition of lexicons from printed bilingual dictionaries | |
JPH1196170A (ja) | データベース作成方法および情報検索方法および情報検索装置および記録媒体 | |
JP3981144B1 (ja) | 機械翻訳装置及び機械翻訳用辞書作成装置 | |
JPH1040267A (ja) | 文書要約ビューア | |
JP2005189955A (ja) | 文書処理方法、文書処理装置、制御プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20031119 Termination date: 20101116 |