KR20100029221A - 명칭 엔터티와 신규 단어를 검출하는 것 - Google Patents
명칭 엔터티와 신규 단어를 검출하는 것 Download PDFInfo
- Publication number
- KR20100029221A KR20100029221A KR1020097027483A KR20097027483A KR20100029221A KR 20100029221 A KR20100029221 A KR 20100029221A KR 1020097027483 A KR1020097027483 A KR 1020097027483A KR 20097027483 A KR20097027483 A KR 20097027483A KR 20100029221 A KR20100029221 A KR 20100029221A
- Authority
- KR
- South Korea
- Prior art keywords
- string
- candidate
- input
- input entry
- database
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Input From Keyboards Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (22)
- 컴퓨터로 구현되는 방법에 있어서,문자열을 포함하는 입력 엔트리를 수신하는 단계;상기 입력 엔트리로부터 분할 정보를 식별하는 단계; 및상기 분할 정보에 기초하여 상기 입력 엔트리의 상기 문자열로부터 후보 문자열을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,상기 분할 정보가 이용 가능하지 않은 경우, 상기 문자열 전체를 상기 후보 문자열과 연관짓는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 청구항 2에 있어서,상기 후보 문자열에 대하여 표준형 카운트를 생성하는 단계; 및소정의 임계값과 상기 표준형 카운트를 비교하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 청구항 3에 있어서,상기 후보 문자열을 사전과 비교하는 단계; 및상기 후보에 대한 상기 표준형 카운트가 상기 임계값을 초과하고, 상기 비교 에 의하여 상기 후보 문자열이 상기 사전에 이미 저장되어 있지 않는 것으로 결정되는 경우에, 상기 후보 문자열을 기준 문자열로서 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 청구항 4에 있어서,상기 후보 문자열을 상기 데이터베이스와 비교하는 단계;상기 비교에 기초하여 상기 후보 문자열이 철자가 잘못되어 있는지 여부를 결정하는 단계; 및상기 후보 문자열의 철자가 잘못되어 있는 경우에 선택적인 문자열을 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,상기 입력 엔트리는, 검색 엔진에 대한 사용자 쿼리, 인스턴트 메세지용 스크립트 혹은 입력 방식 편집기에 대한 사용자 입력을 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,상기 문자열은 로마어가 아닌 언어에서 하나 이상의 단어를 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,상기 분할 정보는 상기 문자열의 단어나 구문 사이를 구별하기 위하여 사용 가능한 사용자 생성 분할을 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,상기 후보 문자열은 하나 이상의 명칭 엔터티나 신규 단어를 포함하는 것을 특징으로 하는 방법.
- 청구항 3에 있어서,상기 사전은 고유명사 사전을 포함하는 것을 특징으로 하는 방법.
- 청구항 7에 있어서,상기 로마어가 아닌 언어는 중국어, 일본어 혹은 한국어인 것을 특징으로 하는 방법.
- 청구항 8에 있어서,상기 사용자 생성 분할은 스페이스, 탭, 인용구 표시, 괄호 혹은 구두점 표시를 포함하는 것을 특징으로 하는 방법.
- 청구항 9에 있어서,상기 명칭 엔터티는 관용구, 속담 및 사람, 조직 혹은 장소의 명칭을 포함하는 것을 특징으로 하는 방법.
- 청구항 9에 있어서,상기 신규 단어는 사전에 현재 포함되어 있지 않은 단어를 포함하는 것을 특징으로 하는 방법.
- 처리 장치로 하여금, 문자열을 포함하는 입력 엔트리를 수신하는 기능; 상기 입력 엔트리로부터 분할 정보를 식별하는 기능; 및 상기 분할 정보에 기초하여 상기 입력 엔트리의 상기 문자열로부터 후보 문자열을 생성하는 기능을 포함하는 기능을 수행하도록 하는 것을 특징으로 하는 처리 엔진.
- 청구항 15에 있어서,상기 처리 장치로 하여금, 상기 분할 정보가 이용 가능하지 않은 경우에 상기 문자열 전체를 상기 후보 문자열과 연관짓는 기능을 포함하는 기능을 추가적으로 수행하도록 하는 것을 특징으로 하는 처리 엔진.
- 청구항 16에 있어서,상기 처리 장치로 하여금, 상기 후보 문자열에 대하여 표준형 카운트를 생성하는 기능; 및 소정의 임계값과 상기 표준형 카운트를 비교하는 기능을 포함하는 기능을 추가적으로 수행하도록 하는 것을 특징으로 처리 엔진.
- 청구항 17에 있어서,상기 처리 장치로 하여금, 상기 후보 문자열을 사전과 비교하는 기능; 및 상기 후보에 대한 상기 표준형 카운트가 상기 임계값을 초과하고, 상기 비교에 의하여 상기 후보 문자열이 상기 사전에 이미 저장되어 있지 않는 것으로 결정되는 경우에, 상기 후보 문자열을 기준 문자열로서 데이터베이스에 저장하는 기능을 포함하는 기능을 추가적으로 수행하도록 하는 것을 특징으로 하는 처리 엔진.
- 청구항 18에 있어서,상기 처리 장치로 하여금, 상기 후보 문자열을 상기 데이터베이스와 비교하는 기능; 상기 후보 문자열이 상기 비교에 기초하여 철자가 잘못되어 있는지 여부를 결정하는 기능; 및 상기 후보 문자열의 철자가 잘못되어 있는 경우에 선택적인 문자열을 생성하는 기능을 포함하는 기능을 추가적으로 수행하도록 하는 것을 특징으로 하는 처리 엔진.
- 사용자가 문자열을 입력할 수 있도록 구성되어 있는 입력 엔트리 컴포넌트;상기 입력 문자열로부터 후보 문자열을 생성하기 위한 수단; 및상기 후보 문자열이 데이터베이스에 이미 존재하는지 여부를 결정하고, 상기 후보 문자열이 상기 데이터베이스에 이미 저장되어 있지 않은 경우에 상기 데이터 베이스에 상기 후보 문자열을 저장하도록 구성된 데이터베이스를 구비하는 것을 특징으로 하는 시스템.
- 문자열을 포함하는 입력 엔트리를 수신하기 위한 수단;상기 입력 엔트리로부터 분할 정보를 식별하기 위한 수단; 및상기 분할 정보에 기초하여 상기 입력 엔트리의 상기 문자열로부터 후보 문자열을 생성하기 위한 수단을 구비하는 것을 특징으로 하는 시스템.
- 문자열을 포함하는 입력 엔트리를 수신하기 위한 수단;상기 입력 엔트리로부터 분할 정보를 식별하기 위한 수단; 및상기 분할 정보에 기초하여 상기 입력 엔트리의 상기 문자열로부터 후보 문자열을 생성하기 위한 수단을 구비하는 것을 특징으로 하는 처리 엔진.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2007/001755 WO2008144964A1 (en) | 2007-06-01 | 2007-06-01 | Detecting name entities and new words |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100029221A true KR20100029221A (ko) | 2010-03-16 |
Family
ID=40074547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097027483A KR20100029221A (ko) | 2007-06-01 | 2007-06-01 | 명칭 엔터티와 신규 단어를 검출하는 것 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20100180199A1 (ko) |
KR (1) | KR20100029221A (ko) |
CN (1) | CN101815996A (ko) |
TW (1) | TW201015348A (ko) |
WO (1) | WO2008144964A1 (ko) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
US7983902B2 (en) * | 2007-08-23 | 2011-07-19 | Google Inc. | Domain dictionary creation by detection of new topic words using divergence value comparison |
US8091023B2 (en) * | 2007-09-28 | 2012-01-03 | Research In Motion Limited | Handheld electronic device and associated method enabling spell checking in a text disambiguation environment |
JP5379155B2 (ja) * | 2007-12-06 | 2013-12-25 | グーグル・インコーポレーテッド | Cjk名前検出 |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
US9009591B2 (en) | 2008-12-11 | 2015-04-14 | Microsoft Corporation | User-specified phrase input learning |
CN101901235B (zh) | 2009-05-27 | 2013-03-27 | 国际商业机器公司 | 文档处理方法和系统 |
KR101638442B1 (ko) * | 2009-11-24 | 2016-07-12 | 한국전자통신연구원 | 중국어 구문 분절 방법 및 장치 |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
US9002866B1 (en) | 2010-03-25 | 2015-04-07 | Google Inc. | Generating context-based spell corrections of entity names |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US8438011B2 (en) | 2010-11-30 | 2013-05-07 | Microsoft Corporation | Suggesting spelling corrections for personal names |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US8630989B2 (en) | 2011-05-27 | 2014-01-14 | International Business Machines Corporation | Systems and methods for information extraction using contextual pattern discovery |
US10176168B2 (en) * | 2011-11-15 | 2019-01-08 | Microsoft Technology Licensing, Llc | Statistical machine translation based search query spelling correction |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) * | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
EP2864856A4 (en) | 2012-06-25 | 2015-10-14 | Microsoft Technology Licensing Llc | SEIZURE METHOD EDITOR APPLICATION PLATFORM |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
WO2014032244A1 (en) | 2012-08-30 | 2014-03-06 | Microsoft Corporation | Feature-based candidate selection |
CN103678336B (zh) * | 2012-09-05 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 实体词识别方法及装置 |
CN102929862B (zh) * | 2012-11-06 | 2015-06-10 | 深圳市宜搜科技发展有限公司 | 一种新词获取方法及系统 |
CN103870449B (zh) * | 2012-12-10 | 2018-06-12 | 百度国际科技(深圳)有限公司 | 在线自动挖掘新词的方法及电子装置 |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996353B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US8996355B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
WO2015018055A1 (en) | 2013-08-09 | 2015-02-12 | Microsoft Corporation | Input method editor providing language assistance |
US20150317393A1 (en) * | 2014-04-30 | 2015-11-05 | Cerner Innovation, Inc. | Patient search with common name data store |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
JP6897168B2 (ja) * | 2017-03-06 | 2021-06-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
WO2019000170A1 (en) * | 2017-06-26 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
CN111353308A (zh) * | 2018-12-20 | 2020-06-30 | 北京深知无限人工智能研究院有限公司 | 命名实体识别方法、装置、服务器及存储介质 |
US11042580B2 (en) * | 2018-12-30 | 2021-06-22 | Paypal, Inc. | Identifying false positives between matched words |
JP7139271B2 (ja) * | 2019-03-20 | 2022-09-20 | ヤフー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20220261092A1 (en) * | 2019-05-24 | 2022-08-18 | Krishnamoorthy VENKATESA | Method and device for inputting text on a keyboard |
US11626103B2 (en) * | 2020-02-28 | 2023-04-11 | Rovi Guides, Inc. | Methods for natural language model training in natural language understanding (NLU) systems |
US11392771B2 (en) | 2020-02-28 | 2022-07-19 | Rovi Guides, Inc. | Methods for natural language model training in natural language understanding (NLU) systems |
US11393455B2 (en) | 2020-02-28 | 2022-07-19 | Rovi Guides, Inc. | Methods for natural language model training in natural language understanding (NLU) systems |
US11574127B2 (en) | 2020-02-28 | 2023-02-07 | Rovi Guides, Inc. | Methods for natural language model training in natural language understanding (NLU) systems |
CN112861534B (zh) * | 2021-01-18 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
US5832478A (en) * | 1997-03-13 | 1998-11-03 | The United States Of America As Represented By The National Security Agency | Method of searching an on-line dictionary using syllables and syllable count |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
WO2000033211A2 (en) * | 1998-11-30 | 2000-06-08 | Koninklijke Philips Electronics N.V. | Automatic segmentation of a text |
JP2001043221A (ja) * | 1999-07-29 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 中国語単語分割装置 |
CN1226717C (zh) * | 2000-08-30 | 2005-11-09 | 国际商业机器公司 | 自动新词提取方法和系统 |
US7076731B2 (en) * | 2001-06-02 | 2006-07-11 | Microsoft Corporation | Spelling correction system and method for phrasal strings using dictionary looping |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
CN100555276C (zh) * | 2004-01-15 | 2009-10-28 | 中国科学院计算技术研究所 | 一种中文新词语的检测方法及其检测系统 |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US20070067157A1 (en) * | 2005-09-22 | 2007-03-22 | International Business Machines Corporation | System and method for automatically extracting interesting phrases in a large dynamic corpus |
CN100405371C (zh) * | 2006-07-25 | 2008-07-23 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
-
2007
- 2007-06-01 KR KR1020097027483A patent/KR20100029221A/ko not_active Application Discontinuation
- 2007-06-01 US US12/602,646 patent/US20100180199A1/en not_active Abandoned
- 2007-06-01 WO PCT/CN2007/001755 patent/WO2008144964A1/en active Application Filing
- 2007-06-01 CN CN200780100123A patent/CN101815996A/zh active Pending
-
2008
- 2008-10-09 TW TW097139051A patent/TW201015348A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
TW201015348A (en) | 2010-04-16 |
WO2008144964A1 (en) | 2008-12-04 |
WO2008144964A8 (en) | 2009-02-12 |
CN101815996A (zh) | 2010-08-25 |
US20100180199A1 (en) | 2010-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20100029221A (ko) | 명칭 엔터티와 신규 단어를 검출하는 것 | |
KR101524740B1 (ko) | 입력 방법 편집기 | |
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
Shaalan | A survey of arabic named entity recognition and classification | |
US8463598B2 (en) | Word detection | |
US10579733B2 (en) | Identifying codemixed text | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
KR20100052461A (ko) | 단어 확률 결정 | |
CN102725790A (zh) | 识别词典制作装置及声音识别装置 | |
KR20080085165A (ko) | 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템 | |
Ek et al. | Named entity recognition for short text messages | |
Freihat et al. | Towards an optimal solution to lemmatization in Arabic | |
JP2017004127A (ja) | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP2009258293A (ja) | 音声認識語彙辞書作成装置 | |
KR101086550B1 (ko) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
WO2015075920A1 (ja) | 入力支援装置、入力支援方法及び記録媒体 | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
CN1119758C (zh) | 汉语盲文到汉字的自动转换方法 | |
JP7115187B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Alam et al. | Improving accessibility of archived raster dictionaries of complex script languages | |
KR101461062B1 (ko) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 | |
WO2018228101A1 (zh) | 基于汉语含义的汉语编码方法及系统和介质设备 | |
JP4953431B2 (ja) | 品詞バリエーション生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20091230 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20120531 Comment text: Request for Examination of Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20131024 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20140529 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20131024 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |