KR101802051B1 - 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 - Google Patents
자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 Download PDFInfo
- Publication number
- KR101802051B1 KR101802051B1 KR1020160010591A KR20160010591A KR101802051B1 KR 101802051 B1 KR101802051 B1 KR 101802051B1 KR 1020160010591 A KR1020160010591 A KR 1020160010591A KR 20160010591 A KR20160010591 A KR 20160010591A KR 101802051 B1 KR101802051 B1 KR 101802051B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- information
- text
- target
- schema
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G06F17/30663—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G06F17/2755—
-
- G06F17/278—
-
- G06F17/30616—
-
- G06F17/30731—
-
- G06F17/30734—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 일 실시예에 따른, 텍스트에 대한 자연 언어 처리 스키마 및 지식 데이터베이스를 구축하는 방법을 나타낸다.
도 3은 일 실시예에 따른, 텍스트에 대한 자연 언어 처리 스키마를 구축하고, 그 데이터베이스를 구축하는 시스템을 나타낸다.
도 4은 일 실시예에 따른, 텍스트에 대한 자연 언어 처리 스키마를 구축하고, 그 데이터베이스를 구축하는 방법을 나타내는 흐름도이다.
도 5는 일 예에 따른, 텍스트에 포함된 단어(들)를 식별하는 방법을 나타내는 흐름도이다.
도 6은 일 예에 따른, 텍스트에 대한 자연 언어 처리 스키마를 구축하는 방법을 나타내는 흐름도이다.
도 7은 일 실시예에 따른, 텍스트에 대한 자연 언어 처리 스키마에 기반한 검색 결과 제공 방법을 나타내는 흐름도이다.
도 8은 일 예에 따른, 텍스트에 대한 자연 언어 처리 스키마를 나타낸다.
도 9a 및 9b는 일 예에 따른, 복수의 텍스트들에 대한 자연 언어 처리 스키마를 나타낸다.
Claims (14)
- 텍스트에 포함된 적어도 하나의 단어를 식별하는 단계;
상기 식별된 단어에, 상기 식별된 단어와 관련된 위치 정보를 포함하는 식별 정보를 연관시키는 단계;
상기 식별 정보에 기반하여 상기 식별된 단어 및 상기 텍스트에 포함된 다른 단어 간의 관계 정보를 식별하는 단계; 및
상기 식별 정보 및 상기 관계 정보에 기반하여 상기 텍스트에 대한 스키마를 구축하는 단계
를 포함하고,
상기 적어도 하나의 단어를 식별하는 단계는,
상기 텍스트 내에 포함된 단어들 중 상기 스키마의 구축에 유효한 목표 단어들을 결정하는 단계; 및
상기 결정된 목표 단어들을 추출하는 단계
를 포함하고,
상기 식별 정보를 연관시키는 단계는 상기 추출된 목표 단어들 각각의 식별 정보를 대응하는 목표 단어와 연관시키고,
상기 관계 정보를 식별하는 단계는, 상기 추출된 목표 단어들 중 적어도 2개의 목표 단어들 간의 관계 정보를 식별하고,
상기 스키마를 구축하는 단계는,
상기 추출된 목표 단어들 각각 및 상기 추출된 목표 단어들과 연관된 식별 정보에 포함된 위치 정보의 각각과 연관된 복수의 노드들을 결정하는 단계;
상기 추출된 목표 단어들 중, 제1 목표 단어와 연관된 제1 노드와 상기 제1 목표 단어의 위치 정보와 연관된 제1 위치 정보 노드를 연결하고, 제2 목표 단어와 연관된 제2 노드와 상기 제2 목표 단어의 위치 정보와 연관된 제2 위치 정보 노드를 연결하는 단계; 및
상기 제1 목표 단어 및 상기 제2 목표 단어 간의 관계 정보에 기반하여, 상기 제1 위치 정보 노드와 상기 제2 위치 정보 노드를 연결하는 단계
를 포함하는, 텍스트에 대한 스키마를 구축하는 방법. - 제1항에 있어서,
상기 텍스트 내에 포함된 단어는 그 자체로서 의미를 가지는 텍스트 내의 문자 또는 연속된 문자열인, 텍스트에 대한 스키마를 구축하는 방법. - 삭제
- 삭제
- 제1항에 있어서,
상기 제1 목표 단어는 사용자에 의해 입력된 검색어에 포함된 단어인, 텍스트에 대한 스키마를 구축하는 방법. - 제1항에 있어서,
상기 식별된 단어 및 상기 식별 정보의 연관 관계에 관한 정보는 데이터베이스 내에 저장되는, 텍스트에 대한 스키마를 구축하는 방법. - 제1항에 있어서,
상기 위치 정보는 상기 식별된 단어의 통합 자원 식별자(Uniform Resource Identifier; URI) 정보를 포함하고,
상기 식별 정보는 상기 식별된 단어의 품사를 나타내는 정보 및 상기 식별된 단어의 언어학적(linguistic) 정보 중 적어도 하나를 더 포함하는, 텍스트에 대한 스키마를 구축하는 방법. - 제7항에 있어서,
상기 위치 정보는 상기 텍스트가 포함된 문서 내에서의 상기 텍스트의 위치를 나타내는 정보 및 상기 식별된 단어의 상기 텍스트 내의 위치를 나타내는 정보 중 적어도 하나의 정보를 포함하고,
상기 식별 정보는 상기 식별된 단어의 형태소 분석 결과를 나타내는 정보, 상기 식별된 단어의 품사를 나타내는 정보, 상기 식별된 단어의 의미에 기반하여 분류된 카테고리를 나타내는 정보 및 상기 식별된 단어의 의미에 기반하여 분류된 카테고리의 태그를 나타내는 정보 중 적어도 하나를 더 포함하는, 텍스트에 대한 스키마를 구축하는 방법. - 제1항에 있어서,
상기 식별된 단어가 상기 텍스트와 상이한 다른 텍스트에도 포함된 단어인 경우, 상기 관계 정보를 식별하는 단계는 상기 식별된 단어 및 상기 다른 텍스트에 포함된 다른 단어 간의 관계 정보를 식별하고,
상기 스키마를 구축하는 단계는, 상기 식별된 단어의 식별 정보와 상기 식별된 단어 및 상기 다른 텍스트에 포함된 다른 단어 간의 관계 정보에 기반하여 상기 다른 텍스트에 대한 스키마를 구축하는, 텍스트에 대한 스키마를 구축하는 방법. - 제1항에 있어서,
상기 관계 정보는 상기 식별된 단어 및 상기 다른 단어 간의 의존 관계를 나타내는 정보를 포함하는, 텍스트에 대한 스키마를 구축하는 방법. - 제10항에 있어서,
상기 의존 관계는 상기 식별된 단어 및 상기 다른 단어 간의 주술 관계, 주어-목적어 관계 및 수식 관계 중 적어도 하나인, 텍스트에 대한 스키마를 구축하는 방법. - 텍스트에 포함된 적어도 하나의 단어를 식별하는 단계;
상기 식별된 단어에, 상기 식별된 단어와 관련된 위치 정보를 포함하는 식별 정보를 연관시키는 단계;
상기 식별 정보에 기반하여 상기 식별된 단어 및 상기 텍스트에 포함된 다른 단어 간의 관계 정보를 식별하는 단계;
상기 식별 정보 및 상기 관계 정보에 기반하여 상기 텍스트에 대한 스키마를 구축하는 단계 및
상기 구축된 스키마를 데이터베이스 내에 저장하는 단계
를 포함하고,
상기 적어도 하나의 단어를 식별하는 단계는,
상기 텍스트 내에 포함된 단어들 중 상기 스키마의 구축에 유효한 목표 단어들을 결정하는 단계; 및
상기 결정된 목표 단어들을 추출하는 단계
를 포함하고,
상기 식별 정보를 연관시키는 단계는 상기 추출된 목표 단어들 각각의 식별 정보를 대응하는 목표 단어와 연관시키고,
상기 관계 정보를 식별하는 단계는, 상기 추출된 목표 단어들 중 적어도 2개의 목표 단어들 간의 관계 정보를 식별하고,
상기 스키마를 구축하는 단계는,
상기 추출된 목표 단어들 각각 및 상기 추출된 목표 단어들과 연관된 식별 정보에 포함된 위치 정보의 각각과 연관된 복수의 노드들을 결정하는 단계;
상기 추출된 목표 단어들 중, 제1 목표 단어와 연관된 제1 노드와 상기 제1 목표 단어의 위치 정보와 연관된 제1 위치 정보 노드를 연결하고, 제2 목표 단어와 연관된 제2 노드와 상기 제2 목표 단어의 위치 정보와 연관된 제2 위치 정보 노드를 연결하는 단계; 및
상기 제1 목표 단어 및 상기 제2 목표 단어 간의 관계 정보에 기반하여, 상기 제1 위치 정보 노드와 상기 제2 위치 정보 노드를 연결하는 단계
를 포함하는, 텍스트에 대한 스키마의 데이터베이스를 구축하는 방법. - 텍스트에 포함된 적어도 하나의 단어를 식별하는 단계;
상기 식별된 단어에, 상기 식별된 단어와 관련된 위치 정보를 포함하는 식별 정보를 연관시키는 단계;
상기 식별 정보에 기반하여 상기 식별된 단어 및 상기 텍스트에 포함된 다른 단어 간의 관계 정보를 식별하는 단계;
상기 식별 정보 및 상기 관계 정보에 기반하여 상기 텍스트에 대한 스키마를 구축하는 단계;
사용자로부터 검색어를 수신하는 단계; 및
상기 검색어가 상기 식별된 단어를 포함할 경우, 상기 구축된 스키마에 기반한 검색 결과를 상기 검색어에 의한 상기 사용자의 검색 요청에 대한 검색 결과로서 제공하는 단계
를 포함하고,
상기 적어도 하나의 단어를 식별하는 단계는,
상기 텍스트 내에 포함된 단어들 중 상기 스키마의 구축에 유효한 목표 단어들을 결정하는 단계; 및
상기 결정된 목표 단어들을 추출하는 단계
를 포함하고,
상기 식별 정보를 연관시키는 단계는 상기 추출된 목표 단어들 각각의 식별 정보를 대응하는 목표 단어와 연관시키고,
상기 관계 정보를 식별하는 단계는, 상기 추출된 목표 단어들 중 적어도 2개의 목표 단어들 간의 관계 정보를 식별하고,
상기 스키마를 구축하는 단계는,
상기 추출된 목표 단어들 각각 및 상기 추출된 목표 단어들과 연관된 식별 정보에 포함된 위치 정보의 각각과 연관된 복수의 노드들을 결정하는 단계;
상기 추출된 목표 단어들 중, 제1 목표 단어와 연관된 제1 노드와 상기 제1 목표 단어의 위치 정보와 연관된 제1 위치 정보 노드를 연결하고, 제2 목표 단어와 연관된 제2 노드와 상기 제2 목표 단어의 위치 정보와 연관된 제2 위치 정보 노드를 연결하는 단계; 및
상기 제1 목표 단어 및 상기 제2 목표 단어 간의 관계 정보에 기반하여, 상기 제1 위치 정보 노드와 상기 제2 위치 정보 노드를 연결하는 단계
를 포함하는, 검색 결과 제공 방법. - 텍스트에 포함된 적어도 하나의 단어를 식별하고, 상기 식별된 단어에, 상기 식별된 단어와 관련된 위치 정보를 포함하는 식별 정보를 연관시키고, 상기 식별 정보에 기반하여 상기 식별된 단어 및 상기 텍스트에 포함된 다른 단어 간의 관계 정보를 식별하고, 상기 식별 정보 및 상기 관계 정보에 기반하여 상기 텍스트에 대한 스키마를 구축하는 제어부; 및
상기 구축된 스키마 및 상기 식별된 단어 및 상기 식별 정보의 연관 관계에 관한 정보 중 적어도 하나를 저장하는 저장부
를 포함하고,
상기 제어부는 상기 텍스트 내에 포함된 단어들 중 상기 스키마의 구축에 유효한 목표 단어들을 결정하고, 상기 결정된 목표 단어들을 추출하고, 상기 추출된 목표 단어들 각각의 식별 정보를 대응하는 목표 단어와 연관시키고, 상기 추출된 목표 단어들 중 적어도 2개의 목표 단어들 간의 관계 정보를 식별하고, 상기 추출된 목표 단어들 각각 및 상기 추출된 목표 단어들과 연관된 식별 정보에 포함된 위치 정보의 각각과 연관된 복수의 노드들을 결정하고, 상기 추출된 목표 단어들 중, 제1 목표 단어와 연관된 제1 노드와 상기 제1 목표 단어의 위치 정보와 연관된 제1 위치 정보 노드를 연결하고, 제2 목표 단어와 연관된 제2 노드와 상기 제2 목표 단어의 위치 정보와 연관된 제2 위치 정보 노드를 연결하고, 상기 제1 목표 단어 및 상기 제2 목표 단어 간의 관계 정보에 기반하여, 상기 제1 위치 정보 노드와 상기 제2 위치 정보 노드를 연결함으로써 상기 스키마를 구축하는, 텍스트에 포함된 정보를 처리하는 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16169778.4A EP3176708B1 (en) | 2015-12-03 | 2016-05-16 | Method and system for constructing natural language processing schema and knowledge database thereof |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20150171222 | 2015-12-03 | ||
KR1020150171222 | 2015-12-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170065417A KR20170065417A (ko) | 2017-06-13 |
KR101802051B1 true KR101802051B1 (ko) | 2017-11-27 |
Family
ID=58797533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160010591A Expired - Fee Related KR101802051B1 (ko) | 2015-12-03 | 2016-01-28 | 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101802051B1 (ko) |
WO (1) | WO2017094967A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102233464B1 (ko) * | 2020-08-13 | 2021-03-30 | 주식회사 스탠다임 | 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템 |
KR102576350B1 (ko) * | 2021-02-08 | 2023-09-07 | 서울대학교산학협력단 | 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법 |
KR102634624B1 (ko) * | 2021-05-04 | 2024-02-08 | 인제대학교 산학협력단 | 플랜트 절차서의 프로세스 모델 생성방법 및 그의 시스템 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603267B2 (en) * | 2003-05-01 | 2009-10-13 | Microsoft Corporation | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system |
US7593845B2 (en) * | 2003-10-06 | 2009-09-22 | Microsoflt Corporation | Method and apparatus for identifying semantic structures from text |
US7430504B2 (en) * | 2004-03-02 | 2008-09-30 | Microsoft Corporation | Method and system for ranking words and concepts in a text using graph-based ranking |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
-
2016
- 2016-01-27 WO PCT/KR2016/000868 patent/WO2017094967A1/ko active Application Filing
- 2016-01-28 KR KR1020160010591A patent/KR101802051B1/ko not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20170065417A (ko) | 2017-06-13 |
WO2017094967A1 (ko) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296584B2 (en) | Semantic textual analysis | |
US9448995B2 (en) | Method and device for performing natural language searches | |
CN100576201C (zh) | 用于从自然语言文本开发本体的方法和电子数据处理系统 | |
KR101522049B1 (ko) | 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석 | |
US9195644B2 (en) | Short phrase language identification | |
JP2013502643A (ja) | 構造化データ翻訳装置、システム及び方法 | |
WO2007144853A2 (en) | Method and apparatus for performing customized paring on a xml document based on application | |
Wu et al. | Searching services" on the web": A public web services discovery approach | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
CN110096599B (zh) | 知识图谱的生成方法及装置 | |
KR101802051B1 (ko) | 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템 | |
Simov et al. | Using context information for knowledge-based word sense disambiguation | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
EP3404553A1 (en) | Open information extraction method and system for extracting reified ternary relationship | |
JP7114433B2 (ja) | 名称マッチング装置及び方法 | |
KR20130099327A (ko) | 오픈 도메인 정보 추출 장치 및 방법 | |
WO2010119794A1 (en) | Information processing apparatus and information processing method | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Bimson et al. | The lexical bridge: A methodology for bridging the semantic gaps between a natural language and an ontology | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
JP2019200488A (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JP2009128967A (ja) | 文書検索装置 | |
US11520989B1 (en) | Natural language processing with keywords |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20160128 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20170119 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20171031 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20171121 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20171121 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20201026 Start annual number: 4 End annual number: 4 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20220902 |