KR102147582B1 - 속성 지식 확장 시스템 및 속성 지식 확장 방법 - Google Patents
속성 지식 확장 시스템 및 속성 지식 확장 방법 Download PDFInfo
- Publication number
- KR102147582B1 KR102147582B1 KR1020180148005A KR20180148005A KR102147582B1 KR 102147582 B1 KR102147582 B1 KR 102147582B1 KR 1020180148005 A KR1020180148005 A KR 1020180148005A KR 20180148005 A KR20180148005 A KR 20180148005A KR 102147582 B1 KR102147582 B1 KR 102147582B1
- Authority
- KR
- South Korea
- Prior art keywords
- attribute
- word
- candidate
- words
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract 11
- 239000000284 extract Substances 0.000 claims abstract 5
- 238000007670 refining Methods 0.000 claims abstract 5
- 238000010276 construction Methods 0.000 claims 5
- 238000000605 extraction Methods 0.000 claims 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.
연산자 | 표현방법 | 설명 |
어휘 | 코엑스, 요금제, 이동하다 | 구문표현에 쓰이는 어휘 자체 |
품사 | NNG, MA, VV, V_ | 형태소에 대한 한국어 품사 |
/ | 코엑스/NNG, 이동하/VV | 어휘와 품사의 구분자 |
( ) | (코엑스/NNG)+에/J_ | 우선순위 및 단위를 구분하는 한정자 |
{ } | 코엑스/NNG+에/J_ | 하나의 표현 단위(어절)로 구분하는 한정자 |
+ | 코엑스/NNG+에/J_ | 형태소를 순차적 표현을 위한 형태소간 연결자 |
| | @장소|@지역 | OR 연산자 |
& | !ETM&!EM | AND 연산자 |
! | !ETM, !NNG | NOT 연산자 |
? | @지급+(/J_)? | Zero or One-존재해도 매칭, 존재하지 않아도 매칭 |
* | NNG* | Zero or More-동일한 구성성분이 반복되도록 매칭 |
*2 | 어절 반복 (‘’는 0~2개의 어절이 매칭 가능함을 의미) |
|
@ | @지역, @장소 | 의미자질 |
₩ | 2015+-+@년 | 기호를 표기. 바로 연이어 오는 문자 한 개에 적용 |
10 : 학습데이터 구축부 20 : 어휘의미패턴 구축부
30 : 텍스트 문서 추출부 40 : 후보 단어 추출부
50 : 후보 단어 정제부 60 : 연관도 산출부
70 : 데이터베이스(DB)
Claims (12)
- 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부;
상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부;
코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부;
상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부;
상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및
상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부
를 포함하되,
상기 후보 단어 정제부는 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 것을 특징으로 하는 속성 지식 확장 시스템.
[수식 1]
[수식 2]
for
(여기서, 는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고, 은 전체 문서의 수를 의미하고, 은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고, 는 어떤 사건 가 번 일어날 확률을 의미하고, 는 단어 출현 빈도를 의미한다.) - 삭제
- 학습데이터 구축부는 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계;
어휘의미패턴 구축부는 상기 학습데이터 구축부에 의해 구축된 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계;
텍스트 문서 추출부는 DB에 저장된 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계;
후보 단어 추출부는 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계;
후보 단어 정제부는 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계;
연관도 산출부는 상기 후보 단어 정제부에 의해 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및
상기 연관도 산출부는 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계
를 포함하되,
상기 후보 단어 정제부가 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
[수식 1]
[수식 2]
for
(여기서, 는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고, 은 전체 문서의 수를 의미하고, 은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고, 는 어떤 사건 가 번 일어날 확률을 의미하고, 는 단어 출현 빈도를 의미한다.) - 삭제
- 제10항에 있어서, 상기 연관도 산출부가 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
상기 연관도 산출부가 상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보()의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보()의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함하는 속성 지식 확장 방법.
[수식 4]
(여기서, 는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고, 는 속성 단어들의 집합을 의미하고, 은 속성 단어의 수를 의미한다.)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180148005A KR102147582B1 (ko) | 2018-11-27 | 2018-11-27 | 속성 지식 확장 시스템 및 속성 지식 확장 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180148005A KR102147582B1 (ko) | 2018-11-27 | 2018-11-27 | 속성 지식 확장 시스템 및 속성 지식 확장 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200068769A KR20200068769A (ko) | 2020-06-16 |
KR102147582B1 true KR102147582B1 (ko) | 2020-08-26 |
Family
ID=71141795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180148005A Active KR102147582B1 (ko) | 2018-11-27 | 2018-11-27 | 속성 지식 확장 시스템 및 속성 지식 확장 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102147582B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220055277A (ko) * | 2020-10-26 | 2022-05-03 | 삼성에스디에스 주식회사 | 텍스트 데이터 증강 장치 및 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486654B (zh) * | 2021-07-28 | 2024-04-26 | 焦点科技股份有限公司 | 一种基于先验主题聚类的敏感词库构建与扩展方法 |
CN114490998B (zh) * | 2021-12-28 | 2022-11-08 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备和存储介质 |
WO2024181589A1 (ko) * | 2023-02-27 | 2024-09-06 | 코드크레인 유한회사 | 학습데이터를 확장하는 시스템 및 그 제공 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101806151B1 (ko) * | 2016-07-21 | 2017-12-07 | 숭실대학교산학협력단 | 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877196A (ja) * | 1994-09-08 | 1996-03-22 | Fujitsu Ltd | 文書情報抽出装置 |
KR101948257B1 (ko) * | 2016-11-30 | 2019-02-15 | 주식회사 와이즈넛 | 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 |
-
2018
- 2018-11-27 KR KR1020180148005A patent/KR102147582B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101806151B1 (ko) * | 2016-07-21 | 2017-12-07 | 숭실대학교산학협력단 | 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 |
Non-Patent Citations (2)
Title |
---|
Misbah A.M. 외, mining opinions in Arabic text using an improved "Semantic Orientation using Pointwise Mutual Information" Algorithm", INFOS 컨퍼런스 논문집 pp.61-19 (2012) |
김문종 외, 구문 의미 이해 기반의 VOC 요약 및 분류, 정보과학회 ‘컴퓨팅의 실제’논문지 vol.22 no.1, pp.50-55 (2016.01.) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220055277A (ko) * | 2020-10-26 | 2022-05-03 | 삼성에스디에스 주식회사 | 텍스트 데이터 증강 장치 및 방법 |
KR102617753B1 (ko) | 2020-10-26 | 2023-12-27 | 삼성에스디에스 주식회사 | 텍스트 데이터 증강 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20200068769A (ko) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102147582B1 (ko) | 속성 지식 확장 시스템 및 속성 지식 확장 방법 | |
CN113312530B (zh) | 一种以文本为核心的多模态情感分类方法 | |
CN111291210B (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
US20080243905A1 (en) | Attribute extraction using limited training data | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN108268539A (zh) | 基于文本分析的视频匹配系统 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN105930836A (zh) | 一种视频文字的识别方法和装置 | |
KR101696499B1 (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
US20140348400A1 (en) | Computer-readable recording medium storing program for character input | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
WO2017193472A1 (zh) | 一种东巴经典古籍数字化释读库的建立方法 | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
KR20090068380A (ko) | 개선된 이동 통신 단말 | |
JP2020042684A (ja) | 検索装置、検索方法及びプログラム | |
CN112906391B (zh) | 元事件抽取方法、装置、电子设备和存储介质 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN115438223A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN106156340A (zh) | 一种命名实体链接方法 | |
JP2018116701A (ja) | 印鑑画像の処理装置、方法及び電子機器 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN116089623A (zh) | 知识图谱构建方法、平台及计算机存储介质 | |
CN113010573A (zh) | 一种关联关系提取方法、装置及电子设备 | |
JP2005107931A (ja) | 画像検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20181127 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200114 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200727 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200818 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200818 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230614 Start annual number: 4 End annual number: 4 |