[go: up one dir, main page]

KR102147582B1 - 속성 지식 확장 시스템 및 속성 지식 확장 방법 - Google Patents

속성 지식 확장 시스템 및 속성 지식 확장 방법 Download PDF

Info

Publication number
KR102147582B1
KR102147582B1 KR1020180148005A KR20180148005A KR102147582B1 KR 102147582 B1 KR102147582 B1 KR 102147582B1 KR 1020180148005 A KR1020180148005 A KR 1020180148005A KR 20180148005 A KR20180148005 A KR 20180148005A KR 102147582 B1 KR102147582 B1 KR 102147582B1
Authority
KR
South Korea
Prior art keywords
attribute
word
candidate
words
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020180148005A
Other languages
English (en)
Other versions
KR20200068769A (ko
Inventor
홍범석
김문종
박태수
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020180148005A priority Critical patent/KR102147582B1/ko
Publication of KR20200068769A publication Critical patent/KR20200068769A/ko
Application granted granted Critical
Publication of KR102147582B1 publication Critical patent/KR102147582B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 본 발명의 실시예에 따르는 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.

Description

속성 지식 확장 시스템 및 속성 지식 확장 방법{PROPERTY KNOWLEDGE EXTENSION SYSTEM AND PROPERTY KNOWLEDGE EXTENSION METHOD USING IT}
본 발명은 속성 지식 확장 시스템 및 속성 지식 확장 방법에 관한 것으로, 더욱 상세하게는 자연어 문장에서 속성으로 학습한 정보를 추출하고 이 정보를 기반으로 학습되지 않은 새로운 속성정보를 속성 지식 확장 시스템을 통해 추출하는 방법에 관한 것이다.
최근 스마트폰, 디지털 카메라, CCTV, 차량용 블랙박스 등의 보급과 확산으로 인하여 이미지 및 영상 데이터가 폭발적으로 증가하고 있다. 그런데, 인력을 통해 이미지 및 영상 데이터를 직접 분석하는 것은 효율적이지 않을 뿐만 아니라 투입 인력의 한계에 부딪힌다. 이러한 문제점을 극복하기 위해 영상의 객체를 편리하게 인식하기 위한 많은 연구가 진행되어 왔다.
한편, 종래의 객체인식기술은 사람, 사물, 배경, 행동, 얼굴 등의 다양한 객체를 인식할 수 있었다. 그리고, 최근의 연구 동향은 저장된 영상 매체를 분석하는 것에서 실시간 영상 매체에서 객체를 인식하는 방향으로 발전하고 있으며, 특정 객체에 관해서는 높은 수준으로 인식이 가능한 수준에 이르렀다. 이러한 객체인식기술은 범죄 또는 재해 예방/감지와 같은 다양한 응용 영역의 공공서비스에 활용되고 있다.
그런데, 영상에서 인식한 다양한 객체를 찾기 위해서는 검색 기능이 필요한데, 이때 텍스트 검색으로 객체 속성 정보를 포함하여 검색하면 객체의 정확한 검색이 가능하다. 여기서, 객체 속성 정보란 해당 객체에 속하는 특징을 의미한다. 예를 들면, 검색할 질의 문장이“노란색 셔츠와 파란 바지를 입은 여자가 검은색 핸드백을 들고 주차장을 나오고 있다.”일 때, 객체는 사람이고 셔츠와 바지, 핸드백과 각 색상들이 속성 정보에 해당한다. 이와 같이, 객체 속성 정보를 검색에 포함하여 찾고자 하는 객체를 한정하면 검색의 정확도를 높일 수 있다.
상술한 바와 같이, 객체 속성 정보를 검색에 이용하려면 질의 문장에서 어떤 단어가 속성 정보인지를 판단해야 하고, 어떤 속성 정보에 해당하는지 구분해야 한다. 이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 방법과 지도 학습 기반의 방법을 개발하였다.
첫째로, 규칙 기반 방법은 속성 정보에 해당하는 단어 사전을 수동으로 구축하고, 속성 정보의 분류를 위한 규칙을 수동으로 정의하는 방법이다. 그러나, 이와 같은 방법은 속성 정보와 규칙이 많아질수록 변경과 관리가 어려워지며, 새로운 객체에 적용할 때마다 속성 정보를 위한 규칙과 사전을 새로 구축해야 하므로 많은 시간과 비용이 요구되는 단점이 있다.
둘째로, 지도 학습 방법은 학습데이터로부터 속성 정보를 구분하고 분류하는데 필요한 지식과 규칙을 자동적으로 분석하는 방법이다. 하지만 학습데이터는 일반 문장에서 속성에 해당하는 단어와 품사, 속성 분류에 대한 정보를 수동으로 태깅하여 구축한다. 따라서 태깅된 학습데이터를 생성하는데 많은 비용이 요구되어, 풍부한 학습데이터를 확보하기가 어렵다는 단점이 있다. 또한, 속성 정보의 종류는 제한적이지 않으며 새롭게 추가될 수 있고, 객체마다 다른 속성 정보를 가지고 있기 때문에 새로운 객체가 추가될 때마다 학습데이터를 구축하는데 많은 인력과 시간이 소모된다는 문제점이 있다.
이러한 문제점을 해결하고자 본 발명에서는 초기 학습데이터를 기반으로 어휘의미패턴(LSP; Lexico-Semantic-Pattern)을 이용하여 속성 후보 단어들을 추출하고, 추출된 속성 후보 단어들로부터 속성 정보를 결정하며, 결정된 속성 정보를 학습데이터에 추가하는 방식으로 학습데이터를 확장하는 방법을 제안하고자 한다.
본 발명은 상기한 문제점을 해결하기 위해 창안된 것으로서, 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결하기 위해 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장하는 장치 및 방법을 제공하는데 그 목적이 있다.
또한, 본 발명의 다른 목적은 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하는 것이 가능함으로써, 보다 정확하고 확장된 학습데이터를 포함한 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 시스템은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부를 포함할 수 있다.
상기 후보 단어 정제부는 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 것을 특징으로 한다.
[수식 1]
Figure 112018118054305-pat00001
[수식 2]
Figure 112018118054305-pat00002
for
Figure 112018118054305-pat00003
여기서,
Figure 112018118054305-pat00004
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
Figure 112018118054305-pat00005
은 전체 문서의 수를 의미하고,
Figure 112018118054305-pat00006
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
Figure 112018118054305-pat00007
는 어떤 사건
Figure 112018118054305-pat00008
Figure 112018118054305-pat00009
번 일어날 확률을 의미하고,
Figure 112018118054305-pat00010
는 단어 출현 빈도를 의미한다.
상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure 112018118054305-pat00011
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 한다.
상기 연관도 산출부는 하기 [수식 3]을 이용하여 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 한다.
[수식 3]
Figure 112018118054305-pat00012
여기서,
Figure 112018118054305-pat00013
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00014
는 후보 단어를 의미하고,
Figure 112018118054305-pat00015
는 속성 단어를 의미한다.
상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure 112018118054305-pat00016
)의 평균값을 산출하고, 산출된 점상호정보(
Figure 112018118054305-pat00017
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 한다.
[수식 4]
Figure 112018118054305-pat00018
여기서,
Figure 112018118054305-pat00019
Figure 112018118054305-pat00020
는 속성 단어들의 집합을 의미하고,
Figure 112018118054305-pat00021
은 속성 단어의 수를 의미한다.
상기 연관도 산출부는 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure 112018118054305-pat00022
) 값이 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 한다.
[수식 5]
Figure 112018118054305-pat00023
for
Figure 112018118054305-pat00024
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 속성 지식 확장 방법은, 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계; 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계; 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계; 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계; 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계; 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 포함할 수 있다.
상기 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
[수식 1]
Figure 112018118054305-pat00025
[수식 2]
Figure 112018118054305-pat00026
for
Figure 112018118054305-pat00027
여기서,
Figure 112018118054305-pat00028
는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
Figure 112018118054305-pat00029
은 전체 문서의 수를 의미하고,
Figure 112018118054305-pat00030
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
Figure 112018118054305-pat00031
는 어떤 사건
Figure 112018118054305-pat00032
Figure 112018118054305-pat00033
번 일어날 확률을 의미하고,
Figure 112018118054305-pat00034
는 단어 출현 빈도를 의미한다.
상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure 112018118054305-pat00035
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인 것을 특징으로 한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.
[수식 3]
Figure 112018118054305-pat00036
여기서,
Figure 112018118054305-pat00037
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00038
는 후보 단어를 의미하고,
Figure 112018118054305-pat00039
는 속성 단어를 의미한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure 112018118054305-pat00040
)의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
Figure 112018118054305-pat00041
)의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함한다.
[수식 4]
Figure 112018118054305-pat00042
여기서,
Figure 112018118054305-pat00043
Figure 112018118054305-pat00044
는 속성 단어들의 집합을 의미하고,
Figure 112018118054305-pat00045
은 속성 단어의 수를 의미한다.
상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure 112018118054305-pat00046
) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함한다.
[수식 5]
Figure 112018118054305-pat00047
for
Figure 112018118054305-pat00048
개시된 기술의 실시 예들은 다음의 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
첫째, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 효과가 있다.
둘째, 코퍼스에서 구문 패턴 표현 매칭으로 찾은 모든 속성 후보 단어들 중에서 정제 과정 및 속성 단어와의 연관도 산출 과정을 통해서 각 문서를 대표하는 단어들만 속성 단어로 분류하여 보다 정확한 지식 구축이 가능한 효과가 있다.
셋째, 확장된 학습데이터로 학습한 속성 인식 시스템을 사용하여 보다 많은 속성 정보를 포함하여 검색이 가능해지는 효과가 있다.
셋째, 확장된 학습데이터로 학습한 속성 인식 시스템을 사용하여 보다 많은 속성 정보를 포함하여 검색이 가능해지는 효과가 있다.
도 1은 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 인식 시스템을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 지도 학습 기반의 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조할 수 있다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명에서 객체 속성은 해당 객체의 특징을 의미하고, 속성은 특징을 표현하는 단어를 의미한다. 또한, 후보 단어는 속성 단어에 해당될 수 있는 후보 단어로, 속성 후보 단어로 표현될 수 있다. 또한, 본 발명에서는 뉴스 기사 등과 같은 일반 텍스트 문서를 이용하여 초기 학습데이터를 구축할 수 있으며, 구축된 초기 학습데이터를 기반으로 속성 지식 확장 시스템을 이용하여 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색이 가능하다.
이하 도 1을 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 설명한다. 도 1은 본 발명의 일 실시예에 따른 속성 지식 확장 시스템을 개략적으로 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 속성 지식 확장 시스템(100)은 학습데이터 구축부(10), 어휘의미패턴 구축부(20), 텍스트 문서 추출부(30), 후보 단어 추출부(40), 후보 단어 정제부(50), 연관도 산출부(60) 및 DB(70)를 포함할 수 있다.
예를 들어,“빨간 상의와 청바지를 입은 아이가 주차장에서 나오고 있다”라는 CCTV 영상이 있다고 가정하자. 이때, 일반적인 CCTV 영상은 상술한 영상 이미지를 설명하기 위한 문장 단위의 데이터로 만드는 과정이 있다. 이처럼 영상으로부터 출력된 문장 단위의 데이터에서 원하는 사람을 쉽게 검색하고자 할 때, 주차장이라는 장소 또는 사람의 특징 등을 표현하는 다량의 속성 정보라는 것이 필요하다.
이러한 속성 정보를 확장하기 위해서, 본 발명의 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다. 아래의 예문 1을 예로 들어 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하는 방법에 대하여 자세히 설명한다.
예문 1
빨간 상의와 청바지를 입은 아이
학습데이터 구축부(10)가 예문 1을 형태소 분석을 수행한 뒤에 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하면 아래 예문 2의 결과가 나오게 된다.
예문 2
빨갛 VA B_COLOR
ㄴ ETM I
상의 NNG B_CLOTHES
와 JKB O
청바지 NNG B_CLOTHES
를 JKO O
입 VV O
은 ETM O
아이 NNG B_PERSON
여기서, B_는 속성분류명으로 해당 속성의 시작 지점을 의미하고, I는 이전 속성분류명의 연속을 의미하며, O는 속성분류명이 없음을 나타낸다. 예문 2에서 객체의 속성을 의미하는‘빨간’은 ‘빨갛’과 ‘ㄴ’이라는 두 개의 형태소가 합쳐져야 하나의 속성이 된다는 것을 의미한다.
학습데이터 구축부(10)가 상술한 바와 같은 양식으로 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 속성 지식을 확장한다.
어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다. 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.
여기서, LSP(어휘의미패턴, Lexico-Semantic-Pattern)를 구축할 때는 텍스트를 매칭하기 위한 정규식과 유사한 구문 패턴 표현으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어,‘이번달 핸드폰 요금이 얼마?’라고 입력을 한다면, 이를 분석하기 위해서 LSP는‘@phone @pay+(/J_)? @how+(/SC)?’와 같이 구성될 수 있다. 여기서‘@’는 의미자질을 의미하며,‘/’가 앞에 들어간 것은 형태소 태그를 의미하고,‘/J_’는 조사를 의미하며,‘*1’은 최대 1개의 어절을 의미한다. 아래의 표 1은 LSP를 표현하기 위하여 사용된 기호(연산자와 품사)의 의미를 설명한 것이다.
연산자 표현방법 설명
어휘 코엑스, 요금제, 이동하다 구문표현에 쓰이는 어휘 자체
품사 NNG, MA, VV, V_ 형태소에 대한 한국어 품사
/ 코엑스/NNG, 이동하/VV 어휘와 품사의 구분자
( ) (코엑스/NNG)+에/J_ 우선순위 및 단위를 구분하는 한정자
{ } 코엑스/NNG+에/J_ 하나의 표현 단위(어절)로 구분하는 한정자
+ 코엑스/NNG+에/J_ 형태소를 순차적 표현을 위한 형태소간 연결자
| @장소|@지역 OR 연산자
& !ETM&!EM AND 연산자
! !ETM, !NNG NOT 연산자
? @지급+(/J_)? Zero or One-존재해도 매칭, 존재하지 않아도 매칭
* NNG* Zero or More-동일한 구성성분이 반복되도록 매칭
*2 어절 반복
(‘’는 0~2개의 어절이 매칭 가능함을 의미)
@ @지역, @장소 의미자질
2015+-+@년 기호를 표기. 바로 연이어 오는 문자 한 개에 적용
상술한 바와 같이 LSP는 어휘, 품사, 형태소를 포함하여 문장의 의미를 나타내는 구문 구조를 가지며 의미자질과 패턴 기호로 이루어져 있다. 아래의 예문 3은 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 어휘의미패턴 구축부(20)가 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한 예시이다.
예문 3
빨간 상의와 청바지를 입은 아이→ /VA+/ETM /NNG+/J_ /NNG+/J_ @입다
후드티와 청바지를 입고 → /NNG+/J_ /NNG+/J_ @입다
마스크와 모자를 쓴 체 → /NNG+/J_ /NNG+/J_ @쓰다
티셔츠와 팬츠를 맞춰 입어 → /NNG+/J_ /NNG+/J_ *1 @입다
검은 가죽 재킷 차림으로 입국했다.→ /VA+/ETM /NNG* 차림으로
점퍼 차림으로 나타났다.→ /NNG 차림으로
상술한 바와 같이, 어휘의미패턴 구축부(20)는 초기 학습데이터 문장에서 객체의 특징을 나타내는 속성에 해당할 수 있는 부분을 예시와 같이 생성한다.
텍스트 문서 추출부(30)는 DB(70)에 저장된 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합에서 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출한다.
후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다.
예를 들면, 후보 단어 추출부(40)는 LSP로 표현된‘빨간 상의와 청바지를 입은 아이’에 매칭되는‘파란 셔츠와 반바지를 입은 사람’이라는 문장 패턴인 후보 문장을 검출하고 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어인‘파란 셔츠’,‘반바지’를 후보 단어로서 추출할 수 있다. 이와 같은 방식으로, 후보 단어 추출부(40)는 객체 속성이 있던 위치에 등장한 속성 후보 단어들을 추출할 수 있다. 본 발명에서는 상술한 바와 같이 코퍼스에서 LSP 매칭으로 찾은 모든 속성 후보 단어들 중에서 각 문서를 대표하는 단어들만 속성 단어로 분류할 수 있다.
이를 위해서, 본 발명의 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제하는 역할을 수행한다. 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용한다. 여기서, 실제 문서 빈도수(RDF)는 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값이고, 예측 문서 빈도수(EDF)는 해당 단어가 코퍼스에 등장할 확률을 이용하여 문서 빈도수를 예측한 값이다. 후보 단어 정제부(50)는 다음 [수식 1]을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)를 구할 수 있다.
[수식 1]
Figure 112018118054305-pat00049
여기서,
Figure 112018118054305-pat00050
은 전체 문서의 수를 의미하며,
Figure 112018118054305-pat00051
은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미한다.
또한, 해당 단어가 코퍼스에 등장할 확률을 계산하기 위해서는 포아송 확률 분포(Poisson Distribution)를 이용하였으며, 다음 [수식 2]를 따른다.
[수식 2]
Figure 112018118054305-pat00052
for
Figure 112018118054305-pat00053
여기서,
Figure 112018118054305-pat00054
은 전체 문서의 수를 의미하고,
Figure 112018118054305-pat00055
는 어떤 사건
Figure 112018118054305-pat00056
Figure 112018118054305-pat00057
번 일어날 확률을 의미하고,
Figure 112018118054305-pat00058
는 단어 출현 빈도를 의미한다.
상술한 바와 같이, 후보 단어 정제부(50)는 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 여기서, 후보 단어 정제부(50)에 의해 계산된 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure 112018118054305-pat00059
)이 1에 가까우면 해당 단어가 코퍼스에서 원래 나타날 확률이므로 문서를 대표하지 않을 확률이 높으며 중요하지 않은 단어라고 판단한다. 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure 112018118054305-pat00060
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다. 상기 0.9~1.3 범위는 코퍼스의 양에 따라서 변경 가능한 값이다.
연관도 산출부(60)는 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다. 연관도 산출부(60)는 연관도를 계산하기 위한 방법으로 점상호정보(PMI, Pointwise Mutual Information)를 이용한다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(
Figure 112018118054305-pat00061
)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(
Figure 112018118054305-pat00062
)을 가지고, 후보 단어와 속성 단어 간의 연관도를 [수식 3]을 이용하여 산출할 수 있다.
[수식 3]
Figure 112018118054305-pat00063
여기서,
Figure 112018118054305-pat00064
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00065
는 후보 단어를 의미하고,
Figure 112018118054305-pat00066
는 속성 단어를 의미한다. 예를 들어, 후보 단어는 100문서에 등장하고 속성 단어는 200문서에 등장하는데, 후보 단어와 속성 단어인 두 단어가 동시에 같이 등장한 문서가 10문서인 경우,
Figure 112018118054305-pat00067
는 작은 값을 가지므로, 두 단어 간 연관도는 낮은 것으로 판단할 수 있다. 상술한
Figure 112018118054305-pat00068
개념을 이용하여 연관도 산출부(60)는 후보 단어와 속성 단어들의 점상호정보(PMI)를 산출할 수 있고, 다음 [수식 4]를 이용하여 산출된 후보 단어와 속성 단어의 연관도의 평균값을 산출할 수 있다.
[수식 4]
Figure 112018118054305-pat00069
여기서,
Figure 112018118054305-pat00070
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00071
는 속성 단어들의 집합을 의미하고,
Figure 112018118054305-pat00072
은 속성 단어의 수를 의미한다.
또한, 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보의 평균값을 [수식 4]를 이용하여 산출하고, 산출된 점상호정보의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다. 또한, 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.
[수식 5]
Figure 112018118054305-pat00073
for
Figure 112018118054305-pat00074
그리고, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure 112018118054305-pat00075
) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.
DB(70)는 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터, 어휘의미패턴 구축부(20)에 의해 구축된 어휘의미패턴(LSP), 코퍼스(Corpus)라고 불리는 속성이 표시되지 않은 일반 텍스트 문서 집합, 그리고 후보 단어들의 정제 및 후보 단어와 속성 단어 간의 연관도 측정을 통해 후보 단어들에서 속성 단어로 선정된 단어들을 저장할 수 있다.
이와 같이, 본 발명의 속성 지식 확장 시스템(100)은 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다.
이하 도 2를 참조하여 본 발명의 일 실시예에 따른 속성 지식 확장 방법에 대하여 자세히 설명한다. 여기서, 도 2는 본 발명의 일 실시예에 따른 속성 지식 확장 방법을 순차적으로 나타낸 순서도이다.
도 2를 참조하면, 우선 학습데이터 구축부(10)는 뉴스 기사 등과 같은 일반 텍스트 문서에서 속성이라는 단어가 등장한 텍스트 데이터를 찾아서 형태소 분석을 수행한 뒤에, 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하여 초기 학습데이터를 구축한다(S100). 이때, 학습데이터 구축부(10)가 초기 학습데이터를 구축하면, 속성 지식 확장 시스템(100)은 구축된 초기 학습데이터를 기반으로 새로운 속성 정보를 추출하고, 정확한 지식 구축을 통해 학습데이터를 확장하여, 더 많은 속성 정보를 포함한 검색을 가능하게 한다.
이후, 어휘의미패턴 구축부(20)는 초기 학습데이터를 확장하기 위해서, 학습데이터 구축부(10)에 의해 구축된 초기 학습데이터에서 속성에 해당할 수 있는 중요한 부분을 어휘의미패턴(LSP)화한다(S110). 즉, 어휘의미패턴 구축부(20)는 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축할 수 있다.
단계 S110 이후, 후보 단어 추출부(40)는 텍스트 문서 추출부(30)에 의해 추출된 일반 텍스트 문서에서 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 속성 정보에 대한 후보 단어로서 추출한다(S120).
단계 S120 이후, 후보 단어 정제부(50)는 속성 정보에 대한 후보 단어들에서 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 후보 단어 추출부(40)에 의해 추출된 후보 단어들을 정제한다(S130). 이때, 후보 단어 정제부(50)는 예측 문서 빈도수(EDF, Expected Document Frequency)와 실제 문서 빈도수(RDF, Real Document Frequency)라는 개념을 이용하여 해당 단어가 한번이라도 나오게 될 확률인 예측 문서 빈도수(EDF)와 해당 단어가 코퍼스에 등장한 빈도수를 계산한 값인 실제 문서 빈도수(RDF)를 계산할 수 있다. 그리고, 후보 단어 정제부(50)는 중요하지 않은 단어를 제거하기 위해, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
Figure 112018118054305-pat00076
)이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외한다.
단계 S130 이후, 연관도 산출부(60)는 단계 S130에서 정제된 후보 단어들 중에서 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출한다(S140). 이때, 연관도 산출부(60)는 점상호정보(PMI, Pointwise Mutual Information)를 이용하여 정제된 후보 단어들과 속성 단어 간의 연관도를 계산할 수 있다. 구체적으로, 연관도 산출부(60)는 후보 단어와 속성 단어인 두 단어가 한 문서 내에서 동시에 등장할 확률(
Figure 112018118054305-pat00077
)과, 후보 단어 또는 속성 단어가 문서 내에서 등장할 확률(
Figure 112018118054305-pat00078
)을 가지고, 후보 단어와 속성 단어 간의 연관도를 [수식 3]을 이용하여 산출할 수 있다.
[수식 3]
Figure 112018118054305-pat00079
여기서,
Figure 112018118054305-pat00080
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00081
는 후보 단어를 의미하고,
Figure 112018118054305-pat00082
는 속성 단어를 의미한다.
또한, 단계 S140에서 연관도 산출부(60)는 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
Figure 112018118054305-pat00083
)의 평균값을 아래의 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
Figure 112018118054305-pat00084
)의 평균값을 통해 후보 단어들이 속성 단어에 해당하는지 여부를 판단할 수 있다.
[수식 4]
Figure 112018118054305-pat00085
여기서,
Figure 112018118054305-pat00086
는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
Figure 112018118054305-pat00087
는 속성 단어들의 집합을 의미하고,
Figure 112018118054305-pat00088
은 속성 단어의 수를 의미한다.
또한, 단계 S140에서 단계 S130에서 정제된 후보 단어들 중에서 속성 단어를 결정하기 위한 기준값인 임계치를 다음의 [수식 5]에 따라 정의할 수 있다.
[수식 5]
Figure 112018118054305-pat00089
for
Figure 112018118054305-pat00090
단계 S140 이후, 연관도 산출부(60)는 후보 단어 정제부(50)에 의해 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
Figure 112018118054305-pat00091
) 값이 상기 [수식 5]에 의해 정의된 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어를 DB(70)에 저장된 초기 학습데이터에 계속적으로 추가하여 저장 및 등록함으로써 결정된 속성 단어와 매칭된 문장을 기준으로 초기 학습 데이터를 확장할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 따르면 초기 적은 양의 학습데이터로 후보 단어들을 선정하고 정제하며 속성 단어와의 연관도를 측정하는 과정을 통해서 후보 단어들 중에서 속성 단어를 결정하여 초기 학습데이터에 저장 및 등록하는 객체의 속성정보에 대한 지식 확장 과정을 거친다. 예컨대, 상술한 객체의 속성정보에 대한 지식 확장 과정은 관리자에 의해 설정된 일정 횟수 동안 또는 더 이상의 새로운 의미자질이 추출되지 않을 때까지 반복적으로 수행될 수 있다.
즉, 본 발명에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법에 따르면, 초기의 학습데이터를 기반으로 어휘의미패턴(LSP)을 구축하고, 일반 텍스트 문서에서 객체 속성 지식을 추출하며 초기 학습데이터에 포함된 속성 단어와 일반 텍스트 문서에서 추출된 객체 속성 지식 간의 연관도 측정을 통해 학습데이터를 자동으로 확장함으로써 종래 지도 학습 방법의 한계점인 다량의 학습데이터 확보의 어려움을 해결할 수 있다. 이에 따라, 초기 적은 양의 학습데이터로 객체의 속성정보에 대한 지식 확장이 가능하므로 인력과 시간 비용이 줄어들고, 새로운 객체에 적용할 때에도 적은 비용으로 학습데이터를 구축할 수 있는 종래 기술 대비 현저하고도 유리한 효과가 있다.
참고로, 본 발명의 바람직한 여러 가지 실시 예에 따른 속성 지식 확장 시스템 및 속성 지식 확장 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 명세서의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 명세서의 범위에 포함되는 것으로 해석되어야 한다.
한편, 본 명세서와 도면에는 본 명세서의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 명세서의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 명세서의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 명세서의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
100 : 속성 지식 확장 시스템
10 : 학습데이터 구축부 20 : 어휘의미패턴 구축부
30 : 텍스트 문서 추출부 40 : 후보 단어 추출부
50 : 후보 단어 정제부 60 : 연관도 산출부
70 : 데이터베이스(DB)

Claims (12)

  1. 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 학습데이터 구축부;
    상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 어휘의미패턴 구축부;
    코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 텍스트 문서 추출부;
    상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 후보 단어 추출부;
    상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 후보 단어 정제부; 및
    상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 연관도 산출부
    를 포함하되,
    상기 후보 단어 정제부는 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 1]
    Figure 112020008509479-pat00142

    [수식 2]
    Figure 112020008509479-pat00143
    for
    Figure 112020008509479-pat00144

    (여기서,
    Figure 112020008509479-pat00145
    는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
    Figure 112020008509479-pat00146
    은 전체 문서의 수를 의미하고,
    Figure 112020008509479-pat00147
    은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
    Figure 112020008509479-pat00148
    는 어떤 사건
    Figure 112020008509479-pat00149
    Figure 112020008509479-pat00150
    번 일어날 확률을 의미하고,
    Figure 112020008509479-pat00151
    는 단어 출현 빈도를 의미한다.)
  2. 삭제
  3. 제1항에 있어서, 상기 후보 단어 정제부는 예측 문서 빈도수와 실제 문서 빈도수의 비율(
    Figure 112020008509479-pat00102
    )이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 것을 특징으로 하는 속성 지식 확장 시스템.
  4. 제1항에 있어서,
    상기 연관도 산출부는 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 3]
    Figure 112018118054305-pat00103

    (여기서,
    Figure 112018118054305-pat00104
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure 112018118054305-pat00105
    는 후보 단어를 의미하고,
    Figure 112018118054305-pat00106
    는 속성 단어를 의미한다.)
  5. 제4항에 있어서,
    상기 연관도 산출부는 하기 [수식 4]를 이용하여 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
    Figure 112018118054305-pat00107
    )의 평균값을 산출하고, 산출된 점상호정보(
    Figure 112018118054305-pat00108
    )의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 4]
    Figure 112018118054305-pat00109

    (여기서,
    Figure 112018118054305-pat00110
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure 112018118054305-pat00111
    는 속성 단어들의 집합을 의미하고,
    Figure 112018118054305-pat00112
    은 속성 단어의 수를 의미한다.)
  6. 제5항에 있어서,
    상기 연관도 산출부는 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
    Figure 112018118054305-pat00113
    ) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 것을 특징으로 하는 속성 지식 확장 시스템.
    [수식 5]
    Figure 112018118054305-pat00114
    for
    Figure 112018118054305-pat00115
  7. 학습데이터 구축부는 일반 텍스트 문서에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 형태소, 품사 및 속성 분류명으로 구성된 양식으로 변환하고, 이를 초기 학습데이터로 구축하는 단계;
    어휘의미패턴 구축부는 상기 학습데이터 구축부에 의해 구축된 상기 초기 학습데이터에서 객체의 속성 정보에 해당하는 텍스트 데이터를 추출하여 어휘의미패턴(LSP)을 구축하는 단계;
    텍스트 문서 추출부는 DB에 저장된 코퍼스(corpus)로부터 상기 객체의 속성 정보가 표시되지 않은 일반 텍스트 문서를 추출하는 단계;
    후보 단어 추출부는 상기 일반 텍스트 문서에서 상기 LSP에 매칭되는 후보 문장을 검출하고, 검출된 후보 문장에서 상기 객체의 속성 정보에 해당하는 부분의 위치에 등장하는 단어들을 상기 속성 정보에 대한 후보 단어로서 추출하는 단계;
    후보 단어 정제부는 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하기 위해 상기 후보 단어들을 정제하는 단계;
    연관도 산출부는 상기 후보 단어 정제부에 의해 상기 정제된 후보 단어들 중에서 상기 객체의 속성 정보를 확장하기 위한 속성 단어를 결정하기 위해 후보 단어와 속성 단어의 연관도를 산출하는 단계; 및
    상기 연관도 산출부는 상기 산출된 연관도에 기초하여 상기 후보 단어들 중에서 속성 단어를 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계
    를 포함하되,
    상기 후보 단어 정제부가 후보 단어들을 정제하는 단계는, 다음의 수식들을 이용하여 상기 속성 정보에 대한 후보 단어들에서 상기 일반 텍스트 문서를 대표하지 않는 단어들을 구분하여 상기 후보 단어들을 정제하는 단계인, 속성 지식 확장 방법.
    [수식 1]
    Figure 112020008509479-pat00152

    [수식 2]
    Figure 112020008509479-pat00153
    for
    Figure 112020008509479-pat00154

    (여기서,
    Figure 112020008509479-pat00155
    는 예측 문서 빈도수(EDF, Expected Document Frequency)를 의미하고,
    Figure 112020008509479-pat00156
    은 전체 문서의 수를 의미하고,
    Figure 112020008509479-pat00157
    은 해당 단어가 코퍼스에 등장하지 않을 확률을 의미하고,
    Figure 112020008509479-pat00158
    는 어떤 사건
    Figure 112020008509479-pat00159
    Figure 112020008509479-pat00160
    번 일어날 확률을 의미하고,
    Figure 112020008509479-pat00161
    는 단어 출현 빈도를 의미한다.)
  8. 삭제
  9. 제7항에 있어서, 상기 후보 단어 정제부가 상기 후보 단어들을 정제하는 단계는, 예측 문서 빈도수와 실제 문서 빈도수의 비율(
    Figure 112020008509479-pat00126
    )이 확률분포에서 전체 68%에 해당하는 1 표준편차(1σ, 1시그마)인 0.9~1.3 범위에 해당하는 단어들은 후보 속성 단어에서 제외하는 단계인, 속성 지식 확장 방법.
  10. 제7항에 있어서, 상기 연관도 산출부가 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는, 상기 연관도 산출부가 하기 [수식 3]을 이용하여 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계인, 속성 지식 확장 방법.
    [수식 3]
    Figure 112020008509479-pat00127

    (여기서,
    Figure 112020008509479-pat00128
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure 112020008509479-pat00129
    는 후보 단어를 의미하고,
    Figure 112020008509479-pat00130
    는 속성 단어를 의미한다.)
  11. 제10항에 있어서, 상기 연관도 산출부가 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
    상기 연관도 산출부가 상기 초기 학습데이터에 포함된 모든 속성 단어들 사이의 점상호정보(
    Figure 112020008509479-pat00131
    )의 평균값을 하기 [수식 4]를 이용하여 산출하고, 산출된 점상호정보(
    Figure 112020008509479-pat00132
    )의 평균값을 이용하여 후보 단어들이 속성 단어에 해당하는지 여부를 판단하는 단계를 포함하는 속성 지식 확장 방법.
    [수식 4]
    Figure 112020008509479-pat00133

    (여기서,
    Figure 112020008509479-pat00134
    는 점상호정보(PMI, Pointwise Mutual Information)를 의미하고,
    Figure 112020008509479-pat00135
    는 속성 단어들의 집합을 의미하고,
    Figure 112020008509479-pat00136
    은 속성 단어의 수를 의미한다.)
  12. 제11항에 있어서, 상기 연관도 산출부가 상기 후보 단어와 속성 단어의 연관도를 산출하는 단계는,
    상기 연관도 산출부가 상기 후보 단어 정제부에 의해 상기 정제된 후보 단어들 중에서 초기 학습데이터에 포함된 객체의 속성 정보와의 점상호정보(
    Figure 112020008509479-pat00137
    ) 값이 하기 [수식 5]에 의한 임계치보다 큰 후보 단어일 경우에 속성 단어로 결정하고, 결정된 속성 단어와 매칭된 문장을 기준으로 상기 초기 학습데이터를 확장하는 단계를 더 포함하는 속성 지식 확장 방법.
    [수식 5]
    Figure 112020008509479-pat00138
    for
    Figure 112020008509479-pat00139
KR1020180148005A 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법 Active KR102147582B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180148005A KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180148005A KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Publications (2)

Publication Number Publication Date
KR20200068769A KR20200068769A (ko) 2020-06-16
KR102147582B1 true KR102147582B1 (ko) 2020-08-26

Family

ID=71141795

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180148005A Active KR102147582B1 (ko) 2018-11-27 2018-11-27 속성 지식 확장 시스템 및 속성 지식 확장 방법

Country Status (1)

Country Link
KR (1) KR102147582B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220055277A (ko) * 2020-10-26 2022-05-03 삼성에스디에스 주식회사 텍스트 데이터 증강 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486654B (zh) * 2021-07-28 2024-04-26 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN114490998B (zh) * 2021-12-28 2022-11-08 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备和存储介质
WO2024181589A1 (ko) * 2023-02-27 2024-09-06 코드크레인 유한회사 학습데이터를 확장하는 시스템 및 그 제공 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877196A (ja) * 1994-09-08 1996-03-22 Fujitsu Ltd 文書情報抽出装置
KR101948257B1 (ko) * 2016-11-30 2019-02-15 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Misbah A.M. 외, mining opinions in Arabic text using an improved "Semantic Orientation using Pointwise Mutual Information" Algorithm", INFOS 컨퍼런스 논문집 pp.61-19 (2012)
김문종 외, 구문 의미 이해 기반의 VOC 요약 및 분류, 정보과학회 ‘컴퓨팅의 실제’논문지 vol.22 no.1, pp.50-55 (2016.01.)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220055277A (ko) * 2020-10-26 2022-05-03 삼성에스디에스 주식회사 텍스트 데이터 증강 장치 및 방법
KR102617753B1 (ko) 2020-10-26 2023-12-27 삼성에스디에스 주식회사 텍스트 데이터 증강 장치 및 방법

Also Published As

Publication number Publication date
KR20200068769A (ko) 2020-06-16

Similar Documents

Publication Publication Date Title
KR102147582B1 (ko) 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN113312530B (zh) 一种以文本为核心的多模态情感分类方法
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
US20080243905A1 (en) Attribute extraction using limited training data
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN108268539A (zh) 基于文本分析的视频匹配系统
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN105930836A (zh) 一种视频文字的识别方法和装置
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
US20140348400A1 (en) Computer-readable recording medium storing program for character input
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
WO2017193472A1 (zh) 一种东巴经典古籍数字化释读库的建立方法
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
KR20090068380A (ko) 개선된 이동 통신 단말
JP2020042684A (ja) 検索装置、検索方法及びプログラム
CN112906391B (zh) 元事件抽取方法、装置、电子设备和存储介质
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN115438223A (zh) 视频处理方法、装置、电子设备及存储介质
CN106156340A (zh) 一种命名实体链接方法
JP2018116701A (ja) 印鑑画像の処理装置、方法及び電子機器
CN114298048A (zh) 命名实体识别方法及装置
CN116089623A (zh) 知识图谱构建方法、平台及计算机存储介质
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
JP2005107931A (ja) 画像検索装置

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20181127

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200114

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200727

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200818

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200818

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20230614

Start annual number: 4

End annual number: 4