[go: up one dir, main page]

KR20190020643A - 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체 - Google Patents

정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체 Download PDF

Info

Publication number
KR20190020643A
KR20190020643A KR1020187023709A KR20187023709A KR20190020643A KR 20190020643 A KR20190020643 A KR 20190020643A KR 1020187023709 A KR1020187023709 A KR 1020187023709A KR 20187023709 A KR20187023709 A KR 20187023709A KR 20190020643 A KR20190020643 A KR 20190020643A
Authority
KR
South Korea
Prior art keywords
word
information
separated
speech
separation
Prior art date
Application number
KR1020187023709A
Other languages
English (en)
Other versions
KR102157202B1 (ko
Inventor
거 진
량 쉬
징 시야오
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20190020643A publication Critical patent/KR20190020643A/ko
Application granted granted Critical
Publication of KR102157202B1 publication Critical patent/KR102157202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/2785
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체를 개시하고, 상기 방법은, 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하는 단계와, 획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계와, 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계와, 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계를 포함한다. 본 발명은 정보에 대한 깊은 마이닝을 구현하여 정보에서의 핵심 관점 정보를 정확하게 획득한다.

Description

정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체에 관한 것이다.
현재, 정보 마이닝 및 푸싱 분야에서 업계가 일반적으로 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스(예를 들어, 뉴스 사이트)에서 특정 유형의 정보(예를 들어, 뉴스 표제 정보)를 분석선별하여 목표 정보를 자동으로 마이닝하도록 한다. 기존의 분석선별 방안은 다음과 같다. 정보의 분류 라벨를 인식하기 위한 분류기가 미리 훈련되며, 훈련된 분류기를 이용하여 특정 유형의 정보의 분류 라벨를 인식하여 미리 설정된 분류 라벨에 속하는 목표정보가 인식된다. 이런 기존의 분석선별 방안은 미리 설정된 분류 라벨에 속하는 목표정보만 인식되고 목표정보 지향적 핵심 관점 정보를 깊게 마이닝할 수 없어 목표정보의 마이닝과 푸싱의 정확성을 보장할 수 없고 오류가 나기 쉽다.
본 발명의 주된 목적은 핵심 관점 정보를 효율적으로 마이닝하기 위해, 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체를 제공하고자 한다.
상기 목적을 달성하기 위해, 본 발명은 첫번째 방면에 있어서, 정보 마이닝 방법을 개시하고, 상기 방법은 다음과 같은 단계를 포함한다.
실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다.
획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다.
각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
본 발명은 두번째 방면에 있어서, 정보 마이닝 시스템을 개시하고, 상기 정보 마이닝 시스템은 다음과 같은 모듈을 포함한다.
획득모듈, 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다.
단어 분리 모듈, 획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다.
구축모듈, 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
해석모듈, 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
본 발명은 셋 번째 방면에 있어서, 전자장치를 개시하고, 상기 전자장치는 저장 장치, 프로세서, 상기 저장 장치에 저장되어 상기 프러세서 상에서 실행될 수 있는 정보 마이닝 시스템을 포함하고, 상기 정보 마이닝 시스템은 프로세서에 의해 실행되어 다은과 같은 단계를 구현한다.
실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다.
획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다.
각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
본 발명은 넷 번째 방면에 있어서, 컴퓨터 판독 가능한 저장매체를 개시하고, 이에 포로세서에 의해 실행될 수 있는 적어도 하나의 컴퓨터 판독 가능한 명령이 저장되어 다은과 같은 동작을 구현한다.
실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다.
획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다.
각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
본 발명에 따른 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체는, 데이터 소스로부터 획득된 특정 유형의 정보에 대해 단어 분리를 하고 각 분리 단어에 대해 품사 주석을 하며, 각 분리 단어의 순서와 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축한다. 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다. 획득된 정보에 대해 단어 분리를 수행하고 각 분리 단어의 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축할 수 있어 미리 설정된 구조 단어 분리 트리를 이요하여 정보에서의 각 분리 단어의 깊은 연계를 마이닝하여 정보에 대한 깊은 마이닝을 구현하여 정보에서의 핵심 관점 정보를 정확하게 획득한다.
도1은 본 발명에 따른 정보 마이닝 방법의 바람직한 실시예의 애플리케이션 환경의 도면이다.
도2는 본 발명에 따른 정보 마이닝 시스템(10)의 일 실시예의 기능 모듈의 도면이다.
도3은 본 발명에 따른 정보 마이닝 방법의 일 실시예에서의 미리 설정된 구조 단어 분리 트리의 도면이다.
도4는 본 발명에 따른 정보 마이닝 방법의 일 실시예의 흐름도이다.
본 발명의 목적 실현, 기능 특징 및 장점에 대해 실시예를 통해 도면을 참조하여 설명하기로 한다.
본 발명이 해결하고자 하는 기술문제, 기술방안, 유익 효과를 더 명확하고 뚜렷하게 되기 위해, 하기와 같은 도면과 실시예를 통해 본 발명에 대해 진일보 상세하게 설명하기로 한다. 여기서에서 설명하는 구체적인 실시예는 본 발명을 예시적으로 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.
도1을 참조하면, 도1은 본 발명에 따른 정보 마이닝 방법의 바람직한 실시예의 애플리케이션 환경의 도면이다. 애플리케이션 환경의 도면에는 전자장치(1), 단말장치(2)가 포함된다. 전자장치(1)는 네트워크, 근거리 무선 통신 기술 등 적절한 기술을 통해 단말장치(2)와 데이터를 교환한다.
단말장치(2)는 키보드, 마우스, 리모컨, 터치패드 또는 음성제어장치 등 방식으로 사용자와 인간-컴퓨터 상호작용을 할 수 있는 어느 한 가지의 전자제품을 포함하나 이에 한정하지 않으며, 예를 들어, 퍼스널 컴퓨터, 태블릿 PC, 스마트폰, 개인 휴대 정보 단말기(Personal Digital Assistant,PDA), 게임기, 인터넷 프로토콜 텔레비전(Internet Protocol Television, IPTV), 스마트 착용형 디바이스 등과 같다.
전자장치(1)는 미리 설정되거나 저장된 명령에 따라 자동적으로 수치계산 및/또는 정보처리를 할 수 있는 장치이다. 전자장치(1)는 컴퓨터일 수도 있고 단일 네트워크 서버, 다수 개의 네트워크 서버로 구성된 서버그룹, 또는 클라우드 컴퓨팅에 기초한 대량의 호스트 또는 네트워크 서버로 구선된 클라우드일 수도 있고, 그 중 클라우드 컴퓨팅은 분산 컴퓨팅의 일종으로서 느슨하게 결합된 일군의 컴퓨터 세트로 구성된 하나의 수퍼 가상 컴퓨터이다.
본 실시예에 있어서, 전자장치(1)는 버스 시스템에 의해 서로 통신 연결된 저장 장치(11), 프로세서(12), 네트워크 인터페이스(13)를 포함할 수 있으나 이들에 한정하지 않다. 도4에는 모듈(11-13)을 가지는 전자장치(1)만 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈으로 대체하여 실시할 수 있다는 것을 이해하여야 한다.
그 중, 저장장치(11)는 메모리 및 적어도 한 종류의 판독 가능한 저장매체를 포함한다. 메모리는 전자장치(1)의 동작을 위한 캐시를 제공하며, 판독 가능한 저장매체는 플래시 메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리와 같은 비휘발성 저장매체일 수 있다. 일부 실시예에 있어서, 판독 가능한 저장매체는 전자장치(1)의 내부 저장 유닛일 수 있고, 예를 들어, 이 전자장치(1)의 하드 디스크일 수 있으며, 다른 일부 실시예에 있어서, 이 비휘발성 저장매체는 전자장치(1)의 외부 저장 유닛일 수도 있고, 예를 들어, 전자장치(1)에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다. 본 실시예에 있어서, 저장장치(11)의 판독 가능한 저장매체는 통상적으로 전자장치(1)에 설치된 운영체제와 응용 소프트웨어를 저장하며, 예를 들어, 본 발명의 일 실시예에 따른 정보 마이닝 시스템(10)의 프로그램 코드 등과 같다. 또한, 저장장치(11)는 이미 출력되거나 출력할 각 종류의 데이터를 일시적으로 저장할 수 있다.
일부 실시예에 있어서, 상기 프로세서(12)는 하나 또는 다스의 마이크로프로세서, 마이크로컨트롤러, 디지털 프로세서 등을 포함할 수 있다. 이 프로세서(12)는 통상적으로 상기 전자장치(1)의 실행을 제어하며, 예를 들어, 단말장치(2)와의 데이터 교환이나 통신과 관련된 제어 및 처리 등을 수행한다. 본 실시예에 있어서, 상기 프로세서(12)는 상기 저장장치(11)에 저장된 프로그램 코드 또는 처리 데이터를 실행하고, 예를 들어, 정보 마이닝 시스템(10) 등을 실행한다.
네트워크 인터페이스(13)는 무선 네트워크 인터페이스 또는 유선 네트워크 인터페이스를 포함할 수 있고, 이 네트워크 인터페이스(13)는 통상적으로 상기 전자장치(1)와 다른 전자 장비 사이에서 통신 연결을 구축한다. 본 실시예에 있어서, 네트워크 인터페이스(13)는 주로 전자장치(1)와 하나 또는 다수의 단말장치(2)를 연결하며, 전자장치(1)와 하나 또는 다수의 단말장치(2) 사이에서 데이터 전송로와 통신연결을 구축한다.
정보 마이닝 시스템(10)은 저장장치(11)에 저장된 적어도 하나의 컴퓨터 판독 가능한 명령을 포함하고, 이 적어도 하나의 컴퓨터 판독 가능한 명령은 프로세서(12)에 의해 실행될 수 있어 본 발명의 각 실시예의 이미지 인식의 방법을 실현하다. 후술과 같이, 이 컴퓨터 판독 가능한 적어도 하나의 명령은 그의 각 부분이 설현할 기능에 따라 서로 다른 로직 모듈로 분할될 수 있다.
일 실시예에 있어서, 정보 마이닝 시스템(10)은 프로세서(12)에 의해 실행될 때, 다음과 같은 동작을 구현한다. 실시간 또는 정해진 시간으로 단말장치에서의 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하며, 획득ㄷ힌 각 정보에 대해 단어 분리를 수행하고 각 정보와 대응되는 각 상기 분리 단어에 대해 품사 주석을 하며, 각 정보와 대응되는 각 분리 단어의 분리 단어 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리를 구축하며, 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 관점 정보를 해석하고 이 정보와 대응되는 핵심 관점 정보를 단말장치(2)에 송신하여 단말 사용자에게 보여준다.
일 실시예에 있어서, 정보 마이닝 시스템(10)은 저장장치(11)에 저장되고 저장장치(11)에 저장된 적어도 하나의 컴퓨터 판독 가능한 명령을 포함하고, 이 적어도 하나의 컴퓨터 판독 가능한 명령은 프로세서(12)에 의해 실행될 수 있어 본 발명의 각 실시예의 이미지 인식의 방법을 실현하다. 후술과 같이, 이 컴퓨터 판독 가능한 적어도 하나의 명령은 그의 각 부분이 설현할 기능에 따라 서로 다른 로직 모듈로 분할될 수 있다.
도2를 참조하면, 도2는 본 발명에 따른 정보 마이닝 시스템(10)의 바람직한 실시예의 기능 모듈의 도면이다. 본 실시예에 있어서, 상기 정보 마이닝 시스템(10)은 하나 또는 다수의 모듈로 분할될 수 있고, 상기 하나 또는 다수의 모듈은 상기 저장장치(11)에 저장되고 하나 또는 다수의 프로세서(본 실시예는 상기 프로세서(12)이다.)에 실행되어 본 발명을 구현하도록 한다. 예를 들어, 도2에서, 상기 정보 마이닝 시스템(10)은 획득모듈(01), 단어 분리 모듈(02), 구축모듈(03), 해석모듈(04)로 분할될 수 있으며, 상기 각 모듈은 일련의 컴퓨터 프로그램 명령을 포함하고 이 컴퓨터 프로그램 명령들은 프로세서(12)에 의해 실행될 수 있어 본 발명의 각 실시예에 따른 대응 기능을 구현하도록 한다. 이하, 상기 모듈(01-04)의 기능을 구체적으로 설명하기로 한다.
획득모듈(01)은 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다. 예를 들어, 웹크롤러 등의 툴로 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스(예를 들어, 뉴스 사이트, 게시판 등)로부터 특정 유형의 정보(예를 들어, 뉴스 표제 정보, 색인 정보, 프로필 정보 등)를 획득한다.
단어 분리 모듈(02), 획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다. 데이터 소스로부터 특정 유형의 각 정보가 획득된 후, 획득된 각 정보에 대해 단어 분리를 할 수 있다. 예를 들어, 문자열 매칭이란 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 할 수 있고 예를 들어, 순방향 최대 매칭 방법을 이용하여 하나의 정보에서의 문자열에 대해 왼쪽에서 오른쪽으로 단어 분리를 하고, 즉, 왼쪽에서 오른쪽으로 단어 분리할 정보 텍스트에서의 몇 개의 연속 문자와 단어장을 매칭하고, 매칭되면, 하나의 단어를 구분하며, 또는, 역방향 최대 매칭 방법을 이용하여, 하나의 정보에서의 문자열에 대해 오른쪽에서 왼쪽으로 단어 분리를 하고, 즉, 단어 분리할 정보 텍스트의 말단으로보터 매칭 스캐닝을 수행하여 오른쪽에서 왼쪽으로 단어 분리할 텍스트에서의 몇 개의 연속 문자와 단어장을 매칭하고, 매칭되면, 하나의 단어를 구분하며, 또는, 최단 경로 단어 분리 방법을 이용하여 하나의 정보에서의 문자열을 구분한 단어의 개수가 최소인 것을 요구하며, 또는, 양방향 최대 매칭 방법을 이용하여 순 역 방향으로 동시 단어 분리 매칭을 수행한다. 의미 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 수행할 수도 있고, 의미 단어 분리 방법은 기계 음성 판단의 단어 분리 방법으로 통사 정보와 의미 정보를 이용하여 중의현상을 처리사여 단어 분리를 하도록 한다. 통계 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 수행할 수도 있고 현재 사용자의 검색 이력 기록 또는 대중 사용자의 검색 이력 기록에서 구절의 통계에 따라 일부 두개의 인접한 글자가 나타나는 빈도가 높은 것으로 통계되면 이 두개의 인접한 글자를 구절로 하여 단어 분리를 수행할 수 있다. 획득된 각 정보에대해 단어 분리를 수행한 후 각 정보와 대응되는 각 분리 단어(구와 글자를 포함한다)에 대해 품사 주석을 할 수 있다. 예를 들어, 상기 품사는 실사-명사, 동사, 형용사, 수량사, 대명사 등을 포함하며, 허사- 부사, 개사, 접속사, 조사, 감탄사, 의성어 등을 포함한다.
구축모듈(03), 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
해석모듈(04), 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
각 정보와 대응되는 각 분리 단어에 대해 품사주석을 수행한 후, 각 정보에서의 각 분리 단어의 순서와 각 분리 단어의 주석된 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다. 예를 들어, 미리 설정된 구조 단어 분리 트리에서의 상이한 품사와 대응되는 노드 등급을 설치할 수 있고, 하나의 정보에서의 각 분리단어를 상이한 노드로 하여 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리를 구축하며, 상이한 품사의 분리 단어를 분리 단어 구절로 구성하여 각 분리 단어와 다른 노드 들급을 형성하고 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리를 구축한다. 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후, 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 관점 정보를 해석한다. 예를 들어, 어느 하나의 품사의 분리 단어를 핵심 정보로 설치하거나, 검색 이력 기록으로부터 핵심 정보와 대응되는 품사의 분리 단어를 통계하여 확정하고 이 품사를 핵심 품사로 설치하면 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에서 핵심 품사에 속하고 미리 설정된 구조 단어 분리 트리에서 메인 노드까지의 노드 거리가 최단의 분리 단어를 찾아 이 정보와 대응되는 핵심 관점 정보로 한다. 다수의 핵심 품사를 설치할 수도 있고 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에서 핵심 품사에 속하는 다수의 분리 단어를 찾고 미리 설정된 구조 단어 분리 트리에서 핵심 품사에 속하는 다수의 분리 단어 사이에서 노드 거리가 최단의 분리 단어 조합을 찾아 이 분리 단어와 대응되는 정보를 이 정보의 핵심 관점 정보로 한다.
본 실시예는 데이터 소스로부터 획득된 특정 유형의 정보에 대해 단어 분리를 수행하고 각 분리 단어에 대해 품사주석을 수행하며, 각 분리 단어의 순서와 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축하며, 구축된 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 관점 정보를 해석한다. 획득된 정보에 대해 단어 분리를 수행하고 각 분리 단어의 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축할 수 있어 미리 설정된 구조 단어 분리 트리를 이요하여 정보에서의 각 분리 단어의 깊은 연계를 마이닝하여 정보에 대한 깊은 마이닝을 구현하여 정보에서의 핵심 관점 정보를 정확하게 획득한다.
또한, 다른 실시예에 있어서, 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 정보와 대응되는 핵심 관점 정보가 해석된 후, 상기 해석모듈(04)은 다음과 같은 용도를 포함한다.
미리 훈련된 분류기를 이용하여 이 정보의 핵심 관점 정보와 대응되는 분류 태그를 인식하며, 인식된 분류 태그가 미리 경정된 분류 태그에 속하면 이 정보의 전부 내용, 및/또는 이 정보의 전부 내용의 링크 주소를 미리 결정된 단말기에 푸쉬한다. 예를 들어, 사용자가 체육류 정보에 관심이 많으면 분류 태그가 '체육'인 것을 미리 결정할 수 있고 데이터 소스로부터 획득된 정보 중의 핵심 관점 정보가 해석된 후 이 정보의 핵심 관점 정보와 대응되는 분류 태그를 진일보로 인식할 수 있고 인식된 분류 태그가 '체육'류 태그에 속하면 이 정보가 사용자의 관심이 많은 정보인 것으로 판단되며 이 정보의 전부 내용, 및/또는 이 정보의 전부 내용의 링크 주소를 사용자의 핸드폰, 태블릿 PC 등의 미리 결정된 단말기에 푸쉬하여 목표정보에 대한 효율적인 마이닝과 정밀 푸싱을 구현한다.
또한, 다른 실시예에 있어서, 상기 단어분리모듈(02)은 다음과 같은 용도를 더 포함한다.
순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득한다.
역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득한다. 그 중, 상기 제1매칭결과는 제1수량의 제1구절을 포함하고 상기 제2매칭결과는 제2수량의 제2구를 포함하며, 상기 제1매칭결과는 제3수량의 글자를 포함하고 상기 제2매칭결과는 제4수량의 글자를 포함한다.
상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과(구와 글자를 포함한다)를 출력한다.
본 실시예에서 양방향 최대 매칭 방법을 이용하여 획득된 각 정보에 대해 단어 분리를 수행하고 순 역 방향으로 동시에 분리 단어 매칭을 수행하여 각 정보의 처리할 문자열에서 전후조합 내용의 점성을 분석하고, 일반적으로 구절이 핵심 관점 정보를 대표하는 확률은 높고 즉, 구절을 통해 핵심 관점 정보를 표현하기 더 쉽다. 따라서, 순 역 방향으로 동시에 분리 단어 매칭을 수행하여 글자의 수량이 더 적고 구절의 수량이 더 많은 단어 분리 매칭 결과를 찾아 정보의 단어 분리 결과로 하여 단어 분리 및 정보 마이닝의 정확도를 향상시킨다.
또한, 다른 실시예에 있어서, 상기 단어 분리 모듈(02)은 다음과 같은 용도를 더 포함한다.
통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계(예를 들어, 통용 글자 단어 베이스에서, 운동장과 대응되는 품사는 명사이다.) 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계(예를 들어, 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에서 운동장과 대응되는 품사는 자주 사용하는 명사이다)에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하며 각 정보의 각 분리 단어에 대해 대응된 품사를 주석한다. 그 중, 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따른 품사 주석의 우선 순위는 통용 글자 단어 베이스에서의 글자와 단어가 각각 품사와의 맵핑관계보다 높으며, 예를 들어, 통용 글자 단어 베이스에서 운동장의 품사는 명사이고 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에서 운동장의 품사는 자주 사용하는 명사이면, 우선적으로 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 주석하고, 즉 운동장의 품사에 대한 주석은 자주 사용하는 명사이다.
또한, 다른 실시예에서, 상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 상기 구축모듈(03)은 다음과 같은 용도를 더 포함한다.
각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾아 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하며, 어느 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드이며, 어느 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정될 때까지 이 분리 단어 구절의 하위 노드와 대응되는 분리 단어나 분리 단어 구절을 결정한다.
상기 해석모듈은 다은과 같은 용도를 포함한다.
구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산하며, 각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성한다.
일 구체적인 실시방식에 있어서, 도3에 도시된 바와 같이, 이 정보는 '저는 축구를 하러 운동장으로 갔습니다.'이고, 대응된 단어 분리 결과는 '저 축구 하러 운동장 가다', 품사 주석의 결과는 '저/ 대명사 축구하러/ 자주 사용하는 명사 운동장/자주 사용하는 명사 가다/동사'이다. 이 '저는 축구를 하러 운동장으로 갔습니다.'란 정보에 대해 구축된 미리 설정된 구조 단어 분리 트리는 도3과 같이, 이 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절(예를 들어, 명사구절, 동사구절 및 '.'과 같은 말 끊는 부호)이다. 본 실시예는 각 정보와 대응되는 각 분리 단어에서 '예를 들어, 명사, 동사 등'과 같은 각 미리 설정된 품사의 목표 분리 단어를 찾으며, 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정한다. 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 제 3 레벨 노드는 제 2 레벨 노드의 분리 단어나 분리 단어 구절이다. 도3에 도시된 바와 같이, 이 정보에 대한 품사 주석의 결과는 '저/ 대명사 축구하러/ 자주 사용하는 명사 운동장/자주 사용하는 명사 가다/동사'이고, 이 정보 중 각 분리 단어의 분리 단어 순서에 따라 예를 들어, 왼쪽에서 오른쪽으로의 순서에 따라 제 2 레벨 노드를 결정하고 미리 설정된 제 2 레벨 노드는 명사 구절과 동사 구절 등을 포함하는 분리 단어 구절이고 이 정보에서 왼쪽에서 오른쪽으로는 '저'는 명사 구절에 속한 대명사이기 때문에 '저'는 제 2 레벨 노드 결정되며, '저' 뒤에 배열한 '축구하러', '운동장', '가다'는 '축구를 하러 운동장으로 가다'란 동사 구절을 구성할 수 있기 때문에 '축구를 하러 운동장으로 가다'는 제 2 레벨 노드로 결정될 수 있다. 따라서, 이 정보의 미리 설정된 구조 단어 분리 트리는 제 2 레벨 노드가 '저', '축구를 하러 운동장으로 가다'를 포함한다. 또한, '저'란 제 2 레벨 노드에 대해 더 이상 단어 분리를 수행할 수 없으면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드이다. '축구를 하러 운동장으로 가다'란 제 2 레벨 노드의 동사구절에 대해 더 단어 분리를 할 수 있으면, 이 '축구를 하러 운동장으로 가다'란 제 2 레벨 노드의 분리 단어나 분리 단언 구절은 제 3 레벨 노드로서 이 제 3 레벨 노드는 동사 '가다'와 명사구절 '운동장 축구하러', 또한, '운동장 축구하러'란 명사구절에 대해 '운동장', '축구하러'란 제 4 레벨 노드로 더 단어 분리를 할 수 있다. 하나의 분리 단어 구절에 대해 더 단어 분리를 할 수 있으면, 이 분리 단어 구절에서 '예를 들어, 명사, 동사 등'과 같은 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 이 분리 단어 구절의 하위 노드와 대응되는 분리 단어나 분리 단어 구절을 결정하며, 하나의 분리 단어 구절에 대해 더 이상 단어 분리를 할 수 없으면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것으로 결정된다.
구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 제1결정적인 품사(예를 들어, 동사) 분리 단어와 각 제2결정적인 품사(예를 들어, 명사) 분리 단어 사이의 거리를 계산하며, 각 제1결정적인 품사의 분리 단어와 각 제2결정적인 품사의 분리 단어 사이에서 이격한 노드의 개수를 상기 거리로 한다. 그 중, 제1결정적인 품사, 제2결정적인 품사는 실제 수요에 따라 자체 정의하거나 이 사용자의 검색 이력 기록에서의 핵심 전보와 일반적으로 대응되는 품사에 따라 상응 설치를 할 수 있다. 각 제1결정적인 품사 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성한다. 도3에 도시된 '운동장으로 가다', '축구를 하러'는 해당 정보 '저는 축구를 하러 운동장으로 갔습니다'가 마이닝된 대응되는 핵심 관점 정보를 한다.
본 발명은 정보 마이닝 방법을 더 개시한다.
도4를 참조하면, 도4는 본 발명에 따른 정보 마이닝 방법의 일 실시예의 흐름도이다.
일 실시예에 있어서, 이 정보 마이닝 방법은 다음과 같은 단계를 포함한다.
단계(S10), 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득한다. 예를 들어, 웹크롤러 등의 툴로 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스(예를 들어, 뉴스 사이트, 게시판 등)로부터 특정 유형의 정보(예를 들어, 뉴스 표제 정보, 색인 정보, 프로필 정보 등)를 획득한다.
단계(S20), 획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 한다.
데이터 소스로부터 특정 유형의 각 정보가 획득된 후, 획득된 각 정보에 대해 단어 분리를 할 수 있다. 예를 들어, 문자열 매칭이란 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 할 수 있고 예를 들어, 순방향 최대 매칭 방법을 이용하여 하나의 정보에서의 문자열에 대해 왼쪽에서 오른쪽으로 단어 분리를 하고, 즉, 왼쪽에서 오른쪽으로 단어 분리할 정보 텍스트에서의 몇 개의 연속 문자와 단어장을 매칭하고, 매칭되면, 하나의 단어를 구분하며, 또는, 역방향 최대 매칭 방법을 이용하여, 하나의 정보에서의 문자열에 대해 오른쪽에서 왼쪽으로 단어 분리를 하고, 즉, 단어 분리할 정보 텍스트의 말단으로보터 매칭 스캐닝을 수행하여 오른쪽에서 왼쪽으로 단어 분리할 텍스트에서의 몇 개의 연속 문자와 단어장을 매칭하고, 매칭되면, 하나의 단어를 구분하며, 또는, 최단 경로 단어 분리 방법을 이용하여 하나의 정보에서의 문자열을 구분한 단어의 개수가 최소인 것을 요구하며, 또는, 양방향 최대 매칭 방법을 이용하여 순 역 방향으로 동시 단어 분리 매칭을 수행한다. 의미 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 수행할 수도 있고, 의미 단어 분리 방법은 기계 음성 판단의 단어 분리 방법으로 통사 정보와 의미 정보를 이용하여 중의현상을 처리사여 단어 분리를 하도록 한다. 통계 단어 분리 방법을 이용하여 각 정보에 대해 단어 분리를 수행할 수도 있고 현재 사용자의 검색 이력 기록 또는 대중 사용자의 검색 이력 기록에서 구절의 통계에 따라 일부 두개의 인접한 글자가 나타나는 빈도가 높은 것으로 통계되면 이 두개의 인접한 글자를 구절로 하여 단어 분리를 수행할 수 있다.
획득된 각 정보에대해 단어 분리를 수행한 후 각 정보와 대응되는 각 분리 단어(구와 글자를 포함한다)에 대해 품사 주석을 할 수 있다. 예를 들어, 상기 품사는 실사-명사, 동사, 형용사, 수량사, 대명사 등을 포함하며, 허사- 부사, 개사, 접속사, 조사, 감탄사, 의성어 등을 포함한다.
단계(S30), 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다.
단계(S40), 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석한다.
각 정보와 대응되는 각 분리 단어에 대해 품사주석을 수행한 후, 각 정보에서의 각 분리 단어의 순서와 각 분리 단어의 주석된 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축한다. 예를 들어, 미리 설정된 구조 단어 분리 트리에서의 상이한 품사와 대응되는 노드 등급을 설치할 수 있고, 하나의 정보에서의 각 분리단어를 상이한 노드로 하여 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리를 구축하며, 상이한 품사의 분리 단어를 분리 단어 구절로 구성하여 각 분리 단어와 다른 노드 들급을 형성하고 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리를 구축한다. 하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후, 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 관점 정보를 해석한다. 예를 들어, 어느 하나의 품사의 분리 단어를 핵심 정보로 설치하거나, 검색 이력 기록으로부터 핵심 정보와 대응되는 품사의 분리 단어를 통계하여 확정하고 이 품사를 핵심 품사로 설치하면 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에서 핵심 품사에 속하고 미리 설정된 구조 단어 분리 트리에서 메인 노드까지의 노드 거리가 최단의 분리 단어를 찾아 이 정보와 대응되는 핵심 관점 정보로 한다.
본 실시예는 데이터 소스로부터 획득된 특정 유형의 정보에 대해 단어 분리를 수행하고 각 분리 단어에 대해 품사주석을 수행하며, 각 분리 단어의 순서와 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축하며, 구축된 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 관점 정보를 해석한다. 획득된 정보에 대해 단어 분리를 수행하고 각 분리 단어의 품사에 따라 미리 설정된 구조 단어 분리 트리를 구축할 수 있어 미리 설정된 구조 단어 분리 트리를 이요하여 정보에서의 각 분리 단어의 깊은 연계를 마이닝하여 정보에 대한 깊은 마이닝을 구현하여 정보에서의 핵심 관점 정보를 정확하게 획득한다.
또한, 다른 실시예에 있어서, 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 정보와 대응되는 핵심 관점 정보가 해석된 후, 이 방법은 다음과 같은 단계를 더 포함한다.
미리 훈련된 분류기를 이용하여 이 정보의 핵심 관점 정보와 대응되는 분류 태그를 인식하며, 인식된 분류 태그가 미리 경정된 분류 태그에 속하면 이 정보의 전부 내용, 및/또는 이 정보의 전부 내용의 링크 주소를 미리 결정된 단말기에 푸쉬한다. 예를 들어, 사용자가 체육류 정보에 관심이 많으면 분류 태그가 '체육'인 것을 미리 결정할 수 있고 데이터 소스로부터 획득된 정보 중의 핵심 관점 정보가 해석된 후 이 정보의 핵심 관점 정보와 대응되는 분류 태그를 진일보로 인식할 수 있고 인식된 분류 태그가 '체육'류 태그에 속하면 이 정보가 사용자의 관심이 많은 정보인 것으로 판단되며 이 정보의 전부 내용, 및/또는 이 정보의 전부 내용의 링크 주소를 사용자의 핸드폰, 태블릿 PC 등의 미리 결정된 단말기에 푸쉬하여 목표정보에 대한 효율적인 마이닝과 정밀 푸싱을 구현한다.
또한, 다른 실시예에 있어서, 상기 단계(S20)은 다음과 같은 단계를 더 포함한다.
순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득한다.
역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득한다. 그 중, 상기 제1매칭결과는 제1수량의 제1구절을 포함하고 상기 제2매칭결과는 제2수량의 제2구를 포함하며, 상기 제1매칭결과는 제3수량의 글자를 포함하고 상기 제2매칭결과는 제4수량의 글자를 포함한다.
상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과(구와 글자를 포함한다)를 출력한다.
상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과(구와 글자를 포함한다)를 출력한다.
본 실시예에서 양방향 최대 매칭 방법을 이용하여 획득된 각 정보에 대해 단어 분리를 수행하고 순 역 방향으로 동시에 분리 단어 매칭을 수행하여 각 정보의 처리할 문자열에서 전후조합 내용의 점성을 분석하고, 일반적으로 구절이 핵심 관점 정보를 대표하는 확률은 높고 즉, 구절을 통해 핵심 관점 정보를 표현하기 더 쉽다. 따라서, 순 역 방향으로 동시에 분리 단어 매칭을 수행하여 글자의 수량이 더 적고 구절의 수량이 더 많은 단어 분리 매칭 결과를 찾아 정보의 단어 분리 결과로 하여 단어 분리 및 정보 마이닝의 정확도를 향상시킨다.
또한, 다른 실시예에 있어서, 상기 단계(S20)에서 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계는 다음과 같다.
통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계(예를 들어, 통용 글자 단어 베이스에서, 운동장과 대응되는 품사는 명사이다.) 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계(예를 들어, 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에서 운동장과 대응되는 품사는 자주 사용하는 명사이다)에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하며 각 정보의 각 분리 단어에 대해 대응된 품사를 주석한다. 그 중, 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따른 품사 주석의 우선 순위는 통용 글자 단어 베이스에서의 글자와 단어가 각각 품사와의 맵핑관계보다 높으며, 예를 들어, 통용 글자 단어 베이스에서 운동장의 품사는 명사이고 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에서 운동장의 품사는 자주 사용하는 명사이면, 우선적으로 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 주석하고, 즉 운동장의 품사에 대한 주석은 자주 사용하는 명사이다.
또한, 다른 실시예에서, 상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 상기 단계(S30)은 다음과 같은 단계를 포함한다.
A1. 각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾는다.
A2. 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하며, 구체적으로, 다음의 하나의 목표 분리 단어 전에 위치한 글자 단어를 이전 목표 분리 단어의 분리 단어 구절로 하며, 다음의 하나의 목표 분리 단어와 이의 다음의 글자 단어를 마지막의 분리 단어 구절로 한다.
A3. 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것을 결정한다.
A4. 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정된다.
A5. 각 노드 분점의 마지막 레벨 노드와 대응되는 분리 단어가 결정될 때까지 상기 단계A3과 A4를 반복하게 수행한다.
상기 단계(S40)는 다음과 같은 단계를 포함한다.
구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산한다.
각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성한다.
일 구체적인 실시방식에 있어서, 도3에 도시된 바와 같이, 도3은 본 발명에 따른 정보 마이닝 방법의 일 실시예에서의 미리 설정된 구조 단어 분리 트리의 도면이다. 이 정보는 '저는 축구를 하러 운동장으로 갔습니다.'이고, 대응된 단어 분리 결과는 '저 축구 하러 운동장 가다', 품사 주석의 결과는 '저/ 대명사 축구하러/ 자주 사용하는 명사 운동장/자주 사용하는 명사 가다/동사'이다. 이 '저는 축구를 하러 운동장으로 갔습니다.'란 정보에 대해 구축된 미리 설정된 구조 단어 분리 트리는 도3과 같이, 이 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절(예를 들어, 명사구절, 동사구절 및 '.'과 같은 말 끊는 부호)이다. 본 실시예는 각 정보와 대응되는 각 분리 단어에서 '예를 들어, 명사, 동사 등'과 같은 각 미리 설정된 품사의 목표 분리 단어를 찾으며, 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정한다. 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 제 3 레벨 노드는 제 2 레벨 노드의 분리 단어나 분리 단어 구절이다. 도3에 도시된 바와 같이, 이 정보에 대한 품사 주석의 결과는 '저/ 대명사 축구하러/ 자주 사용하는 명사 운동장/자주 사용하는 명사 가다/동사'이고, 이 정보 중 각 분리 단어의 분리 단어 순서에 따라 예를 들어, 왼쪽에서 오른쪽으로의 순서에 따라 제 2 레벨 노드를 결정하고 미리 설정된 제 2 레벨 노드는 명사 구절과 동사 구절 등을 포함하는 분리 단어 구절이고 이 정보에서 왼쪽에서 오른쪽으로는 '저'는 명사 구절에 속한 대명사이기 때문에 '저'는 제 2 레벨 노드 결정되며, '저' 뒤에 배열한 '축구하러', '운동장', '가다'는 '축구를 하러 운동장으로 가다'란 동사 구절을 구성할 수 있기 때문에 '축구를 하러 운동장으로 가다'는 제 2 레벨 노드로 결정될 수 있다. 따라서, 이 정보의 미리 설정된 구조 단어 분리 트리는 제 2 레벨 노드가 '저', '축구를 하러 운동장으로 가다'를 포함한다. 또한, '저'란 제 2 레벨 노드에 대해 더 이상 단어 분리를 수행할 수 없으면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드이다. '축구를 하러 운동장으로 가다'란 제 2 레벨 노드의 동사구절에 대해 더 단어 분리를 할 수 있으면, 이 '축구를 하러 운동장으로 가다'란 제 2 레벨 노드의 분리 단어나 분리 단언 구절은 제 3 레벨 노드로서 이 제 3 레벨 노드는 동사 '가다'와 명사구절 '운동장 축구하러', 또한, '운동장 축구하러'란 명사구절에 대해 '운동장', '축구하러'란 제 4 레벨 노드로 더 단어 분리를 할 수 있다. 하나의 분리 단어 구절에 대해 더 단어 분리를 할 수 있으면, 이 분리 단어 구절에서 '예를 들어, 명사, 동사 등'과 같은 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 이 분리 단어 구절의 하위 노드와 대응되는 분리 단어나 분리 단어 구절을 결정하며, 하나의 분리 단어 구절에 대해 더 이상 단어 분리를 할 수 없으면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것으로 결정된다.
구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 제1결정적인 품사(예를 들어, 동사) 분리 단어와 각 제2결정적인 품사(예를 들어, 명사) 분리 단어 사이의 거리를 계산하며, 각 제1결정적인 품사의 분리 단어와 각 제2결정적인 품사의 분리 단어 사이에서 이격한 노드의 개수를 상기 거리로 한다. 그 중, 제1결정적인 품사, 제2결정적인 품사는 실제 수요에 따라 자체 정의하거나 이 사용자의 검색 이력 기록에서의 핵심 전보와 일반적으로 대응되는 품사에 따라 상응 설치를 할 수 있다. 각 제1결정적인 품사 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성한다. 도3에 도시된 '운동장으로 가다', '축구를 하러'는 해당 정보 '저는 축구를 하러 운동장으로 갔습니다'가 마이닝된 대응되는 핵심 관점 정보를 한다.
또한, 본 발명은 컴퓨터 판독 가능한 저장매체를 더 개시하고, 상기 컴퓨터 판독 가능한 저장매체는 정보 마이닝 시스템이 저장되고, 상기 정보 마이닝 시스템은 적어도 하나의 프로세서에 의해 실행되어 적어도 하나의 프로세서가 상기 실시예에서의 정보 마이닝 방법의 단계를 수행하도록 하며, 이 정보 마이닝 방법의 단계 S10, S20, S30 등의 구체적인 실시 과정은 상기와 같아 여기서 이에 대한 설명을 생략하기로 한다.
본 명세서에 있어서, 용어 "포함하다", "구성하다" 또는 이의 임의 기타 변형은 비 배타성의 포함을 뜻하여 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치는 그런 요소를 포함할 뿐만 아니라 명확하게 열거하지 않은 기타 요소도 포함하거나 이런 과정, 방법, 물품 또는 장치가 고유한 요소를 포함한다. 더 많은 한정이 없는 한 문구 "하나의 ...... 포함한다"에 의해 한정된 요소는 이 요소의 과정, 방법, 물품 또는 장치에는 다른 동일한 요소가 존재한다는 것을 배제하지 않다.
본 기술분야의 당업자에게 있어서 상기와 같은 실시방식에 대한 설명을 통해 상기 실시예 방법이 소프트웨어와 필요하고 통용한 하드웨어 플랫폼으로 구현될 수 있으며 몰론 하드웨어를 통해 구현될 수 있지만 대부분의 경우에서 전자가 바람직한 실시방식임은 자명한 것이다. 이런 이해에 기초하여 본 발명의 기술방안 본질적으로 또는 종래 기술에 공헌할 부분은 소프트웨어 상품으로 구현될 수 있고 이 컴퓨터 소프트웨어 상품은 하나의 저장매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고 여러 명령을 포함하여 하나의 단말기장치(휴대폰, 컴퓨터, 서버, 에어컨, 네트워크 장비 등)를 통해 본 발명에 따른 각각의 실시예의 방법을 수행한다.
본 발명의 바람직한 실시예는 도면을 참조하여 설명되고 본 발명의 권리 범위는 이에 한정하지 않다. 상기와 같은 본 발명에 따른 실시예의 순번은 설명하기 위한 것일 뿐 실시예의 우열을 가리기 위한 것이 아니다. 또한, 흐름도에서 논리 순서를 나타내지만 어떤 경우에서 여기의 순서와 다르게 상기 도시되거나 설명된 단계를 수행한다.
본 영역의 기술자들은 본 발명의 범위와 실질을 벗지 않고 여러 가지의 변형방안으로 본 발명을 구현할 수 있으며, 예를 들어, 한 실시예의 특징으로서 다른 실시예에 적용되어 또 다른 실시예를 얻을 수 있다. 본 발명의 기술사상에서 임의 수정, 등가치환, 개진은 모두 본 발명의 특허보호범위내에 포함된다.

Claims (20)

  1. 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하는 단계와,
    획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계와,
    각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계와,
    하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계를 포함하는 것을 특징으로 하는 정보 마이닝 방법.
  2. 제1항에 있어서,
    상기 획득된 각 정보에 대해 단어 분리를 하는 단계는,
    순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득하고, 상기 제1매칭결과는 제1수량의 제1구절과 제3수량의 글자를 포함하는 단계와,
    역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득하고, 상기 제2매칭결과는 제2수량의 제2구절과 제4수량의 글자를 포함하는 단계와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 단계를 포함하는 것을 특징으로 하는 정보 마이닝 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계는,
    통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계, 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하는 단계와,
    각 정보의 각 분리 단어에 대해 대응된 품사를 주석하는 단계를 포함하는 것을 특징으로 하는 정보 마이닝 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계는,
    A1. 각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾는 단계와,
    A2. 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하는 단계와,
    A3. 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것을 결정하는 단계와,
    A4. 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정되는 단계와,
    A5. 각 노드 분점의 마지막 레벨 노드와 대응되는 분리 단어가 결정될 때까지 상기 단계A3과 A4를 반복하게 수행하는 단계를 포함하는 것을 특징으로 하는 정보 마이닝 방법.
  5. 제4항에 있어서,
    상기 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계는,
    구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산하는 단계와,
    각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성하는 단계를 포함하는 것을 특징으로 하는 정보 마이닝 방법.
  6. 실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하는 획득모듈과,
    획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단어 분리 모듈과,
    각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 구축모듈과,
    하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 해석모듈을 포함하는 것을 특징으로 하는 정보 마이닝 시스템.
  7. 제6항에 있어서,
    상기 단어 분리 모듈은,
    순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득하고, 상기 제1매칭결과는 제1수량의 제1구절과 제3수량의 글자를 포함하는 용도와,
    역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득하고, 상기 제2매칭결과는 제2수량의 제2구절과 제4수량의 글자를 포함하는 용도와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 용도와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 용도와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 용도와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 용도를 포함하는 것을 특징으로 하는 정보 마이닝 시스템.
  8. 제6항 또는 제7항에 있어서,
    상기 단어 분리 모듈은,
    통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계, 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하는 용도와,
    각 정보의 각 분리 단어에 대해 대응된 품사를 주석하는 용도를 포함하는 것을 특징으로 하는 정보 마이닝 스시템.
  9. 제6항 또는 제7항에 있어서,
    상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 싱기 구축모듈의 용도는,
    각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾으며, 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하며, 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것을 결정하며, 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 마지막 레벨 노드와 대응되는 분리 단어가 결정될 때까지 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정되는 것을 특징으로 하는 정보 마이닝 시스템.
  10. 제9항에 있어서,
    상기 해석 모듈은,
    구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산하는 용도와,
    각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성하는 용도를 포함하는 것을 특징으로 하는 정보 마이닝 시스템.
  11. 전자장치에 있어서, 상기 전자장치는 저장 장치, 프로세서, 상기 저장 장치에 저장되어 상기 프러세서 상에서 실행될 수 있는 정보 마이닝 시스템을 포함하고, 상기 정보 마이닝 시스템은 프로세서에 의해 실행되어,
    실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하는 단계와,
    획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계와,
    각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계와,
    하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계를 구현하는 것을 특징으로 하는 전자장치.
  12. 제11항에 있어서,
    상기 획득된 각 정보에 대해 단어 분리를 하는 단계는,
    순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득하고, 상기 제1매칭결과는 제1수량의 제1구절과 제3수량의 글자를 포함하는 단계와,
    역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득하고, 상기 제2매칭결과는 제2수량의 제2구절과 제4수량의 글자를 포함하는 단계와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 단계와,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 단계를 포함하는 것을 특징으로 하는 전자장치.
  13. 제11항 또는 제12항에 있어서,
    상기 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 단계는,
    통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계, 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하는 단계와, 각 정보의 각 분리 단어에 대해 대응된 품사를 주석하는 단계를 포함하는 것을 특징으로 하는 전자장치.
  14. 제11항 또는 제12항에 있어서,
    상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계는,
    각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾으며, 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하며, 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것을 결정하며, 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 마지막 레벨 노드와 대응되는 분리 단어가 결정될 때까지 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정되는 것을 특징으로 하는 전자장치.
  15. 제14항에 있어서,
    상기 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계는,
    구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산하는 단계와,
    각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성하는 단계를 포함하는 것을 특징으로 하는 전자장치.
  16. 컴퓨터 판독 가능한 저장매체에 있어서, 이에 포로세서에 의해 실행될 수 있는 적어도 하나의 컴퓨터 판독 가능한 명령이 저장되어,
    실시간 또는 정해진 시간으로 미리 결정된 데이터 소스로부터 특정 유형의 정보를 획득하는 동작과,
    획득된 각 정보에 대해 단어 분리를 하고 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 동작과,
    각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 동작과,
    하나의 정보와 대응되는 미리 설정된 구조 단어 분리 트리가 구축된 후 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 동작을 수행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  17. 제16항에 있어서,
    상기 획득된 각 정보에 대해 단어 분리를 하는 동작은,
    순방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제1매칭결과를 획득하고, 상기 제1매칭결과는 제1수량의 제1구절과 제3수량의 글자를 포함하는 동작과,
    역방향 최대 매칭 방법에 따라 각 정보 중 처리할 문자열과 통용 글자 단어 베이스에 매칭하여 제2매칭결과를 획득하고, 상기 제2매칭결과는 제2수량의 제2구절과 제4수량의 글자를 포함하는 동작과,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 작거나 같으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 동작과,
    상기 제1수량과 상기 제2수량이 같고 상기 제3수량이 상기 제4수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 동작과,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 크면 상기 제2매칭결과를 이 정보의 단어 분리 결과로 하는 동작과,
    상기 제1수량과 상기 제2수량이 같지 않고 상기 제1수량이 상기 제2수량보다 작으면 상기 제1매칭결과를 이 정보의 단어 분리 결과로 하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  18. 제16항 또는 제17항에 있어서,
    상기 각 정보와 대응되는 각 분리 단어에 대해 품사 주석을 하는 동작은,
    통용 글자 단어 베이스에서 글자와 단어가 각각 품사와의 맵핑관계, 및/또는 미리 설정된 글자와 단어가 각각 품사와의 맵핑관계에 따라 각 정보의 각 분리 단어와 대응되는 품사를 결정하는 동작과,
    각 정보의 각 분리 단어에 대해 대응된 품사를 주석하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  19. 제16항 또는 제17항에 있어서,
    상기 미리 설정된 구조 단어 분리 트리는 다 레벨 노드를 포함하고, 제 1 레벨 노드는 각 정보 자신이고, 제 2 레벨 노드는 분리 단어 구절이고, 제 2 레벨 노드 후의 각 레벨 노드는 상위 노드와 대응되는 하위 분리 단어나 분리 단어 구절이고, 각 정보와 대응되는 각 분리 단어의 단어 분리 순서와 품사에 따라 각 정보와 대응되는 각 분리 단어를 미리 설정된 구조 단어 분리 트리로 구축하는 단계는,
    A1. 각 정보와 대응되는 각 분리 단어에서 각 미리 설정된 품사의 목표 분리 단어를 찾는 단계와,
    A2. 각 정보 중 각 목표 분리 단어의 순서에 따라 각 제 2 레벨 노드와 대응되는 분리 단어 구절을 결정하는 단계와,
    A3. 하나의 분리 단어 구절에 대해 더이상 분리하지 못하면 이 분리 단어 구절은 해당 노드 분점의 마지막 레벨 노드인 것을 결정하는 단계와,
    A4. 하나의 분리 단어 구절에 대해 더 분리할 수 있으면 이 분리 단어 구절에서의 각 미리 설정된 품사의 목표 분리 단어를 찾아 이 분리 단어 구절과 대응되는 각 목표 분리 단어의 순서에 따라 각 노드 분점의 다음 레벨 노드와 대응되는 분리 단어가 결정되는 단계와,
    A5. 각 노드 분점의 마지막 레벨 노드와 대응되는 분리 단어가 결정될 때까지 상기 단계A3과 A4를 반복하게 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  20. 제19항에 있어서,
    상기 이 정보와 대응되는 미리 설정된 구조 단어 분리 트리에 따라 이 정보와 대응되는 핵심 과점 정보를 해석하는 단계는,
    구축된 미리 설정된 구조 단어 분리 트리에 기초하여 각 미리 설정된 제1결정적인 품사와 각 미리 설정된 제2결정적인 품사 사이의 거리를 계산하는 단계와,
    각 미리 설정된 제1결정적인 품사의 분리 단어와 가장 가까운 제2결정적인 품사의 분리 단어를 각각 찾아 각 미리 설정된 제1결정적인 품사의 분리 단어와 이와 가장 가까운 제2결정적인 품사의 분리 단어에 대해 이 정보에서의 순서에 따라 대응되는 핵심 관점 정보를 구성하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
KR1020187023709A 2017-05-05 2017-06-30 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체 KR102157202B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710313993.1A CN107220300B (zh) 2017-05-05 2017-05-05 信息挖掘方法、电子装置及可读存储介质
CN2017103139931 2017-05-05
PCT/CN2017/091360 WO2018201600A1 (zh) 2017-05-05 2017-06-30 信息挖掘方法、系统、电子装置及可读存储介质

Publications (2)

Publication Number Publication Date
KR20190020643A true KR20190020643A (ko) 2019-03-04
KR102157202B1 KR102157202B1 (ko) 2020-09-18

Family

ID=59945172

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187023709A KR102157202B1 (ko) 2017-05-05 2017-06-30 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체

Country Status (8)

Country Link
US (1) US20200301919A1 (ko)
EP (1) EP3425532A4 (ko)
JP (1) JP6687741B2 (ko)
KR (1) KR102157202B1 (ko)
CN (1) CN107220300B (ko)
AU (1) AU2017408800B2 (ko)
SG (1) SG11201900261QA (ko)
WO (1) WO2018201600A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569496B (zh) * 2018-06-06 2022-05-17 腾讯科技(深圳)有限公司 实体链接方法、装置及存储介质
CN109253728A (zh) * 2018-08-31 2019-01-22 平安科技(深圳)有限公司 语音导航方法、装置、计算机设备及存储介质
CN109753648B (zh) * 2018-11-30 2022-12-20 平安科技(深圳)有限公司 词链模型的生成方法、装置、设备及计算机可读存储介质
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘系统及方法
CN110390101B (zh) * 2019-07-22 2023-04-25 中新软件(上海)有限公司 实体合同备注的非标设计判断方法、装置及计算机设备
CN110971754B (zh) * 2019-10-28 2022-09-27 深圳绿米联创科技有限公司 信息处理方法、装置、电子设备及存储介质
CN112668324B (zh) * 2020-12-04 2023-12-08 北京达佳互联信息技术有限公司 语料数据处理方法、装置、电子设备及存储介质
CN113051913A (zh) * 2021-04-09 2021-06-29 中译语通科技股份有限公司 藏文分词信息处理方法、系统、存储介质、终端及应用
CN113919329B (zh) * 2021-09-26 2024-11-22 用友网络科技股份有限公司 识别方法、识别系统、电子设备和存储介质
CN114064793A (zh) * 2021-11-29 2022-02-18 大箴(杭州)科技有限公司 文本关键词的挖掘方法及装置、存储介质、计算机设备
CN114154502B (zh) * 2022-02-09 2022-05-24 浙江太美医疗科技股份有限公司 医学文本的分词方法、装置、计算机设备和存储介质
CN114647639B (zh) * 2022-03-21 2024-11-19 中国地质大学(武汉) 基于分词模式匹配的非标准地名地址数据清洗方法及装置
CN116226362B (zh) * 2023-05-06 2023-07-18 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法
CN116227488B (zh) * 2023-05-09 2023-07-04 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质
CN117391076B (zh) * 2023-12-11 2024-02-27 东亚银行(中国)有限公司 敏感数据的识别模型的获取方法、装置、电子设备及介质
CN117807190B (zh) * 2024-02-28 2024-05-31 国网河南省电力公司经济技术研究院 一种能源大数据敏感数据智能化识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031143A (ja) * 2004-07-13 2006-02-02 Fuji Xerox Co Ltd 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
US7315861B2 (en) * 2000-05-24 2008-01-01 Reachforce, Inc. Text mining system for web-based business intelligence
US8577924B2 (en) * 2008-12-15 2013-11-05 Raytheon Company Determining base attributes for terms
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN106202285A (zh) * 2016-06-30 2016-12-07 北京百度网讯科技有限公司 搜索结果展示方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000764B (zh) * 2006-12-18 2011-05-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
JP5224953B2 (ja) * 2008-07-17 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法およびプログラム
US9720903B2 (en) * 2012-07-10 2017-08-01 Robert D. New Method for parsing natural language text with simple links
CN104765838A (zh) * 2012-10-23 2015-07-08 海信集团有限公司 一种分词方法及装置
CN103678564B (zh) * 2013-12-09 2017-02-15 国家计算机网络与信息安全管理中心 一种基于数据挖掘的互联网产品调研系统
CN104050256B (zh) * 2014-06-13 2017-05-24 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN106372232B (zh) * 2016-09-09 2020-01-10 北京百度网讯科技有限公司 基于人工智能的信息挖掘方法和装置
CN106484676B (zh) * 2016-09-30 2019-04-12 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315861B2 (en) * 2000-05-24 2008-01-01 Reachforce, Inc. Text mining system for web-based business intelligence
JP2006031143A (ja) * 2004-07-13 2006-02-02 Fuji Xerox Co Ltd 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
US8577924B2 (en) * 2008-12-15 2013-11-05 Raytheon Company Determining base attributes for terms
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN106202285A (zh) * 2016-06-30 2016-12-07 北京百度网讯科技有限公司 搜索结果展示方法和装置

Also Published As

Publication number Publication date
KR102157202B1 (ko) 2020-09-18
AU2017408800B2 (en) 2020-02-20
CN107220300A (zh) 2017-09-29
AU2017408800A1 (en) 2018-11-22
SG11201900261QA (en) 2019-02-27
EP3425532A4 (en) 2019-02-13
US20200301919A1 (en) 2020-09-24
WO2018201600A1 (zh) 2018-11-08
CN107220300B (zh) 2018-07-20
EP3425532A1 (en) 2019-01-09
JP6687741B2 (ja) 2020-04-28
JP2019520616A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
KR20190020643A (ko) 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
TWI636452B (zh) 語音識別方法及系統
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
US9753905B2 (en) Generating a document structure using historical versions of a document
WO2017177809A1 (zh) 语言文本的分词方法和系统
JP6532088B2 (ja) 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
CN111309910A (zh) 文本信息挖掘方法及装置
WO2017012327A1 (zh) 句法分析的方法和装置
CN102662953B (zh) 与输入法集成的语义标注系统和方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
US9336197B2 (en) Language recognition based on vocabulary lists
CN116361441A (zh) 基于用户画像的问题意图识别方法、装置、设备及介质
Balahur et al. Multilingual feature-driven opinion extraction and summarization from customer reviews
CN101425087A (zh) 构建词典的方法和系统
WO2014114117A1 (en) Language recognition based on vocabulary lists
CN109933788B (zh) 类型确定方法、装置、设备和介质
CN102110087A (zh) 字符数据中实体消解的方法和装置
Li et al. Word embedding and topic modeling enhanced multiple features for content linking and argument/sentiment labeling in online forums
CN104536948A (zh) 版式文档的处理方法及装置
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
CN113268600B (zh) 检索名称的错别字纠正方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20180817

Patent event code: PA01051R01D

Comment text: International Patent Application

A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20190124

Comment text: Request for Examination of Application

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200331

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200909

PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200911

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200911

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20240729

Start annual number: 5

End annual number: 5