KR101072100B1 - 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 - Google Patents
표현 및 설명 추출을 위한 문서 처리 장치 및 방법 Download PDFInfo
- Publication number
- KR101072100B1 KR101072100B1 KR1020090100962A KR20090100962A KR101072100B1 KR 101072100 B1 KR101072100 B1 KR 101072100B1 KR 1020090100962 A KR1020090100962 A KR 1020090100962A KR 20090100962 A KR20090100962 A KR 20090100962A KR 101072100 B1 KR101072100 B1 KR 101072100B1
- Authority
- KR
- South Korea
- Prior art keywords
- expression
- description
- document
- sentence
- script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (25)
- 미리 정해진 웹 사이트로부터 특정 유형의 문서를 수집하고 상기 문서를 미리 정의된 구분에 따라 제1 언어로 작성되고 특정 주제를 갖는 글로 구성된 스크립트 부분과 제1 언어 또는 제2 언어로 작성되고 상기 스크립트 부분에서 포함하고 있는 표현들에 대한 설명을 포함하고 있는 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 문서 수집부, 그리고상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 표현 추출부를 포함하는 문서 처리 장치.
- 제1항에서,상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 문장 추출부를 더 포함하는 문서 처리 장치.
- 제2항에서,상기 문장 추출부는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류하는 문서 처리 장치.
- 제3항에서,상기 문장 추출부는 조건부 랜덤 필드(conditional random field) 분류기를 사용하여 상기 분류를 수행하는 문서 처리 장치.
- 제2항에서,상기 표현 추출부는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출하는 문서 처리 장치.
- 제2항에서,상기 표현 추출부는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출하는 문서 처리 장치.
- 제6항에서,상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정되는 문서 처리 장치.
- 제1항에서,상기 문서 수집부는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성하는 문서 처리 장치.
- 제1항에서,상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하는 데이터베이스를 더 포함하는 문서 처리 장치.
- 제1항에서,사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 자료 제공부를 더 포함하는 문서 처리 장치.
- 제1항에서,상기 문서는 영어로 작성되어 있는 문서 처리 장치.
- 제1항 내지 제11항 중 어느 한 항의 문서 처리 장치를 포함하는 어학 교육 시스템.
- 미리 정해진 웹 사이트로부터 특정 유형의 문서를 수집하고 상기 문서를 미리 정의된 구분에 따라 제1 언어로 작성되고 특정 주제를 갖는 글로 구성된 스크립트 부분과 제1 언어 또는 제2 언어로 작성되고 상기 스크립트 부분에서 포함하고 있는 표현들에 대한 설명을 포함하고 있는 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 단계, 그리고상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 단계를 포함하는 문서 처리 방법.
- 제13항에서,상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 단계를 더 포함하는 문서 처리 방법.
- 제14항에서,상기 문장 추출 단계는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류하는 단계를 포함하는 문서 처리 방법.
- 제15항에서,상기 분류 단계는 조건부 랜덤 필드(conditional random field) 분류기를 사용하는 단계를 포함하는 문서 처리 방법.
- 제14항에서,상기 표현 추출 단계는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출하는 단계를 포함하는 문서 처리 방법.
- 제14항에서,상기 표현 추출 단계는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출하는 단계를 포함하는 문서 처리 방법.
- 제18항에서,상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정되는 문서 처리 방법.
- 제13항에서,상기 문서 생성 단계는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성하는 문서 처리 방법.
- 제13항에서,상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하는 단계를 더 포함하는 문서 처리 방법.
- 제13항에서,사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 단계를 더 포함하는 문서 처리 방 법.
- 제13항에서,상기 문서는 영어로 작성되어 있는 문서 처리 방법.
- 제13항 내지 제23항 중 어느 한 항의 문서 처리 방법을 포함하는 어학 교육 방법.
- 컴퓨터에 제13항 내지 제23항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090100962A KR101072100B1 (ko) | 2009-10-23 | 2009-10-23 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
JP2012530792A JP5690829B2 (ja) | 2009-10-23 | 2010-10-11 | 表現および説明抽出のための文書処理装置および方法 |
US13/498,322 US8666987B2 (en) | 2009-10-23 | 2010-10-11 | Apparatus and method for processing documents to extract expressions and descriptions |
PCT/KR2010/006943 WO2011049313A2 (ko) | 2009-10-23 | 2010-10-11 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
CN201080046722.0A CN102576367B (zh) | 2009-10-23 | 2010-10-11 | 用于提取短语及说明的文档处理装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090100962A KR101072100B1 (ko) | 2009-10-23 | 2009-10-23 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110044345A KR20110044345A (ko) | 2011-04-29 |
KR101072100B1 true KR101072100B1 (ko) | 2011-10-10 |
Family
ID=43900780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090100962A Expired - Fee Related KR101072100B1 (ko) | 2009-10-23 | 2009-10-23 | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8666987B2 (ko) |
JP (1) | JP5690829B2 (ko) |
KR (1) | KR101072100B1 (ko) |
CN (1) | CN102576367B (ko) |
WO (1) | WO2011049313A2 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772599B2 (ja) * | 2009-12-25 | 2015-09-02 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法および記録媒体 |
CN104517106B (zh) * | 2013-09-29 | 2017-11-28 | 北大方正集团有限公司 | 一种列表识别方法与系统 |
US9858923B2 (en) * | 2015-09-24 | 2018-01-02 | Intel Corporation | Dynamic adaptation of language models and semantic tracking for automatic speech recognition |
EP3575987A1 (en) * | 2018-06-01 | 2019-12-04 | Fortia Financial Solutions | Extracting from a descriptive document the value of a slot associated with a target entity |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007286355A (ja) | 2006-04-17 | 2007-11-01 | Masanori Fukushima | 学習支援装置および学習支援方法 |
JP2009157643A (ja) | 2007-12-26 | 2009-07-16 | Mizuho Information & Research Institute Inc | 説明表示システム、説明表示方法及び説明表示プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0658259B1 (en) * | 1992-09-04 | 2000-03-01 | Caterpillar Inc. | Integrated authoring and translation system |
JP2003085181A (ja) * | 2001-09-07 | 2003-03-20 | Japan Science & Technology Corp | 事典システム |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
JPWO2005096182A1 (ja) * | 2004-03-31 | 2007-08-16 | 松下電器産業株式会社 | 情報抽出システム |
US20060074980A1 (en) | 2004-09-29 | 2006-04-06 | Sarkar Pte. Ltd. | System for semantically disambiguating text information |
WO2006085661A1 (ja) * | 2005-02-08 | 2006-08-17 | Nec Corporation | 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム |
US7376551B2 (en) * | 2005-08-01 | 2008-05-20 | Microsoft Corporation | Definition extraction |
CN100474301C (zh) | 2005-09-08 | 2009-04-01 | 富士通株式会社 | 基于数据挖掘获取词或词组单元译文信息的系统和方法 |
US20090019362A1 (en) * | 2006-03-10 | 2009-01-15 | Avri Shprigel | Automatic Reusable Definitions Identification (Rdi) Method |
US7657421B2 (en) * | 2006-06-28 | 2010-02-02 | International Business Machines Corporation | System and method for identifying and defining idioms |
KR20080037323A (ko) * | 2006-10-26 | 2008-04-30 | 주식회사 문깡 | 영어학습방법 |
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
KR20090035346A (ko) * | 2007-10-05 | 2009-04-09 | 박철 | 어휘 분석을 수행하는 어학학습 방법 |
CN101441636A (zh) | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
US20090327210A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Advanced book page classification engine and index page extraction |
US20100063797A1 (en) * | 2008-09-09 | 2010-03-11 | Microsoft Corporation | Discovering question and answer pairs |
US7937386B2 (en) * | 2008-12-30 | 2011-05-03 | Complyon Inc. | System, method, and apparatus for information extraction of textual documents |
-
2009
- 2009-10-23 KR KR1020090100962A patent/KR101072100B1/ko not_active Expired - Fee Related
-
2010
- 2010-10-11 CN CN201080046722.0A patent/CN102576367B/zh not_active Expired - Fee Related
- 2010-10-11 WO PCT/KR2010/006943 patent/WO2011049313A2/ko active Application Filing
- 2010-10-11 JP JP2012530792A patent/JP5690829B2/ja not_active Expired - Fee Related
- 2010-10-11 US US13/498,322 patent/US8666987B2/en active Active - Reinstated
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007286355A (ja) | 2006-04-17 | 2007-11-01 | Masanori Fukushima | 学習支援装置および学習支援方法 |
JP2009157643A (ja) | 2007-12-26 | 2009-07-16 | Mizuho Information & Research Institute Inc | 説明表示システム、説明表示方法及び説明表示プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2011049313A3 (ko) | 2011-09-01 |
CN102576367B (zh) | 2014-09-10 |
WO2011049313A9 (ko) | 2011-06-30 |
KR20110044345A (ko) | 2011-04-29 |
CN102576367A (zh) | 2012-07-11 |
JP5690829B2 (ja) | 2015-03-25 |
US8666987B2 (en) | 2014-03-04 |
JP2013506187A (ja) | 2013-02-21 |
US20120197894A1 (en) | 2012-08-02 |
WO2011049313A2 (ko) | 2011-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12210832B2 (en) | Method of responding based on sentence paraphrase recognition for dialog system | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN113449516A (zh) | 首字母缩写词的消歧方法、系统、电子设备及存储介质 | |
KR101072100B1 (ko) | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 | |
Sarveswaran et al. | Building a Part of Speech tagger for the Tamil Language | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
Liesenfeld et al. | Building and curating conversational corpora for diversity-aware language science and technology | |
Suman et al. | Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019. | |
Sliwa et al. | Multi-lingual argumentative corpora in english, turkish, greek, albanian, croatian, serbian, macedonian, bulgarian, romanian and arabic | |
Hernandez et al. | Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning | |
Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
KR102419648B1 (ko) | 언어의 구체성 및 설득 전략 나열에 기반하여 문서의 설득력을 판단하고 향상시키는 방법 및 시스템 | |
Zhang | [Retracted] Russian Speech Conversion Algorithm Based on a Parallel Corpus and Machine Translation | |
Dhanya et al. | Automatic Spelling Error Classification in Malayalam | |
Jia et al. | Learning natural ordering of tags in domain-specific Q&A sites | |
Bhatti et al. | MANAGING CONTEXTUAL SHIFTS: PRAGMATICS AND SEMANTICS IN AI DIALOGUE SYSTEMS FOR PAKISTANI LANGUAGE DOCUMENTATION | |
Aitim et al. | A systematic review of existing tools to automated processing systems for Kazakh language | |
Oushiro | Computational Resources for Handling Sociolinguistic Corpora | |
KR20110034797A (ko) | 문서 처리 장치 및 방법 | |
Poojary et al. | Multifunctional Language Processing Software Framework | |
Wang et al. | Construction of Daily Communicative Spoken Corpus of People with Different Educational Levels Combined with Intelligent Speech Recognition | |
Ghafouri et al. | PinLID: a dataset for Pinglish language identiftcation based on code-mixing sentence on unstructured resources | |
Olagbende | Natural Language Processing (NLP) Techniques for Afan Oromo Text Analysis | |
Qharabagh et al. | Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20091023 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20110421 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20110928 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20111004 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20111004 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20150909 |