KR102086601B1 - 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 - Google Patents
담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 Download PDFInfo
- Publication number
- KR102086601B1 KR102086601B1 KR1020180093966A KR20180093966A KR102086601B1 KR 102086601 B1 KR102086601 B1 KR 102086601B1 KR 1020180093966 A KR1020180093966 A KR 1020180093966A KR 20180093966 A KR20180093966 A KR 20180093966A KR 102086601 B1 KR102086601 B1 KR 102086601B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- korean
- intention
- discourse
- dialogue corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
또한, 본 발명은 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 관한 것으로서, 보다 구체적으로는, 한국어 대화체 코퍼스 분류 시스템으로서, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100); 상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200); 상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및 상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.
Description
도 2는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S300의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S340의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류한다는 것을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 전체적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템의 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 판단 모듈의 세부적인 구성을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 문장 의도 판단부의 세부적인 구성을 도시한 도면.
100: 음성 입력 모듈
200: 문자열 출력 모듈
300: 판단 모듈
310: 문장 판단부
320: 억양 정보 의도 판단부
330: 억양 정보 필요 판단부
340: 문장 의도 판단부
341: 질문 판단부
342: 요구 판단부
400: 문장 분류 모듈
S100: 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계
S200: 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력하는 단계
S300: 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 단계
S310: 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단하는 단계
S320: 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 단계
S330: 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 단계
S340: 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계
S341: 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계
S342: 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계
S400: 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계
Claims (10)
- 한국어 대화체 코퍼스 분류 방법으로서,
(1) 음성 입력 모듈(100)이, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계;
(2) 문자열 출력 모듈(200)이, 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계;
(3) 판단 모듈(300)이, 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및
(4) 문장 분류 모듈(400)이, 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하며,
상기 단계 (3)은, 상기 판단 모듈(300)이,
(3-1) 상기 단계 (2)에서 출력된 상기 문자열이, 완전한 문장인지 판단하는 단계;
(3-2) 상기 단계 (3-1)의 판단 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 단계;
(3-3) 상기 단계 (3-2)의 판단 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 단계; 및
(3-4) 상기 억양 정보가 필요하지 않은 경우, 상기 단계 (3-1)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
- 제1항에 있어서, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 다수의 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
- 삭제
- 제1항에 있어서, 상기 단계 (3-4)는,
(3-4-1) 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계; 및
(3-4-2) 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
- 제1항에 있어서, 상기 단계 (4)에서 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
- 한국어 대화체 코퍼스 분류 시스템으로서,
사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100);
상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200);
상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및
상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하며,
상기 판단 모듈(300)은,
상기 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부(310);
상기 문장 판단부(310)에서 판단한 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부(320);
상기 억양 정보 의도 판단부(320)에서 판단한 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부(330); 및
상기 억양 정보가 필요하지 않은 경우, 상기 문장 판단부(310)에서 판단된 상기 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부(340)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
- 제6항에 있어서, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 서로 다른 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
- 삭제
- 제6항에 있어서, 상기 문장 의도 판단부(340)는,
질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부(341); 및
명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부(342)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
- 제6항에 있어서, 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180093966A KR102086601B1 (ko) | 2018-08-10 | 2018-08-10 | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180093966A KR102086601B1 (ko) | 2018-08-10 | 2018-08-10 | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200018121A KR20200018121A (ko) | 2020-02-19 |
KR102086601B1 true KR102086601B1 (ko) | 2020-03-09 |
Family
ID=69670274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180093966A Active KR102086601B1 (ko) | 2018-08-10 | 2018-08-10 | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102086601B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220112596A (ko) * | 2021-02-04 | 2022-08-11 | 삼성전자주식회사 | 음성 인식을 지원하는 전자 장치 및 그 동작 방법 |
KR102626714B1 (ko) * | 2021-10-08 | 2024-01-23 | 주식회사 리니토 | 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100277690B1 (ko) * | 1998-12-01 | 2001-01-15 | 정선종 | 화행 정보를 이용한 음성 인식 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100669241B1 (ko) * | 2004-12-15 | 2007-01-15 | 한국전자통신연구원 | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 |
KR101092352B1 (ko) * | 2008-10-31 | 2011-12-09 | 한국전자통신연구원 | 문장 코퍼스에 대한 영역 자동분류 방법 및 장치 |
KR20120042381A (ko) * | 2010-10-25 | 2012-05-03 | 한국전자통신연구원 | 음성인식 문장의 문형식별 장치 및 방법 |
-
2018
- 2018-08-10 KR KR1020180093966A patent/KR102086601B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100277690B1 (ko) * | 1998-12-01 | 2001-01-15 | 정선종 | 화행 정보를 이용한 음성 인식 방법 |
Non-Patent Citations (1)
Title |
---|
김경선 외, 자질 선택 기법을 이용한 한국어 화행 결정, 정보과학회논문지 소프트웨어 및 응용, 제30권제3호, pp.278-284 (2003.04.) 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20200018121A (ko) | 2020-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517663B (zh) | 一种语种识别方法及识别系统 | |
Cole | Prosody in context: A review | |
KR102372069B1 (ko) | 언어학습을 위한 양국어 자유 대화 시스템 및 방법 | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
Abdelhamid et al. | End-to-end arabic speech recognition: A review | |
US20240257808A1 (en) | Cross-assistant command processing | |
Mridha et al. | A study on the challenges and opportunities of speech recognition for Bengali language | |
Kilbourn-Ceron et al. | Predictability modulates pronunciation variants through speech planning effects: A case study on coronal stop realizations | |
Tahon et al. | Can we generate emotional pronunciations for expressive speech synthesis? | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
KR102086601B1 (ko) | 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 | |
Dyriv et al. | The user's psychological state identification based on Big Data analysis for person's electronic diary | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
Bigi | A phonetization approach for the forced-alignment task in SPPAS | |
AU2020103587A4 (en) | A system and a method for cross-linguistic automatic speech recognition | |
KR20150014235A (ko) | 자동 통역 장치 및 방법 | |
Thu et al. | Syllable pronunciation features for myanmar grapheme to phoneme conversion | |
Schubotz et al. | Y’know vs. you know: What phonetic reduction can tell us about pragmatic function | |
Sazhok et al. | Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. | |
KR100684160B1 (ko) | 개체명 인식을 이용한 대화 분석 장치 및 방법 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
CN115881119A (zh) | 融合韵律特征的消歧方法、系统、制冷设备及存储介质 | |
KR101765154B1 (ko) | 음성을 사이버 수화로 제공하는 방법 | |
Jůzová | Prosodic phrase boundary classification based on Czech speech corpora | |
Ni et al. | From English pitch accent detection to Mandarin stress detection, where is the difference? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180810 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190826 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200129 |
|
PG1501 | Laying open of application | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200303 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200304 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250225 Start annual number: 6 End annual number: 6 |