[go: up one dir, main page]

KR102086601B1 - 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 - Google Patents

담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 Download PDF

Info

Publication number
KR102086601B1
KR102086601B1 KR1020180093966A KR20180093966A KR102086601B1 KR 102086601 B1 KR102086601 B1 KR 102086601B1 KR 1020180093966 A KR1020180093966 A KR 1020180093966A KR 20180093966 A KR20180093966 A KR 20180093966A KR 102086601 B1 KR102086601 B1 KR 102086601B1
Authority
KR
South Korea
Prior art keywords
sentence
korean
intention
discourse
dialogue corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020180093966A
Other languages
English (en)
Other versions
KR20200018121A (ko
Inventor
김남수
조원익
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020180093966A priority Critical patent/KR102086601B1/ko
Publication of KR20200018121A publication Critical patent/KR20200018121A/ko
Application granted granted Critical
Publication of KR102086601B1 publication Critical patent/KR102086601B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에 관한 것으로서, 보다 구체적으로는 한국어 대화체 코퍼스 분류 방법으로서, (1) 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계; (2) 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계; (3) 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및 (4) 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 관한 것으로서, 보다 구체적으로는, 한국어 대화체 코퍼스 분류 시스템으로서, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100); 상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200); 상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및 상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.

Description

담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템{KOREAN CONVERSATION STYLE CORPUS CLASSIFICATION METHOD AND SYSTEM CONSIDERING DISCOURSE COMPONENT AND SPEECH ACT}
본 발명은 한국어 대화체 코퍼스 분류 방법 및 시스템에 관한 것으로서, 특히 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 관한 것이다.
최근 스마트폰 등 모바일 기기의 넓은 보급으로 인하여 음성 인식 소프트웨어에 대한 관심이 증대되고 있다.
음성 인식이란, 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것이다. 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다.
인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다.
음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성-텍스트간 변환의 실현이다. 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 시스템을 개발하는 것이다.
한편, 음성 처리 방법은 발화의도 예측부와 개체명 인식부로 구성되어 인식된 음성을 처리한다. 발화의도 예측은 사용자의 발화를 통해 하고자 하는 일이 무엇인지 판별하는 것으로 일반적으로 발화의도 예측 분류기를 이용하여 예측하게 되며, 개체명 인식의 경우 문장 내에 있는 단어 중 발화의도의 인자 값이 되는 개체를 찾아내는 것으로 일반적으로 다수레이블 분류기를 이용하여 예측한다.
하지만, 사용자의 발화의도를 예측할 때, 대화를 바탕으로 대응을 요구하는 경우가 드물며, 발화자 간의 관계나 상황을 모두 입력으로 넣어 주기 힘들기 때문에, 맥락 정보를 모두 담은 코퍼스를 이용하여 실생활에서 문장의 의도를 분석하는 것은 어려운 것이 현실이다. 이에 따라, 맥락이 주어지지 않은 단일 문장의 실질적인 사용자의 발화의도를 파악하는 기술의 개발이 요구되고 있다.
한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1763679호(발명의 명칭: 화행 분석을 통한 스티커 추천 방법 및 시스템) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은,
한국어 대화체 코퍼스 분류 방법으로서,
(1) 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계;
(2) 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계;
(3) 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및
(4) 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
바람직하게는, 상기 단계 (3)은,
(3-1) 상기 단계 (2)에서 출력된 상기 문자열이, 완전한 문장인지 판단하는 단계;
(3-2) 상기 단계 (3-1)의 판단 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 단계;
(3-3) 상기 단계 (3-2)의 판단 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 단계; 및
(3-4) 상기 억양 정보가 필요하지 않은 경우, 상기 단계 (3-1)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (3-4)는,
(3-4-1) 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계; 및
(3-4-2) 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계를 포함할 수 있다.
바람직하게는, 상기 단계 (4)에서 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)일 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은,
한국어 대화체 코퍼스 분류 시스템으로서,
사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈;
상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈;
상기 문자열 출력 모듈에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈; 및
상기 판단 모듈에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 서로 다른 문장일 수 있다.
바람직하게는, 상기 판단 모듈은,
상기 문자열 출력 모듈에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부;
상기 문장 판단부에서 판단한 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부;
상기 억양 정보 의도 판단부에서 판단한 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부; 및
상기 억양 정보가 필요하지 않은 경우, 상기 문장 판단부에서 판단된 상기 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부를 포함할 수 있다.
더욱 바람직하게는, 상기 문장 의도 판단부는,
질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부; 및
명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부를 포함할 수 있다.
바람직하게는, 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)일 수 있다.
본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 흐름도를 도시한 도면.
도 2는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S300의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S340의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류한다는 것을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 전체적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템의 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 판단 모듈의 세부적인 구성을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 문장 의도 판단부의 세부적인 구성을 도시한 도면.
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
문장이란, 언어표현과 문법학의 기본단위 중 하나이며, 문 또는 월이라고도 한다. 문장이라는 용어에는 두 가지 개념이 있는데, 하나는 문자언어로 표현된 수사학적 단위라는 개념이고, 다른 하나는 문법학적 단위라는 개념이다. 흔히, 수사학적 개념으로서의 문장은 글월, 문법학적 단위로서의 문장은 월이라고 불러 구분한다. 문법학의 기본단위들로는 문장 외에 음소·형태소·단어 등이 있는데, 이들 가운데 문장은 언어분석이나 기술의 최대단위로 인정된다.
문법학적 문장은 의미적 속성, 구성적 속성, 형식적 속성 등 세 가지 속성에 의하여 규정된다. 의미적 속성은 문장이 하나로 완결, 통일된 생각이나 느낌을 나타내는 표현단위라는 것이며, 구성적 속성은 단어 하나 이상의 구성성분들로써 구성된 구성체라는 것이고, 형식적 속성은 다른 언어형식에 의존하거나 내포되어 있지 않은 자립형식이라는 것이다.
이 세 속성은 문장이 갖추어야 할 요건이므로, 이 중 어느 하나라도 결여하고 있는 언어형식은 문장이라고 할 수 없다. 이를테면, ‘봄이 오니 꽃이 핀다’에서의 ‘봄이 오니’와 ‘꽃이 핀다’는 서로 의존하고 있으며, ‘눈이 내리는 날은 마음도 설렌다.’에서의 ‘눈이 내리’는 더 큰 형식에 내포되어 있으므로 이들은 절(마디)이지 문장이 아니다.
한국어의 문장 구조는 주어-(목적어)-서술어 형의 배열 순서를 기본으로 하여 이루어진다. 문장성분은 주성분과 부속성분으로 나눌 수 있으며, 서술어가 몇 개의 성분을 필요로 하느냐에 따라 성분의 출현이 좌우된다. 문장의 구조는 말하고자 하는 생각이나 사건을 반영하는 것이지만, 실제 이야기로 나타날 때에는 주어진 조건이나 상황에 따라 여러 가지 모습으로 나타날 수 있다.
문장성분은 문장을 구성하면서 일정한 구실을 하는 요소들을 말한다. 문장에서 가장 중심이 되는 역할을 하는 성분은 서술어이다. 다른 문장성분들과는 달리, 서술어는 잘 생략되지 않으며, 활용어미가 다양하게 발달해 있어서 문장의 문법 기능들은 대개 이들에 의해 실현된다. 문장성분은 주성분과 부속성분 그리고 독립성분으로 나뉜다. 주성분은 문장의 골격을 이루는 성분이며, 부속성분은 주로 주성분의 내용을 수식하는 성분이다. 독립성분은 주성분이나 부속성분과 직접적인 관계가 없이 문장에서 따로 떨어져 독립해 있는 성분이다. 주성분에는 서술어를 비롯하여 주어, 목적어, 보어가 있고, 부속성분에는 관형어와 부사어가 있으며, 독립성분에는 독립어가 있다.
화용론이란 현실적으로 주어진 언어 자체만을 대상으로 하는 것이 아니라 언어를 있게 하는 주변을 설명하는데 주력하는 언어학의 한 분야로, 말하는 이·듣는 이·시간·장소 등으로 구성되는 맥락 속에서의 언어사용을 다룬다. 언어 사용에 관한 연구, 즉 언어 사용의 특성과 과정에 중점을 두고 언어현상을 연구하는 것이다.
맥락은 개인 ‘외부의-텍스트적인’구성에 영향을 주는데, 이 맥락 속에 담화가 포함된다. 텍스트로 인해 구성된 의미는 그 의미를 이끌기도 하고 그 의미를 이해할 수 있게 해주는 구어와 문어 등의 다른 텍스트들에 의해 영향을 받기도 하며, 맥락은 텍스트 자체의 영향보다 큰 영향을 미칠 수 있다. 이때, 맥락은 상황/앞뒤 문장/발화주체 등을 포괄하게 되는데, 이러한 정보들의 결핍은 문장 의도 분석에 걸림돌이 될 수 있다. 예를 들어, 어떠한 의문문이 수사적인지 아니면 정말 질문하는 것인지 판단하는 데에는 화자와 청자 간의 관계 및 문학적 맥락이 중요하게 작용하기 때문이다.
하지만, 사용자의 발화의도를 예측할 때, 대화를 바탕으로 대응을 요구하는 경우가 드물며, 발화자 간의 관계나 상황을 모두 입력으로 넣어 주기 힘들기 때문에, 맥락 정보를 모두 담은 코퍼스를 이용하여 실생활에서 문장의 의도를 분석하는 것은 어려운 것이 현실이다.
이에, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 단일 문장의 실질적인 의도를 파악하여 분류하는 기준을 제시할 수 있다.
도 1은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 코퍼스 분류 방법으로서, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계(S100), 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력하는 단계(S200), 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 단계(S300), 및 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계(S400)를 포함하여 구현될 수 있다. 이하에서는, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 각각의 단계에 대해 상세히 설명하기로 한다.
단계 S100에서는, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받을 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위한 방법에 관한 것이므로, 사용자가 발화한 문장을 음성 신호로 입력 받을 수 있다. 여기서, 한국어 대화체 코퍼스는 단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
단계 S200에서는, 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 코퍼스를 음성 신호로 입력받고, 입력받은 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위하여, 입력받은 음성 신호를 문자열로 변환하여 사용할 수 있다. 단계 S200에서는, 음성텍스트변환기술(Speech-to-text, STT) 및 텍스트 분석 기술 등을 이용할 수 있다. 이때, 키보드를 통해 문자열이 입력되는 경우에는 추가적인 변환 없이 입력되는 문자열을 그대로 출력할 수 있다.
단계 S300에서는, 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락(Context)이 주어지지 않은 단일 문장을 대상으로 하여, 담화 성분 분석 및 화행 분석을 수행하여, 문장에 어떤 의도가 있는지 판단할 수 있다. 이때, 문장의 의도는 질문을 하는 것인지, 행동을 요구하는 것인지, 혹은 단순히 서술을 하는 것인지에 따라 구별될 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 종래에 의문문, 명령문, 평서문으로 구별되던 문장 유형들에 대해 실질적인 의도 파악이 어렵다는 사실을 인지하고, 한국어 단일 문장 코퍼스를 의도에 따라 분류하는 새로운 기준을 제시할 수 있다.
도 2는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 단계 S300은, 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단하는 단계(S310), 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 단계(S320), 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 단계(S330), 및 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계(S340)를 포함하여 구현될 수 있다.
단계 S310에서는, 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 완전한 형태의 단일 문장 또는 주제가 공통된 다수의 문장을 대상으로 하기 때문에, 단계 S310에서 입력받은 음성 신호가 완전한 문장인지 판단할 수 있다. 이때, 단계 S310의 판단 결과 완전한 문장인 경우, 단계 S320의 과정을 거치고, 완전한 문장이 아닌 경우, Fragments(FR)로서 추후 상세히 설명할 단계 S400에서 non-target 문장으로 분류될 수 있다.
단계 S320에서는, 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 문장을 대상으로 하므로, 억양 정보를 이용하여 문장을 분류할 수 있다. 보다 구체적으로는, 문장에 포함된 억양 정보를 이용해, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하여 문장을 분류할 수 있다. 이때, 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 단계 S330의 과정을 거치고, 완전한 문장의 의도 판단이 불가능한 경우, Context-dependent(CD)로서 단계 S400에서 non-target 문장으로 분류될 수 있다.
단계 S330에서는, 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 문장에 억양 정보가 포함되어 있지 않다면, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는데 어려움이 있을 수도 있으므로, 억양 정보가 필요한 경우, Intonation-dependent(ID)로서 단계 S400에서 non-target 문장으로 분류될 수 있다.
단계 S340에서는, 문장의 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단할 수 있다.
도 3은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 단계 S340의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 단계 S340은, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계(S341), 및 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계(S342)를 포함하여 구현될 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 단일 문장을 크게 질문, 요구, 또는 서술로 분류할 수 있다. 기존의 한국어 문장의미론은 종결 어미에 따라 문장들을 의문문, 명령문, 평서문 등으로 분류하지만, 의문문이나 명령문의 형태를 띤 문장들 중에 실제로 질문이나 요구사항이 없는 문장이 많고, 평서문의 형태를 띰에도 불구하고 의문점이나 요구사항을 전달하는 문장들이 있다. 따라서, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 문장이 함의하는 바를 고려하되 맥락을 요하지 않는 범위 내에서 새롭게 분류 기준을 정하였다. 이때, 분류가 애매한 문장들, 혹은 별도로 분류할 필요성을 느끼는 문장들은 non-target 문장으로 따로 분류할 수 있다.
단계 S341에서는, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단할 수 있고, 단계 S342에서는 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 질문에 해당하는 문장들은 question set이 있어서 상대방으로부터 대답을 원하는지 여부로 판정할 수 있다. 이는 ‘궁금해’, ‘모르겠다’ 등의 술어로 질문을 내장한 형태를 포함할 수 있다. 이때, ‘아무 위험 없이 돈 벌 수 있나’ 등의 수사의문문(Rhetorical Questions, RQ)은 일반적으로 question set이 null이라 판정하지만, 맥락에 따라 질문으로 해석될 수도 있기 때문에, non-target 문장으로 분류하였다. 또한, ‘요즘 좀 춥지 안 그래’ 등의 tag question을 포함한 문장들 역시 질문으로 판단하기 보다는 앞쪽의 내용으로 판단할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 질문과 요구는 그 경계를 잘 설정하는 것이 중요한데, ‘내일 날씨 좀 검색해 줘’와 같이 질문의 의도를 가지지만 명령문의 형태를 가지고 있는 문장들은 화행의 force를 고려하여 요구에 포함할 수 있고, ‘내일 약속 미뤄서 다음 주에 만나면 안 될까’와 같은 의문문 중에서도 단순 제안 이상의 기능을 할 경우 부탁으로 판단하고 요구로 분류할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 요구에 해당하는 문장들은 청자의 행동이 부여되는지 여부로 판정할 수 있다. 이는 명령, 부탁, 금지, 청유 등 의무 부여 대상에 청자가 포함되는 문장들을 기본으로 할 수 있다. 본 발명에서는 ‘내일 아버님 퇴원하실 때 형님도 오시는 게 좋겠어요’와 같이 강제성이 있고 청자를 대상에 확실히 포함하는 평서문을 요구로 분류할 수 있으며, ‘그럼 개강 날 학교에서 보자’와 같이 화자에게도 행동이 부여되는 청유문의 경우에도 청자가 대상에 포함된다면 요구로 분류할 수 있다. 또한, ‘쏠 테면 쏴 봐’와 같은 조건절을 수반한 명령문의 경우, 조건절이 행동을 무효화시키는 경우가 아니라면 요구로 분류할 수 있다. 뿐만 아니라, ‘당장 그 손을 떼지 않으면 죽음을 면치 못할 것이다’와 같이 조건절에 명령문이 들어가 의무 또는 금지를 표현하는 경우에도 요구로 간주할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 주의해야 할 문장 유형은, 명령문 형태의 관용어구(Idiomatic Expressions, IE)이다. 관용어구는 크게 두 가지로, ‘내 정신 좀 봐’와 같이 상대방에게 요구가 없지만 감탄사처럼 쓰이는 표현과 ‘안녕히 주무세요’와 같이 안부, 안심 또는 행복의 기원을 목적으로 쓰이는 표현이 있다. 전자의 경우에는 앞뒤로 나오는 내용에 따라 요구로 분류될 가능성이 있으나, 후자의 경우는 그 내용이 추상적이거나, 청자에게 요구하는 것이 아니거나, 청자가 어떻게 하지 못하는 경우를 모두 포함할 수 있으므로, 이 문장들은 non-target 문장으로 분류할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 서술에 해당하는 문장들은 상술한 질문 또는 요구의 의도가 없으며 non-target 문장들에 해당하지 않는 문장들을 포함할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, non-target 문장들은 위에서 설명한 수사의문문 및 관용어구를 제외하고도 Fragments(FR), Intonation-dependent(ID), Context-dependent(CD)의 세 가지를 포함할 수 있다.
Fragments는 의문사, 등위접속사 등으로 의문 또는 명령을 파악할 수 있는 경우를 제외하고, ‘오토바이는 위험하지만’과 같이 완전한 절이 아닌 성분들로 구성되어 있는 발화들을 포함할 수 있다. Intonation-dependent는, ‘천천히 가고 있어’와 같이 구두점(Punctuation Marks)에 영향을 받지 않는 분류 기준을 확립하는 과정에서 생기는 모호함으로 인하여, 종결 어미의 특성상 여러 의도로 해석될 수 있는 문장들을 포함할 수 있다. 지금까지 언급한 네 개의 non-target 문장에 포함되지 않은 non-target 문장은 맥락이 필요한 것으로 간주하여 Context-dependent에 포함할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은 단일 문장을 기준으로 하지만, 접속사 등을 통한 복합 문장이나 주제가 통일된 다수의 문장의 병렬 배치도 허용할 수 있다. 이때, 서술+질문과 서술+요구는 화행의 force에 따라 각각 질문과 요구로 분류할 수 있으며, 질문+요구와 요구+질문의 경우 뒤쪽에 오는 내용을 중심으로 분류할 수 있다. 또한, 질문+서술이나 요구+서술의 경우 그 케이스가 적지만, 질문이나 요구가 실질적으로 의도하는 바가 있는지 확인한 후 판단할 수 있다.
단계 S400에서는, 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서는, 상기에서 설명한 분류 기준을 바탕으로 단계 S400에서 한국어 대화체 코퍼스를 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다.
도 4는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류한다는 것을 설명하기 위해 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 전체적인 구성을 도시한 도면이다. 도 4 및 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 보다 구체적으로는, 완전한 절인지 여부, 억양 정보로 판단이 가능한지 여부 및 억양 정보가 필요한지 여부를 바탕으로 단일 문장 또는 주제가 공통된 다수의 문장을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있으며, non-target 문장에는, Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)가 포함될 수 있다.
도 6은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100), 음성 신호를 입력받아 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200), 문자열 출력 모듈(200)에 의해 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 판단 모듈(300), 및 판단 모듈(300)에 의해 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함할 수 있다.
음성 입력 모듈(100)은, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받을 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 한국어 대화체 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위한 시스템에 관한 것이므로, 사용자가 발화한 문장을 음성 신호로 입력 받을 수 있다. 여기서, 한국어 대화체 코퍼스는 단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
문자열 출력 모듈(200)은, 음성 신호를 입력받아 음성 신호를 문자열로 변환하여 출력할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 한국어 대화체 코퍼스를 음성 신호로 입력받고, 입력받은 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위하여, 입력받은 음성 신호를 문자열로 변환하여 사용할 수 있다. 문자열 출력 모듈(200)은, 음성텍스트변환기술 및 텍스트 분석 기술 등을 이용할 수 있다. 이때, 키보드를 통해 문자열이 입력되는 경우에는 추가적인 변환 없이 입력되는 문자열을 그대로 출력할 수 있다.
판단 모듈(300)은, 문자열 출력 모듈(200)에 의해 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은, 맥락(Context)이 주어지지 않은 단일 문장을 대상으로 담화 성분 분석 및 화행 분석을 수행하여, 문장에 어떤 의도가 있는지 판단할 수 있다.
도 7은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 있어서, 판단 모듈(300)의 세부적인 구성을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 판단 모듈(300)은, 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부(310); 문장 판단부(310)에서 판단한 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부(320); 억양 정보 의도 판단부(320)에서 판단한 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부(330); 및 억양 정보가 필요하지 않은 경우, 문장 판단부(310)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부(340)를 포함할 수 있다.
문장 판단부(310)는, 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 여부를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은 맥락이 주어지지 않은 완전한 형태의 단일 문장 또는 주제가 공통된 다수의 문장을 대상으로 하기 때문에, 문장 판단부(310)에서 입력받은 음성 신호가 완전한 문장인지 판단할 수 있다.
억양 정보 의도 판단부(320)는, 문장 판단부(310)에서 판단한 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 여부를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 맥락이 주어지지 않은 문장을 대상으로 하므로, 억양 정보를 이용하여 문장을 분류할 수 있다.
억양 정보 필요 판단부(330)는, 억양 정보 의도 판단부(320)에서 판단한 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에서 문장에 억양 정보가 포함되어 있지 않다면, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는데 어려움이 있을 수도 있으므로, 억양 정보 필요 판단부(330)에서 억양 정보가 필요한지 여부를 판단할 수 있다.
문장 의도 판단부(340)는, 억양 정보가 필요하지 않은 경우, 문장 판단부(310)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단할 수 있다.
도 8은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 있어서, 문장 의도 판단부(340)의 세부적인 구성을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 문장 의도 판단부(340)는, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부(341); 및 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부(342)를 포함할 수 있다.
문장 분류 모듈(400)은, 판단 모듈(300)에 의해 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 문장 분류 모듈(400)에서는, 한국어 대화체 코퍼스를 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다.
본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 완전한 절인지 여부, 억양 정보로 판단이 가능한지 여부 및 억양 정보가 필요한지 여부를 바탕으로 단일 문장 또는 주제가 공통된 다수의 문장을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있으며, non-target 문장에는, Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)가 포함될 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
10: 본 발명의 일실시예에 따른 한국어 대화체 코퍼스 분류 시스템
100: 음성 입력 모듈
200: 문자열 출력 모듈
300: 판단 모듈
310: 문장 판단부
320: 억양 정보 의도 판단부
330: 억양 정보 필요 판단부
340: 문장 의도 판단부
341: 질문 판단부
342: 요구 판단부
400: 문장 분류 모듈
S100: 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계
S200: 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력하는 단계
S300: 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 단계
S310: 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단하는 단계
S320: 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 단계
S330: 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 단계
S340: 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계
S341: 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계
S342: 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계
S400: 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계

Claims (10)

  1. 한국어 대화체 코퍼스 분류 방법으로서,
    (1) 음성 입력 모듈(100)이, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계;
    (2) 문자열 출력 모듈(200)이, 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계;
    (3) 판단 모듈(300)이, 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및
    (4) 문장 분류 모듈(400)이, 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하며,
    상기 단계 (3)은, 상기 판단 모듈(300)이,
    (3-1) 상기 단계 (2)에서 출력된 상기 문자열이, 완전한 문장인지 판단하는 단계;
    (3-2) 상기 단계 (3-1)의 판단 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 단계;
    (3-3) 상기 단계 (3-2)의 판단 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 단계; 및
    (3-4) 상기 억양 정보가 필요하지 않은 경우, 상기 단계 (3-1)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
  2. 제1항에 있어서, 상기 한국어 대화체 코퍼스는,
    단일 문장 또는 주제가 공통된 다수의 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
  3. 삭제
  4. 제1항에 있어서, 상기 단계 (3-4)는,
    (3-4-1) 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계; 및
    (3-4-2) 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
  5. 제1항에 있어서, 상기 단계 (4)에서 상기 non-target 문장은,
    Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
  6. 한국어 대화체 코퍼스 분류 시스템으로서,
    사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100);
    상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200);
    상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및
    상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하며,
    상기 판단 모듈(300)은,
    상기 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부(310);
    상기 문장 판단부(310)에서 판단한 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부(320);
    상기 억양 정보 의도 판단부(320)에서 판단한 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부(330); 및
    상기 억양 정보가 필요하지 않은 경우, 상기 문장 판단부(310)에서 판단된 상기 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부(340)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
  7. 제6항에 있어서, 상기 한국어 대화체 코퍼스는,
    단일 문장 또는 주제가 공통된 서로 다른 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
  8. 삭제
  9. 제6항에 있어서, 상기 문장 의도 판단부(340)는,
    질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부(341); 및
    명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부(342)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
  10. 제6항에 있어서, 상기 non-target 문장은,
    Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
KR1020180093966A 2018-08-10 2018-08-10 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템 Active KR102086601B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180093966A KR102086601B1 (ko) 2018-08-10 2018-08-10 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180093966A KR102086601B1 (ko) 2018-08-10 2018-08-10 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200018121A KR20200018121A (ko) 2020-02-19
KR102086601B1 true KR102086601B1 (ko) 2020-03-09

Family

ID=69670274

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180093966A Active KR102086601B1 (ko) 2018-08-10 2018-08-10 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102086601B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220112596A (ko) * 2021-02-04 2022-08-11 삼성전자주식회사 음성 인식을 지원하는 전자 장치 및 그 동작 방법
KR102626714B1 (ko) * 2021-10-08 2024-01-23 주식회사 리니토 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100277690B1 (ko) * 1998-12-01 2001-01-15 정선종 화행 정보를 이용한 음성 인식 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100669241B1 (ko) * 2004-12-15 2007-01-15 한국전자통신연구원 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
KR101092352B1 (ko) * 2008-10-31 2011-12-09 한국전자통신연구원 문장 코퍼스에 대한 영역 자동분류 방법 및 장치
KR20120042381A (ko) * 2010-10-25 2012-05-03 한국전자통신연구원 음성인식 문장의 문형식별 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100277690B1 (ko) * 1998-12-01 2001-01-15 정선종 화행 정보를 이용한 음성 인식 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김경선 외, 자질 선택 기법을 이용한 한국어 화행 결정, 정보과학회논문지 소프트웨어 및 응용, 제30권제3호, pp.278-284 (2003.04.) 1부.*

Also Published As

Publication number Publication date
KR20200018121A (ko) 2020-02-19

Similar Documents

Publication Publication Date Title
CN110517663B (zh) 一种语种识别方法及识别系统
Cole Prosody in context: A review
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
Carvalho et al. A critical survey on the use of fuzzy sets in speech and natural language processing
Abdelhamid et al. End-to-end arabic speech recognition: A review
US20240257808A1 (en) Cross-assistant command processing
Mridha et al. A study on the challenges and opportunities of speech recognition for Bengali language
Kilbourn-Ceron et al. Predictability modulates pronunciation variants through speech planning effects: A case study on coronal stop realizations
Tahon et al. Can we generate emotional pronunciations for expressive speech synthesis?
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR102086601B1 (ko) 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
Bigi A phonetization approach for the forced-alignment task in SPPAS
AU2020103587A4 (en) A system and a method for cross-linguistic automatic speech recognition
KR20150014235A (ko) 자동 통역 장치 및 방법
Thu et al. Syllable pronunciation features for myanmar grapheme to phoneme conversion
Schubotz et al. Y’know vs. you know: What phonetic reduction can tell us about pragmatic function
Sazhok et al. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings.
KR100684160B1 (ko) 개체명 인식을 이용한 대화 분석 장치 및 방법
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
CN115881119A (zh) 融合韵律特征的消歧方法、系统、制冷设备及存储介质
KR101765154B1 (ko) 음성을 사이버 수화로 제공하는 방법
Jůzová Prosodic phrase boundary classification based on Czech speech corpora
Ni et al. From English pitch accent detection to Mandarin stress detection, where is the difference?

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20180810

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20190826

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200129

PG1501 Laying open of application
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200303

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200304

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20250225

Start annual number: 6

End annual number: 6