KR20130005160A - 음성인식기능을 이용한 메세지 서비스 방법 - Google Patents
음성인식기능을 이용한 메세지 서비스 방법 Download PDFInfo
- Publication number
- KR20130005160A KR20130005160A KR1020110066574A KR20110066574A KR20130005160A KR 20130005160 A KR20130005160 A KR 20130005160A KR 1020110066574 A KR1020110066574 A KR 1020110066574A KR 20110066574 A KR20110066574 A KR 20110066574A KR 20130005160 A KR20130005160 A KR 20130005160A
- Authority
- KR
- South Korea
- Prior art keywords
- message
- result
- voice
- evaluation result
- transmitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 52
- 239000003086 colorant Substances 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72436—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/18—Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 송신 단말기에서 음성을 메세지 서버로 전송하고 메세지 서버에서 음성을 인식하여 인식결과와 혼동 네트워크에 기반한 엔-베스트 결과를 생성하여 송신 단말기에 전송하는 단계, 송신 단말기에서 인식결과와 엔-베스트 결과를 통해 메세지가 선택되고, 메세지의 정확도에 따른 평가결과가 결정되면, 메세지와 평가결과를 수신 단말기으로 전송하는 단계 및 수신 단말기에서 메세지와 평가결과를 디스플레이하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 스마트폰과 컴퓨터 등을 통해 메세지 서비스를 제공하는 방법에 관한 것으로서, 더욱 상세하게는 음성 인식 결과와 사용자의 실제 음성을 조합하여 메세지를 전송 및 등록하는 서비스를 제공하는 음성인식기능을 이용한 메세지 서비스 방법에 관한 것이다.
최근 스마트폰 및 스마트 패드 등의 기기가 폭발적으로 증가하고 있으며, 이러한 기기를 통해 다양한 서비스를 제공하기 위해 통신 속도 및 클라우드 컴퓨팅 방식 등의 인프라 확충 및 성능 개선이 지속적으로 이루어지고 있다.
또한 이러한 기술의 발전을 통해 예전에는 어려웠던 서비스들이 일부 가능해지게 되었다. 현재 사용자의 데이터 저장을 위해서 클라우드 기반의 데이터 센터가 활성화되어 저장 용량의 제한이 없어지고 있으며 이러한 시스템들을 융합하여 활용할 수 있는 방법은 무궁무진하다고 할 수 있다.
특히 음성 인식을 이용한 서비스분야에서도 과거에 어려웠던 무제한 연속어 음성인식이 거의 실시간으로 가능해 졌으며, 이를 이용한 다양한 서비스들이 출시되고 있다.
일례로 메세지 서버 기반의 무제한 연속어 음성인식기의 성능 향상에 따라 네트워크를 통한 음성 검색 뿐만 아니라 받아쓰기 등과 같은 앱도 개발되어 서비스를 제공하고 있다.
본 발명의 배경기술은 대한민국 특허공개공보 10-2004-0040543호(2004.05.13)에 개시되어 있다.
종래의 무제한 연속어 음성인식 기능을 이용한 서비스로 자주 거론되는 SMS 서비스(Short Message service) 등은 무제한 연속어 음성 인식기의 성능이 만족할 만한 수준이 아니기 때문에 이를 이용한 서비스는 많이 이용되지 않고 있다.
이는 음성 인식 결과가 만족스럽지 않아 사용자가 많은 수정 작업을 해야 하므로, 실제로 휴대폰이나 스마트폰에서 키보드로 입력하는 것에 비해 만족도가 높지 않았기 때문이다.
본 발명은 전술한 문제점을 개선하기 위해 창안된 것으로서, 음성 인식 결과와 사용자의 실제 음성을 조합하여 메세지를 제공함으로써, 정확도와 사용자의 편의성을 향상시킬 수 있도록 한 음성인식기능을 이용한 메세지 서비스 방법을 제공하는데 그 목적이 있다.
본 발명의 일 측면에 따른 음성인식기능을 이용한 메세지 서비스 방법은 송신 단말기로부터 전송된 음성을 인식하는 단계; 상기 음성에 대한 인식결과와 혼동 네트워크에 기반한 엔-베스트 결과를 생성하여 상기 송신 단말기로 전송하는 단계; 및 상기 송신 단말기에 의해 선택된 메세지와 상기 메세지의 정확도에 대한 평가결과가 전송되면, 상기 메세지와 상기 평가결과를 수신 단말기로 전송하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서, 상기 송신 단말기에 의해 선택된 메세지와 상기 메세지의 정확도에 대한 평가결과가 전송되면, 상기 메세지를 저장하여 상기 인식결과에 대한 로그 데이터를 저장하여 상기 인식결과에 대한 오류를 수정하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에서, 상기 수신 단말기로부터 상기 음성의 전송을 요청받으면, 상기 음성을 읽어들여 상기 수신 단말기로 전송하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 다른 측면에 따른 음성인식기능을 이용한 메세지 서비스 방법은 음성을 입력받아 메세지 서버로 전송하는 단계; 상기 메세지 서버로부터 상기 음성에 대한 인식결과와 혼동 네트워크에 기반한 엔-베스트 결과를 수신하는 단계; 상기 인식결과와 상기 엔-베스트 결과를 디스플레이하여 상기 인식결과와 상기 엔-베스트 결과에 따라 메세지가 선택되고 상기 메세지에 대한 평가 결과가 결정되는지를 판단하는 단계; 및 상기 메세지와 상기 평가 결과가 결정되면, 상기 메세지와 상기 평가결과를 상기 메세지 서버와 수신 단말기 중 적어도 어느 하나 이상으로 전송하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 상기 메세지가 선택되고 상기 메세지에 대한 평가 결과가 결정되는지를 판단하는 단계에서, 상기 인식결과를 단어별로 색상을 다르게 디스플레이하여 상기 단어 중 어느 하나가 선택되면, 상기 선택된 단어의 엔-베스트 결과 중 어느 하나를 선택하도록 디스플레이하는 것을 특징으로 한다.
본 발명의 상기 메세지는 상기 송신 단말기에서 상기 인식결과에 대한 상기 엔-베스트 결과 중에서 선택되어 결정되는 것을 특징으로 한다.
본 발명의 상기 엔-베스트 결과는 단어 또는 문장 별로 생성되는 것을 특징으로 한다.
본 발명의 상기 평가결과는 수치, 문자, 문양, 기호 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 측면에 따른 음성인식기능을 이용한 메세지 서비스 방법은 송신 단말기 또는 메세지 서버로부터 메세지와 평가결과를 수신하는 단계; 및 상기 메세지와 상기 평가결과를 디스플레이하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서, 상기 메세지와 상기 평가결과를 디스플레이하는 단계는 상기 평가결과가 설정레벨 이하이면, 상기 메세지 서버로부터 상기 음성을 전송받아 자동으로 출력하는 것을 더 포함하는 것을 특징으로 한다.
본 발명은 스마트폰에서 키보드를 사용하지 않고 최소한의 터치를 통해 SMS 메세지나 메신저, 이메일 등에 활용될 수 있다.
또한, 본 발명은 이메일, 블로거, 트위터, 페이스 북 등과 연계하여 간단한 메모를 인식된 단위마다 평가하여 자신의 사이트에 글을 올릴 수 있으며 다른 사용자들도 점수가 낮은 부분만 선택하여 음성 듣기 등을 통해 정확한 정보를 얻을 수 있다.
더욱이, 사용자들이 키보드를 타이핑하지 않고도, 스마트폰에서 메신저나 SMS, 블로거, 트위터 등을 이용할 수 있어 자연스럽게 다른 사람과 소통할 수 있도록 한다.
도 1 은 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 장치의 블럭 구성도이다.
도 2 는 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 방법의 순서도이다.
도 3 은 본 발명의 일 실시예에 따른 송신 단말기의 화면을 나타낸 도면이다.
도 4 는 본 발명의 일 실시예에 따른 엔-베스트 선택 예를 도시한 도면이다.
도 5 는 본 발명의 일 실시예에 따른 수신 단말기의 화면을 나타낸 도면이다.
도 2 는 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 방법의 순서도이다.
도 3 은 본 발명의 일 실시예에 따른 송신 단말기의 화면을 나타낸 도면이다.
도 4 는 본 발명의 일 실시예에 따른 엔-베스트 선택 예를 도시한 도면이다.
도 5 는 본 발명의 일 실시예에 따른 수신 단말기의 화면을 나타낸 도면이다.
이하에서는 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로써, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야할 것이다.
도 1 은 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 장치의 블럭 구성도이고, 도 2 는 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 방법의 순서도이며, 도 3 은 본 발명의 일 실시예에 따른 송신 단말기의 화면을 나타낸 도면이며, 도 4 는 본 발명의 일 실시예에 따른 엔-베스트 선택 예를 도시한 도면이며, 도 5 는 본 발명의 일 실시예에 따른 수신 단말기의 화면을 나타낸 도면이다.
본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 장치는 도 1 에 도시된 바와 같이, 송신 단말기(10), 메세지 서버(20) 및 수신 단말기(30)를 포함한다.
송신 단말기(10)는 스마트폰, 개인용 컴퓨터 등 이메일, 블로그, 트위터, 페이스북 등의 글을 등록 및 메신저 서비스를 이용할 수 있도록 하는 각종 단말기를 포함한다.
송신 단말기(10)는 음성을 입력하도록 하는 음성 입력 아이콘(41)이 입력되면, 송신자의 음성을 입력받아 메세지 서버(20)로 전송하고, 메세지 서버(20)로부터 전송된 인식결과와 엔-베스트(N-best) 결과를 전송받아 디스플레이한다.
송신 단말기(10)는 인식결과와 엔-베스트 결과를 디스플레이하는 과정에서 송신자에 의해 엔-베스트 결과 중 적어도 어느 하나 이상이 선택되어 최종적인 메세지(43)가 결정되고, 해당 메세지(43)의 정확도에 대한 평가 결과가 입력되면, 평가결과(42)와 메세지(43) 및/또는 메세지 서버(20)에 저장된 음성의 위치 정보를 암호화하여 메세지 서버(20)와 수신 단말기(30)로 전송한다.
여기서, 송신자는 엔-베스트 결과를 선택하는데, 엔-베스트 결과는 음성 인식에 따른 정확도를 기반으로 나열된 음성 인식 결과이다.
따라서, 인식결과 중에서 특정 단어 등을 선택하면, 송신 단말기(10)가 선택된 단어의 엔-베스트 결과를 나열하고, 이때, 송신자는 이들 엔-베스트 결과 중 어느 하나를 선택하게 된다.
따라서, 송신자는 입력한 음성과 일치하는 정확한 단어이거나 상이하지만 전체 문맥에서 그 내용과 가장 근접한 것을 선택할 수 있을 것이다.
따라서, 송신자는 이들 엔-베스트 결과 중 어느 하나를 선택하는 과정을 틀린 단어에 대해서 반복적으로 수행할 수 있으며, 이를 기반으로 인식결과에서 자신이 입력한 음성의 내용과 동일하거나 가장 근접한 메세지(43)를 결정하여 전송할 수 있게 된다.
메세지 서버(20)는 송신 단말기(10)로부터 음성이 입력되면, 이 음성을 저장함과 더불어 무제한 연속어 음성인식기(22)를 통해 음성 인식을 수행하고, 인식결과와 엔-베스트 결과를 송신 단말기(10)로 전송한다. 아울러, 음성이 저장된 위치 정보를 송신 단말기(10)로 전송한다.
이후, 송신 단말기(10)로부터 평가결과(42)와 메세지(43)가 입력되면, 이를 저장하여 음성 인식 성능을 향상시킨다. 또한, 수신 단말기(30)로부터 음성 요청이 있으면, 이 음성을 데이터 저장부(23)로부터 읽어들여 수신 단말기(30)로 전송한다.
이러한 메세지 서버(20)는 데이터 송수신부(21)와 무제한 연속어 음성인식기(22) 및 데이터 저장부(23)를 구비한다.
데이터 송수신부(21)는 유무선 통신망과 연결되어 송신 단말기(10)와 수신 단말기(30)가 각종 데이터를 송수신할 수 있도록 통신 인터페이스를 제공한다.
무제한 연속어 음성인식기(22)는 송신 단말기(10)로부터 데이터 송수신부(21)를 통해 전송된 음성을 인식한다.
무제한 연속어 음성인식기(22)는 송신 단말기(10)로부터 음성이 전송되면, 음성 인식을 수행한 후, 래티스(Lattice) 형식으로 결과를 출력하고, 이를 혼동 네트워크(Confusion Network;CN) 형식으로 변경하여 혼동 네트워크에 기반한 엔-베스트 결과를 생성한다.
데이터 저장부(23)는 송신 단말기(10)와 수신 단말기(30) 사이에 송수신되는 각종 데이터를 저장한다.
특히, 데이터 저장부(23)는 송신 단말기(10)로부터 전송된 음성을 저장하고, 무제한 연속어 음성인식기(22)에 의해 인식된 인식 결과를 저장하며, 송신 단말기(10)로부터 전송된 평가결과(42)와 메세지(43)를 저장한다.
이 경우, 데이터 저장부(23)는 상기한 각종 데이터를 저장하여 로그 데이터로 활용될 수 있도록 함으로써, 향후 무제한 연속어 음성인식기(22)의 음성 인식 성능을 향상시킬 수 있도록 한다.
수신 단말기(30)는 스마트폰, 개인용 컴퓨터 등 이메일, 블로그, 트위터, 페이스북 등의 글을 등록 및 메신저 서비스를 이용할 수 있도록 하는 각종 단말기를 포함한다.
수신 단말기(30)는 송신 단말기(10)로부터 메세지(43)와 평가결과(42) 및 암호화된 위치 정보가 전송되면, 메세지(43) 및 평가결과(42)를 화면상에 디스플레이한다. 이때, 수신자가 음성 인식 성능의 한계로 메세지(43)에 대한 내용을 정확하게 이해하기 어려울 수 있을 것이다.
따라서, 수신 단말기(30)는 수신자가 음성을 요청하면, 메세지 서버(20)에 해당 음성의 위치 정보를 전송하면서 음성을 요청하고, 이때 메세지 서버(20)는 위치 정보에 따라 데이터 저장부(23)에서 음성을 읽어들여 수신 단말기(30)로 전송한다. 이에 수신 단말기(30)는 해당 음성을 출력하여 수신자가 메세지(43)의 내용을 음성으로 인지할 수 있도록 한다.
이를 위해, 수신 단말기(30)는 메세지(43)를 출력하면서, 음성을 요청하고 출력할 수 있도록 하는 음성 출력 아이콘(44) 등을 제공할 수 있을 것이다.
더욱이, 수신 단말기(30)는 평가결과(42)가 기 설정된 설정레벨 이하인 경우에는 자동으로 메세지 서버(20)에 음성을 요청하여 출력하는 것도 가능할 것이다.
이하, 본 발명의 일 실시예에 따른 음성인식기능을 이용한 메세지 서비스 방법을 도 2 내지 도 5 를 참조하여 상세하게 설명한다.
먼저, 송신 단말기(10)는 문자나 메세지(43) 등을 전송 또는 등록하는 명령이 입력되고, 송신 단말기(10)는 음성 입력 아이콘(41)이 입력되면, 음성을 입력받는다(S10).
송신 단말기(10)는 음성이 입력되면, 이 음성을 메세지 서버(20)로 전송한다(S12).
메세지 서버(20)는 송신 단말기(10)로부터 전송된 음성을 저장함과 더불어, 무제한 연속어 음성인식을 수행한다(S14).
이 경우, 메세지 서버(20)는 음성을 인식한 후, 래티스 형식으로 인식 결과를 생성하고, 이를 혼동 네트워크 형식으로 변경하여 혼동 네트워크에 기반한 엔-베스트 결과를 생성한다(S16).
또한, 메세지 서버(20)는 음성에 대한 인식결과와 엔-베스트 결과를 로그데이터로 저장한다(S18).
메세지 서버(20)는 상기한 바와 같이, 인식결과와 엔-베스트 결과를 생성하면, 인식결과와 엔-베스트 결과 및 음성을 저장한 위치 정보를 송신 단말기(10)로 전송한다(S20).
송신 단말기(10)는 메세지 서버(20)로부터 전송된 인식결과와 엔-베스트 결과를 디스플레이한다(S22).
이때, 송신 단말기(10)는 송신자로부터 인식결과에 엔-베스트 결과가 적용되는 지를 판단한다.
여기서, 엔-베스트 결과는 문장 전체 또는 문장을 구성하는 단어 등으로 선택되어질 수 있다.
이와 같이, 엔-베스트 결과가 선택되어, 최종적인 메세지(43)가 결정되면, 이 메세지(43)에 대한 정확도를 평가한 평가결과(42)가 입력되는 지를 판단한다.
판단 결과, 평가결과(42)가 입력되면, 메세지(43)와 평가결과(42)를 최종적으로 결정한다(S24).
이러한 과정을 도 3 과 도 4 를 참조하여 설명한다.
예를 들어, 송신 단말기(10)는 "오늘 점심은 어때"라는 음성을 메세지 서버(20)로 전송할 경우, 메세지 서버(20)로부터 인식결과를 수신하여 디스플레이한다. 이와 함께, 송신자는 "오늘"과 "점심은" 및 "어때"의 엔-베스트 결과를 확인할 수 있다.
즉, 송신자는 자신이 입력한 음성인 "오늘"에 대한 인식결과가 틀릴 경우, "오늘"에 해당하는 인식결과를 선택하면, 송신 단말기(10)는 도 4 에 도시된 바와 같이, "오늘은", "오늘도", "올"과 같은 엔-베스트 결과를 디스플레이한다.
이에 따라, 송신자는 이들 "오늘은", "오늘도", "올" 중에서 자신이 발성한 "오늘" 에 가장 근접하거나 내용 전달에 적합한 어느 하나를 선택하게 된다.
이러한 과정은 나머지 음성인 "점심은"과 "어때"에 대해서도 반복적으로 수행할 수 있다. 즉, "점심은"에 해당하는 엔-베스트 결과인 "점심이", "전심은", "점집이", "점집은"은 중 어느 하나를 선택하고, "어때"에 해당하는 엔-베스트 결과인 "어디"를 선택할 수 있을 것이다.
참고로, 단어 중에서 인식결과가 정확한 경우에는 엔-베스트 결과를 선택하지 않을 수도 있다.
아울러, 송신 단말기(10)는 인식 결과를 단어별로 색상을 다르게 디스플레이할 수 있을 것이다. 이 경우, 각각의 단어에 대해서 엔-베스트 결과가 있는지를 확인할 수 있고, 더욱 손쉽게 엔-베스트 결과를 선택할 수 있게 된다.
이러한 과정을 거쳐 메세지 서버(20)가 송신 단말기(30)로 전송할 메세지(43)를 최종적으로 선택하게 된다.
참고로, 본 실시예에서는 각 단어별로 엔-베스트 결과 나열하여 어느 하나를 선택함으로써, 최종적으로 메세지(43)를 결정하는 것을 예시로 설명하였으나, 본 발명의 기술적 범위는 이에 한정되지 않고, 엔-베스트 결과를 문장으로 조합하여 나열하고 이들 중 선택된 어느 하나를 선택하는 것도 포함된다.
이러한 과정을 거쳐, 송신자가 메세지(43)를 도 3 에 도시된 바와 같아, "올 점심이 어때"를 최종적으로 결정한 경우, 이에 대해 송신자는 자신이 발성한 "오늘 점심은 어때"라는 음성과 비교하여 그 정확도를 평가한 평가결과(42)를 입력한다. 도 3 에서는 평가결과(42)가 "3점"인 것을 예시로 도시하였다.
일 예로, 평가결과(42)를 수치로 표현할 경우 상기한 "오늘 점심은 어때"에 대한 평가결과(42)를 결정하는 예를 나타내면 다음과 같다.
5점: 인식결과가 만족할 경우(오늘 점심은 어때)
4점: 인식결과가 조사 정도가 틀리고 의도하는 내용 확인에는 문제가 없을 경우(오늘은 점심이 어때)
3점: 메세지(43) 전달에 중요하지 않은 단어들은 틀렸지만 메세지(43) 내용은 어느 정도 예측할 수 있는 경우(올 점심이 어디)
2점: 중요 단어가 틀려 내용을 알 수 없음(오늘 점집이 어디)
1점: 메세지(43) 자체가 완전히 틀린 경우(우 어린이집 어디)
한편, 평가결과(42)는 도 3 에 도시된 바와 같이, 수치에 한정되는 것은 아니며, 문자, 문양, 기호 등 다양한 방식으로 표시하여 선택 방식과 표현 방식을 더욱 세분화되고, 다양한 방식을 선택할 수 있도록 할 수 있다.
한편, 송신 단말기(10)는 상기한 바와 같이, 메세지(43)와 평가결과(42)가 결정되면, 메세지(43)와 평가결과(42)를 메세지 서버(20)로 전송하고(S26), 메세지(43)와 평가결과(42) 및 위치정보를 수신 단말기(30)로 전송한다(S32). 여기서, 위치정보는 암호화하여 전송한다.
메세지 서버(20)는 송신 단말기(10)로부터 메세지(43)와 평가결과(42)가 전송되면, 로그데이터에 추가 저장하고(S28), 이러한 로그데이터를 이용하여 인식결과의 오류를 수정함으로써(S30), 음성 인식 성능을 향상시킨다.
한편, 수신 단말기(30)는 메세지(43)와 평가결과(42) 및 위치 정보가 전송되면, 메세지(43)와 평가결과(42)를 도 5 에 도시된 바와 같이, 디스플레이한다(S34).
이때, 수신자는 수신 단말기(30)를 통해 디스플레이되는 메세지(43)에 대한 내용을 이해하기 어려울 경우, 음성 출력 아이콘(44)을 선택한다.
이에 따라, 수신 단말기(30)는 메세지 서버(20)에 해당 음성의 전송을 요청하고(S36), 메세지 서버(20)는 해당 음성의 위치 정보를 이용하여 음성을 추출하여(S38) 수신 단말기(30)로 전송한다(S40).
수신 단말기(30)는 메세지 서버(20)로부터 음성이 전송되면, 이를 스피커(미도시)를 통해 출력(S42)하여 수신자가 메세지(43)를 음성으로 인지할 수 있게 된다.
참고로, 본 실시예에서는 상기한 바와 같이 수신자가 음성을 요청하는 것 이외에도 수신 단말기(30)에서 평가결과(42)가 설정된 설정레벨 이하이면, 자동으로 음성을 메세지 서버(20)에 요청하여 출력할 수도 있을 것이다.
이 경우, 수신자는 음성을 요청하는 번거로움 없이 편리하게 음성을 청취할 수 있을 것이다.
아울러, 상기한 실시예에서는 수신 단말기가 송신자의 음성 전체를 전송받아 출력하는 것을 예시로 설명하였으나, 본 발명의 기술적 범위는 이에 한정되지 않고, 메세지 서버에 단어별로 음성을 요청하여 출력하는 것도 포함된다. 아울러, 평가결과가 설정레벨 이하이면, 자동으로 메세지 서버에 단어별로 음성을 요청하여 출력하는 것도 포함된다.
이를 통해 데이터 전송량 등을 더욱 감소시킬 수 있고, 수신자가 손쉽게 메세지의 내용을 이해할 수 있을 것이다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야할 것이다.
일 예로, 본 실시예에서는 단문 메세지 서비스를 제공하는 것을 예시로 하여 설명하였으나, 본 발명의 기술적 범위는 이에 한정되지 않고, 이메일, 블로그, 트윗, 페이스북 등에 글을 등록하거나 메신저 등을 포함하는 문자 전송 서비스 등으로 적용 가능할 것이다.
10: 송신 단말기 20: 메세지 서버
21: 데이터 송수신부 22: 무제한 연속어 음성인식기
23: 데이터 저장부 30: 수신 단말기
41: 음성 입력 아이콘 42: 평가결과
43: 메세지 43: 음성 출력 아이콘
21: 데이터 송수신부 22: 무제한 연속어 음성인식기
23: 데이터 저장부 30: 수신 단말기
41: 음성 입력 아이콘 42: 평가결과
43: 메세지 43: 음성 출력 아이콘
Claims (10)
- 송신 단말기로부터 전송된 음성을 인식하는 단계;
상기 음성에 대한 인식결과와 혼동 네트워크에 기반한 엔-베스트 결과를 생성하여 상기 송신 단말기로 전송하는 단계; 및
상기 송신 단말기에 의해 선택된 메세지와 상기 메세지의 정확도에 대한 평가결과가 전송되면, 상기 메세지와 상기 평가결과를 수신 단말기로 전송하는 단계를 포함하는 음성인식기능을 이용한 메세지 서비스 방법. - 제 1 항에 있어서, 상기 송신 단말기에 의해 선택된 메세지와 상기 메세지의 정확도에 대한 평가결과가 전송되면,
상기 메세지를 저장하여 상기 인식결과에 대한 로그 데이터를 저장하여 상기 인식결과에 대한 오류를 수정하는 단계를 더 포함하는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법. - 제 1 항에 있어서, 상기 수신 단말기로부터 상기 음성의 전송을 요청받으면, 상기 음성을 읽어들여 상기 수신 단말기로 전송하는 단계를 더 포함하는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법.
- 음성을 입력받아 메세지 서버로 전송하는 단계;
상기 메세지 서버로부터 상기 음성에 대한 인식결과와 혼동 네트워크에 기반한 엔-베스트 결과를 수신하는 단계;
상기 인식결과와 상기 엔-베스트 결과를 디스플레이하여 상기 인식결과와 상기 엔-베스트 결과에 따라 메세지가 선택되고 상기 메세지에 대한 평가 결과가 결정되는지를 판단하는 단계; 및
상기 메세지와 상기 평가 결과가 결정되면, 상기 메세지와 상기 평가결과를 상기 메세지 서버와 수신 단말기 중 적어도 어느 하나 이상으로 전송하는 단계를 포함하는 음성인식기능을 이용한 메세지 서비스 방법. - 제 4 항에 있어서, 상기 메세지가 선택되고 상기 메세지에 대한 평가 결과가 결정되는지를 판단하는 단계에서,
상기 인식결과를 단어별로 색상을 다르게 디스플레이하여 상기 단어 중 어느 하나가 선택되면, 상기 선택된 단어의 엔-베스트 결과 중 어느 하나를 선택하도록 디스플레이하는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법. - 제 1 항 또는 제 4 항에 있어서, 상기 메세지는 상기 송신 단말기에서 상기 인식결과에 대한 상기 엔-베스트 결과 중에서 선택되어 결정되는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법.
- 제 1 항 또는 제 4 항에 있어서, 상기 엔-베스트 결과는 단어 또는 문장 별로 생성되는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법.
- 제 1 항 또는 제 4 항에 있어서, 상기 평가결과는 수치, 문자, 문양, 기호 중 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법.
- 송신 단말기 또는 메세지 서버로부터 메세지와 평가결과를 수신하는 단계; 및
상기 메세지와 상기 평가결과를 디스플레이하는 단계를 포함하는 음성인식기능을 이용한 메세지 서비스 방법. - 제 9 항에 있어서, 상기 메세지와 상기 평가결과를 디스플레이하는 단계는
상기 평가결과가 설정레벨 이하이면, 상기 메세지 서버로부터 상기 음성을 전송받아 자동으로 출력하는 것을 더 포함하는 것을 특징으로 하는 음성인식기능을 이용한 메세지 서비스 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110066574A KR20130005160A (ko) | 2011-07-05 | 2011-07-05 | 음성인식기능을 이용한 메세지 서비스 방법 |
US13/542,118 US20130013297A1 (en) | 2011-07-05 | 2012-07-05 | Message service method using speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110066574A KR20130005160A (ko) | 2011-07-05 | 2011-07-05 | 음성인식기능을 이용한 메세지 서비스 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20130005160A true KR20130005160A (ko) | 2013-01-15 |
Family
ID=47439183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110066574A Withdrawn KR20130005160A (ko) | 2011-07-05 | 2011-07-05 | 음성인식기능을 이용한 메세지 서비스 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130013297A1 (ko) |
KR (1) | KR20130005160A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200108261A (ko) * | 2018-02-26 | 2020-09-17 | 주식회사 소리자바 | 음성 인식 수정 시스템 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101834546B1 (ko) * | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
US11776537B1 (en) * | 2022-12-07 | 2023-10-03 | Blue Lakes Technology, Inc. | Natural language processing system for context-specific applier interface |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5995926A (en) * | 1997-07-21 | 1999-11-30 | Lucent Technologies Inc. | Technique for effectively recognizing sequence of digits in voice dialing |
DE19847419A1 (de) * | 1998-10-14 | 2000-04-20 | Philips Corp Intellectual Pty | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung |
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
AU2001268293A1 (en) * | 2000-06-12 | 2001-12-24 | L And H Holdings Usa, Inc. | Using utterance-level confidence estimates |
US6785650B2 (en) * | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
US20020152071A1 (en) * | 2001-04-12 | 2002-10-17 | David Chaiken | Human-augmented, automatic speech recognition engine |
US6839667B2 (en) * | 2001-05-16 | 2005-01-04 | International Business Machines Corporation | Method of speech recognition by presenting N-best word candidates |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
CA2648617C (en) * | 2006-04-05 | 2017-12-12 | Yap, Inc. | Hosted voice recognition system for wireless devices |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US8055502B2 (en) * | 2006-11-28 | 2011-11-08 | General Motors Llc | Voice dialing using a rejection reference |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US20100298009A1 (en) * | 2009-05-22 | 2010-11-25 | Amazing Technologies, Llc | Hands free messaging |
-
2011
- 2011-07-05 KR KR1020110066574A patent/KR20130005160A/ko not_active Withdrawn
-
2012
- 2012-07-05 US US13/542,118 patent/US20130013297A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200108261A (ko) * | 2018-02-26 | 2020-09-17 | 주식회사 소리자바 | 음성 인식 수정 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US20130013297A1 (en) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102369605B1 (ko) | 장치들에 걸쳐 디지털 개인 비서 에이전트를 스케일링하기 위한 기법 | |
CN103035240B (zh) | 用于使用上下文信息的语音识别修复的方法和系统 | |
KR101894499B1 (ko) | 상태-종속 쿼리 응답 | |
EP2143099B1 (en) | Location-based responses to telephone requests | |
CA2970728C (en) | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing | |
US20160202957A1 (en) | Reactive agent development environment | |
US9002708B2 (en) | Speech recognition system and method based on word-level candidate generation | |
US20130117021A1 (en) | Message and vehicle interface integration system and method | |
CN105068987A (zh) | 语音输入的字词级纠正 | |
US8239202B2 (en) | System and method for audibly outputting text messages | |
US20220150194A1 (en) | Bot group messaging method | |
US20130144610A1 (en) | Action generation based on voice data | |
US9258406B2 (en) | Apparatus and method for controlling mobile device by conversation recognition, and apparatus for providing information by conversation recognition during meeting | |
US9369425B2 (en) | Email and instant messaging agent for dialog system | |
KR101695348B1 (ko) | 메신저 기반 서비스 제공 장치 및 이를 이용한 방법 | |
US20190197101A1 (en) | Selective text prediction for electronic messaging | |
US20220157663A1 (en) | Bot group messaging using bot-specific voice libraries | |
US20180278555A1 (en) | Shared and per-user bot group messaging method | |
KR101584887B1 (ko) | 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템 | |
KR20130005160A (ko) | 음성인식기능을 이용한 메세지 서비스 방법 | |
US10070283B2 (en) | Method and apparatus for automatically identifying and annotating auditory signals from one or more parties | |
KR101487874B1 (ko) | 사용자 정보를 전송하는 단말기 및 방법 | |
KR102092058B1 (ko) | 인터페이스 제공 방법 및 장치 | |
KR20110025510A (ko) | 전자 기기 및 이를 이용한 음성인식 방법 | |
CN107888761A (zh) | 用户名修改方法、装置、移动终端和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20110705 |
|
PG1501 | Laying open of application | ||
PC1203 | Withdrawal of no request for examination | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |