JP2022033258A - Speech control apparatus, operation method and computer program - Google Patents
Speech control apparatus, operation method and computer program Download PDFInfo
- Publication number
- JP2022033258A JP2022033258A JP2022000145A JP2022000145A JP2022033258A JP 2022033258 A JP2022033258 A JP 2022033258A JP 2022000145 A JP2022000145 A JP 2022000145A JP 2022000145 A JP2022000145 A JP 2022000145A JP 2022033258 A JP2022033258 A JP 2022033258A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- keyword
- speaker feature
- audio data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004590 computer program Methods 0.000 title claims description 11
- 239000013598 vector Substances 0.000 claims abstract description 283
- 238000001514 detection method Methods 0.000 claims abstract description 73
- 230000005236 sound signal Effects 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 40
- 239000000284 extract Substances 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 description 59
- 230000015654 memory Effects 0.000 description 50
- 241000219793 Trifolium Species 0.000 description 24
- 238000004891 communication Methods 0.000 description 23
- 241000736305 Marsilea quadrifolia Species 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3228—Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、音声制御装置に関し、さらに詳細には、キーワード誤認識防止が可能な音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体等に関する。 The present invention relates to a voice control device, and more particularly to a voice control device capable of preventing keyword misrecognition, an operation method of the voice control device, a computer program, a recording medium, and the like.
携帯用通信装置、デスクトップPC(personal computer)、タブレットPC、及びエンターテイメントシステムのようなコンピュータ装置の性能が高度化しつつ、操作性を向上させるために、音声認識機能が搭載され、音声によって制御される電子機器が市場に出回っている。該音声認識機能は、別途のボタン操作、またはタッチモジュールの接触によらず、ユーザの音声を認識することにより、装置を手軽に制御することができる長所を有する。 A voice recognition function is installed and controlled by voice in order to improve operability while improving the performance of computer devices such as portable communication devices, desktop PCs (personal computers), tablet PCs, and entertainment systems. Electronic devices are on the market. The voice recognition function has an advantage that the device can be easily controlled by recognizing a user's voice without using a separate button operation or touching a touch module.
かような音声認識機能によれば、例えば、スマートフォンのような携帯用通信装置においては、別途のボタンを押す操作なしに、通話機能を遂行したり、文字メッセージを作成したりすることができ、道案内、インターネット検索、アラーム設定等のような多様な機能を手軽に設定することができる。しかし、かような音声制御装置が、ユーザの音声を誤認識すると、不本意な動作を遂行してしまう問題が発生しうる。 According to such a voice recognition function, for example, in a portable communication device such as a smartphone, it is possible to perform a call function or compose a text message without pressing a separate button. You can easily set various functions such as directions, Internet search, and alarm settings. However, if such a voice control device erroneously recognizes the user's voice, a problem may occur in which an undesired operation is performed.
本発明が解決しようとする課題は、キーワード誤認識を防止することができる音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体等を提供することである。 An object to be solved by the present invention is to provide a voice control device, an operation method of the voice control device, a computer program, a recording medium, and the like, which can prevent erroneous recognition of keywords.
前述の技術的課題を達成するための技術的手段として、本開示の第1側面は、周辺音に対応するオーディオ信号を受信し、オーディオストリームデータを生成するオーディオ処理部と、前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間の始点及び終点を決定するキーワード検出部と、前記第1オーディオデータに係わる第1話者特徴ベクトルを抽出し、前記オーディオストリームデータにおいて、前記第1区間の始点を終点にする第2区間に該当する第2オーディオデータに係わる第2話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記キーワードが含まれていたか否かを判断するウェークアップ判断部と、を含む音声制御装置を提供することができる。 As a technical means for achieving the above-mentioned technical problems, the first aspect of the present disclosure is from an audio processing unit that receives an audio signal corresponding to an ambient sound and generates audio stream data, and from the audio stream data. , A keyword detection unit that detects a candidate keyword corresponding to a predetermined keyword and determines a start point and an end point of a first section corresponding to the first audio data in which the candidate keyword is detected, and the first item. The first speaker feature vector related to one audio data is extracted, and in the audio stream data, the second speaker feature vector related to the second audio data corresponding to the second section whose end point is the start point of the first section is used. Based on the degree of similarity between the speaker feature vector extraction unit to be extracted and the first speaker feature vector and the second speaker feature vector, whether or not the keyword is included in the first audio data is determined. A voice control device including a wake-up determination unit for determination can be provided.
また、本開示の第2側面は、周辺音に対応するオーディオ信号を受信し、オーディオストリームデータを生成する段階と、前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間の始点及び終点を決定する段階と、前記第1オーディオデータに係わる第1話者特徴ベクトルを抽出する段階と、前記オーディオストリームデータにおいて、前記第1区間の始点を終点にする第2区間に該当する第2オーディオデータに係わる第2話者特徴ベクトルを抽出する段階と、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記キーワードが含まれていたか否かを判断し、ウェークアップさせるか否かを決定する段階と、を含む音声制御装置の動作方法を提供することができる。 Further, the second aspect of the present disclosure is a stage of receiving an audio signal corresponding to an ambient sound and generating audio stream data, and detecting a candidate keyword corresponding to a predetermined keyword from the audio stream data, and the audio. In the stream data, a step of determining the start point and the end point of the first section corresponding to the first audio data in which the candidate keyword is detected, and a step of extracting the first speaker feature vector related to the first audio data. In the audio stream data, a step of extracting a second speaker feature vector related to the second audio data corresponding to the second section whose end point is the start point of the first section, the first speaker feature vector, and the first speaker. 2. A voice control device including a step of determining whether or not the keyword is included in the first audio data based on the similarity with the speaker feature vector, and determining whether or not to wake up. It is possible to provide a method of operation.
また、本開示の第3側面は、音声制御装置のプロセッサに、第2側面による動作方法を実行させる命令語を含むコンピュータプログラムを提供することができる。 Further, the third aspect of the present disclosure can provide a computer program including a command word for causing the processor of the voice control device to execute the operation method according to the second aspect.
また、本開示の第4側面は、第3側面によるコンピュータプログラムが記録されたコンピュータで読み取り可能な記録媒体を提供することができる。 Further, the fourth aspect of the present disclosure can provide a computer-readable recording medium in which the computer program according to the third aspect is recorded.
本発明の多様な実施形態によれば、キーワードを誤認識する可能性が低下するので、音声制御装置の誤動作が防止される。 According to various embodiments of the present invention, the possibility of erroneously recognizing a keyword is reduced, so that a malfunction of the voice control device is prevented.
以下、添付した図面を参照し、本発明が属する技術分野において当業者が容易に実施することができるように、本発明の実施形態について詳細に説明する。しかし、本発明は、さまざまに異なる形態に具現化され、ここで説明する実施形態に限定されるものではない。そして、図面において、本発明について明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて、類似した部分については、類似した図面符号を付した。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the invention in the technical field to which the present invention belongs. However, the present invention is embodied in various different forms and is not limited to the embodiments described herein. In the drawings, in order to clearly explain the present invention, parts unrelated to the description are omitted, and similar parts are designated by similar drawing reference numerals throughout the specification.
明細書全体において、ある部分が他の部分と「連結」されているとするとき、それは、「直接に連結」されている場合だけではなく、その中間に、他の素子を挟み、「電気的に連結」されている場合も含む。また、ある部分がある構成要素を「含む」とするとき、それは、特に別意の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含みうるということを意味する。 In the entire specification, when one part is "connected" to another part, it is not only when it is "directly connected", but another element is sandwiched between them and "electrically". Including the case of being "concatenated to". Also, when a part "contains" a component, it does not exclude other components, but may further include other components, unless otherwise stated. ..
本明細書において、様々な箇所に登場する「一部実施形態において」または「一実施形態において」というような語句は、必ずしもいずれも同一実施形態を示すものではない。 In the present specification, terms such as "in a partial embodiment" or "in one embodiment" appearing in various places do not necessarily indicate the same embodiment.
一部実施形態は、機能的なブロック構成、及び多様な処理段階で示される。かような機能ブロックの一部または全部は、特定機能を行う多様な個数のハードウェア構成及び/またはソフトウェア構成によっても具現化される。例えば、本開示の機能ブロックは、1以上のマイクロプロセッサによって具現化されるか、あるいは所定機能のための回路構成によっても具現化される。また、例えば、本開示の機能ブロックは、多様なプログラミング言語またはスクリプティング言語によっても具現化される。該機能ブロックは、1以上のプロセッサで実行されるアルゴリズムによっても具現化される。また、本開示は、電子的な環境設定、信号処理、及び/またはデータ処理などのために、従来技術を採用することができる。「モジュール」及び「構成」のような用語は、汎用され、機械的であって物理的な構成として限定されるものではない。 Some embodiments are shown in functional block configurations and various processing steps. Some or all of such functional blocks are also embodied by a diverse number of hardware and / or software configurations that perform a particular function. For example, the functional blocks of the present disclosure may be embodied by one or more microprocessors, or may also be embodied by a circuit configuration for a given function. Also, for example, the functional blocks of the present disclosure are embodied in various programming or scripting languages. The functional block is also embodied by an algorithm executed by one or more processors. Also, the present disclosure can employ prior art for electronic environment setting, signal processing, and / or data processing and the like. Terms such as "module" and "configuration" are generic, mechanical and not limited to physical configurations.
また、図面に図示された構成要素間の連結線または連結部材は、機能的な連結、及び/または物理的または回路的な連結を例示的に示しただけである。実際の装置においては、代替可能であったり、追加されたりする多様な機能的な連結、物理的な連結または回路連結により、構成要素間の連結が示される。 Also, the connecting lines or connecting members between the components illustrated in the drawings merely illustrate functional connection and / or physical or circuit connection. In a real device, various functional connections, physical connections or circuit connections that can be replaced or added indicate the connections between the components.
本開示においてキーワードは、音声制御装置の特定機能をウェークアップさせることができる音声情報をいう。該キーワードは、ユーザの音声信号に基づいて、単独命令キーワードでもあり、ウェークアップキーワードでもある。ウェークアップキーワードは、スリープモード状態の音声制御装置をウェークアップモードに転換することができる音声に基づくキーワードであり、例えば、「クローバ」、「ハイコンピュータ」のような音声キーワードでもある。ユーザは、ウェークアップキーワードを発話した後、音声制御装置が遂行することを願う機能や動作を指示するための命令を自然語形態で発話することができる。なお、以下の説明でウェークアップキーワードの単なる一例として登場する「クローバ」(Clova)は登録商標であり、「四葉のクローバー」(four-leaf clover)における「クローバー」とは異なる点に留意を要する。その場合、該音声制御装置は、自然語形態の音声命令を音声認識し、音声認識された結果に対応する機能または動作を遂行することができる。単独命令キーワードは、例えば、音楽が再生中である場合、「中止」のように、音声制御装置の動作を直接制御することができる音声キーワードでもある。本開示で言及されるウェークアップキーワードは、ウェークアップワード、ホットワード、トリガーワードのような用語で呼ばれる。 In the present disclosure, the keyword refers to voice information that can wake up a specific function of the voice control device. The keyword is both a single command keyword and a wake-up keyword based on the user's voice signal. The wake-up keyword is a voice-based keyword that can convert a voice control device in a sleep mode to a wake-up mode, and is also a voice keyword such as "clover" or "high computer". After uttering the wake-up keyword, the user can utter a command in a natural language form for instructing a function or operation desired to be performed by the voice control device. It should be noted that "Clover", which appears as a mere example of the wake-up keyword in the following explanation, is a registered trademark and is different from "Clover" in "four-leaf clover". In that case, the voice control device can voice-recognize the voice command in the natural language form and perform a function or an operation corresponding to the voice-recognized result. The single command keyword is also a voice keyword that can directly control the operation of the voice control device, for example, when music is being played, such as "stop". The wake-up keywords referred to in this disclosure are referred to by terms such as wake-up word, hot word, and trigger word.
本開示において候補キーワードは、キーワードと発音が類似したワードを含む。例えば、キーワードが「クローバ」である場合、該候補キーワードは、「クローバー」、「グローバル」、「クラブ」などでもある。該候補キーワードは、音声制御装置のキーワード検出部が、オーディオデータからキーワードとして検出したものと定義される。該候補キーワードは、キーワードと同一でもあるが、該キーワードと類似した発音を有する他のワードでもある。一般的には、該音声制御装置は、ユーザが候補キーワードに該当する用語が含まれている文章を発話する場合にも、当該キーワードと誤認識してウェークアップさせることがある。本開示による音声制御装置は、音声信号から、前述のような候補キーワードが検出される場合にも反応するが、候補キーワードによってウェークアップさせることを防止することができる。 In the present disclosure, the candidate keywords include words whose pronunciation is similar to that of the keywords. For example, when the keyword is "clover", the candidate keyword is also "clover", "global", "club" and the like. The candidate keyword is defined as one detected as a keyword from the audio data by the keyword detection unit of the voice control device. The candidate keyword is also the same as the keyword, but is also another word having a pronunciation similar to the keyword. In general, the voice control device may wake up by erroneously recognizing the keyword even when the user utters a sentence containing a term corresponding to the candidate keyword. The voice control device according to the present disclosure reacts even when the above-mentioned candidate keyword is detected from the voice signal, but it is possible to prevent wake-up by the candidate keyword.
本開示において音声認識機能は、ユーザの音声信号を、文字列(または、テキスト)に変換することをいう。ユーザの音声信号は、音声命令を含みうる。該音声命令は、音声制御装置の特定機能を行うことができる。 In the present disclosure, the voice recognition function means converting a user's voice signal into a character string (or text). The user's voice signal may include voice instructions. The voice command can perform a specific function of the voice control device.
本開示において音声制御装置は、音声制御機能が搭載された電子機器をいう。音声制御機能が搭載された電子機器は、スマートスピーカまたは人工知能スピーカのような独立した電子機器でもある。また、音声制御機能が搭載された電子機器は、音声制御機能が搭載されたコンピュータ装置、例えば、デスクトップPC(personal computer)、ノート型パソコンなどであるだけでなく、携帯が可能なコンピュータ装置、例えば、スマートフォンなどでもある。その場合、該コンピュータ装置には、音声制御機能を行うためのプログラムまたはアプリケーションがインストールされる。また、該音声制御機能が搭載された電子機器は、特定機能を主に遂行する電子製品、例えば、スマートテレビ、スマート冷蔵庫、スマートエアコン、スマートナビゲーションなどでもあり、自動車のインフォテーンメントシステムでもある。それだけではなく、音声によって制御される事物インターネット装置も、それに該当する。 In the present disclosure, the voice control device refers to an electronic device equipped with a voice control function. Electronic devices equipped with voice control functions are also independent electronic devices such as smart speakers or artificial intelligence speakers. Further, the electronic device equipped with the voice control function is not only a computer device equipped with the voice control function, for example, a desktop PC (personal computer), a notebook personal computer, etc., but also a portable computer device, for example. , Smartphones, etc. In that case, a program or application for performing the voice control function is installed in the computer device. Further, the electronic device equipped with the voice control function is also an electronic product that mainly performs a specific function, for example, a smart TV, a smart refrigerator, a smart air conditioner, a smart navigation, etc., and is also an infotainment system for an automobile. Not only that, but things Internet devices that are controlled by voice also fall under this category.
本開示において、音声制御装置の特定機能は、例えば、該音声制御装置にインストールされたアプリケーションを実行することを含みうるが、それに制限されるものではない。例えば、該音声制御装置がスマートスピーカである場合、該音声制御装置の特定機能は、音楽再生、インターネットショッピング、音声情報提供、スマートスピーカに接続された電子装置または機械装置の制御などを含みうる。例えば、該音声制御装置がスマートフォンである場合、該アプリケーション実行は、電話かけること、道探し、インターネット検索またはアラーム設定などを含みうる。例えば、該音声制御装置がスマートテレビである場合、該アプリケーション実行は、プログラム検索またはチャネル検索などを含みうる。該音声制御装置がスマートオーブンである場合、該アプリケーション実行は、料理方法検索などを含みうる。該音声制御装置がスマート冷蔵庫である場合、該アプリケーション実行は、冷蔵状態及び冷凍状態の点検、または温度設定などを含みうる。該音声制御装置がスマート自動車である場合、該アプリケーション実行は、自動始動、自律走行、自動駐車などを含みうる。本開示でアプリケーション実行は、前述のところに制限されるものではない。 In the present disclosure, a particular function of a voice control device may include, but is not limited to, executing, for example, an application installed in the voice control device. For example, when the voice control device is a smart speaker, the specific function of the voice control device may include music playback, Internet shopping, voice information provision, control of an electronic device or a mechanical device connected to the smart speaker, and the like. For example, if the voice control device is a smartphone, the application execution may include making a call, finding a way, searching the Internet or setting an alarm. For example, if the voice control device is a smart television, the application execution may include program search, channel search, and the like. If the voice control device is a smart oven, the application execution may include cooking method search and the like. When the voice control device is a smart refrigerator, the application execution may include checking the refrigerated and frozen states, setting the temperature, and the like. When the voice control device is a smart vehicle, the application execution may include automatic start, autonomous driving, automatic parking, and the like. Application execution in the present disclosure is not limited to the above.
本開示においてキーワードは、ワード形態を有するか、あるいは球形態を有することができる。本開示において、ウェークアップキーワード後に発話される音声命令は、自然語形態の文章形態、ワード形態または球形態を有することができる。 In the present disclosure, the keyword may have a word form or a spherical form. In the present disclosure, the speech command uttered after the wake-up keyword can have a sentence form, a word form, or a spherical form in a natural language form.
以下、添付された図面を参照し、本開示について詳細に説明する。 Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.
図1は、一実施形態によるネットワーク環境の例を図示した図面である。図1に図示されたネットワーク環境は、複数の電子機器100aないし100f、サーバ200及びネットワーク300を含むように例示的に図示される。
FIG. 1 is a drawing illustrating an example of a network environment according to an embodiment. The network environment illustrated in FIG. 1 is schematically illustrated to include a plurality of
電子機器100aないし100fは、音声で制御される例示的な電子機器である。電子機器100aないし100fそれぞれは、音声認識機能以外に、特定機能を行うことができる。電子機器100aないし100fの例を挙げれば、スマートスピーカまたは人工知能スピーカ、スマートフォン、携帯電話、ナビゲーション、コンピュータ、ノート型パソコン、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、タブレットPC、スマート電子製品などがある。電子機器100aないし100fは、無線または有線の通信方式を利用し、ネットワーク300を介して、サーバ200、及び/または他の電子機器100aないし100fと通信することができる。しかし、それに限定されるものではなく、電子機器100aないし100fそれぞれは、ネットワーク300に連結されず、独立して動作することもできる。電子機器100aないし100fは、電子機器100とも総称される。
The
ネットワーク300の通信方式は、制限されるものではなく、ネットワーク300が含みうる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけではなく、電子機器100aないし100f間の近距離無線通信が含まれてもよい。例えば、ネットワーク300は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうち1以上の任意のネットワークを含みうる。また、ネットワーク300は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター・バスネットワーク、ツリーネットワークまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジーのうち、任意の1以上を含みうるが、それらに制限されるものではない。
The communication method of the
サーバ200は、ネットワーク300を介し、て電子機器100aないし100fと通信し、音声認識機能を遂行するコンピュータ装置、または複数のコンピュータ装置によっても具現化される。サーバ200は、クラウド形態に分散され、命令、コード、ファイル、コンテンツなどを提供することができる。
The
例えば、サーバ200は、電子機器100aないし100fから提供されるオーディオファイルを受信し、オーディオファイル内の音声信号を文字列(または、テキスト)に変換し、変換された文字列(または、テキスト)を、電子機器100aないし100fに提供することができる。また、サーバ200は、ネットワーク300を介して接続した電子機器100aないし100fに、音声制御機能を遂行するためのアプリケーションインストールのためのファイルを提供することができる。例えば、第2電子機器100bは、サーバ200から提供されたファイルを利用し、アプリケーションをインストールすることができる。第2電子機器100bは、インストールされた運用体制(OS)、及び/または少なくとも1つのプログラム(例えば、インストールされた音声制御アプリケーション)の制御によってサーバ200に接続し、サーバ200が提供する音声認識サービスを提供される。
For example, the
図2は、一実施形態によって、電子機器及びサーバの内部構成について説明するためのブロック図である。 FIG. 2 is a block diagram for explaining an internal configuration of an electronic device and a server according to an embodiment.
電子機器100は、図1の電子機器100aないし100fのうち一つであり、電子機器100aないし100fは、少なくとも図2に図示された内部構成を有することができる。電子機器100は、ネットワーク300を介して音声認識機能を遂行するサーバ200に接続されるように図示されているが、それは例示的なものであり、電子機器100は、独立して音声認識機能を遂行することもできる。電子機器100は、音声によって制御される電子機器であり、音声制御装置100とも呼ばれる。音声制御装置100は、スマートスピーカまたは人工知能スピーカ、コンピュータ装置、携帯用コンピュータ装置、スマート家電製品などに含まれたり、それらに、有線及び/または無線で連結されたりして具現化される。
The
電子機器100とサーバ200は、メモリ110,210、プロセッサ120,220、通信モジュール130,230、及び入出力インターフェース140,240を含みうる。メモリ110,210は、コンピュータで読み取り可能な記録媒体であり、RAM(random access memory)、ROM(read-only memory)及びディスクドライブのような非消滅性大容量記録装置(permanent mass storage device)を含みうる。また、メモリ110,210には、運用体制と、少なくとも1つのプログラムコード(例えば、電子機器100にインストールされて駆動される音声制御アプリケーション、音声認識アプリケーションなどのためのコード)とが保存される。かようなソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール130,230を介して、メモリ110,210にローディングされる。例えば、少なくとも1つのプログラムは、開発者、またはアプリケーションのインストールファイルを配布するファイル配布システムが、ネットワーク300を介して提供するファイルによってインストールされるプログラムに基づいて、メモリ110,210にローディングされる。
The
プロセッサ120,220は、基本的な算術、ロジック及び入出力演算を行うことにより、コンピュータプログラムの命令を処理するように構成される。該命令は、メモリ110,210または通信モジュール130,230によって、プロセッサ120,220にも提供される。例えば、プロセッサ120,220は、メモリ110,210のような記録装置に保存されたプログラムコードによって受信される命令を実行するようにも構成される。
通信モジュール130,230は、ネットワーク300を介して、電子機器100とサーバ200とが互いに通信するための機能を提供することができ、他の電子機器100bないし100fと通信するための機能を提供することができる。一例として、電子機器100のプロセッサ120が、メモリ110のような記録装置に保存されたプログラムコードによって生成した要請(一例として、音声認識サービス要請)が、通信モジュール130の制御により、ネットワーク300を介してサーバ200に伝達される。反対に、サーバ200のプロセッサ220の制御によって提供される音声認識結果である文字列(テキスト)などが、通信モジュール230及びネットワーク300を経て、電子機器100の通信モジュール130を介して、電子機器100に受信される。例えば、通信モジュール130を介して受信されたサーバ200の音声認識結果は、プロセッサ120やメモリ110に伝達される。サーバ200は、制御信号や命令、コンテンツ、ファイルなどを電子機器100に送信することができ、通信モジュール130を介して受信された制御信号や命令などは、プロセッサ120やメモリ110に伝達し、コンテンツやファイルなどは、電子機器100がさらに含みうる別途の記録媒体にも保存される。
The
入出力インターフェース140,240は、入出力装置150とのインターフェースのための手段でもある。例えば、入力装置はマイク151だけではなく、キーボードまたはマウスなどの装置を含み、出力装置は、スピーカ152だけではなく、状態を示す状態表示LED(light emitting diode)、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含みうる。他の例として、入出力装置150は、タッチスクリーンのように、入力及び出力のための機能が一つに統合された装置を含みうる。
The input /
マイク151は、周辺音を電気的なオーディオ信号に変換することができる。マイク151は、電子機器100内に直接装着されず、通信可能に連結される外部装置(例えば、スマート時計)に装着され、生成された外部信号は、通信によって電子機器100に伝送される。図2には、マイク151が電子機器100の内部に含まれるように図示されているが、他の一実施形態によれば、マイク151は、別途の装置内に含まれ、電子機器100とは、有線通信または無線通信で連結される形態にも具現化される。
The
他の実施形態において、電子機器100及びサーバ200は、図2の構成要素よりさらに多くの構成要素を含んでもよい。例えば、電子機器100は、前述の入出力装置150のうち少なくとも一部を含むように構成されるか、あるいはトランシーバ(transceiver)、GPS(global position system)モジュール、カメラ、各種センサ、データベースのような他の構成要素をさらに含んでもよい。
In other embodiments, the
図3は、一実施形態による音声制御装置のプロセッサが含みうる機能ブロックの例を図示した図面であり、図4は、一実施形態によって、音声制御装置が遂行することができる動作方法の例を図示したフローチャートである。 FIG. 3 is a drawing illustrating an example of a functional block that can be included in the processor of the voice control device according to the embodiment, and FIG. 4 is an example of an operation method that the voice control device can perform according to the embodiment. It is a flowchart illustrated.
図3に図示されているように、音声制御装置100のプロセッサ120は、オーディオ処理部121、キーワード検出部122、話者特徴ベクトル抽出部123、ウェークアップ判断部124、音声認識部125及び機能部126を含みうる。かようなプロセッサ120及び機能ブロック121ないし126のうち少なくとも一部は、図4に図示された動作方法が含む段階(S110ないしS190)を遂行するように、音声制御装置100を制御することができる。例えば、プロセッサ120、及びプロセッサ120の機能ブロック121ないし126のうち少なくとも一部は、音声制御装置100のメモリ110が含む運用体制のコードと、少なくとも1つのプログラムコードによる命令と、を実行するようにも具現化される。
As shown in FIG. 3, the
図3に図示された機能ブロック121ないし126の一部または全部は、特定機能を行うハードウェア構成及び/またはソフトウェア構成にも具現化される。図3に図示された機能ブロック121ないし126が遂行する機能は、1以上のマイクロプロセッサによって具現化されるか、あるいは当該機能のための回路構成によっても具現化される。図3に図示された機能ブロック121ないし126の一部または全部は、プロセッサ120で実行される多様なプログラミング言語またはスクリプト言語で構成されたソフトウェアモジュールでもある。例えば、オーディオ処理部121とキーワード検出部122は、デジタル信号処理器(DSP)によって具現化され、話者特徴ベクトル抽出部123、ウェークアップ判断部124及び音声認識部125は、ソフトウェアモジュールによっても具現化される。
A part or all of the
オーディオ処理部121は、周辺音に対応するオーディオ信号を受信し、オーディオストリームデータを生成する。オーディオ処理部121は、マイク151のような入力装置から、周辺音に対応するオーディオ信号を受信することができる。マイク151は、音声制御装置100に通信で連結される周辺装置に含まれ、オーディオ処理部121は、マイク151で生成されたオーディオ信号を通信で受信することができる。該周辺音は、ユーザが発話した音声だけではなく、背景音を含む。従って、オーディオ信号には、音声信号だけではなく、背景音信号も含まれる。該背景音信号は、キーワード検出及び音声認識において、ノイズに該当する。
The
オーディオ処理部121は、連続的に受信されるオーディオ信号に対応するオーディオストリームデータを生成することができる。オーディオ処理部121は、オーディオ信号をフィルタリングしてデジタル化し、オーディオストリームデータを生成することができる。オーディオ処理部121は、オーディオ信号をフィルタリングしてノイズ信号を除去し、背景音信号に比べ、音声信号を増幅することができる。また、オーディオ処理部121は、オーディオ信号から音声信号のエコーを除去することもできる。
The
オーディオ処理部121は、音声制御装置100がスリープモードで動作するときにも、オーディオ信号を受信するために、常時動作することができる。オーディオ処理部121は、音声制御装置100がスリープモードで動作するとき、低い動作周波数で動作し、音声制御装置100が正常モードで動作するときには、高い動作周波数で動作することができる。
The
メモリ110は、オーディオ処理部121で生成されたオーディオストリームデータを一時的に保存することができる。オーディオ処理部121は、メモリ110を利用して、オーディオストリームデータをバッファリングすることができる。メモリ110には、キーワードを含むオーディオデータだけではなく、キーワードが検出される前のオーディオデータが共に保存される。最近のオーディオデータをメモリ110に保存するために、メモリ110に最も前に保存されたオーディオデータが削除される。メモリ110に割り当てられた大きさが同一であるならば、常時同一期間のオーディオデータが保存される。メモリ110に保存されたオーディオデータに該当する前記期間は、キーワードを発声する時間より長いことが望ましい。
The
本発明の他の実施形態によれば、メモリ110は、オーディオ処理部121で生成されたオーディオストリームに係わる話者特徴ベクトルを抽出して保存することができる。そのとき、該話者特徴ベクトルは、特定長のオーディオストリームに対して抽出して保存される。前述のように、最近生成されたオーディオストリームに係わる話者特徴ベクトルを保存するために、最も前に保存された話者特徴ベクトルが削除される。
According to another embodiment of the present invention, the
キーワード検出部122は、オーディオ処理部121で生成されたオーディオストリームデータから、既定義の(即ち、所定の)キーワードに対応する候補キーワードを検出する。キーワード検出部122は、メモリ110に一時的に保存されたオーディオストリームデータから、既定義のキーワードに対応する候補キーワードを検出することができる。既定義のキーワードは、複数個存在することも可能であり、複数の既定義のキーワードは、キーワード保存所110aに保存される。キーワード保存所110aは、メモリ110に含まれてもよい。
The
候補キーワードは、キーワード検出部122から、オーディオストリームデータのうちキーワードとして検出したものを意味する。候補キーワードは、キーワードと同一であっても良いし、該キーワードと類似して発音される他の単語であっても良い。例えば、該キーワードが「クローバ」である場合、候補キーワードは、「グローバル」であっても良い。すなわち、ユーザが「グローバル」を含んだ文章を発声した場合、キーワード検出部122は、オーディオストリームデータから、「グローバル」を「クローバ」と誤認して検出するかもしれないからである。かように検出された「グローバル」は、候補キーワードに該当する。
The candidate keyword means the audio stream data detected as a keyword by the
キーワード検出部122は、オーディオストリームデータを、既知のキーワードデータと比較し、オーディオストリームデータ内に、キーワードに対応する音声が含まれる可能性を計算することができる。キーワード検出部122は、オーディオストリームデータから、フィルタバンクエネルギー(filter bank energy)またはメル周波数ケプストラム係数(MFCC:Mel-frequency cepstram coefficients)のようなオーディオ特徴を抽出することができる。キーワード検出部122は、分類ウィンドウ(classifying window)を利用して、例えば、サポートベクトルマシン(support vector machine)または神経網(neural network)を利用して、かようなオーディオ特徴を処理することができる。該オーディオ特徴の処理に基づいて、キーワード検出部122は、オーディオストリームデータ内にキーワードが含まれる可能性を計算することができる。キーワード検出部122は、前記可能性が、既設定基準値(即ち、所定の基準値)より高い場合、オーディオストリームデータ内にキーワードが含まれていると判断することにより、候補キーワードを検出することができる。
The
キーワード検出部122は、キーワードデータに対応する音声サンプルを利用して人工神経網(例えば、人工知能のためのニューラルネットワーク)を生成し、生成された神経網を利用して、オーディオストリームデータからキーワードを検出するように、トレーニングされる。キーワード検出部122は、オーディオストリームデータ内のフレームごとに、それぞれキーワードを構成する音素の確率、またはキーワードの全体的な確率を計算することができる。キーワード検出部122は、オーディオストリームデータから、各音素に該当する確率シーケンス、またはキーワード自体の確率を出力することができる。そのシーケンスまたは確率を基に、キーワード検出部122は、オーディオストリームデータ内にキーワードが含まれる可能性を計算することができ、その可能性が既設定基準値以上である場合、候補キーワードが検出されたと判断することができる。前述の方式は、例示的なものであり、キーワード検出部122の動作は、多様な方式を介しても具現化される。
The
また、キーワード検出部122は、オーディオストリームデータ内のフレームごとに、オーディオ特徴を抽出することにより、当該フレームのオーディオデータが、人の音声に該当する可能性と、背景音に該当する可能性とを算出することができる。キーワード検出部122は、人の音声に該当する可能性と、背景音に該当する可能性とを比較し、当該フレームのオーディオデータが人の音声に該当すると判断することができる。例えば、キーワード検出部122は、当該フレームのオーディオデータが人の音声に該当する可能性が、背景音に該当する可能性より、既設定基準値を超えて高い場合、当該フレームのオーディオデータが人の音声に対応すると判断することができる。
Further, the
キーワード検出部122は、オーディオストリームデータから候補キーワードが検出された区間を特定することができ、候補キーワードが検出された区間の始点及び終点を決定することができる。オーディオストリームデータから候補キーワードが検出された区間は、キーワード検出区間、現在区間または第1区間とされる。オーディオストリームデータにおいて第1区間に該当するオーディオデータは、第1オーディオデータとする。キーワード検出部122は、候補キーワードが検出された区間の終りを終点と決定することができる。他の例によれば、キーワード検出部122は、候補キーワードが検出された後、既設定時間(例えば、0.5秒)の黙音が発生するまで待った後、第1区間に黙音区間が含まれるように、第1区間の終点を決定するか、あるいは黙音期間が含まれないように、第1区間の終点を決定することができる。
The
話者特徴ベクトル抽出部123は、メモリ110に一時的に保存されたオーディオストリームデータにおいて、第2区間に該当する第2オーディオデータを、メモリ110から読み取る。第2区間は、第1区間の以前区間であり、第2区間の終点は、第1区間の始点と同一でもある。第2区間は、以前区間とされる。第2区間の長さは、検出された候補キーワードに対応するキーワードによって可変的にも設定される。他の例によれば、第2区間の長さは、固定的にも設定される。さらに他の例によれば、第2区間の長さは、キーワード検出性能が最適化されるように、適応的に可変される。例えば、マイク151が出力するオーディオ信号が、「四葉のクローバー」であり、候補キーワードが「クローバー」である場合、第2オーディオデータは、「四葉の」という音声に対応する。
The speaker feature
話者特徴ベクトル抽出部123は、第1区間に該当する第1オーディオデータの第1話者特徴ベクトルと、第2区間に該当する第2オーディオデータの第2話者特徴ベクトルと、を抽出する。話者特徴ベクトル抽出部123は、話者認識にロバストな話者特徴ベクトルをオーディオデータから抽出することができる。話者特徴ベクトル抽出部123は、時間ドメイン(time domain)の音声信号を、周波数ドメイン(frequency domain)の信号に変換し、変換された信号の周波数エネルギーを、互いに異なるように変形することにより、話者特徴ベクトルを抽出することができる。例えば、該話者特徴ベクトルは、メル周波数ケプストラム係数(MFCC)またはフィルタバンクエネルギーを基に抽出される、それらに限定されるものはではなく、多様な方式で、オーディオデータから話者特徴ベクトルを抽出することができる。
The speaker feature
話者特徴ベクトル抽出部123は、一般的には、スリープモードで動作することができる。キーワード検出部122は、オーディオストリームデータから候補キーワードを検出すると、話者特徴ベクトル抽出部123をウェークアップさせることができる。キーワード検出部122は、オーディオストリームデータから候補キーワードを検出すると、話者特徴ベクトル抽出部123にウェークアップ信号を送信することができる。話者特徴ベクトル抽出部123は、キーワード検出部122において、候補キーワードが検出されたということを示すウェークアップ信号に応答してウェークアップされる。
The speaker feature
一実施形態によれば、話者特徴ベクトル抽出部123は、オーディオデータの各フレームごとに、フレーム特徴ベクトルを抽出し、抽出されたフレーム特徴ベクトルを正規化及び平均化し、オーディオデータを代表する話者特徴ベクトルを抽出することができる。抽出されたフレーム特徴ベクトルの正規化に、L2正規化が使用される。抽出されたフレーム特徴ベクトルの平均化は、オーディオデータ内の全フレームそれぞれに対して抽出されたフレーム特徴ベクトルを正規化して生成される正規化されたフレーム特徴ベクトルの平均を算出することによって達成される。
According to one embodiment, the speaker feature
例えば、話者特徴ベクトル抽出部123は、第1オーディオデータの各フレームごとに、第1フレーム特徴ベクトルを抽出し、抽出された第1フレーム特徴ベクトルを正規化及び平均化し、第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出することができる。また、話者特徴ベクトル抽出部123は、第2オーディオデータの各フレームごとに、第2フレーム特徴ベクトルを抽出し、抽出された第2フレーム特徴ベクトルを正規化及び平均化し、第2オーディオデータを代表する第2話者特徴ベクトルを抽出することができる。
For example, the speaker feature
他の実施形態によれば、話者特徴ベクトル抽出部123は、オーディオデータ内の全フレームについて、フレーム特徴ベクトルをそれぞれ抽出するのではなく、オーディオデータ内の一部フレームについて、フレーム特徴ベクトルをそれぞれ抽出することができる。前記一部フレームは、当該フレームのオーディオデータが、ユーザの音声データである可能性が高いフレームにおいて、音声フレームとして選択される。かような音声フレームの選択は、キーワード検出部122によってなされる。キーワード検出部122は、オーディオストリームデータの各フレームごとに、人音声である第1確率と、背景音である第2確率とを計算することができる。キーワード検出部122は、各フレームのオーディオデータが人音声である第1確率が、背景音である第2確率より、既設定基準値を超えて高いフレームを、音声フレームと決定することができる。キーワード検出部122は、当該フレームが、音声フレームであるか否かということを示すフラグまたはビットをオーディオストリームデータの各フレームに関連づけてメモリ110に保存することができる。
According to another embodiment, the speaker feature
話者特徴ベクトル抽出部123は、第1オーディオデータ及び第2オーディオデータをメモリ110から読み取るとき、フラグまたはビットを共に読み取ることにより、当該フレームが音声フレームであるか否かということを知ることができる。
When the speaker feature
話者特徴ベクトル抽出部123は、オーディオデータ内のフレーム中、音声フレームと決定されたフレームそれぞれについてフレーム特徴ベクトルを抽出し、抽出された第1フレーム特徴ベクトルを正規化及び平均化し、オーディオデータを代表する話者特徴ベクトルを抽出することができる。例えば、話者特徴ベクトル抽出部123は、第1オーディオデータ内のフレーム中、音声フレームと決定されたフレームそれぞれについて、第1フレーム特徴ベクトルを抽出し、抽出された第1フレーム特徴ベクトルを正規化及び平均化し、第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出することができる。また、話者特徴ベクトル抽出部123は、第2オーディオデータ内のフレーム中、音声フレームと決定されたフレームそれぞれについて、第2フレーム特徴ベクトルを抽出し、抽出された第2フレーム特徴ベクトルを正規化及び平均化し、第2オーディオデータを代表する第2話者特徴ベクトルを抽出することができる。
The speaker feature
ウェークアップ判断部124は、話者特徴ベクトル抽出部123で抽出された第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を基に、第1オーディオデータに当該キーワードが含まれていたか否かということ、すなわち、第1区間のオーディオ信号に当該キーワードが含まれていたか否かということを判断する。ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を、既設定基準値と比較し、類似度が基準値以下である場合、第1区間の第1オーディオデータに当該キーワードが含まれていると判断することができる。
Whether the wake-up
音声制御装置100がキーワードを誤認識する代表的な場合は、ユーザの音声中に、キーワードと類似した発音の単語が、音声中間に位置する場合である。例えば、キーワードが「クローバ」である場合、ユーザが他者に「四葉のクローバーをどうやって見つけられるの」という場合にも、音声制御装置100は、「クローバー」に反応してウェークアップされ、ユーザが意図していない動作を遂行してしまうかもしれない。さらには、テレビニュースにおいてアナウンサーが、「JNグローバルの時価総額は、…」という場合にも、音声制御装置100は、「グローバル」に反応してウェークアップされてしまうかもしれない。そのようなキーワードの誤認識が発生してしまうことを防止するために、一実施形態によれば、キーワードと類似した発音の単語は、音声の最も先に位置する場合にのみ音声制御装置100が反応する。また、周辺背景騒音が多い環境や、他の人々が話し合っている環境では、ユーザがキーワードに該当する音声を最も先に発声しても、周辺背景騒音や、他の人々の対話により、ユーザがキーワードに該当する音声を最も先に発声したということが感知されないこともある。一実施形態によれば、音声制御装置100は、候補キーワードが検出された区間の第1話者特徴ベクトルと、以前区間の第2話者特徴ベクトルとを抽出し、第1話者特徴ベクトルと第2話者特徴ベクトルとが互いに異なる場合には、ユーザがキーワードに該当する音声を最も先に発声したと判断することができる。
A typical case where the
かような判断のために、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が既設定基準値以下である場合には、ユーザがキーワードに該当する音声を最も先に発声したと判断することができる。すなわち、ウェークアップ判断部124は、第1区間の第1オーディオデータに当該キーワードが含まれていると判断することができ、音声制御装置100の一部機能をウェークアップさせることができる。第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が高いということは、第1オーディオデータに対応する音声を放った者と、第2オーディオデータに対応する音声を放った者とが同一である可能性が高いというのである。
For such a determination, the wake-up
第2オーディオデータが黙音に該当する場合、話者特徴ベクトル抽出部123は、第2オーディオデータから、黙音に該当する第2話者特徴ベクトルを抽出することができる。話者特徴ベクトル抽出部123は、第1オーディオデータから、ユーザの音声に該当する第1話者特徴ベクトルを抽出するので、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、低い。
When the second audio data corresponds to the silent sound, the speaker feature
音声認識部125は、オーディオ処理部121で生成されたオーディオストリームデータにおいて第3区間に該当する第3オーディオデータを受信し、第3オーディオデータを音声認識することができる。他の例によれば、音声認識部125は、第3オーディオデータが、外部(例えば、サーバ200)で音声認識されるように、第3オーディオデータを外部に伝送し、音声認識結果を受信することができる。
The
機能部126は、キーワードに対応する機能を遂行することができる。例えば、音声制御装置100がスマートスピーカである場合、機能部126は、音楽再生部、音声情報提供部、周辺機器制御部などを含み、検出されたキーワードに対応する機能を遂行することができる。音声制御装置100がスマートフォンである場合、機能部126は、電話連結部、文字送受信部、インターネット検索部などを含み、検出されたキーワードに対応する機能を遂行することができる。機能部126は、音声制御装置100の種類によって多様に構成される。機能部126は、音声制御装置100が行うことができる多様な機能を遂行するための機能ブロックを包括的に示したものである。
The
図3に図示された音声制御装置100は、音声認識部125を含むように図示されているが、それは例示的なものであり、音声制御装置100は、音声認識部125を含まず、図2に図示されたサーバ200が、音声認識機能を代わりに遂行することができる。その場合、図1に図示されているように、音声制御装置100は、ネットワーク300を介して、音声認識機能を遂行するサーバ200に接続される。音声制御装置100は、音声認識が必要な音声信号を含む音声ファイルをサーバ200に提供することができ、サーバ200は、音声ファイル内の音声信号に対して音声認識を行い、音声信号に対応する文字列を生成することができる。サーバ200は、生成された文字列を、ネットワーク300を介して、音声制御装置100に送信することができる。しかし、以下では、音声制御装置100が音声認識機能を遂行する音声認識部125を含むと仮定して説明する。
The
プロセッサ120は、動作方法のためのプログラムファイルに保存されたプログラムコードをメモリ110にローディングすることができる。例えば、音声制御装置100には、プログラムファイルによって、プログラムがインストール(install)される。そのとき、音声制御装置100にインストールされたプログラムが実行される場合、プロセッサ120は、プログラムコードをメモリ110にローディングすることができる。そのとき、プロセッサ120が含むオーディオ処理部121、キーワード検出部122、話者特徴ベクトル抽出部123、ウェークアップ判断部124、音声認識部125及び機能部126のうち少なくとも一部のそれぞれは、メモリ110にローディングされたプログラムコードのうち対応するコードによる命令を実行し、図4の段階(S110ないしS190)を実行するようにも具現化される。
The
その後、プロセッサ120の機能ブロック121ないし126が、音声制御装置100を制御することは、プロセッサ120が音声制御装置100の他の構成要素を制御することと理解される。例えば、プロセッサ120は、音声制御装置100が含む通信モジュール130を制御し、音声制御装置100が、例えば、サーバ200と通信するように、音声制御装置100を制御することができる。
After that, it is understood that the
段階(S110)において、プロセッサ120、例えば、オーディオ処理部121は、周辺音に対応するオーディオ信号を受信する。オーディオ処理部121は、持続的に周辺音に対応するオーディオ信号を受信することができる。オーディオ信号は、マイク151のような入力装置が周辺音に対応して生成した電気信号でもある。
In the stage (S110), the
段階(S120)において、プロセッサ120、例えば、オーディオ処理部121は、マイク151からのオーディオ信号を基に、オーディオストリームデータを生成する。オーディオストリームデータは、持続的に受信されるオーディオ信号に対応したものである。該オーディオストリームデータは、オーディオ信号をフィルタリングしてデジタル化させることによって生成されるデータでもある。
In the step (S120), the
段階(S130)において、プロセッサ120、例えば、オーディオ処理部121は、段階(S120)で生成されるオーディオストリームデータをメモリ110に一時的に保存する。メモリ110は、限定された大きさを有し、現在から最近一定時間の間のオーディオ信号に対応するオーディオストリームデータの一部が、メモリ110に一時的に保存される。新たなオーディオストリームデータが生成されると、メモリ110に保存されたオーディオストリームデータのうち最も古いデータが削除され、メモリ110内の削除によって空くようになった空間に、新たなオーディオストリームデータが保存される。
In the stage (S130), the
段階(S140)において、プロセッサ120、例えば、キーワード検出部122は、段階(S120)で生成されるオーディオストリームデータから、既定義のキーワードに対応する候補キーワードを検出する。該候補キーワードは、既定義のキーワードと類似した発音を有する単語であり、段階(S140)において、キーワード検出部122でキーワードとして検出されたワードを指す。
In the stage (S140), the
段階(S150)において、プロセッサ120、例えば、キーワード検出部122は、オーディオストリームデータから候補キーワードが検出されたキーワード検出区間を識別し、キーワード検出区間の始点及び終点を決定する。キーワード検出区間は、現在区間とされる。オーディオストリームデータで現在区間に対応するデータは、第1オーディオデータとされる。
In the stage (S150), the
段階(S160)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、メモリ110から、以前区間に該当する第2オーディオデータを読み取る。以前区間は、現在区間のすぐ直前区間であり、以前区間の終点は、現在区間の始点と同一でもある。話者特徴ベクトル抽出部123は、メモリ110から、第1オーディオデータも共に読み取ることができる。
In the stage (S160), the
段階(S170)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、第1オーディオデータから第1話者特徴ベクトルを抽出し、第2オーディオデータから第2話者特徴ベクトルを抽出する。第1話者特徴ベクトルは、第1オーディオデータに対応する音声の話者を識別するための指標であり、第2話者特徴ベクトルは、第2オーディオデータに対応する音声の話者を識別するための指標である。プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を基に、第1オーディオデータにキーワードが含まれていたか否かということを判断することができる。ウェークアップ判断部124は、第1オーディオデータにキーワードが含まれていると判断する場合、音声制御装置100の一部構成要素をウェークアップさせることができる。
In the stage (S170), the
段階(S180)において、プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を既設定基準値と比較する。
In the step (S180), the
ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が既設定基準値以下である場合、現在区間の第1オーディオデータの話者と、以前区間の第2オーディオデータの話者とが互いに異なるということであるので、第1オーディオデータにキーワードが含まれていると判断することができる。その場合、段階(S190)でのように、プロセッサ120、例えば、ウェークアップ判断部124は、音声制御装置100の一部構成要素をウェークアップさせることができる。
When the similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than the set reference value, the wake-up
しかし、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が既設定基準値より高い場合、現在区間の第1オーディオデータの話者と、以前区間の第2オーディオデータの話者とが互いに同一であるということであるので、第1オーディオデータにキーワードが含まれていないと判断し、ウェークアップを進めない。その場合、段階(S110)に進み、周辺音に対応するオーディオ信号を受信する。段階(S110)において、オーディオ信号受信は、段階(S120-S190)を遂行するときにも続けられる。
However, when the similarity between the first speaker feature vector and the second speaker feature vector is higher than the set reference value, the
図3のキーワード保存所110aには、既定義の複数のキーワードが保存される。かようなキーワードは、ウェークアップキーワードでもあり、単独命令キーワードでもある。該ウェークアップキーワードは、音声制御装置100の一部機能をウェークアップさせるためのものである。一般的には、ユーザは、ウェークアップキーワードを発話した後、所望の自然語音声命令を発話する。音声制御装置100は、自然語音声命令を音声認識し、自然語音声命令に対応する動作及び機能を遂行することができる。
A plurality of defined keywords are stored in the
単独命令キーワードは、音声制御装置100が、特定動作または機能を直接遂行するためのものであり、例えば、「再生」、「中止」のように、既定義の簡単な単語でもある。音声制御装置100は、単独命令キーワードが受信されると、単独命令キーワードに該当する機能をウェークアップさせ、当該機能を遂行することができる。
The single command keyword is for the
以下では、オーディオストリームデータから単独命令キーワードに対応する候補キーワードを検出した場合、及びオーディオストリームデータからウェークアップキーワードに対応する候補キーワードを検出した場合のそれぞれについて説明する。 Hereinafter, the case where the candidate keyword corresponding to the single instruction keyword is detected from the audio stream data and the case where the candidate keyword corresponding to the wake-up keyword is detected from the audio stream data will be described.
図5は、他の実施形態によって、音声制御装置が遂行することができる動作方法の例を図示したフローチャートである。 FIG. 5 is a flowchart illustrating an example of an operation method that can be performed by the voice control device according to another embodiment.
図6Aは、一実施形態による音声制御装置が、図5の動作方法を実行する場合、単独命令キーワードが発話される例を図示し、図6Bは、一実施形態による音声制御装置が、図5の動作方法を実行する場合、一般対話音声が発話される例を図示する。 FIG. 6A illustrates an example in which a single instruction keyword is spoken when the voice control device according to one embodiment executes the operation method of FIG. 5, and FIG. 6B shows an example in which the voice control device according to one embodiment is a voice control device according to FIG. An example in which a general dialogue voice is uttered when executing the operation method of is illustrated.
図5の動作方法は、図4の動作方法と実質的に同一である段階を含む。図5の段階のうち、図4の段階と実質的に同一である段階については、詳細に説明しない。図6A及び図6Bには、オーディオストリームデータに対応するオーディオ信号と、オーディオ信号に対応するユーザの音声とが図示される。図6Aには、音声「中止」に対応するオーディオ信号が図示され、図6Bには、音声「ここで停止して」に対応するオーディオ信号が図示される。 The operation method of FIG. 5 includes a step that is substantially the same as the operation method of FIG. Of the stages of FIG. 5, the stages that are substantially the same as the stages of FIG. 4 will not be described in detail. 6A and 6B show an audio signal corresponding to the audio stream data and a user's voice corresponding to the audio signal. FIG. 6A shows an audio signal corresponding to the voice "stop", and FIG. 6B shows an audio signal corresponding to the voice "stop here".
図6A及び図6Bと共に図5を参照すれば、段階(S210)において、プロセッサ120、例えば、オーディオ処理部121は、周辺音に対応するオーディオ信号を受信する。
Referring to FIG. 5 together with FIGS. 6A and 6B, in step (S210), the
段階(S220)において、プロセッサ120、例えば、オーディオ処理部121は、マイク151からのオーディオ信号を基に、オーディオストリームデータを生成する。
In step (S220), the
段階(S230)において、プロセッサ120、例えば、オーディオ処理部121は、段階(S220)で生成されるオーディオストリームデータをメモリ110に一時的に保存する。
In the stage (S230), the
段階(S240)において、プロセッサ120、例えば、キーワード検出部122は、段階(S220)で生成されるオーディオストリームデータから、既定義の単独命令キーワードに対応する候補キーワードを検出する。単独命令キーワードは、音声制御装置100の動作を直接制御することができる音声キーワードでもある。例えば、単独命令キーワードは、図6Aに図示されているように、「中止」のような単語でもある。その場合、音声制御装置100は、例えば、音楽や動画を再生している。
In the stage (S240), the
図6Aの例において、キーワード検出部122は、オーディオ信号から「中止」という候補キーワードを検出することができる。図6Bの例において、キーワード検出部122は、オーディオ信号から、「中止」というキーワードと類似した発音を有する単語である「停止」という候補キーワードを検出することができる。
In the example of FIG. 6A, the
段階(S250)において、プロセッサ120、例えば、キーワード検出部122は、オーディオストリームデータから候補キーワードが検出されたキーワード検出区間を識別し、キーワード検出区間の始点及び終点を決定する。キーワード検出区間は、現在区間とされる。オーディオストリームデータにおいて、現在区間に対応するデータは、第1オーディオデータとされる。
In the stage (S250), the
図6Aの例において、キーワード検出部122は、「中止」という候補キーワードを検出した区間を現在区間と識別し、現在区間の始点及び終点を決定することができる。前記現在区間に対応するオーディオデータは、第1オーディオデータAD1とされる。
In the example of FIG. 6A, the
図6Bの例において、キーワード検出部122は、「停止」という候補キーワードを検出した区間を現在区間と識別し、現在区間の始点及び終点を決定することができる。前記現在区間に対応するオーディオデータは、第1オーディオデータAD1とされる。
In the example of FIG. 6B, the
また、段階(S250)において、プロセッサ120、例えば、キーワード検出部122は、検出された候補キーワードが、ウェークアップキーワード及び単独命令キーワードのうちいずれのキーワードに対応する候補キーワードであるかということを判断することができる。図6A及び図6Bの例において、キーワード検出部122は、検出された候補キーワード、すなわち、「中止」及び「停止」が単独命令キーワードに対応する候補キーワードであるということを判断することができる。
Further, in the stage (S250), the
段階(S260)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、メモリ110から、以前区間に該当する第2オーディオデータを読み取る。以前区間は、現在区間のすぐ直前区間であり、以前区間の終点は、現在区間の始点と同一でもある。話者特徴ベクトル抽出部123は、メモリ110から、第1オーディオデータも共に読み取ることができる。
In the stage (S260), the
図6Aの例において、話者特徴ベクトル抽出部123は、現在区間のすぐ直前区間である以前区間に対応する第2オーディオデータAD2をメモリ110から読み取ることができる。図6Bの例において、話者特徴ベクトル抽出部123は、現在区間のすぐ直前区間である以前区間に対応する第2オーディオデータAD2を、メモリ110から読み取ることができる。図6Bの例において、第2オーディオデータAD2は「こで」という音声に対応する。以前区間の長さは、検出された候補キーワードによって可変的にも設定される。
In the example of FIG. 6A, the speaker feature
段階(S270)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、オーディオ処理部121から、現在区間後の次の区間に該当する第3オーディオデータを受信する。次の区間は、現在区間のすぐ次の区間であり、次の区間の始点は、現在区間の終点と同一でもある。
In the stage (S270), the
図6Aの例において、話者特徴ベクトル抽出部123は、現在区間直後の次の区間に対応する第3オーディオデータAD3を、オーディオ処理部121から受信することができる。図6Bの例において、話者特徴ベクトル抽出部123は、現在区間直後の次の区間に対応する第3オーディオデータAD3を、オーディオ処理部121から受信することができる。図6Bの例において、第3オーディオデータAD3は、「して」という音声に対応する。次の区間の長さは、検出された候補キーワードによって可変的にも設定される。
In the example of FIG. 6A, the speaker feature
段階(S280)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、第オーディオデータ1ないし第3オーディオデータから、第1話者特徴ベクトルないし第3話者特徴ベクトルをそれぞれ抽出する。第1話者特徴ベクトルないし第3話者特徴ベクトルそれぞれは、第オーディオデータ1ないし第3オーディオデータに対応する音声の話者を識別するための指標である。プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度、及び第1話者特徴ベクトルと第3話者特徴ベクトルとの類似度を基に、第1オーディオデータに単独命令キーワードが含まれていたか否かということを判断することができる。ウェークアップ判断部124は、第1オーディオデータに、単独命令キーワードが含まれていると判断する場合、音声制御装置100の一部構成要素をウェークアップさせることができる。
In the stage (S280), the
図6Aの例において、第1オーディオデータAD1に対応する第1話者特徴ベクトルは、「中止」という音声を発声した話者を識別するための指標である。第2オーディオデータAD2と第3オーディオデータAD3は、実質的に黙音であるので、第2話者特徴ベクトル及び第3話者特徴ベクトルは、黙音に対応するベクトルを有することができる。従って、第1話者特徴ベクトルと、第2話者特徴ベクトル及び第3話者特徴ベクトルとの類似度は、低い。 In the example of FIG. 6A, the first speaker feature vector corresponding to the first audio data AD1 is an index for identifying the speaker who utters the voice "stop". Since the second audio data AD2 and the third audio data AD3 are substantially silent, the second speaker feature vector and the third speaker feature vector can have a vector corresponding to the silent sound. Therefore, the degree of similarity between the first speaker feature vector and the second speaker feature vector and the third speaker feature vector is low.
他の例として、以前区間及び次の区間に、「中止」という音声を発声した話者ではない他者が音声を発声する場合、第2話者特徴ベクトル及び第3話者特徴ベクトルは、前記他者に対応したベクトルを有するので、第1話者特徴ベクトルと、第2話者特徴ベクトル及び第3話者特徴ベクトルとの類似度は、低い。 As another example, when another person who is not the speaker who uttered the voice "stop" utters the voice in the previous section and the next section, the second speaker feature vector and the third speaker feature vector are described above. Since it has a vector corresponding to another person, the degree of similarity between the first speaker feature vector, the second speaker feature vector, and the third speaker feature vector is low.
図6Bの例では、一人が「ここで停止して」と発声した。従って、「停止」に対応する第1オーディオデータAD1から抽出される第1話者特徴ベクトル、「こで」に対応する第2オーディオデータAD2から抽出される第2話者特徴ベクトル、及び「して」に対応する第3オーディオデータAD3から抽出される第3話者特徴ベクトルは、いずれも実質的に同一である話者を識別するためのベクトルであるので、第1話者特徴ベクトルないし第3話者特徴ベクトルとの類似度は、高い。 In the example of FIG. 6B, one person uttered "Stop here". Therefore, the first speaker feature vector extracted from the first audio data AD1 corresponding to "stop", the second speaker feature vector extracted from the second audio data AD2 corresponding to "kode", and the "speaker feature vector". Since the third speaker feature vector extracted from the third audio data AD3 corresponding to "te" is a vector for identifying speakers that are substantially the same, the first speaker feature vector or the first speaker feature vector. The degree of similarity with the three-speaker feature vector is high.
段階(S290)において、プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を、既設定基準値と比較し、第1話者特徴ベクトルと第3話者特徴ベクトルとの類似度を既設定基準値と比較する。ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が既設定基準値以下であり、第1話者特徴ベクトルと第3話者特徴ベクトルとの類似度が既設定基準値以下である場合、現在区間の第1オーディオデータの話者は、以前区間の第2オーディオデータの話者、及び次の区間の第3オーディオデータの話者とは異なるので、第1オーディオデータに、単独命令キーワードが含まれていると判断することができる。その場合、段階(S300)でのように、プロセッサ120、例えば、ウェークアップ判断部124は、単独命令キーワードを機能部126に提供し、機能部126は、ウェークアップ判断部124による、第1オーディオデータに単独命令キーワードが含まれているという判断に応答し、単独命令キーワードに対応する機能を遂行することができる。
In the stage (S290), the
図6Aの例において、第1話者特徴ベクトルは、「中止」と発声した話者に対応するベクトルであり、第2話者特徴ベクトル及び第3話者特徴ベクトルは、黙音に対応したベクトルであるので、第1話者特徴ベクトルと、第2話者特徴ベクトル及び第3話者特徴ベクトルとの類似度は、既設定基準値より低い。その場合、ウェークアップ判断部124は、第1オーディオデータAD1に、「中止」という単独命令キーワードが含まれていると判断することができる。その場合、機能部126は、前記判断に応答してウェークアップされ、「中止」という単独命令キーワードに対応する動作または機能を遂行することができる。例えば、音声制御装置100が音楽を再生しているのであれば、機能部126は、「中止」という単独命令キーワードに対応し、音楽再生を止めることができる。
In the example of FIG. 6A, the first speaker feature vector is a vector corresponding to the speaker who utters "stop", and the second speaker feature vector and the third speaker feature vector are vectors corresponding to silence. Therefore, the degree of similarity between the first speaker feature vector, the second speaker feature vector, and the third speaker feature vector is lower than the set reference value. In that case, the wake-up
しかし、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、既設定基準値より高いか、あるいは第1話者特徴ベクトルと第3話者特徴ベクトルとの類似度が、既設定基準値より高い場合、現在区間の第1オーディオデータの話者が、以前区間の第2オーディオデータの話者、または次の区間の第3オーディオデータの話者と同一であるということであるので、第1オーディオデータにキーワードが含まれていないと判断し、ウェークアップを進めない。その場合、段階(S210)に進み、周辺音に対応するオーディオ信号を受信する。
However, in the wake-up
図6Bの例において、一人が「ここで停止して」と発声したので、第1話者特徴ベクトルないし第3話者特徴ベクトルの類似度は、高い。図6Bの例における発声である「ここに停止して」には、音声制御装置を制御するか、あるいはウェークアップさせるためのキーワードが含まれていないので、ウェークアップ判断部124は、第1オーディオデータAD1に単独命令キーワードが含まれていないと判断し、機能部126が「停止」または「中止」に該当する機能や動作を遂行しないようにする。
In the example of FIG. 6B, since one person uttered "Stop here", the similarity between the first speaker feature vector and the third speaker feature vector is high. Since the utterance "stop here" in the example of FIG. 6B does not include a keyword for controlling or wake-up the voice control device, the wake-up
一般的な技術によれば、音声制御装置は、「ここで停止して」という発声のうち「停止」という音声を検出し、「停止」に該当する機能や動作を遂行することが技術的には可能である。かような機能や動作は、ユーザが意図していないものであり、ユーザは、音声制御装置を使用するときに不都合を感じる。しかし、一実施形態によれば、音声制御装置100は、ユーザの音声から、単独命令キーワードを正確に認識することができるために、一般的な技術とは異なり、誤動作を遂行しない。
According to general technology, it is technically possible for a voice control device to detect the voice "stop" among the utterances "stop here" and perform a function or operation corresponding to "stop". Is possible. Such functions and operations are not intended by the user, and the user feels inconvenience when using the voice control device. However, according to one embodiment, the
図7は、さらに他の実施形態によって、音声制御装置が遂行することができる動作方法の例を図示したフローチャートである。 FIG. 7 is a flowchart illustrating an example of an operation method that can be performed by the voice control device according to still another embodiment.
図8Aは、一実施形態による音声制御装置が、図7の動作方法を実行する場合、ウェークアップキーワード及び自然語音声命令が発話される例を図示し、図8Bは、一実施形態による音声制御装置が、図7の動作方法を実行する場合、一般対話音声が発話される例を図示する。 FIG. 8A illustrates an example in which a wake-up keyword and a natural language voice command are uttered when the voice control device according to the embodiment executes the operation method of FIG. 7, and FIG. 8B shows a voice control device according to the embodiment. However, when the operation method of FIG. 7 is executed, an example in which a general dialogue voice is uttered is illustrated.
図7の動作方法は、図4の動作方法と実質的に同一である段階を含む。図7の段階のうち、図4の段階と実質的に同一である段階については、詳細に説明しない。図6A及び図6Bには、オーディオストリームデータに対応するオーディオ信号と、オーディオ信号に対応するユーザの音声とが図示される。図8Aには、ウェークアップキーワード「クローバ」と、自然語音声命令「明日の天気を教えて」とに対応するオーディオ信号が図示され、図8Bには「四葉のクローバーをどうやって見つけられるの」という対話音声に対応するオーディオ信号が図示される。 The operation method of FIG. 7 includes a step that is substantially the same as the operation method of FIG. Of the stages of FIG. 7, the stages that are substantially the same as the stages of FIG. 4 will not be described in detail. 6A and 6B show an audio signal corresponding to the audio stream data and a user's voice corresponding to the audio signal. FIG. 8A illustrates the audio signal corresponding to the wake-up keyword "clover" and the natural voice command "tell me the weather tomorrow", and FIG. 8B shows the dialogue "how to find the four-leaf clover". The audio signal corresponding to the voice is illustrated.
図8A及び図8Bと共に、図7を参照すれば、段階(S410)において、プロセッサ120、例えば、オーディオ処理部121は、周辺音に対応するオーディオ信号を受信する。段階(S420)において、プロセッサ120、例えば、オーディオ処理部121は、マイク151からのオーディオ信号を基に、オーディオストリームデータを生成する。段階(S430)において、プロセッサ120、例えば、オーディオ処理部121は、段階(S120)で生成されるオーディオストリームデータを、メモリ110に一時的に保存する。
Referring to FIG. 7 together with FIGS. 8A and 8B, in step (S410), the
段階(S440)において、プロセッサ120、例えば、キーワード検出部122は、段階(S420)で生成されるオーディオストリームデータから、既定義のウェークアップキーワードに対応する候補キーワードを検出する。該ウェークアップキーワードは、スリープモード状態の音声制御装置をウェークアップモードに転換することができる音声に基づくキーワードである。例えば、ウェークアップキーワードは、「クローバ」、「ハイコンピュータ」のような音声キーワードでもある。
In the stage (S440), the
図8Aの例において、キーワード検出部122は、オーディオ信号から、「クローバ」という候補キーワードを検出することができる。図8Bの例において、キーワード検出部122は、オーディオ信号から、「クローバ」というキーワードと類似した発音を有する単語である「クローバー」という候補キーワードを検出することができる。
In the example of FIG. 8A, the
段階(S450)において、プロセッサ120、例えば、キーワード検出部122は、オーディオストリームデータから候補キーワードが検出されたキーワード検出区間を識別し、キーワード検出区間の始点及び終点を決定する。キーワード検出区間は、現在区間とされる。オーディオストリームデータで現在区間に対応するデータは、第1オーディオデータとされる。
In the stage (S450), the
図8Aの例において、キーワード検出部122は、「クローバ」という候補キーワードを検出した区間を現在区間と識別し、現在区間の始点及び終点を決定することができる。前記現在区間に対応するオーディオデータは、第1オーディオデータAD1とされる。図8Bの例において、キーワード検出部122は、「クローバー」という候補キーワードを検出した区間を現在区間と識別し、現在区間の始点及び終点を決定することができる。前記現在区間に対応するオーディオデータは、第1オーディオデータAD1とされる。
In the example of FIG. 8A, the
また、段階(S450)において、プロセッサ120、例えば、キーワード検出部122は、検出された候補キーワードがウェークアップキーワード及び単独命令キーワードのうちいずれのキーワードに対応する候補キーワードであるかということを判断することができる。図8A及び図8Bの例において、キーワード検出部122は、検出された候補キーワード、すなわち、「クローバ」及び「クローバー」がウェークアップキーワードに対応する候補キーワードであるということを判断することができる。
Further, in the step (S450), the
段階(S460)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、メモリ110から、以前区間に該当する第2オーディオデータを読み取る。以前区間は、現在区間のすぐ直前区間であり、以前区間の終点は、現在区間の始点と同一でもある。話者特徴ベクトル抽出部123は、メモリ110から、第1オーディオデータも共に読み取ることができる。
In the stage (S460), the
図8Aの例において、話者特徴ベクトル抽出部123は、現在区間のすぐ直前区間である以前区間に対応する第2オーディオデータAD2を、メモリ110から読み取ることができる。図8Bの例において、話者特徴ベクトル抽出部123は、現在区間のすぐ直前区間である以前区間に対応する第2オーディオデータAD2を、メモリ110から読み取ることができる。図8Bの例において、第2オーディオデータAD2は「、四葉の」という音声に対応する。以前区間の長さは、検出された候補キーワードによって可変的にも設定される。
In the example of FIG. 8A, the speaker feature
段階(S470)において、プロセッサ120、例えば、話者特徴ベクトル抽出部123は、第1オーディオデータ及び第2オーディオデータから、第1話者特徴ベクトル及び第2話者特徴ベクトルをそれぞれ抽出する。プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を基に、第1オーディオデータに、ウェークアップキーワードが含まれていたか否かということを判断することができる。ウェークアップ判断部124は、第1オーディオデータにウェークアップキーワードが含まれていると判断する場合、音声制御装置100の一部構成要素をウェークアップさせることができる。
In the stage (S470), the
図8Aの例において、第1オーディオデータAD1に対応する第1話者特徴ベクトルは、「クローバ」という音声を発声した話者を識別するための指標である。第2オーディオデータAD2は、実質的に黙音であるので、第2話者特徴ベクトルは、黙音に対応するベクトルを有することができる。従って、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、低い。 In the example of FIG. 8A, the first speaker feature vector corresponding to the first audio data AD1 is an index for identifying the speaker who utters the voice "clover". Since the second audio data AD2 is substantially silent, the second speaker feature vector can have a vector corresponding to the silent sound. Therefore, the degree of similarity between the first speaker feature vector and the second speaker feature vector is low.
他の例として、以前区間に「クローバ」という音声を発声した話者ではない他者が音声を発声する場合、第2話者特徴ベクトルは、前記他者に対応したベクトルを有するので、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、低い。 As another example, when another person who is not the speaker who uttered the voice "clover" in the previous section utters the voice, the second speaker feature vector has a vector corresponding to the other person, so that the first The similarity between the speaker feature vector and the second speaker feature vector is low.
図8Bの例では、一人が「四葉のクローバーをどうやって見つけられるの」と発声した。従って、「クローバー」に対応する第1オーディオデータAD1から抽出される第1話者特徴ベクトルと、「四葉の」に対応する第2オーディオデータAD2から抽出される第2話者特徴ベクトルは、いずれも実質的に同一である話者を識別するためのベクトルであるので、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、高い。 In the example of FIG. 8B, one person uttered, "How can I find a four-leaf clover?" Therefore, the first speaker feature vector extracted from the first audio data AD1 corresponding to the "clover" and the second speaker feature vector extracted from the second audio data AD2 corresponding to the "four-leaf" will be either. Is a vector for identifying speakers who are substantially the same, so that the degree of similarity between the first speaker feature vector and the second speaker feature vector is high.
段階(S480)において、プロセッサ120、例えば、ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度を既設定基準値と比較する。ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が既設定基準値より高い場合、現在区間の第1オーディオデータの話者と、以前区間の第2オーディオデータの話者とが互いに同一であるということであるので、第1オーディオデータにキーワードが含まれていないと判断し、ウェークアップを進めない。その場合、段階(S410)に進み、プロセッサ120、例えば、オーディオ処理部121は、周辺音に対応するオーディオ信号を受信する。
In the stage (S480), the
図8Bの例において、一人が「四葉のクローバー…」と発声したので、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、高い。図8Bの例において、「四葉のクローバー」と発声した者は、音声制御装置100をウェークアップさせようという意図がないと判断し、ウェークアップ判断部124は、第1オーディオデータAD1にウェークアップキーワードが含まれていないと判断し、音声制御装置100をウェークアップさせない。
In the example of FIG. 8B, since one person uttered "four-leaf clover ...", the degree of similarity between the first speaker feature vector and the second speaker feature vector is high. In the example of FIG. 8B, the person who utters "four-leaf clover" determines that there is no intention to wake up the
ウェークアップ判断部124は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、既設定基準値以下である場合、現在区間の第1オーディオデータの話者と、以前区間の第2オーディオデータの話者とが互いに異なるということであるので、第1オーディオデータにキーワードが含まれていると判断することができる。その場合、ウェークアップ判断部124は、音声制御装置100の一部構成要素をウェークアップさせることができる。例えば、ウェークアップ判断部124は、音声認識部125をウェークアップさせることができる。
When the similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than the set reference value, the wake-up
図8Aの例において、第1話者特徴ベクトルは、「クローバ」と発声した話者に対応するベクトルであり、第2話者特徴ベクトルは、黙音に対応したベクトルであるので、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度は、既設定基準値より低い。その場合、ウェークアップ判断部124は、第1オーディオデータAD1に「クローバ」というウェークアップキーワードが含まれていると判断することができる。その場合、音声認識部125は、自然語音声命令を認識するためにウェークアップされる。
In the example of FIG. 8A, the first speaker feature vector is a vector corresponding to the speaker who utters "clover", and the second speaker feature vector is a vector corresponding to the silent sound. The degree of similarity between the person feature vector and the second speaker feature vector is lower than the set reference value. In that case, the wake-up
段階(S490)において、プロセッサ120、例えば、音声認識部125は、オーディオ処理部121から、現在区間後の次の区間に該当する第3オーディオデータを受信する。次の区間は、現在区間のすぐ次の区間であり、次の区間の始点は、現在区間の終点と同一でもある。
In the stage (S490), the
音声認識部125は、第3オーディオデータにおいて、既設定長の黙音が検出されるとき、次の区間の終点を決定することができる。音声認識部125は、第3オーディオデータを音声認識することができる。音声認識部125は、多様な方式で、第3オーディオデータを音声認識することができる。他の例によれば、音声認識部125は、第3オーディオデータの音声認識結果を得るために、外部装置、例えば、図2に図示される音声認識機能を有するサーバ200に、第3オーディオデータを伝送することができる。サーバ200は、第3オーディオデータを受信し、第3オーディオデータを音声認識することにより、第3オーディオデータに対応する文字列(テキスト)を生成し、生成された文字列(テキスト)を、音声認識結果として、音声認識部125に伝送することができる。
The
図8Aの例において、次の区間の第3オーディオデータは、「明日の天気を教えて」のような自然語音声命令である。音声認識部125は、第3オーディオデータを直接音声認識し、音声認識結果を生成するか、あるいは第3オーディオデータが音声認識されるように、外部(例えば、サーバ200)に伝送することができる。
In the example of FIG. 8A, the third audio data in the next section is a natural language voice command such as "tell me the weather tomorrow". The
段階(S500)において、プロセッサ120、例えば、機能部126は、第3オーディオデータの音声認識結果に対応する機能を遂行することができる。図8Aの例において、機能部126は、明日の天気を検索して結果を提供する音声情報提供部でもあり、機能部126は、インターネットを利用して明日天気を検索し、その結果をユーザに提供することができる。機能部126は、明日の天気の検索結果を、スピーカ152を利用して音声として提供することもできる。機能部126は、第3オーディオデータの音声認識結果に応答し、ウェークアップされる。
In the stage (S500), the
以上で説明した本発明による実施形態は、コンピュータ上で多様な構成要素を介して実行されるコンピュータプログラムの形態に具現化され、かようなコンピュータプログラムは、コンピュータで読み取り可能な媒体に記録される。そのとき、該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一、または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散存在するものでもある。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体;CD-ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体ないし記録媒体も挙げることができる。 The embodiments according to the present invention described above are embodied in the form of a computer program executed on a computer via various components, and such a computer program is recorded on a computer-readable medium. .. At that time, the medium is also a continuous storage of a computer-executable program, or a temporary storage for execution or download. The medium is also a variety of recording or storage means in the form of a single piece or a combination of several pieces of hardware, but is not limited to a medium directly connected to a computer system, and is not limited to a network. It also exists in a distributed manner on top. Examples of such media are magnetic media such as hard disks, floppy discs and magnetic tapes; optical recording media such as CD-ROMs (compact disc read only memory) and DVDs (digital versatile discs); floptical discs. Includes magnetic and optical medium (disk); and ROM (read-only memory), RAM (random access memory), flash memory, etc., and is configured to store program command words. It is also a thing. Further, as an example of other media, a recording medium or a recording medium managed by an app store that distributes applications, a site that supplies or distributes various other software, a server, or the like can be mentioned.
本明細書において、「部」、「モジュール」などは、プロセッサまたは回路のようなハードウェア構成(hardware component)、及び/またはプロセッサのようなハードウェア構成によって実行されるソフトウェア構成(software component)でもある。例えば、「部」、「モジュール」などは、ソフトウェア構成要素、客体志向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数によっても具現化される。 As used herein, a "part", "module", etc. may also be a hardware component such as a processor or circuit, and / or a software component executed by a hardware configuration such as a processor. be. For example, "parts", "modules", etc. are components such as software components, object-oriented software components, class components and task components, processes, functions, attributes, procedures, subroutines, program code segments, etc. It is also embodied by drivers, firmware, microcodes, circuits, data, databases, data structures, tables, arrays and variables.
前述の本発明の説明は、例示のためのものであり、本発明が属する技術分野の当業者であるならば、本発明の技術的思想や必須な特徴を変更せずにも、他の具体的な形態に容易に変形が可能であるということを理解することができるであろう。従って、以上で記述した実施形態は、全ての面において例示的なものであり、限定的ではないと理解しなければならない。例えば、単一型と説明されている各構成要素は、分散されて実施されもし、同様に、分散されていると説明されている構成要素も、結合された形態に実施されてもよい。 The above description of the present invention is for illustration purposes only, and if a person skilled in the art to which the present invention belongs, other specific examples without changing the technical idea or essential features of the present invention. It can be understood that it can be easily transformed into a typical form. Therefore, it should be understood that the embodiments described above are exemplary in all respects and are not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, the components described as distributed may also be implemented in a combined form.
本発明の範囲は、前記詳細な説明よりは、特許請求の範囲によって示され、特許請求の範囲の意味及び範囲、そしてその均等概念から導出される全ての変更、または変形された形態が、本発明の範囲に含まれるものであると解釈されなければならない。 The scope of the present invention is shown by the scope of claims, rather than the above-mentioned detailed description, and the meaning and scope of the claims, and all modifications or variants derived from the concept of equality thereof, are described in the present invention. It must be construed as being included in the scope of the invention.
本発明の、キーワード誤認識を防止する音声制御装置、及びその動作方法は、例えば、音声認識関連の技術分野に効果的に適用可能である。 The voice control device for preventing erroneous keyword recognition and the operation method thereof according to the present invention can be effectively applied to, for example, a technical field related to voice recognition.
(付記1)
周辺音に対応するオーディオ信号を受信し、オーディオストリームデータを生成するオーディオ処理部と、
前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間の始点及び終点を決定するキーワード検出部と、
前記第1オーディオデータに係わる第1話者特徴ベクトルを抽出し、前記オーディオストリームデータにおいて、前記第1区間の始点を終点にする第2区間に該当する第2オーディオデータに係わる第2話者特徴ベクトルを抽出する話者特徴ベクトル抽出部と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記キーワードが含まれていたか否かを判断するウェークアップ判断部と、を含む音声制御装置。
(付記2)
前記ウェークアップ判断部は、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度が、既設定基準値以下である場合、前記第1オーディオデータに、前記キーワードが含まれていると判断することを特徴とする付記1に記載の音声制御装置。
(付記3)
前記所定のキーワードを含む複数のキーワードを保存するキーワード保存所をさらに含み、
前記キーワードそれぞれは、ウェークアップキーワードまたは単独命令キーワードであることを特徴とする付記1に記載の音声制御装置。
(付記4)
前記キーワード検出部により、前記オーディオストリームデータから、前記単独命令キーワードに対応する前記候補キーワードが検出された場合、
前記話者特徴ベクトル抽出部は、前記オーディオストリームデータにおいて、前記第1区間の終点を始点にする第3区間に該当する第3オーディオデータを受信し、前記第3オーディオデータの第3話者特徴ベクトルを抽出し、
前記ウェークアップ判断部は、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度、及び前記第1話者特徴ベクトルと前記第3話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記単独命令キーワードが含まれていたか否かを判断することを特徴とする付記3に記載の音声制御装置。
(付記5)
前記ウェークアップ判断部は、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度が、所定の基準値以下であり、前記第1話者特徴ベクトルと前記第3話者特徴ベクトルとの類似度が、所定の基準値以下である場合、前記第1オーディオデータに、前記単独命令キーワードが含まれていると判断することを特徴とする付記4に記載の音声制御装置。
(付記6)
前記キーワード検出部により、前記オーディオストリームデータから、前記ウェークアップキーワードに対応する前記候補キーワードが検出された場合、
前記第1オーディオデータに前記ウェークアップキーワードが含まれている旨の前記ウェークアップ判断部による判断に応答して、ウェークアップされ、前記オーディオストリームデータにおいて、前記第1区間の終点を始点にする第3区間に該当する第3オーディオデータを受信し、前記第3オーディオデータを音声認識するか、あるいは前記第3オーディオデータが音声認識されるように外部に伝送する音声認識部をさらに含むことを特徴とする付記3に記載の音声制御装置。
(付記7)
前記第2区間は、前記ウェークアップキーワードによって可変的に決定されることを特徴とする付記6に記載の音声制御装置。
(付記8)
前記話者特徴ベクトル抽出部は、
前記第1オーディオデータの各フレームごとに第1フレーム特徴ベクトルを抽出し、抽出された前記第1フレーム特徴ベクトルを正規化及び平均化し、前記第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出し、
前記第2オーディオデータの各フレームごとに第2フレーム特徴ベクトルを抽出し、抽出された前記第2フレーム特徴ベクトルを正規化及び平均化し、前記第2オーディオデータを代表する前記第2話者特徴ベクトルを抽出することを特徴とする付記1に記載の音声制御装置。
(付記9)
前記キーワード検出部は、前記オーディオストリームデータの各フレームごとに、人音声である第1確率と、背景音である第2確率とを計算し、前記第1確率が前記第2確率より、所定の基準値を超えて高いフレームを音声フレームと決定し、
前記話者特徴ベクトル抽出部は、
前記第1オーディオデータ内のフレームにおいて、音声フレームと決定されたフレームそれぞれについて、第1フレーム特徴ベクトルを抽出し、抽出された前記第1フレーム特徴ベクトルを正規化及び平均化し、前記第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出し、
前記第2オーディオデータ内のフレームにおいて、音声フレームと決定されたフレームそれぞれについて、第2フレーム特徴ベクトルを抽出し、抽出された前記第2フレーム特徴ベクトルを正規化及び平均化し、前記第2オーディオデータを代表する前記第2話者特徴ベクトルを抽出することを特徴とする付記1に記載の音声制御装置。
(付記10)
前記話者特徴ベクトル抽出部は、前記キーワード検出部による前記候補キーワードの検出に応答してウェークアップされることを特徴とする付記1に記載の音声制御装置。
(付記11)
周辺音に対応するオーディオ信号を受信し、オーディオストリームデータを生成する段階と、
前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間の始点及び終点を決定する段階と、
前記第1オーディオデータに係わる第1話者特徴ベクトルを抽出する段階と、
前記オーディオストリームデータにおいて、前記第1区間の始点を終点にする第2区間に該当する第2オーディオデータに係わる第2話者特徴ベクトルを抽出する段階と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記キーワードが含まれていたか否かを判断し、ウェークアップさせるか否かを決定する段階と、を含む音声制御装置の動作方法。
(付記12)
前記ウェークアップさせるか否かを決定する段階は、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を所定の基準値と比較する段階と、
前記類似度が、前記所定の基準値以下である場合、前記第1オーディオデータに、前記キーワードが含まれていると判断してウェークアップさせる段階と、
前記類似度が、前記所定の基準値を超える場合、前記第1オーディオデータに、前記キーワードが含まれていないと判断してウェークアップさせない段階と、を含むことを特徴とする付記11に記載の音声制御装置の動作方法。
(付記13)
前記検出された候補キーワードが、単独命令キーワードに対応する前記候補キーワードである場合、
前記オーディオストリームデータにおいて、前記第1区間の終点を始点にする第3区間に該当する第3オーディオデータを受信する段階と、
前記第3オーディオデータの第3話者特徴ベクトルを抽出する段階と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度が、所定の基準値以下であり、前記第1話者特徴ベクトルと前記第3話者特徴ベクトルとの類似度が、所定の基準値以下である場合、前記第1オーディオデータに、前記単独命令キーワードが含まれていると判断する段階と、をさらに含むことを特徴とする付記11に記載の音声制御装置の動作方法。
(付記14)
前記第1オーディオデータに、前記単独命令キーワードが含まれているという判断に応答し、前記単独命令キーワードに対応する機能を遂行する段階をさらに含むことを特徴とする付記13に記載の音声制御装置の動作方法。
(付記15)
前記検出されたキーワードがウェークアップキーワードに対応する前記候補キーワードである場合、
前記第1オーディオデータに、前記ウェークアップキーワードが含まれているという判断に応答して、前記オーディオストリームデータにおいて、前記第1区間の終点を始点にする第3区間に該当する第3オーディオデータを受信する段階と、
前記第3オーディオデータを音声認識するか、あるいは前記第3オーディオデータが音声認識されるように外部に伝送する段階と、をさらに含むことを特徴とする付記11に記載の音声制御装置の動作方法。
(付記16)
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとを抽出する段階は、
前記第1オーディオデータの各フレームごとに第1フレーム特徴ベクトルを抽出する段階と、
抽出された前記第1フレーム特徴ベクトルを正規化及び平均化し、前記第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出する段階と、
前記第2オーディオデータの各フレームごとに第2フレーム特徴ベクトルを抽出する段階と、
抽出された前記第2フレーム特徴ベクトルを正規化及び平均化し、前記第2オーディオデータを代表する前記第2話者特徴ベクトルを抽出する段階と、を含むことを特徴とする付記11に記載の音声制御装置の動作方法。
(付記17)
前記オーディオストリームデータの各フレームごとに、人音声である第1確率と、背景音である第2確率とを計算し、前記第1確率が前記第2確率より、所定の基準値を超えて高いフレームを音声フレームと決定する段階をさらに含み、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとを抽出する段階は、
前記第1オーディオデータ内のフレームにおいて、音声フレームと決定されたフレームそれぞれについて、第1フレーム特徴ベクトルを抽出する段階と、
抽出された前記第1フレーム特徴ベクトルを正規化及び平均化し、前記第1オーディオデータを代表する前記第1話者特徴ベクトルを抽出する段階と、
前記第2オーディオデータ内のフレームにおいて、音声フレームと決定されたフレームそれぞれについて、第2フレーム特徴ベクトルを抽出する段階と、
抽出された前記第2フレーム特徴ベクトルを正規化及び平均化し、前記第2オーディオデータを代表する前記第2話者特徴ベクトルを抽出する段階と、を含むことを特徴とする付記11に記載の音声制御装置の動作方法。
(付記18)
音声制御装置のプロセッサに、付記11ないし17のうちいずれか1項に記載の動作方法を実行させる命令語を含むコンピュータプログラム。
(付記19)
付記18に記載のコンピュータプログラムを記録した記録媒体。
(Appendix 1)
An audio processing unit that receives audio signals corresponding to ambient sounds and generates audio stream data,
Keyword detection that detects a candidate keyword corresponding to a predetermined keyword from the audio stream data and determines the start point and the end point of the first section corresponding to the first audio data in which the candidate keyword is detected in the audio stream data. Department and
The first speaker feature vector related to the first audio data is extracted, and the second speaker feature related to the second audio data corresponding to the second section whose end point is the start point of the first section in the audio stream data. Speaker feature vector extractor that extracts the vector,
A voice including a wake-up determination unit for determining whether or not the keyword is included in the first audio data based on the degree of similarity between the first speaker feature vector and the second speaker feature vector. Control device.
(Appendix 2)
When the similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than the set reference value, the wake-up determination unit includes the keyword in the first audio data. The voice control device according to
(Appendix 3)
Further including a keyword storage for storing a plurality of keywords including the predetermined keyword,
The voice control device according to
(Appendix 4)
When the candidate keyword corresponding to the single command keyword is detected from the audio stream data by the keyword detection unit.
The speaker feature vector extraction unit receives the third audio data corresponding to the third section starting from the end point of the first section in the audio stream data, and the third speaker feature of the third audio data. Extract the vector,
The wake-up determination unit is based on the degree of similarity between the first speaker feature vector and the second speaker feature vector, and the similarity between the first speaker feature vector and the third speaker feature vector. The voice control device according to Appendix 3, wherein it is determined whether or not the single command keyword is included in the first audio data.
(Appendix 5)
In the wake-up determination unit, the similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than a predetermined reference value, and the first speaker feature vector and the third speaker feature vector The voice control device according to Appendix 4, wherein it is determined that the first audio data includes the single command keyword when the degree of similarity with the above is equal to or less than a predetermined reference value.
(Appendix 6)
When the candidate keyword corresponding to the wake-up keyword is detected from the audio stream data by the keyword detection unit,
In response to the determination by the wakeup determination unit that the wakeup keyword is included in the first audio data, the wakeup is performed, and in the audio stream data, in the third section starting from the end point of the first section. Addendum, which further includes a voice recognition unit that receives the corresponding third audio data and recognizes the third audio data by voice, or transmits the third audio data to the outside so that the third audio data is recognized by voice. 3. The voice control device according to 3.
(Appendix 7)
The voice control device according to Appendix 6, wherein the second section is variably determined by the wake-up keyword.
(Appendix 8)
The speaker feature vector extraction unit
The first frame feature vector is extracted for each frame of the first audio data, the extracted first frame feature vector is normalized and averaged, and the first speaker feature vector representing the first audio data is expressed. Extract and
The second frame feature vector is extracted for each frame of the second audio data, the extracted second frame feature vector is normalized and averaged, and the second speaker feature vector representing the second audio data is expressed. The voice control device according to
(Appendix 9)
The keyword detection unit calculates a first probability of human voice and a second probability of background sound for each frame of the audio stream data, and the first probability is predetermined from the second probability. A frame higher than the standard value is determined as an audio frame, and
The speaker feature vector extraction unit
In the frame in the first audio data, the first frame feature vector is extracted for each of the frames determined to be the audio frame, the extracted first frame feature vector is normalized and averaged, and the first audio data is described. The first speaker feature vector representing the above is extracted,
In the frame in the second audio data, the second frame feature vector is extracted for each of the frames determined to be the audio frame, the extracted second frame feature vector is normalized and averaged, and the second audio data is described. The voice control device according to
(Appendix 10)
The voice control device according to
(Appendix 11)
At the stage of receiving the audio signal corresponding to the ambient sound and generating the audio stream data,
A step of detecting a candidate keyword corresponding to a predetermined keyword from the audio stream data and determining a start point and an end point of a first section corresponding to the first audio data in which the candidate keyword is detected in the audio stream data. ,
The stage of extracting the first speaker feature vector related to the first audio data, and
In the audio stream data, a step of extracting a second speaker feature vector related to the second audio data corresponding to the second section whose end point is the start point of the first section, and
Based on the degree of similarity between the first speaker feature vector and the second speaker feature vector, it is determined whether or not the keyword is included in the first audio data, and whether or not to wake up is determined. And how the voice control device operates, including.
(Appendix 12)
The stage of deciding whether or not to wake up is
A step of comparing the degree of similarity between the first speaker feature vector and the second speaker feature vector with a predetermined reference value, and
When the degree of similarity is equal to or less than the predetermined reference value, it is determined that the keyword is included in the first audio data and wakes up.
The voice according to Appendix 11, characterized in that, when the similarity exceeds the predetermined reference value, the first audio data includes a step of determining that the keyword is not included and not wake-up. How to operate the control device.
(Appendix 13)
When the detected candidate keyword is the candidate keyword corresponding to the single instruction keyword,
In the audio stream data, the stage of receiving the third audio data corresponding to the third section starting from the end point of the first section, and
At the stage of extracting the third speaker feature vector of the third audio data,
The degree of similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than a predetermined reference value, and the degree of similarity between the first speaker feature vector and the third speaker feature vector is The method of operating the voice control device according to Appendix 11, wherein when the value is equal to or less than a predetermined reference value, the first audio data further includes a step of determining that the single command keyword is included. ..
(Appendix 14)
The voice control device according to Appendix 13, further comprising a step of performing a function corresponding to the single command keyword in response to a determination that the first audio data includes the single command keyword. How it works.
(Appendix 15)
When the detected keyword is the candidate keyword corresponding to the wake-up keyword,
In response to the determination that the wake-up keyword is included in the first audio data, the audio stream data receives the third audio data corresponding to the third section starting from the end point of the first section. And the stage to do
The method of operating the voice control device according to Appendix 11, further comprising a step of recognizing the third audio data by voice or transmitting the third audio data to the outside so that the third audio data is recognized by voice. ..
(Appendix 16)
The stage of extracting the first speaker feature vector and the second speaker feature vector is
The stage of extracting the first frame feature vector for each frame of the first audio data, and
A step of normalizing and averaging the extracted first frame feature vector and extracting the first speaker feature vector representing the first audio data.
The stage of extracting the second frame feature vector for each frame of the second audio data, and
The voice according to Appendix 11, which comprises a step of normalizing and averaging the extracted second frame feature vector and extracting the second speaker feature vector representing the second audio data. How to operate the control device.
(Appendix 17)
For each frame of the audio stream data, a first probability of human voice and a second probability of background sound are calculated, and the first probability is higher than the second probability by exceeding a predetermined reference value. Including the step of deciding the frame as an audio frame,
The stage of extracting the first speaker feature vector and the second speaker feature vector is
In the frame in the first audio data, the step of extracting the first frame feature vector for each of the frames determined to be the audio frame, and
A step of normalizing and averaging the extracted first frame feature vector and extracting the first speaker feature vector representing the first audio data.
In the frame in the second audio data, the step of extracting the second frame feature vector for each of the frames determined to be the audio frame, and
The voice according to Appendix 11, which comprises a step of normalizing and averaging the extracted second frame feature vector and extracting the second speaker feature vector representing the second audio data. How to operate the control device.
(Appendix 18)
A computer program including a command word that causes a processor of a voice control device to execute the operation method according to any one of Supplementary note 11 to 17.
(Appendix 19)
A recording medium on which the computer program described in Appendix 18 is recorded.
100 音声制御装置(電子機器)
110 メモリ
120 プロセッサ
121 オーディオ処理部
122 キーワード検出部
123 話者特徴ベクトル抽出部
124 ウェークアップ判断部
125 音声認識部
126 機能部
100 Voice control device (electronic device)
110
Claims (9)
前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間を決定するキーワード検出部と、
前記オーディオストリームデータにおいて、前記第1区間の以前区間である第2区間に該当する第2オーディオデータを決定し、前記第1オーディオデータに係わる第1話者特徴ベクトルと、前記第2オーディオデータに係わる第2話者特徴ベクトルとを、抽出する話者特徴ベクトル抽出部と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度に基づいて、前記第1オーディオデータに前記キーワードが含まれていたか否かを判断するウェークアップ判断部と
を含む音声制御装置。 An audio processing unit that receives audio signals corresponding to ambient sounds and generates audio stream data,
A keyword detection unit that detects a candidate keyword corresponding to a predetermined keyword from the audio stream data and determines a first section corresponding to the first audio data in which the candidate keyword is detected in the audio stream data.
In the audio stream data, the second audio data corresponding to the second section, which is the previous section of the first section, is determined, and the first speaker feature vector related to the first audio data and the second audio data are used. A speaker feature vector extraction unit that extracts the related second speaker feature vector,
A voice control device including a wake-up determination unit for determining whether or not the keyword is included in the first audio data based on the degree of similarity between the first speaker feature vector and the second speaker feature vector. ..
前記話者特徴ベクトル抽出部は、前記オーディオストリームデータにおいて、前記第1区間の次の区間である第3区間に該当する第3オーディオデータに係わる第3話者特徴ベクトルを抽出し、
前記ウェークアップ判断部は、前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度、及び前記第1話者特徴ベクトルと前記第3話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記単独命令キーワードが含まれていたか否かを判断することを特徴とする請求項1に記載の音声制御装置。 When the candidate keyword corresponding to the single command keyword is detected from the audio stream data by the keyword detection unit,
The speaker feature vector extraction unit extracts a third speaker feature vector related to the third audio data corresponding to the third section, which is the section next to the first section, from the audio stream data.
The wake-up determination unit is based on the degree of similarity between the first speaker feature vector and the second speaker feature vector, and the similarity between the first speaker feature vector and the third speaker feature vector. The voice control device according to claim 1, wherein it is determined whether or not the single command keyword is included in the first audio data.
前記第1オーディオデータに前記ウェークアップキーワードが含まれている旨の前記ウェークアップ判断部による判断に応答して、ウェークアップされ、前記オーディオストリームデータにおいて、前記第1区間の次の区間である第3区間に該当する第3オーディオデータを音声認識するか、あるいは前記第3オーディオデータが音声認識されるように外部に伝送する音声認識部をさらに含むことを特徴とする請求項1に記載の音声制御装置。 When the candidate keyword corresponding to the wake-up keyword is detected from the audio stream data by the keyword detection unit,
In response to the determination by the wakeup determination unit that the wakeup keyword is included in the first audio data, the wakeup is performed, and in the audio stream data, the third section, which is the next section after the first section, is used. The voice control device according to claim 1, further comprising a voice recognition unit that recognizes the corresponding third audio data by voice or transmits the third audio data to the outside so that the third audio data is recognized by voice.
前記オーディオストリームデータから、所定のキーワードに対応する候補キーワードを検出し、前記オーディオストリームデータにおいて、前記候補キーワードが検出された第1オーディオデータに該当する第1区間を決定する段階と、
前記第1オーディオデータに係わる第1話者特徴ベクトルを抽出する段階と、
前記オーディオストリームデータにおいて、前記第1区間の以前区間である第2区間に該当する第2オーディオデータに係わる第2話者特徴ベクトルを抽出する段階と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度を基に、前記第1オーディオデータに、前記キーワードが含まれていたか否かを判断し、ウェークアップさせるか否かを決定する段階と、を含む音声制御装置の動作方法。 At the stage of receiving the audio signal corresponding to the ambient sound and generating the audio stream data,
A step of detecting a candidate keyword corresponding to a predetermined keyword from the audio stream data and determining a first section corresponding to the first audio data in which the candidate keyword is detected in the audio stream data.
The stage of extracting the first speaker feature vector related to the first audio data, and
In the audio stream data, a step of extracting a second speaker feature vector related to the second audio data corresponding to the second section which is the previous section of the first section, and
Based on the degree of similarity between the first speaker feature vector and the second speaker feature vector, it is determined whether or not the keyword is included in the first audio data, and whether or not to wake up is determined. And how the voice control device operates, including.
前記オーディオストリームデータにおいて、前記第1区間の次の区間である第3区間に該当する第3オーディオデータに係わる第3話者特徴ベクトルを抽出する段階と、
前記第1話者特徴ベクトルと前記第2話者特徴ベクトルとの類似度が、既設定基準値以下であり、前記第1話者特徴ベクトルと前記第3話者特徴ベクトルとの類似度が、既設定基準値以下である場合、前記第1オーディオデータに、前記単独命令キーワードが含まれていると判断する段階と、をさらに含むことを特徴とする請求項6に記載の音声制御装置の動作方法。 When the detected candidate keyword corresponds to a single instruction keyword,
In the audio stream data, a step of extracting a third speaker feature vector related to the third audio data corresponding to the third section, which is the next section of the first section, and
The degree of similarity between the first speaker feature vector and the second speaker feature vector is equal to or less than the set reference value, and the degree of similarity between the first speaker feature vector and the third speaker feature vector is The operation of the voice control device according to claim 6, wherein when the value is equal to or less than the set reference value, the first audio data further includes a step of determining that the single command keyword is included. Method.
前記第1オーディオデータに、前記ウェークアップキーワードが含まれているという判断に応答して、前記オーディオストリームデータにおいて、前記第1区間の次の区間である第3区間に該当する第3オーディオデータを受信する段階と、
前記第3オーディオデータを音声認識するか、あるいは前記第3オーディオデータが音声認識されるように外部に伝送する段階と、をさらに含むことを特徴とする請求項6に記載の音声制御装置の動作方法。 When the detected keyword is the candidate keyword corresponding to the wake-up keyword,
In response to the determination that the wake-up keyword is included in the first audio data, the third audio data corresponding to the third section, which is the next section of the first section, is received in the audio stream data. And the stage to do
The operation of the voice control device according to claim 6, further comprising a step of recognizing the third audio data by voice or transmitting the third audio data to the outside so that the third audio data is recognized by voice. Method.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170062391A KR101986354B1 (en) | 2017-05-19 | 2017-05-19 | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same |
KR10-2017-0062391 | 2017-05-19 | ||
JP2019071410A JP2019133182A (en) | 2017-05-19 | 2019-04-03 | Speech control apparatus, speech control method, computer program, and recording medium |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019071410A Division JP2019133182A (en) | 2017-05-19 | 2019-04-03 | Speech control apparatus, speech control method, computer program, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022033258A true JP2022033258A (en) | 2022-02-28 |
Family
ID=64561798
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018094704A Active JP6510117B2 (en) | 2017-05-19 | 2018-05-16 | Voice control device, operation method of voice control device, computer program and recording medium |
JP2019071410A Pending JP2019133182A (en) | 2017-05-19 | 2019-04-03 | Speech control apparatus, speech control method, computer program, and recording medium |
JP2022000145A Granted JP2022033258A (en) | 2017-05-19 | 2022-01-04 | Speech control apparatus, operation method and computer program |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018094704A Active JP6510117B2 (en) | 2017-05-19 | 2018-05-16 | Voice control device, operation method of voice control device, computer program and recording medium |
JP2019071410A Pending JP2019133182A (en) | 2017-05-19 | 2019-04-03 | Speech control apparatus, speech control method, computer program, and recording medium |
Country Status (2)
Country | Link |
---|---|
JP (3) | JP6510117B2 (en) |
KR (1) | KR101986354B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023166945A1 (en) | 2022-03-04 | 2023-09-07 | キヤノン株式会社 | Medical system |
WO2024228540A1 (en) * | 2023-05-02 | 2024-11-07 | 삼성전자 주식회사 | Electronic device for processing voice signal, operating method thereof, and storage medium |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101986354B1 (en) * | 2017-05-19 | 2019-09-30 | 네이버 주식회사 | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same |
JP7035476B2 (en) * | 2017-11-20 | 2022-03-15 | 富士通株式会社 | Speech processing program, speech processor, and speech processing method |
CN109637531B (en) * | 2018-12-06 | 2020-09-15 | 珠海格力电器股份有限公司 | Voice control method and device, storage medium and air conditioner |
US12254877B2 (en) | 2018-12-11 | 2025-03-18 | Lg Electronics Inc. | Display device |
CN109785836B (en) * | 2019-01-28 | 2021-03-30 | 三星电子(中国)研发中心 | Interaction method and device |
CN109992239A (en) * | 2019-04-15 | 2019-07-09 | 北京百度网讯科技有限公司 | Voice traveling method, device, terminal and storage medium |
KR102225001B1 (en) | 2019-05-21 | 2021-03-08 | 엘지전자 주식회사 | Method and apparatus for recognizing a voice |
KR20220071591A (en) * | 2020-11-24 | 2022-05-31 | 삼성전자주식회사 | Electronice device and control method thereof |
KR20220136750A (en) | 2021-04-01 | 2022-10-11 | 삼성전자주식회사 | Electronic apparatus for processing user utterance and controlling method thereof |
US11557293B2 (en) * | 2021-05-17 | 2023-01-17 | Google Llc | Contextual suppression of assistant command(s) |
CN113450828B (en) * | 2021-06-25 | 2024-07-09 | 平安科技(深圳)有限公司 | Music genre identification method, device, equipment and storage medium |
CN115731926A (en) * | 2021-08-30 | 2023-03-03 | 佛山市顺德区美的电子科技有限公司 | Control method and device of intelligent equipment, intelligent equipment and readable storage medium |
CN114038457B (en) * | 2021-11-04 | 2022-09-13 | 贝壳找房(北京)科技有限公司 | Method, electronic device, storage medium, and program for voice wakeup |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643895A (en) * | 1992-07-22 | 1994-02-18 | Nec Corp | Device for recognizing voice |
JPH11231896A (en) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | Speech startup system |
JP2002156992A (en) * | 2000-11-21 | 2002-05-31 | Sony Corp | Device and method for model adaptation, recording medium, and voice recognition device |
JP2006039382A (en) * | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | Speech recognition device |
JP2018194844A (en) * | 2017-05-19 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | Speech-controlling apparatus, method of operating the same, computer program, and recording medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5549506B2 (en) * | 2010-09-28 | 2014-07-16 | 富士通株式会社 | Speech recognition apparatus and speech recognition method |
KR20140139982A (en) * | 2013-05-28 | 2014-12-08 | 삼성전자주식회사 | Method for executing voice recognition and Electronic device using the same |
-
2017
- 2017-05-19 KR KR1020170062391A patent/KR101986354B1/en active Active
-
2018
- 2018-05-16 JP JP2018094704A patent/JP6510117B2/en active Active
-
2019
- 2019-04-03 JP JP2019071410A patent/JP2019133182A/en active Pending
-
2022
- 2022-01-04 JP JP2022000145A patent/JP2022033258A/en active Granted
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0643895A (en) * | 1992-07-22 | 1994-02-18 | Nec Corp | Device for recognizing voice |
JPH11231896A (en) * | 1998-02-19 | 1999-08-27 | Fujitsu Ten Ltd | Speech startup system |
JP2002156992A (en) * | 2000-11-21 | 2002-05-31 | Sony Corp | Device and method for model adaptation, recording medium, and voice recognition device |
JP2006039382A (en) * | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | Speech recognition device |
JP2018194844A (en) * | 2017-05-19 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | Speech-controlling apparatus, method of operating the same, computer program, and recording medium |
JP6510117B2 (en) * | 2017-05-19 | 2019-05-08 | ネイバー コーポレーションNAVER Corporation | Voice control device, operation method of voice control device, computer program and recording medium |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023166945A1 (en) | 2022-03-04 | 2023-09-07 | キヤノン株式会社 | Medical system |
WO2024228540A1 (en) * | 2023-05-02 | 2024-11-07 | 삼성전자 주식회사 | Electronic device for processing voice signal, operating method thereof, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
KR101986354B1 (en) | 2019-09-30 |
JP2018194844A (en) | 2018-12-06 |
KR20180127065A (en) | 2018-11-28 |
JP6510117B2 (en) | 2019-05-08 |
JP2019133182A (en) | 2019-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6510117B2 (en) | Voice control device, operation method of voice control device, computer program and recording medium | |
US11875820B1 (en) | Context driven device arbitration | |
US10504511B2 (en) | Customizable wake-up voice commands | |
US12125483B1 (en) | Determining device groups | |
US11710478B2 (en) | Pre-wakeword speech processing | |
US12094461B2 (en) | Processing spoken commands to control distributed audio outputs | |
KR102596430B1 (en) | Method and apparatus for speech recognition based on speaker recognition | |
CN108351872B (en) | Method and system for responding to user speech | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
CN111344780A (en) | Context-based device arbitration | |
JP6812843B2 (en) | Computer program for voice recognition, voice recognition device and voice recognition method | |
KR20190096308A (en) | electronic device | |
WO2020202862A1 (en) | Response generation device and response generation method | |
US12308045B2 (en) | Acoustic event detection | |
KR20200007530A (en) | Method for processing user voice input and electronic device supporting the same | |
US11693622B1 (en) | Context configurable keywords | |
US12125489B1 (en) | Speech recognition using multiple voice-enabled devices | |
JP2024510798A (en) | Hybrid multilingual text-dependent and text-independent speaker verification | |
KR102061206B1 (en) | Speech-controlled apparatus for preventing false detections of keyword and method of operating the same | |
US11348579B1 (en) | Volume initiated communications | |
US11328713B1 (en) | On-device contextual understanding | |
KR102836970B1 (en) | Electronic device and Method for controlling the electronic device thereof | |
KR20250096753A (en) | Artificial intelligence device and its operation method | |
KR20180048510A (en) | Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof | |
KR20170055466A (en) | Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20230817 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240305 |