[go: up one dir, main page]

JP7049629B2 - Voice concealment device and voice concealment program - Google Patents

Voice concealment device and voice concealment program Download PDF

Info

Publication number
JP7049629B2
JP7049629B2 JP2018023005A JP2018023005A JP7049629B2 JP 7049629 B2 JP7049629 B2 JP 7049629B2 JP 2018023005 A JP2018023005 A JP 2018023005A JP 2018023005 A JP2018023005 A JP 2018023005A JP 7049629 B2 JP7049629 B2 JP 7049629B2
Authority
JP
Japan
Prior art keywords
voice
information
output
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018023005A
Other languages
Japanese (ja)
Other versions
JP2019139089A (en
Inventor
康孝 浦川
壯 中坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Atr Trek
Original Assignee
Atr Trek
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atr Trek filed Critical Atr Trek
Priority to JP2018023005A priority Critical patent/JP7049629B2/en
Publication of JP2019139089A publication Critical patent/JP2019139089A/en
Application granted granted Critical
Publication of JP7049629B2 publication Critical patent/JP7049629B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、音声秘匿装置および音声秘匿プログラムに関する。 The present invention relates to a voice concealment device and a voice concealment program.

近年、音声認識技術を用いてユーザが発した音声を自動的に解析し、インターネットに接続してユーザが要求する情報を検索および取得するサービスを提供する情報端末装置(例えば、スマートフォン、スマートスピーカ等を含むスマート家電および対話式ロボット等)の普及が進んでいる。このような情報端末装置が存在する家庭内や公共施設、職場等での会話中に発した個人情報(自宅の住所や電話番号等)が、意図せずネットワーク上に流出してしまうおそれが生じている。例えば、情報端末装置のユーザ(例えば、子供やお年寄り等)が個人情報を意識せずに発話する場合や、情報端末装置の存在に気づかない人が発する個人情報を含む音声が情報端末装置に誤って入力される場合等、個人情報が意図せず外部に漏洩してしまうおそれがある。このため、音声認識機能を有する情報端末装置において、個人情報の流出を防止する技術が求められている。例えば、特許文献1には、音声信号中に含まれる個人情報を削除する技術が開示されている。 In recent years, information terminal devices (for example, smartphones, smart speakers, etc.) that automatically analyze voices emitted by users using voice recognition technology and provide services for searching and acquiring information requested by users by connecting to the Internet. Smart home appliances and interactive robots, including) are becoming more widespread. There is a risk that personal information (home address, telephone number, etc.) issued during conversations in homes, public facilities, workplaces, etc. where such information terminal devices exist may be unintentionally leaked onto the network. ing. For example, when a user of an information terminal device (for example, a child or an elderly person) speaks without being aware of personal information, or a voice containing personal information emitted by a person who is unaware of the existence of the information terminal device is transmitted to the information terminal device. Personal information may be unintentionally leaked to the outside, such as when it is entered incorrectly. Therefore, there is a demand for a technique for preventing the leakage of personal information in an information terminal device having a voice recognition function. For example, Patent Document 1 discloses a technique for deleting personal information contained in an audio signal.

特開2010-091761号公報Japanese Unexamined Patent Publication No. 2010-091761

しかしながら、従来の技術は、情報端末装置に入力された音声が、例えば個人情報等のユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができないという問題がある。それにより、入力された音声に個人情報が含まれていることが判明した場合に、その音声がすでにネットワークに流出してしまっている、といった望ましくない事態が生じるおそれがある。
本発明は、このような点に鑑みてなされたものであり、情報端末装置に入力された音声が、ユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができる音声秘匿装置を提供することを目的とする。
However, the conventional technology cannot prevent the outflow of the information at the stage when the voice input to the information terminal device may match the information that the user wants to keep confidential, such as personal information. There is a problem. As a result, when it is found that the input voice contains personal information, there is a possibility that an undesired situation may occur in which the voice has already leaked to the network.
The present invention has been made in view of such a point, and when there is a possibility that the voice input to the information terminal device matches the information desired to be concealed by the user, the leakage of the information occurs. It is an object of the present invention to provide a voice concealment device that can be prevented.

上記目的を達成するために、本発明の一態様に係る音声秘匿装置は、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、を備え、前記判定部は、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との前方一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能であり、前記音声データ秘匿部は、前記判定部により前記記憶音素情報との前方一致の度合いが所定の度合い以上であると判定された前記出力音素情報に対応する音声データの内容を秘匿可能であることを特徴とする。
また、上記目的を達成するために、本発明の他の一態様に係る音声秘匿装置は、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、を備え、前記音声認識部は、前記入力音声を変換した音声データについて音声が存在する音声区間と音声が存在しない無音区間とを判別し、前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと一致するおそれがあると判定されたことに基づいて、該判定後の予め定められた一定期間に前記音声発生源から入力された入力音声に対応する音声データの内容、または該判定後に前記音声発生源から入力された入力音声に対応する音声データのうち所定数の音声区間の音声データの内容を秘匿することを特徴とする。
In order to achieve the above object, the voice concealment device according to one aspect of the present invention has a storage unit capable of storing phonetic sequence information in which a plurality of keywords are converted into voice information, and digitally inputs voice from a voice source. The voice recognition unit that outputs the voice data converted into a signal as output sound element information which is the information recognized at the sound element level by the sequential voice recognition process, and the output sound element information output by the voice recognition unit and the storage unit are stored. A determination unit capable of sequentially determining whether or not the input voice and the keyword may match based on the degree of matching with the stored phonetic information, which is the phonetic sequence information, and the determination unit match the keyword. It is provided with a voice data concealment unit capable of concealing the contents of voice data corresponding to the input voice determined to be likely to occur, and the determination unit includes output phonetic information output by the voice recognition unit and the storage unit. Based on the degree of prefix matching with the stored phonetic information, which is the phonetic sequence information stored in, it is possible to sequentially determine whether or not the input voice and the keyword may match, and the voice data concealment unit. Is characterized in that the content of the voice data corresponding to the output phonetic information determined by the determination unit to have a degree of prefix matching with the stored phonetic information is equal to or higher than a predetermined degree can be concealed .
Further, in order to achieve the above object, the voice concealment device according to another aspect of the present invention has a storage unit capable of storing phonetic sequence information in which a plurality of keywords are converted into voice information, and a voice source. A voice recognition unit that outputs voice data obtained by converting input voice into a digital signal as output voice element information, which is information recognized at the sound element level by sequential voice recognition processing, output sound element information output by the voice recognition unit, and the storage unit. A determination unit capable of sequentially determining whether or not the input voice and the keyword may match based on the degree of matching with the stored phonetic information stored in the determination unit, and the determination unit . The voice recognition unit includes a voice data concealment unit capable of concealing the content of the voice data corresponding to the input voice determined to be likely to match the keyword, and the voice recognition unit converts the input voice into voice data. The voice data concealment unit discriminates between a voice section in which voice exists and a silent section in which voice does not exist, and the voice data concealment unit is based on the determination by the determination unit that the input voice may match the keyword. , The content of the voice data corresponding to the input voice input from the voice source during a predetermined fixed period after the determination, or the voice data corresponding to the input voice input from the voice source after the judgment. It is characterized in that the contents of the audio data of a predetermined number of audio sections are concealed.

また、本発明の一態様に係る音声秘匿プログラムは、所定の情報端末装置を、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部、および前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部として機能させ、前記判定部は、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との前方一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能であり、前記音声データ秘匿部は、前記判定部により前記記憶音素情報との前方一致の度合いが所定の度合い以上であると判定された前記出力音素情報に対応する音声データの内容を秘匿可能であることを特徴とする。 Further, the voice concealment program according to one aspect of the present invention is a storage unit capable of storing a predetermined information terminal device, a storage unit capable of storing phonetic sequence information in which a plurality of keywords are converted into voice information, and digitally input voice from a voice source. The voice recognition unit that outputs the voice data converted into a signal as output voice element information which is the information recognized at the sound element level by the sequential voice recognition process, the output sound element information output by the voice recognition unit, and the storage unit are stored. A determination unit capable of sequentially determining whether or not there is a possibility that the input voice and the keyword match based on the degree of matching with the stored phonetic information which is the sound element sequence information, and the determination unit matches the keyword. The content of the voice data corresponding to the input voice determined to be dangerous is made to function as a voice data concealment unit, and the determination unit stores the output phonetic information output by the voice recognition unit and the storage unit. It is possible to sequentially determine whether or not the input voice and the keyword may match based on the degree of prefix matching with the stored phonetic information which is the phonetic sequence information, and the voice data concealment unit can determine whether or not the input voice and the keyword may match. It is characterized in that the content of the voice data corresponding to the output phonetic information determined by the determination unit to have a degree of prefix matching with the stored phonetic information is equal to or higher than a predetermined degree can be concealed .

本発明の一態様によれば、情報端末装置に入力された音声が個人情報等のユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができる。 According to one aspect of the present invention, it is possible to prevent the leakage of the information at the stage when the voice input to the information terminal device may match the information that the user wants to keep confidential, such as personal information. ..

本発明の第1実施形態の音声秘匿装置を含む音声認識システムの概略構成図である。It is a schematic block diagram of the voice recognition system including the voice concealment device of 1st Embodiment of this invention. 本発明の第1実施形態の音声秘匿処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the voice concealment processing of 1st Embodiment of this invention. 本発明の第1実施形態の秘匿情報判定処理の一例を時系列で説明する図である。It is a figure explaining an example of the confidential information determination processing of 1st Embodiment of this invention in time series. 本発明の第1実施形態の秘匿情報判定処理の他の一例を時系列で説明する図である。It is a figure explaining another example of the confidential information determination processing of 1st Embodiment of this invention in time series. 本発明の第1実施形態の変形例における秘匿情報判定処理の一例を時系列で説明する図である。It is a figure explaining an example of the confidential information determination processing in the modification of 1st Embodiment of this invention in time series. 本発明の第1実施形態の変形例における秘匿情報判定処理の他の一例を時系列で説明する図である。It is a figure explaining another example of the confidential information determination processing in the modification of 1st Embodiment of this invention in time series. 本発明の第2実施形態の音声秘匿装置の概略構成図である。It is a schematic block diagram of the voice concealment apparatus of the 2nd Embodiment of this invention. 本発明の第2実施形態の音声秘匿処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the voice concealment processing of the 2nd Embodiment of this invention.

1.第1実施形態
本発明の第1実施形態に係る音声秘匿装置について、図1から図3を参照して説明する。まず、第1実施形態に係る音声秘匿装置を含む音声認識システムの構成について図1を用いて説明する。
1. 1. First Embodiment The voice concealment device according to the first embodiment of the present invention will be described with reference to FIGS. 1 to 3. First, the configuration of the voice recognition system including the voice concealment device according to the first embodiment will be described with reference to FIG.

(1-1)音声認識サービスシステムの構成
図1は、本実施形態による音声秘匿装置10を含む音声認識サービスシステム9の概略構成を示す図である。音声認識サービスシステム9は、音声秘匿装置10を備える音声処理装置1と、インターネット等のネットワーク3を介して音声処理装置1と接続される音声認識サーバ100と、音声認識サーバ100と接続されるサーバ500とによって構成される。サーバ500は、例えば、検索システム(検索エンジン)を構成するサーバである。音声認識サービスシステム9は、ユーザが音声によって要求する情報の検索、取得等を行うサービスを提供するシステムである。
(1-1) Configuration of Voice Recognition Service System FIG. 1 is a diagram showing a schematic configuration of a voice recognition service system 9 including a voice concealment device 10 according to the present embodiment. The voice recognition service system 9 includes a voice processing device 1 including a voice concealment device 10, a voice recognition server 100 connected to the voice processing device 1 via a network 3 such as the Internet, and a server connected to the voice recognition server 100. Consists of 500. The server 500 is, for example, a server that constitutes a search system (search engine). The voice recognition service system 9 is a system that provides a service for searching and acquiring information requested by a user by voice.

音声認識サーバ100は、ネットワーク3を介して音声処理装置1から送信された音声データ(例えばユーザの発話に基づく音声データ)を受信すると、受信した音声データについて音声認識を行い、この音声認識の結果をサーバ500に送信する。サーバ500は、送信された音声認識結果に基づいて、情報検索等の処理を行ってユーザが要求した情報を取得し、取得した情報(処理結果)をネットワーク3を介して音声処理装置1に返す。これにより、音声処理装置1は、サーバ500から返された情報をユーザに対して出力できる。このようにして、音声認識サービスシステム9は、ユーザからの音声入力に応じたサービス(例えば、情報検索サービス)を提供できる。 When the voice recognition server 100 receives voice data (for example, voice data based on the user's speech) transmitted from the voice processing device 1 via the network 3, the voice recognition server 100 performs voice recognition on the received voice data, and the result of this voice recognition. To the server 500. Based on the transmitted voice recognition result, the server 500 performs processing such as information retrieval to acquire the information requested by the user, and returns the acquired information (processing result) to the voice processing device 1 via the network 3. .. As a result, the voice processing device 1 can output the information returned from the server 500 to the user. In this way, the voice recognition service system 9 can provide a service (for example, an information retrieval service) corresponding to the voice input from the user.

[音声処理装置]
図1に示すように、音声処理装置1は、音声入力装置11と音声秘匿装置10と対話処理装置110とを備えている。音声処理装置1は、例えばスマートフォン、スマートスピーカ、対話式ロボットやスマート家電等の音声認識機能とネットワーク通信機能とを有する装置(例えば、情報端末装置)である。音声処理装置1は、収音装置(マイク等)から入力された音声を音声入力装置11において解析してデジタル音声データに変換し、このデジタル音声データを、音声秘匿装置10を経てネットワーク3に出力する。これにより音声処理装置1は、入力された音声データを、ネットワーク3を介して音声認識サーバ100に送信できる。なお、音声処理装置1は、ネットワーク通信機能を有していなくてもよい。例えば、音声処理装置1は、ネットワークへの接続によらないサービス(例えば、アラーム、対話、メモ機能等)を提供する装置であってもよい。
[Voice processing device]
As shown in FIG. 1, the voice processing device 1 includes a voice input device 11, a voice concealment device 10, and a dialogue processing device 110. The voice processing device 1 is a device (for example, an information terminal device) having a voice recognition function and a network communication function of, for example, a smartphone, a smart speaker, an interactive robot, a smart home appliance, or the like. The voice processing device 1 analyzes the sound input from the sound collecting device (mic or the like) in the voice input device 11 and converts it into digital voice data, and outputs the digital voice data to the network 3 via the voice concealment device 10. do. As a result, the voice processing device 1 can transmit the input voice data to the voice recognition server 100 via the network 3. The voice processing device 1 does not have to have a network communication function. For example, the voice processing device 1 may be a device that provides services that do not depend on connection to a network (for example, alarm, dialogue, memo function, etc.).

音声入力装置11は、所定の音声発生源が発した音声データ(音声信号)を入力可能になっている。ここで、音声入力装置11に入力される音声データ(以降、「入力音声データ」と称する)は、例えば音声処理装置1のユーザの発話した音声(入力音声)が想定される。音声発生源は、音声処理装置1のユーザに限られず、例えば音声を発する装置であってもよい。音声入力装置11は、例えば、マイク等の収音装置(不図示)を備えている。音声入力装置11は、収音装置からアナログ信号として入力された入力音声データ(アナログ音声データ)を規定されたサンプリング周波数でサンプリングしてアナログ-デジタル(A-D)変換を行い、デジタル信号(デジタル音声データ)を生成する。 The voice input device 11 can input voice data (voice signal) generated by a predetermined voice source. Here, the voice data input to the voice input device 11 (hereinafter referred to as "input voice data") is assumed to be, for example, the voice spoken by the user of the voice processing device 1 (input voice). The voice generation source is not limited to the user of the voice processing device 1, and may be, for example, a device that emits voice. The voice input device 11 includes, for example, a sound collecting device (not shown) such as a microphone. The audio input device 11 samples input audio data (analog audio data) input as an analog signal from the sound pickup device at a specified sampling frequency, performs analog-to-digital (AD) conversion, and performs analog-to-digital (AD) conversion, and digital signals (digital). Audio data) is generated.

音声入力装置11は、入力音声データ(アナログ音声データ)から生成したデジタル音声データを、音声秘匿装置10に出力する。具体的には、音声入力装置11は、生成したデジタル音声データをA-D変換時におけるサンプリング単位で音声秘匿装置10に出力する。サンプリング単位のデジタル音声データは、時系列が保持された状態となっている。また、本例において、音声入力装置11は、音声処理装置1を構成する一要素として説明するが、本発明はこれに限られない。音声入力装置11は、音声秘匿装置10の構成要素であってもよい。 The voice input device 11 outputs digital voice data generated from the input voice data (analog voice data) to the voice concealment device 10. Specifically, the voice input device 11 outputs the generated digital voice data to the voice concealment device 10 in sampling units at the time of AD conversion. The digital audio data in the sampling unit is in a state where the time series is retained. Further, in this example, the voice input device 11 will be described as one element constituting the voice processing device 1, but the present invention is not limited to this. The voice input device 11 may be a component of the voice concealment device 10.

[音声秘匿装置]
本実施形態による音声秘匿装置10は、音声処理装置1に入力された音声(入力音声データ)のうち音声処理装置1のユーザが秘匿を所望する情報(以降、「秘匿情報」と称する場合がある)が含まれるおそれがある入力音声データを秘匿する。ここで、入力音声データの秘匿とは、音声処理装置1から秘匿情報を含むおそれのある音声データの出力を停止することをいう。これにより、音声秘匿装置10は、音声処理装置1からネットワーク3を介して秘匿情報が流出することを防止できる。本例において、秘匿情報として想定される情報は、例えば個人情報である。ここで、個人情報とは、個人を特定可能な情報(住所、電話番号、誕生日、種々のパスワード等)や、金融資産に関する情報(クレジットカードやキャッシュカードの識別番号、銀行口座番号)等が挙げられる。なお、本発明の音声秘匿装置10によって流出を防止する対象の秘匿情報は、ここで列挙した個人情報に限られない。音声秘匿装置10は、音声処理装置1のユーザが秘匿情報として予め登録した任意の情報の流出を防止できる。
[Voice concealment device]
The voice concealment device 10 according to the present embodiment may refer to information (hereinafter, "confidential information") that the user of the voice processing device 1 desires to conceal among the voice (input voice data) input to the voice processing device 1. ) May be included Conceal input audio data. Here, concealment of input voice data means to stop the output of voice data that may contain confidential information from the voice processing device 1. As a result, the voice concealment device 10 can prevent the concealment information from leaking from the voice processing device 1 via the network 3. In this example, the information assumed as confidential information is, for example, personal information. Here, personal information includes information that can identify an individual (address, telephone number, birthday, various passwords, etc.) and information on financial assets (credit card or cash card identification number, bank account number, etc.). Can be mentioned. The confidential information to be prevented from being leaked by the voice concealment device 10 of the present invention is not limited to the personal information listed here. The voice concealment device 10 can prevent the leakage of arbitrary information registered in advance by the user of the voice processing device 1 as concealment information.

以下、図1を参照して、音声秘匿装置10について詳細に説明する。
音声秘匿装置10は、音声認識部12と、判定部13と、記憶部14と、音声データ秘匿部15とを有している。音声処理装置1の音声入力装置11において入力音声データから生成されたデジタル音声データは、音声秘匿装置10の音声認識部12に入力されるとともに、音声データ秘匿部15にも入力される。
Hereinafter, the voice concealment device 10 will be described in detail with reference to FIG.
The voice concealment device 10 includes a voice recognition unit 12, a determination unit 13, a storage unit 14, and a voice data concealment unit 15. The digital voice data generated from the input voice data in the voice input device 11 of the voice processing device 1 is input to the voice recognition unit 12 of the voice concealment device 10 and also input to the voice data concealment unit 15.

音声認識部12は、音声入力装置11がデジタル音声データをサンプリング出力するごとに、リアルタイムで(逐次的に時系列で)音声認識を行う。以降、このリアルタイムで行う音声認識処理を「逐次音声認識処理」と称する場合がある。音声認識部12は、逐次音声認識処理を実行するエンジン部120と、エンジン部120が音声認識に用いるモデル121とを有している。エンジン部120は、デジタル音声データを音素レベルで認識する。ここで、音素は、言語の発音を構成する最小の単位であり、例えば、日本語の発音における拍(モーラ)を構成する音の単位の最小値である。音声認識部12は、日本語に限らず種々の言語の音声に基づくデジタル音声データを音素レベルで認識することができる。 The voice recognition unit 12 performs voice recognition in real time (sequentially in chronological order) each time the voice input device 11 samples and outputs digital voice data. Hereinafter, this voice recognition process performed in real time may be referred to as "sequential voice recognition process". The voice recognition unit 12 has an engine unit 120 that executes sequential voice recognition processing, and a model 121 that the engine unit 120 uses for voice recognition. The engine unit 120 recognizes digital voice data at the phoneme level. Here, a phoneme is the minimum unit that constitutes the pronunciation of a language, and is, for example, the minimum value of the unit of sound that constitutes a beat (mora) in the pronunciation of Japanese. The voice recognition unit 12 can recognize digital voice data based on voices of various languages, not limited to Japanese, at the phoneme level.

判定部13は、音素レベルで認識されたデジタル音声データである音素情報(以下、「出力音素」と称する場合がある)を用いて、音声入力装置11に入力された入力音声データ(主にユーザの発話音声)に、秘匿情報が含まれているおそれがあるか否かを判定する(秘匿情報判定処理)。本実施形態による音声秘匿装置10において、判定部13による判定処理に用いる秘匿情報は、メモリ等の所定の記憶領域である記憶部14に記憶された秘匿情報リスト141内に蓄積されている。 The determination unit 13 uses input voice data (mainly a user) input to the voice input device 11 using phoneme information (hereinafter, may be referred to as “output phoneme”) which is digital voice data recognized at the phoneme level. (Spoken voice) determines whether or not there is a possibility that confidential information is included (confidential information determination processing). In the voice concealment device 10 according to the present embodiment, the concealed information used for the determination process by the determination unit 13 is stored in the concealment information list 141 stored in the storage unit 14 which is a predetermined storage area such as a memory.

秘匿情報リスト141は、例えばテーブル形式で複数の秘匿情報(例えば、個人情報)を蓄積している。秘匿情報リスト141に蓄積されている秘匿情報は、音声処理装置1のユーザが音声処理装置1と接続された所定の情報端末装置(スマートフォン、パーソナルコンピュータ等)を用いて予め登録した情報である。情報端末装置は、ユーザによって例えばテキスト入力された秘匿情報リスト141に登録するための情報(以降、「キーワード」と称する場合がある)を音声処理装置1に送信する。 The confidential information list 141 stores a plurality of confidential information (for example, personal information) in a table format, for example. The confidential information stored in the confidential information list 141 is information registered in advance by the user of the voice processing device 1 using a predetermined information terminal device (smartphone, personal computer, etc.) connected to the voice processing device 1. The information terminal device transmits information (hereinafter, may be referred to as a "keyword") for registering in the confidential information list 141, for example, text-input by the user, to the voice processing device 1.

キーワードは、ユーザが秘匿を所望する秘匿情報であって、例えば個人情報等が含まれる。音声秘匿装置10は、受信したキーワードを音情報である音素系列情報に変換して個人情報リストに141に蓄積する。音声処理装置1のユーザは、音声処理装置1から音声認識サーバ100へ出力されることが望ましくないと考える秘匿情報を任意に秘匿情報リストに登録することができる。これにより、本実施形態による音声秘匿装置10は、当該情報が音声処理装置1からネットワークを介して流出することを防止できる。なお、キーワードは、ユーザが秘匿を意図して秘匿情報リスト141に登録する秘匿情報であり、上述したように個人情報に該当しない内容であってもよい。例えば、秘匿情報として、子どもが音声処理装置1を用いた情報検索により取得・利用すると好ましくない、または危険があると考えられる情報に関連する用語等を、保護者が秘匿情報リスト141に登録することができる。これにより、音声秘匿装置10は、音声処理装置1を用いて、子どもが不用意に危険な情報を取得することを防止できる。 The keyword is confidential information that the user wants to keep confidential, and includes, for example, personal information. The voice concealment device 10 converts the received keyword into phoneme sequence information which is sound information and stores it in the personal information list 141. The user of the voice processing device 1 can arbitrarily register the secret information that is considered to be undesired to be output from the voice processing device 1 to the voice recognition server 100 in the secret information list. As a result, the voice concealment device 10 according to the present embodiment can prevent the information from leaking from the voice processing device 1 via the network. The keyword is confidential information that the user intentionally registers in the confidential information list 141, and may not correspond to personal information as described above. For example, as confidential information, a guardian registers in the confidential information list 141 terms related to information that is considered to be unfavorable or dangerous for children to acquire and use by information retrieval using the voice processing device 1. be able to. As a result, the voice concealment device 10 can prevent the child from inadvertently acquiring dangerous information by using the voice processing device 1.

図1には、音声処理装置1の右隣りに秘匿情報リスト141に蓄積された秘匿個人情報の一例として個人情報の一種である電話番号「09012345678」が図示されている。なお、図1では、理解を容易にするため、音素系列情報として蓄積されている秘匿情報(キーワード)が音素表記ではなく文字列で図示されている。なお、電話番号は、「-(ハイフン)」区切りで入力される場合や、図1に示すようにハイフンを省略して入力される場合がある。また、住所も「-(ハイフン)」区切りで入力される場合があり、さらに「一丁目・・」のように入力される場合もある。さらに、電話番号や住所を発話する場合、種々の発話パターンが想定される。例えば、電話番号を「090の・・」のようにハイフンにあたる箇所に「の」を入れて発話するパターンや、住所における番地を「1の2の・・」のように発話するパターン、「1丁目・・」のように発話するパターン等があるまた、例えば数字「0」は、「ゼロ」や「レイ」等複数の発話パターンが想定される。このため、音声秘匿装置10は、例えば、キーワードにおける電話番号や住所の区切り(ハイフンやスペース)、数字等に相当する部分を、予め複数の想定される発話のパターンに自動的に拡張して音素系列情報に変換し、秘匿情報リスト141に登録する。 FIG. 1 shows a telephone number "09012345678" which is a kind of personal information as an example of confidential personal information stored in the confidential information list 141 on the right side of the voice processing device 1. In addition, in FIG. 1, in order to facilitate understanding, the confidential information (keyword) stored as the phoneme sequence information is shown as a character string instead of the phoneme notation. In addition, the telephone number may be input by separating with "-(hyphen)", or may be input by omitting the hyphen as shown in FIG. In addition, the address may be entered separated by "-(hyphen)", and may be entered as "1-chome ...". Furthermore, when speaking a telephone number or address, various utterance patterns are assumed. For example, a pattern in which a telephone number is spoken by inserting a "no" in the hyphenated part such as "090 ...", or a pattern in which an address in an address is spoken as "1 of 2 ...", "1" There are patterns of utterances such as "chome ...". For example, the number "0" is assumed to have multiple utterance patterns such as "zero" and "ray". For this reason, the voice concealment device 10 automatically expands, for example, a part corresponding to a telephone number, an address delimiter (hyphen or space), a number, or the like in a keyword into a plurality of assumed speech patterns in advance, and is a phoneme. It is converted into series information and registered in the confidential information list 141.

判定部13は、音声認識部12から出力音素情報が出力される度に、逐次、秘匿情報判定処理を実行し、出力音素が秘匿情報リスト141に蓄積された秘匿情報(キーワード)を示す音素系列(以下、「秘匿情報音素系列」と称する場合がある)との「一致の度合い」に基づいて、入力音声に個人情報等の秘匿情報が含まれるおそれがあるか否かを示す秘匿情報判定結果を導出する。ここで、一致の度合いは、秘匿情報音素系列を構成する個々の音素についての一致の度合い(数値)をもとに算出され、例えば、算出された一致の度合いが所定の度合い(閾値)以上である場合に、一致するおそれがある(秘匿情報が含まれるおそれがある)と判定する。また、出力音素が秘匿情報音素系列のうちのどの部分と一致するかという観点から、「完全一致」(全ての部分との一致)、「前方一致」(前方部分との一致)、「中間一致」(中間部分との一致)等、様々な方法で一致の度合いを算出することが可能であるが、以下では、「前方一致」に基づき秘匿情報判定結果を導出する場合について説明する。判定部13は、複数の秘匿情報が秘匿情報リスト141に蓄積されている場合には、複数の秘匿情報それぞれについて、秘匿情報判定結果を導出する。判定部13は、導出した秘匿情報判定結果を音声データ秘匿部15に出力する。また、判定部13は、連続した入力音声に対応する出力音素の結合(結合出力音素系列)が秘匿情報音素系列と完全一致するか否かの完全一致判定結果も合わせて導出する。この完全一致判定結果は、上述の秘匿情報判定結果の一部として出力制御部150に送信される。完全一致判定結果を導出する完全一致判定処理については後述する。 The determination unit 13 sequentially executes the confidential information determination process each time the output phoneme information is output from the voice recognition unit 12, and the output phoneme is a phoneme sequence indicating the confidential information (keyword) accumulated in the confidential information list 141. Confidential information judgment result indicating whether or not there is a possibility that confidential information such as personal information may be included in the input voice based on the "degree of matching" with (hereinafter, may be referred to as "confidential information phoneme series"). Is derived. Here, the degree of matching is calculated based on the degree of matching (numerical value) for each phoneme constituting the confidential information phoneme sequence, and for example, when the calculated degree of matching is equal to or higher than a predetermined degree (threshold value). In some cases, it is determined that there is a possibility of matching (confidential information may be included). Also, from the viewpoint of which part of the confidential information phoneme sequence the output phoneme matches, "exact match" (match with all parts), "prefix match" (match with the front part), and "intermediate match". (Matching with the intermediate part), etc., the degree of matching can be calculated by various methods, but the case where the confidential information determination result is derived based on the "prefix matching" will be described below. When a plurality of confidential information is stored in the confidential information list 141, the determination unit 13 derives the confidential information determination result for each of the plurality of confidential information. The determination unit 13 outputs the derived confidential information determination result to the voice data confidential unit 15. In addition, the determination unit 13 also derives a perfect match determination result as to whether or not the combination of output phonemes corresponding to the continuous input voice (combined output phoneme sequence) completely matches the secret information phoneme sequence. The exact match determination result is transmitted to the output control unit 150 as a part of the above-mentioned confidential information determination result. The exact match determination process for deriving the exact match determination result will be described later.

音声データ秘匿部15は、秘匿情報に該当するおそれがある内容を含むデジタル音声データを秘匿する音声秘匿処理を実行する。図1に示すように、音声データ秘匿部15は、出力制御部150とバッファ151とを有している。バッファ151は、音声入力装置11から出力されたデジタル音声データを一時的に蓄積可能である。また、出力制御部150は、判定部13が導出した秘匿情報判定結果に基づいてデジタル音声データの出力可否を決定することで、バッファ151に蓄積されているデジタル音声データのバッファ出力を制御する。本例において、バッファ151におけるデジタル音声データの入出力は先入れ先出し(FIFO)方式で行われる。出力制御部150によるバッファ出力の制御の詳細は後述する。 The voice data concealment unit 15 executes a voice concealment process for concealing digital audio data including contents that may correspond to confidential information. As shown in FIG. 1, the voice data concealment unit 15 has an output control unit 150 and a buffer 151. The buffer 151 can temporarily store the digital voice data output from the voice input device 11. Further, the output control unit 150 controls the buffer output of the digital audio data stored in the buffer 151 by determining whether or not the digital audio data can be output based on the confidential information determination result derived by the determination unit 13. In this example, the input / output of digital audio data in the buffer 151 is performed by a first-in first-out (FIFO) method. Details of the buffer output control by the output control unit 150 will be described later.

[対話処理装置]
対話処理装置110は、ネットワーク3から返されたサーバ500における処理結果を、テキストデータや音声等ユーザに理解できる形式で逐次に出力する。これにより、例えばサーバ500における処理結果(例えば、情報検索結果)が音声処理装置1のユーザに提供される。なお、対話処理装置110は、図1では音声処理装置1に含まれているものとしているが、音声処理装置1とは別個に存在してもよい。
[Dialogue processing device]
The dialogue processing device 110 sequentially outputs the processing results of the server 500 returned from the network 3 in a format that can be understood by the user, such as text data and voice. As a result, for example, the processing result in the server 500 (for example, the information retrieval result) is provided to the user of the voice processing device 1. Although the dialogue processing device 110 is included in the voice processing device 1 in FIG. 1, it may exist separately from the voice processing device 1.

(1-2)音声認識部における音声認識の概要
ここで、音声認識部12のエンジン部120が実行する音声認識(逐次音声認識処理)について説明する。なお、エンジン部120による音声認識の技術は一般的に用いられているものであるため、本明細書では、その概略のみ説明する。
(1-2) Outline of voice recognition in the voice recognition unit Here, the voice recognition (sequential voice recognition processing) executed by the engine unit 120 of the voice recognition unit 12 will be described. Since the technique of voice recognition by the engine unit 120 is generally used, only the outline thereof will be described in this specification.

音声入力装置11が生成するデジタル音声データには、ユーザが発話した音声だけでなく、音声処理装置1の周囲の環境音も含まれている。そこで、まず音声認識部12のエンジン部120は、音声と環境音とが含まれるデジタル信号(デジタル音声データ)から音声が存在する区間と音声が存在しない区間を判別する音声区間検出(Voice Activity Detection: VAD)を行う(音声区間検出処理)。 The digital voice data generated by the voice input device 11 includes not only the voice spoken by the user but also the environmental sound around the voice processing device 1. Therefore, first, the engine unit 120 of the voice recognition unit 12 determines a section in which voice exists and a section in which voice does not exist from a digital signal (digital voice data) including voice and environmental sound (Voice Activity Detection). : VAD) is performed (voice section detection processing).

音声区間検出処理に次いで、エンジン部120は、音声区間におけるデジタル音声データから特徴量を時系列で抽出する(音響特徴抽出処理)。エンジン部120は、音声区間検出処理において検出された音声区間の音声スペクトルに対してフーリエ変換等の時間周波数変換処理を行い、音響特徴ベクトルを抽出する。エンジン部120は、音声区間を所定の時間間隔(例えば、10ミリ秒程度)に区分し、この時間間隔ごとに音響特徴抽出処理を行う。 Following the voice section detection process, the engine unit 120 extracts the feature amount from the digital voice data in the voice section in time series (acoustic feature extraction process). The engine unit 120 performs time-frequency conversion processing such as Fourier transform on the voice spectrum of the voice section detected in the voice section detection process, and extracts an acoustic feature vector. The engine unit 120 divides the voice section into predetermined time intervals (for example, about 10 milliseconds), and performs acoustic feature extraction processing at each time interval.

次いで、エンジン部120は、モデル121と音響特徴抽出処理において抽出した音声情報の特徴量(音響特徴ベクトル)とに基づいて、デジタル音声データの連続音素認識を行い、音素レベルの認識を行う(音素認識処理)。本例において、モデル121は、例えば隠れマルコフモデル(HMM)を適用した音素モデルである。エンジン部120は、音素認識処理において、仮説探索法によりモデル121を用いて、音声入力装置11から入力されるデジタル音声データと音素との照合を行い、照合した音素(出力音素)を判定部13に出力する。 Next, the engine unit 120 performs continuous phoneme recognition of digital voice data based on the model 121 and the feature amount (phoneme feature vector) of the voice information extracted in the sound feature extraction process, and recognizes the phoneme level (phoneme level). Recognition process). In this example, the model 121 is a phoneme model to which, for example, a hidden Markov model (HMM) is applied. In the phoneme recognition process, the engine unit 120 collates the digital voice data input from the voice input device 11 with the phoneme using the model 121 by the hypothesis search method, and determines the collated phoneme (output phoneme). Output to.

このように、本実施形態による音声秘匿装置10において、ユーザの発話に基づく入力音声が音声入力装置11に入力され、音声入力装置11が入力音声データ(アナログ信号)をデジタル音声データ(デジタル信号)に変換して音声認識部12に出力すると、エンジン部120がデジタル音声データに対し逐次に音声区間検出処理、音響特徴抽出処理および音素認識処理を行う(逐次音声認識処理を行う)。こうして、音声入力装置11から入力されたデジタル音声データ(音声データの一例)は、音声認識部12において音素レベルで認識されて、判定部13に出力される。 As described above, in the voice concealment device 10 according to the present embodiment, the input voice based on the user's speech is input to the voice input device 11, and the voice input device 11 converts the input voice data (analog signal) into digital voice data (digital signal). When the data is converted to In this way, the digital voice data (an example of voice data) input from the voice input device 11 is recognized by the voice recognition unit 12 at the phoneme level and output to the determination unit 13.

(1-3)音声秘匿処理
次に、図1を参照しつつ図2を用いて、音声データ秘匿部15における音声秘匿処理の流れの一例を説明する。図2は、音声秘匿処理の流れを説明するフローチャートである。音声秘匿処理は、出力制御部150によるバッファ出力の制御により、音声処理装置1から個人情報等の秘匿情報を含む音声データの出力を停止する処理である。本実施形態において音声秘匿処理は、秘匿情報判定処理結果が判定部13から音声データ秘匿部15に入力されたことに基づいて実行される。すなわち、音声秘匿処理は、音声処理装置1に入力音声データが入力されてサンプリング単位で音声認識部12に出力され、判定部13において秘匿情報判定処理が実行される度に繰り返し実行される。
(1-3) Voice concealment processing Next, an example of the flow of voice concealment processing in the voice data concealment unit 15 will be described with reference to FIG. 1 and FIG. FIG. 2 is a flowchart illustrating a flow of voice concealment processing. The voice concealment process is a process of stopping the output of voice data including confidential information such as personal information from the voice processing device 1 by controlling the buffer output by the output control unit 150. In the present embodiment, the voice concealment processing is executed based on the fact that the concealment information determination processing result is input from the determination unit 13 to the voice data concealment unit 15. That is, the voice concealment processing is repeatedly executed every time the input voice data is input to the voice processing device 1 and output to the voice recognition unit 12 in sampling units, and the concealment information determination processing is executed in the determination unit 13.

(ステップS21)
ステップS21において、出力制御部150は、判定部13から秘匿情報判定結果を受信し、ステップS22の処理に移る。
(Step S21)
In step S21, the output control unit 150 receives the confidential information determination result from the determination unit 13, and proceeds to the process of step S22.

(ステップS22)
ステップS22において出力制御部150は、判定部13から受信した秘匿情報判定信号に基づいて秘匿情報判定結果を確認し、バッファ151からデジタル音声データを出力すること(バッファ出力)が可能か否かを判定する。秘匿情報判定信号は、現在処理対象となっているデジタル音声データに対応する出力音素が秘匿情報音素系列と前方一致しているか否かを示す信号であって、判定部13において生成され音声データ秘匿部15に出力される。出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信した場合に、バッファ出力が不可能であると判定してステップS23の処理に移る。
(Step S22)
In step S22, the output control unit 150 confirms the confidential information determination result based on the confidential information determination signal received from the determination unit 13, and determines whether or not it is possible to output digital voice data from the buffer 151 (buffer output). judge. The confidential information determination signal is a signal indicating whether or not the output phoneme corresponding to the digital audio data currently being processed has a prefix match with the confidential information phoneme sequence, and is generated by the determination unit 13 to conceal the audio data. It is output to unit 15. When the output control unit 150 receives the secret information determination signal indicating that the output phoneme is prefix-matched with the secret information phoneme sequence, the output control unit 150 determines that buffer output is impossible and proceeds to the process of step S23.

処理対象のデジタル音声データは、音声秘匿処理の実行時においてバッファ151に蓄積されているデジタル音声データである。上述のように、音声入力装置11は、入力音声データのA-D変換時におけるサンプリング単位でデジタル音声データを音声認識部12とバッファ151とに同時に出力する。また、出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信したことに基づいて、判定部13が秘匿情報判定処理により、入力音声に秘匿情報が含まれているおそれがあると判定したと認識する。 The digital voice data to be processed is the digital voice data stored in the buffer 151 at the time of executing the voice concealment processing. As described above, the voice input device 11 simultaneously outputs digital voice data to the voice recognition unit 12 and the buffer 151 in the sampling unit at the time of AD conversion of the input voice data. Further, the output control unit 150 conceals the input voice by the concealment information determination process based on the reception of the concealment information determination signal indicating that the output phoneme coincides with the concealment information phoneme sequence. Recognize that it is determined that information may be included.

一方、出力制御部150は、出力音素が秘匿情報音素系列と前方一致していないことを示す秘匿情報判定信号を受信した場合に、バッファ出力が可能であると判定してステップS26の処理に移る。出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信したことに基づいて、判定部13が秘匿情報判定処理により、入力音声に秘匿情報が含まれているおそれがないと判定したと認識する。 On the other hand, when the output control unit 150 receives a secret information determination signal indicating that the output phoneme does not match the secret information phoneme sequence in the front, the output control unit 150 determines that buffer output is possible and proceeds to the process of step S26. .. Based on the fact that the output control unit 150 receives the secret information determination signal indicating that the output phoneme is prefix-matched with the secret information phoneme sequence, the determination unit 13 performs the secret information determination process to display the secret information in the input voice. It is recognized that it is judged that there is no possibility that it is included.

(ステップS23)
ステップS23において、出力制御部150は、現時点でバッファ151に蓄積されているデジタル音声データの出力を停止し、ステップS24の処理に移る。
(Step S23)
In step S23, the output control unit 150 stops the output of the digital audio data currently stored in the buffer 151, and proceeds to the process of step S24.

(ステップS24)
ステップS24において、出力制御部150は、判定部13から受信した完全一致判定信号に基づいて、入力音声中に予めユーザが登録した個人情報等のキーワード(秘匿情報)のいずれかと完全一致する内容が含まれていると判定されたか否か、すなわち連続した入力音声データに対応する結合出力音素系列が秘匿情報音素系列のいずれかと完全一致していると判定されたかを確認する。完全一致判定信号は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれかと完全一致しているか否かを示す信号であって、判定部13において生成され音声データ秘匿部15に出力される。出力制御部150は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれかと完全一致していることを示す完全一致判定信号を受信した場合に、入力音声中に個人情報等のキーワードと完全一致する内容が含まれていると判定してステップS25の処理に移る。一方、出力制御部150は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれとも完全一致していないことを示す完全一致判定信号を受信した場合に、入力音声中に個人情報等のキーワードと完全一致する内容が含まれていないと判定して音声秘匿処理を終了する。
(Step S24)
In step S24, the output control unit 150 has a content that completely matches any of the keywords (confidential information) such as personal information registered in advance by the user in the input voice based on the perfect match determination signal received from the determination unit 13. It is confirmed whether or not it is determined to be included, that is, whether or not it is determined that the combined output phoneme sequence corresponding to the continuous input voice data completely matches any of the secret information phoneme sequences. The perfect match determination signal is a signal indicating whether or not the combined output phoneme sequence completely matches any of the secret information phoneme sequences registered in the secret information list 141, and is a signal generated by the determination unit 13 and is a voice data concealment unit. It is output to 15. When the output control unit 150 receives a perfect match determination signal indicating that the combined output phoneme sequence completely matches any of the secret information phoneme sequences registered in the secret information list 141, the output control unit 150 receives personal information in the input voice. It is determined that the content that completely matches the keyword such as is included, and the process proceeds to step S25. On the other hand, when the output control unit 150 receives an exact match determination signal indicating that the combined output phoneme sequence does not completely match any of the secret information phoneme sequences registered in the secret information list 141, the output control unit 150 receives an exact match determination signal in the input voice. It is determined that the content that completely matches the keyword such as personal information is not included, and the voice concealment process is terminated.

(ステップS25)
ステップS25において、出力制御部150は、入力音声中に個人情報等のキーワード(秘匿情報)と完全一致する内容が含まれていることを示す完全一致判定信号を受信したことに基づいて、現時点でバッファ151に蓄積されているデジタル信号データを削除してバッファ151内をクリアし、音声秘匿処理を終了する。本実施形態による音声秘匿装置10は、個人情報を含むキーワードと完全一致する内容のデジタル信号データがバッファ151から削除されることにより、例えば個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。
(Step S25)
At present, in step S25, the output control unit 150 receives an exact match determination signal indicating that the input voice contains a content that completely matches a keyword (confidential information) such as personal information. The digital signal data stored in the buffer 151 is deleted, the inside of the buffer 151 is cleared, and the voice concealment process is completed. In the voice concealment device 10 according to the present embodiment, digital signal data having a content that completely matches a keyword including personal information is deleted from the buffer 151, so that information (confidential information) that the user desires to conceal, such as personal information, is deleted. Can be reliably prevented from flowing out.

(ステップS26)
ステップS26において、出力制御部150は、判定部13において秘匿情報リスト141に登録された秘匿情報と前方一致しないと判定されたデジタル音声データをバッファ151から出力する。これにより、音声秘匿装置10は、秘匿情報に該当するおそれのないデジタル音声データを即時に出力してネットワーク3を介して音声認識サーバ100に送信することができる。
(Step S26)
In step S26, the output control unit 150 outputs the digital voice data determined by the determination unit 13 that does not match the confidential information registered in the confidential information list 141 from the buffer 151. As a result, the voice concealment device 10 can immediately output digital voice data that does not correspond to the concealment information and transmit it to the voice recognition server 100 via the network 3.

このように、本実施形態による音声秘匿装置10において、音声データ秘匿部15の出力制御部(バッファ出力制御部の一例)150は、判定部13によって秘匿情報音素系列と前方一致していると判定された出力音素に対応するデジタル音声データ、すなわち、個人情報等のキーワードと一致するおそれがあると判定された入力音声データと対応するデジタル音声データをバッファ151から出力しない。これにより、本実施形態による音声秘匿装置10は、音声処理装置1のユーザが登録した秘匿情報(例えば個人情報等を含むキーワード)がネットワーク3を介して音声認識サーバ100へ送信されるのを防止することができる。 As described above, in the voice concealment device 10 according to the present embodiment, the output control unit (an example of the buffer output control unit) 150 of the voice data concealment unit 15 is determined by the determination unit 13 to be forward-matched with the concealment information phone series. The digital voice data corresponding to the output sound element, that is, the digital voice data corresponding to the input voice data determined to match the keyword such as personal information is not output from the buffer 151. As a result, the voice concealment device 10 according to the present embodiment prevents the concealment information (for example, a keyword including personal information and the like) registered by the user of the voice processing device 1 from being transmitted to the voice recognition server 100 via the network 3. can do.

音声秘匿装置10を備える音声処理装置1は、入力音声データに対して、音声データ秘匿部15における音声秘匿処理を必ず行い、個人情報等のキーワードに一致(前方一致)するおそれがないと判定されたデジタル音声データを出力する。したがって、音声処理装置1から出力されるデジタル音声データには、ユーザが秘匿を所望する秘匿情報は含まれない。 The voice processing device 1 provided with the voice concealment device 10 always performs voice concealment processing in the voice data concealment unit 15 for the input voice data, and it is determined that there is no possibility of matching (prefix matching) with a keyword such as personal information. Output digital audio data. Therefore, the digital voice data output from the voice processing device 1 does not include confidential information that the user desires to keep secret.

(1-4)秘匿情報判定処理
次に、図1および図2を参照しつつ図3を用いて判定部13における秘匿情報判定処理の詳細を説明する。図3は、秘匿情報判定処理の流れの一例を時系列で説明する図である。本例において、秘匿情報リスト141には、電話番号に該当する情報として「09001234567」を示す秘匿情報音素系列情報が登録されている。また、秘匿情報リスト141には、上述の電話番号を含めて全10個の秘匿情報音素系列(秘匿情報1~10)が蓄積されているとする。図3は、音声入力装置11から入力音声として秘匿情報(例えば電話番号「09001234567」)と完全一致する内容が含まれる音声(本例では「電話番号は09001234567」)が入力された場合における秘匿情報判定処理の一例を示している。
(1-4) Confidential Information Determination Process Next, the details of the confidential information determination process in the determination unit 13 will be described with reference to FIGS. 1 and 2. FIG. 3 is a diagram illustrating an example of the flow of the confidential information determination process in chronological order. In this example, the confidential information phoneme sequence information indicating "090012344567" is registered in the confidential information list 141 as the information corresponding to the telephone number. Further, it is assumed that a total of 10 confidential information phoneme sequences (confidential information 1 to 10) including the above-mentioned telephone number are accumulated in the confidential information list 141. FIG. 3 shows the confidential information when the voice input device 11 inputs a voice (for example, the telephone number is 090012345667) including a content that completely matches the confidential information (for example, the telephone number “090012345667”). An example of the determination process is shown.

より詳細には、図3の上から1段目と2段目には、音声入力装置11における入力音声と一連の入力音声のうち1つ以上の音素を含む区間との対応が図示され、図3の3段目には、入力音声の各区間にそれぞれ対応する出力音素が図示されている。入力音声において母音(a、i、u、e、o)と母音以外の音(子音等)のそれぞれが1音素に対応しており、図3では、各音素をローマ字で表記している。例えば、図3に示すように、入力音声「デン」に対応する出力音素「den」は、「d」「e」「n」の3つの音素で形成されている。本例では、説明を容易にするため、入力音声を複数の音素を含む区間に分け、この区間について実行される逐次音声認識処理および秘匿情報判定処理における音声秘匿装置10の各構成の動作について説明する。 More specifically, in the first and second stages from the top of FIG. 3, the correspondence between the input voice in the voice input device 11 and the section containing one or more phonemes in the series of input voices is illustrated. In the third stage of 3, the output phonemes corresponding to each section of the input voice are illustrated. In the input voice, each of the vowel (a, i, u, e, o) and the sound other than the vowel (consonant, etc.) corresponds to one phoneme, and in FIG. 3, each phoneme is expressed in Roman letters. For example, as shown in FIG. 3, the output phoneme "den" corresponding to the input voice "den" is formed of three phonemes "d", "e", and "n". In this example, in order to facilitate the explanation, the input voice is divided into sections including a plurality of phonemes, and the operation of each configuration of the voice concealment device 10 in the sequential voice recognition process and the concealment information determination process executed for this section will be described. do.

また、図3の4段目には、音声認識部12における出力音素の照合の経過が図示され、5段目には、時刻t0から時刻t5へ向かって時の経過を示す時間軸が図示されている。また、図3の6、7段目には、秘匿情報リスト141に登録されている各秘匿情報(キーワード)に対応する個人情報判定信号の信号レベル(高レベル:Highまたは低レベル:Low)が図示され、8段目には、秘匿情報判定信号の状態の論理和を取った結果を示す秘匿情報判定信号(総合判定信号)が図示されている。また、図3の9、10段目には、完全一致信号の信号レベル(高レベル:High又は低レベル:Low)が図示され、11段目には、完全一致信号の状態の論理和を取った結果を示す完全一致信号(総合判定信号)が図示されている。12段目には、バッファ151に蓄積されているデジタル音声データに対応する入力音声が図示されている。また、図3の13段目には、バッファ151から出力されたデジタル音声データに対応する入力音声が図示されている。 Further, in the fourth row of FIG. 3, the progress of collation of output phonemes in the voice recognition unit 12 is shown, and in the fifth row, a time axis showing the passage of time from time t0 to time t5 is shown. ing. Further, in the 6th and 7th columns of FIG. 3, the signal level (high level: High or low level: Low) of the personal information determination signal corresponding to each confidential information (keyword) registered in the confidential information list 141 is displayed. It is illustrated, and in the eighth row, a secret information determination signal (comprehensive determination signal) showing the result of taking the logical sum of the states of the confidential information determination signal is shown. Further, in the 9th and 10th stages of FIG. 3, the signal level (high level: High or low level: Low) of the perfect match signal is shown, and in the 11th stage, the logical sum of the states of the perfect match signal is taken. An exact match signal (comprehensive determination signal) showing the result is shown. In the twelfth stage, the input voice corresponding to the digital voice data stored in the buffer 151 is shown. Further, in the thirteenth stage of FIG. 3, the input voice corresponding to the digital voice data output from the buffer 151 is shown.

ここで、図3に図示する秘匿情報判定信号および完全一致信号の信号レベルについて説明する。信号レベルが高(High)レベルの秘匿情報判定信号は、秘匿情報判定結果として出力音素が秘匿情報音素系列と前方一致していることを示す。また、信号レベルが低(Low)レベルの秘匿情報判定信号は、秘匿情報判定結果として出力音素が秘匿情報音素系列と前方一致していないことを示す。本実施形態による音声秘匿装置10において、判定部13から音声データ秘匿部15に出力されるのは、図3の8段目に示す秘匿情報判定信号(総合)である。 Here, the signal levels of the confidential information determination signal and the perfect match signal illustrated in FIG. 3 will be described. The secret information determination signal having a high signal level indicates that the output phoneme is forward-matched with the secret information phoneme sequence as the secret information determination result. Further, the secret information determination signal having a low signal level indicates that the output phoneme does not forwardly match the secret information phoneme sequence as the secret information determination result. In the voice concealment device 10 according to the present embodiment, the concealment information determination signal (comprehensive) shown in the eighth stage of FIG. 3 is output from the determination unit 13 to the voice data concealment unit 15.

また、信号レベルが高(High)レベルの完全一致判定信号は、結合出力音素系列が秘匿情報音素系列と完全一致していることを示す。また、信号レベルが低(Low)レベルの完全一致判定信号は、結合出力音素系列が秘匿情報音素系列と完全一致していないことを示す。本実施形態による音声秘匿装置10において、判定部13から音声データ秘匿部15に出力されるのは、図3の11段目に示す完全一致信号(総合)である。 Further, the perfect match determination signal having a high signal level indicates that the combined output phoneme sequence completely matches the secret information phoneme sequence. Further, the perfect match determination signal having a low signal level indicates that the combined output phoneme sequence does not completely match the secret information phoneme sequence. In the voice concealment device 10 according to the present embodiment, the exact match signal (comprehensive) shown in the 11th stage of FIG. 3 is output from the determination unit 13 to the voice data concealment unit 15.

音声入力装置11は、マイクから入力された上述の入力音声データ(音声信号)をサンプリングしてデジタル音声データに変換し、デジタル音声データを音声認識部12およびバッファ151に逐次出力する。 The voice input device 11 samples the above-mentioned input voice data (voice signal) input from the microphone, converts it into digital voice data, and sequentially outputs the digital voice data to the voice recognition unit 12 and the buffer 151.

音声認識部12において、エンジン部120は、音声入力装置11から入力されたデジタル音声データについて、時系列順に逐次音声認識処理を実行する。エンジン部120は、一連の逐次音声認識処理における音素認識処理の結果として得られた出力音素を判定部13に出力する。本例において、デジタル音声データには、上述の入力音声(「電話番号は09001234567」)を構成する音素に相当する内容が含まれている。このため、例えば図3に示す一連の入力音声は、理解を容易にするために区間に区分すると、「デン」「ワ」「バン」「ゴウ」「ワ」「ゼロ」「キュー」「ゼロ」「ゼロ」「イチ」「ニー」「ゴ」「ヨン」「ロク」「ナナ」「ハチ」にそれぞれ相当するデジタル音声データを含む16区間分に相当する。ここで、図3に示すように16区間を時系列順に区間1~16とする。この区間1~16のそれぞれに含まれるデジタル音声データは、音声入力装置11から時系列順に音声認識部12に出力され、音声認識部12のエンジン部120は、入力された順に各区間のデジタル音声データについて逐次音声認識処理を実行する。 In the voice recognition unit 12, the engine unit 120 sequentially executes voice recognition processing in chronological order for the digital voice data input from the voice input device 11. The engine unit 120 outputs the output phoneme obtained as a result of the phoneme recognition process in the series of sequential speech recognition processes to the determination unit 13. In this example, the digital voice data includes the contents corresponding to the phonemes constituting the above-mentioned input voice (“telephone number is 090012345667”). For this reason, for example, the series of input voices shown in FIG. 3 are divided into sections for ease of understanding: "den", "wa", "van", "go", "wa", "zero", "queue", and "zero". It corresponds to 16 sections including digital voice data corresponding to "Zero", "Ichi", "Knee", "Go", "Yon", "Roku", "Nana", and "Hachi" respectively. Here, as shown in FIG. 3, 16 sections are designated as sections 1 to 16 in chronological order. The digital voice data included in each of the sections 1 to 16 is output from the voice input device 11 to the voice recognition unit 12 in chronological order, and the engine unit 120 of the voice recognition unit 12 outputs the digital voice of each section in the order of input. Sequential voice recognition processing is executed for the data.

図3に示すように、例えば時刻t0において、音声認識部12には、音声入力装置11から区間1に含まれるデジタル音声データ(入力音声「デン」に相当)が出力される。このとき、バッファ151にも同様に区間1に含まれるデジタル音声データ(入力音声「デン」に相当)が出力されている。区間2~16に含まれるそれぞれのデジタル音声データも同様に、音声認識部12とバッファ151とに同時に出力される。音声認識部12は、区間1に含まれるデジタル音声データについて逐次音声認識処理を実行し、「デン」という日本語の発話に相当する音素情報「den(デン)」を出力音素として判定部13に出力する。なお、理解を容易にするため、明細書中において出力音素は一部を除き入力音声と同様にカタカナ表記で記載する。 As shown in FIG. 3, for example, at time t0, the voice input device 11 outputs digital voice data (corresponding to the input voice “den”) included in the section 1 to the voice recognition unit 12. At this time, the digital voice data (corresponding to the input voice “den”) included in the section 1 is also output to the buffer 151. Similarly, each digital voice data included in the sections 2 to 16 is also output to the voice recognition unit 12 and the buffer 151 at the same time. The voice recognition unit 12 sequentially executes voice recognition processing on the digital voice data included in the section 1, and outputs the phoneme information "den" corresponding to the Japanese utterance "den" to the determination unit 13. Output. For ease of understanding, the output phonemes are described in katakana notation in the specification in the same manner as the input voice except for some parts.

判定部13は、区間1に含まれるデジタル音声データに対応する出力音素「デン」が入力されると、この出力音素「デン」について秘匿情報判定処理を実行する。具体的には、判定部13は、秘匿情報リスト141に蓄積されている秘匿情報音素系列のそれぞれについて、出力音素「デン」と前方一致するか否かを判定し、判定結果を秘匿情報判定信号として音声データ秘匿部15に出力する。図3に示すように、本例において秘匿情報リスト141には、上述の電話番号に該当する秘匿情報1を含めて、クレジットカード番号や氏名等に該当する全10個の個人情報を含むキーワード(秘匿情報1~10)が秘匿情報音素系列に変換されて蓄積されている。判定部13は、秘匿情報リスト141内の全ての秘匿情報音素系列について出力音素と前方一致するか否かを判定する。 When the output phoneme "den" corresponding to the digital voice data included in the section 1 is input, the determination unit 13 executes the confidential information determination process for the output phoneme "den". Specifically, the determination unit 13 determines whether or not each of the confidential information phoneme sequences stored in the confidential information list 141 has a prefix match with the output phoneme "den", and determines whether or not the determination result is a confidential information determination signal. Is output to the voice data concealment unit 15. As shown in FIG. 3, in this example, the confidential information list 141 includes the confidential information 1 corresponding to the above-mentioned telephone number, and the keywords including all 10 personal information corresponding to the credit card number, the name, etc. ( Confidential information 1 to 10) is converted into a confidential information phone series and stored. The determination unit 13 determines whether or not all the confidential information phoneme sequences in the confidential information list 141 have a prefix match with the output phoneme.

例えば、判定部13は、秘匿情報1として登録されている秘匿情報テキスト「09001234567」に該当する秘匿情報音素系列「ゼロキューゼロイチニーサンヨンゴウロクナナ」と時刻t0において出力された出力音素「デン」とが前方一致しないと判定する。このため、判定部13は、現時点で入力音声中に秘匿情報1が含まれるおそれはないとして、秘匿情報1に対応する秘匿情報判定信号を低(Low)レベルに設定する。 For example, the determination unit 13 includes the secret information phoneme series "Zero Cue Zero Ichiny Sanyon Gourokunana" corresponding to the secret information text "090012344567" registered as the secret information 1 and the output phoneme "Den" output at time t0. Judges that they do not match at the beginning. Therefore, the determination unit 13 sets the confidential information determination signal corresponding to the confidential information 1 to a low level, assuming that there is no possibility that the confidential information 1 is included in the input voice at this time.

本例において、秘匿情報リスト141には、「デン」という音素系列で始まる秘匿情報音素系列は登録されていない。したがって、判定部13は、秘匿情報2~10についても、秘匿情報1と同様に出力音素「デン」とが前方一致しないと判定したとする。これにより、秘匿情報2~10に対応する秘匿情報判定信号も低(Low)レベルに設定する。判定部13は、秘匿情報1~10に対応する秘匿情報判定信号(個別)のレベルについて論理和をとり、論理和の結果を示す秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。時刻t0において判定部13は、秘匿情報1~10に対応する全ての秘匿情報判定信号(個別)が低レベルに設定されていることに基づいて、信号レベルが低レベルに設定された秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報1~10のいずれも出力音素「デン」と完全一致していないと判定し、秘匿情報1~10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1~10の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。 In this example, the confidential information phoneme sequence starting with the phoneme sequence "den" is not registered in the confidential information list 141. Therefore, it is assumed that the determination unit 13 also determines that the confidential information 2 to 10 do not have a prefix match with the output phoneme "den" as in the confidential information 1. As a result, the confidential information determination signal corresponding to the confidential information 2 to 10 is also set to a low level. The determination unit 13 takes a logical sum for the level of the confidential information determination signal (individual) corresponding to the confidential information 1 to 10, and outputs the confidential information determination signal (comprehensive) indicating the result of the logical sum to the voice data concealment unit 15. .. At time t0, the determination unit 13 determines the confidential information whose signal level is set to a low level based on the fact that all the confidential information determination signals (individual) corresponding to the confidential information 1 to 10 are set to a low level. The signal (comprehensive) is output to the voice data concealment unit 15. Further, the determination unit 13 determines that none of the confidential information 1 to 10 completely matches the output phoneme "den", and sets the perfect match signal (individual) corresponding to the confidential information 1 to 10 at a low level. .. The determination unit 13 takes the logical sum of the confidential information 1 to 10 and outputs a low-level perfect match signal (comprehensive) to the voice data concealment unit 15.

音声データ秘匿部15が判定部13から秘匿情報判定結果を受信すると(ステップS21)、図2に示す音声秘匿処理が開始される。時刻t0において、秘匿情報1~10に対応する秘匿情報判定信号の信号レベルは全て低レベルである。したがって、出力制御部150は、現在(すなわち時刻t0)処理対象となっている区間1に含まれるデジタル音声データをバッファ151から出力可能であると判定して(ステップS22のYES)、区間1のデジタル音声データ(出力音素「デン」に該当)をバッファ151から出力し(ステップS26)、音声秘匿処理を終了する。これにより、秘匿情報音素系列と前方一致しない出力音素に該当するデジタル音声データ、すなわち秘匿情報の一部に該当しないデジタル音声データは、秘匿情報判定処理後の音声秘匿処理において即座に出力され、ネットワーク3を介して速やかに音声認識サーバ100に送信される。 When the voice data concealment unit 15 receives the concealment information determination result from the determination unit 13 (step S21), the voice concealment process shown in FIG. 2 is started. At time t0, the signal levels of the confidential information determination signals corresponding to the confidential information 1 to 10 are all low levels. Therefore, the output control unit 150 determines that the digital voice data included in the section 1 currently being processed (that is, at time t0) can be output from the buffer 151 (YES in step S22), and the section 1 Digital voice data (corresponding to the output phoneme “den”) is output from the buffer 151 (step S26), and the voice concealment process is terminated. As a result, the digital voice data corresponding to the output sound that does not match the confidential information sound element sequence, that is, the digital voice data that does not correspond to a part of the secret information, is immediately output in the voice concealment processing after the confidential information determination processing, and is output to the network. It is promptly transmitted to the voice recognition server 100 via 3.

図3に示すように、時刻t0の経過後、時刻t1までに音声認識部12において出力音素に認識された区間2~5に含まれるデジタル音声データ(入力音声「ワ」「バン」「ゴウ」「ワ」に相当)も同様に、判定部13において秘匿情報リスト141のいずれの秘匿情報音素系列とも前方一致および完全一致しないと判定され、出力制御部150によってバッファ151から出力される。したがって、時刻t0~t1までの期間において、音声認識サーバ100には「デン ワ バン ゴウ ワ」という入力音声に対応する5区間分(区間1~5)のデジタル音声データが送信される。また、図3に示すように、出力されたデジタル音声データはバッファ151には残存しない。 As shown in FIG. 3, after the lapse of time t0, the digital voice data (input voice “wa”, “bang”, “go”) included in the sections 2 to 5 recognized by the voice recognition unit 12 by the time t1. Similarly, the determination unit 13 determines that any of the confidential information phoneme sequences in the confidential information list 141 is prefix-matched or does not completely match, and is output from the buffer 151 by the output control unit 150. Therefore, during the period from time t0 to t1, digital voice data for five sections (sections 1 to 5) corresponding to the input voice "Denwabangowa" is transmitted to the voice recognition server 100. Further, as shown in FIG. 3, the output digital voice data does not remain in the buffer 151.

図3に示すように、時刻t2において、音声認識部12およびバッファ151には音声入力装置11から区間6に含まれるデジタル音声データ(入力音声「ゼロ」に相当)が出力され、音声認識部12により「zero(ゼロ)」という日本語の読みに相当する出力音素として判定部13に出力される。時刻t2において判定部13は、区間6に含まれるデジタル音声データに対応する出力音素「ゼロ」について秘匿情報判定処理を実行する。上述のように、本例において、秘匿情報1に該当する秘匿情報音素系列は「ゼロキューゼロイチニーサンヨンゴウロクナナ」である。判定部13は、出力音素「ゼロ」と秘匿情報1の秘匿情報音素系列における冒頭の音素「ゼロ」が同一であるため、入力された出力音素と秘匿情報1の秘匿情報音素系列とが前方一致すると判定し、秘匿情報1に対応する秘匿情報判定信号(個別)を高(High)レベルに設定する。また、判定部13は、秘匿情報音素系列と前方一致した出力音素を所定の記憶領域で保持する。 As shown in FIG. 3, at time t2, the voice recognition unit 12 and the buffer 151 output digital voice data (corresponding to the input voice “zero”) included in the section 6 from the voice input device 11, and the voice recognition unit 12 Is output to the determination unit 13 as an output phoneme corresponding to the Japanese reading of "zero". At time t2, the determination unit 13 executes the confidential information determination process for the output phoneme “zero” corresponding to the digital voice data included in the section 6. As described above, in this example, the confidential information phoneme sequence corresponding to the confidential information 1 is "Zero Cue Zero Ichini Sanyon Gourokunana". Since the output phoneme "zero" and the first phoneme "zero" in the secret information phoneme sequence of the secret information 1 are the same in the determination unit 13, the input output phoneme and the secret information phoneme series of the secret information 1 are prefix-matched. Then, the confidential information determination signal (individual) corresponding to the confidential information 1 is set to a high level. In addition, the determination unit 13 holds an output phoneme that previously matches the confidential information phoneme sequence in a predetermined storage area.

また、本例において秘匿情報リスト141には、秘匿情報1以外に「ゼロ」という音素系列で始まる秘匿情報音素系列は登録されていない。このため、判定部13は、秘匿情報2~10について秘匿情報音素系列と出力音素「ゼロ」とが前方一致しないと判定し、秘匿情報2~10に対応する秘匿情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿情報1~10の論理和をとって高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報判定信号(総合)が高レベルであるものの、秘匿情報1~10のいずれも出力音素「ゼロ」と完全一致していないと判定し、秘匿情報1~10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1~10の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。 Further, in this example, the confidential information phoneme sequence starting with the phoneme sequence "zero" is not registered in the confidential information list 141 other than the confidential information 1. Therefore, the determination unit 13 determines that the confidential information phoneme sequence and the output phoneme "zero" do not match in front of the confidential information 2 to 10, and lowers the confidential information determination signal (individual) corresponding to the confidential information 2 to 10. Set to (Low) level. The determination unit 13 takes the logical sum of the confidential information 1 to 10 and outputs a high level confidential information determination signal (comprehensive) to the voice data confidential unit 15. Further, the determination unit 13 determines that although the confidential information determination signal (comprehensive) is at a high level, none of the confidential information 1 to 10 completely matches the output phoneme "zero", and the confidential information 1 to 10 are used. Set the corresponding exact match signal (individual) to a low level. The determination unit 13 takes the logical sum of the confidential information 1 to 10 and outputs a low-level perfect match signal (comprehensive) to the voice data concealment unit 15.

音声データ秘匿部15の出力制御部150は、時刻t2での秘匿情報判定処理に基づいて実行する音声秘匿処理において、入力された秘匿情報判定信号(総合)の信号レベルを確認し、バッファ出力が可能か否かを判定する(ステップS22)。時刻t2において、秘匿情報1に対応する秘匿情報判定信号(個別)は高(High)レベルであるため、秘匿情報判定信号(総合)も高レベルに設定される。したがって、時刻t2において出力制御部150は、バッファ出力が不可能であると判定し(ステップS22のNO)、バッファ151に蓄積されているデジタル音声データ(本例では区間6)の出力を停止する(ステップS23)。これにより、本実施形態による音声秘匿装置10は、入力音声の一部(各区間のデジタル音声データ)が秘匿情報と前方一致した時点、すなわち入力音声に秘匿情報が含まれるおそれがあると判定した段階で、入力音声の内容を秘匿することができる。したがって、音声秘匿装置10は、従来のように入力音声中に含まれる内容が予め登録された秘匿情報等のキーワードと完全一致するか否かを判定するよりも早期の段階で、ユーザが秘匿を所望する秘匿情報の流出を予防することができる。 The output control unit 150 of the voice data concealment unit 15 confirms the signal level of the input concealment information determination signal (comprehensive) in the voice concealment processing executed based on the concealment information determination processing at time t2, and the buffer output is output. It is determined whether or not it is possible (step S22). Since the confidential information determination signal (individual) corresponding to the confidential information 1 is at a high level at time t2, the confidential information determination signal (comprehensive) is also set to a high level. Therefore, at time t2, the output control unit 150 determines that buffer output is impossible (NO in step S22), and stops the output of the digital voice data (section 6 in this example) stored in the buffer 151. (Step S23). As a result, the voice concealment device 10 according to the present embodiment determines that a part of the input voice (digital voice data in each section) coincides with the concealed information in the front, that is, the input voice may include the concealed information. At the stage, the content of the input voice can be concealed. Therefore, in the voice concealment device 10, the user conceals at an earlier stage than determining whether or not the content contained in the input voice completely matches the keyword such as the concealed information registered in advance as in the conventional case. It is possible to prevent the leakage of desired confidential information.

図3に示すように、時刻t3において、音声認識部12およびバッファ151には音声入力装置11から区間7に含まれるデジタル音声データ(入力音声「キュー」に相当)が出力され、音声認識部12により「kyuu(キュー)」という日本語の読みに相当する出力音素が判定部13に出力される。時刻t3において判定部13は、区間7に含まれるデジタル音声データに対応する出力音素「キュー」と、時刻t2において記憶した出力音素「ゼロ」とを結合して「ゼロキュー」という結合出力音素系列を生成し、この結合出力音素系列について秘匿情報判定処理を実行する。このように、判定部13は、秘匿情報音素系列と前方一致済みの区間(本例では区間6)に対応する出力音素の後続の区間(本例では、区間7以降)に対応する出力音素を時系列順に結合して、結合出力音素系列を生成する。判定部13は、結合出力音素系列を生成し、生成した結合出力音素系列について秘匿情報音素系列との前方一致の判定を繰り返すことにより、最終的に一連の入力音声と秘匿情報とが完全一致するか否かを判定することができる。 As shown in FIG. 3, at time t3, the voice recognition unit 12 and the buffer 151 output digital voice data (corresponding to the input voice “cue”) included in the section 7 from the voice input device 11, and the voice recognition unit 12 Outputs the output phoneme "kyuu", which corresponds to the Japanese reading, to the determination unit 13. At time t3, the determination unit 13 combines the output phoneme "queue" corresponding to the digital voice data included in the section 7 and the output phoneme "zero" stored at time t2 to form a combined output phoneme sequence called "zero queue". It is generated and the confidential information determination process is executed for this combined output phoneme sequence. In this way, the determination unit 13 determines the output phoneme corresponding to the subsequent section (in this example, the section 7 or later) corresponding to the section (section 6 in this example) that has been prefix-matched with the secret information phoneme series. Combine in chronological order to generate a combined output phoneme sequence. The determination unit 13 generates a combined output phoneme sequence, and repeats the determination of the prefix match with the secret information phoneme sequence for the generated combined output phoneme sequence, so that the series of input voices and the secret information are finally completely matched. It can be determined whether or not.

時刻t3において判定部13は、結合出力音素系列「ゼロキュー」と秘匿情報1の秘匿情報音素系列における冒頭から連続する音素「ゼロキュー」とが前方一致すると判定し、秘匿情報1に対応する秘匿情報判定信号(個別)を高(High)レベルに設定する。また、本例において秘匿情報リスト141には、秘匿情報1以外に「ゼロキュー」という音素系列で始まる秘匿情報音素系列は登録されていない。 At time t3, the determination unit 13 determines that the combined output phoneme sequence "zero queue" and the phoneme "zero queue" continuous from the beginning of the secret information phoneme series of the secret information 1 coincide with each other, and determines the secret information corresponding to the secret information 1. Set the signal (individual) to a high level. Further, in this example, the confidential information phoneme sequence starting with the phoneme sequence "zero queue" is not registered in the confidential information list 141 other than the confidential information 1.

また、判定部13は、時刻t2において入力された出力音素「キュー」単独で秘匿情報1~10の秘匿情報音素系列と前方一致するか否かを判定する。判定部13は、結合出力音素系列と前方一致する秘匿情報音素系列が存在しているか否かに関わらず、結合出力音素系列の最後尾を構成する出力音素、すなわち最新の出力音素について、秘匿情報音素系列との前方一致を判定する。これにより、本実施形態による音声秘匿装置10は、常に最新の出力音素と前方一致する秘匿情報音素系列を抽出し、入力音声が個人情報等を含むキーワード(秘匿情報)と一致するおそれの有無を適正に判定することができる。 Further, the determination unit 13 determines whether or not the output phoneme "queue" input at time t2 alone matches the secret information phoneme sequence of the secret information 1 to 10 in advance. The determination unit 13 secretly informs about the output phoneme constituting the end of the combined output phoneme sequence, that is, the latest output phoneme, regardless of whether or not there is a secret information phoneme sequence that matches the front of the combined output phoneme sequence. Judge the prefix match with the phoneme sequence. As a result, the voice concealment device 10 according to the present embodiment always extracts a concealed information phoneme sequence that matches the latest output phoneme in advance, and determines whether or not the input voice may match a keyword (confidential information) including personal information and the like. It can be judged properly.

本例において秘匿情報リスト141には、「キュー」という音素で始まる秘匿情報音素系列は登録されていないとする。このため、判定部13は、秘匿情報2~10に対応する秘匿情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿情報1~10のそれぞれに対応する秘匿情報判定信号(個別)の論理和をとって高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報判定信号(総合)が高レベルであるものの、秘匿情報1~10のいずれも結合出力音素系列「ゼロキュー」および出力音素「キュー」と完全一致していないと判定し、秘匿情報1~10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1~10のそれぞれに対応する完全一致信号(個別)の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。低レベルに設定した完全一致信号を音声データ秘匿部15に出力する。 In this example, it is assumed that the confidential information phoneme sequence starting with the phoneme "cue" is not registered in the confidential information list 141. Therefore, the determination unit 13 sets the confidential information determination signal (individual) corresponding to the confidential information 2 to 10 to a low level. The determination unit 13 takes the logical sum of the confidential information determination signals (individual) corresponding to each of the confidential information 1 to 10 and outputs a high level confidential information determination signal (comprehensive) to the voice data confidential unit 15. .. Further, the determination unit 13 determines that although the confidential information determination signal (comprehensive) is at a high level, none of the confidential information 1 to 10 completely matches the combined output phoneme series "zero queue" and the output phoneme "queue". Then, the exact match signal (individual) corresponding to the confidential information 1 to 10 is set to a low level. The determination unit 13 takes a logical sum of the exact match signals (individual) corresponding to each of the confidential information 1 to 10 and outputs a low-level perfect match signal (comprehensive) to the voice data concealment unit 15. The exact match signal set at a low level is output to the voice data concealment unit 15.

音声データ秘匿部15の出力制御部150は、時刻t3での秘匿情報判定処理に基づいて実行する音声秘匿処理において、時刻t2と同様にバッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。これにより、図3に示すように、時刻t3での秘匿情報判定処理に基づく音声秘匿処理の終了時においてバッファ151には、区間6および区間7に含まれるデジタル信号データ(入力音声「ゼロ」「キュー」に相当)が蓄積される。 The output control unit 150 of the voice data concealment unit 15 stops the output of the digital signal data from the buffer 151 in the voice concealment process executed based on the concealment information determination process at the time t3 (step S22). Flow from NO to step S23). As a result, as shown in FIG. 3, at the end of the voice concealment processing based on the concealment information determination processing at time t3, the buffer 151 contains the digital signal data (input voice “zero”” and “input voice“ zero ”” included in the section 6 and the section 7. Equivalent to "cue") is accumulated.

図3に示すように、時刻t3経過後、時刻t4までの期間に音声認識部12に出力された区間8~16に含まれるデジタル音声データは、それぞれ出力音素「zero(ゼロ)」「ichi(イチ)」「nii(ニー)」「san(サン)」「yon(ヨン)」「go(ご)」「roku(ロク)」として認識され、判定部13において順次、結合出力音素系列「ゼロキューゼロ」(区間6~8に対応する出力音素の結合)、「ゼロキューゼロゼロ」(区間6~9に対応する出力音素の結合)、「ゼロキューゼロゼロイチ」(区間6~10に対応する出力音素の結合)、「ゼロキューゼロゼロイチニー」(区間6~11に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサン」(区間6~12に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨン」(区間6~13に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨンゴ」(区間6~14に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨンゴロク」(区間6~15に対応する出力音素の結合)が生成される。 As shown in FIG. 3, the digital phonemes included in the sections 8 to 16 output to the voice recognition unit 12 during the period from the time t3 to the time t4 are the output phonemes "zero" and "ichi (", respectively. It is recognized as "Ichi", "nii", "san", "yon", "go", and "roku", and is sequentially recognized by the determination unit 13 as the combined output phoneme series "zero queue". "Zero" (combination of output phonemes corresponding to sections 6 to 8), "Zero cue zero zero" (combination of output phonemes corresponding to sections 6 to 9), "Zero cue zero zeroichi" (output corresponding to sections 6 to 10) Phoneme combination), "Zero Cue Zero Zero Ichinie" (combination of output phonemes corresponding to sections 6 to 11), "Zero Cue Zero Zero Ichinie Sun" (combination of output phonemes corresponding to sections 6 to 12), "Zero Cue" "Zero Zero Ichinie Sanyon" (combination of output phonemes corresponding to sections 6 to 13), "Zero Cue Zero Zero Ichinie Sanyongo" (combination of output phonemes corresponding to sections 6 to 14), "Zero Cue Zero Zero Ichinie Sanyon Goroku" "(Combining of output phonemes corresponding to sections 6 to 15) is generated.

時刻t3経過後から時刻t4までの期間に生成されたこれらの結合出力音素系列は、いずれも秘匿情報1に対応する秘匿情報音素系列と前方一致する。このため、時刻t3経過後から時刻t4の期間において秘匿情報1に対応する秘匿情報判定信号(個別)は高(High)レベルに設定され、秘匿情報2~10に対応する秘匿情報判定信号(個別)が低(Low)レベルであっても、論理和によって高レベルに設定された秘匿情報判定信号(総合)が音声データ秘匿部15に出力される。これに基づいて、出力制御部150は、時刻t3経過後から時刻t4までバッファ151からのデジタル音声データの出力停止を継続する。このため、図3に示すように、時刻t4において個人判定処理が実行されたことに基づく音声秘匿処理の終了時において、バッファ151には区間6~15の10区間分のデジタル音声データが蓄積される。本例において、区間6~15に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロク」に相当)がバッファ151に蓄積されている期間は、出力制御部150によりデジタル音声データの出力が停止されている出力停止期間となる。 All of these combined output phoneme sequences generated in the period from the lapse of time t3 to time t4 coincide with the secret information phoneme sequence corresponding to the secret information 1. Therefore, the confidential information determination signal (individual) corresponding to the confidential information 1 is set to a high level during the period from the lapse of the time t3 to the time t4, and the confidential information determination signal (individual) corresponding to the confidential information 2 to 10. ) Is at a low (Low) level, the confidential information determination signal (comprehensive) set to a high level by the logical sum is output to the voice data concealment unit 15. Based on this, the output control unit 150 continues to stop the output of the digital audio data from the buffer 151 from the time t3 lapse to the time t4. Therefore, as shown in FIG. 3, at the end of the voice concealment processing based on the execution of the personal determination processing at time t4, the buffer 151 stores digital voice data for 10 sections of sections 6 to 15. To. In this example, the output control unit 150 outputs the digital voice data during the period in which the digital voice data (corresponding to the input voice "Zero Cue Zero Zero Ichini Sanyon Goroku") included in the sections 6 to 15 is stored in the buffer 151. Is the output stop period when is stopped.

また、本実施形態による音声秘匿装置10において、判定部13は、秘匿情報音素系列と出力音素(または結合出力音素系列)との前方一致の判定により、出力音素と秘匿情報音素系列との一致の度合い、すなわち一連の入力音声と個人情報等を含むキーワードとの一致の度合いを判定可能である。本例において、判定部13は、秘匿情報音素系列を構成する音素のうち結合出力音素系列と前方一致している音素の割合が多いほど、出力音素と秘匿情報音素系列との一致の度合が高いと判定する。例えば、秘匿情報1に対応する秘匿情報音素系列「ゼロキューゼロイチニーサンヨンゴウロクナナ」に対する一致の度合いは、結合出力音素系列「ゼロキューゼロ」(区間6~8の結合)よりも、結合出力音素系列「ゼロキューゼロゼロ」(区間6~9の結合)の方が高い。したがって、秘匿情報音素系列と完全一致している結合出力音素系列は、一致度合が最高(100%)となる。このように、出力音素と秘匿情報音素系列との一致度合が高いほど、一連の入力音声にキーワードが含まれるおそれ(危険性)が大きくなる。
また、一連の入力音声にキーワードが含まれるおそれ(入力音声とキーワードとが一致するおそれ)が全くない場合は、一連の入力音声と個人情報等を含むキーワードとの一致度合は0%である。音声秘匿装置10において、判定部13により出力音素と秘匿情報音素系列とが前方一致していると判定された時点、すなわち、秘匿情報判定信号(総合)が高(High)レベルに設定された時点で、一連の入力音声と個人情報等を含むキーワードとの一致度合は0%よりも大きい値となる。本例では、出力音素「zero」(区間6に含まれるデジタル音声データに対応)と秘匿情報1の秘匿情報音素系列とが前方一致すると判定された時刻t2において出力音素と音素系列の一致度合が0%よりも大きい値となる。一致度合が0%よりも大きい値となることにより、一連の入力音声にキーワードが含まれるおそれが発生する。
Further, in the voice concealment device 10 according to the present embodiment, the determination unit 13 determines that the concealed information phoneme sequence and the output phoneme (or the combined output phoneme sequence) are in front of each other, so that the output phoneme and the concealed information phoneme sequence are matched. It is possible to determine the degree, that is, the degree of matching between a series of input voices and a keyword including personal information and the like. In this example, the determination unit 13 has a higher degree of matching between the output phoneme and the secret information phoneme sequence as the ratio of the phonemes that are in front of the combined output phoneme sequence among the phonemes constituting the secret information phoneme sequence is larger. Is determined. For example, the degree of matching with the secret information phoneme series "Zero Cue Zero Ichini Sanyon Gourokunana" corresponding to the secret information 1 is higher than that of the combined output phoneme series "Zero Cue Zero" (combination of sections 6 to 8). The series "zero queue zero zero" (combination of sections 6-9) is higher. Therefore, the combined output phoneme sequence that completely matches the confidential information phoneme sequence has the highest degree of matching (100%). As described above, the higher the degree of matching between the output phoneme and the confidential information phoneme sequence, the greater the risk (risk) that the keyword is included in the series of input voices.
Further, when there is no possibility that the keyword is included in the series of input voices (the input voice and the keyword match), the degree of matching between the series of input voices and the keyword including personal information is 0%. When the determination unit 13 determines in the voice concealment device 10 that the output phoneme and the concealment information phoneme sequence are in front of each other, that is, when the concealment information determination signal (comprehensive) is set to a high level. Therefore, the degree of matching between the series of input voices and the keywords including personal information and the like is a value larger than 0%. In this example, the degree of matching between the output phoneme and the phoneme sequence is at time t2 when it is determined that the output phoneme "zero" (corresponding to the digital voice data included in the section 6) and the confidential information phoneme sequence of the confidential information 1 are prefix-matched. The value is larger than 0%. When the degree of matching is a value larger than 0%, there is a possibility that a keyword is included in a series of input voices.

図3に示すように、時刻t5において、音声認識部12およびバッファ151には音声入力装置11から区間12に含まれるデジタル音声データ(入力音声「ナナ」に相当)が出力され、音声認識部12により「ナナ」という日本語の読みに相当する出力音素「nana」が判定部13に出力される。時刻t5において判定部13は、区間6~15に含まれるデジタル音声データに対応する出力音素で生成された結合出力音素系列の最後尾に区間16に含まれるデジタル音声データに対応する出力音素「nana(ナナ)」を結合し、結合出力音素系列「ゼロキューゼロゼロイチニーゴ」(区間6~16の結合)を生成する。 As shown in FIG. 3, at time t5, digital voice data (corresponding to the input voice “Nana”) included in the section 12 is output from the voice input device 11 to the voice recognition unit 12 and the buffer 151, and the voice recognition unit 12 Therefore, the output phoneme "nana" corresponding to the Japanese reading of "Nana" is output to the determination unit 13. At time t5, the determination unit 13 determines the output phoneme "nana" corresponding to the digital voice data included in the section 16 at the end of the combined output phoneme series generated by the output phonemes corresponding to the digital voice data included in the sections 6 to 15. (Nana) ”is combined to generate a combined output phoneme sequence“ Zero Cue Zero Zero Ichinigo ”(combination of sections 6 to 16).

区間6~16を結合して生成された結合出力音素系列「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」は、秘匿情報1に対応する秘匿情報音素系列と前方一致かつ完全一致する。このため、判定部13は、秘匿情報判定信号(総合)を高(High)レベルに設定するとともに、結合出力音素系列と秘匿情報音素系列との一致度合が最高になった(完全一致した)ことに基づいて秘匿情報1に対応する完全一致信号(個別)の信号レベルを高(High)レベルに設定する。さらに、判定部13は、秘匿情報1~10にそれぞれ対応する完全一致信号(個別)の論理和をとって高レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。 The combined output phoneme sequence "Zero Cue Zero Zero Ichini Sanyon Gorokunana" generated by combining the sections 6 to 16 is prefix-matched and completely coincides with the secret information phoneme sequence corresponding to the secret information 1. Therefore, the determination unit 13 sets the confidential information determination signal (comprehensive) to a high level, and the degree of matching between the combined output phoneme sequence and the confidential information phoneme sequence is the highest (perfect match). The signal level of the exact match signal (individual) corresponding to the confidential information 1 is set to a high level based on the above. Further, the determination unit 13 takes a logical sum of the exact match signals (individual) corresponding to the confidential information 1 to 10 and outputs a high-level perfect match signal (comprehensive) to the voice data concealment unit 15.

出力制御部150は、時刻t5での音声秘匿処理において、秘匿情報判定信号(総合)の信号レベルが高(High)レベルであることに基づいて、バッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。また、出力制御部150は、完全一致判定信号の信号レベルが高レベルであって入力音声中に個人情報等のキーワードと完全一致する内容が含まれていると判定し(ステップS24のYES)、現時点でバッファ151に蓄積されているデジタル信号データを削除する(ステップS25)。これにより、バッファ151に蓄積されていた区間6~16に対応するデジタル音声データ、すなわち秘匿情報1に完全一致する内容のデジタル音声データがバッファ151から削除される。このように、本実施形態による音声秘匿装置10は、秘匿情報リスト141に登録されている個人情報等のキーワード(秘匿情報)のいずれかと完全一致する内容のデジタル音声データを、バッファ151から削除できる。したがって、音声秘匿装置10において、個人情報等のキーワードが音声認識サーバ100に送信されることはなく、音声秘匿装置10は、ユーザが予め登録した秘匿情報が流出することを確実に防止することができる。 The output control unit 150 stops the output of the digital signal data from the buffer 151 based on the high level signal level of the confidential information determination signal (total) in the voice concealment processing at time t5. (Flow from NO in step S22 to step S23). Further, the output control unit 150 determines that the signal level of the perfect match determination signal is high and the input voice contains content that completely matches the keyword such as personal information (YES in step S24). The digital signal data currently stored in the buffer 151 is deleted (step S25). As a result, the digital voice data corresponding to the sections 6 to 16 stored in the buffer 151, that is, the digital voice data whose contents completely match the confidential information 1 is deleted from the buffer 151. As described above, the voice concealment device 10 according to the present embodiment can delete digital audio data having a content that completely matches any of the keywords (confidential information) such as personal information registered in the confidential information list 141 from the buffer 151. .. Therefore, in the voice concealment device 10, keywords such as personal information are not transmitted to the voice recognition server 100, and the voice concealment device 10 can surely prevent the confidential information registered in advance by the user from leaking. can.

次に、図1から図3を参照しつつ図4を用いて判定部13における秘匿情報判定処理の流れの他の一例を説明する。図4は、秘匿情報判定処理の流れの他の一例を時系列で説明する図である。図4は、音声入力装置11から入力音声として秘匿情報1(例えば電話番号「09001234567」)と前方一致するものの完全一致はしない内容が含まれる前方一致音声が入力された場合における秘匿情報判定処理の一例を示している。本例の前方一致音声は、「電話番号は09001254678」という一連の音声であるとする。なお、図4の上から1~11段目に図示されている項目は図3の上から1~11段目に図示されている項目と同様であるため、説明は省略する。 Next, another example of the flow of the confidential information determination process in the determination unit 13 will be described with reference to FIGS. 1 to 3. FIG. 4 is a diagram illustrating another example of the flow of the confidential information determination process in chronological order. FIG. 4 shows the confidential information determination process in the case where the voice input device 11 inputs a prefix matching voice including a content that matches the confidential information 1 (for example, the telephone number “090012345667”) in the prefix but does not completely match. An example is shown. It is assumed that the prefix matching voice of this example is a series of voices such as "phone number is 09001254678". Since the items shown in the first to eleventh columns from the top of FIG. 4 are the same as the items shown in the first to eleventh columns from the top of FIG. 3, the description thereof will be omitted.

図4に示すように、本例の前方一致音声は、「デン」「ワ」「バン」「ゴウ」「ワ」「ゼロ」「キュー」「ゼロ」「ゼロ」「イチ」「ニー」「ゴ」「ヨン」「ロク」「ナナ」「ハチ」の内容にそれぞれ該当するデジタル音声データを含む16個の区間として、区間101~116の順(時系列順)に音声認識部12に出力される。 As shown in FIG. 4, the prefix matching voices of this example are "den", "wa", "ban", "go", "wa", "zero", "cue", "zero", "zero", "ichi", "knee", and "go". It is output to the voice recognition unit 12 in the order of sections 101 to 116 (in chronological order) as 16 sections including digital voice data corresponding to the contents of "Yon", "Roku", "Nana", and "Hachi" respectively. ..

図4に示すように判定部13は、時刻t10から時刻t11までの期間において、音声認識部12が逐次音声認識処理を行った区間101~105に対応する出力音素「den(デン)」「wa(ワ)」「ban(バン)」「gou(ゴウ)」「wa(ワ)」について、秘匿情報判定処理を実行する。判定部13は、区間101~105に対応する出力音素のいずれも、秘匿情報リスト141に登録されている秘匿情報音素系列のいずれとも前方一致および完全一致しないと判定する。したがって、出力制御部150は、図4に示す時刻t10からt11の期間における音声秘匿処理において、図3に示す時刻t0から時刻t1と同様に、「デン ワ バン ゴウ ワ」という5区間分(区間101~105)のデジタル音声データを時系列順にバッファ151から出力する(ステップS22のYESからステップS26の流れ)。 As shown in FIG. 4, the determination unit 13 has output phonemes "den" and "wa" corresponding to sections 101 to 105 in which the voice recognition unit 12 has sequentially performed voice recognition processing in the period from time t10 to time t11. Confidential information determination processing is executed for "wa", "ban", "gou", and "wa". The determination unit 13 determines that none of the output phonemes corresponding to the sections 101 to 105 is a prefix match or an exact match with any of the secret information phoneme sequences registered in the secret information list 141. Therefore, in the voice concealment processing during the period from time t10 to t11 shown in FIG. 4, the output control unit 150 has five sections (sections) called "Denwabangowa" as in the case of time t0 to time t1 shown in FIG. The digital audio data of 101 to 105) is output from the buffer 151 in chronological order (flow from YES in step S22 to step S26).

また、時刻t12での秘匿情報判定処理において、判定部13は、区間106に含まれるデジタル音声データに対応する出力音素「zero(ゼロ)」について、秘匿情報1の秘匿情報音素系列と前方一致すると判定し、信号レベルが高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。これに基づいて、時刻t12での音声秘匿処理において出力制御部150は、図3に示す時刻t2と同様に、バッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。以降、時刻t13から時刻t14の期間において、判定部13は区間106~111を順次結合した結合出力音素系列を生成し、生成した結合出力音素系列と秘匿情報1の秘匿情報音素系列とが前方一致すると判定する。 Further, in the confidential information determination process at time t12, the determination unit 13 determines that the output sound element "zero" corresponding to the digital voice data included in the section 106 is forward-matched with the confidential information element sequence of the confidential information 1. The determination is made, and the confidential information determination signal (comprehensive) having a high signal level is output to the voice data concealment unit 15. Based on this, in the voice concealment processing at the time t12, the output control unit 150 stops the output of the digital signal data from the buffer 151 (from NO in step S22 to step S23), similarly to the time t2 shown in FIG. flow). After that, in the period from time t13 to time t14, the determination unit 13 generates a combined output phoneme series in which the sections 106 to 111 are sequentially combined, and the generated combined output phoneme series and the secret information phoneme series of the secret information 1 are prefix-matched. Then it is determined.

このため、時刻t13から時刻t14の期間において秘匿情報判定信号(総合)は高(High)レベルに設定され、出力制御部150は、バッファ151からのデジタル音声データの出力停止を継続する。したがって、図4に示すように、本例では時刻t13から時刻t14の期間がバッファ151からのデジタル音声データの出力が停止される出力停止期間となり、区間106~区間111の6区間分のデジタル音声データ(図4に示す前方一致音声(入力音声)のうち「ゼロキューゼロゼロイチニー」に相当)がバッファ151に蓄積される。 Therefore, the confidential information determination signal (total) is set to a high level during the period from the time t13 to the time t14, and the output control unit 150 continues to stop the output of the digital voice data from the buffer 151. Therefore, as shown in FIG. 4, in this example, the period from time t13 to time t14 is the output stop period during which the output of digital audio data from the buffer 151 is stopped, and the digital audio for six sections from section 106 to section 111 is stopped. Data (corresponding to "zero cue zero zero ichiny" in the prefix matching voice (input voice) shown in FIG. 4) is stored in the buffer 151.

図4に示すように、時刻t15において、音声認識部12およびバッファ151には音声入力装置11から区間112に含まれるデジタル音声データ(入力音声「ゴ」に相当)が出力され、音声認識部12により「ゴ」という日本語の読みに相当する出力音素「go」が判定部13に出力される。時刻t15において判定部13は、区間106~111に含まれるデジタル音声データに対応する出力音素で生成された結合出力音素系列の最後尾に区間12に含まれるデジタル音声データに対応する出力音素「ゴ」を結合し、結合出力音素系列「ゼロキューゼロゼロイチニーゴ」(区間106~112に対応する出力音素の結合)を生成する。 As shown in FIG. 4, at time t15, digital voice data (corresponding to the input voice “go”) included in the section 112 is output from the voice input device 11 to the voice recognition unit 12 and the buffer 151, and the voice recognition unit 12 Therefore, the output phoneme "go" corresponding to the Japanese reading of "go" is output to the determination unit 13. At time t15, the determination unit 13 determines the output phoneme "go" corresponding to the digital voice data included in the section 12 at the end of the combined output phoneme series generated by the output phonemes corresponding to the digital voice data included in the sections 106 to 111. Is combined to generate a combined output phoneme sequence "Zero Cue Zero Zero Ichinigo" (combination of output phonemes corresponding to sections 106 to 112).

時刻t15において判定部13が生成した結合出力音素系列は、秘匿情報1の対応する秘匿情報音素系列「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」と前方一致しない。また、秘匿情報2~10に対応する秘匿情報音素系列とも前方一致しなかったとする。さらに、判定部13は、出力音素「ゴ」のみで秘匿情報1~10に対応する秘匿情報音素系列と前方一致を判定する。本例において秘匿情報リスト141には、「ゴ」という音素系列で始まる秘匿情報音素系列は登録されていないとする。したがって、判定部13は、秘匿情報1~10のそれぞれに対応する秘匿情報判定信号(個別)を全て低(Low)レベルに設定し、秘匿情報判定信号(個別)の信号レベルの論理和により低レベルに設定された秘匿情報判定信号(総合)を音声データ秘匿部15に送信する。このように、判定部13は、結合出力音素系列と前方一致していた秘匿情報音素系列が存在しなくなった場合にも、結合出力音素系列の最後尾を構成する出力音素、すなわち最新の出力音素について、秘匿情報音素系列との前方一致を判定する。これにより、入力音声が個人情報等を含むキーワードと一致するおそれの有無を適正に判定することができる。 The combined output phoneme sequence generated by the determination unit 13 at time t15 does not coincide with the corresponding secret information phoneme series "Zero Cue Zero Zero Ichini Sanyon Gorokunana" of the secret information 1. Further, it is assumed that the confidential information phoneme sequence corresponding to the confidential information 2 to 10 does not match forward. Further, the determination unit 13 determines the prefix match with the secret information phoneme sequence corresponding to the secret information 1 to 10 only by the output phoneme “go”. In this example, it is assumed that the confidential information phoneme sequence starting with the phoneme sequence "go" is not registered in the confidential information list 141. Therefore, the determination unit 13 sets all the confidential information determination signals (individual) corresponding to each of the confidential information 1 to 10 to a low (Low) level, and is low by the logical sum of the signal levels of the confidential information determination signals (individual). The confidential information determination signal (comprehensive) set to the level is transmitted to the voice data concealment unit 15. In this way, the determination unit 13 determines the output phoneme that constitutes the end of the combined output phoneme sequence, that is, the latest output phoneme, even when the secret information phoneme sequence that has previously matched the combined output phoneme sequence no longer exists. Is determined to be a prefix match with the confidential information phoneme sequence. As a result, it is possible to appropriately determine whether or not the input voice may match the keyword including personal information and the like.

音声データ秘匿部15の出力制御部150は、時刻t15での秘匿情報判定処理に基づいて実行する音声秘匿処理において、秘匿情報判定信号(総合)の信号レベルが低(Low)レベルであることに基づいて、バッファ出力が可能であると判定し(ステップS22のYES)、バッファ151に蓄積されているデジタル音声データを出力する(ステップS26)。図4に示すように、時刻t15においてバッファ151には、区間6~12に対応する7区間分のデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーゴ」に相当)が蓄積されている。上述のように、バッファ151は、先入れ先出し方式によりデジタル音声データが入出力される。このため、出力制御部150は、時系列順、すなわち先にバッファ151に蓄積された区間から順に連続して、逐次デジタル音声データを出力する。本例では、区間106~112がこの順に、バッファ151から連続して出力される。これにより、複数区間に含まれるデジタル音声データは一連の入力音声の時系列による連続性を保持してネットワーク3を介して音声認識サーバ100へ送信される。音声認識サーバ100は、受信したデジタル音声データについて音声認識を行い、音声認識結果をサーバ500に送信する。このため、サーバ500は、ユーザが発話した内容に応じた処理結果(例えば情報検索結果)を音声処理装置1に返すことができる。 In the voice concealment processing executed based on the concealment information determination processing at time t15, the output control unit 150 of the voice data concealment unit 15 has a low signal level of the concealment information determination signal (comprehensive). Based on this, it is determined that buffer output is possible (YES in step S22), and the digital audio data stored in the buffer 151 is output (step S26). As shown in FIG. 4, at time t15, the buffer 151 stores digital voice data for seven sections corresponding to sections 6 to 12 (corresponding to the input voice “zero cue zero zero ichinigo”). As described above, digital audio data is input / output to / from the buffer 151 by the first-in first-out method. Therefore, the output control unit 150 sequentially outputs digital audio data in chronological order, that is, in order from the section previously stored in the buffer 151. In this example, the sections 106 to 112 are continuously output from the buffer 151 in this order. As a result, the digital voice data included in the plurality of sections is transmitted to the voice recognition server 100 via the network 3 while maintaining the continuity of the series of input voices in the time series. The voice recognition server 100 performs voice recognition on the received digital voice data and transmits the voice recognition result to the server 500. Therefore, the server 500 can return the processing result (for example, the information retrieval result) according to the content spoken by the user to the voice processing device 1.

なお、本発明において、バッファ151におけるデジタル音声データの入出力方法は、先入れ先出し方式に限られない。音声秘匿装置10は、バッファ151に蓄積された複数区間分のデジタル音声データを、時系列順を維持した状態で音声認識サーバ100に送信可能であれば、バッファ151においてどのような方式でデジタル音声データの入出力を行ってもよい。 In the present invention, the input / output method of digital audio data in the buffer 151 is not limited to the first-in first-out method. If the voice concealment device 10 can transmit the digital voice data for a plurality of sections stored in the buffer 151 to the voice recognition server 100 while maintaining the time-series order, the digital voice in the buffer 151 is used in any manner. Data may be input / output.

図4に示すように、時刻t15の経過後、時刻t16までの期間に音声認識部12に出力された区間113~116に含まれるデジタル音声データは、それぞれ出力音素「yon(ヨン)」「roku(ロク)」「nana(ナナ)」「hachi(ハチ)」として認識され、判定部13において順次、秘匿情報判定処理が実行される。区間113~116に含まれるデジタル音声データに対応する出力音素は、区間101~105に含まれるデジタル音声データに対応する出力音素と同様に、判定部13において秘匿情報リスト141に蓄積された秘匿情報1~10いずれの秘匿情報音素系列とも前方一致および完全一致しないと判定されたとする。このため、区間113~116に含まれるデジタル音声データは、秘匿情報判定処理後において出力制御部150により即座にバッファ151から出力される。したがって、時刻t15の経過後から時刻t16までの期間において、音声認識サーバには「ヨン」「ロク」「ナナ」「ハチ」という4区間分のデジタル音声データが送信される。 As shown in FIG. 4, the digital voice data included in the sections 113 to 116 output to the voice recognition unit 12 during the period from the time t15 to the time t16 are the output phonemes "yon" and "roku", respectively. (Roku) ”,“ nana ”, and“ hachi ”are recognized, and the determination unit 13 sequentially executes the confidential information determination process. The output phonemes corresponding to the digital voice data included in the sections 113 to 116 are the secret information stored in the secret information list 141 in the determination unit 13 in the same manner as the output phonemes corresponding to the digital voice data included in the sections 101 to 105. It is assumed that it is determined that there is no prefix match or perfect match with any of the confidential information phoneme sequences 1 to 10. Therefore, the digital voice data included in the sections 113 to 116 is immediately output from the buffer 151 by the output control unit 150 after the confidential information determination processing. Therefore, in the period from the lapse of the time t15 to the time t16, the digital voice data for four sections of "Yon", "Roku", "Nana", and "Hachi" are transmitted to the voice recognition server.

以上、図1から図4を用いて説明したように、本実施形態による音声秘匿装置10は、複数のキーワードが音情報に変換された秘匿情報音素系列(音素系列情報の一例)を記憶可能な記憶部14と、所定の音声発生源(例えば、音声処理装置1のユーザ)からの入力音声(入力音声データ)を、逐次音声認識処理により音素レベルで認識した情報である出力音素(出力音素情報の一例)として出力する音声認識部12と、音声認識部12が出力した出力音素が記憶部14の秘匿情報リスト141に記憶されている秘匿情報音素系列(記憶音素情報の一例)との一致の度合いに基づいて入力音声データとキーワードとが一致するおそれがあるか否かを逐次判定可能な判定部13と、判定部13によりキーワードと一致するおそれがあると判定された入力音声データに対応するデジタル音声データの内容を秘匿可能な音声データ秘匿部15と、を備える。
また、判定部13は、音声認識部12が出力した出力音素と記憶部14に記憶されている秘匿情報音素系列の前方一致の度合いに基づいて所定の音声発生源からの入力音声データとキーワード(個人情報等)とが一致するおそれがあるか否かを逐次判定可能であり、音声データ秘匿部15は、判定部13により秘匿情報音素系列との前方一致の度合いが所定の度合い以上であると判定された出力音素に対応する音声データの内容を秘匿可能である。
As described above with reference to FIGS. 1 to 4, the voice concealment device 10 according to the present embodiment can store a concealed information phone series (an example of phone series information) in which a plurality of keywords are converted into sound information. Output voice (output sound element information) which is information recognized at the sound element level by sequential voice recognition processing of input voice (input voice data) from the storage unit 14 and a predetermined voice generation source (for example, the user of the voice processing device 1). The voice recognition unit 12 output as an example) and the secret information sound element sequence (an example of the stored sound element information) in which the output sound element output by the voice recognition unit 12 is stored in the secret information list 141 of the storage unit 14 are the same. Corresponds to the determination unit 13 capable of sequentially determining whether or not the input voice data and the keyword may match based on the degree, and the input voice data determined by the determination unit 13 to match the keyword. It is provided with an audio data concealment unit 15 capable of concealing the contents of digital audio data.
Further, the determination unit 13 has input voice data and keywords from a predetermined voice source based on the degree of prefix matching between the output phoneme output by the voice recognition unit 12 and the confidential information phoneme sequence stored in the storage unit 14. It is possible to sequentially determine whether or not there is a possibility of matching with (personal information, etc.), and the voice data concealment unit 15 determines that the degree of prefix matching with the concealment information phoneme sequence is equal to or higher than a predetermined degree by the determination unit 13. The content of the voice data corresponding to the determined output phoneme can be concealed.

これにより、本実施形態による音声秘匿装置10は、例えば入力音声の一部が個人情報等のキーワード(ユーザが秘匿を所望する情報(秘匿情報))と前方一致し入力音声がキーワードと一致する可能性が生じた段階で、入力音声の内容を秘匿することができる。したがって、音声秘匿装置10は、一連の入力音声(例えば「電話番号は09001234567」)の音声認識における早期の段階、すなわち完全一致を待たずに一致するおそれが生じた段階で、確実かつ迅速に個人情報等を含む秘匿情報の流出を防止することができる。 As a result, in the voice concealment device 10 according to the present embodiment, for example, a part of the input voice may be prefix-matched with a keyword such as personal information (information that the user wants to conceal (confidential information)), and the input voice may match the keyword. The content of the input voice can be concealed at the stage when the sex occurs. Therefore, the voice concealment device 10 reliably and promptly performs an individual at an early stage in voice recognition of a series of input voices (for example, "phone number is 090012345667"), that is, at a stage where there is a possibility of matching without waiting for an exact match. It is possible to prevent the leakage of confidential information including information.

また、本発明による音声秘匿装置10は、判定部13において、音声認識部12による入力音声の認識結果である出力音素と秘匿情報リスト141に蓄積されている秘匿情報音素系列との一致の度合い(例えば、前方一致しているか否か)を判定する。出力音素および秘匿情報音素系列はいずれも音情報である。このため、音声秘匿装置10は、秘匿情報との一致の判定を行う度に、予め登録されている秘匿情報のデータ型(例えばテキスト)と入力音声のデータ型とを一致させる処理を行う必要がない。したがって、音声秘匿装置10は、秘匿情報判定処理時の処理負荷を低減させ、かつ処理速度の迅速性を維持して入力音声の内容と秘匿情報(例えば個人情報等を含むキーワード)との比較を効率的に行うことができる。 Further, in the voice concealment device 10 according to the present invention, in the determination unit 13, the degree of matching between the output phoneme which is the recognition result of the input voice by the voice recognition unit 12 and the concealed information phoneme sequence stored in the concealed information list 141 ( For example, whether or not there is a prefix match) is determined. Both output phonemes and confidential information phoneme sequences are sound information. For this reason, the voice concealment device 10 needs to perform a process of matching the data type of the concealed information (for example, text) registered in advance with the data type of the input voice each time the concealment device 10 determines the match with the concealed information. not. Therefore, the voice concealment device 10 reduces the processing load at the time of concealment information determination processing and maintains the rapid processing speed to compare the content of the input voice with the concealed information (for example, a keyword including personal information). It can be done efficiently.

また、本発明による音声秘匿装置10において、音声データ秘匿部15は、判定部13により所定の音声発生源(例えば、音声処理装置1のユーザ)からの入力音声データが個人情報等のキーワードと完全一致する可能性がないと判定された場合に、該入力音声に対応するデジタル音声データの内容を秘匿しない。これにより、音声秘匿装置10は、入力音声データに秘匿情報が含まれるおそれがないと判定された時点で迅速にデジタル音声データを出力して音声認識サーバ100へ送信することができる。このため、音声秘匿装置10は、音声処理装置1のユーザが秘匿を所望する情報(秘匿対象情報)の流出防止と、音声認識サーバ100を利用したサービスの提供速度の維持を両立することができる。 Further, in the voice concealment device 10 according to the present invention, in the voice data concealment unit 15, the input voice data from a predetermined voice generation source (for example, the user of the voice processing device 1) is completely combined with a keyword such as personal information by the determination unit 13. When it is determined that there is no possibility of matching, the content of the digital voice data corresponding to the input voice is not concealed. As a result, the voice concealment device 10 can quickly output the digital voice data and transmit it to the voice recognition server 100 when it is determined that there is no possibility that the input voice data contains the concealed information. Therefore, the voice concealment device 10 can both prevent the leakage of information (information to be concealed) desired to be concealed by the user of the voice processing device 1 and maintain the service provision speed using the voice recognition server 100. ..

(1-5)音声秘匿プログラム
本実施形態の音声秘匿装置10は、コンピュータやスマートスピーカ等の情報端末装置である音声処理装置1に展開されたソフトウェアプログラム(音声秘匿プログラム)であって、ソフトウェアプログラムの指令により音声処理装置1のCPUが演算処理を実行することによって構成される。すなわち、本実施形態による音声秘匿プログラムは、所定の情報端末装置(本例では音声処理装置1)を、複数のキーワードが音素系列情報に変換された秘匿情報音素系列を記憶可能な記憶部14、所定の音声発生源(例えば、音声処理装置1のユーザ)から入力された入力音声を、逐次音声認識処理により音素レベルで認識した出力音素として出力する音声認識部12、音声認識部12が出力した出力音素と記憶部14の秘匿情報リスト141に記憶されている秘匿情報音素系列情報との一致の度合いに基づいて入力音声データとキーワードとが一致するおそれがあるか否かを逐次判定可能な判定部13、および判定部13により個人情報等のキーワードと一致するおそれがあると判定された入力音声データに対応するデジタル音声データの内容を秘匿可能な音声データ秘匿部15として機能させる。
(1-5) Voice Concealment Program The voice concealment device 10 of the present embodiment is a software program (voice concealment program) developed in the voice processing device 1 which is an information terminal device such as a computer or a smart speaker, and is a software program. The CPU of the voice processing device 1 executes arithmetic processing according to the command of. That is, in the voice concealment program according to the present embodiment, a predetermined information terminal device (voice processing device 1 in this example) is stored in a storage unit 14 capable of storing a concealed information sound element sequence in which a plurality of keywords are converted into sound element sequence information. The voice recognition unit 12 and the voice recognition unit 12 output the input voice input from a predetermined voice generation source (for example, the user of the voice processing device 1) as an output sound recognized at the sound element level by the sequential voice recognition process. Judgment that it is possible to sequentially determine whether or not there is a possibility that the input voice data and the keyword match based on the degree of matching between the output voice and the secret information sound element sequence information stored in the secret information list 141 of the storage unit 14. The content of the digital voice data corresponding to the input voice data determined by the unit 13 and the determination unit 13 to match the keyword such as personal information is made to function as the voice data concealment unit 15.

(第1実施形態の変形例1)
次に、図5Aを用いて、第1実施形態の変形例1について説明する。変形例1は、音声秘匿装置10が実行する秘匿情報判定処理および音声秘匿処理の内容が上記第1実施形態と異なる。具体的には、変形例1において、音声秘匿装置10は、入力音声データ中に個人情報等を含む内容の発話を行うと予測される情報(秘匿予測情報)が含まれるか否かに基づいて入力音声データ中に個人情報等の秘匿情報が含まれるおそれがあるか否かを判定し、該判定に応じてデジタル音声データのバッファ出力の可否を決定する。ここで、秘匿予測情報としては、例えば「電話番号は」、「名前は」のように続けて個人情報が発話されると予測されるキーワードが想定される。
(Modification 1 of the first embodiment)
Next, a modification 1 of the first embodiment will be described with reference to FIG. 5A. In the first modification, the contents of the confidential information determination process and the voice concealment process executed by the voice concealment device 10 are different from those of the first embodiment. Specifically, in the first modification, the voice concealment device 10 is based on whether or not the input voice data includes information (confidential prediction information) that is predicted to speak content including personal information and the like. It is determined whether or not there is a possibility that confidential information such as personal information is included in the input audio data, and whether or not the buffer output of the digital audio data is possible is determined according to the determination. Here, as the confidential prediction information, keywords such as "telephone number is" and "name is" are assumed in which personal information is predicted to be uttered in succession.

変形例1において記憶部14には、秘匿予測情報リストが記憶されている。秘匿予測情報リストは、秘匿情報リスト141と同様にテーブル形式で複数の秘匿予測情報を蓄積している。また、秘匿予測情報リストに蓄積されている秘匿予測情報は、秘匿情報と同様に、音声処理装置1のユーザが音声処理装置1と接続された所定の情報端末装置を用いて予め登録した情報である。なお、変形例1において、記憶部14には秘匿予測情報リストのみが記憶されていてもよいし、秘匿予測情報リストおよび秘匿情報リスト141の両方が記憶されていてもよい。 In the first modification, the storage unit 14 stores a secret prediction information list. Like the secret information list 141, the secret prediction information list stores a plurality of secret prediction information in a table format. Further, the confidential prediction information stored in the confidential prediction information list is information registered in advance by the user of the voice processing device 1 using a predetermined information terminal device connected to the voice processing device 1, similar to the confidential information. be. In the first modification, the storage unit 14 may store only the secret prediction information list, or may store both the secret prediction information list and the secret information list 141.

図5Aは、変形例1における秘匿情報判定処理および音声秘匿処理を時系列で説明する図である。本例において、秘匿予測情報リストには、秘匿予測情報として「電話番号は」という内容を示す秘匿予測音素系列「(デンワバンゴウワ)」(秘匿予測情報1)および「名前は」という内容を示す秘匿予測音素系列「(ナマエワ)」(秘匿予測情報2)が少なくとも蓄積されているとする。図5Aは、音声入力装置11から入力音声として秘匿予測情報1と完全一致する内容が含まれる音声(本例では「電話番号は09001234567」)が入力された場合における秘匿情報判定処理の一例を示している。本例における一連の入力音声は図3における入力音声と同一内容である。このため、図5Aでは図3と同様に、入力音声が区間1~16の16個の区間に分けて表されている。 FIG. 5A is a diagram illustrating the confidential information determination process and the voice confidentiality process in the first modification in chronological order. In this example, in the concealment prediction information list, the concealment prediction phoneme series "(Denwabangowa)" (confidential prediction information 1) and "name is" indicating the content of "telephone number is" as the concealment prediction information. It is assumed that at least the phoneme series "(Namaeva)" (confidential prediction information 2) is accumulated. FIG. 5A shows an example of confidential information determination processing when a voice (in this example, “telephone number is 090012345667”) including a content that completely matches the confidential prediction information 1 is input from the voice input device 11 as input voice. ing. The series of input voices in this example has the same contents as the input voices in FIG. Therefore, in FIG. 5A, as in FIG. 3, the input voice is divided into 16 sections of sections 1 to 16.

図5Aに示すように、判定部13は、時刻t20において、区間1に含まれるデジタル音声データに対応する出力音素「den(デン)」について、秘匿予測情報1の秘匿予測情報音素系列と前方一致すると判定する。また、判定部13は、秘匿予測音素系列と前方一致した出力音素を所定の記憶領域で保持し、時刻t21までの期間において、区間2~5に対応するデジタル音声データを順次結合した結合出力音素系列を生成する。 As shown in FIG. 5A, at time t20, the determination unit 13 forward-matches the output phoneme “den” corresponding to the digital voice data included in the section 1 with the secret prediction information phoneme sequence of the secret prediction information 1. Then it is determined. Further, the determination unit 13 holds the output phonemes that are in front of the concealed predicted phoneme sequence in a predetermined storage area, and the combined output phonemes in which the digital voice data corresponding to the sections 2 to 5 are sequentially combined in the period up to the time t21. Generate a series.

判定部13は、時刻t21の期間において生成した結合出力音素系列「デンワバンゴウワ」(区間1~5に対応する出力音素の結合)と、秘匿予測情報1の秘匿予測音素系列(「デンワバンゴウワ」)とが完全一致すると判定し、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定する。信号レベルが高レベルの秘匿予測情報判定信号は、出力音素が秘匿予測音素系列と完全一致していることを示す。また、判定部13は、時刻t21において、結合出力音素系列「デンワバンゴウワ」と、秘匿予測情報2の秘匿予測音素系列(「ナマエワ」)とが完全一致しないと判定し、秘匿予測情報2に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定する。信号レベルが低レベルの秘匿予測情報判定信号(個別)は、出力音素が秘匿予測音素系列と完全一致していないことを示す。判定部13は、秘匿予測情報1、2に対応する秘匿予測情報判定信号(個別)の論理和をとって、高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。 The determination unit 13 has a combined output phoneme sequence "Denwabangowa" (combination of output phonemes corresponding to intervals 1 to 5) generated in the period t21 and a secret predicted phoneme sequence ("Denwabangowa") of the secret prediction information 1. It is determined that the match is perfect, and the secret prediction information determination signal (individual) corresponding to the secret prediction information 1 is set to a high level. The concealment prediction information determination signal having a high signal level indicates that the output phoneme completely matches the concealment prediction phoneme sequence. Further, the determination unit 13 determines at time t21 that the combined output phoneme sequence “Denwabangowa” and the secret prediction phoneme sequence (“Namaeva”) of the secret prediction information 2 do not completely match, and corresponds to the secret prediction information 2. The confidential prediction information judgment signal (individual) is set to the low level. The concealment prediction information determination signal (individual) having a low signal level indicates that the output phoneme does not completely match the concealment prediction phoneme sequence. The determination unit 13 takes the logical sum of the confidential prediction information determination signals (individual) corresponding to the confidential prediction information 1 and 2, and outputs a high-level confidential prediction information determination signal (comprehensive) to the voice data concealment unit 15.

また、判定部13は、時刻t21において秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定すると、時刻t22以降、予め定められた一定期間(例えば5秒間)に亘って音声認識部12から出力音素が出力される度に、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高レベルに設定し、高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。音声データ秘匿部15の出力制御部150は、時刻t21において判定部13から高レベルの秘匿予測情報判定信号を受信すると、時刻t22以降、低レベルの秘匿予測情報判定信号(総合)を受信するまでの期間、すなわち上述の一定期間に亘って音声入力装置11からバッファ151に入力されたデジタル音声データを削除する。すなわち、変形例1において、この一定期間が、バッファ151からデジタル音声データが出力されない出力停止期間となる。本例では、図5Aに示すように、時刻t22から時刻t23までの期間において、判定部13がレベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力し、該期間中にバッファ151に入力された区間6~16に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」に対応)が、出力制御部150により順次削除される。 Further, when the secret prediction information determination signal (individual) corresponding to the secret prediction information 1 is set to a high level at the time t21, the determination unit 13 sets a predetermined fixed period (for example, 5 seconds) after the time t22. Each time the output sound element is output from the voice recognition unit 12, the concealment prediction information determination signal (individual) corresponding to the concealment prediction information 1 is set to a high level, and the concealment prediction information determination signal (comprehensive) at a high level is set. Is output to the voice data concealment unit 15. When the output control unit 150 of the voice data concealment unit 15 receives the high-level concealment prediction information determination signal from the determination unit 13 at time t21, after the time t22 until the low-level concealment prediction information determination signal (comprehensive) is received. The digital audio data input to the buffer 151 from the audio input device 11 is deleted from the audio input device 11 over the above-mentioned fixed period. That is, in the first modification, this fixed period is the output stop period during which the digital audio data is not output from the buffer 151. In this example, as shown in FIG. 5A, during the period from time t22 to time t23, the determination unit 13 outputs the level concealment prediction information determination signal (comprehensive) to the voice data concealment unit 15, and buffers during the period. The digital audio data included in the sections 6 to 16 input to 151 (corresponding to the input audio "Zero Cue Zero Zero Ichiny Sanyon Gorokunana") is sequentially deleted by the output control unit 150.

このように、変形例1において、音声秘匿装置10は、判定部13により入力音声に秘匿予測情報と一致する内容が含まれると判定されたこと、すなわち、入力音声データとキーワード(音声秘匿情報)とが一致するおそれがあると判定されたことに基づいて、判定後の予め定められた一定期間(出力停止期間)に音声処理装置1のユーザから入力された入力音声データに対応するデジタル音声データ(音声入力装置11からバッファ151に入力されたデジタル音声データ)の内容を秘匿する(バッファ出力を停止する)ことができる。これにより、変形例1における音声秘匿装置10は、個人情報等を含む秘匿情報をユーザが発話するよりも前の時点、すなわちユーザが秘匿情報を発話することが予測された時点で入力音声の内容を秘匿することができる。また、出力停止期間において出力制御部150は、バッファ151に入力されたデジタル音声データを削除する。これにより、変形例1における音声秘匿装置10は、個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。 As described above, in the first modification, the voice concealment device 10 is determined by the determination unit 13 to include the content that matches the concealment prediction information in the input voice, that is, the input voice data and the keyword (voice concealment information). Digital voice data corresponding to the input voice data input from the user of the voice processing device 1 during a predetermined fixed period (output stop period) after the judgment based on the judgment that there is a possibility of matching with. The contents of (digital voice data input from the voice input device 11 to the buffer 151) can be concealed (buffer output is stopped). As a result, the voice concealment device 10 in the first modification is the content of the input voice at a time before the user speaks the confidential information including personal information, that is, at a time when it is predicted that the user will speak the confidential information. Can be kept secret. Further, during the output stop period, the output control unit 150 deletes the digital voice data input to the buffer 151. As a result, the voice concealment device 10 in the first modification can surely prevent the leakage of information (confidential information) that the user desires to conceal, such as personal information.

(第1実施形態の変形例2)
次に、図5Bを用いて第1実施形態の変形例2について説明する。変形例2は、判定部13により入力音声に秘匿予測情報と一致する内容が含まれると判定された場合における、出力停止期間の判定方法が変形例1と異なる。図5Bは、入力音声を複数区間に分けずに、音声区間と対応付けている点が図5Aと異なるが、この点以外は、図5Aと同様である。変形例2において、音声認識部12のエンジン部120は、所定時間に亘ってユーザによる発話が連続している音声区間と、発話中の息継ぎ等によって生じる一定時間(例えば、500ミリ秒)以上の無音の区間(音声が存在しない区間)とを判別し、音声区間ごとにデジタル音声データを音素レベルで認識して判定部13に出力する。
(Modification 2 of the first embodiment)
Next, a modification 2 of the first embodiment will be described with reference to FIG. 5B. In the modified example 2, the method of determining the output stop period is different from that of the modified example 1 when it is determined by the determination unit 13 that the input voice contains the content that matches the confidentiality prediction information. FIG. 5B is different from FIG. 5A in that the input voice is not divided into a plurality of sections and is associated with the voice section, but is the same as FIG. 5A except for this point. In the second modification, the engine unit 120 of the voice recognition unit 12 has a voice section in which the user speaks continuously for a predetermined time, and a fixed time (for example, 500 milliseconds) or more caused by breathing during the speech. It determines a silent section (a section in which no voice exists), recognizes digital voice data at the phoneme level for each voice section, and outputs the digital voice data to the determination unit 13.

図5Bに示すように、本例においてエンジン部120は、「デンワバンゴウワ」という一連の入力音声に対応する音声区間ac1(時刻t30から時刻t31)に含まれるデジタル音声データについて音素レベルで認識し、時刻t31において出力音素「denwabangouwa(デンワバンゴウワ)」を判定部13に出力する。判定部13は、時刻t31において出力音素が秘匿予測情報1の秘匿予測音素系列(「デンワバンゴウワ」)と完全一致すると判定し、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定する。また、時刻t31において判定部13は、出力音素と秘匿予測情報2の秘匿予測音素系列(「ナマエワ」)とが完全一致しないと判定し、秘匿予測情報2に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿予測情報1、2に対応する秘匿予測情報判定信号(個別)の論理和をとって高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。 As shown in FIG. 5B, in this example, the engine unit 120 recognizes the digital voice data included in the voice section ac1 (time t30 to time t31) corresponding to a series of input voices called "Denwabangowa" at the phoneme level, and recognizes the time. At t31, the output phoneme "denwabangouwa" is output to the determination unit 13. The determination unit 13 determines that the output phoneme completely matches the secret prediction phoneme sequence (“Denwabangowa”) of the secret prediction information 1 at time t31, and sets the secret prediction information determination signal (individual) corresponding to the secret prediction information 1 high (individual). High) Set to level. Further, at time t31, the determination unit 13 determines that the output phoneme and the secret prediction phoneme sequence (“Namaeva”) of the secret prediction information 2 do not completely match, and the secret prediction information determination signal (individual) corresponding to the secret prediction information 2. ) Is set to the low level. The determination unit 13 takes a logical sum of the concealment prediction information determination signals (individual) corresponding to the concealment prediction information 1 and 2, and outputs a high-level concealment prediction information determination signal (comprehensive) to the voice data concealment unit 15.

また、判定部13は、時刻t31において秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定すると、以降、所定数分(例えば2個分)の音声区間に対応する期間において、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高レベルに設定し、各音声区間に含まれるデジタル音声データに対応する出力音素が音声認識部12から出力される度に高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。音声データ秘匿部15の出力制御部150は、時刻t31において判定部13から高レベルの秘匿予測情報判定信号を受信すると、時刻t32以降、所定数分(例えば2個分)の音声区間に対応するデジタル音声データをバッファ151から削除する。本例では、図5Bに示すように、秘匿予測情報1の秘匿予測音素系列と一致する内容のデジタル音声データを含む音声区間ac1の後続の音声区間ac2(時刻t32から時刻t33の期間に相当)、ac3(時刻t34から時刻t35の区間に相当)の2つの音声区間に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」に対応)がバッファ151から削除される。このように変形例2において、所定数(本例では2)の音声区間に相当する期間が出力停止期間となる。また、出力停止期間の終了後、判定部13は秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定するとともに、低レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。これにより、出力停止期間の終了後において、出力制御部150は、バッファ151に入力されたデジタル音声データのバッファ出力が可能となる。 Further, when the determination unit 13 sets the confidential prediction information determination signal (individual) corresponding to the confidential prediction information 1 to a high level at time t31, the voice section is subsequently set to a predetermined number of minutes (for example, two). In the corresponding period, the secret prediction information determination signal (individual) corresponding to the secret prediction information 1 is set to a high level, and the output sound corresponding to the digital voice data included in each voice section is output from the voice recognition unit 12. A high-level concealment prediction information determination signal (comprehensive) is output to the voice data concealment unit 15 each time. When the output control unit 150 of the voice data concealment unit 15 receives a high-level concealment prediction information determination signal from the determination unit 13 at time t31, the output control unit 150 corresponds to a predetermined number of minutes (for example, two) of voice sections after time t32. Delete the digital audio data from the buffer 151. In this example, as shown in FIG. 5B, the subsequent voice section ac2 (corresponding to the period from time t32 to time t33) including the digital voice data having the content matching the secret prediction phoneme sequence of the secret prediction information 1. , Ac3 (corresponding to the section from time t34 to time t35), the digital voice data (corresponding to the input voice "Zero Cue Zero Zero Ichini Sanyon Gorokunana") is deleted from the buffer 151. As described above, in the modification 2, the period corresponding to the predetermined number of voice sections (2 in this example) is the output stop period. Further, after the end of the output stop period, the determination unit 13 sets the confidential prediction information determination signal (individual) corresponding to the confidential prediction information 1 to a low level, and sets the low level confidential prediction information determination signal (comprehensive). Is output to the voice data concealment unit 15. As a result, after the end of the output stop period, the output control unit 150 can output the digital audio data input to the buffer 151 to the buffer.

このように、本変形例2において、音声秘匿装置10は、判定部13により入力音声データに秘匿予測情報と一致する内容が含まれると判定されたことに基づいて、判定後に所定の音声発生源から入力された入力音声データに対応するデジタル音声データのうち所定数の音声区間の音声データの内容を秘匿することができる。すなわち、出力制御部150は、判定部13による判定後の所定数の音声区間に相当する期間(出力停止期間)に音声入力装置11からバッファ151に入力されたデジタル音声データを秘匿する(バッファ出力を停止する)ことができる。これにより、変形例2における音声秘匿装置10は、ユーザが秘匿情報を発話することが予測された時点で入力音声の内容を秘匿することができる。また、出力停止期間において出力制御部150は、バッファ151に入力されたデジタル音声データを削除する。これにより、変形例2における音声秘匿装置10は、個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。 As described above, in the present modification 2, the voice concealment device 10 is determined by the determination unit 13 that the input voice data includes the content that matches the concealment prediction information, and after the determination, the predetermined voice generation source is determined. Of the digital audio data corresponding to the input audio data input from, the content of the audio data in a predetermined number of audio sections can be concealed. That is, the output control unit 150 conceals the digital voice data input from the voice input device 11 to the buffer 151 during the period corresponding to a predetermined number of voice sections (output stop period) after the judgment by the judgment unit 13 (buffer output). Can be stopped). As a result, the voice concealment device 10 in the second modification can conceal the content of the input voice when it is predicted that the user will utter the confidential information. Further, during the output stop period, the output control unit 150 deletes the digital voice data input to the buffer 151. As a result, the voice concealment device 10 in the second modification can surely prevent the leakage of information (confidential information) that the user desires to conceal, such as personal information.

音声秘匿装置10は、予め定められた一定時間を出力停止期間とする変形例1と、所定数の音声区間に相当する期間を出力停止期間とする変形例2との両方を実行可能であってもよい。例えば、変形例1における秘匿情報判定処理および音声秘匿処理と、変形例2における秘匿情報判定処理および音声秘匿処理とを、所定の条件で切り替えて、または組み合わせて実行してもよい。例えば、音声秘匿装置10は、予め定められた一定時間を出力停止期間とするか、または所定数の音声区間に相当する期間を出力停止期間とするように構成されもよい。例えば、音声秘匿装置10は、予め定められた一定時間と、所定数の音声区間に相当する期間のいずれかに属する期間のうちの少なくとも一方に属する期間を出力停止期間とするように構成されてもよい。 The voice concealment device 10 can execute both the modified example 1 in which the output stop period is a predetermined fixed time and the modified example 2 in which the period corresponding to a predetermined number of voice sections is the output stop period. May be good. For example, the confidential information determination process and the voice concealment process in the modified example 1 and the confidential information determination process and the voice concealment process in the modified example 2 may be switched or executed under predetermined conditions. For example, the voice concealment device 10 may be configured such that a predetermined fixed time is set as an output stop period, or a period corresponding to a predetermined number of voice sections is set as an output stop period. For example, the voice concealment device 10 is configured such that a period belonging to at least one of a predetermined fixed time and a period corresponding to a predetermined number of voice sections is set as an output stop period. May be good.

なお、本実施形態において、音声秘匿装置10は、入力音声とキーワードとが一致するおそれがあるか否かを、秘匿情報音素系列と出力音素との前方一致によって判定するとしたが、秘匿情報音素系列のうち前方一致の対象とする部分(秘匿情報音素系列の先頭からの個数)を、秘匿情報音素系列ごとに設定できるようにしてもよい。これにより、一致のおそれを秘匿情報の内容や音声認識部12の特性等に応じてより適切に判定できる。また、一致の度合いの算出は前方一致に限られず、例えば、中間一致(前方部分のうち混同を生じやすい冒頭の音素を除く部分との一致)により算出してもよい。音声秘匿装置10は、一致の度合いに基づき一致のおそれを判定することで、音声認識における早期の段階、すなわち完全一致を待たずに一致するおそれが生じた段階で、確実かつ迅速に個人情報等を含む秘匿情報の流出を防止することができる。 In the present embodiment, the voice concealment device 10 determines whether or not there is a possibility that the input voice and the keyword match, based on the prefix matching between the concealed information phoneme sequence and the output phoneme, but the concealed information phoneme sequence. Of these, the part to be the target of prefix matching (the number from the beginning of the secret information phoneme series) may be set for each secret information phoneme series. As a result, the possibility of matching can be more appropriately determined according to the content of the confidential information, the characteristics of the voice recognition unit 12, and the like. Further, the calculation of the degree of coincidence is not limited to the prefix match, and may be calculated by, for example, an intermediate match (match with the portion of the front part excluding the phoneme at the beginning which is likely to be confused). The voice concealment device 10 determines the possibility of matching based on the degree of matching, so that personal information and the like can be reliably and promptly determined at an early stage in voice recognition, that is, at a stage where there is a risk of matching without waiting for an exact match. It is possible to prevent the leakage of confidential information including.

2.第2実施形態
次に、本発明の第2実施形態による音声秘匿装置について図6および図7を用いて説明する。本実施形態による音声秘匿装置20は、情報端末装置等の一構成要素としてではなく単独で構成される点で、第1実施形態による音声秘匿装置10と異なる。音声秘匿装置20は例えば、スマートスピーカ等の音声認識機能を備えた情報端末装置の近傍に配置されて、情報端末装置のユーザが秘匿を所望する秘匿情報を妨害音の出力により秘匿する装置である。
2. 2. Second Embodiment Next, the voice concealment device according to the second embodiment of the present invention will be described with reference to FIGS. 6 and 7. The voice concealment device 20 according to the present embodiment is different from the voice concealment device 10 according to the first embodiment in that it is configured independently rather than as a component of an information terminal device or the like. The voice concealment device 20 is, for example, a device that is arranged in the vicinity of an information terminal device having a voice recognition function such as a smart speaker, and conceals the concealed information that the user of the information terminal device desires to conceal by outputting a disturbing sound. ..

図6に示すように、音声秘匿装置20は、音声入力部21と、エコーキャンセラ22と、音声認識部12と、判定部13と、記憶部14と、音声データ秘匿部25とを有している。音声秘匿装置20において、第1実施形態による音声秘匿装置10と同一の作用効果を有する構成は、図1に示す音声秘匿装置10と同一の符号を付し、詳細な説明は省略する。 As shown in FIG. 6, the voice concealment device 20 includes a voice input unit 21, an echo canceller 22, a voice recognition unit 12, a determination unit 13, a storage unit 14, and a voice data concealment unit 25. There is. In the voice concealment device 20, the configuration having the same operation and effect as the voice concealment device 10 according to the first embodiment is designated by the same reference numerals as the voice concealment device 10 shown in FIG. 1, and detailed description thereof will be omitted.

音声入力部21は、第1実施形態による音声秘匿装置10を有する音声処理装置1(図1参照)が備える音声入力装置11と同様の機能を有する。音声入力部21は、入力音声データから生成されたデジタル音声データをサンプリング単位でエコーキャンセラ22に出力する。 The voice input unit 21 has the same function as the voice input device 11 included in the voice processing device 1 (see FIG. 1) having the voice concealment device 10 according to the first embodiment. The voice input unit 21 outputs the digital voice data generated from the input voice data to the echo canceller 22 in sampling units.

エコーキャンセラ22は、音響エコーを抑制、除去する機能を有する。音声秘匿装置20において抑制、除去の対象となる音響エコーは、音声入力部21に収音された、音声秘匿装置20からの妨害音に対応する入力音声データである。例えば、エコーキャンセラ22は、音声入力部21からサンプリング単位で入力されたデジタル音声データから、妨害音に該当する信号を除去して、妨害音が除去されたデジタル音声データを音声認識部12に出力する。これにより、音声認識部12は、妨害音を含まないデジタル音声データについて逐次音声認識処理を実行し、出力音素を判定部13に出力することができる。 The echo canceller 22 has a function of suppressing and removing acoustic echo. The acoustic echo to be suppressed or removed in the voice concealment device 20 is input voice data corresponding to the disturbing sound from the voice concealment device 20 collected by the voice input unit 21. For example, the echo canceller 22 removes the signal corresponding to the disturbing sound from the digital voice data input from the voice input unit 21 in sampling units, and outputs the digital voice data from which the disturbing sound has been removed to the voice recognition unit 12. do. As a result, the voice recognition unit 12 can sequentially execute voice recognition processing on the digital voice data that does not include the disturbing sound, and output the output phonemes to the determination unit 13.

音声秘匿装置20における記憶部14は、秘匿情報リスト142を有している。秘匿情報リスト142には、秘匿情報リスト141と同様に音声秘匿装置20のユーザが秘匿を所望する秘匿情報(個人情報等のキーワード)が秘匿情報音素系列として蓄積されている。さらに秘匿情報リスト142には、各秘匿情報音素系列に紐づけて一致度合判定値が記憶されている。一致度合判定値は、秘匿情報音素系列を構成する音素のうち結合出力音素系列と前方一致している音素の割合を示す値である。詳しくは後述するが、音声秘匿装置20における判定部13は、秘匿情報判定処理において一致度合判定値を用いる。 The storage unit 14 in the voice concealment device 20 has a concealment information list 142. Similar to the confidential information list 141, the confidential information list 142 stores confidential information (keywords such as personal information) that the user of the voice concealing device 20 desires to conceal as a confidential information phoneme series. Further, in the confidential information list 142, the matching degree determination value is stored in association with each confidential information phoneme sequence. The degree of matching determination value is a value indicating the ratio of phonemes that are in front of the combined output phoneme sequence among the phonemes constituting the secret information phoneme sequence. As will be described in detail later, the determination unit 13 in the voice concealment device 20 uses the concordance degree determination value in the concealment information determination process.

音声データ秘匿部25は、秘匿情報に該当するおそれがある内容を含む音声(秘匿対象音声)を秘匿する音声秘匿処理を実行する。本実施形態による音声秘匿装置20において、秘匿対象音声の秘匿は、秘匿対象音声に重畳させて所定の妨害音を出力することを示す。音声秘匿装置20が妨害音を出力すると、音声秘匿装置20の近傍に配置された情報端末装置には、秘匿対象音声とともに妨害音が入力される。これにより、情報端末装置は、秘匿対象音声の認識が困難となり、秘匿対象音声が情報端末装置を介してネットワーク上に流出することが防止される。 The voice data concealment unit 25 executes a voice concealment process for concealing voice (voice to be concealed) including contents that may correspond to confidential information. In the voice concealment device 20 according to the present embodiment, concealment of the concealment target voice indicates that a predetermined disturbing sound is output by superimposing it on the concealment target voice. When the voice concealment device 20 outputs a disturbing sound, the disturbing sound is input to the information terminal device arranged in the vicinity of the voice concealing device 20 together with the concealed target voice. This makes it difficult for the information terminal device to recognize the confidential voice, and prevents the confidential voice from leaking onto the network via the information terminal device.

音声データ秘匿部25は、妨害音を出力可能な波形出力器(妨害音出力部の一例)251と、波形出力器が生成した波形に対応する妨害音を出力するスピーカ(妨害音出力部の一例)252と、判定部13による秘匿情報判定結果に基づいて波形出力器251における妨害音声波形の生成を制御することにより、スピーカ252からの妨害音の出力を制御する妨害音出力制御部250と、を有している。波形出力器251が生成する波形による妨害音としては、例えば、テレビ放送等において自主規制音として用いられる音(所謂、ピー音)や、ブザー音等が想定される。妨害音出力制御部250は、判定部13が導出した秘匿情報判定結果に基づいて妨害音の出力可否を決定し、波形出力器251における妨害音声波形の生成を制御する。波形出力器251は、妨害音出力制御部250が妨害音を出力可能と判定した場合に妨害音声波形を生成し、生成した妨害音声波形を含む信号をスピーカ252に送信する。これにより、秘匿情報判定結果に基づいて妨害音声がスピーカ252から出力され、秘匿対象音声が秘匿される。また、波形出力器251が生成する妨害音声波形に相当する音声波形は、予めエコーキャンセラ22に入力されている。このため、エコーキャンセラ22は、入力音声データに含まれる妨害音に相当するデジタル信号を、デジタル音声データから除去することができる。 The voice data concealment unit 25 includes a waveform output device (an example of an interference sound output unit) 251 capable of outputting an interference sound and a speaker (an example of an interference sound output unit) that outputs an interference sound corresponding to the waveform generated by the waveform output device. ) 252, the disturbing sound output control unit 250 that controls the output of the disturbing sound from the speaker 252 by controlling the generation of the disturbing sound waveform in the waveform output device 251 based on the confidential information determination result by the determination unit 13. have. As the disturbing sound generated by the waveform generated by the waveform output device 251, for example, a sound used as a self-regulating sound in television broadcasting or the like (so-called beep sound), a buzzer sound, or the like is assumed. The disturbing sound output control unit 250 determines whether or not to output the disturbing sound based on the confidential information determination result derived by the determination unit 13, and controls the generation of the disturbing voice waveform in the waveform output device 251. The waveform output device 251 generates a disturbing voice waveform when the disturbing sound output control unit 250 determines that the disturbing sound can be output, and transmits a signal including the generated disturbing voice waveform to the speaker 252. As a result, the disturbing voice is output from the speaker 252 based on the secret information determination result, and the secret target voice is concealed. Further, the voice waveform corresponding to the disturbing voice waveform generated by the waveform output device 251 is input to the echo canceller 22 in advance. Therefore, the echo canceller 22 can remove the digital signal corresponding to the disturbing sound included in the input voice data from the digital voice data.

(2-1)音声秘匿処理
次に、図6を参照しつつ図7を用いて、音声データ秘匿部25における音声秘匿処理の流れの一例を説明する。図7は、音声秘匿処理の流れを説明するフローチャートである。音声秘匿処理は、妨害音出力制御部250による妨害音出力の制御により、秘匿対象音声の認識を困難にする処理である。本実施形態において音声秘匿処理は、秘匿情報判定処理結果が判定部13から音声データ秘匿部25に入力されたことに基づいて実行される。すなわち、音声秘匿処理は、音声入力部21に入力音声データが入力されて、エコーキャンセラ22での音響エコーの除去を経てサンプリング単位で音声認識部12に出力され、判定部13において秘匿情報判定処理が実行される度に繰り返し実行される。
(2-1) Voice Concealment Processing Next, with reference to FIG. 6, an example of the flow of voice concealment processing in the voice data concealment unit 25 will be described with reference to FIG. 7. FIG. 7 is a flowchart illustrating a flow of voice concealment processing. The voice concealment process is a process that makes it difficult to recognize the concealed voice by controlling the disturbing sound output by the disturbing sound output control unit 250. In the present embodiment, the voice concealment processing is executed based on the fact that the concealment information determination processing result is input from the determination unit 13 to the voice data concealment unit 25. That is, in the voice concealment processing, the input voice data is input to the voice input unit 21, the acoustic echo is removed by the echo canceller 22, and the voice is output to the voice recognition unit 12 in sampling units. Is executed repeatedly every time.

(ステップS31)
ステップS31において、妨害音出力制御部250は、判定部13から秘匿情報判定結果を受信し、ステップS32の処理に移る。
(Step S31)
In step S31, the disturbing sound output control unit 250 receives the confidential information determination result from the determination unit 13, and proceeds to the process of step S32.

(ステップS32)
ステップS32において妨害音出力制御部250は、判定部13から受信した秘匿情報判定信号に基づいて秘匿情報判定結果を確認し、音声認識部12においてデジタル音声データを音素レベルで認識した出力音素が、秘匿情報音素系列と前方一致しているか否かを判定する。妨害音出力制御部250は、高レベルの秘匿情報判定信号を受信した場合に出力音素が秘匿情報音素系列と前方一致していると判定し、ステップS33の処理に移る。妨害音出力制御部250は、信号レベルが高レベルの秘匿情報判定信号を受信したことで、処理対象のデジタル音声データが秘匿対象音声に対応すると認識する。一方、妨害音出力制御部250は、低レベルの秘匿情報判定信号を受信した場合に出力音素が秘匿情報音素系列と前方一致していないと判定し、ステップS34の処理に移る。妨害音出力制御部250は、信号レベルが低レベルの秘匿情報判定信号を受信したことで、処理対象のデジタル音声データが秘匿対象音声に対応しないと認識する。
(Step S32)
In step S32, the disturbing sound output control unit 250 confirms the confidential information determination result based on the confidential information determination signal received from the determination unit 13, and the output phoneme that the voice recognition unit 12 recognizes the digital voice data at the phoneme level is generated. Confidential information Determines whether or not there is a prefix match with the phoneme sequence. When the disturbing sound output control unit 250 receives the high-level confidential information determination signal, it determines that the output phoneme is forward-matched with the confidential information phoneme sequence, and proceeds to the process of step S33. The disturbing sound output control unit 250 recognizes that the digital voice data to be processed corresponds to the secret target voice by receiving the secret information determination signal having a high signal level. On the other hand, when the disturbing sound output control unit 250 receives the low-level confidential information determination signal, it determines that the output phoneme does not match the confidential information phoneme sequence in the forward direction, and proceeds to the process of step S34. The disturbing sound output control unit 250 recognizes that the digital voice data to be processed does not correspond to the secret target voice because the confidential information determination signal having a low signal level is received.

(ステップS33)
ステップS33において、妨害音出力制御部250は、波形出力器251から妨害音を出力させ、音声秘匿処理を終了する。妨害音出力制御部250は、ステップS33において出力音素が秘匿情報音素系列と前方一致していないと判定されるまで、波形出力器251における妨害音出力を継続する。
(Step S33)
In step S33, the disturbing sound output control unit 250 outputs the disturbing sound from the waveform output device 251 and ends the voice concealment processing. The disturbing sound output control unit 250 continues to output the disturbing sound in the waveform output device 251 until it is determined in step S33 that the output phoneme does not forwardly match the confidential information phoneme sequence.

(ステップS34)
ステップS34において、妨害音出力制御部250は、波形出力器251において妨害音が出力中か否かを判定する。妨害音出力制御部250は妨害音が出力中であると判定するとステップS35の処理に移る。一方、妨害音出力制御部250は妨害音が出力中でないと判定すると音声秘匿処理を終了する。
(Step S34)
In step S34, the disturbing sound output control unit 250 determines whether or not the disturbing sound is being output by the waveform output device 251. When the disturbing sound output control unit 250 determines that the disturbing sound is being output, the process proceeds to step S35. On the other hand, when the disturbing sound output control unit 250 determines that the disturbing sound is not being output, the voice concealment processing is terminated.

(ステップS35)
ステップS35において、妨害音出力制御部250は、波形出力器251における妨害音の出力を停止して、音声秘匿処理を終了する。
(Step S35)
In step S35, the disturbing sound output control unit 250 stops the output of the disturbing sound in the waveform output device 251 and ends the voice concealment processing.

このように、本実施形態による音声秘匿装置20において、音声データ秘匿部25の妨害音出力制御部250は、判定部13により個人情報等のキーワードと入力音声データとが一致するおそれがある(例えば、出力音素が秘匿情報音素系列と前方一致している)と判定された場合に、波形出力器251(妨害音出力部の一例)に妨害音声波形を生成させることで、スピーカ252(妨害音出力部の一例)から妨害音声波形に基づく妨害音(所定の妨害音の一例)を出力させる。これにより、音声秘匿装置20は、ユーザが登録した秘匿情報(例えば個人情報等を含むキーワード)を含むおそれのある秘匿対象音声を秘匿し、秘匿対象音声が音声認識機能を有する情報端末装置を介してネットワーク上に流出(音声認識サーバ等へ送信)されるのを防止することができる。 As described above, in the voice concealment device 20 according to the present embodiment, the disturbing sound output control unit 250 of the voice data concealment unit 25 may match the keyword such as personal information with the input voice data by the determination unit 13 (for example). , When it is determined that the output sound is in front of the confidential information sound element sequence), the waveform output device 251 (an example of the disturbing sound output unit) is used to generate the disturbing voice waveform, so that the speaker 252 (jamming sound output) is generated. A disturbing sound (an example of a predetermined disturbing sound) based on the disturbing voice waveform is output from the part). As a result, the voice concealment device 20 conceals the concealed target voice that may include confidential information (for example, a keyword including personal information) registered by the user, and the concealed target voice is via an information terminal device having a voice recognition function. It is possible to prevent the information from being leaked (transmitted to a voice recognition server or the like) on the network.

(2-2)秘匿情報判定処理
次に、第2実施形態による音声秘匿装置20における秘匿情報判定処理について説明する。音声秘匿装置20の判定部13は、秘匿情報音素系列と出力音素との一致の度合が一致度合判定値に達している(所定の度合い以上である)場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定する。具体的には、判定部13は、秘匿情報判定処理において、秘匿情報音素系列を構成する音素のうち一致度合判定値が示す割合に対応する数の音素が結合出力音素系列(連続した入力音声に対応する出力音素の結合)と前方一致するか否かを判定する。例えば、秘匿情報音素系列を構成する音素が10個、一致度合判定値が60%の場合、秘匿情報音素系列のうち先頭から6個(=10個×60%)の音素が結合出力音素と一致した時点、すなわち秘匿情報音素系列と出力音素との一致度合が60%に到達した時点で、入力音声データと秘匿情報とが一致するおそれがあると判定される。一致度合判定値は、ユーザが任意の値に設定可能である。また一致度合判定値は、値を適宜に変更可能であり、ユーザによって設定されない場合は、デフォルト値(例えば60%)が設定されてもよい。
(2-2) Confidential Information Determination Process Next, the confidential information determination process in the voice concealment device 20 according to the second embodiment will be described. When the degree of matching between the confidential information phoneme sequence and the output phoneme reaches the matching degree determination value (more than a predetermined degree), the determination unit 13 of the voice concealment device 20 contains the concealment information in the input voice data. Judge that it may be included. Specifically, in the confidential information determination process, the determination unit 13 combines the number of phonemes corresponding to the ratio indicated by the matching degree determination value among the phonemes constituting the confidential information phoneme sequence (to a continuous input voice). It is determined whether or not there is a prefix match with the combination of the corresponding output phonemes). For example, when there are 10 phonemes constituting the confidential information phoneme sequence and the matching degree judgment value is 60%, the first 6 (= 10 × 60%) phonemes of the confidential information phoneme sequence match the combined output phonemes. At that time, that is, when the degree of matching between the confidential information phoneme sequence and the output phoneme reaches 60%, it is determined that the input voice data and the confidential information may match. The degree of matching determination value can be set by the user to any value. Further, the matching degree determination value can be appropriately changed, and if it is not set by the user, a default value (for example, 60%) may be set.

図6に示す秘匿情報リスト142には、電話番号を示す秘匿情報n「09001234567」に対応付けて、一致度合判定値として「60%」が登録されている。この場合、判定部13は、秘匿情報n「09001234567」に対応する秘匿情報音素系列を構成する39個の音素(zerokyuuzerozeroichiniisanyongorokunana)のうち、60%にあたる23個(小数点は切り捨て)の音素が結合出力音素系列と一致している場合に、秘匿情報nに対応する秘匿情報判定信号(個別)を高レベルに設定し、高レベルの秘匿情報判定信号(総合)を妨害音出力制御部250に出力する。このように判定部13は、一致度合判定値に基づいて、結合出力音素と秘匿情報音素系列との前方一致の有無の判断基準となる秘匿情報音素系列の音素数を算出する。 In the confidential information list 142 shown in FIG. 6, "60%" is registered as a match degree determination value in association with the confidential information n "090012344567" indicating a telephone number. In this case, the determination unit 13 has 23 phonemes (the fractions are truncated), which is 60% of the 39 phonemes (zerokyuuzerozeroichiniisanyongorokunana) constituting the secret information phoneme sequence corresponding to the secret information n "0901234567", as combined output phonemes. When the sequence matches, the confidential information determination signal (individual) corresponding to the confidential information n is set to a high level, and the high-level confidential information determination signal (comprehensive) is output to the disturbing sound output control unit 250. In this way, the determination unit 13 calculates the number of phonemes of the secret information phoneme series, which is a criterion for determining whether or not there is a prefix match between the combined output phoneme and the secret information phoneme series, based on the matching degree determination value.

例えば、秘匿情報nと完全一致する内容を含む入力音声「電話番号は09001234567」が音声秘匿装置20に入力されたとする。この場合、判定部13は、「090012」という内容を含むデジタル音声データに対応する結合出力音素系列が秘匿情報nの秘匿情報音素系列と前方一致すると判定した時点で、秘匿情報nに対応する秘匿情報音素系列と結合出力音素系列との前方一致の度合いが60%に到達したと判定する。これに伴い、判定部13は、入力音声が秘匿対象音声であると判定し、秘匿情報nに対応する秘匿情報判定信号(個別)を高(High)レベルに設定するとともに、高レベルの秘匿情報判定信号(総合)を妨害音出力制御部250に出力する。妨害音出力制御部250の妨害音出力制御部250は、高レベルの秘匿情報判定信号を受信すると、妨害音声波形を生成するように波形出力器251を制御し、波形出力器251から妨害波形信号の入力を受けたスピーカ252が妨害音を出力する(ステップS33)。
これにより、一連の入力音声のうち秘匿情報nの後半にあたる秘匿対象音声「34567」に重畳して妨害音が出力される。このため、音声秘匿装置20の近傍に配置された情報端末装置には、秘匿対象音声の少なくとも一部とともに妨害音が入力される。したがって、情報端末装置は秘匿対象音声の認識が困難となり、秘匿情報が情報端末装置を介してネットワーク上に流出することが防止される。また、一致度合判定値を所定の値以上(例えば、50%以上)に設定することにより、秘匿情報と一致しない入力音声データが秘匿情報と一致のおそれありと判定される頻度が低減され、それにより、不必要な妨害音の発生を抑えることができる。
For example, it is assumed that the input voice "telephone number is 090012345667" including the content that completely matches the confidential information n is input to the voice concealment device 20. In this case, when the determination unit 13 determines that the combined output phoneme sequence corresponding to the digital voice data including the content "090012" is forwardly matched with the confidential information phoneme sequence of the confidential information n, the confidential information corresponding to the confidential information n is concealed. It is determined that the degree of prefix matching between the information phoneme sequence and the combined output phoneme sequence has reached 60%. Along with this, the determination unit 13 determines that the input voice is the confidential voice, sets the confidential information determination signal (individual) corresponding to the confidential information n to a high level, and sets the high level confidential information. The determination signal (comprehensive) is output to the disturbing sound output control unit 250. When the interference sound output control unit 250 of the interference sound output control unit 250 receives a high-level confidential information determination signal, the interference sound output control unit 250 controls the waveform output device 251 so as to generate an interference sound waveform, and the interference waveform signal from the waveform output device 251. The speaker 252 receiving the input of the above outputs the disturbing sound (step S33).
As a result, the disturbing sound is output by superimposing on the secret target voice "34567" which is the latter half of the secret information n in the series of input voices. Therefore, the disturbing sound is input to the information terminal device arranged in the vicinity of the voice concealment device 20 together with at least a part of the concealment target voice. Therefore, it becomes difficult for the information terminal device to recognize the voice to be concealed, and it is prevented that the confidential information is leaked to the network via the information terminal device. Further, by setting the matching degree determination value to a predetermined value or more (for example, 50% or more), the frequency of determining that the input voice data that does not match the confidential information may match the confidential information is reduced. Therefore, it is possible to suppress the generation of unnecessary disturbing sounds.

(第2実施形態の変形例)
音声秘匿装置20における判定部13は、秘匿情報判定処理において、秘匿情報音素系列に変換前のユーザが入力したキーワード(テキスト情報)と、一致度合判定値とを用いて入力音声データ中に秘匿情報が含まれるおそれがあるか否かを判定してもよい。この場合、判定部13は、キーワードを構成する文字のうち一致度合判定値が示す割合に対応する数の文字が入力音声から導出されるテキスト情報と前方一致する場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定してもよい。本例では、音声認識部12において、音素レベルで認識したデジタル音声データをテキスト情報(音素変換テキスト)に変換し、音素変換テキストを判定部13に出力する。また、秘匿情報音素系列に変換する前のキーワードが秘匿情報リスト142に記憶されている。これにより、判定部13は、キーワードと音素変換テキストとの前方一致の度合いが一致度合判定値に設定された割合に達しているか否かを判定することができる。例えば、一致度合判定値が30%である場合、判定部13は、10文字のキーワードのうち3文字が音素変換テキストと前方一致した場合、すなわち前方一致の度合いが30%である場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定する。
(Modified example of the second embodiment)
In the confidential information determination process, the determination unit 13 in the voice concealment device 20 uses the keyword (text information) input by the user before conversion into the concealment information phoneme sequence and the concealment degree determination value in the concealment information in the input voice data. It may be determined whether or not there is a possibility that is included. In this case, the determination unit 13 conceals the characters constituting the keyword in the input voice data when the number of characters corresponding to the ratio indicated by the matching degree determination value matches the text information derived from the input voice. It may be determined that the information may be included. In this example, the voice recognition unit 12 converts the digital voice data recognized at the phoneme level into text information (phoneme conversion text), and outputs the phoneme conversion text to the determination unit 13. Further, the keywords before being converted into the confidential information phoneme series are stored in the confidential information list 142. As a result, the determination unit 13 can determine whether or not the degree of prefix matching between the keyword and the phoneme conversion text has reached the ratio set in the matching degree determination value. For example, when the degree of matching determination value is 30%, the determination unit 13 inputs when 3 characters out of the 10-character keywords are prefix-matched with the phoneme conversion text, that is, when the degree of prefix matching is 30%. It is determined that the voice data may contain confidential information.

以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。 Although the present invention has been described above with reference to each embodiment, the scope of the present invention is not limited to the illustrated and described exemplary embodiments, and the present invention has an effect equivalent to that of the object of the present invention. Also includes all embodiments. Furthermore, the scope of the present invention is not limited to the combination of the features of the invention defined by the claims, but may be defined by any desired combination of specific features among all disclosed features.

1 音声処理装置
3 ネットワーク
9 音声認識サービスシステム
10、20 音声秘匿装置
11 音声入力装置
12 音声認識部
13 判定部
14 記憶部
15、25 音声データ秘匿部
21 音声入力部
22 エコーキャンセラ
120 エンジン部
121 モデル
141 秘匿情報リスト
150 出力制御部
151 バッファ
100 音声認識サーバ
250 妨害音出力制御部
251 波形出力器
500 サーバ
1 Voice processing device 3 Network 9 Voice recognition service system 10, 20 Voice concealment device 11 Voice input device 12 Voice recognition unit 13 Judgment unit 14 Storage unit 15, 25 Voice data concealment unit 21 Voice input unit 22 Echo canceller 120 Engine unit 121 Model 141 Confidential information list 150 Output control unit 151 Buffer 100 Voice recognition server 250 Interfering sound output control unit 251 Waveform output device 500 Server

Claims (7)

複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、
音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、
前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、
前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、
を備え
前記判定部は、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との前方一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能であり、
前記音声データ秘匿部は、前記判定部により前記記憶音素情報との前方一致の度合いが所定の度合い以上であると判定された前記出力音素情報に対応する音声データの内容を秘匿可能であ
ことを特徴とする音声秘匿装置。
A storage unit that can store phoneme sequence information in which multiple keywords are converted into sound information,
A voice recognition unit that outputs voice data obtained by converting input voice from a voice source into a digital signal as output phoneme information, which is information recognized at the phoneme level by sequential voice recognition processing.
Whether or not there is a possibility that the input voice and the keyword may match based on the degree of matching between the output phoneme information output by the voice recognition unit and the stored phoneme information which is the phoneme sequence information stored in the storage unit. A judgment unit that can sequentially determine whether or not
A voice data concealment unit capable of concealing the content of voice data corresponding to the input voice determined by the determination unit to be likely to match the keyword.
Equipped with
In the determination unit, the input voice and the keyword match based on the degree of prefix matching between the output phoneme information output by the voice recognition unit and the stored phoneme information which is the phoneme sequence information stored in the storage unit. It is possible to sequentially determine whether or not there is a risk of
The voice data concealment unit can conceal the content of the voice data corresponding to the output phoneme information whose degree of prefix matching with the stored phoneme information is determined by the determination unit to be equal to or higher than a predetermined degree. A voice concealment device featuring.
複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、
音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、
前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、
記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、
を備え、
前記音声認識部は、前記入力音声を変換した音声データについて音声が存在する音声区間と音声が存在しない無音区間とを判別し、
前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと一致するおそれがあると判定されたことに基づいて、該判定後の予め定められた一定期間に前記音声発生源から入力された入力音声に対応する音声データの内容、または該判定後に前記音声発生源から入力された入力音声に対応する音声データのうち所定数の音声区間の音声データの内容を秘匿する
ことを特徴とする音声秘匿装置。
A storage unit that can store phoneme sequence information in which multiple keywords are converted into sound information,
A voice recognition unit that outputs voice data obtained by converting input voice from a voice source into a digital signal as output phoneme information, which is information recognized at the phoneme level by sequential voice recognition processing.
Whether or not there is a possibility that the input voice and the keyword may match based on the degree of matching between the output phoneme information output by the voice recognition unit and the stored phoneme information which is the phoneme sequence information stored in the storage unit. A judgment unit that can sequentially determine whether or not
A voice data concealment unit capable of concealing the content of voice data corresponding to the input voice determined by the determination unit to be likely to match the keyword.
Equipped with
The voice recognition unit discriminates between a voice section in which voice exists and a silent section in which voice does not exist in the voice data obtained by converting the input voice.
The voice data concealment unit is input from the voice source within a predetermined fixed period after the determination based on the determination by the determination unit that the input voice may match the keyword. Conceal the content of the voice data corresponding to the input voice, or the content of the voice data in a predetermined number of voice sections among the voice data corresponding to the input voice input from the voice source after the determination.
A voice concealment device characterized by this.
前記音声認識部は、前記入力音声を変換した音声データについて音声が存在する音声区間と音声が存在しない無音区間とを判別し、
前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと一致するおそれがあると判定されたことに基づいて、該判定後の予め定められた一定期間に前記音声発生源から入力された入力音声に対応する音声データの内容、または該判定後に前記音声発生源から入力された入力音声に対応する音声データのうち所定数の音声区間の音声データの内容を秘匿すること
を特徴とする請求項1に記載の音声秘匿装置。
The voice recognition unit discriminates between a voice section in which voice exists and a silent section in which voice does not exist in the voice data obtained by converting the input voice.
The voice data concealment unit is input from the voice source within a predetermined fixed period after the determination based on the determination by the determination unit that the input voice may match the keyword. It is characterized in that the content of the voice data corresponding to the input voice or the content of the voice data in a predetermined number of voice sections among the voice data corresponding to the input voice input from the voice source after the determination is concealed. The voice concealment device according to claim 1 .
前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと完全一致する可能性がないと判定された場合に、該入力音声に対応する音声データの内容を秘匿しないこと
を特徴とする請求項1から3のいずれか1項に記載の音声秘匿装置。
The voice data concealment unit is characterized in that the content of the voice data corresponding to the input voice is not concealed when the determination unit determines that the input voice is unlikely to completely match the keyword. The voice concealment device according to any one of claims 1 to 3 .
前記音声データ秘匿部は、
前記入力音声を変換した音声データを一時的に蓄積可能なバッファと、
前記判定部による判定結果に基づいて前記バッファに蓄積されている音声データの出力を制御するバッファ出力制御部と
を有し、
前記バッファ出力制御部は、前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データを前記バッファから出力しないこと
を特徴とする請求項1から4のいずれか1項に記載の音声秘匿装置。
The voice data concealment unit is
A buffer that can temporarily store the voice data converted from the input voice, and
It has a buffer output control unit that controls the output of audio data stored in the buffer based on the determination result by the determination unit.
One of claims 1 to 4, wherein the buffer output control unit does not output voice data corresponding to the input voice determined by the determination unit to be likely to match the keyword from the buffer. The voice concealment device according to item 1.
前記音声データ秘匿部は、
妨害音を出力可能な妨害音出力部と、
前記判定部による判定結果に基づいて、前記妨害音出力部からの妨害音の出力を制御する妨害音出力制御部と
を有し、
前記妨害音出力制御部は、前記判定部により前記キーワードと前記入力音声とが一致するおそれがあると判定された場合に、所定の妨害音を前記妨害音出力部に出力させること
を特徴とする請求項1から5のいずれか1項に記載の音声秘匿装置。
The voice data concealment unit is
Interfering sound output unit that can output interfering sound,
It has an interfering sound output control unit that controls the output of the interfering sound from the interfering sound output unit based on the determination result by the determination unit.
The disturbing sound output control unit is characterized in that when it is determined by the determination unit that the keyword and the input voice may match, a predetermined disturbing sound is output to the disturbing sound output unit. The voice concealment device according to any one of claims 1 to 5.
所定の情報端末装置を、
複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部、
音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部、
前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部、および
前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部
として機能させ
前記判定部は、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との前方一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能であり、
前記音声データ秘匿部は、前記判定部により前記記憶音素情報との前方一致の度合いが所定の度合い以上であると判定された前記出力音素情報に対応する音声データの内容を秘匿可能であ
ことを特徴とする音声秘匿プログラム。
The specified information terminal device,
A storage unit that can store phoneme sequence information in which multiple keywords are converted into sound information.
A voice recognition unit that outputs voice data obtained by converting input voice from a voice source into a digital signal as output phoneme information, which is information recognized at the phoneme level by sequential voice recognition processing.
Whether or not there is a possibility that the input voice and the keyword may match based on the degree of matching between the output phoneme information output by the voice recognition unit and the stored phoneme information which is the phoneme sequence information stored in the storage unit. It functions as a determination unit that can sequentially determine whether or not, and a voice data concealment unit that can conceal the content of the voice data corresponding to the input voice that is determined by the determination unit to be likely to match the keyword .
In the determination unit, the input voice and the keyword match based on the degree of prefix matching between the output phoneme information output by the voice recognition unit and the stored phoneme information which is the phoneme sequence information stored in the storage unit. It is possible to sequentially determine whether or not there is a risk of
The voice data concealment unit can conceal the content of the voice data corresponding to the output phoneme information whose degree of prefix matching with the stored phoneme information is determined by the determination unit to be equal to or higher than a predetermined degree. A voice concealment program featuring.
JP2018023005A 2018-02-13 2018-02-13 Voice concealment device and voice concealment program Active JP7049629B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018023005A JP7049629B2 (en) 2018-02-13 2018-02-13 Voice concealment device and voice concealment program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018023005A JP7049629B2 (en) 2018-02-13 2018-02-13 Voice concealment device and voice concealment program

Publications (2)

Publication Number Publication Date
JP2019139089A JP2019139089A (en) 2019-08-22
JP7049629B2 true JP7049629B2 (en) 2022-04-07

Family

ID=67693880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023005A Active JP7049629B2 (en) 2018-02-13 2018-02-13 Voice concealment device and voice concealment program

Country Status (1)

Country Link
JP (1) JP7049629B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7405660B2 (en) 2020-03-19 2023-12-26 Lineヤフー株式会社 Output device, output method and output program
CN112183086B (en) * 2020-09-23 2024-06-14 北京先声智能科技有限公司 English pronunciation continuous reading marking model based on interest group marking

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103751A (en) 2008-10-23 2010-05-06 Yahoo Japan Corp Method for preventing prohibited word transmission, telephone for preventing prohibited word transmission, and server for preventing prohibited word transmission
JP2015206906A (en) 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Speech retrieval method, speech retrieval device, and program for speech retrieval device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103751A (en) 2008-10-23 2010-05-06 Yahoo Japan Corp Method for preventing prohibited word transmission, telephone for preventing prohibited word transmission, and server for preventing prohibited word transmission
JP2015206906A (en) 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Speech retrieval method, speech retrieval device, and program for speech retrieval device

Also Published As

Publication number Publication date
JP2019139089A (en) 2019-08-22

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP3414735B2 (en) Speech recognizer for languages with compound words
EP2660810B1 (en) Post processing of natural language ASR
KR100586286B1 (en) How to improve oral and command distinction
KR101034524B1 (en) Voice control unit for controlling devices based on voice, controlled devices and methods of controlling devices
CN116806355A (en) Speech shortcut detection with speaker verification
US12087297B2 (en) Voice filtering other speakers from calls and audio messages
US20030050777A1 (en) System and method for automatic transcription of conversations
JPH096389A (en) Voice recognition interactive processing method and voice recognition interactive device
JP7332132B2 (en) Language identification device and computer program therefor
JPWO2019031268A1 (en) Information processing device and information processing method
CN111179903A (en) Voice recognition method and device, storage medium and electric appliance
JP7049629B2 (en) Voice concealment device and voice concealment program
US20170270923A1 (en) Voice processing device and voice processing method
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
Suhm et al. Interactive recovery from speech recognition errors in speech user interfaces
JP2018116206A (en) Voice recognition device, voice recognition method and voice recognition system
JP2019132997A (en) Voice processing device, method and program
JP5493537B2 (en) Speech recognition apparatus, speech recognition method and program thereof
JP2003163951A (en) Sound signal recognition system and sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system
US11563708B1 (en) Message grouping
JP2019015950A (en) Voice recognition method, program, voice recognition apparatus, and robot
CN117795597A (en) Joint acoustic echo cancellation, speech enhancement and voice separation for automatic speech recognition
KR20190030970A (en) Apparatus for converting voice to text
KR101830210B1 (en) Method, apparatus and computer-readable recording medium for improving a set of at least one semantic unit

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220317

R150 Certificate of patent or registration of utility model

Ref document number: 7049629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150