[go: up one dir, main page]

JPWO2018043138A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JPWO2018043138A1
JPWO2018043138A1 JP2018537117A JP2018537117A JPWO2018043138A1 JP WO2018043138 A1 JPWO2018043138 A1 JP WO2018043138A1 JP 2018537117 A JP2018537117 A JP 2018537117A JP 2018537117 A JP2018537117 A JP 2018537117A JP WO2018043138 A1 JPWO2018043138 A1 JP WO2018043138A1
Authority
JP
Japan
Prior art keywords
voice
speech
information
speech recognition
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018537117A
Other languages
English (en)
Inventor
真一 河野
真一 河野
祐平 滝
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018043138A1 publication Critical patent/JPWO2018043138A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本発明は、より良好な音声入力を行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。音声情報から検出される発話の特徴および特定無音期間に基づいて、通常モードの音声認識処理および特殊モードの音声認識処理のいずれかが選択され、その選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報が出力される。本技術は、例えば、ネットワークを介して音声認識処理を提供する音声認識システムに適用できる。

Description

本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より良好な音声入力を行うことができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。
一般的に、音声認識処理では、音声情報に対して特徴量を抽出する処理が行われ、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)などの特徴量が抽出される。そして、音声情報から抽出された特徴量に基づいて、音声認識エンジンが、音響モデルや、認識辞書、言語モデルを参照して音声認識処理を行って、音声から認識された文字列が出力される。
例えば、特許文献1には、不特定多数のユーザを対象とする音声認識において、ユーザの類別に基づいて、音声認識に使用する音響モデルを選択する音声認識システムが開示されている。
特開2000−347684号公報
ところで、ゲームチャットやライブ配信プラットフォームなどにおいてメッセージを入力する用途では、通常の語句による文章だけでなく、ID(Identification)や、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊な文字列が入力されることがある。このような特殊な文字列に対して、音声認識処理を正確に行うことは困難であり、良好な音声入力を行うことが難しかった。
本発明は、このような状況に鑑みてなされたものであり、より良好な音声入力を行うことができるようにするものである。
本開示の一側面の情報処理装置は、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部とを備える。
本開示の一側面の情報処理方法またはプログラムは、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力するステップを含む。
本開示の一側面においては、ユーザの発話により得られる音声情報を取得して、声情報から発話の特徴が検出され、音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間が検出される。そして、音声情報から検出された発話の特徴、および、音声情報から検出された特定無音期間に基づいて、音声情報に対して行われる音声認識処理が選択され、その音声認識処理で認識された音声認識結果とともに、その音声認識処理が行われたことを示す音声認識結果情報が出力される。
本開示の一側面によれば、より良好な音声入力を行うことができる。
本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。 音声認識サーバの構成例を示すブロック図である。 文字列数字変換テーブルの一例を示す図である。 音声認識処理の基本的なユーザインタフェースの一例を示す図である。 音量レベルの比較について説明する図である。 通常モードの音声認識処理におけるユーザインタフェースの一例を示す図である。 音量レベルの比較および特定無音期間の検出について説明する図である。 1文字モードおよび大文字変換モードにおけるユーザインタフェースの一例を示す図である。 音声認識結果の一例を示す図である。 音量レベルの比較および特定無音期間の検出について説明する図である。 1文字モードおよび数字変換モードにおけるユーザインタフェースの一例を示す図である。 音声認識結果の一例を示す図である。 音声認識処理を説明するフローチャートである。 日本語に対する音声認識処理におけるユーザインタフェースの一例を示す図である。 音声認識処理を実現するAPIの一例を示す図である。 音声認識結果を強調表示する一例を示す図である。 音声認識結果を強調表示する他の例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
<音声認識システムの構成例>
図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。
図1に示すように、音声認識システム11は、インターネットなどのネットワーク12を介して、複数台(図1の例ではN台)のクライアント端末13−1乃至13−Nおよび音声認識サーバ14が接続されて構成される。なお、クライアント端末13−1乃至13−Nは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末13と称する。
クライアント端末13は、ユーザにより発話された音声を入力し、音声情報を取得するためのマイクロホンなどの音声情報取得装置を備えており、音声情報取得装置が取得した音声情報を、ネットワーク12を介して音声認識サーバ14に送信する。また、クライアント端末13は、音声認識サーバ14から送信されてくる音声認識結果を受信して、ユーザに提示する。例えば、クライアント端末13は、音声認識結果を表すユーザインタフェースを映像出力装置に表示したり、音声認識結果を表す合成音声を音声出力装置から出力したりする。
音声認識サーバ14は、ネットワーク12を介してクライアント端末13から送信されてくる音声情報に対する音声認識処理を行う。そして、音声認識サーバ14は、音声情報から認識された単語列などを音声認識結果として、ネットワーク12を介してクライアント端末13に送信する。このとき、音声認識サーバ14は、音声情報を送信してきたクライアント端末13だけでなく、例えば、そのクライアント端末13のユーザがコミュニケーションを行っている他のユーザのクライアント端末13にも、音声認識結果を送信することができる。
このように音声認識システム11は構成されており、クライアント端末13のユーザの発話により得られる音声情報が音声認識サーバ14に送信され、音声認識サーバ14において音声認識処理が行われ、クライアント端末13に音声認識結果が送信される。従って、音声認識システム11は、例えば、より高性能で最新の音声認識処理を音声認識サーバ14に実装することで、個々のクライアント端末13の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。
<音声認識サーバの第1の構成例>
図2は、音声認識サーバ14の第1の構成例を示すブロック図である。
図2に示すように、音声認識サーバ14は、通信部21、入力音処理部22、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、音声認識モード切り替え処理部26、通常モード音声認識部27、特殊モード音声認識部28、および音声認識結果出力処理部29を備えて構成される。
通信部21は、図1のネットワーク12を介して、クライアント端末13と各種の通信を行う。例えば、通信部21は、クライアント端末13から送信されてくる音声情報を受信して、入力音処理部22に供給する。また、通信部21は、音声認識結果出力処理部27から供給される音声認識結果情報を、クライアント端末13に送信する。
入力音処理部22は、通信部21から供給される音声情報に対して、通常モード音声認識部27および特殊モード音声認識部28において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部22は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するVAD(Voice Activity Detection)処理を行って、発話区間の音声情報を取得する。そして、入力音処理部22は、発話区間の音声情報を、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、および音声認識モード切り替え処理部26に供給する。
発話特徴検出部23は、入力音処理部22から供給される発話区間の音声情報から、ユーザの発話の特徴を検出して、その検出した発話の特徴を示す発話特徴検出結果を音声認識モード切り替え処理部26に供給する。
例えば、発話特徴検出部23は、発話の特徴として、音声情報に基づく音声の音量レベルを検出し、音声情報に基づく音声の音量レベルと、予め設定されている通常時の音量レベルとの比較結果を発話特徴検出結果とする。また、発話特徴検出部23は、例えば、発話の特徴として、音声情報に基づく音声の入力速度を検出し、それまでの音声の入力速度と相対的に比較した比較結果(それまでより速くなった/遅くなった)を発話特徴検出結果とする。また、発話特徴検出部23は、例えば、発話の特徴として、音声情報に基づく音声の周波数を検出し、それまでの音声の周波数と相対的に比較した比較結果(それまでより高くなった/低くなった)を発話特徴検出結果とする。
特定無音期間検出部24は、入力音処理部22から供給される発話区間の音声情報から、入力音処理部22が音声情報から発話区間を検出するVAD処理においては無音期間と判定されないような非常に短い無音期間を、特定無音期間として検出する。例えば、特定無音期間は、アルファベットを1文字ずつ発話する際の各アルファベットの発話の区切りで発生する短時間の無音期間であり、いわゆる間(ま)と称されるものである。そして、特定無音期間検出部24は、発話区間の音声情報から特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
雑音検出部25は、入力音処理部22から供給される発話区間の音声情報に含まれている雑音の音量レベルを検出し、その検出した雑音の音量レベルを音声認識モード切り替え処理部26に供給する。
音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、特定無音期間検出部24から供給される特定無音期間検出結果、および、雑音検出部25から供給される雑音の音量レベルに基づいて、音声認識処理を切り替える処理を行う。
例えば、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも低い場合には、通常モードの音声認識処理を選択する。一方、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高く、かつ、特定無音期間検出結果に基づいて、特定無音期間が所定の間隔で繰り返して検出されている場合、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。
また、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の入力速度が相対的に遅い場合、および、音声情報に基づく音声の周波数が相対的に高い場合にも、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高い場合と同様に、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。
ここで、例えば、ユーザが、通常よりも大きな音量で、間が空いたうえで短い発話と間とを繰り返すような発話をする場合、IDを入力するような1文字ずつの音声の入力が行われていると考えることができる。従って、この場合、音声認識モード切り替え処理部26は、そのような1文字ずつの音声認識を行う特殊モードの音声認識処理を選択することが好ましい。
さらに、音声認識モード切り替え処理部26は、雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、特殊モードの音声認識処理の選択を回避する。即ち、雑音が大きい場合には、特殊モードの音声認識処理の認識精度が低下することが考えられるため、特殊モードの音声認識処理を選択しないことが好ましい。
そして、音声認識モード切り替え処理部26は、通常モードの音声認識処理を選択した場合には、入力音処理部22から供給される発話区間の音声情報を通常モード音声認識部27に供給する。一方、音声認識モード切り替え処理部26は、特殊モードの音声認識処理を選択した場合には、入力音処理部22から供給される発話区間の音声情報を特殊モード音声認識部28に供給する。
通常モード音声認識部27は、例えば、従来と同様に、一般的な認識辞書を参照して、音声認識モード切り替え処理部26から供給される音声情報に対する音声認識処理を行う。そして、通常モード音声認識部27は、例えば、音声情報から認識された文字列を、音声認識結果として音声認識結果出力処理部29に供給する。
特殊モード音声認識部28は、音声認識モード切り替え処理部26から供給される音声情報から、IDや、省略語、固有名詞、ネットスラングなどのような特殊な文字列(以下適宜、特殊文字と称する)を認識する特殊モードの音声認識処理を行う。特殊モードの音声認識処理には、例えば、1文字ごとの音声認識を行う1文字モードや、音声認識結果をアルファベットの大文字に変換する大文字変換モード、音声認識結果の単語を数字に変換する数字変換モードなどがある。
例えば、特殊モード音声認識部28は、特定無音期間が所定の間隔で繰り返して検出されている場合、IDを入力するような1文字ずつの音声の入力が行われているとして、1文字モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部28は、1文字モードのときに、音声情報に基づく音声の音量レベルが通常時の音量レベルを超えている場合、認識した1文字をアルファベットの大文字に変換する大文字変換モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部28は、図3に示すような文字列数字変換テーブルを参照し、音声認識により認識した単語が文字列数字変換テーブルに登録されている場合、認識した単語を数字に変換する数字変換モードで特殊モードの音声認識処理を行う。
音声認識結果出力処理部29は、通常モード音声認識部27または特殊モード音声認識部28から供給される音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を生成して、通信部21に供給する。例えば、音声認識結果出力処理部29は、クライアント端末13のユーザに、音声認識結果および音声認識処理を認識させるためのユーザインタフェースを表示させる表示情報や、音声認識結果および音声認識処理を認識させるための合成音声を出力させるための合成音声情報などを音声認識結果情報として生成する。
このように音声認識サーバ14は構成されており、クライアント端末13からネットワーク12を介して送信されてくる音声情報に対して、通常モードの音声認識処理または特殊モードの音声認識処理を切り替えて、いずれかの音声認識処理を行うことができる。そして、音声認識サーバ14は、音声認識処理を行って得られる音声認識結果情報を、ネットワーク12を介してクライアント端末13に送信し、音声認識結果とともに、その音声認識結果が得られた音声認識処理をユーザに提示することができる。
従って、音声認識サーバ14は、例えば、一般的な認識辞書を参照しただけでは認識できないような特殊文字を、特殊モードの音声認識処理によって認識することができ、より良好な音声入力を提供することができる。
例えば、従来、IDや、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊文字に対する音声認識を行うことは、音声認識の技術的な特性(語句が登録された認識辞書を使って認識するという特性)より困難であった。また、このような特殊文字は、利用シーンなどによって表現方法が変更されることも多く、全ての特殊文字を認識辞書に登録することは現実的ではない。
具体的には、英語の語句「laughing out loud」に対して省略語「lol」が用いられることがあるが、省略語「lol」の発音としては、「エル・オー・エル」と一文字ずつ読むこともあれば、「ロゥル」と一つの単語として発音することもある。さらに、省略語「lol」のバリエーション(表記ゆれ)として、「LOLOLOLOL」や「lolz」「lul」などニュアンスの違いなどで表記が変わることがある。この例以外にも、同様な省略語が用いられることがあり、それらの全てを辞書に反映させることは非常に困難である。さらに、IDや、省略語、固有名詞、ネットスラングなどは、日々増えていくので辞書の反映にはコストが高過ぎると考えられる。または、ソーシャルネットワークの特定のグループの仲間だけで使用される言葉などは、通常、認識辞書に反映されることはない。
これに対し、音声認識サーバ14は、上述したような特殊モードの音声認識処理を行う条件が発生したときには、特殊モード音声認識部28により特殊モードの音声認識処理が行われるので、従来よりも、特殊文字に対する音声認識を正確に行うことができる。これにより、音声認識サーバ14は、通常の会話と、特殊文字の発話とが混在したような場合でも、適切に音声認識処理を選択することで、より良好な音声入力を提供することができる。
<音声認識システムの音声認識処理>
図4乃至図12を参照して、音声認識システム11により提供される音声認識処理について説明する。
ここで、図4乃至図12では、クライアント端末13のユーザが発話した「Let’s start this battle BTX505」という音声情報に対して、音声認識サーバ14において実行される音声認識処理について説明する。
例えば、クライアント端末13の映像出力装置の画面には、ユーザの発話状態を表すアイコン51が表示されており、ユーザの発話が検出されていないときには、図4の上段に示すように、アイコン51内のマイクロホンが薄く(図4の例では破線で)表示される。そして、クライアント端末13の音声情報取得装置がユーザの発話を検出すると、図4の下段に示すように、アイコン51内のマイクロホンの表示が濃く変更されるとともに、アイコン51の下方に、ユーザの発話から認識された文字を表示するための表示フィールド52が表示される。
図5には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」までが音声認識サーバ14に供給された状態が示されている。まず、音声認識サーバ14の発話特徴検出部23は、音声情報「Let's start this battle」から発話特徴を検出する処理として、音量レベルの比較を行う。図5の例では、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であり、発話特徴検出部23は、音量レベルは通常時音量レベル以下であることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
そして、音声認識モード切り替え処理部26は、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であるという発話特徴検出結果に従って、音声情報「Let's start this battle」に対する音声認識を通常モードで行うと判定する。これに基づき、音声認識モード切り替え処理部26は、音声情報「Let's start this battle」を通常モード音声認識部27に供給し、通常モード音声認識部27による通常モードの音声認識処理が行われる。
例えば、通常モード音声認識部27は、通常モードの音声認識処理を行った音声認識結果として、「Let's start this battle」という文字列を音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、音声認識結果「Let's start this battle」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
その結果、クライアント端末13では、通常モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。例えば、図6に示すように、通常モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺に湧き出すような動的な表示を行うユーザインタフェースが表示される。また、表示フィールド52には、通常モードの音声認識処理による認識途中の単語が順次表示される。即ち、図6の上側に示すように、表示フィールド52には、認識途中の音声認識結果「Let's start…」が表示される。そして、音声情報「Let's start this battle」に対する全ての音声認識が終了したとき、図6の下側に示すように、表示フィールド52には、音声認識結果「Let's start this battle」が表示される。
次に、図7には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」に続いて音声情報「BTX」までが音声認識サーバ14に供給された状態が示されている。なお、音声情報「BTX」に対して、通常モードの音声認識処理が行われた場合、図示するように「bee tee ecs」という音声認識結果が得られてしまう。
まず、発話特徴検出部23は、音声情報「BTX」から発話特徴を検出する処理として、音量レベルの比較を行う。図7の例では、音声情報「BTX」の音量レベルは通常時音量レベルを超えており、発話特徴検出部23は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
また、特定無音期間検出部24は、音声情報「BTX」から特定無音期間を検出する処理を行う。図7の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部24は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
そして、音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、および、特定無音期間検出部24から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図7に示す例では、音声認識モード切り替え処理部26は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。
従って、音声認識モード切り替え処理部26は、音声情報「BTX」を特殊モード音声認識部28に供給し、特殊モード音声認識部28による特殊モードの音声認識処理が行われる。
例えば、特殊モード音声認識部28は、特殊モード(1文字モードおよび大文字変換モード)の音声認識処理を行った音声認識結果として、「BTX」という大文字のアルファベットを音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、大文字のアルファベットの音声認識結果「BTX」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
その結果、クライアント端末13では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図8に示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1 character」および大文字変換モードの音声認識処理を示すマーク「Uppercase」が表示される。そして、1文字モードおよび大文字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺を移動しながら小文字から大文字に変換される動的な表示を行うユーザインタフェースが表示される。
図8には、小文字「b」から大文字「B」に変換されるユーザインタフェースの例が示されているが、これに続く大文字「T」および大文字「X」についても同様に処理が繰り返して行われる。そして、音声情報「BTX」に対する全ての音声認識が終了したとき、図9に示すように、表示フィールド52には、音声認識結果「Let's start this battle BTX」が表示される。
次に、図10には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle BTX」に続いて音声情報「505」が音声認識サーバ14に供給された状態が示されている。なお、音声情報「505」に対して、通常モードの音声認識処理が行われた場合、図示するように「five zero five」という音声認識結果が得られてしまう。
まず、発話特徴検出部23は、音声情報「505」から発話特徴を検出する処理として、音量レベルの比較を行う。図10の例では、音声情報「505」の音量レベルは通常時音量レベルを超えており、発話特徴検出部23は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
また、特定無音期間検出部24は、音声情報「505」から特定無音期間を検出する処理を行う。図10の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部24は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
そして、音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、および、特定無音期間検出部24から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図10に示す例では、音声認識モード切り替え処理部26は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。
従って、音声認識モード切り替え処理部26は、音声情報「BTX」を特殊モード音声認識部28に供給し、特殊モード音声認識部28による特殊モードの音声認識処理が行われる。
例えば、特殊モード音声認識部28は、特殊モード(1文字モードおよび数字変換モード)の音声認識処理を行った音声認識結果として、「505」という数字を音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、数字の音声認識結果「505」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
その結果、クライアント端末13では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図11に示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1 character」および数字変換モードの音声認識処理を示すマーク「Number」が表示される。そして、1文字モードおよび数字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺を移動しながら単語から数字に変換される動的な表示を行うユーザインタフェースが表示される。
図11には、単語「five」から数字「5」に変換されるユーザインタフェースの例が示されているが、これに続く数字「0」および数字「5」についても同様に処理が繰り返して行われる。そして、音声情報「505」に対する全ての音声認識が終了したとき、図12に示すように、表示フィールド52には、音声認識結果「Let's start this battle BTX505」が表示される。
<音声認識処理の説明>
図13は、音声認識サーバ14において実行される音声認識処理を説明するフローチャートである。
例えば、クライアント端末13からネットワーク12を介して送信されてくる音声情報を通信部21が受信して入力音処理部22に供給すると処理が開始される。ステップS11において、入力音処理部22は、通信部21から供給される音声情報から、クライアント端末13のユーザが発話した音声が含まれている発話区間を検出する処理を行う。
ステップS12において、入力音処理部22は、ステップS11での処理における発話区間の検出結果に従って、クライアント端末13のユーザによる発話が始まったか否かを判定する。ステップS12において、入力音処理部22が、発話が始まっていないと判定した場合、処理はステップS11に戻り、発話が始まったと判定されるまで、処理は待機される。
一方、ステップS12において、入力音処理部22が、クライアント端末13のユーザの発話が始まったと判定した場合、処理はステップS13に進む。このとき、入力音処理部22は、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、および音声認識モード切り替え処理部26への発話区間の音声情報の供給を開始する。
ステップS13において、発話特徴検出部23は、入力音処理部22から供給される発話区間の音声情報から発話特徴を検出する処理を行い、発話特徴検出結果を音声認識モード切り替え処理部26に供給する。例えば、発話特徴検出結果には、音声情報の音量レベルを通常時音量レベルと比較した結果や、音声情報の音声速度が相対的に低下したことを検出した結果、音声情報の音声周波数が相対的に高くなったことを検出した結果などが含まれる。
ステップS14において、特定無音期間検出部24は、入力音処理部22から供給される発話区間の音声情報から特定無音期間を検出する処理を行い、特定無音期間が検出された場合には、特定無音期間検出結果を音声認識モード切り替え処理部26に供給する。例えば、特定無音期間検出結果には、特定無音期間検出部24が特定無音期間を検出したタイミングおよび間隔が含まれる。
ステップS15において、雑音検出部25は、入力音処理部22から供給される発話区間の音声情報から雑音を検出する処理を行い、所定レベル以上の雑音が検出された場合には、その旨を示す雑音検出結果を音声認識モード切り替え処理部26に供給する。
ステップS16において、音声認識モード切り替え処理部26は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、特殊モードの音声認識処理を行う条件が発生したか否かを判定する。例えば、音声認識モード切り替え処理部26は、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも大きく、所定期間(例えば、1〜2秒間)に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。
同様に、音声認識モード切り替え処理部26は、音声情報に基づく音声の入力速度が相対的に遅く、所定期間に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。また、音声認識モード切り替え処理部26は、音声情報に基づく音声の周波数が相対的に高く、所定期間に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。例えば、ユーザは、IDなどの特殊文字を発話するとき、一般的に、通常の会話よりも大きな音声で発話したり、ゆっくりとした口調で発話したり、高い声で発話したりする傾向がある。従って、上述のような条件のとき、特殊モードの音声認識処理を選択することが好ましい。また、音声認識モード切り替え処理部26は、雑音検出結果が、所定レベル以上の雑音が検出されていることを示している場合、特殊モードの音声認識処理を選択せずに、通常モードの音声認識処理を行わせる。
ステップS16において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を行う条件が発生していないと判定した場合、処理はステップS17に進む。
ステップS17において、音声認識モード切り替え処理部26は、入力音処理部22から供給される発話区間の音声情報を通常モード音声認識部27に供給し、通常モード音声認識部27は、通常モードの音声認識処理を行う。
ステップS18において、通常モード音声認識部27は、例えば、音声情報から単語を認識するたびに、その単語を音声認識結果として音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、通常モードの音声認識処理により取得された音声認識結果であることを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、図6を参照して上述したようなユーザインタフェースが表示される。
ステップS19において、音声認識モード切り替え処理部26は、通常モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部26は、ステップS16と同様に特殊モードの音声認識処理を行う条件が発生したか否かを常に監視しており、特殊モードの音声認識処理を行う条件が発生したときには、通常モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部26は、入力音処理部22から発話区間の音声情報の供給が停止したときにも、通常モードの音声認識処理を終了すると判定する。
ステップS19において、音声認識モード切り替え処理部26が、通常モードの音声認識処理を終了しないと判定した場合、処理はステップS17に戻り、以下、同様の処理が繰り返される。一方、ステップS19において、音声認識モード切り替え処理部26が、通常モードの音声認識処理を終了すると判定した場合、処理はステップS20に進む。
ステップS20において、通常モード音声認識部27は、通常モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、この時点において、通常モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。
一方、ステップS16において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を行う条件が発生したと判定した場合、処理はステップS21に進む。
ステップS21において、音声認識モード切り替え処理部26は、入力音処理部22から供給される発話区間の音声情報を特殊モード音声認識部28に供給し、特殊モード音声認識部28は、特殊モードの音声認識処理を行う。
ステップS22において、特殊モード音声認識部28は、図3に示したような文字列数字変換テーブルを参照し、音声認識結果は数字であるか否かを判定する。
ステップS22において、特殊モード音声認識部28が、音声認識結果は数字であると判定した場合、処理はステップS23に進み、特殊モード音声認識部28は、音声認識結果を数字に変換する。
一方、ステップS22において、特殊モード音声認識部28が、音声認識結果が数字でないと判定した場合、処理はステップS24に進み、特殊モード音声認識部28は、音声認識結果を特殊文字に変更する。
ステップS23またはS24の処理後、処理はステップS25に進み、特殊モード音声認識部28は、例えば、音声情報から数字または特殊文字を認識するたびに、その音声認識結果を音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、特殊モードの音声認識処理により取得された音声認識結果であることを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、図8および図11を参照して上述したようなユーザインタフェースが表示される。
ステップS26において、音声認識モード切り替え処理部26は、特殊モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部26は、ステップS16で発生した特殊モードの音声認識処理を行う条件が継続しているか否かを常に監視しており、特殊モードの音声認識処理を行う条件が継続しなくなったとき、特殊モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部26は、入力音処理部22から発話区間の音声情報の供給が停止したときにも、特殊モードの音声認識処理を終了すると判定する。
ステップS26において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を終了しないと判定した場合、処理はステップS21に戻り、以下、同様の処理が繰り返される。一方、ステップS26において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を終了すると判定した場合、処理はステップS27に進む。
ステップS27において、特殊モード音声認識部28は、特殊モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、この時点において、特殊モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。
ステップS20またはS27の処理後、処理はステップS28に進み、入力音処理部22は、クライアント端末13のユーザによる発話が終わったか否かを判定する。ステップS28において、入力音処理部22が、発話が終わっていないと判定した場合、処理はステップS13に戻り、以下、同様の処理が繰り返して行われる。
一方、ステップS28において、入力音処理部22が、クライアント端末13のユーザによる発話が終わったと判定した場合、音声認識処理は終了される。
以上のように、音声認識サーバ14は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、通常モードの音声認識処理と特殊モードの音声認識処理とを切り替えることができる。これにより、音声認識サーバ14は、通常の会話の途中に特殊文字が含まれる場合に、それぞれ適切な音声認識処理を行うことができ、より良好な音声入力を提供することができる。
<日本語に対する音声認識処理>
音声認識システム11は、日本語に対する音声認識処理に対応することができる。
上述したように、英語に対する音声認識処理では、特殊モード音声認識部28において大文字変換モードが行われる。これに対し、日本語に対する音声認識処理では、例えば、特殊モード音声認識部28において平仮名または片仮名に変換する変換モードを行うことができる。
例えば、特定無音期間検出部24により音声情報から特定無音期間が検出された場合、音声認識モード切り替え処理部26は、ユーザが1文字ずつの音声認識を求めていると判断し、特殊モード音声認識部28は、1文字モードの音声認識処理を行う。
このとき、発話特徴検出部23により音声情報の音量レベルは通常時音量レベル以下であることが検出されると、特殊モード音声認識部28は、平仮名モードで音声認識処理を行う。その結果、図14のAに示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1文字」および平仮名モードの音声認識処理を示すマーク「かな」が表示される。
一方、発話特徴検出部23により音声情報の音量レベルは通常時音量レベルを超えていることが検出されると、特殊モード音声認識部28は、片仮名モードで音声認識処理を行う。その結果、図14のBに示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1文字」および片仮名モードの音声認識処理を示すマーク「カナ」が表示される。
このように、音声認識システム11は、それぞれの言語に適した特殊モードの音声認識処理を行うことができる。
<音声認識システムのAPI>
図15には、音声認識システム11による音声認識処理を実現するAPI(Application Programming Interface)の一例が示されている。
まず、クライアント端末13においてユーザの発話が始まったことが検出されると、クライアント端末13から音声認識サーバ14に、音声認識処理の開始を指示するスタートコマンド(start())が送信される。
続いて、クライアント端末13から音声認識サーバ14に、クライアント送信データ(send Client Data(Data))が順次送信される。クライアント送信データには、例えば、上述したような音声情報「Let's start this battle」、音声情報「BTX」、および音声情報「505」がデータとして格納される。
そして、音声認識サーバ14において音声認識処理が行われた後、音声認識サーバ14からクライアント端末13に、サーバ送信データ(send Server Data(result Data))が順次送信される。サーバ送信データには、例えば、上述したような音声認識結果「Let's start this battle」、音声認識結果「BTX」、および音声認識結果「505」がデータとして格納される。また、それぞれの音声認識結果には、データ番号(result_data_num)、テキスト(result_text)、および、モード情報(recognition_mode)が含まれている。
このようなデータの送受信が、クライアント端末13および音声認識サーバ14の間で行われる。その後、クライアント端末13においてユーザの発話が終わったことが検出されると、クライアント端末13から音声認識サーバ14に、音声認識処理の終了を指示するストップコマンド(stop())が送信される。
以上のようなAPIにより、音声認識システム11による音声認識処理を実現することができる。
<音声認識結果の表示例>
図16および図17を参照して、クライアント端末13における音声認識結果の表示例について説明する。
図16に示すように、クライアント端末13では、例えば、チャットアプリケーションにおいて音声認識を採用することができる。図16には、ユーザ名「PSZ09」によるコメント「Are you ready?」に対して、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」が返信され、ユーザ名「BTX505」によるコメント「Yeeeeees」が行われる例が示されている。
このとき、クライアント端末13には、チャットを行うユーザ名が登録されているフレンドリストが保持されており、例えば、ユーザ名「VVX99」のフレンドリストには、ユーザ名「PSZ09」やユーザ名「BTX505」などが登録されている。そこで、クライアント端末13は、フレンドリストに登録されているユーザ名が音声認識結果として得られた場合、そのユーザ名を強調表示することができる。
図16に示す例では、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」のうちユーザ名「BTX505」が太字で強調されるような装飾が施されている。
同様に、図17には、表示フィールド52において、ユーザ名「BTX505」がハイライト表示により強調されている例が示されている。
このように、クライアント端末13により、フレンドリストに登録されているユーザ名を強調表示することにより、ユーザは、音声認識結果がユーザ名であることを容易に視認することができる。なお、このようなユーザ名の強調表示は、例えば、音声認識結果出力処理部29が、音声認識結果情報により指定し、クライアント端末13に実行させてもよい。
また、ユーザ名と同様に、クライアント端末13は、特殊モード音声認識部28による特殊モードの音声認識処理が行われて得られる音声認識結果に対して強調表示を行うことで、音声認識結果が略称や数字などの特殊文字であることをユーザに認識させる際の補助とすることができる。このように、ユーザが一目で特殊文字を認識することで、コミュニケーションを円滑に行ったり、本来の作業に集中し易くなったりする。
その他、クライアント端末13は、例えば、文字色を変えたり、サイズを変えたり、ハイライト表示にしたりするなど、様々な方法により音声認識結果を強調することができる。なお、クライアント端末13は、合成音声により音声認識結果を出力する場合には、通常モードの音声認識処理による音声認識結果は、通常の音量で出力し、特殊モードの音声認識処理による音声認識結果は、通常よりも大きな音量で出力することができる。または、特殊モードの音声認識処理による音声認識結果を出力する際の音質を変更してもよい。これにより、特殊文字などを、ユーザに容易に認識させることができる。
このように、音声認識結果出力処理部29は、通常モードの音声認識処理による音声認識結果と、特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更させる音声認識結果情報を生成することができる。
なお、例えば、音声認識モード切り替え処理部26は、通常モードの音声認識処理を複数回繰り返しても、同様の音声情報が供給される場合、即ち、ユーザが同じ発話を繰り返している場合、音声認識結果が間違っているものと判断して、特殊モードの音声認識処理を行うようにしてもよい。また、ユーザが、同じ音声認識結果に対する音声入力を全削除する操作を行ったという情報が供給された場合、音声認識結果が間違っていたと判断することができる。従って、この場合、音声認識モード切り替え処理部26は、例えば、通常モードの音声認識処理を3回行っても、音声入力の全削除が繰り返して行われると、その次に供給される音声情報に対しては、特殊モードの音声認識処理を行うようにすることができる。
また、例えば、音声認識モード切り替え処理部26は、音声入力を行う対象となるテキストフィールドの属性によって、特殊モードの音声認識処理の選択を決定することができる。例えば、郵便番号を入力するテキストフィールドでは、数字のみを入力する属性であることより、音声認識モード切り替え処理部26は、特殊モードの音声認識処理において数字変換モードを行うように決定することができる。
ところで、特殊モード音声認識部28は、上述したようなユーザ名「BTX505」に対する音声認識結果「BTX」および音声認識結果「505」のうち、一方の音声認識結果の信頼度が低い場合、いずれか一方の音声認識結果だけを表示させることができる。即ち、このようなユーザ名に対しては、一部が間違った音声認識結果が表示されるよりも、ユーザは、正しい音声認識結果が一部だけ表示された場合の方が、滞りなくユーザ名であることを認識することができる。
また、例えば、クライアント端末13において特殊モードの音声認識処理を指示するような操作が行われた場合、音声認識モード切り替え処理部26は、その操作に従って、特殊モードの音声認識処理にモードを切り替えることができる。
さらに、音声認識システム11では、1台の音声認識サーバ14だけを接続するのではなく、例えば、複数台の音声認識サーバ14を接続して、同一の音声情報に対して同時にそれぞれの音声認識サーバ14で音声認識処理を行うことができる。この場合、複数の音声認識結果に対して信頼度が付けられて提示され、ユーザにより選択できるようなユーザインタフェースとすることができる。
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPU(Central Processing Unit)により処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
ここで、図18に示すコンピュータ101は、例えば、図1のクライアント端末13に対応し、ネットワーク12を介して処理を行うことなく、クライアント端末13単体で処理を行うことができる構成例が示されている。
コンピュータ101は、音声情報取得装置102、映像出力装置103、音声出力装置104、CPU105、メモリ106、記憶装置107、ネットワーク入出力装置108を備えて構成される。さらに、コンピュータ101は、図2に示した音声認識サーバ14と同様に、通信部21、入力音処理部22、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、音声認識モード切り替え処理部26、通常モード音声認識部27、特殊モード音声認識部28、および音声認識結果出力処理部29を備える。
例えば、音声情報取得装置102はマイクロホンにより構成され、映像出力装置103はディスプレイにより構成され、音声出力装置104はスピーカにより構成される。また、ネットワーク入出力装置108は、図2の通信部21に対応し、例えば、LAN(Local Area Network)の規格に従った通信を行うことができる。
そして、コンピュータ101では、CPU105が、記憶装置107に記憶されているプログラムをメモリ106に読み出して実行することにより、上述した一連の処理が行われる。
なお、CPU105が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアに記録して提供したり、ネットワーク入出力装置108を利用して、有線または無線の伝送媒体を介して提供することができる。
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
を備える情報処理装置。
(2)
前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
上記(1)に記載の情報処理装置。
(3)
前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
上記(2)に記載の情報処理装置。
(4)
前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
上記(3)に記載の情報処理装置。
(5)
前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
上記(3)または(4)に記載の情報処理装置。
(6)
前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
上記(3)から(5)までのいずれかに記載の情報処理装置。
(7)
前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
上記(2)から(6)までのいずれかに記載の情報処理装置。
(8)
前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが1文字ごとに大文字に変換されて出力される
上記(2)から(7)までのいずれかに記載の情報処理装置。
(9)
前記特殊モードの音声認識処理では、音声認識により認識した1文字ごとに片仮名に変換されて出力される
上記(2)から(8)までのいずれかに記載の情報処理装置。
(10)
前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
上記(2)から(9)までのいずれかに記載の情報処理装置。
(11)
前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
上記(2)から(10)までのいずれかに記載の情報処理装置。
(12)
ネットワークを介して他の装置と通信を行う通信部と、
前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
をさらに備え、
前記通信部は、
前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
上記(1)から(11)までのいずれかに記載の情報処理装置。
(13)
ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
ステップを含む情報処理方法。
(14)
ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
ステップを含む情報処理をコンピュータに実行させるプログラム。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
11 音声認識システム, 12 ネットワーク, 13 クライアント端末, 14 音声認識サーバ, 21 通信部, 22 入力音処理部, 23 発話特徴検出部, 24 特定無音期間検出部, 25 雑音検出部, 26 音声認識モード切り替え処理部, 27 通常モード音声認識部, 28 特殊モード音声認識部, 29 音声認識結果出力処理部, 51 アイコン, 52 表示フィールド, 101 コンピュータ, 102 音声情報取得装置, 103 映像出力装置, 104 音声出力装置, 105 CPU, 106 メモリ, 107 記憶装置, 108 ネットワーク入出力装置

Claims (14)

  1. ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
    前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
    前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
    前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
    を備える情報処理装置。
  2. 前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
    請求項1に記載の情報処理装置。
  3. 前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
    請求項2に記載の情報処理装置。
  4. 前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
    前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
    請求項3に記載の情報処理装置。
  5. 前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
    前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
    請求項3に記載の情報処理装置。
  6. 前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
    前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
    請求項3に記載の情報処理装置。
  7. 前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
    請求項2に記載の情報処理装置。
  8. 前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが1文字ごとに大文字に変換されて出力される
    請求項2に記載の情報処理装置。
  9. 前記特殊モードの音声認識処理では、音声認識により認識した1文字ごとに片仮名に変換されて出力される
    請求項2に記載の情報処理装置。
  10. 前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
    前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
    請求項2に記載の情報処理装置。
  11. 前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
    請求項2に記載の情報処理装置。
  12. ネットワークを介して他の装置と通信を行う通信部と、
    前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
    をさらに備え、
    前記通信部は、
    前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
    前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
    請求項1に記載の情報処理装置。
  13. ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
    前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
    前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
    選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
    ステップを含む情報処理方法。
  14. ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
    前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
    前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
    選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
    ステップを含む情報処理をコンピュータに実行させるプログラム。
JP2018537117A 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム Pending JPWO2018043138A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016170307 2016-08-31
JP2016170307 2016-08-31
PCT/JP2017/029492 WO2018043138A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JPWO2018043138A1 true JPWO2018043138A1 (ja) 2019-06-24

Family

ID=61300546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018537117A Pending JPWO2018043138A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20200320976A1 (ja)
EP (1) EP3509062B1 (ja)
JP (1) JPWO2018043138A1 (ja)
CN (1) CN109643551A (ja)
WO (1) WO2018043138A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10789955B2 (en) * 2018-11-16 2020-09-29 Google Llc Contextual denormalization for automatic speech recognition
CN113841195B (zh) * 2019-04-16 2023-12-22 谷歌有限责任公司 联合端点确定和自动语音识别
CN110166816B (zh) * 2019-05-29 2020-09-29 上海松鼠课堂人工智能科技有限公司 用于人工智能教育的基于语音识别的视频编辑方法和系统
JP6730760B2 (ja) * 2020-03-05 2020-07-29 株式会社オープンエイト サーバおよびプログラム、動画配信システム
US11417337B1 (en) * 2021-08-12 2022-08-16 Cresta Intelligence Inc. Initiating conversation monitoring system action based on conversational content
JP2023180622A (ja) * 2022-06-10 2023-12-21 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
JPS6048099A (ja) * 1983-08-26 1985-03-15 松下電器産業株式会社 音声認識装置
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
JP2000347684A (ja) 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP3906327B2 (ja) * 2002-03-29 2007-04-18 独立行政法人産業技術総合研究所 音声入力モード変換システム

Also Published As

Publication number Publication date
EP3509062B1 (en) 2020-05-27
EP3509062A4 (en) 2019-08-07
WO2018043138A1 (ja) 2018-03-08
US20200320976A1 (en) 2020-10-08
EP3509062A1 (en) 2019-07-10
CN109643551A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
KR102100389B1 (ko) 개인화된 엔티티 발음 학습
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US9031839B2 (en) Conference transcription based on conference data
CN104157285B (zh) 语音识别方法、装置及电子设备
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
JP2004355629A (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
JP2017003611A (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
KR20090019198A (ko) 음성 인식을 이용한 텍스트 입력 자동 완성 방법 및 장치
TW201606750A (zh) 使用外國字文法的語音辨識
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JPWO2018043137A1 (ja) 情報処理装置及び情報処理方法
JP6254504B2 (ja) 検索サーバ、及び検索方法
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
US11632345B1 (en) Message management for communal account
CN113763921B (zh) 用于纠正文本的方法和装置
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2019179081A (ja) 会議支援装置、会議支援制御方法およびプログラム