JP7009338B2 - Information processing equipment, information processing systems, and video equipment - Google Patents
Information processing equipment, information processing systems, and video equipment Download PDFInfo
- Publication number
- JP7009338B2 JP7009338B2 JP2018175656A JP2018175656A JP7009338B2 JP 7009338 B2 JP7009338 B2 JP 7009338B2 JP 2018175656 A JP2018175656 A JP 2018175656A JP 2018175656 A JP2018175656 A JP 2018175656A JP 7009338 B2 JP7009338 B2 JP 7009338B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- unit
- program information
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明の実施形態は、情報処理装置、情報処理システム、および映像装置に関する。 Embodiments of the present invention relate to an information processing device, an information processing system, and a video device.
従来から、発話された音声を、音声認識によって文字データなどに変換する技術が知られている。 Conventionally, there has been known a technique for converting spoken voice into character data or the like by voice recognition.
また、このような音声認識によって認識された結果に基づいて、AV機器等を操作する音声アシスタントサービスの技術が知られている。 Further, a technique of a voice assistant service for operating an AV device or the like based on the result recognized by such voice recognition is known.
しかしながら、従来技術においては、汎用的な音声アシスタントサービスを利用する場合に、番組に関する情報を高精度に音声認識することが困難な場合があった。 However, in the prior art, when using a general-purpose voice assistant service, it may be difficult to recognize information about a program by voice with high accuracy.
実施形態の情報処理装置は、取得部と、判断部と、置換部とを備える。取得部は、発話された音声が第1の音声認識装置によって音声認識された第1の音声認識データと、第1の音声認識データの構文解析結果とを取得する。判断部は、構文解析結果に基づいて、第1の音声認識データが番組に関する第1の番組情報を含むか否かを判断する。置換部は、判断部によって第1の音声認識データが第1の番組情報を含むと判断された場合に、番組に関する情報が登録された辞書を有する第2の音声認識装置によって音声が音声認識された第2の音声認識データに含まれる第2の番組情報を取得し、第1の音声認識データに含まれる第1の番組情報を第2の番組情報に置換する。 The information processing apparatus of the embodiment includes an acquisition unit, a determination unit, and a replacement unit. The acquisition unit acquires the first voice recognition data in which the spoken voice is voice-recognized by the first voice recognition device, and the syntax analysis result of the first voice recognition data. The determination unit determines whether or not the first voice recognition data includes the first program information regarding the program based on the syntax analysis result. When the determination unit determines that the first voice recognition data includes the first program information, the replacement unit voice-recognizes the voice by a second voice recognition device having a dictionary in which information about the program is registered. The second program information included in the second voice recognition data is acquired, and the first program information included in the first voice recognition data is replaced with the second program information.
図1は、本実施形態にかかる情報処理システムS1の全体構成の一例を示す図である。図1に示すように、情報処理システムS1は、テレビジョン装置10と、番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40とを備える。
FIG. 1 is a diagram showing an example of the overall configuration of the information processing system S1 according to the present embodiment. As shown in FIG. 1, the information processing system S1 includes a
情報処理システムS1に含まれる各装置は、インターネット等のネットワークによって接続している。また、テレビジョン装置10と、意図判断サーバ30とは、音声アシスタントサーバ50とネットワークによって接続している。なお、情報処理システムS1は、音声アシスタントサーバ50を含むものとしても良い。
Each device included in the information processing system S1 is connected by a network such as the Internet. Further, the
テレビジョン装置10は、マイク等の音声入力機器を備え、ユーザが発話した音声を入力する。テレビジョン装置10は、入力した音声を音声信号として音声アシスタントサーバ50と番組情報認識サーバ20とに送信する。また、テレビジョン装置10は、後述の番組情報認識サーバ20から送信された音声認識結果を受信し、当該受信した音声認識結果を記憶サーバ40に送信する。また、テレビジョン装置10は、後述の意図判断サーバ30から受信した指示信号に従って動作する。テレビジョン装置10は、本実施形態における映像装置の一例である。
The
音声アシスタントサーバ50は、汎用的な音声アシスタントサービスを実行する装置である。例えば、音声アシスタントサーバ50は、テレビジョン装置10から受信した音声信号を音声認識し、当該音声認識の結果に基づいてインターネットの検索や、各種家電の制御等を実行する。また、音声アシスタントサーバ50は、音声信号を音声認識によって文字データに変換し、当該文字データに対して構文解析を行う。
The
本実施形態においては、音声信号が音声アシスタントサーバ50の音声認識によって文字に変換された文字データを、第1の音声認識データという。また、第1の音声認識データに含まれる目的語または述語を特定する情報を、構文解析結果という。第1の音声認識データおよび構文解析結果の詳細については後述する。
In the present embodiment, the character data in which the voice signal is converted into characters by the voice recognition of the
音声アシスタントサーバ50は、第1の音声認識データと、第1の音声認識データに対する構文解析結果とを、意図判断サーバ30に送信する。音声アシスタントサーバ50は、本実施形態における第1の音声認識装置および他の音声認識装置の一例である。
The
番組情報認識サーバ20は、番組コンテンツ(以下、番組)に関する情報(以下、番組情報)が登録された辞書を記憶しており、当該辞書に基づいて、テレビジョン装置10から受信した音声信号を音声認識する装置である。番組情報認識サーバ20は、第2の音声認識データと、番組情報の特定結果とをテレビジョン装置10に送信する。また、番組情報認識サーバ20は、本実施形態における第2の音声認識装置および音声認識装置の一例である。
The program
番組情報は、番組に関する情報であり、番組タイトルと、番組のジャンルと、番組の出演者名と、のいずれかについての情報を含む。例えば本実施形態においては、番組情報は、番組タイトルとする。 The program information is information about a program, and includes information about any one of a program title, a program genre, and a program performer name. For example, in the present embodiment, the program information is a program title.
第2の音声認識データは、番組情報認識サーバ20による音声認識結果であり、より詳細には、番組情報認識サーバ20が、番組情報が登録された辞書に基づいて音声信号を文字に変換した文字データである。また、番組情報の特定結果は、第2の音声認識データのうちの番組情報に該当する箇所を特定する情報である。ここで、第2の音声認識データに含まれる番組情報を、第2の番組情報という。
The second voice recognition data is the voice recognition result by the program
記憶サーバ40は、番組情報認識サーバ20によって音声認識された第2の音声認識データと番組情報の特定結果とをテレビジョン装置10を介して取得し、これらの情報を記憶する。記憶サーバ40は、本実施形態における記憶装置および外部装置の一例である。
The
意図判断サーバ30は、発話された音声がテレビジョン装置10の操作を意図する音声命令であるか否かを判断する。具体的には、意図判断サーバ30は、音声アシスタントサーバ50から第1の音声認識データと構文解析結果とを取得し、当該第1の音声認識データに番組情報が含まれているか否かを判断する。意図判断サーバ30は、該第1の音声認識データに番組情報が含まれていると判断した場合は、発話された音声がテレビジョン装置10の操作を意図する音声命令であると判断する。ここで、第1の音声認識データに含まれる番組情報を第1の番組情報という。
The
意図判断サーバ30は、第1の音声認識データに番組情報が含まれていると判断した場合に、記憶サーバ40から第2の番組情報を取得し、第1の音声認識データに含まれる第1の番組情報を、第2の番組情報に置換する。当該置換処理後の音声認識データを、第3の音声認識データという。
When the
また、意図判断サーバ30は、置換処理後の音声認識データ(第3の音声認識データ)に基づいて、テレビジョン装置10に対して指示信号を送信してテレビジョン装置10を制御する。指示信号は、テレビジョン装置10に対して動作を指示する信号であり、例えば、録画する番組や、再生する番組を指定する命令を含む。意図判断サーバ30は、本実施形態における情報処理装置の一例である。
Further, the
本実施形態の番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40と、音声アシスタントサーバ50とは、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、本実施形態の番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40と、音声アシスタントサーバ50とは、例えばネットワーク上のクラウド環境に構築されているものとしても良い。
The program
また、情報処理システムS1は複数のテレビジョン装置10を含むものであっても良い。この場合、番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40と、音声アシスタントサーバ50とは、複数のテレビジョン装置10と接続して情報を送受信するものとする。
Further, the information processing system S1 may include a plurality of
次に、本実施形態の情報処理システムS1に含まれる各装置の詳細について説明する。
図2は、本実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。図2に示すように、テレビジョン装置10は、アンテナ101と、入力端子102aと、チューナ103と、デモジュレータ104と、デマルチプレクサ105と、入力端子102bおよび102cと、A/D(アナログ/デジタル)変換器106と、セレクタ107と、信号処理部108と、スピーカ109と、表示パネル110と、操作部111と、受光部112と、IP通信部113と、CPU114と、メモリ115と、ストレージ116と、マイク117と、オーディオI/F(インターフェース)118とを備える。
Next, the details of each device included in the information processing system S1 of the present embodiment will be described.
FIG. 2 is a diagram showing an example of the hardware configuration of the
アンテナ101は、デジタル放送の放送信号を受信し、受信した放送信号を、入力端子102aを介してチューナ103に供給する。チューナ103は、アンテナ101から供給された放送信号から所望のチャンネルの放送信号を選局し、選局した放送信号をデモジュレータ104に供給する。
The
デモジュレータ104は、チューナ103から供給された放送信号を復調し、復調した放送信号をデマルチプレクサ105に供給する。デマルチプレクサ105は、デモジュレータ104から供給された放送信号を分離して映像信号および音声信号を生成し、生成した映像信号および音声信号を後述するセレクタ107に供給する。
The
入力端子102bは、外部から入力されるアナログ信号(映像信号および音声信号)を受け付ける。また、入力端子102cは、外部から入力されるデジタル信号(映像信号および音声信号)を受け付けるように構成されている。例えば、入力端子102cは、ブルーレイディスクなどの録画再生用の記録媒体を駆動して録画および再生するドライブ装置を搭載したレコーダ(BDレコーダ)等から、デジタル信号の入力が可能であるものとする。A/D変換器106は、入力端子102cから供給されるアナログ信号にA/D変換を施すことにより生成したデジタル信号をセレクタ107に供給する。
The
操作部111は、ユーザの操作入力を受け付ける。また、受光部112は、リモートコントローラ119からの赤外線を受光する。IP通信部113は、ネットワーク300を介したIP(インターネットプロトコル)通信を行うための通信インターフェースである。IP通信部113は、ネットワーク300を介して、番組情報認識サーバ20、意図判断サーバ30、記憶サーバ40、音声アシスタントサーバ50と通信可能であるものとする。
The
CPU114は、テレビジョン装置10全体を制御する制御部である。メモリ115は、CPU114が実行する各種コンピュータプログラムを格納するROMや、CPU114に作業エリアを提供するRAM等である。また、ストレージ116は、HDD(ハードディスクドライブ)やSSD(ソリッドステートドライブ)等である。ストレージ116は、例えば、セレクタ107により選択された信号を録画データとして記録する。
The CPU 114 is a control unit that controls the
マイク117は、ユーザが発話した音声を取得して、オーディオI/F118に送出する。オーディオI/F118は、マイク117が取得した音声をアナログ/デジタル変換して、音声信号としてCPU114に送出する。
The microphone 117 acquires the voice spoken by the user and sends it to the audio I /
次に、本実施形態にかかるテレビジョン装置10の機能について説明する。
図3は、本実施形態にかかるテレビジョン装置10が有する機能の一例を示す図である。図3に示すように、テレビジョン装置10は、音声入力部11と、ウェイクワード判断部12と、第1の送信部13と、第1の受信部14と、第2の送信部15と、第2の受信部16と、再生部17と、録画部18とを備える。
Next, the function of the
FIG. 3 is a diagram showing an example of a function of the
音声入力部11は、ユーザによって発話された音声を、音声信号として入力(取得)する。より詳細には、音声入力部11は、オーディオI/F118から、ユーザが発話した音声がデジタル変換された音声信号の入力を受ける。音声入力部11は、取得した音声信号(音声)をウェイクワード判断部12に送出する。
The voice input unit 11 inputs (acquires) the voice spoken by the user as a voice signal. More specifically, the voice input unit 11 receives an input of a voice signal obtained by digitally converting the voice spoken by the user from the audio I /
ウェイクワード判断部12は、音声入力部11によって取得された音声信号が、所定のウェイクワードを含むか否かを判断する。ウェイクワードは、音声アシスタント機能の起動のトリガとなる所定の音声コマンドであり、インボケ―ションワードともいう。ウェイクワードは予め定められているものとする。音声信号がウェイクワードを含むか否かを判断する手法は、公知の音声認識の技術を採用することができる。また、ウェイクワード判断部12は、音声入力部11によって取得された音声信号が所定のウェイクワードを含むと判断した場合に、取得された音声信号のうち、所定のウェイクワードの後に続く音声信号を第1の送信部13に送出する。
The wake
第1の送信部13は、所定のウェイクワードの後に続く音声信号に、テレビジョン装置10を特定可能な識別情報と、音声信号を特定可能な識別情報とを対応付けた音声情報を、番組情報認識サーバ20と、音声アシスタントサーバ50とに送信する。
The
図4は、本実施形態にかかるテレビジョン装置10から送信される音声情報81の一例を示す図である。図4に示すように、音声情報81は、テレビジョン装置10を特定可能な識別情報(テレビジョン装置ID)と、音声信号を特定可能な識別情報(音声ID)と、音声信号とが対応付けられた情報である。
FIG. 4 is a diagram showing an example of
図3に戻り、第1の受信部14は、番組情報認識サーバ20から、テレビジョン装置IDと、音声IDと、第2の音声認識データと、番組情報の特定結果とを受信する。第1の受信部14は、受信した情報を第2の送信部15に送出する。
Returning to FIG. 3, the
第2の送信部15は、第1の受信部14が受信したテレビジョン装置IDと、音声IDと、第2の音声認識データと、番組情報の特定結果とを記憶サーバ40に送信する。なお、第2の送信部15は、番組情報の特定結果に基づいて、第2の音声認識データに含まれる第2の番組情報を特定し、テレビジョン装置IDと、音声IDと、第2の番組情報とを記憶サーバ40に送信しても良い。
The
第2の受信部16は、番組情報認識サーバ20によって特定された番組情報に関する動作を指示する指示信号を、意図判断サーバ30から受信する。第2の受信部16は、意図判断サーバ30から受信した指示信号を、再生部17および録画部18に送出する。
The
再生部17は、第2の受信部16が受信した指示信号に基づいて、ストレージ116または外部の記憶装置に保存された番組の録画データを再生する。例えば、再生部17は、指示信号によって指定された番組タイトルの録画データをストレージ116または外部の記憶装置から検索し、当該録画データを再生する。また、指示信号が録画データではなく放送中の番組を表示することを指示している場合、再生部17は、チューナ103を制御して、指示信号によって指定された番組が放送されているチャンネルを選曲し、当該番組を表示パネル110に表示しても良い。
The reproduction unit 17 reproduces the recorded data of the program stored in the
録画部18は、第2の受信部16が受信した指示信号に基づいて、セレクタ107を制御して録画対象の番組を選択し、当該番組をストレージ116または外部の記憶装置に保存(録画)する。
The recording unit 18 controls the
次に、本実施形態の番組情報認識サーバ20の機能について説明する。
図5は、本実施形態にかかる番組情報認識サーバ20が有する機能の一例を示す図である。図5に示すように、番組情報認識サーバ20は、受信部21と、特定部22と、出力部23と、記憶部25とを備える。
Next, the function of the program
FIG. 5 is a diagram showing an example of a function of the program
記憶部25には、番組情報が登録された辞書が予め保存される。また、記憶部25は、例えばHDD等の記憶装置である。 A dictionary in which program information is registered is stored in advance in the storage unit 25. Further, the storage unit 25 is a storage device such as an HDD.
図6は、本実施形態にかかる辞書80の一例を示す図である。図6に示すように、辞書80には、番組のタイトルの文字データと、番組のタイトルの発音を示す情報(読み仮名)とが対応付けられて登録される。一般に、番組のタイトルには符号や当て字等が用いられる場合があるため、番組のタイトルの発音は、通常の読み方とは異なる場合があるが、辞書80には、番組のタイトルの正しい発音が予め登録されているものとする。なお、番組のタイトルの文字データの代わりに、番組を識別可能なID等の識別情報が辞書80に登録されるものとしても良い。また、辞書80には、さらに、番組の放送時刻等の、番組に関する各種のメタデータが登録されても良い。
FIG. 6 is a diagram showing an example of the
図5に戻り、受信部21は、テレビジョン装置10から、音声信号を受信する。より詳細には、受信部21は、音声信号と、テレビジョン装置10を特定可能な識別情報(テレビジョン装置ID)と、音声信号を特定可能な識別情報(音声ID)とを対応付けた音声情報81を、テレビジョン装置10から受信する。受信部21は、受信した音声情報81を、特定部22に送出する。
Returning to FIG. 5, the receiving unit 21 receives an audio signal from the
特定部22は、辞書80を用いた音声認識によって、第2の音声認識データを生成する。具体的には、特定部22は、受信部21が受信した音声情報81に含まれる音声信号を音声認識によって文字データに変換する。また、特定部22は、当該文字データに含まれる番組タイトルを、記憶部25に記憶された辞書80に基づいて特定する。例えば、特定部22は、第2の音声認識データの中に辞書80に登録された番組タイトルの発音と一致する箇所がある場合に、当該個所を番組タイトルとして特定する。
The specific unit 22 generates the second voice recognition data by voice recognition using the
図7は、本実施形態にかかる音声認識結果の一例を示す図である。図7に示すように、ユーザ9がテレビジョン装置10に対して音声90を入力した場合に、テレビジョン装置10は、音声90を音声信号として音声アシスタントサーバ50と番組情報認識サーバ20とに送信する。番組情報認識サーバ20の特定部22は、第2の音声認識データ92の生成の際に、文字データ中の番組タイトルとして特定した箇所を、辞書80に登録された番組タイトルの文字データに変換する。上述のように、辞書80には、番組のタイトルの文字データと、番組のタイトルの発音を示す情報とが対応付けられて登録されているため、特定部22は、番組タイトルの読み方が一般的な読み方と異なっていた場合でも、第2の音声認識データ92に含まれる番組タイトルを高精度に特定することができる。なお、特定部22による音声認識および番組情報の特定の手法はこれに限定されるものではなく、他の公知の手法を採用しても良い。
FIG. 7 is a diagram showing an example of the voice recognition result according to the present embodiment. As shown in FIG. 7, when the
また、特定部22は、第2の音声認識データ92と、第2の音声認識データ92のうちの番組情報に該当する箇所を特定する情報(番組情報の特定結果)とを対応付けて、出力部23に送出する。
Further, the specifying unit 22 outputs the second
図5に戻り、出力部23は、特定部22によって特定された第2の番組情報を出力する。より詳細には、出力部23は、テレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを対応付けて、テレビジョン装置10に出力する。
Returning to FIG. 5, the
次に、本実施形態の記憶サーバ40の機能について説明する。
図8は、本実施形態にかかる記憶サーバ40が有する機能の一例を示す図である。図8に示すように、記憶サーバ40は、保存処理部41と、検索部42と、記憶部45とを備える。
Next, the function of the
FIG. 8 is a diagram showing an example of the function of the
保存処理部41は、テレビジョン装置10から出力されたテレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを受信し、記憶部45に保存する。
The
記憶部45は、テレビジョン装置10から出力されたテレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを対応付けて記憶する。記憶部45は、例えばHDD等の記憶装置である。
The
検索部42は、意図判断サーバ30から第2の音声認識データ92に含まれる第2の番組情報の送信要求を受けた場合に、意図判断サーバ30から送信されたテレビジョン装置IDと、音声IDとに対応付けられた第2の音声認識データ92を、記憶部45から検索し、意図判断サーバ30に対して送信する。なお、検索部42は、第2の音声認識データ92全体ではなく、第2の音声認識データ92のうちの第2の番組情報に該当する箇所を意図判断サーバ30に送信しても良い。
When the search unit 42 receives a transmission request for the second program information included in the second
次に、本実施形態の意図判断サーバ30の機能について説明する。
図9は、本実施形態にかかる意図判断サーバ30が有する機能の一例を示す図である。図9に示すように、意図判断サーバ30は、取得部31と、判断部32と、置換部33と、映像装置制御部34と、記憶部35とを備える。
Next, the function of the
FIG. 9 is a diagram showing an example of a function of the
記憶部35には、テレビジョン装置10に対する命令に使用される所定のコマンドが予め保存される。所定のコマンドは、テレビジョン装置10の動作を指定する命令であり、例えば、「再生して」、「録画して」、「つけて」等であるが、これらに限定されるものではない。また、記憶部35は、例えばHDD等の記憶装置である。
A predetermined command used for a command to the
取得部31は、音声アシスタントサーバ50から出力された第1の音声認識データと、構文解析結果と、テレビジョン装置IDと、音声IDとを、を取得する。
The acquisition unit 31 acquires the first voice recognition data output from the
ここで、第1の音声認識データについて説明する。
上述の図7に示すように、テレビジョン装置10は、ユーザ9が発した音声90を音声信号として音声アシスタントサーバ50に送信する。音声アシスタントサーバ50は、受信した音声信号を音声認識によって文字データに変換することにより、第1の音声認識データ91を生成する。また、音声アシスタントサーバ50は、生成した第1の音声認識データ91の構文解析を行う。
Here, the first voice recognition data will be described.
As shown in FIG. 7 above, the
構文解析結果は、第1の音声認識データ91に含まれる目的語または述語を特定する情報とする。例えば、音声アシスタントサーバ50は、第1の音声認識データ91に含まれる文章のうち、目的語に該当する文字の範囲と、動詞等を含む述語に該当する文字の範囲とを構文解析によって特定する。構文解析の手法は、公知の手法を採用することができる。音声アシスタントサーバ50は、テレビジョン装置IDと、音声IDと、生成した第1の音声認識データ91と構文解析結果とを対応付けて、意図判断サーバ30に送信する。
The syntactic analysis result is information that identifies an object or a predicate included in the first
図9に戻り、判断部32は、構文解析結果に基づいて、第1の音声認識データ91が番組情報を含むか否かを判断する。本実施形態においては、判断部32は、第1の音声認識データ91が番組タイトルを含むか否かを判断する。例えば、判断部32は、第1の音声認識データ91のうち構文解析によって「述語」と特定された箇所が、記憶部35に保存された所定のコマンドのいずれかを含む場合に、第1の音声認識データ91のうち「目的語」と特定された箇所が番組タイトルであると判断する。なお、第1の音声認識データ91が番組情報を含むか否かの判断の手法はこれに限定されるものではなく、他の公知の解析手法を採用可能である。
Returning to FIG. 9, the
置換部33は、判断部32によって第1の音声認識データ91が番組情報(第1の番組情報)を含むと判断された場合に、第2の音声認識データに含まれる第2の番組情報を記憶サーバ40から取得し、第1の音声認識データ91に含まれる第1の番組情報を、第2の番組情報に置換する。例えば、図7に示した例では、置換部33は、第1の音声認識データ91の「楽しいトークを再生して」の「楽しいトーク」を、第2の音声認識データ92の「楽しい☆トーーーク!!」に置換する。置換部33は、当該置換処理後の第3の音声認識データを、映像装置制御部34に送出する。
When the
映像装置制御部34は、第3の音声認識データに基づいて、テレビジョン装置10に対して指示信号を送信してテレビジョン装置10の動作を制御する。例えば、映像装置制御部34は、第3の音声認識データに含まれる番組タイトルと、コマンドとを信号に変換して、指示信号としてテレビジョン装置10に送信する。
The video
次に、本実施形態における音声認識処理の流れについて説明する。
図10は、本実施形態にかかる音声認識処理の流れの一例を示すシーケンス図である。テレビジョン装置10の音声入力部11は、ユーザ9が発話した音声90の入力を受ける(S1)。音声入力部11は、入力された音声90をウェイクワード判断部12に送出する。
Next, the flow of the voice recognition process in this embodiment will be described.
FIG. 10 is a sequence diagram showing an example of the flow of the voice recognition process according to the present embodiment. The voice input unit 11 of the
次に、ウェイクワード判断部12は、入力された音声90に所定のウェイクワードが含まれているか否かを判断する(S2)。ウェイクワード判断部12は、音声入力部11によって取得された音声90が所定のウェイクワードを含むと判断した場合に、取得された音声90のうち、所定のウェイクワードの後に続く音声を第1の送信部13に送出する。また、ウェイクワード判断部12は、音声90が所定のウェイクワードを含まないと判断した場合は、第1の送信部13に音声を送出しない。
Next, the wake
次に、第1の送信部13は、入力された音声90のうち所定のウェイクワードよりも後の音声を、音声信号として、番組情報認識サーバ20と、音声アシスタントサーバ50とに送信する。より詳細には、第1の送信部13は、音声信号と、テレビジョン装置IDと、音声IDとを対応付けた音声情報81を、番組情報認識サーバ20と、音声アシスタントサーバ50とに送信する(S3)。
Next, the
そして、番組情報認識サーバ20の受信部21は、テレビジョン装置10から音声情報81を受信する。受信部21は、受信した音声情報81を、特定部22に送出する。番組情報認識サーバ20の特定部22は、受信部21が受信した音声情報81に含まれる音声信号を音声認識によって文字データに変換し、当該文字データに含まれる番組タイトルを、辞書80に基づいて特定する(S4)。
Then, the receiving unit 21 of the program
次に、番組情報認識サーバ20の出力部23は、テレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを対応付けて、音声認識結果としてテレビジョン装置10に出力する(S5)。
Next, the
そして、テレビジョン装置10の第1の受信部14は、音声信号の音声認識結果として、テレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを受信する。次に、テレビジョン装置10の第2の送信部15は、第1の受信部14が受信した音声認識結果、つまり、テレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを、対応付けて記憶サーバ40に送信する(S6)。
Then, the
そして、記憶サーバ40の保存処理部41は、テレビジョン装置10から受信した番組情報認識サーバ20による音声認識結果を、記憶部45に保存する(S7)。
Then, the
また、音声アシスタントサーバ50は、S3の処理でテレビジョン装置10から送信された音声情報81に含まれる音声信号を音声認識して文字データに変換し、当該文字データの構文解析を行う(S8)。音声アシスタントサーバ50は、テレビジョン装置IDと、音声IDと、第1の音声認識データ91と、構文解析結果とを対応付けて、音声認識結果として意図判断サーバ30に送信する(S9)。
Further, the
そして、意図判断サーバ30の取得部31は、音声アシスタントサーバ50から出力されたテレビジョン装置IDと、音声IDと、第1の音声認識データ91と、構文解析結果とを取得する。そして、意図判断サーバ30の判断部32は、取得された構文解析結果に基づいて、第1の音声認識データ91が番組タイトルを含むか否かを判断する(S10)。
Then, the acquisition unit 31 of the
S10の処理において判断部32によって第1の音声認識データ91が番組情報(第1の番組情報)を含むと判断された場合に、分岐S100の処理が実行される。具体的には、意図判断サーバ30の置換部33は、判断部32によって第1の音声認識データ91が番組情報(第1の番組情報)を含むと判断された場合に、記憶サーバ40に対して、第2の音声認識データ92に含まれる第2の番組情報の送信要求をする(S11)。より詳細には、置換部33は、判断部32によって第1の番組情報を含むと判断された第1の音声認識データ91に対応付けられたテレビジョン装置IDと、音声IDとを、記憶サーバ40に対して送信する。
When the
そして、記憶サーバ40の検索部42は、意図判断サーバ30から送信されたテレビジョン装置IDと、音声IDとに対応付けられた第2の音声認識データ92を、記憶部45から検索し、意図判断サーバ30に対して送信する(S12)。なお、第2の音声認識データ92の検索処理は、意図判断サーバ30の置換部33が実行するものとしても良い。また、置換部33は、第2の番組情報を含む第2の音声認識データ92全体を記憶サーバ40から取得しても良いし、第2の音声認識データ92のうちの第2の番組情報のみを
取得しても良い。
Then, the search unit 42 of the
意図判断サーバ30の置換部33は、第1の音声認識データ91に含まれる第1の番組情報を、記憶サーバ40から取得した第2の番組情報に置換する(S13)。
The
そして、意図判断サーバ30の映像装置制御部34は、置換部33による置換処理がお行われた第3の音声認識データに基づいて、テレビジョン装置10に対して動作を指示する指示信号を送信する(S14)。
Then, the video
そして、テレビジョン装置10の第2の受信部16は、意図判断サーバ30から受信した指示信号を、再生部17または録画部18に送出する。そして、再生部17または録画部18は、意図判断サーバ30から送信された指示信号に従って、処理を実行する(S15)。例えば、再生部17または録画部18は、指示信号によって指定された番組の録画データの再生や、指示信号によって指定された番組の録画等を実行する。
Then, the
なお、再生または録画の対象となる番組の候補が複数存在する場合、再生部17または録画部18は、表示パネル110に候補となる番組を選択可能に表示しても良い。例えば、指示信号によって指定されたタイトルの番組が、複数の放送回分録画済みである場合に、再生部17は、録画済みの複数の放送回から再生対象を選択可能な選択画面を表示パネル110に表示しても良い。この場合、再生対象の放送回は、ユーザがリモートコントローラ119を操作することによって選択されるものとしても良いし、音声によって選択されるものとしても良い。
When there are a plurality of candidate programs to be reproduced or recorded, the reproduction unit 17 or the recording unit 18 may display the candidate programs on the
また、S10において、意図判断サーバ30の判断部32によって第1の音声認識データ91が第1の番組情報を含まないと判断された場合に、分岐S200の処理が実行される。具体的には、意図判断サーバ30の判断部32は、第1の音声認識データ91が第1の番組情報を含まないと判断したという判断結果を、音声アシスタントサーバ50に送信する(S15)。
Further, in S10, when the
この場合、ユーザ9によって発話された音声90は番組に関するものではないため、音声アシスタントサーバ50は、第1の音声認識データ91に基づいて、その他の音声アシスタント処理を開始する(S16)。その他の音声アシスタント処理は、テレビジョン装置10に対する操作以外の処理とする。音声アシスタントサーバ50は、汎用的な音声アシスタントサービスを実行するため、その他の音声アシスタント処理の内容は特に限定するものではない。ここで、図10のシーケンス図に示す処理は終了する。
In this case, since the
このように、本実施形態の意図判断サーバ30では、音声90が音声アシスタントサーバ50によって音声認識された第1の音声認識データ91が第1の番組情報を含むと判断した場合に、第1の番組情報を、番組情報認識サーバ20によって音声90が音声認識された第2の音声認識データ92に含まれる第2の番組情報に置換する。このため、本実施形態の意図判断サーバ30によれば、汎用的な音声認識による音声認識結果を取得した上で、番組に関する情報については専用の辞書80を用いた音声認識結果を採用することにより、番組に関する情報についての音声認識の精度を向上させることができる。
As described above, in the
例えば、汎用的な音声アシスタントサービスのみを利用する場合、番組タイトル等の番組に関する情報を高精度に音声認識することが困難な場合がある。また、番組タイトル等の番組に関する情報専用の音声アシスタントサービスを使用する場合、番組に関する音声命令以外について高精度に音声認識することが困難な場合がある。これに対して、本実施形態の意図判断サーバ30では、音声アシスタントサーバ50と番組情報認識サーバ20がそれぞれ音声認識した結果を取得し、番組に関する情報については番組情報認識サーバ20の認識結果を採用する。これにより、本実施形態の意図判断サーバ30によれば、汎用的な音声認識と、番組に関する情報の高精度な音声認識とを両立することができる。
For example, when using only a general-purpose voice assistant service, it may be difficult to recognize information about a program such as a program title with high accuracy. In addition, when using a voice assistant service dedicated to information about a program such as a program title, it may be difficult to recognize voice with high accuracy except for voice commands related to the program. On the other hand, in the
また、本実施形態の意図判断サーバ30は、第1の番組情報が第2の番組情報に置換された第3の音声認識データに基づいて、テレビジョン装置10の動作を制御する。これにより、本実施形態の意図判断サーバ30によれば、番組に関する情報の高精度な音声認識結果に基づいて、テレビジョン装置10の動作を制御することができる。
Further, the
また、本実施形態の第1の番組情報および第2の番組情報は、番組のタイトルと、番組のジャンルと、番組の出演者名と、のいずれかを含む。より具体的には、本実施形態の第1の番組情報および第2の番組情報は番組タイトルである。また、番組情報認識サーバ20は、番組タイトルの発音が登録された辞書80に基づいて、音声90に含まれる番組のタイトルを第2の番組情報として特定する。このため、本実施形態の意図判断サーバ30によれば、番組タイトルの読み方が一般的な読み方と異なっていた場合でも、番組情報認識サーバ20によって高精度に音声認識された番組タイトルを取得することができる。
Further, the first program information and the second program information of the present embodiment include any one of a program title, a program genre, and a program performer name. More specifically, the first program information and the second program information of the present embodiment are program titles. Further, the program
また、本実施形態の情報処理システムS1は、テレビジョン装置10と、番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40とを備える。本実施形態のテレビジョン装置10は、入力された音声90を、番組情報認識サーバ20と、音声アシスタントサーバ50と、に音声信号として送信する。また、本実施形態の番組情報認識サーバ20は、辞書80に登録された情報に基づいて、音声信号に含まれる第2の番組情報を特定し、特定した第2の番組情報を含む第2の音声認識データ92を出力する。また、本実施形態の記憶サーバ40は、番組情報認識サーバ20によって特定された第2の番組情報を記憶する。また、本実施形態の意図判断サーバ30は、音声アシスタントサーバ50から取得した第1の音声認識データ91が第1の番組情報を含むと判断した場合に、第1の音声認識データ91に含まれる第1の番組情報を第2の番組情報に置換する。また、本実施形態の意図判断サーバ30は、置換処理後の第3の音声認識データに基づいて、テレビジョン装置10の動作を制御する。このように、本実施形態の情報処理システムS1では、ユーザ9が発話した音声90に対して、汎用的な音声認識と、辞書80を用いた音声認識との両方を実施する。このため、本実施形態の情報処理システムS1によれば、汎用的な音声認識による音声アシスタントサービスをユーザ9に提供すると共に、番組に関する情報を高精度に音声認識した結果に基づいてテレビジョン装置10を制御することができる。つまり、本実施形態の情報処理システムS1によれば、音声アシスタントサービスをユーザ9に提供すると共に、番組に関する情報を高精度に音声認識した結果を音声アシスタントサービスに利用することができる。
Further, the information processing system S1 of the present embodiment includes a
例えば、汎用的な音声アシスタントサービスとは別に、テレビジョン装置を制御するために、番組に関する情報専用の音声アシスタントサービスを別途利用する場合、ユーザは2つの音声アシスタントサービスを用途に応じて使い分けることとなり、操作が煩わしくなる可能性がある。これに対して、本実施形態によれば、テレビジョン装置10は、入力された音声90を、番組情報認識サーバ20と、音声アシスタントサーバ50と、に音声信号として送信するため、ユーザ9は音声アシスタントサービスを意識的に使い分けなくとも、番組に関する情報についての高精度な音声認識を利用することができる。
For example, if a voice assistant service dedicated to information about a program is used separately to control a television device in addition to a general-purpose voice assistant service, the user will use the two voice assistant services properly according to the purpose. , The operation may be troublesome. On the other hand, according to the present embodiment, the
なお、本実施形態においては、テレビジョン装置10を映像装置の一例としたが、映像装置は、BDレコーダやDVDレコーダ等であっても良いし、テレビジョン装置10に接続された音声入力装置であっても良い。
In the present embodiment, the
また、本実施形態においては意図判断サーバ30からの指示信号を受けてテレビジョン装置10が録画または再生を実行するものとしたが、指示信号に基づいて実行される処理はこれに限定されるものではない。
Further, in the present embodiment, the
また、マイク117を本実施形態における音声入力部の一例としても良い。また、音声入力部11とマイク117とオーディオI/F118とを、音声入力部としても良い。
Further, the microphone 117 may be used as an example of the voice input unit in the present embodiment. Further, the voice input unit 11, the microphone 117, and the audio I /
なお、本実施形態においては、音声アシスタントサーバ50が構文解析を行うものとしたが、意図判断サーバ30が構文解析を行うものとしても良い。この場合は、音声アシスタントサーバ50は、意図判断サーバ30に対して、テレビジョン装置IDと、音声IDと、第1の音声認識データ91とを対応付けて送信する。
In the present embodiment, the
(変形例1)
上述の実施形態では、番組情報は番組タイトルであるものとして説明したが、番組情報はこれに限定されるものではなく、番組のジャンルや番組の出演者名でも良い。また、番組情報認識サーバ20は、番組のジャンルや番組の出演者名が登録された辞書を記憶するものとしても良い。
(Modification 1)
In the above-described embodiment, the program information is described as being the program title, but the program information is not limited to this, and may be the genre of the program or the name of the performer of the program. Further, the program
図11は、本変形例にかかる辞書1080の一例を示す図である。図11に示すように、番組情報認識サーバ20の記憶部25に登録される辞書1080は、番組のタイトルの文字データと、番組のタイトルの発音を示す情報(読み仮名)とに加えて、さらに、番組のジャンル、当該番組の出演者名の文字データ、当該番組の出演者名の発音、当該番組の出演者を含むグループ名、当該番組の出演者を含むグループ名の発音等を対応付けて記憶すするものとしても良い。また、これらの情報は複数のデータベースに分散されて登録されても良い。
FIG. 11 is a diagram showing an example of the
例えば、番組情報認識サーバ20の特定部22は、ユーザ9が発話した音声90が番組の出演者名を含む場合に、当該出演者が出演する番組を、第2の番組情報として特定しても良い。また、ユーザ9が発話した音声90がグループ名を含む場合に、当該グループに所属するメンバーが出演者として登録されている番組を、第2の番組情報として特定しても良い。また、芸能人によっては、芸名が途中で変更される場合や、複数の愛称で呼ばれる場合がある。辞書1080には、出演者の発音として、新旧の複数の芸名や、愛称等の発音を登録されても良い。
For example, the specific unit 22 of the program
このように辞書1080に番組に関する種々の情報を記憶することにより、番組情報認識サーバ20は、ユーザ9が発話した音声90に含まれる番組に関する情報を、より高精度に特定することができる。
By storing various information about the program in the
(変形例2)
上述の実施形態では、番組情報認識サーバ20による音声認識結果は、テレビジョン装置10に対して送信された後、テレビジョン装置10によって記憶サーバ40に送信されていたが、音声認識結果の送信経路はこれに限定されるものではない。
(Modification 2)
In the above-described embodiment, the voice recognition result by the program
図12は、本変形例にかかる情報処理システムS2の全体構成の一例を示す図である。図12に示すように、情報処理システムS2は、テレビジョン装置1010と、番組情報認識サーバ1020と、意図判断サーバ30と、記憶サーバ1040とを備える。また、テレビジョン装置1010および意図判断サーバ30は、音声アシスタントサーバ50とネットワークを介して接続している。
FIG. 12 is a diagram showing an example of the overall configuration of the information processing system S2 according to this modification. As shown in FIG. 12, the information processing system S2 includes a
本変形例の番組情報認識サーバ1020は、上述の実施形態の機能を備えた上で、音声認識結果を、記憶サーバ1040に対して送信する。より具体的には、番組情報認識サーバ1020の出力部23は、テレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを対応付けて、記憶サーバ1040に出力する。
The program information recognition server 1020 of this modification has the functions of the above-described embodiment, and transmits the voice recognition result to the
また、本変形例の記憶サーバ1040は、上述の実施形態の機能を備えた上で、番組情報認識サーバ1020から送信されたテレビジョン装置IDと、音声IDと、第2の音声認識データ92と、番組情報の特定結果とを記憶する。
Further, the
また、本変形例の意図判断サーバ30と、テレビジョン装置1010と、音声アシスタントサーバ50とは、上述の実施形態の機能を備える。
Further, the
本変形例のように番組情報認識サーバ1020から記憶サーバ1040に対して音声認識結果が直接送信されることにより、テレビジョン装置1010が番組情報認識サーバ1020と記憶サーバ1040との間で情報の媒介をしなくとも、音声認識結果を記憶サーバ1040に保存することができる。
By directly transmitting the voice recognition result from the program information recognition server 1020 to the
(変形例3)
上述の実施形態では、番組情報認識サーバ20と、意図判断サーバ30と、記憶サーバ40と、音声アシスタントサーバ50とは、それぞれ別々のサーバとして構築されているものとして説明したが、複数のサーバの機能が1つのサーバで実現されても良い。例えば、音声アシスタントサーバ50と、意図判断サーバ30とが1つのサーバに統合されても良い。また、番組情報認識サーバ20と、記憶サーバ40とが1つのサーバに統合されても良い。意図判断サーバ30と、記憶サーバ40とが1つのサーバに統合されても良い。また、仮想化等の技術によって、1つのサーバの機能を、複数台のコンピュータによって実現するように構成しても良い。
(Modification 3)
In the above-described embodiment, the program
以上説明したとおり、上述の実施形態によれば、汎用的な音声認識による音声認識結果に対して、番組に関する情報については専用の辞書80,1080を用いた音声認識結果を採用することにより、番組に関する情報についての音声認識の精度を向上させることができる。
As described above, according to the above-described embodiment, the program is provided by adopting the voice recognition result using the
実施形態のテレビジョン装置10,1010、番組情報認識サーバ20,1020、意図判断サーバ30、記憶サーバ40,1040、音声アシスタントサーバ50で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
The programs executed by the
また、実施形態のテレビジョン装置10,1010、番組情報認識サーバ20,1020、意図判断サーバ30、記憶サーバ40,1040、音声アシスタントサーバ50で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、実施形態のテレビジョン装置10,1010、番組情報認識サーバ20,1020、意図判断サーバ30、記憶サーバ40,1040、音声アシスタントサーバ50で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、実施形態のテレビジョン装置10,1010、番組情報認識サーバ20,1020、意図判断サーバ30、記憶サーバ40,1040、音声アシスタントサーバ50で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
Further, the programs executed by the
実施形態のテレビジョン装置10,1010で実行されるプログラムは、上述した各部(音声入力部、ウェイクワード判断部、第1の送信部、第1の受信部、第2の送信部、第2の受信部、再生部、録画部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音声入力部、ウェイクワード判断部、第1の送信部、第1の受信部、第2の送信部、第2の受信部、再生部、録画部が主記憶装置上に生成されるようになっている。
The programs executed by the
実施形態の番組情報認識サーバ20,1020で実行されるプログラムは、上述した各部(受信部、特定部、出力部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、受信部、特定部、出力部が主記憶装置上に生成されるようになっている。
The program executed by the program
実施形態の意図判断サーバ30で実行されるプログラムは、上述した各部(取得部、判断部、置換部、映像装置制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、取得部、判断部、置換部、映像装置制御部が主記憶装置上に生成されるようになっている。
The program executed by the
実施形態の記憶サーバ40,1040で実行されるプログラムは、上述した各部(保存処理部、検索部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、保存処理部、検索部が主記憶装置上に生成されるようになっている。
The program executed by the
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and variations thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
10,1010 テレビジョン装置
11 音声入力部
12 ウェイクワード判断部
13 第1の送信部
14 第1の受信部
15 第2の送信部
16 第2の受信部
17 再生部
18 録画部
20,1020 番組情報認識サーバ
21 受信部
22 特定部
23 出力部
25 記憶部
30 意図判断サーバ
31 取得部
32 判断部
33 置換部
34 映像装置制御部
35 記憶部
40,1040 記憶サーバ
41 保存処理部
42 検索部
45 記憶部
50 音声アシスタントサーバ
80,1080 辞書
81 音声情報
90 音声
91 第1の音声認識データ
92 第2の音声認識データ
117 マイク
S1,S2 情報処理システム
10, 1010 Television device 11
Claims (4)
前記構文解析結果に基づいて、前記第1の音声認識データが番組に関する第1の番組情報を含むか否かを判断する判断部と、
前記判断部によって前記第1の音声認識データが前記第1の番組情報を含むと判断された場合に、番組に関する情報が登録された辞書を有する第2の音声認識装置によって前記音声が音声認識された第2の音声認識データに含まれる第2の番組情報を取得し、前記第1の音声認識データに含まれる前記第1の番組情報を前記第2の番組情報に置換する置換部と、
を備える情報処理装置。 An acquisition unit that acquires the first voice recognition data in which the spoken voice is voice-recognized by the first voice recognition device and the syntax analysis result of the first voice recognition data.
Based on the syntax analysis result, a determination unit for determining whether or not the first voice recognition data includes the first program information related to the program, and a determination unit.
When the determination unit determines that the first voice recognition data includes the first program information, the voice is recognized by the second voice recognition device having a dictionary in which information about the program is registered. A replacement unit that acquires the second program information included in the second voice recognition data and replaces the first program information included in the first voice recognition data with the second program information.
Information processing device equipped with.
請求項1に記載の情報処理装置。 A video device that controls the operation of the video device based on the third voice recognition data in which the first program information included in the first voice recognition data is replaced with the second program information by the replacement unit. Further equipped with a control unit,
The information processing apparatus according to claim 1.
前記映像装置は、
発話された音声を入力する音声入力部と、
前記音声を、前記音声認識装置と、前記音声認識装置とは異なる他の音声認識装置と、に音声信号として送信する送信部と、を備え、
前記音声認識装置は、
番組に関する情報が登録された辞書を記憶する記憶部と、
前記辞書に登録された情報に基づいて、前記音声信号に含まれる番組に関する番組情報を特定する特定部と、
特定した前記番組情報を出力する出力部と、を備え、
前記記憶装置は、
前記音声認識装置によって特定された前記番組情報を記憶し、
前記情報処理装置は、
前記他の音声認識装置から、前記音声信号が音声認識された第1の音声認識データと、前記第1の音声認識データの構文解析結果とを取得する取得部と、
前記構文解析結果に基づいて、前記第1の音声認識データが番組に関する第1の番組情報を含むか否かを判断する判断部と、
前記判断部によって前記第1の音声認識データが前記第1の番組情報を含むと判断された場合に、前記音声信号が前記音声認識装置によって音声認識された第2の音声認識データに含まれる第2の番組情報を取得し、前記第1の音声認識データに含まれる前記第1の番組情報を前記第2の番組情報に置換する置換部と、
前記置換部によって前記第1の音声認識データに含まれる前記第1の番組情報が前記第2の番組情報に置換された第3の音声認識データに基づいて、前記映像装置の動作を制御する映像装置制御部と、を備える、
情報処理システム。 An information processing system including a video device, a voice recognition device, a storage device, and an information processing device.
The video device is
A voice input unit for inputting spoken voice,
A transmission unit for transmitting the voice as a voice signal to the voice recognition device, another voice recognition device different from the voice recognition device, and the like.
The voice recognition device is
A storage unit that stores a dictionary in which information about programs is registered,
A specific unit that specifies program information related to a program included in the audio signal based on the information registered in the dictionary, and a specific unit.
It is equipped with an output unit that outputs the specified program information.
The storage device is
The program information specified by the voice recognition device is stored, and the program information is stored.
The information processing device is
An acquisition unit that acquires the first voice recognition data in which the voice signal is voice-recognized and the syntax analysis result of the first voice recognition data from the other voice recognition device.
Based on the syntax analysis result, a determination unit for determining whether or not the first voice recognition data includes the first program information related to the program, and a determination unit.
When the determination unit determines that the first voice recognition data includes the first program information, the voice signal is included in the second voice recognition data recognized by the voice recognition device. A replacement unit that acquires the program information of 2 and replaces the first program information included in the first voice recognition data with the second program information.
An image that controls the operation of the video apparatus based on the third voice recognition data in which the first program information included in the first voice recognition data is replaced with the second program information by the replacement unit. Equipped with a device control unit,
Information processing system.
前記音声を、第1の音声認識装置と、第2の音声認識装置とに音声信号として送信する第1の送信部と、
前記第2の音声認識装置から、前記音声信号に含まれる番組に関する番組情報を受信する第1の受信部と、
受信した前記番組情報を外部装置に送信する第2の送信部と、
前記第2の音声認識装置によって特定された番組情報に関する指示信号を受信する第2の受信部と、
を備える映像装置。 A voice input unit for inputting spoken voice,
A first transmission unit that transmits the voice to the first voice recognition device and the second voice recognition device as a voice signal.
A first receiving unit that receives program information about a program included in the voice signal from the second voice recognition device, and a first receiving unit.
A second transmission unit that transmits the received program information to an external device, and
A second receiving unit that receives an instruction signal related to the program information specified by the second voice recognition device, and
Video equipment equipped with.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175656A JP7009338B2 (en) | 2018-09-20 | 2018-09-20 | Information processing equipment, information processing systems, and video equipment |
PCT/CN2019/106005 WO2020057467A1 (en) | 2018-09-20 | 2019-09-16 | Information processing apparatus, information processing system and video apparatus |
CN201980026560.5A CN112236816B (en) | 2018-09-20 | 2019-09-16 | Information processing apparatus, information processing system, and image apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018175656A JP7009338B2 (en) | 2018-09-20 | 2018-09-20 | Information processing equipment, information processing systems, and video equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046564A JP2020046564A (en) | 2020-03-26 |
JP7009338B2 true JP7009338B2 (en) | 2022-01-25 |
Family
ID=69888348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018175656A Active JP7009338B2 (en) | 2018-09-20 | 2018-09-20 | Information processing equipment, information processing systems, and video equipment |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7009338B2 (en) |
CN (1) | CN112236816B (en) |
WO (1) | WO2020057467A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7536667B2 (en) * | 2021-01-21 | 2024-08-20 | Tvs Regza株式会社 | Voice command processing circuit, receiving device, remote control and system |
CN114667566A (en) * | 2021-01-21 | 2022-06-24 | 海信视像科技股份有限公司 | Voice command processing circuit, receiving device, server, voice command accumulation system and accumulation method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007171809A (en) | 2005-12-26 | 2007-07-05 | Canon Inc | Information processor and information processing method |
JP2011232619A (en) | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | Voice recognition device and voice recognition method |
JP2018040904A (en) | 2016-09-06 | 2018-03-15 | トヨタ自動車株式会社 | Voice recognition device and voice recognition method |
US20180096678A1 (en) | 2016-09-30 | 2018-04-05 | Robert Bosch Gmbh | System And Method For Speech Recognition |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001309256A (en) * | 2000-04-26 | 2001-11-02 | Sanyo Electric Co Ltd | Receiver of digital tv broadcasting |
US7437296B2 (en) * | 2003-03-13 | 2008-10-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation apparatus and information search apparatus |
CN100437577C (en) * | 2004-09-10 | 2008-11-26 | 索尼株式会社 | User identification method, user identification device and corresponding electronic system and apparatus |
WO2007069512A1 (en) * | 2005-12-15 | 2007-06-21 | Sharp Kabushiki Kaisha | Information processing device, and program |
JP2007178927A (en) * | 2005-12-28 | 2007-07-12 | Canon Inc | Information retrieving device and method |
EP2137641B1 (en) * | 2007-04-13 | 2015-11-04 | Massachusetts Institute of Technology | Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein |
US8793136B2 (en) * | 2012-02-17 | 2014-07-29 | Lg Electronics Inc. | Method and apparatus for smart voice recognition |
JP2013250379A (en) * | 2012-05-31 | 2013-12-12 | Alpine Electronics Inc | Voice recognition device, voice recognition method and program |
JP5591428B2 (en) * | 2012-06-04 | 2014-09-17 | 三菱電機株式会社 | Automatic recording device |
KR20140058127A (en) * | 2012-11-06 | 2014-05-14 | 삼성전자주식회사 | Voice recognition apparatus and voice recogniton method |
EP3040985B1 (en) * | 2013-08-26 | 2023-08-23 | Samsung Electronics Co., Ltd. | Electronic device and method for voice recognition |
JP6043767B2 (en) * | 2014-09-26 | 2016-12-14 | 株式会社アステム | Program output device, auxiliary information management server, program and auxiliary information output method, and program |
CN106782546A (en) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | Speech recognition method and device |
CN105609103A (en) * | 2015-12-18 | 2016-05-25 | 合肥寰景信息技术有限公司 | Speech instant recognition system |
-
2018
- 2018-09-20 JP JP2018175656A patent/JP7009338B2/en active Active
-
2019
- 2019-09-16 CN CN201980026560.5A patent/CN112236816B/en active Active
- 2019-09-16 WO PCT/CN2019/106005 patent/WO2020057467A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007171809A (en) | 2005-12-26 | 2007-07-05 | Canon Inc | Information processor and information processing method |
JP2011232619A (en) | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | Voice recognition device and voice recognition method |
JP2018040904A (en) | 2016-09-06 | 2018-03-15 | トヨタ自動車株式会社 | Voice recognition device and voice recognition method |
US20180096678A1 (en) | 2016-09-30 | 2018-04-05 | Robert Bosch Gmbh | System And Method For Speech Recognition |
Also Published As
Publication number | Publication date |
---|---|
CN112236816A (en) | 2021-01-15 |
JP2020046564A (en) | 2020-03-26 |
WO2020057467A1 (en) | 2020-03-26 |
CN112236816B (en) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5178109B2 (en) | Search device, method and program | |
KR102304052B1 (en) | Display device and operating method thereof | |
CN100394438C (en) | Information processing apparatus and method, and program | |
KR20080043358A (en) | Method and system for controlling the operation of a playback device | |
JP2007507746A (en) | Speech tagging, speech annotation, and speech recognition for portable devices with optional post-processing | |
WO2020124754A1 (en) | Multimedia file translation method and apparatus, and translation playback device | |
JP7009338B2 (en) | Information processing equipment, information processing systems, and video equipment | |
US11538458B2 (en) | Electronic apparatus and method for controlling voice recognition thereof | |
JP5568953B2 (en) | Information processing apparatus, scene search method, and program | |
KR20220156786A (en) | The system and an appratus for providig contents based on a user utterance | |
US20040102955A1 (en) | DVD driver for language study and method of processing audio streams thereof | |
JP4873162B2 (en) | Video content playback device | |
CN100536552C (en) | Digital video reproduction apparatus | |
JP6959205B2 (en) | Information processing system and information processing method | |
JP4080965B2 (en) | Information presenting apparatus and information presenting method | |
JP4895759B2 (en) | Voice message output device | |
JP4079096B2 (en) | Alignment correction correction method, alignment correction support device, and alignment correction program for video / audio and scenario | |
JP2007226649A (en) | Retrieval device and program | |
CN109977239B (en) | Information processing method and electronic equipment | |
JPH11242496A (en) | Information reproducing device | |
JP7299810B2 (en) | karaoke device | |
JP7241142B1 (en) | Receiving device and tuning system | |
JP4364850B2 (en) | Audio playback device | |
WO2014006746A1 (en) | Music playback program and music playback system | |
KR101576683B1 (en) | Method and apparatus for playing audio file comprising history storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7009338 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |