JP3088625B2 - Telephone answering system - Google Patents
Telephone answering systemInfo
- Publication number
- JP3088625B2 JP3088625B2 JP06299920A JP29992094A JP3088625B2 JP 3088625 B2 JP3088625 B2 JP 3088625B2 JP 06299920 A JP06299920 A JP 06299920A JP 29992094 A JP29992094 A JP 29992094A JP 3088625 B2 JP3088625 B2 JP 3088625B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- word
- recognition
- standard pattern
- telephone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Telephonic Communication Services (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は、電話応答システムに関
し、より詳細には、話者適応化方式による音声認識技術
を用いた電話応答システムに関する。 BACKGROUND OF THE INVENTION This invention is related to the telephone response system
More specifically, speech recognition technology using speaker adaptation
And a telephone answering system using the same.
【0002】[0002]
【従来の技術】従来から、電話による電話応答システム
は使用されている。従来からの電話応答システムにおい
ては、音声を認識するための認識性能を向上させ、シス
テムの信頼性を高めるために種々の方策を行っている。
例えば、 (1)認識対称の語彙を必要最小限に制限する。2. Description of the Related Art Conventionally, telephone answering systems using telephones have been used. In a conventional telephone answering system, various measures are taken to improve the recognition performance for recognizing a voice and increase the reliability of the system.
For example: (1) limit the vocabulary of recognition symmetry to the minimum required.
【0003】(2)音声認識に使用する標準パターンに
おける分布の分散値を小さくし、余計な音(関係のない
会話音声や雑音など)をリジェクトする率を高める。(2) The variance of the distribution in a standard pattern used for speech recognition is reduced, and the rate of rejecting unnecessary sounds (irrelevant conversational speech, noise, etc.) is increased.
【0004】(3)認識対象の人間を限定する特定話者
の音声認識の方式を用いる。(3) A speech recognition method of a specific speaker for limiting a person to be recognized is used.
【0005】(4)話者適応化方式の音声認識を用い
る。(4) Speech recognition of a speaker adaptation system is used.
【0006】などを行っている。And so on.
【0007】さて、話者適応化方式の音声認識において
は、話者に特定の語彙を発声させ、これを用いて発声し
た話者の音声認識を行うものである。[0007] In the speech recognition of the speaker adaptation system, a specific vocabulary is uttered by a speaker, and the speech of the uttered speaker is recognized using the vocabulary.
【0008】この特定の語彙の発声は、認識のパターン
データとするために、最低3回程度行う必要がある。The utterance of this specific vocabulary needs to be performed at least about three times in order to use the pattern data for recognition.
【0009】この従来の音声認識における話者適応化方
式では、話者に特定の語彙をわざわざ発声させているの
で、話者の負担となっており、わずらわしさの原因とな
っていた。In the conventional speaker adaptation system in speech recognition, since a specific vocabulary is uttered by the speaker, it is a burden on the speaker, which causes annoyance.
【0010】また、電話設置場所においては、設置場所
特有の大きい雑音が入力することが多くあり、この雑音
を音声として認識しようとするため、音声の認識性能が
下がることがあった。[0010] In addition, in a telephone installation location, a large noise peculiar to the installation location is often input, and this noise is intended to be recognized as voice, so that the voice recognition performance may be reduced.
【0011】[0011]
【発明が解決しようとする課題】本発明の目的は、電話
応答システムにおいて、話者にわずらわしさを感じさせ
ずに、話者適応化方式による音声認識をできるようにす
る。SUMMARY OF THE INVENTION An object of the present invention is to make it possible for a telephone answering system to perform speech recognition by a speaker adaptation method without causing a speaker to feel troublesome.
【0012】また、電話対応者が最初に発声する単一の
単語を対象語として、リアルタイムで話者適応化を行う
電話応答システムを提供することである。 [0012] Also, a single caller first speaks
Perform speaker adaptation in real time using words as target words
A telephone answering system is provided.
【0013】[0013]
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、標準パターンを用いて音声
認識し、認識された音声に対応したメッセージを送出す
る電話応答システムにおいて、通話開始時に対応者が最
初に発声する特定された単一の単語を対象語とし、前記
標準パターンを用いて認識する特定単語認識手段と、該
特定単語認識手段により認識された前記特定の単語を特
定単語パターンとして取得する単語パターン取得手段
と、該単語パターン取得手段で取得された特定単語パタ
ーンを用いて、前記標準パターンを書き換えて新たな標
準パターンに変更する標準パターン変更手段と、通話終
了時に前記標準パターン変更手段によって書き換えられ
た標準パターンを元の標準パターンに戻す標準パターン
復帰手段とを備えたことを特徴とする電話応答システム
である。To achieve the above object, according to an aspect of, the invention are according to claim 1, in a telephone answering system with voice recognition, it sends the message corresponding to the recognized speech using a standard pattern, At the start of the call
The target word is the single word specified first,
A specific word recognition means for recognizing with a standard pattern, the
Identify the specific word recognized by the specific word recognition means.
A word pattern acquisition means for acquiring as a constant word pattern, using a specific word pattern <br/> over emissions obtained by the word pattern acquisition means, a new target rewrites the reference pattern
And the standard pattern changing means for changing a quasi-pattern, call final
Is rewritten by the standard pattern changing means upon completion.
And a telephone response system, characterized in that it includes a standard pattern returning means for returning to the original reference pattern and standard patterns.
【0014】請求項2記載に発明は、対象語が「ハイ」
であることを特徴とする請求項1記載の電話応答システ
ムである。According to the second aspect of the present invention, the object word is "high".
The telephone answering system according to claim 1, wherein
【0015】[0015]
【0016】[0016]
【作用】電話での会話を行う場合、電話着信(フックオ
フ)後に会話を行おうとする本人(以下、電話対応者と
いう)がでてから電話を切る(フックオン)まで、同じ
人が対応するという特徴がある。したがって、1回の通
話中の最初に電話対応者の発声特徴をリアルタイムでシ
ステムに登録し、通話中のフローが終了するまでは、そ
の特徴に基づいて音声認識を行い、リアルタイムな話者
適応化を行うと音声認識の認識率が向上する。この場
合、最初に発声された1回の音声を学習データとして適
応化を行う。全認識対象語を話者適応化の対象とするこ
とは、未だできず、このシステムでは、認識対象語から
最重要語を選択してこの1語に対して話者適応化を行
う。このため、最重要語の認識率は向上し、また、シス
テム全体の信頼性が高くなる。[Function] When a telephone conversation is performed, the same person responds from the appearance of the person who will be talking after the incoming call (hook off) (hereinafter referred to as the telephone responder) to the end of the call (hook on). There is. Therefore, the utterance characteristics of the telephone correspondent are registered in the system in real time at the beginning of one call, and the voice recognition is performed based on the characteristics until the flow during the call ends, thereby real-time speaker adaptation. Is performed, the recognition rate of voice recognition is improved. In this case, adaptation is performed using one uttered voice first as learning data. It is not yet possible to target all the words to be recognized for speaker adaptation, and in this system, the most important word is selected from the words to be recognized and speaker adaptation is performed on this one word. For this reason, the recognition rate of the most important words is improved, and the reliability of the entire system is increased.
【0017】また、電話設置箇所特有の雑音を音声認識
と同様の処理をして取り除いているので、認識度が向上
し、システムの信頼性が高まる。Further, since noise peculiar to the telephone installation location is removed by performing the same processing as speech recognition, the degree of recognition is improved and the reliability of the system is increased.
【0018】[0018]
【実施例】以下、図面を用いて、本発明の実施例を説明
する。Embodiments of the present invention will be described below with reference to the drawings.
【0019】実施例は、電話応答システムを電力会社に
おける電力運用の自動連絡システムの適用した場合で説
明する。In the embodiment, a telephone answering system will be described in which an automatic contact system for power operation in a power company is applied.
【0020】図1は、本発明の実施例である電話応答シ
ステムを電力運用の自動連絡システムに適用した場合の
装置構成を示すブロック図である。図1において、1及
び2は音声認識応答システムであり、1つの筐体で4チ
ャンネルに対応することができ、それが2台ある。この
音声認識応答システム1及び2は、構内交換機(PB
X)5を介して公衆回線6に接続されており、電力の需
要家の電話機と接続されている。PBX5は、会社内の
他の電話機4にも接続されている。音声認識応答装置1
及び2は、イーサネット3を介してシステム操作端末7
に接続されており、このシステム操作端末7で音声認識
応答装置1及び2を制御している。FIG. 1 is a block diagram showing an apparatus configuration in a case where a telephone answering system according to an embodiment of the present invention is applied to an automatic communication system for power operation. In FIG. 1, reference numerals 1 and 2 denote voice recognition response systems. One housing can correspond to four channels, and there are two units. The voice recognition response systems 1 and 2 are connected to a private branch exchange (PB
X) It is connected to the public line 6 via 5, and is connected to the telephone of the consumer of the electric power. The PBX 5 is also connected to other telephones 4 in the company. Voice recognition response device 1
And 2 are system operation terminals 7 via Ethernet 3
The system operation terminal 7 controls the voice recognition response devices 1 and 2.
【0021】図2は、音声認識応答装置1及び2とシス
テム操作端末7の機能構成を示すブロック図である。シ
ステム操作端末では、オペレーティング・システム(O
S)上に、各種アプリケーション・システムが作動して
いる。このアプリケーション・システムの一部に、音声
認識アプリケーション開発支援ツール群と、音声認識制
御ライブラリがあり、これらを用いて音声認識応答装置
の開発、制御を行う。音声認識応答装置ではオペレーテ
ィング・システム上に音声認識応答ドライバと音声認識
カードがあり、音声認識応答サーバとして動作してい
る。FIG. 2 is a block diagram showing the functional configuration of the voice recognition response devices 1 and 2 and the system operation terminal 7. In the system operation terminal, the operating system (O
S) Above, various application systems are operating. A part of this application system includes a speech recognition application development support tool group and a speech recognition control library, which are used to develop and control a speech recognition response device. The voice recognition response device has a voice recognition response driver and a voice recognition card on an operating system, and operates as a voice recognition response server.
【0022】図3は、上記で説明した電力運用の自動連
絡システムにおけるメッセージ・フローを説明するフロ
ーチャートである。まず、電力運用の自動連絡システム
は、需要家に対して自動的に電話を掛ける。そのときに
「こちらは、東京電力銀座支店SNW電話連絡システム
です。長嶋商事さんですか。「ハイ」か「イイエ」でお
答え願えます。」(301)と電話認識応答システムか
らメッセージが音声で伝えられる。これで、その電話に
でた方の「ハイ」か「イイエ」の応答により、図3に示
すように次のメッセージが送られる。FIG. 3 is a flow chart for explaining a message flow in the above-described automatic communication system for power operation. First, the automatic contact system for power operation automatically calls a customer. At that time, "This is the SNW telephone communication system for the Tokyo Electric Power Company Ginza Branch. Is it Nagashima Shoji. Please answer" high "or" no. " (301) and the message are transmitted by voice from the telephone recognition response system. As a result, the next message is sent as shown in FIG. 3 in response to the "high" or "no" response to the caller.
【0023】「ハイ」(302)と応答があると、この
実施例の場合は、「SNW1番線停止送電に関する連絡
をさせて頂きます。このまま操作をお願いしてもよろし
ければ「ハイ」、どなたか御担当の方とかわるのであれ
ば「イイエ」とお答え願います。」(303)とメッセ
ージが送られる。If there is a response of "high" (302), in this embodiment, "we will contact you about SNW line 1 stop power transmission. If you want to request the operation as it is," high ", someone If you are in charge of the person in charge, answer "No". (303) and a message is sent.
【0024】「イイエ」(316)があると、「当社の
社員へ直接電話をおつなぎ致しますので、このままお待
ち下さい。」(317)とのメッセージを伝えて、待機
していた係員(システム操作員)に電話を自動的につな
ぐ(318)。When there is "No" (316), the message "317 will be connected directly to the employees of our company, please wait." Automatically connect the telephone to the member (318).
【0025】さて、303のメッセージの後、「ハイ」
(304)と答えがあれば、次のメッセージが送られ
る。「イイエ」(319)の答えの場合は、「それで
は、電話をこのまま切らずに、御担当の方と替わって下
さい。」(320)とメッセージが送られ、また、30
3に戻る。この303のメッセージから一定回数または
一定時間内に「ハイ」(304)の応答があるまで、こ
のループからは出ない。さて、この「ハイ」(304)
と答えた応答者が今後の通話に応答する「電話対応者」
である。Now, after the message of 303, "high"
If the answer is (304), the next message is sent. In the case of the answer of "No" (319), a message "320 (OK), please do not hang up the phone and change to the person in charge."
Return to 3. The loop does not exit until a "high" (304) response is received within a predetermined number of times or within a predetermined time from the message of 303. Well, this "high" (304)
"Responder" who responds to future calls
It is.
【0026】さて、この電力運用の自動連絡システム
は、以下図3に示すような、メッセージを送出し、応答
に応じてメッセージを替えながら、自動連絡を行う(3
05〜315,322〜329)。自動連絡システムで
対応できない場合は、待機している係員に電話を自動的
につなぐ(318)。The automatic operation system for power operation sends a message as shown in FIG. 3 and performs automatic communication while changing the message according to the response (3.
05-315, 322-329). If the automatic contact system does not respond, the telephone is automatically connected to the waiting agent (318).
【0027】この電力運用の自動連絡システムにおいて
は、「ハイ」の応答が重要である。例えば、図3におい
て、310、312の「ハイ」との応答で、連絡事項の
確認を行っている。この「ハイ」の応答を正しく認識で
きないとこの自動連絡システムの信頼性が著しく低下す
る。したがって、この通話の「電話対応者」の最初の
「ハイ」(304)を話者適応化の対象語とする必要が
ある。In the automatic communication system for power operation, a "high" response is important. For example, in FIG. 3, the communication items are confirmed in response to “high” in 310 and 312. Failure to properly recognize this "high" response significantly reduces the reliability of the automatic contact system. Therefore, it is necessary to set the first "high" (304) of the "telephone correspondent" of this call as a target word for speaker adaptation.
【0028】この304の「ハイ」を用いて、適応化を
行うことについて次に説明する。Adaptation using the "high" of 304 will be described below.
【0029】まず、「ハイ」であることを認識する。こ
れを、入力音声「ハイ」の発声特徴の抽出を行い確率を
示す標準パターン分布とを示す図4,音声認識を説明し
ている図5,「ハイ」の音声認識の確率オートマトンを
示す図(隠れマルコフ・モデル HMM)である図6を
用いて説明する。First, it is recognized that it is "high". FIG. 4 illustrates a standard pattern distribution indicating the probability of extracting the utterance feature of the input speech “high”, FIG. 4 illustrating speech recognition, and FIG. 5 illustrates a stochastic automaton of speech recognition “high” ( This will be described with reference to FIG. 6, which is a hidden Markov model (HMM).
【0030】各入力音声と標準パターンとの比較につい
て、図4を用いて説明する。図4(a)のように、入力
音声が入力される。すると、音声認識部において、入力
音声は、各フレームXi に分解される。そして、各フレ
ームXi 毎にシステム内の例えば「H」の音素の標準パ
ターン分布SH (図4(b)参照)と比較される。標準
パターン分布Sは、音素の特徴量で構成された音響空間
とそれに対応した確率分布の関数として示されている。The comparison between each input voice and the standard pattern will be described with reference to FIG. As shown in FIG. 4A, an input voice is input. Then, in the speech recognition section, the input speech is decomposed into each frame Xi. Each frame Xi is compared with a standard pattern distribution SH of phonemes of "H" in the system (see FIG. 4B). The standard pattern distribution S is shown as a function of an acoustic space composed of phoneme features and a probability distribution corresponding to the acoustic space.
【0031】各音素ごとに確率を求める様子は、図5に
示されている。「ハイ」を音素片に分解すると、
「H」,「HA」,「A」,「AI」,「I」の5種類
となる。したがって、この記号列の確率が一番高いもの
が「ハイ」として認識される。この記号列の生成確率を
求めるために、各音素毎に標準パターン分布が用意され
ている。これを説明したのが図5である。この標準パタ
ーン分布を用いて、入力音声の各フレームの各音素毎の
確率をもとめる。これで、「ハイ」とする確率をもとめ
て、音声認識を行う。「ハイ」となる確率は、図6の確
率オートマトンを示す図(隠れマルコフ・モデル HM
M)を用いて求められる。この図において、S1 〜S5
は、それぞれの音素片の検出を示す状態である。状態S
1 は「H」を検出する確率が高く、検出後ループして状
態S1 に戻るか、状態S2 へ進む。以下同様に状態S2
は「HA」を検出する確率が高く、検出後ループして状
態S2 に戻るか、状態S3 へ進む。状態S3 ,S4 ,S
5 についても同様である。そして、最終的に状態S6 へ
進むと、この確率オートマトンが終了し、入力音声に対
する「ハイ」の確率が求まる。FIG. 5 shows how the probability is obtained for each phoneme. Decomposing "high" into phonemes,
There are five types: "H", "HA", "A", "AI", and "I". Therefore, the symbol string having the highest probability is recognized as “high”. In order to determine the generation probability of this symbol string, a standard pattern distribution is prepared for each phoneme. This is illustrated in FIG. Using this standard pattern distribution, the probability of each phoneme of each frame of the input voice is obtained. Thus, the voice recognition is performed by determining the probability of “high”. The probability of “high” is shown in the diagram of the stochastic automaton in FIG. 6 (Hidden Markov Model HM
M). In this figure, S 1 to S 5
Is a state indicating detection of each phoneme segment. State S
1 has a high probability of detecting the "H", or return to the state S 1 is detected after the loop, advances to state S 2. Hereinafter, the state S 2 is similarly set.
Has a high probability of detecting the "HA", to return to the state S 2 is detected after the loop, advances to state S 3. States S 3 , S 4 , S
The same applies to 5 . Then, when finally goes to state S 6, the probability automaton is completed, the probability of "high" is determined with respect to the input voice.
【0032】この様にして、「ハイ」が認識されると、
各音素片の標準パターンをこの認識された「電話対応
者」の「ハイ」の各音素片の確率が高まるように変更す
る。これを図7,図8で説明する。In this way, when "high" is recognized,
The standard pattern of each phoneme is changed so that the probability of each "high" phoneme of the recognized "phone correspondent" is increased. This will be described with reference to FIGS.
【0033】ここで、Xi を「ハイ」と認識された音声
の各フレームとする。この各フレームは、システムに記
憶されている。さて、記憶されている音声のフレームか
ら「H]として認識の対象となったフレームをX1 〜X
j (j<i)とする。このX1 〜Xj のフレームから
「電話対応者」の特徴として登録すべきフレームを抽出
する。これを説明したのが図7である。まず、「H」の
標準パターン分布SH とフレームX1 〜Xj とを比較
し、一番確率が高いフレームを選択する(図7(1)〜
(j)参照)。この場合フレームX2 が一番高い確率を
示したので、これを採用する。そして、この特徴として
抽出した部分を特定話者認識に基づいた分散値により最
高確率が出力されるように拡張し(図8(a)参照)、
新標準パターンとして登録する(図8(b)参照)。こ
の通話中は、このパターンを用いて音声認識を行う。こ
のことを、「ハイ」を認識するのに必要な各音素片全て
に対して行うことにより、この通話中は、「電話対応
者」の「ハイ」の特徴に応じて音声認識を行うことがで
きる。通話が終了すると、即ち「電話対応者」が電話を
切ると、パターンを元の標準パターンに戻す。これで、
次の需要家に連絡する際には、元の標準パターンで音声
認識をすることができる。Here, Xi is each frame of the voice recognized as "high". Each of these frames is stored in the system. Now, the frames that are recognized as "H" from the stored voice frames are represented by X 1 to X 1.
j (j <i). Extracting a frame to be registered as a feature of the "telephone responder 'from the frame of the X 1 to X j. FIG. 7 illustrates this. First, compared with the standard pattern distribution SH and frame X 1 to X j of "H", the most probability to select a higher frame (FIG. 7 (1) -
(J)). In this case frame X 2 showed the highest probability, to adopt it. Then, the part extracted as this feature is extended so that the highest probability is output by the variance value based on the specific speaker recognition (see FIG. 8A),
It is registered as a new standard pattern (see FIG. 8B). During this call, voice recognition is performed using this pattern. By performing this for all the phoneme segments necessary for recognizing “high”, during this call, voice recognition can be performed according to the “high” feature of the “phone responder”. it can. When the call ends, that is, when the "phone responder" hangs up, the pattern is returned to the original standard pattern. with this,
When contacting the next customer, speech recognition can be performed using the original standard pattern.
【0034】また、この電力運用の自動連絡システムで
は、電気設備の担当者にかける必要が有り、この場合、
電気設備の担当者の電話は、当然電気設備の近辺に設置
されている場合が多い。この場合、電気設備特有の雑音
が電話の受話器から入力される恐れが強い。この雑音が
大きいときには、音声区間として取り扱われることがあ
る。このような恐れのある音としては、例えば遮断機の
操作音のような突発的な音があり、この音は破裂音とし
て取り扱われることがある。このようなときは、誤認識
の原因となりやすい。実施例の電力運用システムでは、
このような電力設備特有な音を音声として取り扱い、そ
の上で雑音として取り除いている。Also, in this power operation automatic communication system, it is necessary to call the person in charge of the electric equipment.
Of course, the telephone of the person in charge of the electrical equipment is often installed near the electrical equipment. In this case, there is a strong possibility that noise peculiar to the electric equipment is input from the telephone handset. When this noise is large, it may be treated as a voice section. Such a possible sound includes a sudden sound such as an operation sound of a circuit breaker, and this sound may be treated as a plosive sound. In such a case, misrecognition is likely to occur. In the power operation system of the embodiment,
Such a sound peculiar to power equipment is treated as voice, and then removed as noise.
【0035】このことを図9,図10を用いて説明す
る。さて、この場合音声として取り扱うべき電力設備特
有な音等を収集し、これを図9に示すようにして、標準
パターンとして、システムに登録する。図9において、
収集したデータを用意し(S901)、これを周波数分
析等を行いマッチングパターンを作成する(S90
2)。マッチングパターンから、異常データを取り除き
(S903)、代表パターンを作成する(S905)。
複数の代表パターンのクラスタリングを行い、標準パタ
ーンを決定する(S906)。This will be described with reference to FIGS. Now, in this case, a sound or the like peculiar to the power equipment to be treated as a voice is collected and registered in the system as a standard pattern as shown in FIG. In FIG.
The collected data is prepared (S901) and subjected to frequency analysis and the like to create a matching pattern (S90).
2). Abnormal data is removed from the matching pattern (S903), and a representative pattern is created (S905).
The clustering of a plurality of representative patterns is performed to determine a standard pattern (S906).
【0036】つぎに、図10に示すフローにより、定め
られた音声として取り扱うべき電力設備特有の音等を音
声認識により取り除くことを説明する。Next, with reference to the flow shown in FIG. 10, a description will be given of how to remove a sound or the like peculiar to power equipment to be handled as a predetermined sound by voice recognition.
【0037】図10において、S1006までは通常の
音声認識の手順であるので説明を略す。S1006にお
いて認識結果が出力されるが、この実施例では、認識結
果として、音声ばかりでなく、電力特有の操作音をして
認識結果を出力することがある。この場合は、雑音とし
て認識し、以後の処理ではこの音が認識されていないと
して取り扱われる。このようにして、音声の処理に雑音
の除去を含ませているので、音声と雑音との区別が確実
にそして容易に行われる。In FIG. 10, steps up to S1006 are ordinary speech recognition procedures, and a description thereof will be omitted. In step S1006, the recognition result is output. In this embodiment, the recognition result may be output not only by voice but also by operation sound peculiar to electric power. In this case, the sound is recognized as noise, and in the subsequent processing, this sound is treated as not being recognized. In this way, the speech processing includes noise elimination, so that the distinction between speech and noise is made reliably and easily.
【0038】この処理は、電力運用の際の電力設備特有
の雑音ばかりでなく、電話の設置場所に特有の雑音なら
ば適用できる。例えば、鉄道の駅における電車等の雑音
等がある。This processing can be applied to not only noise peculiar to power equipment during power operation but also noise peculiar to a telephone installation location. For example, there is noise from a train or the like at a railway station.
【0039】[0039]
【発明の効果】以上述べたように本発明によれば、通話
開始時に対応者が最初に発声する特定された単一の単語
を対象語とし、標準パターンを用いて認識する特定単語
認識手段と、特定単語認識手段により認識された特定の
単語を特定単語パターンとして取得する単語パターン取
得手段と、単語パターン取得手段で取得された特定単語
パターンを用いて、標準パターンを書き換えて新たな標
準パターンに変更する標準パターン変更手段と、通話終
了時に標準パターン変更手段によって書き換えられた標
準パターンを元の標準パターンに戻す標準パターン復帰
手段とを備えたので、電話着信(フックオフ)後に、1
回の通話中の最初に発声された音声を学習データとして
リアルタイムで話者適応化を行うことができるばかりで
なく、特定の単語(最重要語)に対する音声認識率を高
めることができ、電話応答システム全体の信頼性を向上
させることができる。 As described above , according to the present invention , a call can be made.
Single word identified first by responder at start
Specific words that are recognized using standard patterns
Recognition means and a specific word recognized by the specific word recognition means.
Word pattern acquisition to acquire words as specific word patterns
Obtaining means and a specific word obtained by the word pattern obtaining means
Using a pattern to rewrite the standard pattern
Standard pattern changing means for changing to the standard pattern
The mark rewritten by the standard pattern changing means
Standard pattern restoration that restores the standard pattern to the original standard pattern
Means after receiving an incoming call (hook-off).
The first uttered voice during a call is used as training data.
Can just perform speaker adaptation in real time
And high speech recognition rate for specific words (most important words)
Can Mel, improve the overall reliability of the telephone answering system
Can be done.
【0040】また、通話の終了(フックオン)ととも
に、電話応答システムの動作が終了し、書き換えられた
標準パターンを元の標準パターンに復帰させることがで
きるので、新たな需要者に対して常にもとの標準パター
ンで音声認識を行うことができる。 Also, with the end of the call (hook on)
At last, the operation of the telephone answering system was finished and rewritten.
The standard pattern can be restored to the original standard pattern.
The new standard pattern for new customers.
Voice recognition.
【図1】本発明の実施例である自動連絡システムの装置
構成を示すブロック図である。FIG. 1 is a block diagram showing a device configuration of an automatic communication system according to an embodiment of the present invention.
【図2】本発明の実施例の音声認識応答装置とシステム
操作端末の機能構成を示すブロック図である。FIG. 2 is a block diagram illustrating a functional configuration of a voice recognition response device and a system operation terminal according to an embodiment of the present invention.
【図3】本発明の実施例である電力運用の自動連絡シス
テムのメッセージ・フローを説明するフローチャートで
ある。FIG. 3 is a flowchart illustrating a message flow of the automatic power management communication system according to the embodiment of the present invention.
【図4】入力音声と標準パターンを示す図である。FIG. 4 is a diagram showing an input voice and a standard pattern.
【図5】音声認識を説明する図である。FIG. 5 is a diagram illustrating speech recognition.
【図6】音声認識に用いる確率オートマトンを示す図で
ある。FIG. 6 is a diagram illustrating a stochastic automaton used for speech recognition.
【図7】電話対応者の特徴を示すフレームの選択を説明
する図である。FIG. 7 is a diagram for explaining selection of a frame indicating characteristics of a telephone correspondent;
【図8】標準パターンを書き換えることを説明する図で
ある。FIG. 8 is a diagram for describing rewriting of a standard pattern.
【図9】雑音の標準パターンの作成を説明するフローチ
ャートである。FIG. 9 is a flowchart illustrating creation of a standard pattern of noise.
【図10】雑音を音声認識して除去することを説明する
フローチャートである。FIG. 10 is a flowchart illustrating how noise is removed by speech recognition.
1,2 音声認識応答システム 3 イーサネット 4 他の電話機 5 構内交換機(PBX) 6 公衆回線 7 システム操作端末 1, 2 voice recognition response system 3 Ethernet 4 other telephones 5 private branch exchange (PBX) 6 public line 7 system operation terminal
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 21/02 G10L 3/02 301D H04M 3/493 (58)調査した分野(Int.Cl.7,DB名) H04M 3/42 - 3/58 G10L 3/00 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 identification code FI G10L 21/02 G10L 3/02 301D H04M 3/493 (58) Investigated field (Int.Cl. 7 , DB name) H04M 3 / 42-3/58 G10L 3/00
Claims (2)
された音声に対応したメッセージを送出する電話応答シ
ステムにおいて、通話開始時に対応者が最初に発声する
特定された単一の単語を対象語とし、前記標準パターン
を用いて認識する特定単語認識手段と、該特定単語認識
手段により認識された前記特定の単語を特定単語パター
ンとして取得する単語パターン取得手段と、該単語パタ
ーン取得手段で取得された特定単語パターンを用いて、
前記標準パターンを書き換えて新たな標準パターンに変
更する標準パターン変更手段と、通話終了時に前記標準
パターン変更手段によって書き換えられた標準パターン
を元の標準パターンに戻す標準パターン復帰手段とを備
えたことを特徴とする電話応答システム。1. Speech recognition using a standard pattern, and recognition
In a telephone answering system that sends out a message corresponding to a given voice, the responder first speaks at the beginning of the call
Using the identified single word as the target word, the standard pattern
A specific word recognition means for recognizing with, the specific word recognition
The specific word recognized by the means to a specific word pattern
A word pattern acquisition means for acquiring as down, using a specific word pattern obtained by the word pattern <br/> over emissions obtaining means,
Rewrite the standard pattern and change to a new standard pattern
Standard pattern changing means for changing the standard
Standard pattern rewritten by pattern changing means
Bei a standard pattern restoration means the return to the original reference pattern
Telephone response system, characterized in that was example.
とする請求項1記載の電話応答システム。2. The telephone answering system according to claim 1, wherein the target word is “high”.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06299920A JP3088625B2 (en) | 1994-12-02 | 1994-12-02 | Telephone answering system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06299920A JP3088625B2 (en) | 1994-12-02 | 1994-12-02 | Telephone answering system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08163255A JPH08163255A (en) | 1996-06-21 |
JP3088625B2 true JP3088625B2 (en) | 2000-09-18 |
Family
ID=17878529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06299920A Expired - Fee Related JP3088625B2 (en) | 1994-12-02 | 1994-12-02 | Telephone answering system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3088625B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251805B2 (en) | 2012-12-18 | 2016-02-02 | International Business Machines Corporation | Method for processing speech of particular speaker, electronic system for the same, and program for electronic system |
-
1994
- 1994-12-02 JP JP06299920A patent/JP3088625B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251805B2 (en) | 2012-12-18 | 2016-02-02 | International Business Machines Corporation | Method for processing speech of particular speaker, electronic system for the same, and program for electronic system |
Also Published As
Publication number | Publication date |
---|---|
JPH08163255A (en) | 1996-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5905773A (en) | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models | |
CA2105034C (en) | Speaker verification with cohort normalized scoring | |
CA2420679C (en) | Speech recognition method and system to determine the status of an outbound telephone call | |
JP3168033B2 (en) | Voice telephone dialing | |
US8818809B2 (en) | Methods and apparatus for generating, updating and distributing speech recognition models | |
US5822727A (en) | Method for automatic speech recognition in telephony | |
US8682663B2 (en) | Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists | |
JP2957862B2 (en) | Communication system and communication method | |
US5930336A (en) | Voice dialing server for branch exchange telephone systems | |
CN108391020A (en) | A kind of call control method, device, equipment and storage medium | |
US20030125947A1 (en) | Network-accessible speaker-dependent voice models of multiple persons | |
US20020118803A1 (en) | Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges | |
JPH1063293A (en) | Telephone voice recognition device | |
JP2001274907A (en) | Caller recognition system and method | |
CN104601832A (en) | Dialogue system and voice dialogue processing method | |
JP3088625B2 (en) | Telephone answering system | |
US20040002865A1 (en) | Apparatus and method for automatically updating call redirection databases utilizing semantic information | |
JP4486235B2 (en) | Voice recognition device | |
CN118612343B (en) | Intelligent voice outbound system based on AI | |
JP4067483B2 (en) | Telephone reception translation system | |
CA2712853C (en) | Speech recognition method and system to determine the status of an outbound telephone call | |
CN119544873A (en) | Method and system for intelligent outbound calling robot to automatically identify the telephone status of virtual number | |
JP2010213242A (en) | Method for deciding invalid call from third person having malicious intent and device for automatically corresponding to telephone | |
Guojun et al. | An automatic telephone operator using speech recognition | |
JPS58169197A (en) | Voice responder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |