[go: up one dir, main page]

JP2011257529A - Method, device and program for holding-related utterance extraction - Google Patents

Method, device and program for holding-related utterance extraction Download PDF

Info

Publication number
JP2011257529A
JP2011257529A JP2010130824A JP2010130824A JP2011257529A JP 2011257529 A JP2011257529 A JP 2011257529A JP 2010130824 A JP2010130824 A JP 2010130824A JP 2010130824 A JP2010130824 A JP 2010130824A JP 2011257529 A JP2011257529 A JP 2011257529A
Authority
JP
Japan
Prior art keywords
utterances
utterance
holding
adjacent
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010130824A
Other languages
Japanese (ja)
Inventor
Takaaki Fukutomi
隆朗 福冨
Tsubasa Shinozaki
翼 篠崎
Osamu Yoshioka
理 吉岡
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010130824A priority Critical patent/JP2011257529A/en
Publication of JP2011257529A publication Critical patent/JP2011257529A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a technology capable of extracting an utterance related to holding more appropriately.SOLUTION: A voice feature amount calculation unit 2 extracts a voice feature amount of a voice signal. A voice recognition unit 3 uses the voice feature amount, an acoustic model and a language model to execute voice recognition for the voice signal, to detect an utterance included in the voice signal and to generate information on the detected utterance. A holding interval detection unit 4 uses the information on the utterance to detect a holding interval between adjacent utterances which is equal to or longer than a predetermined time. An extraction unit 5 extracts more utterances from a group of utterances adjacent to the holding interval when the holding interval is longer.

Description

この発明は、保留に関連する発話を抽出する技術に関する。   The present invention relates to a technique for extracting utterances related to holding.

通話を音声認識技術によりテキスト化し、テキスト処理技術によって通話の中での重要語を抽出する方法がある(例えば、非特許文献1参照。)。   There is a method in which a phone call is converted into text by a voice recognition technology and an important word in the phone call is extracted by a text processing technology (for example, see Non-Patent Document 1).

従来は、保留が行われた通話の全体に対して、この非特許文献1に記載された方法を適用することにより重要語を抽出して、保留の原因を探っていた。   Conventionally, an important word is extracted by applying the method described in Non-Patent Document 1 to the entire call on hold, and the cause of the hold is searched.

徳永健伸(著),辻井潤一(編集),「言語と計算(5)情報検索と言語処理」,東京大学出版会,1999年11月Takenobu Tokunaga (Author), Junichi Sakurai (Editor), "Language and Calculation (5) Information Retrieval and Language Processing", The University of Tokyo Press, November 1999

しかしながら、保留が行われた通話の全体から抽出された重要語は、保留とは全く関係ない話題に関係する単語である場合があるという問題があった。   However, there is a problem that the important word extracted from the entire call on hold is a word related to a topic that has nothing to do with hold.

この発明は、より適切に保留に関連する発話を抽出することを目的とする。   An object of the present invention is to more appropriately extract utterances related to holding.

上記の課題を解決するために、音声信号の音声特徴量を抽出する。音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する。発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である区間を保留区間として検出する。保留区間に隣接する発話の集合から、保留区間が長いほど多くの数の発話を抽出する。   In order to solve the above-described problem, a voice feature amount of a voice signal is extracted. Voice recognition is performed on the voice signal using a voice feature, an acoustic model, and a language model, an utterance included in the voice signal is detected, and information about the detected utterance is generated. Using the information about the utterance, a section where the interval between adjacent utterances is equal to or longer than a predetermined time is detected as a reserved section. From the set of utterances adjacent to the reserved section, a larger number of utterances are extracted as the reserved section is longer.

より適切に保留に関連する発話を抽出することができる。   It is possible to more appropriately extract utterances related to holding.

保留関連発話抽出装置の例の機能ブロック図。The functional block diagram of the example of a pending | holding related speech extraction apparatus. 保留関連発話抽出方法の例を示す流れ図。The flowchart which shows the example of the hold related utterance extraction method. ステップS4の例を示す流れ図。The flowchart which shows the example of step S4. 保留区間の検出の例を説明するための図。The figure for demonstrating the example of a detection of a pending | holding area. 保留関連発話抽出の例を説明するための図。The figure for demonstrating the example of a holding | maintenance related speech extraction.

以下、図面を参照してこの発明の一実施形態を説明する。   An embodiment of the present invention will be described below with reference to the drawings.

保留関連発話抽出装置は、図1に示すように、音声信号取得部1、音声特徴量算出部2、音声認識部3、保留区間検出部4、抽出部5を例えば含む。この保留関連発話抽出装置が、図2に例示する保留関連発話抽出方法の各ステップを実行する。   As shown in FIG. 1, the hold-related utterance extraction device includes, for example, a voice signal acquisition unit 1, a voice feature amount calculation unit 2, a voice recognition unit 3, a hold section detection unit 4, and an extraction unit 5. This hold-related utterance extraction device executes each step of the hold-related utterance extraction method illustrated in FIG.

音声取得部1は、入力されたアナログ音声信号をA/D変換して、ディジタル音声信号を生成する(ステップS1)。ディジタル音声信号は、音声特徴量抽出部2に送られる。音声取得部1に入力されるアナログ音声信号は、複数チャネルにそれぞれ対応する複数のアナログ音声信号である。この例では、チャネル数は2であり、一方がオペレータの音声のチャネルA、他方が顧客の音声のチャネルBであるとする。   The voice acquisition unit 1 performs A / D conversion on the input analog voice signal to generate a digital voice signal (step S1). The digital voice signal is sent to the voice feature quantity extraction unit 2. The analog audio signals input to the audio acquisition unit 1 are a plurality of analog audio signals respectively corresponding to a plurality of channels. In this example, it is assumed that the number of channels is 2, one of which is channel A for operator's voice and the other is channel B for customer's voice.

音声特徴量抽出部2は、ディジタル音声信号の音声特徴量を抽出する(ステップS2)。抽出された音声特徴量についての情報は、音声認識部3に送られる。音声特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficient)、MFCCの変化量であるΔMFCCであり、後述する音声認識部3で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。   The voice feature quantity extraction unit 2 extracts the voice feature quantity of the digital voice signal (step S2). Information about the extracted voice feature amount is sent to the voice recognition unit 3. The voice feature amount is, for example, MFCC (Mel-Frequency Cepstrum Coefficient) or ΔMFCC which is the amount of change in MFCC, and may be anything that can be used by the voice recognition unit 3 described later. An existing technique may be used to extract the voice feature amount.

音声認識部3は、音声特徴量、音響モデル及び言語モデルを用いて、音声信号に対して音声認識を行い、音声信号に含まれる発話を検出し、検出された発話についての情報を生成する(ステップS3)。検出された発話についての情報は、保留区間検出部4及び抽出部5に送られる。音声認識は、既存の技術を用いればよい。後述する入電フレーズ及び切電フレーズが認識できれば十分であるため、比較的軽い処理の音声認識技術を用いればよい。   The speech recognition unit 3 performs speech recognition on the speech signal using the speech feature value, the acoustic model, and the language model, detects an utterance included in the speech signal, and generates information about the detected utterance ( Step S3). Information about the detected utterance is sent to the hold section detection unit 4 and the extraction unit 5. For voice recognition, existing technology may be used. Since it is sufficient to be able to recognize an incoming call phrase and a turn-off phrase, which will be described later, a relatively light processing speech recognition technique may be used.

発話についての情報とは、例えば、顧客の各発話Uci(i=1,2,…)の開始時刻Sci及び終了時刻Eci、オペレータの各発話Uoi(i=1,2,…)の開始時刻Soi及び終了時刻Eoi、顧客の各発話Uci(i=1,2,…)を構成するMci個の単語の表記Wci1,Wci2,…,WciMci、これらの単語の品詞情報Pci1,Pci2,…,PciMci、オペレータの各発話Uoi(i=1,2,…)を構成するMoi個の単語の表記Woi1,Woi2,…,WoiMoi、これらの単語の品詞情報Poi1,Poi2,…,PoiMciについての情報である。   The information about the utterance includes, for example, the start time Sci and end time Eci of each utterance Uci (i = 1, 2,...) Of the customer, and the start time Soi of each utterance Uoi (i = 1, 2,...) Of the operator. , End time Eoi, Mci word notation Wci1, Wci2,..., WciMci constituting each customer utterance Uci (i = 1, 2,...), Part of speech information Pci1, Pci2,..., PciMci, Information on Moi words constituting each utterance Uoi (i = 1, 2,...) Of the operator, Woi1, Woi2,.

保留区間検出部4は、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出する(ステップS4)。検出された保留区間についての情報は、抽出部5に送られる。   The holding section detection unit 4 uses information about an utterance, and the interval between adjacent utterances is a predetermined time or more, and at least one of the adjacent utterances includes a typical phrase used at the time of holding. A section is detected (step S4). Information about the detected pending section is sent to the extraction unit 5.

保留区間検出部4は、無音区間抽出部41及び定型表現抽出部42を含む。まず、無音区間抽出部41が、発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である無音区間を検出する。そして、定型表現抽出部42が、検出された無音区間に隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれているかどうか判定する。含まれていれば、無音区間抽出部41は、この無音区間を保留区間とする。   The reserved section detection unit 4 includes a silent section extraction unit 41 and a fixed expression extraction unit 42. First, the silent section extraction unit 41 detects a silent section in which the interval between adjacent utterances is equal to or longer than a predetermined time, using information about the utterance. Then, the fixed expression extraction unit 42 determines whether a typical phrase used at the time of holding is included in at least one of the utterances adjacent to the detected silent section. If included, the silent section extraction unit 41 sets this silent section as a reserved section.

発話にフレーズが含まれているかどうかは、フレーズを構成する単語がその発話にM個以上含まれているかどうかにより判定する。ここで閾値となるMは、フレーズを構成する単語の総数Nとした場合、M=┌N×k┐のように求める。ただし、kは0以上1以下の任意の定数とし、┌・┐は・以上の最小の整数を表す。より正確に保留区間を抽出したい場合には、kを大きな値に設定し、より抽出漏れを少なくしたい場合にはkを小さな値に設定するとよい。このようにフレーズを構成する単語を含む割合をもとに発話を抽出することで、全単語の一致を検出する場合よりも柔軟な検出が行える。単語がある発話に含まれるかどうかは、例えばその単語の表記及び品詞情報と同一の表記及び品詞情報を持つ単語がその発話の中に含まれるかどうかにより判定する。または、品詞情報を無視して、その単語の表記と同一の表記を持つ単語がその発話の中に含まれるかどうかにより判定してもよい。   Whether or not a phrase is included in an utterance is determined by whether or not M words or more constituting the phrase are included in the utterance. Here, the threshold value M is calculated as M = 求 め る N × k┐, where N is the total number of words constituting the phrase. However, k is an arbitrary constant of 0 or more and 1 or less, and ┌ / ┐ represents the smallest integer of ≧. If it is desired to extract the reserved section more accurately, k may be set to a large value, and if it is desired to reduce extraction omission, k may be set to a small value. Thus, by extracting the utterance based on the ratio including the words constituting the phrase, detection can be performed more flexibly than when all the words are matched. Whether or not a word is included in an utterance is determined by whether or not a word having the same notation and part of speech information as the notation and part of speech information of the word is included in the utterance. Alternatively, the part of speech information may be ignored and the determination may be made based on whether or not a word having the same notation as that word is included in the utterance.

保留時に用いられる典型的なフレーズとは、例えば「少々お待ち下さい」「お待たせしました」等が考えられる。「少々お待ち下さい」は、「少々:連用詞」「お:冠動詞」「待:動詞」…のように、複数の単語から構成されており、各単語の表記及び品詞情報は「表記:品詞情報」と表される。これらの表記、品詞情報の少なくとも一方を用いて、単語が発話に含まれているかどうかを判定する。表記、品詞情報は既存の形態素解析技術により求めることができる。   As typical phrases used at the time of holding, for example, “please wait a little”, “sorry for you”, etc. can be considered. “Please wait a bit” is composed of multiple words like “a little: verbs”, “o: coronal verbs”, “waits: verbs”, etc. The notation and part of speech information for each word is “notation: part of speech” Information ". Using at least one of these notations and part-of-speech information, it is determined whether or not the word is included in the utterance. Notation and part-of-speech information can be obtained by existing morphological analysis techniques.

保留区間検出部4は、さらに具体的には、図3の処理を行う。以下、この図3の処理の説明をする。この図3の処理は、この例では、オペレータの発話Uoi(i=1,2,…,No)のみを考慮して、保留区間の抽出を行っている。これは、相槌を行わない顧客がいること、保留メロディが顧客の電話機より流れることを考慮したものである。   More specifically, the reserved section detection unit 4 performs the process of FIG. Hereinafter, the process of FIG. 3 will be described. In the process of FIG. 3, in this example, the pending section is extracted in consideration of only the operator's utterance Uoi (i = 1, 2,..., No). This is due to the fact that there are customers who do not interact and that the hold melody flows from the customer's phone.

無音区間抽出部41は、i=2,h=1として、i及びhを初期化する(ステップS41)。   The silent section extraction unit 41 initializes i and h with i = 2 and h = 1 (step S41).

無音区間抽出部41は、i>Noであるか判定する(ステップS42)。Noは、オペレータの発話の総数である。   The silent section extraction unit 41 determines whether i> No (step S42). No is the total number of utterances by the operator.

i>Noでなければ。無音区間抽出部41は、オペレータのi番目の発話Uoiとオペレータのi−1番目の発話Uo(i−1)との間の間隔Eoi−So(i−1)が所定の時間Thより大であるか、Eoi−So(i−1)>Thであるか判定する(ステップS43)。   If i> No. The silent section extraction unit 41 has an interval Eoi-So (i-1) between the operator's i-th utterance Uoi and the operator's i-1th utterance Uo (i-1) greater than a predetermined time Th. It is determined whether or not Eoi-So (i-1)> Th (step S43).

Eoi−So(i−1)>Thであれば、定型表現抽出部42は、i番目の発話Uoi及びi−1番目の発話Uo(i−1)の少なくとも一方に保留時に用いられる典型的なフレーズが含まれているかどうかを判定する(ステップS44)。   If Eoi-So (i-1)> Th, the typical expression extraction unit 42 is typically used for holding at least one of the i-th utterance Uoi and the i-1th utterance Uo (i-1). It is determined whether or not a phrase is included (step S44).

含まれていれば、無音区間抽出部41は、i番目の発話Uoiとi−1番目の発話Uo(i−1)との間の区間をh番目の保留区間とする(ステップS45)。例えば、保留区間はオペレータの発話と顧客の発話とを合わせて通話の開始から何番目の発話の間にあるかにより特定される。i−1番目の発話Uo(i−1)の通話の開始から順番をHshとし、i番目の発話Uoiの通話の開始からの順番をHehとすると、h番目の保留区間はHsh〜Hehと特定される。   If included, the silent section extraction unit 41 sets the section between the i-th utterance Uoi and the (i-1) th utterance Uo (i-1) as the h-th reserved section (step S45). For example, the holding section is specified by the number of utterances between the start of the call and the utterance of the operator and the utterance of the customer. If the order from the start of the call of the (i-1) th utterance Uo (i-1) is Hsh, and the order from the start of the call of the ith utterance Uoi is Heh, the hth hold section is specified as Hsh to Heh. Is done.

ステップS45の後に、無音区間抽出部41は、h=h+1として、hを1だけインクリメンする(ステップS46)。   After step S45, the silent section extraction unit 41 increments h by 1 with h = h + 1 (step S46).

ステップS46の後、ステップS43においてEoi−So(i−1)>Thでないと判定された場合、又は、ステップS44において典型的なフレーズが含まれていないと判定された場合、無音区間抽出部41は、i=i+1として、iを1だけインクリメントする(ステップS47)。ステップS47の後は、ステップS42に進む。   After step S46, if it is determined in step S43 that Eoi-So (i-1)> Th is not satisfied, or if it is determined in step S44 that a typical phrase is not included, the silent section extraction unit 41 Sets i = i + 1 and increments i by 1 (step S47). After step S47, the process proceeds to step S42.

ステップS42において、i>Noであると判定された場合には、無音区間抽出部41は、hが1であるか判定する(ステップS48)。すなわち、保留区間が検出されたか判定する。hが1である場合には、保留区間が検出されなかったことを意味する。   If it is determined in step S42 that i> No, the silent section extraction unit 41 determines whether h is 1 (step S48). That is, it is determined whether a pending section is detected. When h is 1, it means that no reserved section has been detected.

hが1でない場合には、ステップS4の処理を終えてステップS5に進む。hが1である場合には、その後のステップS5の処理は行わない。   If h is not 1, the process of step S4 is finished and the process proceeds to step S5. If h is 1, the subsequent process of step S5 is not performed.

図4の例では、発話Uo2と発話Uo3との間の区間がTh以上である。このため、この区間に隣接する発話Uo2とUo3に保留時に用いられる典型的なフレーズが含まれているかどうかを判定する。フレーズが含まれていれば、この区間は保留区間1とされ、発話Uo2の通話の開始からの順番である3がHs1とされ、通話Uo3の通話の開始からの順番である5がHe1とされる。   In the example of FIG. 4, the section between the utterance Uo2 and the utterance Uo3 is equal to or greater than Th. Therefore, it is determined whether or not typical phrases used at the time of holding are included in the utterances Uo2 and Uo3 adjacent to this section. If the phrase is included, this section is set as the holding section 1, 3 that is the order from the start of the call of the utterance Uo2 is set to Hs1, and 5 that is the order from the start of the call of the call Uo3 is set to He1. The

抽出部5は、保留区間に隣接する発話の集合から、その発話区間が長いほど多くの数の発話を抽出する(ステップS5)。抽出された発話は、保留関連発話として、分析の対象となる。   The extraction unit 5 extracts a larger number of utterances as the utterance section is longer from the set of utterances adjacent to the reserved section (step S5). The extracted utterance is subject to analysis as a hold-related utterance.

図5の例では、保留区間が長い場合には保留区間に隣接する発話の集合から計9個の発話を抽出し、保留区間が短い場合には保留区間に隣接する発話の集合から計5個の発話を抽出している。   In the example of FIG. 5, when the holding section is long, a total of nine utterances are extracted from the set of utterances adjacent to the holding section, and when the holding section is short, a total of five utterances are extracted from the set of utterances adjacent to the holding section. Extracting utterances.

保留区間が長い場合には、保留の原因は複雑であると考えて、分析の対象を広く設定する。逆に、保留区間が短い場合には、保留の原因は簡単であると考えて、分析の対象を狭く設定する。このように、保留区間の長さに応じて分析の対象を伸縮させることにより、より適切に保留関連発話を抽出することができる。   When the holding section is long, the cause of the holding is considered to be complicated, and the analysis target is set widely. On the contrary, when the holding section is short, the cause of the holding is considered to be simple, and the analysis target is set to be narrow. In this manner, the hold-related utterance can be more appropriately extracted by expanding / contracting the analysis target according to the length of the hold section.

Kを所定の定数、tを保留区間の長さ、┌・┐を・以上の最小の整数として、例えば、┌K×t┐個の発話を、保留区間に隣接する発話の集合から抽出する。例えば、K=任意の発話数/平均的な保留時間とする。任意の発話数は、平均的な保留時間程度の保留を行った際に分析対象となる発話の数であり、例えば5である。   For example, ┌K × t┐ utterances are extracted from the set of utterances adjacent to the hold interval, where K is a predetermined constant, t is the length of the hold interval, and ┌ · ┐ is the smallest integer. For example, K = arbitrary number of utterances / average holding time. The arbitrary number of utterances is the number of utterances to be analyzed when holding is held for an average holding time, for example, five.

また、K’を所定の定数、tを保留区間の長さとして、保留区間に隣接する発話の集合であって、保留区間に隣接するK’×t時間以内の時間長に含まれる発話を抽出してもよい。例えば、K’=任意の時間長/平均的な保留時間とする。   Also, a set of utterances adjacent to the holding section and including a time length within K ′ × t time adjacent to the holding section is extracted, where K ′ is a predetermined constant and t is the length of the holding section. May be. For example, K ′ = arbitrary time length / average holding time.

保留区間に隣接する発話の集合とは、保留区間の直前にある発話の集合、保留区間の直後にある発話の集合、保留区間の直前及び直後にある発話の集合の何れかである。保留区間に隣接する発話の集合が、保留区間の直前及び直後にある発話の集合である場合には、保留区間の直前から抽出する保留関連発話の数と、保留区間の直後から抽出する保留関連発話の数とは、同数でも異なっていてもよい。   The set of utterances adjacent to the holding section is any of a set of utterances immediately before the holding section, a set of utterances immediately after the holding section, and a set of utterances immediately before and after the holding section. When the set of utterances adjacent to the hold section is a set of utterances immediately before and after the hold section, the number of hold related utterances extracted immediately before the hold section and the hold relation extracted from immediately after the hold section The number of utterances may be the same or different.

定型表現抽出部42の処理を行わずに、保留区間検出部4は、隣接する発話の間隔が所定の時間以上である区間を保留区間としてもよい。   Instead of performing the processing of the standard expression extracting unit 42, the holding section detecting unit 4 may set a section in which the interval between adjacent utterances is a predetermined time or more as a holding section.

保留関連発話抽出装置及び方法は、コンピュータによって実現することができる。この場合、この装置の各部の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、この装置における各部が、この方法における各ステップがコンピュータ上で実現される。   The hold-related utterance extraction apparatus and method can be realized by a computer. In this case, the processing content of each part of this apparatus is described by a program. Then, by executing this program on a computer, each unit in this apparatus realizes each step in this method on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. In this embodiment, these apparatuses are configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。   The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention.

1 音声取得部
2 音声特徴量抽出部
3 音声認識部
4 保留区間検出部
41 無音区間抽出部
42 定型表現抽出部
5 抽出部
DESCRIPTION OF SYMBOLS 1 Voice acquisition part 2 Voice feature-value extraction part 3 Voice recognition part 4 Reservation area detection part 41 Silent area extraction part 42 Standard expression extraction part 5 Extraction part

Claims (9)

音声信号の音声特徴量を抽出する音声特徴量抽出ステップと、
上記音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、上記音声信号に含まれる発話を検出し、検出された発話についての情報を生成する音声認識ステップと、
上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する保留区間検出ステップと、
上記保留区間に隣接する発話の集合から、上記保留区間が長いほど多くの数の発話を抽出する抽出ステップと、
を含む保留関連発話抽出方法。
An audio feature extraction step for extracting an audio feature of the audio signal;
A speech recognition step of performing speech recognition on the speech signal using the speech feature, an acoustic model, and a language model, detecting speech included in the speech signal, and generating information about the detected speech;
Using the information about the utterance, a holding section detecting step for detecting a holding section in which the interval between adjacent utterances is a predetermined time or more;
An extraction step of extracting a larger number of utterances as the holding section is longer from a set of utterances adjacent to the holding section;
Hold related utterance extraction method.
請求項1に記載の保留関連発話抽出方法において、
上記保留区間検出ステップは、上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出するステップである、
ことを特徴とする保留関連発話抽出方法。
In the holding related utterance extraction method according to claim 1,
The holding section detecting step uses information about the utterance, and an interval between adjacent utterances is a predetermined time or more, and at least one of the adjacent utterances includes a typical phrase used at the time of holding. A step of detecting a holding interval;
An on-hold related utterance extraction method.
請求項1又は2に記載の保留関連発話抽出方法において、
Kを所定の定数、tを保留区間の長さ、┌・┐を・以上の最小の整数として、上記抽出される発話は、┌K×t┐個の発話である、
ことを特徴とする保留関連発話抽出方法。
In the holding related utterance extraction method according to claim 1 or 2,
The above extracted utterances are ┌K × t┐ utterances, where K is a predetermined constant, t is the length of the holding section, and ┌ · ┐ is the smallest integer.
An on-hold related utterance extraction method.
請求項1又は2に記載の保留関連発話抽出方法において、
K’を所定の定数、tを保留区間の長さとして、上記抽出される発話は、保留区間に隣接するK’×t時間以内の時間長に含まれる発話である、
ことを特徴とする保留関連発話抽出方法。
In the holding related utterance extraction method according to claim 1 or 2,
The extracted utterance is a utterance included in the time length within K ′ × t time adjacent to the reserved section, where K ′ is a predetermined constant and t is the length of the reserved section.
An on-hold related utterance extraction method.
請求項1から4の何れかに記載の保留関連発話抽出方法において、
上記保留区間に隣接する発話の集合は、上記保留区間の直前にある発話の集合である、
ことを特徴とする保留関連発話抽出方法。
In the holding related utterance extraction method according to any one of claims 1 to 4,
The set of utterances adjacent to the reserved section is a set of utterances immediately before the reserved section.
An on-hold related utterance extraction method.
請求項1から4の何れかに記載の保留関連発話抽出装置において、
上記保留区間に隣接する発話の集合は、上記保留区間の直後にある発話の集合である、
ことを特徴とする保留関連発話抽出方法。
In the hold related utterance extraction device according to any one of claims 1 to 4,
The set of utterances adjacent to the holding section is a set of utterances immediately after the holding section.
An on-hold related utterance extraction method.
音声信号の音声特徴量を抽出する音声特徴量抽出部と、
上記音声特徴量、音響モデル及び言語モデルを用いて上記音声信号に対して音声認識を行い、上記音声信号に含まれる発話を検出し、検出された発話についての情報を生成する音声認識部と、
上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上である保留区間を検出する保留区間検出部と、
上記保留区間に隣接する発話の集合から、上記保留区間が長いほど多くの数の発話を抽出する抽出部と、
を含む保留関連発話抽出装置。
A voice feature amount extraction unit that extracts a voice feature amount of a voice signal;
A speech recognition unit that performs speech recognition on the speech signal using the speech feature, an acoustic model, and a language model, detects an utterance included in the speech signal, and generates information about the detected utterance;
Using the information about the utterance, a holding section detecting unit that detects a holding section in which the interval between adjacent utterances is equal to or longer than a predetermined time; and
An extraction unit that extracts a larger number of utterances as the holding section is longer from a set of utterances adjacent to the holding section;
Hold-related utterance extraction device.
請求項7に記載の保留関連発話抽出装置において、
上記保留区間検出部は、上記発話についての情報を用いて、隣接する発話の間隔が所定の時間以上であり、この隣接する発話の少なくとも一方に保留時に用いられる典型的なフレーズが含まれている保留区間を検出する、
ことを特徴とする保留関連発話抽出装置。
In the hold related utterance extraction device according to claim 7,
The holding section detection unit uses the information about the utterance, the interval between adjacent utterances is equal to or longer than a predetermined time, and at least one of the adjacent utterances includes a typical phrase used at the time of holding. Detect pending intervals,
A hold-related utterance extraction device characterized by the above.
請求項1から6の何れかに記載の保留関連発話抽出方法の各ステップをコンピュータに実行させるための保留関連発話抽出プログラム。   A holding related utterance extraction program for causing a computer to execute each step of the holding related utterance extracting method according to claim 1.
JP2010130824A 2010-06-08 2010-06-08 Method, device and program for holding-related utterance extraction Pending JP2011257529A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010130824A JP2011257529A (en) 2010-06-08 2010-06-08 Method, device and program for holding-related utterance extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010130824A JP2011257529A (en) 2010-06-08 2010-06-08 Method, device and program for holding-related utterance extraction

Publications (1)

Publication Number Publication Date
JP2011257529A true JP2011257529A (en) 2011-12-22

Family

ID=45473778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010130824A Pending JP2011257529A (en) 2010-06-08 2010-06-08 Method, device and program for holding-related utterance extraction

Country Status (1)

Country Link
JP (1) JP2011257529A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135743A1 (en) * 2017-01-17 2018-07-26 삼성전자주식회사 Method for sensing end of speech, and electronic apparatus implementing same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135743A1 (en) * 2017-01-17 2018-07-26 삼성전자주식회사 Method for sensing end of speech, and electronic apparatus implementing same
US11211048B2 (en) 2017-01-17 2021-12-28 Samsung Electronics Co., Ltd. Method for sensing end of speech, and electronic apparatus implementing same

Similar Documents

Publication Publication Date Title
US10902856B2 (en) System and method of diarization and labeling of audio data
CN109686383B (en) Voice analysis method, device and storage medium
Janin et al. The ICSI meeting project: Resources and research
TW201203222A (en) Voice stream augmented note taking
CN106297776A (en) A kind of voice keyword retrieval method based on audio template
JP2016062357A (en) Voice translation device, method, and program
JP6622681B2 (en) Phoneme Breakdown Detection Model Learning Device, Phoneme Breakdown Interval Detection Device, Phoneme Breakdown Detection Model Learning Method, Phoneme Breakdown Interval Detection Method, Program
Addlesee et al. A comprehensive evaluation of incremental speech recognition and diarization for conversational AI
WO2014020588A1 (en) Method and apparatus for speech recognition
JP6712754B2 (en) Discourse function estimating device and computer program therefor
Zheng et al. Acoustic texttiling for story segmentation of spoken documents
CN106550268B (en) Video processing method and video processing device
JP2021009253A (en) Programs, information processing devices, and information processing methods
JP2011257529A (en) Method, device and program for holding-related utterance extraction
US20230325612A1 (en) Multi-platform voice analysis and translation
JP5713782B2 (en) Information processing apparatus, information processing method, and program
JP5369055B2 (en) Call unit detection apparatus, method and program
KR102107445B1 (en) Text to speech converting apparatus capable of applying an optional speech model and operating method thereof
Marklynn et al. A Framework for Abstractive Summarization of Conversational Meetings
CN118430538A (en) Error correction multi-mode model construction method, system, equipment and medium
KR20230064466A (en) Method and apparatus for speech recognition
CN113689861A (en) Intelligent track splitting method, device and system for single sound track call recording
JPWO2021171417A5 (en)
Singh et al. Analysis of prosody based automatic LID systems
JP2007187880A (en) Modeling apparatus, modeling method and program