[go: up one dir, main page]

CN103811014A - 语音干扰的滤除方法和语音干扰的滤除系统 - Google Patents

语音干扰的滤除方法和语音干扰的滤除系统 Download PDF

Info

Publication number
CN103811014A
CN103811014A CN201210530795.8A CN201210530795A CN103811014A CN 103811014 A CN103811014 A CN 103811014A CN 201210530795 A CN201210530795 A CN 201210530795A CN 103811014 A CN103811014 A CN 103811014A
Authority
CN
China
Prior art keywords
time
time point
instruction
voice
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210530795.8A
Other languages
English (en)
Other versions
CN103811014B (zh
Inventor
萧希群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wistron Corp
Original Assignee
Wistron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wistron Corp filed Critical Wistron Corp
Publication of CN103811014A publication Critical patent/CN103811014A/zh
Application granted granted Critical
Publication of CN103811014B publication Critical patent/CN103811014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种语音干扰的滤除方法和语音干扰的滤除系统。该方法包括:利用一概率分布模型定义一时间阈值;每当自一语音输入辨认出一当前指令,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点;根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰;若产生该语音干扰,则滤除该参考指令与该当前指令;以及若未产生该语音干扰,则输出该参考指令或该当前指令其中之一。本发明能避免将交谈说出的话语或从其他来源发出的语音误判为要对受控装置进行操作,从而降低发生误动作的概率。

Description

语音干扰的滤除方法和语音干扰的滤除系统
技术领域
本发明涉及一种语音操作的应用,且特别涉及一种在语音操作时语音干扰的滤除方法和语音干扰的滤除系统。
背景技术
传统的语音辨识系统着重在于如何从声音输入中区分出语音以及非语音的部分。也就是说,这类语音辨识系统主要区分如环境背景噪音或突发性噪音(如碰撞声)等真正的噪音与实际的语音活动,其采用的方法是从信号处理的角度出发,以分析噪音与语音在声学模型上的差异(如过零率、能量、频谱分布或基频轨迹等),相当于做声音上的属性检测。当检测出语音活动区间后,再针对整段语音做语音辨识等处理。其中,语音辨识系统仅对整段语音区间做一次辨识,而辨识结果可用来当作操控电子装置的指令,达到语音操作的目的。
然而在某些语音辨识机制需要持续开启的使用情境下,使用者与他人交谈的内容也会被辨识。倘若使用者在交谈间说出了与操控电子装置的指令相关的内容,则可能导致系统将该指令输出至电子装置。但由于使用者的本意并非要对电子装置进行操作,因此当电子装置因应所接收到的指令而做出反应时,反而会造成使用者的困扰。
因此,需要提供一种语音干扰的滤除方法和语音干扰的滤除系统来解决上述问题。
发明内容
有鉴于此,本发明提供一种语音干扰的滤除方法、系统,与计算机可读记录介质,能有效判别当使用者说出预设指令时的真实意图,以减少受控装置因语音干扰产生误动作的情况。
本发明提出一种语音干扰的滤除方法,此方法包括利用概率分布模型定义一时间阈值。每当自语音输入辨认出当前指令时,取得自语音输入辨认出的参考指令,其中当前指令接续在参考指令之后被辨识出,且参考指令对应第一时间点,当前指令对应第二时间点。取得第一时间点和第二时间点之间的间隔,并根据上述间隔与时间阈值的比较结果以及第一时间点所对应的状态,以判断是否产生语音干扰。若产生语音干扰,则滤除参考指令与当前指令。若未产生语音干扰,则输出参考指令或当前指令。
本发明还提供一种语音干扰的滤除方法,该方法包括:利用一概率分布模型定义一时间阈值;每当自一语音输入辨认出一当前指令,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点;根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰;若产生该语音干扰,则滤除该参考指令与该当前指令;以及若未产生该语音干扰,则输出该参考指令与该当前指令其中之一。
从另一观点来看,本发明提出一种计算机可读记录介质,其储存多个程序代码。当上述程序代码被载入至微处理器单元后,微处理器单元执行上述程序代码以完成下列步骤:利用概率分布模型定义一时间阈值。每当自语音输入辨认出当前指令时,取得自语音输入辨认出的参考指令,其中当前指令接续在参考指令之后被辨识出,且参考指令对应第一时间点,当前指令对应第二时间点。取得第一时间点和第二时间点之间的间隔,并根据上述间隔与时间阈值的比较结果以及第一时间点所对应的状态,以判断是否产生语音干扰。若产生语音干扰,则滤除参考指令与当前指令。若未产生语音干扰,则输出参考指令或当前指令。
本发明还提供一种计算机可读记录介质,储存多个程序代码,当该些程序代码被载入至一微处理器单元后,该微处理器单元执行该些程序代码以完成下列步骤:利用一概率分布模型定义一时间阈值;每当自一语音输入辨认出一当前指令,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点;根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰;若产生该语音干扰,则滤除该参考指令与该当前指令;以及若未产生该语音干扰,则输出该参考指令与该当前指令其中之一。
其中,该状态为一指令有效状态、一干扰状态以及一闲置状态其中之一,该微处理器单元还执行该些程序代码以完成下列步骤:若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该干扰状态,则判定产生该语音干扰,并且令该第二时间点对应该干扰状态;若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态,则在该参考指令不同于该当前指令时,判定产生该语音干扰,并且令该第二时间点对应该干扰状态;以及若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该干扰状态,则判定产生该语音干扰,并且令该第二时间点对应该闲置状态。
其中,该微处理器单元还执行该些程序代码以完成下列步骤:若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态,则在该参考指令同于该当前指令时,判定未产生该语音干扰,并且令该第二时间点对应该闲置状态;以及若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该指令有效状态,则判定未产生该语音干扰,并且令该第二时间点对应该闲置状态。
其中,该微处理器单元还执行该些程序代码以完成下列步骤:当该第一时间点与该第二时间点之间的间隔未超过该时间阈值时,根据一预设规则选择输出该参考指令或该当前指令;以及当该第一时间点与该第二时间点之间的间隔超过该时间阈值时,输出该参考指令。
其中,该微处理器单元还执行该些程序代码以完成下列步骤:若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该闲置状态,则令该第二时间点对应该指令有效状态;以及若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该闲置状态,则令该第二时间点对应该闲置状态。
其中,该微处理器单元还执行该些程序代码以完成下列步骤:判断该参考指令是否已被滤除或输出;若该参考指令已被滤除或输出,则根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰,并根据判断结果决定是否滤除该当前指令;以及若该参考指令未被滤除或输出,则执行根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰的步骤。
其中,该微处理器单元还执行该些程序代码以完成下列步骤:当该参考指令不存在时,判断该语音输入的一起始时间点和该第二时间点之间的间隔是否超过该时间阈值;若是,则令该第二时间点对应该闲置状态;以及若否,则令该第二时间点对应该指令有效状态。
从又一观点来看,本发明提出一种语音干扰的滤除系统,包括输出装置、输入装置、储存装置以及处理器。其中,处理器耦接输出装置、输入装置与储存装置。输入装置用以接收语音输入。储存装置用以储存利用概率分布模型所定义的时间阈值。处理器用以在每当自语音输入辨认出当前指令时,取得自语音输入辨认出的参考指令,其中当前指令接续在参考指令之后被辨识出,且参考指令对应第一时间点,当前指令对应第二时间点。处理器取得第一时间点和第二时间点之间的间隔,并根据上述间隔与时间阈值的比较结果以及第一时间点所对应的状态,以判断是否产生语音干扰。若产生语音干扰,处理器滤除参考指令与当前指令。若未产生语音干扰,处理器控制输出装置输出参考指令或当前指令
本发明还提供一种语音干扰的滤除系统,该语音干扰的滤除系统包括:一输出装置;一输入装置,该输入装置接收一语音输入;一储存装置,储存装置储存利用一概率分布模型所定义的一时间阈值;以及一处理器,该处理器耦接该输出装置、该输入装置与该储存装置,其中该处理器每当自该语音输入辨认出一当前指令时,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点,并根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰,若产生该语音干扰,该处理器滤除该参考指令与该当前指令,若未产生该语音干扰,该处理器控制该输出装置输出该参考指令与该当前指令其中之一。
基于上述,本发明是根据辨认自语音输入的多个指令在连续时间上的密集程度,以判断使用者说出上述指令时是否造成语音干扰。进一步,针对在时序上先后接续从一语音输入所辨认出的两个指令,本发明仅需根据这两个指令之间的时间间隔以及前一个指令所对应的状态,便能判断是否有语音干扰产生。据此,能避免将使用者因与他人交谈而说出的话语或从其他来源发出的语音误判为要对受控装置进行操作,从而降低受控装置发生误动作的概率。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附附图作详细说明如下。
附图说明
图1是依照本发明的一实施例所绘示的语音干扰的滤除系统的示意图。
图2是依照本发明的一实施例所绘示的语音干扰的滤除方法的流程图。
图3是依照本发明的一实施例所绘示的指令序列的示意图。
图4是依照本发明的一实施例所绘示的判断是否产生语音干扰的流程图。
图5是依照本发明的一实施例所绘示的两时间点的状态移转图。
图6是依照本发明的一实施例所绘示的声音输入的能量波形图。
主要组件符号说明:
100                                语音干扰滤除系统
110                                输入装置
120                                储存装置
130                                处理器
140                                输出装置
S210~S260                         本发明的一实施例所述的语音干扰的
                               滤除方法的各步骤
310、320、330、m1、m2、m3、m4      指令
S410~S480                         本发明的一实施例所述的判断是否产
                                   生语音干扰的各步骤
I                                  闲置状态
C                                  指令有效状态
N                                  干扰状态
T1、T2、T3、T4                     时间点
具体实施方式
图1是依照本发明的一实施例所绘示的语音干扰滤除系统的示意图。请参阅图1,语音干扰滤除系统100包括输入装置110、储存装置120、处理器130,以及输出装置140。在本实施例中,语音干扰滤除系统100能判断从语音输入所辨识出的指令是使用者意图操控受控装置的有效指令,亦或是因使用者交谈或来自电视、广播,或环境的语音所造成的语音干扰。其中,受控装置例如是电视、音响、DVD播放器、冰箱、冷气或计算机等任何能接受声控的电子装置,在此并不限制其种类。以下分别就语音干扰滤除系统100中的各构件进行说明。
输入装置110例如是麦克风等收音装置,用以接收语音输入。详言之,语音是指人类语言的声音,本实施例的语音输入是指已对声音信号进行如声学参数抽取及语音活动检测等各种前置处理,而将环境噪音等非语音过滤后所得到的部分。
储存装置120可以是存储器、硬盘、光盘、存储卡,或随身盘等储存介质或其组合。储存装置120用以储存语音干扰滤除系统100在进行判别时所需参考的信息,以及暂存尚未确定是否为语音干扰的语音辨识结果。
处理器130耦接至输入装置110、储存装置120以及输出装置140。处理器130可以是微处理器(micro-processor)、嵌入式处理器(embedded processor)或中央处理器(CentralProcessing Unit,CPU)等,但本发明并不局限于此。处理器130用以对输入装置110所接收到的语音输入进行指令的辨识。举例来说,储存装置120记录有一预设指令集合,处理器130能辨认语音输入是否包括指令集合中的指令。然由于在语音输入中多半夹杂了使用者与他人的交谈、电视或广播发出的人声环境音,其语音内容可能包含指令集合中的指令。然而,这些语音并非使用者想要用来对受控装置进行操作而发出的语音指令,在以下的实施例中是将这种语音内容定义为语音干扰,而处理器130会进行语音干扰的判别与滤除。在另一实施例中,处理器130还具备语音辨认的功能,因此输入装置110可接受声音输入,并由处理器130从声音输入中识别出语音输入,接着再进行指令的辨认以及语音干扰的判别。处理器130进行语音干扰的判别与滤除的详细做法容后再叙。
输出装置140可包括有线和/或无线传输模块,以根据处理器130的指示将被判别为非语音干扰的有效指令输出至受控装置。据此,受控装置便能依指令做出使用者需要的反应。
图2是依照本发明的一实施例所绘示的语音干扰的滤除方法的流程图,以下将以图1与图2来说明语音干扰滤除系统100的详细运作方式。
首先,如步骤S210所示,利用一概率分布模型定义时间阈值。在本实施例中,概率分布模型为泊松分布(Poisson distribution)模型,如下列式(1)所示:
P ( X = K ) = λ - k e - λ K ! - - - ( 1 )
其中,k为发生次数,其为一变量。e为自然对数底(Base of natural logarithm)。λ为α×t,t为单位时间、α为常数(例如为1或0.25,但本发明并不以此为限),λ表示在单位时间t里发生语音干扰次数的期望值。基于此,P(X=k)表示在单位时间t内发生语音干扰的概率,而P(X=k)呈现以λ为参数的泊松分布。
举例来说,倘若λ为1且α为1,则t为1,那么在使用者正常通过语音发出指令的情况下,可以下列式(2)得到发生语音干扰的概率P:
P=1-P(X=0)-P(X=1)=1-0.368-0.368=0.264      (2)
另外,倘若λ为0.5且α为0.25,则t为2,那么在使用者正常通过语音发出指令的情况下,可以下列式(3)得到发生语音干扰的概率P:
P=1-P(X=0)-P(X=1)=1-0.6-0.3=0.1            (3)
单位时间t的大小是经实验取得一个使用者可以接受的范围。在此范围下,使用者正常进行语音操作却被误判为发生语音干扰的概率会低于使用者能接受的上限。举例来说,实验结果显示使用者在连续输入十次指令的情况下,最多可接受1到2次语音干扰的误判发生。据此,单位时间t的大小介于1~2秒之间。换言之,对大多数的人来说能够等待指令切换的最长时间为2秒。
本实施例便是依泊松分布所使用的参数λ所对应的单位时间t来作为时间阈值。然而在另一实施例中,亦可采用一预设常数(例如,2秒)来作为时间阈值。
接着在步骤S220中,当处理器130从输入装置110所接收的语音输入辨认出一当前指令时,处理器130取得同样辨认自此语音输入的一参考指令。其中,当前指令接续在参考指令后被辨识出来。换言之,在辨识出参考指令到辨识出当前指令的期间,处理器130并未辨识出其他的指令。在本实施例中,参考指令对应第一时间点而当前指令对应第二时间点。举例来说,第一时间点是参考指令结束的时间点,而第二时间点则是当前指令结束的时间点。
接下来如步骤S230所示,处理器130计算第一时间点和第二时间点之间的间隔,并取得此间隔与时间阈值的比较结果,以及取得第一时间点所对应的状态。详细地说,假设处理器130在时间点Ti首次从语音输入辨识出一个指令,处理器130令早于时间点Ti的所有时间点都对应于闲置状态,而每当处理器130自语音输入辨识出一个指令时,处理器130便会令该指令所对应的时间点对应至指令有效状态、干扰状态或闲置状态。被辨识出的指令所对应的时间点应对应至何种状态将在后配合附图再作说明。
接着在步骤S240中,处理器130根据所取得的比较结果与状态判断是否产生语音干扰。在本实施例中,处理器130根据第一与第二时间点的间隔是否超过时间阈值来判断参考指令与当前指令在连续时间上的密集程度,而一旦指令过于密集,则发生语音干扰的概率甚高,处理器130将再辅以参考指令所对应的第一时间点对应的状态为何者,以进一步判断密集出现的指令是使用者真正意图对受控装置进行操作,或是有语音干扰产生。
若步骤S240的判断结果为是,则如步骤S250所示,处理器130滤除参考指令与当前指令。亦即,处理器130判定参考指令与当前指令并非使用者想要控制受控装置所发出的指令,因此不将参考指令及当前指令输出至受控装置,以避免受控装置做出非使用者所期望的反应。
倘若步骤S240的判断结果为否,则在步骤S260中,处理器130控制输出装置140将参考指令或当前指令输出至受控装置。在本实施例中,处理器130在决定要输出辨认自语音输入的指令时,会将此指令结束的时间点加上一预设等待时间以作为指令的输出时间点,并在到达输出时间点之际才正式控制输出装置140将指令输出。在另一实施例中,处理器130亦可在决定要输出一指令后随即控制输出装置140将指令输出。
在图2所示的实施例中,处理器130将不断地对语音输入进行指令辨识,所辨识出的指令会构成一指令序列并可暂存在储存装置120。而每当辨识出一个指令时,处理器130便执行步骤S220至步骤S260的动作。换言之,处理器130可在辨识指令的同时进行语音干扰的判定。
举例来说,图3是依照本发明的一实施例所绘示的指令序列的示意图。如图3所示,处理器130自语音输入依序辨识出三个长度并不完全一致的指令310、320、330。其中,指令310对应的时间点为其结束的时间点(即,1分47秒)、指令320对应的时间点为其结束的时间点(即,1分50秒),而指令330对应的时间点为其结束的时间点(即,1分56秒)。其中,每当处理器130辨识出一个指令,便会判断是否有语音干扰产生。详言之,针对第一个从此语音输入所辨识出的指令310,则因其缺乏参考指令,因此处理器130会将语音输入的起始时间点和指令310的结束时间的间隔与时间阈值进行比较,再根据比较结果以及语音输入的起始时间点所对应的状态(即,闲置状态)来判断是否有语音干扰产生。而当辨识出指令320时,处理器130以指令310作为参考指令,并取得指令320与指令310的结束时间的间隔与时间阈值的比较结果,且根据比较结果及指令310的结束时间所对应的状态判断是否有语音干扰产生。类似地,当辨识出指令330时,处理器130以指令320作为参考指令,并取得指令330与指令320的结束时间的间隔与时间阈值的比较结果,再根据比较结果及指令320的结束时间所对应的状态判断是否有语音干扰产生。
以下将说明处理器130判断是否产生语音干扰的详细流程。
在本实施例中,处理器130首先判断参考指令是否存在。若参考指令存在,表示当前指令并非第一个从语音输入辨认出的指令。处理器130接着判断所取得的参考指令是否已被滤除或输出。举例来说,处理器130会维护一指令信息对应表来记录所辨识出的各指令是否已被滤除或输出。
若参考指令尚未被滤除或输出,则以图4的步骤来进行判别,请参阅图4。
首先如步骤S410所示,处理器130判断第一时间点与第二时间点之间的间隔是否超过时间阈值。
若第一与第二时间点之间的间隔未超过时间阈值,则如步骤S420所示,处理器130判断第一时间点是否对应干扰状态。
若第一时间点是对应干扰状态,如步骤S425所示,处理器130判定产生语音干扰,并令第二时间点对应干扰状态。尔后,如图2的步骤S250所示,处理器130会将参考指令与当前指令一并滤除。在本实施例中,处理器130亦会在指令信息对应表中记录参考指令与当前指令已被滤除。
若第一时间点并非对应干扰状态,接着在步骤S430中,处理器130判断第一时间点是否对应指令有效状态。
若第一时间点对应指令有效状态,则如步骤S440所示,处理器130判断参考指令与当前指令是否相同。
若参考指令与当前指令并不相同,如步骤S425所示,处理器130判定产生语音干扰,并令第二时间点对应干扰状态。尔后,如图2的步骤S250所示,处理器130会将参考指令与当前指令一并滤除,同时更新指令信息对应表的内容。
然而倘若参考指令与当前指令相同,表示使用者可能因为不耐烦而在短时间内重复下达数个相同指令,因此如步骤S445所示,处理器130判定未产生语音干扰,并令第二时间点对应闲置状态。之后在图2的步骤S260中,处理器130会将参考指令或当前指令输出,同时更新指令信息对应表的内容。在本实施例中,处理器130根据一预设规则选择输出参考指令或当前指令。举例来说,预设规则例如是选择输出先被辨识出的参考指令,但本发明并不局限于此。
当步骤S430的判断结果为否时,即第一时间点是对应闲置状态,接着如步骤S450所示,处理器130令第二时间点对应指令有效状态。
在第一与第二时间点之间的间隔超过时间阈值的情况下,如步骤S460所示,处理器130判断第一时间点是否对应干扰状态。
若第一时间点对应干扰状态,在步骤S465中,处理器130判定产生语音干扰,并令第二时间点对应闲置状态。尔后,如图2的步骤S250所示,处理器130会将参考指令与当前指令一并滤除,同时更新指令信息对应表的内容。
若第一时间点不对应干扰状态,则如步骤S470所示,处理器130判断第一时间点是否对应指令有效状态。
若第一时间点对应指令有效状态,在步骤S475中,处理器130判定未产生语音干扰,并令第二时间点对应闲置状态。之后在图2的步骤S260中,处理器130会将参考指令或当前指令输出,同时更新指令信息对应表的内容。在本实施例中,处理器130会将参考指令输出。
若第一时间点不对应指令有效状态,表示其对应的是闲置状态,接着如步骤S480所示,处理器130令第二时间点对应闲置状态。
必须特别说明的是,在图4的步骤450与480中,处理器130认定目前的信息不足以判别是否有语音干扰产生,因此必需等待下一个指令被辨识出时,再依照图2的步骤S220至S260进行判断与相应的处理。
在图4中,第二时间点所对应的状态会与三个条件有关,这三个条件分别是第一时间点所对应的状态、第一与第二时间点之间的间隔是否超过时间阈值,以及参考指令与当前指令是否相同。而从第一时间点到第二时间点的状态的移转则如图5所示。请参阅图5,其中I、C、N分别表示闲置状态、指令有效状态以及干扰状态。在两个状态之间的箭头标记则表示从第一时间点到第二时间点发生这种状态移转的条件。
举例来说,倘若第一时间点对应的是闲置状态I,若第一与第二时间点之间的间隔超过时间阈值,则第二时间点仍对应闲置状态I。然而倘若第一与第二时间点之间的间隔并未超过时间阈值,则第二时间点会对应指令有效状态C。
倘若第一时间点对应的是指令有效状态C,若第一与第二时间点之间的间隔未超过时间阈值且前后指令不同(即,参考指令与当前指令不同),则第二时间点会对应干扰状态N。倘若第一与第二时间点之间的间隔超过时间阈值,或第一与第二时间点之间的间隔未超过时间阈值但前后指令相同,则第二时间点会对应闲置状态I。
倘若第一时间点对应的是干扰状态N,若第一与第二时间点之间的间隔未超过时间阈值,则第二时间点仍对应干扰状态N,但若第一与第二时间点之间的间隔超过时间阈值,则第二时间点会对应闲置状态I。
此外,在参考指令已被滤除或输出的情况下,处理器130则根据第一时间点和第二时间点之间的间隔与时间阈值的比较结果,以及第一时间点所对应的状态,据以判断是否产生语音干扰,判断方式与图4相同或相似,故在此不再赘述。尔后,处理器130根据判断结果决定是否滤除当前指令。例如,判定有语音干扰产生时则滤除当前指令。
除此之外,当参考指令不存在时,表示当前指令为第一个从语音输入所识别出的指令。基于此,处理器130判断语音输入的起始时间点和第二时间点之间的间隔是否超过时间阈值。若超过时间阈值,处理器130令第二时间点对应闲置状态。若未超过时间阈值,处理器130则令第二时间点对应指令有效状态。在此情况下,处理器130尚无法判别是否有语音干扰产生,因此必需等待下一个指令被辨识出时,再依照图2的步骤S220至S260进行判断与相应的处理。
图6是依照本发明的一实施例所绘示的声音输入的能量波形图。请参阅图6,在图6所示的声音输入中,语音干扰滤除系统100仅会对位于语音活动区间的语音输入进行处理。假设处理器130先后辨识出指令m1至m4,表示使用者在语音活动区间里说出四个可对受控装置进行操作的指令,然而处理器130并不会无条件地将指令m1至m4输出至受控装置,而会以这四个指令各别的结束时间点T1至T4作为指令所对应的时间点,以进行是否有语音干扰的判别。由于判别方式与前述实施例相同或相似,故在此不再赘述。换言之,处理器130除了从语音输入正确识别出指令之外,更进一步地确认指令是否为语音干扰。如此一来,在不断取得语音输入并从中进行指令辨识的期间,便可在使用者不具有操作意图而仅是说出与指令相关内容(或是背景声音里出现与指令相关内容)的情况下,避免将辨识出的指令传送给受控装置,以减少受控装置的误动作的产生。
本发明还提出一种计算机可读记录介质,其储存多个程序代码,当这些程序代码被载入至微处理器单元后,此微处理器单元执行这些程序代码以完成上述各实施例所述的方法步骤及其相关动作。所述计算机可读记录介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random-Access Memory,RAM)、CD-ROM、磁带、软性磁盘、光学数据储存组件等。另外,上述微处理器单元可以是嵌入式处理器(embeddedprocessor)或中央处理器(central processing unit,CPU)等,但本发明可实施方式并不局限于此。
综上所述,本发明所述的语音干扰的滤除方法与系统以及计算机可读记录介质是针对已经过滤掉环境噪音的语音输入进行语音干扰的检测与滤除。在不断地从语音输入辨认出指令的同时,亦能判断指令是使用者意图控制受控装置所发出,或纯粹是语音干扰的情况。据此避免受控装置做出非使用者操作本意的反应。
虽然本发明已以实施例公开如上,然而其并非用以限定本发明,任何所属技术领域中的普通技术人员,在不脱离本发明的精神和范围的情况下,应当可作些许的更动与润饰,故本发明的保护范围应当视所附的权利要求书的范围所界定者为准。

Claims (13)

1.一种语音干扰的滤除方法,该方法包括:
利用一概率分布模型定义一时间阈值;
每当自一语音输入辨认出一当前指令,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点;
根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰;
若产生该语音干扰,则滤除该参考指令与该当前指令;以及
若未产生该语音干扰,则输出该参考指令与该当前指令其中之一。
2.如权利要求1所述的语音干扰的滤除方法,其中该状态为一指令有效状态、一干扰状态以及一闲置状态其中之一,而根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰的步骤还包括:
若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该干扰状态,则判定产生该语音干扰,并且令该第二时间点对应该干扰状态;
若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态,则在该参考指令不同于该当前指令时,判定产生该语音干扰,并且令该第二时间点对应该干扰状态;以及
若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该干扰状态,则判定产生该语音干扰,并且令该第二时间点对应该闲置状态。
3.如权利要求2所述的语音干扰的滤除方法,其中根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰的步骤还包括:
若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态,则在该参考指令同于该当前指令时,判定未产生该语音干扰,并且令该第二时间点对应该闲置状态;以及
若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该指令有效状态,则判定未产生该语音干扰,并且令该第二时间点对应该闲置状态。
4.如权利要求3所述的语音干扰的滤除方法,其中若未产生该语音干扰,则输出该参考指令与该当前指令其中之一的步骤包括:
当该第一时间点与该第二时间点之间的间隔未超过该时间阈值时,根据一预设规则选择输出该参考指令或该当前指令;以及
当该第一时间点与该第二时间点之间的间隔超过该时间阈值时,输出该参考指令。
5.如权利要求3所述的语音干扰的滤除方法,还包括:
若该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该闲置状态,则令该第二时间点对应该指令有效状态;以及
若该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该闲置状态,则令该第二时间点对应该闲置状态。
6.如权利要求5所述的语音干扰的滤除方法,其中在取得自该语音输入辨认出的该参考指令的步骤之后,该方法还包括:
判断该参考指令是否已被滤除或输出;
若该参考指令已被滤除或输出,则根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰,并根据判断结果决定是否滤除该当前指令;以及
若该参考指令未被滤除或输出,则执行根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰的步骤。
7.如权利要求1所述的语音干扰的滤除方法,其中该第一时间点以及该第二时间点分别为该参考指令以及该当前指令各自结束的时间点。
8.如权利要求1所述的语音干扰的滤除方法,还包括:
当该参考指令不存在时,判断该语音输入的一起始时间点和该第二时间点之间的间隔是否超过该时间阈值;
若是,则令该第二时间点对应该闲置状态;以及
若否,则令该第二时间点对应该指令有效状态。
9.如权利要求1所述的语音干扰的滤除方法,还包括:
当决定输出辨认自该语音输入的一指令时,将该指令结束的时间点加上一预设等待时间,以作为该指令的一输出时间点。
10.如权利要求1所述的语音干扰的滤除方法,其中该概率分布模型为泊松分布模型。
11.一种语音干扰的滤除系统,该语音干扰的滤除系统包括:
一输出装置;
一输入装置,该输入装置接收一语音输入;
一储存装置,储存装置储存利用一概率分布模型所定义的一时间阈值;以及
一处理器,该处理器耦接该输出装置、该输入装置与该储存装置,其中该处理器每当自该语音输入辨认出一当前指令时,取得自该语音输入辨认出的一参考指令,其中该当前指令接续在该参考指令之后被辨识出,且该参考指令对应一第一时间点,该当前指令对应一第二时间点,并根据该第一时间点和该第二时间点之间的间隔与该时间阈值的一比较结果以及该第一时间点所对应的一状态,以判断是否产生一语音干扰,
若产生该语音干扰,该处理器滤除该参考指令与该当前指令,
若未产生该语音干扰,该处理器控制该输出装置输出该参考指令与该当前指令其中之一。
12.如权利要求11所述的语音干扰的滤除系统,其中该状态为一指令有效状态、一干扰状态以及一闲置状态其中之一,该处理器在该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该干扰状态时,判定产生该语音干扰,并且令该第二时间点对应该干扰状态,
该处理器在该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态,则在该参考指令不同于该当前指令时,判定产生该语音干扰,并且令该第二时间点对应该干扰状态,
该处理器在该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该干扰状态时,判定产生该语音干扰,并且令该第二时间点对应该闲置状态,
该处理器在该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该指令有效状态时,在该参考指令同于该当前指令时,判定未产生该语音干扰,并且令该第二时间点对应该闲置状态,
该处理器在该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该指令有效状态时,判定未产生该语音干扰,并且令该第二时间点对应该闲置状态,
该处理器在该第一时间点与该第二时间点之间的间隔未超过该时间阈值,且该第一时间点对应该闲置状态时,令该第二时间点对应该指令有效状态;以及
该处理器在该第一时间点与该第二时间点之间的间隔超过该时间阈值,且该第一时间点对应该闲置状态时,令该第二时间点对应该闲置状态。
13.如权利要求12所述的语音干扰的滤除系统,其中该处理器判断该参考指令是否已被滤除或输出,
若该当前指令已被滤除或输出,该根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰,并根据判断结果决定是否滤除该当前指令,
若该当前指令未被滤除或输出,该处理器根据该第一时间点和该第二时间点之间的间隔与该时间阈值的该比较结果以及该第一时间点所对应的该状态,以判断是否产生该语音干扰。
CN201210530795.8A 2012-11-15 2012-12-10 语音干扰的滤除方法和语音干扰的滤除系统 Active CN103811014B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW101142668 2012-11-15
TW101142668A TWI557722B (zh) 2012-11-15 2012-11-15 語音干擾的濾除方法、系統,與電腦可讀記錄媒體

Publications (2)

Publication Number Publication Date
CN103811014A true CN103811014A (zh) 2014-05-21
CN103811014B CN103811014B (zh) 2016-08-17

Family

ID=50682563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210530795.8A Active CN103811014B (zh) 2012-11-15 2012-12-10 语音干扰的滤除方法和语音干扰的滤除系统

Country Status (3)

Country Link
US (1) US9330676B2 (zh)
CN (1) CN103811014B (zh)
TW (1) TWI557722B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106716527A (zh) * 2014-07-31 2017-05-24 皇家Kpn公司 噪声抑制系统和方法
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序
CN109558032A (zh) * 2018-12-05 2019-04-02 北京三快在线科技有限公司 操作处理方法、装置以及计算机设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393398B1 (en) * 1999-09-22 2002-05-21 Nippon Hoso Kyokai Continuous speech recognizing apparatus and a recording medium thereof
US20020169594A1 (en) * 2001-03-22 2002-11-14 Nippon Telegraph And Telephone Corporation Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
CN1434436A (zh) * 2001-03-28 2003-08-06 松下电器产业株式会社 使用可识度标准在不利的未知噪声环境下进行可靠的关键字检测的稳定的字识别系统
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
JP2011027905A (ja) * 2009-07-23 2011-02-10 Denso Corp 音声認識装置およびそれを用いたナビゲーション装置
CN102054481A (zh) * 2009-10-30 2011-05-11 大陆汽车有限责任公司 用于激活和/或进行语音对话的装置、系统和方法
CN102262879A (zh) * 2010-05-24 2011-11-30 乐金电子(中国)研究开发中心有限公司 语音命令竞争处理方法、装置、语音遥控器和数字电视

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
JP2002123283A (ja) * 2000-10-12 2002-04-26 Nissan Motor Co Ltd 音声認識操作装置
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
DE10163214A1 (de) * 2001-12-21 2003-07-10 Philips Intellectual Property Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
KR100434545B1 (ko) * 2002-03-15 2004-06-05 삼성전자주식회사 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치
AU2003281716A1 (en) * 2002-07-31 2004-02-16 Arie Ariav Voice controlled system and method
TWI299855B (en) 2006-08-24 2008-08-11 Inventec Besta Co Ltd Detection method for voice activity endpoint
US20100332222A1 (en) 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
TWI319563B (en) 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
DE602007014382D1 (de) * 2007-11-12 2011-06-16 Harman Becker Automotive Sys Unterscheidung zwischen Vordergrundsprache und Hintergrundgeräuschen
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
CN103650040B (zh) * 2011-05-16 2017-08-25 谷歌公司 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
JP2014515152A (ja) * 2011-05-18 2014-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 発行/購読メッセージング・システムにおいてメッセージの購読を管理するための方法および装置、ならびにコンピュータ・プログラム
US8781821B2 (en) * 2012-04-30 2014-07-15 Zanavox Voiced interval command interpretation
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393398B1 (en) * 1999-09-22 2002-05-21 Nippon Hoso Kyokai Continuous speech recognizing apparatus and a recording medium thereof
US20020169594A1 (en) * 2001-03-22 2002-11-14 Nippon Telegraph And Telephone Corporation Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
CN1434436A (zh) * 2001-03-28 2003-08-06 松下电器产业株式会社 使用可识度标准在不利的未知噪声环境下进行可靠的关键字检测的稳定的字识别系统
CN101785051A (zh) * 2007-08-22 2010-07-21 日本电气株式会社 语音识别装置和语音识别方法
JP2011027905A (ja) * 2009-07-23 2011-02-10 Denso Corp 音声認識装置およびそれを用いたナビゲーション装置
CN102054481A (zh) * 2009-10-30 2011-05-11 大陆汽车有限责任公司 用于激活和/或进行语音对话的装置、系统和方法
CN102262879A (zh) * 2010-05-24 2011-11-30 乐金电子(中国)研究开发中心有限公司 语音命令竞争处理方法、装置、语音遥控器和数字电视

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106716527A (zh) * 2014-07-31 2017-05-24 皇家Kpn公司 噪声抑制系统和方法
CN108630202A (zh) * 2017-03-21 2018-10-09 株式会社东芝 语音识别装置、语音识别方法以及语音识别程序
CN108630202B (zh) * 2017-03-21 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及记录介质
CN109558032A (zh) * 2018-12-05 2019-04-02 北京三快在线科技有限公司 操作处理方法、装置以及计算机设备

Also Published As

Publication number Publication date
CN103811014B (zh) 2016-08-17
TWI557722B (zh) 2016-11-11
US9330676B2 (en) 2016-05-03
TW201419264A (zh) 2014-05-16
US20140136193A1 (en) 2014-05-15

Similar Documents

Publication Publication Date Title
CN103811014A (zh) 语音干扰的滤除方法和语音干扰的滤除系统
US8972252B2 (en) Signal processing apparatus having voice activity detection unit and related signal processing methods
CN105210146B (zh) 用于控制语音激活的方法和设备
US7769588B2 (en) Spoken man-machine interface with speaker identification
US9959865B2 (en) Information processing method with voice recognition
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN108766446A (zh) 声纹识别方法、装置、存储介质及音箱
CN108831477B (zh) 一种语音识别方法、装置、设备及存储介质
CN108538293A (zh) 语音唤醒方法、装置及智能设备
CN103310785A (zh) 使用语音识别控制电源的电子装置和方法
CN103811003A (zh) 一种语音识别方法以及电子设备
WO2021218600A1 (zh) 语音唤醒方法和设备
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
WO2021169711A1 (zh) 指令执行方法、装置、存储介质及电子设备
CN103543814B (zh) 信号处理装置以及信号处理方法
CN115762516A (zh) 一种人机交互控制方法、设备及存储介质
CN115472156B (zh) 语音控制方法、装置、存储介质及电子设备
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
TWI831902B (zh) 聲控方法及終端裝置
CN108447478A (zh) 一种终端设备的语音控制方法、终端设备及装置
US20100138040A1 (en) Apparatus for detecting user and method for detecting user by the same
CN111477226A (zh) 控制方法、智能设备和存储介质
CN116386623A (zh) 一种智能设备的语音交互方法、存储介质及电子装置
CN114121042A (zh) 免唤醒场景下的语音检测方法、装置及电子设备
CN111583956B (zh) 语音处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant