[go: up one dir, main page]

CN103327433B - 音频输入接口检测方法及其系统 - Google Patents

音频输入接口检测方法及其系统 Download PDF

Info

Publication number
CN103327433B
CN103327433B CN201310202043.3A CN201310202043A CN103327433B CN 103327433 B CN103327433 B CN 103327433B CN 201310202043 A CN201310202043 A CN 201310202043A CN 103327433 B CN103327433 B CN 103327433B
Authority
CN
China
Prior art keywords
audio input
input interface
interface
input signal
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310202043.3A
Other languages
English (en)
Other versions
CN103327433A (zh
Inventor
刘洪�
彭超
彭远疆
龙兴平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310202043.3A priority Critical patent/CN103327433B/zh
Publication of CN103327433A publication Critical patent/CN103327433A/zh
Priority to PCT/CN2014/075663 priority patent/WO2014190824A1/en
Application granted granted Critical
Publication of CN103327433B publication Critical patent/CN103327433B/zh
Priority to US14/683,103 priority patent/US9886238B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/561Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities by multiplexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种音频输入接口检测方法及其系统,所述方法包括以下步骤:获取各个音频输入接口的输入信号;获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;将获取的所述接口标识按照获取的时间顺序加入标识序列;将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。本发明可以通过对各个音频输入接口的输入数据的检测,有效识别用户当前正在使用的麦克风设备连接的音频输入接口,无需用户手动切换。

Description

音频输入接口检测方法及其系统
技术领域
本发明涉及音频处理的技术领域,特别是涉及一种音频输入接口检测方法,以及一种音频输入接口检测系统。
背景技术
随着语音软件的发展,语音软件越来越被大多数的计算机用户所接受,而且逐渐成为了用户日常生活中不可缺少的一部分。现有的计算机设备常常提供一个音频输入接口选择的选项,由用户手动去选择切换不同的音频输入接口,然而,这样的切换方式需要用户逐个手动尝试选择每一个音频输入接口,直到听到有语音信号输入为止,比较不方便。并且,用户常常因为不知道正确的音频输入接口,而发生误接导致获取不到正确的语音输入。
发明内容
针对上述背景技术中存在的无法自动识别用户正在输入音频信号的麦克风设备,需要用户逐个手动切换选择音频输入接口,较不方便的问题,本发明的目的在于提供一种音频输入接口检测方法,可以通过对各个音频输入接口的输入数据的检测,有效识别当前正在输入音频信号的麦克风设备所连接的音频输入接口,无需用户手动切换,比较方便。
一种音频输入接口检测方法,包括以下步骤:
获取各个音频输入接口的输入信号;
获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
将获取的所述接口标识按照获取的时间顺序加入标识序列;
将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
本发明的目的还在于提供一种与上述音频输入接口检测方法相对应的音频输入接口检测系统。
一种音频输入接口检测系统,包括:
输入检测模块,用于获取各个音频输入接口的输入信号;
能量检测模块,用于获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
接口标识获取模块,用于将获取的所述接口标识按照获取的时间顺序加入标识序列;
识别模块,用于将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
本发明的音频输入接口检测方法及其系统,通过以预定时间间隔获取各个音频输入接口的输入信号,对各路输入的音频信号进行能量检测,对于具有最大能量值的一路输入,获取其对应的音频输入接口的接口标识。将每次获取的所述接口标识按照获取的时间顺序加入预设的标识序列。在所述标识序列中保存的同一个接口标识的个数越多,意味着这一段时间内该接口标识对应的音频输入接口输入的信号能量值最大的情况较多,将所述对应的音频输入接口识别为有效的音频输入接口,能够有效识别用户当前正在使用的麦克风设备连接的音频输入接口,无需用户手动切换,比较方便,并且降低了噪声对识别结果的影响,识别结果较为准确。
附图说明
图1是本发明音频输入接口检测方法第一实施方式的流程示意图;
图2是本发明音频输入接口检测方法第二实施方式的流程示意图;
图3是本发明音频输入接口检测方法第三实施方式的流程示意图;
图4是本发明音频输入接口检测方法第四实施方式的流程示意图;
图5是本发明音频输入接口检测系统第一实施方式的结构示意图;
图6是本发明音频输入接口检测系统第三实施方式的结构示意图;
图7是本发明音频输入接口检测系统第四实施方式的结构示意图。
具体实施方式
请参阅图1,图1是本发明音频输入接口检测方法第一实施方式的流程示意图。
本实施方式的所述音频输入接口检测方法包括以下步骤:
S101,获取各个音频输入接口的输入信号;
S102,获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
S103,将获取的所述接口标识按照获取的时间顺序加入预设的标识序列;
S104,将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
通过以预定时间间隔获取各个音频输入接口的输入信号,对各路输入的音频信号进行能量检测,对于具有最大能量值的一路输入,获取其对应的音频输入接口的接口标识。将每次获取的所述接口标识按照获取的时间顺序加入预设的标识序列。在所述标识序列中保存的同一个接口标识的个数越多,意味着这一段时间内该接口标识对应的音频输入接口输入的信号能量值最大的情况较多,将所述对应的音频输入接口识别为有效的音频输入接口,能够有效识别用户当前正在使用的麦克风设备连接的音频输入接口,无需用户手动切换,比较方便,并且降低了噪声对识别结果的影响,识别结果较为准确。
其中,对于步骤S101,各个音频输入接口的输入信号可以通过对各个所述音频输入接口的监控以及数据采集获得。所述音频输入接口的输入信号包括各个音频输入接口硬件连接的麦克风设备的输入信号以及噪声信号等。在一个实施例中,可以通过调用Dsound API函数:DirectSoundCaptureEnumerate()来枚举本机的所有音频输入接口。
在检测到本机的所有音频输入接口之后,通过对各个所述音频输入接口的输入信号的采集,获取各个所述音频输入接口的输入数据。优选地,对各个所述音频输入接口的参数进行预设,以统一各个所述音频输入接口的音频采集格式,例如使用单声道,44.1k采样率的音频采集格式。通过统一各个所述音频输入接口的音频采集格式,可以为后期对输入信号的处理节省较大的运算量,提高对麦克风设备的识别速度。
在一个实施例中,以预定的间隔同时获取各个音频输入接口输入信号的步骤包括:
S1011,同时采集各个所述音频输入接口的输入信号,并将同一时刻采集的各个所述音频输入接口的输入信号封装成一帧检测数据;
S1012,对各帧所述检测数据解交织,获取各个所述音频输入接口的输入信号。进一步地,可以储存各帧所述检测数据;每隔预定帧数从所述检测数据中提取其中一帧,进行解交织处理,获取各个所述音频输入接口的输入信号。
在一个实施例中,在对各个所述音频输入接口的输入信号进行封装时,将每一路输入信号以20毫秒为单位采集,然后统一放入一个长度为M*20(M表示枚举出的设备数)毫秒的缓冲区中,从所述缓冲区中获取相应的数据进行封装。
通过上述方式,将各个音频输入接口的输入信号(例如N路输入信号,N为自然数)封装到各帧检测数据中,只需要对所述检测数据每隔一定帧数提取一帧,就可以达到对输入信号以预定间隔采样的目的,提取的检测数据只需要解交织,就可以重新获取各个所述音频输入接口的输入信号,比较方便。
进一步地,在获取各个所述音频输入接口的输入信号之后,可以对每一路输入信号进行预处理,保证检测结果的准确性。所述预处理包括:高通滤波,过滤掉一些工频干扰、噪声抑制处理等等,降低噪声对输入信号检测的影响。
对于步骤S102,对获取的各个所述音频输入接口的输入信号进行能量检测,获取各个所述音频输入接口的输入信号的能量值,所述能量值表征各个输入信号的信号大小强弱。输入信号具有最大能量值,亦即所述音频输入接口输入信号的信号值最强,最有可能连接用户正在使用的麦克风设备。获取该音频输入接口的接口标识,用于标识本次检测中输入信号最强的音频输入接口。
对于步骤S103,将获取的所述接口标识按照获取的时间顺序加入标识序列。所述标识序列可以创建在一个Buffer(缓存器)中,也可以创建在其他类型的储存器中,方便读取。
优选地,所述标识序列按照获取的时间顺序遵循先入先出的原则,并且每次储存的接口标识的个数少于或等于预设个数。亦即,当所述标识序列中储存的接口标识的个数达到预设个数,则在新加入一个所述接口标识时,丢弃一个获取时间或者说储存时间最长的一个所述接口标识。使所述标识序列中储存的接口标识的维持在预设个数,例如25个,并且总是储存最近获取的25个接口标识。所述标识序列中储存的接口标识可以相同,即在所述标识序列中储存可能有多个同一个接口标识。
S104,将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
所述标识序列中储存同一个接口标识个数最多,即标识该接口标识所对应的音频输入接口在近期输入音频最大值的次数最多,最有可能是用户当前正在使用的麦克风设备连接的音频输入接口,将所述接口标识对应的音频输入接口识别为有效的音频输入接口,具有较高的准确率。并且,随着所述接口标识储存的接口标识的个数增多,识别的准确率会进一步增大。进一步地,在识别出有效的音频输入接口之后,可以将所述音频输入接口自动匹配到后台的音频软件中处理。或者先对所述音频输入接口的输入信号进行滤波等处理后在输出到后台的音频软件中处理。在识别完成之后,也可以进一步显示一个用户界面,在用户界面上显示当前识别出的音频输入接口或者其连接的麦克风设备等音频输入设备。本发明的音频输入接口检测方法的开始和停止可以通过多种方式触发,例如可设定在检测到麦克风设备插入时开始检测,或者设定在接收到开始指令时开始检测;又例如可设定在检测到正确的输入接口之后停止检测,或者在麦克风设备拔出后停止检测,又或者在接收到停止指令时停止检测等等。
请参阅图2,图2是本发明音频输入接口检测方法第二实施方式的流程示意图。
本实施方式的所述音频输入接口检测方法与所述第一实施方式的主要区别在于,获取输入信号具有最大能量值的所述音频输入接口的接口标识之前,进一步包括以下步骤:
S1021,判断各个所述输入信号的最大能量值是否大于或等于预设值;
如果是,则获取具有所述最大能量值的音频输入接口的接口标识;否则,判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号。
本实施方式的所述音频输入接口检测方法,在判断各个所述输入信号的最大能量值是否大于或等于预设值时,才获取具有所述最大能量值的音频输入接口的接口标识,否则判断各个所述音频输入接口的输入信号无效。因此,如果最大能量值的音频输入是由于噪声造成的,则只要噪声的强度低于所述预设值,就会判断为无效的输入信号,不会对识别结果产生影响,可以有效降低噪声对识别结果的影响。
请参阅图3,图3是本发明音频输入接口检测方法第三实施方式的流程示意图。
本实施方式的所述音频输入接口检测方法与所述第一实施方式的主要区别在于,获取各个音频输入接口输入信号之后,进一步执行以下步骤S105:
对各个所述音频输入接口的输入信号进行语音活动检测(VAD);
如果各个所述音频输入接口的VAD的检测结果都为0,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;
如果至少一个所述音频输入接口的VAD的检测结果为1,则判断各个所述音频输入接口的输入信号有效,执行步骤S102,获取各个所述音频输入接口的输入信号的能量值。
所述VAD(Voice Activity Detection)检测,即语音活动检测。能够有效地检测到输入信号的活动,识别出可能是音频输入的输入信号,提高对活动的音频输入接口识别的速度。如果VAD的检测结果都为0,则表示当前每一个音频输入接口都处于静音状态;如果至少一个所述音频输入接口的检测结果为1,则至少有一个所述音频输入接口有音频输入。可以判断本次采集的各个所述音频输入接口的输入信号有效,执行之后的检测能量最大值识别音频输入接口的步骤。
请参阅图4,图4是本发明音频输入接口检测方法第四实施方式的流程示意图。
本实施方式的所述音频输入接口检测方法与所述第一实施方式的主要区别在于,获取各个音频输入接口输入信号之后,进一步执行以下步骤S106:
获取各个所述音频输入接口的输入信号的信噪比;
如果各个所述音频输入接口的输入信号的信噪比都小于预设值,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;
如果至少一个所述音频输入接口的输入信号的信噪比不小于预设值,则判断各个所述音频输入接口的输入信号有效,执行步骤S102,获取各个所述音频输入接口的输入信号的能量值。
信噪比是正常声音信号与无信号时噪声信号(功率)的比值,常用dB表示。检测各路音频输入接口的信噪比,只有在至少一个所述音频输入接口的信噪比不小于预设值时,才判断所述音频输入接口的输入信号有效,否则都判断为无效输入,可降低噪声对识别活动音频输入接口的影响,提高识别识别的准确度。
在一个优选实施方式中,上述步骤S1021,S105和S106可以任意选其中两个步骤组合或者三个步骤组合同时执行,进一步提高识别的准确度和识别效率。
在令一个优选实施方式中,将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口之后,进一步执行对识别出来的音频输入接口做后处理的步骤,调节设备相关参数,使得连接的麦克风设备处于最佳工作状态。
所述后处理包括:对所述有效的音频输入接口执行自适应麦克风音量调节处理,即软/硬件AGC(Automatic Gain Control,自动增益控制)处理,自适应调节麦克风音量,使得麦克风工作在最佳音量状态);信噪比检测,根据检测结果,开启噪声抑制等等。
本发明能够实现自动为用户配置检测出的麦克风设备,无需用户参与做任何设置,会正确的选择有声音输入的麦克,不会出现无声问题,并且在用户界面上可显示相应的配置结果。同一台机器上连接有多个不同声学特性的麦克风设备时,用户只要对着他想用的麦克风设备说话,就可实现自动切换,无需手动设置。如果麦克风设备坏了无法采集到声音的时候,同样无需手动设置,本发明会自动排除该麦克风设备连接的音频输入接口;让不懂音频设置的用户从麦克设置中解放出来,方便用户使用。
请参阅图5,图5是本发明音频输入接口检测系统第一实施方式的结构示意图。
本实施方式的所述音频输入接口检测系统包括:
输入检测模块11,用于获取各个音频输入接口的输入信号;
能量检测模块12,用于获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
接口标识获取模块13,用于将获取的所述接口标识按照获取的时间顺序加入标识序列;
识别模块14,用于将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
通过以预定时间间隔获取各个音频输入接口的输入信号,对各路输入的音频信号进行能量检测,对于具有最大能量值的一路输入,获取其对应的音频输入接口的接口标识。将每次获取的所述接口标识按照获取的时间顺序加入预设的标识序列。在所述标识序列中保存的同一个接口标识的个数越多,意味着这一段时间内该接口标识对应的音频输入接口输入的信号能量值最大的情况较多,将所述对应的音频输入接口识别为有效的音频输入接口,能够有效识别用户当前正在使用的麦克风设备连接的音频输入接口,无需用户手动切换,比较方便,并且降低了噪声对识别结果的影响,识别结果较为准确。
其中,对于所述输入检测模块11,各个音频输入接口的输入信号可以通过对各个所述音频输入接口的监控以及数据采集获得。所述音频输入接口的输入信号包括各个音频输入接口硬件连接的麦克风设备的输入信号以及噪声信号等。在一个实施例中,可以通过调用Dsound API函数:DirectSoundCaptureEnumerate()来枚举本机的所有音频输入接口。
在检测到本机的所有音频输入接口之后,通过对各个所述音频输入接口的输入信号的采集,获取各个所述音频输入接口的输入数据。优选地,对各个所述音频输入接口的参数进行预设,以统一各个所述音频输入接口的音频采集格式,例如使用单声道,44.1k采样率的音频采集格式。通过统一各个所述音频输入接口的音频采集格式,可以为后期对输入信号的处理节省较大的运算量,提高对麦克风设备的识别速度。
在一个实施例中,所述输入检测模块11包括以下子模块:
采集模块,用于采集各个所述音频输入接口的输入信号;
封装模块,用于将同一时刻采集的各个所述音频输入接口的输入信号封装成一帧检测数据;
提取模块,用于对各帧所述检测数据解交织,获取该帧检测数据包含的各个所述音频输入接口的输入信号。
进一步地,所述输入检测模块11还可包括:储存模块,用于储存各帧所述检测数据;所述提取模块进一步用于每隔预定帧数从所述检测数据中提取其中一帧,进行解交织处理。
例如,封装模块在对各个所述音频输入接口的输入信号进行封装时,将每一路输入信号以20毫秒为单位采集,然后统一放入一个长度为M*20(M表示枚举出的设备数)毫秒的缓冲区中,从所述缓冲区中获取相应的数据进行封装。
通过上述方式,将各个音频输入接口的输入信号(例如N路输入信号,N为自然数)封装到各帧检测数据中,只需要对所述检测数据每隔一定帧数提取一帧,就可以达到对输入信号以预定间隔采样的目的,提取的检测数据只需要解交织,就可以重新获取各个所述音频输入接口的输入信号,比较方便。
进一步地,所述输入检测模块11在获取各个所述音频输入接口的输入信号之后,可以对每一路输入信号进行预处理,保证检测结果的准确性。所述预处理包括:高通滤波,过滤掉一些工频干扰、噪声抑制处理等等,降低噪声对输入信号检测的影响。
对于所述能量检测模块12,对获取的各个所述音频输入接口的输入信号进行能量检测,获取各个所述音频输入接口的输入信号的能量值,所述能量值表征各个输入信号的信号大小强弱。输入信号具有最大能量值,亦即所述音频输入接口输入信号的信号值最强,最有可能连接用户正在使用的麦克风设备。获取该音频输入接口的接口标识,用于标识本次检测中输入信号最强的音频输入接口。
对于所述接口标识获取模块13,将获取的所述接口标识按照获取的时间顺序加入标识序列。所述标识序列可以创建在一个Buffer(缓存器)中,也可以创建在其他类型的储存器中,方便读取。
优选地,所述标识序列按照获取的时间顺序遵循先入先出的原则,并且每次储存的接口标识的个数少于或等于预设个数。亦即,当所述标识序列中储存的接口标识的个数达到预设个数,则在新加入一个所述接口标识时,丢弃一个获取时间或者说储存时间最长的一个所述接口标识。使所述标识序列中储存的接口标识的维持在预设个数,例如25个,并且总是储存最近获取的25个接口标识。所述标识序列中储存的接口标识可以相同,即在所述标识序列中储存可能有多个同一个接口标识。
对于所述识别模块14,将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
所述标识序列中储存同一个接口标识个数最多,即标识该接口标识所对应的音频输入接口在近期输入音频最大值的次数最多,最有可能是用户当前正在使用的麦克风设备连接的音频输入接口,将所述接口标识对应的音频输入接口识别为有效的音频输入接口,具有较高的准确率。并且,随着所述接口标识储存的接口标识的个数增多,识别的准确率会进一步增大。
进一步地,在识别出有效的音频输入接口之后,可以将所述音频输入接口自动匹配到后台的音频软件中处理。或者先对所述音频输入接口的输入信号进行滤波等处理后在输出到后台的音频软件中处理。在识别完成之后,也可以进一步显示一个用户界面,在用户界面上显示当前识别出的音频输入接口或者其连接的麦克风设备等音频输入设备。
本发明的音频输入接口检测系统的开始和停止可以通过多种方式触发,例如可设定在检测到麦克风设备插入时开始检测,或者设定在接收到开始指令时开始检测;又例如可设定在检测到正确的输入接口之后停止检测,或者在麦克风设备拔出后停止检测,又或者在接收到停止指令时停止检测等等。
本发明音频输入接口检测系统第二实施方式与所述第一实施方式的主要区别在于,所述接口标识获取模块13获取输入信号具有最大能量值的所述音频输入接口的接口标识之前,进一步判断各个所述输入信号的最大能量值是否大于或等于预设值;如果是,则获取具有所述最大能量值的音频输入接口的接口标识;否则,判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号。
本实施方式中,所述接口标识获取模块13在判断各个所述输入信号的最大能量值是否大于或等于预设值时,才获取具有所述最大能量值的音频输入接口的接口标识,否则判断各个所述音频输入接口的输入信号无效。因此,如果最大能量值的音频输入是由于噪声造成的,则只要噪声的强度低于所述预设值,就会判断为无效的输入信号,不会对识别结果产生影响,可以有效降低噪声对识别结果的影响。
请参阅图6,图6是本发明音频输入接口检测系统第三实施方式的结构示意图。
本实施方式的所述音频输入接口检测系统与所述第一实施方式的主要区别在于,进一步包括VAD模块15;
所述VAD模块15用于对各个所述音频输入接口的输入信号进行语音活动检测(VAD);如果各个所述音频输入接口的VAD的检测结果都为0,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;如果至少一个所述音频输入接口的VAD的检测结果都为1,则判断各个所述音频输入接口的输入信号有效,所述能量检测模块12获取各个所述音频输入接口的输入信号的能量值。
所述VAD(Voice Activity Detection)检测,即语音活动检测。能够有效地检测到输入信号的活动,识别出可能是音频输入的输入信号,提高对活动的音频输入接口识别的速度。如果VAD的检测结果都为0,则表示当前每一个音频输入接口都处于静音状态;如果至少一个所述音频输入接口的检测结果为1,则至少有一个所述音频输入接口有音频输入。可以判断本次采集的各个所述音频输入接口的输入信号有效,执行之后的检测能量最大值识别音频输入接口的步骤。
请参阅图7,图7是本发明音频输入接口检测系统第四实施方式的结构示意图。
本实施方式的所述音频输入接口检测系统与所述第一实施方式的主要区别在于,进一步包括信噪比检测模块16,所述信噪比检测模块16用于获取各个所述音频输入接口的输入信号的信噪比;如果各个所述音频输入接口的输入信号的信噪比都小于预设值,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;如果至少一个所述音频输入接口的输入信号的信噪比不小于预设值,则判断各个所述音频输入接口的输入信号有效,所述能量检测模块12获取各个所述音频输入接口的输入信号的能量值。
信噪比是正常声音信号与无信号时噪声信号(功率)的比值,常用dB表示。检测各路音频输入接口的信噪比,只有在至少一个所述音频输入接口的信噪比不小于预设值时,才判断所述音频输入接口的输入信号有效,否则都判断为无效输入,可降低噪声对识别活动音频输入接口的影响,提高识别识别的准确度。
在一个优选实施方式中,上述第二至第四实施方式中,所述接口标识获取模块13,所述VAD模块15和所述信噪比检测模块16可以任意选其中两个组合或者三个组合,进一步提高识别的准确度和识别效率。
在另一个优选实施方式中,在所述识别模块14将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口之后,进一步执行对识别出来的音频输入接口做后处理,调节设备相关参数,使得连接的麦克风设备处于最佳工作状态。
所述后处理包括:对所述有效的音频输入接口执行自适应麦克风音量调节处理,即软/硬件AGC(Automatic Gain Control,自动增益控制)处理,自适应调节麦克风音量,使得麦克风工作在最佳音量状态);信噪比检测,根据检测结果,开启噪声抑制等等。
本发明能够实现自动为用户配置检测出的麦克风设备,无需用户参与做任何设置,会正确的选择有声音输入的麦克,不会出现无声问题,并且在用户界面上可显示相应的配置结果。同一台机器上连接有多个不同声学特性的麦克风设备时,用户只要对着他想用的麦克风设备说话,就可实现自动切换,无需手动设置。如果麦克风设备坏了无法采集到声音的时候,同样无需手动设置,本发明会自动排除该麦克风设备连接的音频输入接口;让不懂音频设置的用户从麦克设置中解放出来,方便用户使用。
本领域普通技术人员可以理解实现上述实施方式中的全部或部分流程以及对应的系统,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施方式的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种音频输入接口检测方法,其特征在于,包括以下步骤:
获取各个音频输入接口的输入信号;
获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
将获取的所述接口标识按照获取的时间顺序加入标识序列;
将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
2.如权利要求1所述的音频输入接口检测方法,其特征在于,进一步包括以下步骤:
如果所述标识序列中储存的接口标识的个数达到预设个数,则在加入一个所述接口标识时,丢弃获取时间最早的一个所述接口标识。
3.如权利要求1或者2所述的音频输入接口检测方法,其特征在于,获取输入信号具有最大能量值的所述音频输入接口的接口标识之前,进一步包括以下步骤:
判断各个所述输入信号的最大能量值是否大于或等于预设值;
如果是,则获取具有所述最大能量值的音频输入接口的接口标识;否则,判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号。
4.如权利要求1或者2所述的音频输入接口检测方法,其特征在于,获取各个音频输入接口输入信号之后,进一步执行以下步骤:
对各个所述音频输入接口的输入信号进行语音活动检测(VAD);
如果各个所述音频输入接口的语音活动检测(VAD)的检测结果都为0,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;
如果至少一个所述音频输入接口的语音活动检测(VAD)的检测结果为1,则判断各个所述音频输入接口的输入信号有效,获取输入信号具有最大能量值的所述音频输入接口的接口标识。
5.如权利要求1或者2所述的音频输入接口检测方法,其特征在于,获取各个音频输入接口输入信号之后,进一步执行以下步骤:
获取各个所述音频输入接口的输入信号的信噪比;
如果各个所述音频输入接口的输入信号的信噪比都小于预设值,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;
如果至少一个所述音频输入接口的输入信号的信噪比不小于预设值,则判断各个所述音频输入接口的输入信号有效,获取输入信号具有最大能量值的所述音频输入接口的接口标识。
6.如权利要求1或者2所述的音频输入接口检测方法,其特征在于,获取各个音频输入接口输入信号的步骤包括:
采集各个所述音频输入接口的输入信号,并将同一时刻采集的各个所述音频输入接口的输入信号封装成一帧检测数据;
对各帧所述检测数据解交织,获取各个所述音频输入接口的输入信号。
7.如权利要求6所述的音频输入接口检测方法,其特征在于,对各帧所述检测数据解交织步骤包括:
储存各帧所述检测数据;
每隔预定帧数从所述检测数据中提取其中一帧,进行解交织处理。
8.一种音频输入接口检测系统,其特征在于,包括:
输入检测模块,用于获取各个音频输入接口的输入信号;
能量检测模块,用于获取各个所述音频输入接口的输入信号的能量值,并获取输入信号具有最大能量值的所述音频输入接口的接口标识;
接口标识获取模块,用于将获取的所述接口标识按照获取的时间顺序加入标识序列;
识别模块,用于将所述标识序列中储存个数最多的接口标识对应的音频输入接口识别为有效的音频输入接口。
9.如权利要求8所述的音频输入接口检测系统,其特征在于,如果所述标识序列中储存的接口标识的个数达到预设个数,则所述接口标识获取模块在加入一个所述接口标识时,丢弃获取时间最早的一个所述接口标识。
10.如权利要求8或者9所述的音频输入接口检测系统,其特征在于,所述接口标识获取模块判断各个所述输入信号的最大能量值是否大于或等于预设值;如果是,则获取具有所述最大能量值的音频输入接口的接口标识;否则,判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号。
11.如权利要求8或者9所述的音频输入接口检测系统,其特征在于,进一步包括VAD模块,用于对各个所述音频输入接口的输入信号进行语音活动检测(VAD);如果各个所述音频输入接口的语音活动检测(VAD)的检测结果都为0,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;如果至少一个所述音频输入接口的语音活动检测(VAD)的检测结果都为1,则判断各个所述音频输入接口的输入信号有效;所述能量检测模块获取输入信号具有最大能量值的所述音频输入接口的接口标识。
12.如权利要求8或者9所述的音频输入接口检测系统,其特征在于,进一步包括信噪比检测模块,用于获取各个所述音频输入接口的输入信号的信噪比;如果各个所述音频输入接口的输入信号的信噪比都小于预设值,则判断各个所述音频输入接口的输入信号无效,重新获取各个音频输入接口的输入信号;如果至少一个所述音频输入接口的输入信号的信噪比不小于预设值,则判断各个所述音频输入接口的输入信号有效;所述能量检测模块获取输入信号具有最大能量值的所述音频输入接口的接口标识。
13.如权利要求8或者9所述的音频输入接口检测系统,其特征在于,所述输入检测模块包括:
采集模块,用于采集各个所述音频输入接口的输入信号;
封装模块,用于将同一时刻采集的各个所述音频输入接口的输入信号封装成一帧检测数据;
提取模块,用于对各帧所述检测数据解交织,获取该帧检测数据包含的各个所述音频输入接口的输入信号。
14.如权利要求13所述的音频输入接口检测系统,其特征在于,所述输入检测模块还包括:
储存模块,用于储存各帧所述检测数据;
所述提取模块进一步用于每隔预定帧数从所述检测数据中提取其中一帧,进行解交织处理。
CN201310202043.3A 2013-05-27 2013-05-27 音频输入接口检测方法及其系统 Active CN103327433B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310202043.3A CN103327433B (zh) 2013-05-27 2013-05-27 音频输入接口检测方法及其系统
PCT/CN2014/075663 WO2014190824A1 (en) 2013-05-27 2014-04-18 Method, system and computer storage medium for detecting an audio input interface
US14/683,103 US9886238B2 (en) 2013-05-27 2015-04-09 Method, system and computer storage medium for detecting an audio input interface

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310202043.3A CN103327433B (zh) 2013-05-27 2013-05-27 音频输入接口检测方法及其系统

Publications (2)

Publication Number Publication Date
CN103327433A CN103327433A (zh) 2013-09-25
CN103327433B true CN103327433B (zh) 2014-08-27

Family

ID=49195917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310202043.3A Active CN103327433B (zh) 2013-05-27 2013-05-27 音频输入接口检测方法及其系统

Country Status (3)

Country Link
US (1) US9886238B2 (zh)
CN (1) CN103327433B (zh)
WO (1) WO2014190824A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327433B (zh) * 2013-05-27 2014-08-27 腾讯科技(深圳)有限公司 音频输入接口检测方法及其系统
WO2016015186A1 (zh) * 2014-07-28 2016-02-04 华为技术有限公司 通信设备的声音信号处理方法和设备
CN105788609B (zh) * 2014-12-25 2019-08-09 福建凯米网络科技有限公司 多路音源的关联方法和装置及评定方法和系统
CN105681974A (zh) * 2016-04-01 2016-06-15 北京小鸟听听科技有限公司 多音源切换方法、装置及音频设备
CN111354356B (zh) * 2018-12-24 2024-04-30 北京搜狗科技发展有限公司 一种语音数据处理方法及装置
CN111736795B (zh) * 2019-06-24 2024-11-29 北京京东尚科信息技术有限公司 音频处理方法、装置、设备和存储介质
CN111770427B (zh) * 2020-06-24 2023-01-24 杭州海康威视数字技术股份有限公司 麦克风阵列的检测方法、装置、设备以及存储介质
CN113542975A (zh) * 2021-07-02 2021-10-22 南昌华勤电子科技有限公司 一种音频信号切换电路以及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN1845580A (zh) * 2005-04-07 2006-10-11 深圳Tcl新技术有限公司 一种音频视频信号源识别与自动切换的方法及装置
CN101299782A (zh) * 2008-05-22 2008-11-05 杭州华三通信技术有限公司 一种检测双音频信号的方法和装置
CN101308651A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的检测方法
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN102143262A (zh) * 2010-02-03 2011-08-03 深圳富泰宏精密工业有限公司 电子装置及切换其音频输入通道的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6956828B2 (en) * 2000-12-29 2005-10-18 Nortel Networks Limited Apparatus and method for packet-based media communications
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
CN100484175C (zh) * 2005-01-10 2009-04-29 华为技术有限公司 一种会场当前说话者上报的实现方法及系统
US8514265B2 (en) * 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
CN103327433B (zh) * 2013-05-27 2014-08-27 腾讯科技(深圳)有限公司 音频输入接口检测方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN1845580A (zh) * 2005-04-07 2006-10-11 深圳Tcl新技术有限公司 一种音频视频信号源识别与自动切换的方法及装置
CN101308651A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的检测方法
CN101299782A (zh) * 2008-05-22 2008-11-05 杭州华三通信技术有限公司 一种检测双音频信号的方法和装置
CN102143262A (zh) * 2010-02-03 2011-08-03 深圳富泰宏精密工业有限公司 电子装置及切换其音频输入通道的方法
CN102056053A (zh) * 2010-12-17 2011-05-11 中兴通讯股份有限公司 一种多话筒混音方法及装置

Also Published As

Publication number Publication date
US20150212792A1 (en) 2015-07-30
US9886238B2 (en) 2018-02-06
WO2014190824A1 (en) 2014-12-04
CN103327433A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103327433B (zh) 音频输入接口检测方法及其系统
CN102293013B (zh) 用于耳机的耳内声检测的设备和方法
CN107564523B (zh) 一种耳机接听方法、装置以及耳机
CN108766468B (zh) 一种智能语音检测方法、无线耳机、tws耳机及终端
CN108053822B (zh) 一种语音信号处理方法、装置、终端设备及介质
CN103888580B (zh) 一种终端录音过程中降噪处理方法及终端
CN106898348A (zh) 一种出声设备的去混响控制方法和装置
CN104104800A (zh) 一种根据环境音调节移动终端音量输出的方法及移动终端
CN103473005A (zh) 对播放的音频进行音效控制的方法及装置
CN104599675A (zh) 语音处理方法、语音处理装置和终端
CN103531214B (zh) 一种室内设备的控制方法及控制装置
CN104581519A (zh) 降噪耳机及其降噪方法
CN110806850B (zh) 一种耳机及其自动音量调节控制模块与方法及存储介质
CN105848052A (zh) 一种麦克切换方法及终端
CN109065036A (zh) 语音识别的方法、装置、电子设备及计算机可读存储介质
CN102404522B (zh) 电视机语音遥控方法和电视机
CN108733341A (zh) 一种语音交互方法及装置
CN105657203A (zh) 智能设备语音通话中的降噪方法及系统
CN114268893B (zh) 蓝牙音频设备播放异常的检测方法、设备和可读存储介质
CN104599667A (zh) 信息处理方法及电子设备
CN113132880B (zh) 基于双麦克风架构的冲击噪声抑制方法和系统
CN115022767A (zh) 耳机降风噪方法、装置、耳机及计算机可读存储介质
JP2017090428A (ja) サウンド信号で診断信号を抽出する方法および診断装置
CN102209135B (zh) 用于对移动终端降风噪的装置及方法
CN210223556U (zh) 语音采集设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190809

Address after: 518000 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right