CN104160443B - 用于音频数据处理的方法、设备和系统 - Google Patents
用于音频数据处理的方法、设备和系统 Download PDFInfo
- Publication number
- CN104160443B CN104160443B CN201280071289.5A CN201280071289A CN104160443B CN 104160443 B CN104160443 B CN 104160443B CN 201280071289 A CN201280071289 A CN 201280071289A CN 104160443 B CN104160443 B CN 104160443B
- Authority
- CN
- China
- Prior art keywords
- user
- communication device
- voice
- speech
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004891 communication Methods 0.000 claims abstract description 168
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000001755 vocal effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 abstract description 2
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 238000005728 strengthening Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 10
- 230000009467 reduction Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/247—Telephone sets including user guidance or feature selection means facilitating their use
- H04M1/2474—Telephone terminals specially adapted for disabled people
- H04M1/2475—Telephone terminals specially adapted for disabled people for a hearing impaired user
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
对从说话的人接收到的音频数据进行滤波的方法和设备包括用于该说话者的特定滤波器。可收集说话者的语音的音频特性,并且可形成特定滤波器以降低噪声同时还增强语音质量。例如,如果说话者的语音不包含特定频率,则滤波器可消除处于此频率的噪声以使噪声消除变得容易并减少不需要的处理用于清理的声谱。另外,可从收集的音频特性中识别说话者的语音的强度频率并且能以较细粒度对那些频谱进行滤波以提供增强由通信设备传输或输出的说话者的语音数据的语音质量的说话者特定滤波器。还可基于用户的预定义听力频谱来输出音频数据。
Description
技术领域
本发明涉及通信系统,诸如利用蜂窝电话、移动计算机设备、平板计算机、膝上型计算机或其他终端设备的通信系统。更特别地,本发明涉及被配置成编辑接收到的音频数据以改善为了记录或传输而接收的语音数据的语音质量的系统、方法和设备。
背景技术
电信端点常常配备有降噪声设备。此类设备通常被配置成对由设备接收到的语音数据进行滤波(filter)以在该数据被输出或作为输出音频数据被传输时传送更好的语音内容。然而,在此类降噪声机构中使用的滤波器通常是被设计成以一般方式来处理音频的通用滤波器。结果,降噪声可未能提供对于输出音频数据的语音质量或其他属性方面的很大改善。
我们已经确定需要新的方法和设备来改善基于接收到的音频数据而输出的音频输出的音频特性。在我们的方法和设备的一些实施例中,输出的音频可被配置成利用基于用户进行说话和进行倾听的说话和听力简档(profile)的听力和说话参数。
发明内容
提供了传输语音数据的方法。所述方法的实施例可包括步骤:通信设备提示用户说话以获得用户的语音样本以识别用户语音的时域、频域、发声属音(vocal dominants)和音域(vocal range)中的至少一个,通信设备基于用户的语音样本来确定对于用户语音的语音度量(metrics),通信设备存储用户语音的语音度量,通信设备从用户接收语音数据,通信设备基于用户语音的语音度量、时域、频域、发声属音和音域中的所述至少一个来修改接收到的语音数据,并且通信设备将经修改的语音数据传输给另一设备,使得经修改的语音数据可输出到至少一个接收者。
所述方法的一些实施例可包括附加步骤或修改。例如,所述方法还可包括步骤:通信设备产生用于向用户发出的音调(tone),因此用户听到该音调,通信设备接收识别音调对于用户而言可听见时的音量(volume)设置的输入,并且通信设备基于接收到的识别音调对于用户而言可听见时的音量设置的输入来确定用户的听力简档。另外,所述方法的实施例可包括步骤:通信设备基于用户的听力简档调整由通信设备接收的音频数据的音量而以更大声的音量输出音频数据。
在一个实施例中,所述方法可包括步骤:通信设备将用户的听力简档传输给另一通信设备且另一通信设备在将音频数据传输给所述通信设备之前基于用户的听力简档来修改该音频数据。在一个实施例中,所述另一设备在将音频数据传输给用户之前可通过如下方式来修改音频数据:使音频频谱内用户的听力简档指示对于用户而言不可听见的音频数据的部分从音频数据中省略以使得传输的音频数据不包含处于用户的不可听见的音频频谱内的音频。在其他实施例中,可由所述另一通信设备通过如下方式来修改音频数据:增加音频数据的音量,使得处于传输的音频数据内的所有传输的语音数据在用户的可听见的音频频谱内。
对于某些实施例,用户语音的语音度量包括基于用户的语音的时域、语音的频域、语音的发声属音和语音的音域的参数。通信设备可基于语音度量、时域、频域、发声属音中的至少一个来修改语音数据。用户语音的音域能包括通信设备去除接收到的语音数据中的在用户语音的频域之外的频率范围内的部分。通信设备基于用户语音的语音度量、时域、频域、发声属音和音域中的至少一个来修改语音数据还可包括通信设备将用户的语音的基于用户语音的语音度量、时域、频域、发声属音和音域中的至少一个的参数应用于接收到的语音数据的噪声消除处理。
通信设备可以是许多类型的设备中的任何一个。例如,通信设备可以是服务器、工作站、桌面型计算机、平板计算机、移动蜂窝电话、因特网设备、膝上型计算机、智能电话、个人数字助理、移动计算机设备或通信终端。在一些实施例中,通信设备还可被配置成确定接收到的语音数据来自用户。
还提供了通信系统。通信系统的一些实施例可包括被配置成利用以上论述的方法的实施例的通信系统,以下将对其进一步论述。
还提供了非瞬时性计算机可读介质。所述非瞬时性计算机可读介质具有存储在其上的应用,所述应用定义了方法,在所述应用被通信设备执行时由通信设备执行所述方法。所述方法可包括一种方法的上述实施例中的任何一个,以下将对其进一步论述。例如,所述方法的实施例可包括步骤:通信设备提示用户说话以获得用户的语音样本以识别用户语音的时域、频域、发声属音和音域中的至少一个,通信设备基于用户的语音样本来确定对于用户语音的语音度量,通信设备存储用户语音的语音度量并使那些保存的语音度量与用户相关联,通信设备从用户接收语音数据,通信设备基于用户语音的时域、频域、发声属音和音域中的至少一个来修改接收到的语音数据,并且通信设备将经修改的语音数据传输给另一设备。
由计算机可读介质的应用定义的方法的一些实施例还可包括步骤:通信设备产生用于向用户发出的音调,因此用户听到该音调,通信设备接收识别音调对于用户而言可听见时的音量设置的输入,并且通信设备基于接收到的识别音调对于用户而言可听见时的音量设置的输入而确定用户的听力简档。通信设备还可基于用户的听力简档调整由通信设备接收到的音频数据的音量而以更大声的音量输出音频数据。通信设备可将用户的听力简档传输给另一通信设备且另一通信设备可在将音频数据传输给通信设备之前基于用户的听力简档来修改该音频数据。在一个实施例中,所述另一设备在将音频数据传输给用户之前可通过如下方式来修改音频数据:使音频频谱内用户的听力简档指示对于用户而言不可听见的音频数据的部分从音频数据中省略以使得传输的音频数据不包含处于用户的不可听见的音频频谱内的音频。在其他实施例中,可由所述另一通信设备通过如下方式来修改音频数据:增加音频数据的音量,使得处于传输的音频数据内的所有传输的语音数据在用户的可听见的音频频谱内。
在由应用定义的方法的某些实施例中,通信设备基于用户语音的时域、频域、发声属音和音域中的至少一个来修改语音数据能包括许多步骤。例如,此类修改可包括通信设备去除接收到的语音数据中的在用户语音的频域之外的频率范围内的部分,并且通信设备将用户的语音的基于用户语音的时域、频域、发声属音和音域中的至少一个的参数应用于接收到的语音数据的噪声消除处理。
随着本发明的某些目前优选实施例和实践该优选实施例的某些目前优选方法的以下描述的进行,本发明的其他细节、目的以及优点将变得显而易见。
附图说明
在附图中示出用于提供通多个信设备之间的通信的目前优选设备、系统和装置,并且其中还示出实践它们的某些目前优选方法。应理解的是,在图中所使用的相似附图标记可标识相似部件。
图1是通信设备的示例性实施例的框图,所述通信设备可例如是服务器、计算机设备、工作站、平板计算机、膝上型计算机、电话设备、因特网设备、个人数字助理、智能电话、蜂窝电话、电话或其他类型的通信终端。应理解的是,在通信设备的实施例内可包括不止一个麦克风和不止一个扬声器(例如,通信设备的一些实施例可包括一个耳用扬声器和扩音器,并且可包括两个麦克风,一个用于周围音频检测且一个用于周围噪声消除)。
图2是用于传输语音数据或音频数据的示例性方法的流程图。
图3是用于输出语音数据或音频数据的示例性方法的流程图。
图4是通信系统的示例性实施例的框图。
具体实施方式
参考图1-4,通信设备可以是诸如服务器或工作站之类的计算机设备或终端设备,诸如桌面型计算机、平板计算机、移动蜂窝电话、因特网设备、膝上型计算机、智能电话、个人数字助理、移动计算机设备或通信终端。在系统的一个实施例中,网络24可包括经由通信路径而被通信连接的第一和第二通信终端21、22,所述通信路径经由计算机设备25而被建立和保持。网络24可以是广域网或局域网,比如在所述系统的一些实施例中是企业网络。
图4中所示的系统的第一和第二通信终端21和22每个都可以是图1中所示的通信设备的实施例。备选地,图4中所示的计算机设备25可用作可以是图1中所示的通信设备的实施例的诸如交换机设备、媒体服务器或电话会议服务器之类的电话型通信设备或媒体通信设备。
通信设备可包括被通信连接到包括接收机单元3a和发射机单元3b的收发机单元3的处理器单元1、显示单元2、诸如麦克风6和摄像机传感器8之类的至少一个输入设备、存储器5以及扬声器4。收发机单元3可包括用于经由蜂窝网络、无线网络连接或其他网络连接进行数据传输和接收的接收机单元3a和发射机单元3b,或者可被配置成经由近场通信、符合蓝牙的通信或其他类型的无线通信机制而形成无线连接,或者允许诸如经由例如通用串行总线连接实现的有线连接之类的有线连接。在一些实施例中,通信设备也可包括附加收发机单元。
处理器单元1可以是中央处理单元,诸如微处理器、互连微处理器或其他硬件处理器元件。存储器5可以是在其上存储有至少一个应用7的非瞬时性计算机可读介质,应用7定义由通信设备执行的方法,例如诸如图2或3中所示的方法。存储器5可包括硬盘驱动器、闪盘驱动器、光盘或硬盘或能够存储数据达非瞬时性时间段的其他类型计算机可读介质。还可将诸如语音数据库12和听力数据库13之类的数据集以及可在运行应用7时被通信设备利用的其他数据存储在存储器5中。
扬声器4可包括发出音频的多个扬声器,并且麦克风6可以是记录由用户发出的音频以便接收该音频数据的输入设备。例如,麦克风6可包括检测周围噪声的第一麦克风和用于消除周围噪声的第二麦克风,并且扬声器4可包括用于向一个人耳发出噪声的第一扬声器和作为扩音器的第二扬声器。显示单元2可以是液晶显示器或其他显示设备。可将显示单元2配置为输入设备和输出设备,比如用来直观地输出数据同时还允许用户通过触摸显示器的不同部分来提供输入的触摸屏显示器。诸如按钮、键盘、蓝牙头戴式耳机或蓝牙耳机或鼠标之类的其他类型输入设备也可以是可连接到处理器单元1,使得用户可利用该输入设备来向设备提供输入。
通信设备可经由处理器单元1来运行应用7。应用7可定义当所述应用运行时由通信设备执行的方法。此类方法的示例可从图2和3领会到。例如,通信设备可运行应用以创建听力简档以便存储在听力数据库中以用于传输或输出接收的音频,或者可生成在语音数据库中使用的语音简档,其可用来在传输经由麦克风6接收到的语音数据之前增强该语音数据以修改该接收到的语音数据以提高清晰度、减少该接收到的语音数据内的噪声,或者另外增强语音数据以使得传输的语音数据具有增强的质量。
例如,通信设备可运行应用并提示用户经由麦克风6输入语音输入,使得能够收集用户语音的语音数据以定义用户语音简档以便保存在语音数据库12中。可记录用户说话的语音,使得能准备针对用户定义特定滤波器的语音简档并将其作为用户语音简档而保存在语音数据库12中。备选地,语音数据库12可保存参数用于在用户被检测为说话者时将该参数发送到滤波器,使得该滤波器根据语音数据库12中针对该用户定义的语音参数对从该用户记录的任何语音数据进行滤波。
通信设备可经由显示单元2向用户发送输出以提示用户以不同的音量或以不同的速度提供某些语音数据以获得用户的语音样本。用户语音的采样可利用用户语音的不同发声和频率的采样。例如,对用户的提示输出可让用户以不同的八度音(例如以低音或以高音)或以不同的速度(例如缓慢地和快速地)说出某个短语,以在由用户在满足那些条件时说出该短语时记录该短语。还可经由音频指引用户用他或她偏好的语言重复具有用于语音分析的显著音素的特定句子。随后评定记录的语音数据以确定用户说出的语音可能不包含什么频率和什么频率是用户语音的强度(strength)(例如,当用户说话时,用户的语音最常存在的频率范围)。
在评定用户的语音之后,通信设备可确定用户的语音不包含特定频率。在用户的语音内不存在的频率范围因此可被滤波器切掉,使得当记录用于向另一设备发送的用户的语音时,没有在那些频率内的声音被输出或传输给另一设备,比如当通信设备经由摄像机传感器8和麦克风6来记录视频时或者当用户使用通信设备进行电话呼叫时可做的。不包括用户语音的此频率范围的去除能消除在用户语音的记录期间可存在的噪声,并且可减少在保存被记录的语音数据或传输该语音数据之前进行如下处理的需要:执行可针对该语音数据执行的降噪声或其他语音数据清理。
另外,可根据用户语音的采样来确定作为用户语音的强范围(例如,其中用户的语音几乎始终存在的范围)的频率范围。可识别被确定为用户语音的强度的频率范围内的用户语音的滤波,使得可以较细粒度(finer granularity)来对此类频谱进行滤波。
在一个实施例中,可通过对在用户说出他或她经由显示单元2被提示说出的单词或短语时记录的记录语音样本的评定来定义用户的语音简档并确定范围(ranged)。然后可通过通信设备分析记录的语音样本来评定用户的发声的时域、频域以及属音。然后可将用户语音的经评定的参数保存在语音数据库12中,用于出于增强从用户接收到的任何语音数据的目的而定义用户语音的滤波,所述语音数据用于与视频记录相关联地保存或经由语音通道、媒体传输、电话呼叫或其他语音数据传输而传输。应理解的是,要传输的语音数据的增强可与可由通信设备执行的噪声消除并行地发生。噪声消除和语音增强可在经由噪声消除和语音增强被修改的语音数据的分组化之前发生。然后可将分组化的经修改的语音数据传输给另一设备。
通信设备还可提示用户响应于经由至少一个扬声器4输出的所发出的音频而向通信设备提供输入,使得可确定并在听力数据库13中存储用户的听力简档。听力数据库13然后可在处理接收到的音频数据时使用,并且还可在处理要被输出或传输给另一设备的语音数据时被利用。例如,特定用户可具有这样的频谱:用户对其不那么敏感,或者当任何音频落在该频谱内时不能听到该音频。此类频谱可在用户的听力简档中被识别,并且随后用来修改将要被输出给该用户或要被传输给与该用户相关联的诸如用户的电话或蜂窝电话之类的设备的语音数据。
例如,通信设备可提示用户对经由扬声器4以不同的响度水平发出的一系列音调进行响应。由用户提供的输入可指示在什么音量或响度水平下用户能够听到不同的发出的音调,并且可提示用户检测经由一个耳用扬声器单独地针对每个耳朵以及还有经由扩音器而针对两只耳朵一起以不同响度水平发出的相同音调系列。由用户提供的输入然后可被通信设备用来确定针对用户的每只耳朵以及针对用户的两只耳朵的听力阈值。然后可将用户的听力简档与用户链接并以许多方式来利用。另外,还可将形成的听力简档发送到可向通信设备发送音频数据的其他设备或与用户相关联的其他设备,使得可利用用户的听力简档来修改要被发送给用户的语音数据以增强该数据对该用户的清晰度。
例如,听力简档可通过处于听力数据库13内而被存储在通信设备的存储器5中。通信设备然后可调整接收到的语音数据的响度,使得不在用户可听见的频率内的语音数据或其他音频数据被修改,使得输出的语音数据是用户可听见的。例如,可通过音频路径将听力简档应用于实时传输协议(“RTP”)解码器或其他音频均衡器以提供此类调整。用户自己的通信设备内的听力简档可因此调整接收的数据要被发出时的音量设置,使得其改善该数据对用户的清晰度。
作为另一示例,可将听力简档发送到另一通信设备,使得传输给用户的通信设备的音频数据可被要将该数据传输给用户的设备修改以经由用户的听力简档来计及用户的特定听力能力。例如,接收用户的听力简档的传输通信设备可基于用户的听力简档来对要被传输给与该用户相关联的通信设备的语音数据增强其降噪声。可修改要传输的语音数据,使得该语音数据在用户的听力简档的频谱内以改善传输数据对用户的清晰度。传输设备还可,或备选地,修改要传输给用户的通信设备的音频数据以避免、省略或另外废弃在用户根本不具有敏感性的频谱或在该频谱内接近聋的频谱内的音频,使得可节省与音频数据的该部分的传输和接收相关联的带宽和处理能力。
用户的通信设备可将用户的听力简档或通信设备的听力数据库13发送到传输设备,使得其能够被该另一设备保存以用于音频数据的未来调用或其他传输。该另一设备可使用户的听力简档与用户通信设备的地址(比如,该设备的电话号码或网际协议地址)相关联,使得利用该地址的任何通信可导致使用用户的听力简档来修改要被传输给该用户的通信设备的语音数据或其他音频数据。传输设备也可保存该简档以用于基于设备地址的关联、诸如与用户相关联的电话号码和利用具有该地址的设备建立的呼叫而在未来通信会话中使用。还可使用户的听力简档与用户被关联到的诸如语音邮箱或电子邮件地址之类的其他设备相关联,使得被传输给这些其他设备或地址的音频数据被修改以改善音频数据对该信息被寻址到的用户的清晰度。
在通信设备的一些实施例中,用户可在呼叫或其他通信会话期间进行输入以促使将消息发送给参与通信会话的另一设备。所进行的该输入可向呼叫伙伴指示用户不想在特定会话期间或在任何未来呼叫或未来通信会话期间应用与该用户相关联的听力简档。此类输入可启动消息以撤销在进行呼叫或其他通信会话期间由另一设备对要被发送给该设备的听力简档的使用或可被传输。可备选地在特定通信会话之后或之前发送此类消息。例如,可在用户创建新的听力简档或语音简档时发送此类消息。可连同替换听力简档或语音简档一起发送此类消息以便由另一设备保存以在后续通信会话中使用。
应理解的是,修改语音数据或其他音频数据以在该数据被输出给特定用户时改善该数据对该用户的清晰度可导致使音频数据偏移(skewing),以将该数据放置在对该用户而言更敏感的频谱部分。此类偏移可导致说话者的语音特性被改变。但是,这还可导致改善通信对用户的清晰度,使得在诸如电话呼叫或会议呼叫之类的通信会话期间实际上更多的数据被用户听到并被用户理解。
应领会到的是,第一通信终端21和第二通信终端22每个可具有用于在两个设备之间的电话呼叫期间使用的语音数据库和听力数据库。每个通信终端可修改向该终端的麦克风中说话的用户的语音数据,使得传输的语音数据被修改以改善其对接收终端的用户的清晰度。在一个预期的备选施例中,诸如在通信会话期间在两个终端的传输路径内的计算机设备25之类的交换机设备可具有听力和语音数据库,并基于特定用户的听力简档来修改要被传输给该用户的音频数据,以接收音频数据的输出和将该音频数据传输给接收方的说话者的语音简档。
在通信设备的一些实施例中,不止一个用户可利用该设备。不同的用户可创建不同的听力简档和不同的语音简档。例如,每个使用可利用通信设备来使听力简档和语音简档被创建、保存和传输,如上文所论述的。可将形成的用户简档保存在相同设备的存储器中并与用户标识链接以区别不同的用户。每个用户然后可以许多方式中的任何一个来识别其自己。例如,每个用户可输入将该用户识别为当前正在使用该设备的用户的唯一登录标识或代码。登录标识可包括输入个人标识号或以预定义的触摸序列按压通信设备的触摸屏显示器的某些部分,以输入用户的参考号或标识码。在检测到此类输入的用户标识时,通信设备然后可利用针对所识别用户的语音和听力数据库内的简档。作为另一选项,用户可通过经由输入设备来进行输入以选择用户特定简档来选择用户的特定简档。在一些实施例中,通信设备可默认地使用户的听力和语音简档与经由输入的标识识别的用户相关联。用户然后可提供输入以撤销此类设置或改变该设置。
虽然以上已示出并描述了通信设备、通信系统以及其制造和使用方法的某些目前优选实施例,但应清楚地理解的是,本发明不限于此,而是可在随附权利要求的范围内另外不同地实施和实践。
Claims (11)
1.一种传输语音数据的方法,包括:
通信设备提示用户说话以获得用户的语音样本以识别用户语音的时域、频域、发声属音和音域中的至少一个;
所述通信设备基于用户的语音样本来确定对于用户语音的语音度量;
所述通信设备存储用户语音的语音度量;
所述通信设备从用户接收语音数据;
所述通信设备基于用户语音的语音度量、时域、频域、发声属音和音域中的所述至少一个来修改接收到的语音数据;
所述通信设备将经修改的语音数据传输给另一设备,使得所述经修改的语音数据能输出到至少一个接收者,
所述通信设备生成用于向用户发出的音调,因此用户听到所述音调;
所述通信设备接收识别音调对于用户而言可听见时的音量设置的输入;
所述通信设备基于接收到的识别音调对于用户而言可听见时的音量设置的输入来确定用户的听力简档;
所述通信设备将用户的听力简档传输给另一通信设备; 以及
所述另一通信设备在将音频数据传输给所述通信设备之前基于用户的听力简档来修改该音频数据。
2.根据权利要求1所述的方法,还包括:
所述通信设备基于用户的听力简档来调整由所述通信设备接收到的音频数据的音量而以更大声的音量输出音频数据。
3.根据权利要求1所述的方法,其中,用户语音的语音度量包括基于用户的语音的时域、语音的频域、语音的发声属音和语音的音域的参数;以及
其中,所述另一通信设备在将音频数据传输给所述通信设备之前基于用户的听力简档来修改该音频数据包括:使音频频谱内的经由用户的听力简档被识别为对于用户而言不可听见的音频数据部分省略以使得传输的音频数据不包含该音频数据部分。
4.根据权利要求1、权利要求2或权利要求3所述的方法,其中,所述通信设备基于用户语音的语音度量、时域、频域、发声属音和音域中的所述至少一个来修改语音数据包括:所述通信设备去除接收到的语音数据中的在用户语音的频域之外的频率范围内的部分。
5.根据权利要求4所述的方法,其中,所述通信设备基于用户语音的语音度量、时域、频域、发声属音和音域中的所述至少一个来修改语音数据还包括:所述通信设备将用户的语音的基于用户语音的语音度量、时域、频域、发声属音和音域中的至少一个的参数应用于接收到的语音数据的噪声消除处理。
6.根据权利要求1、权利要求2、权利要求3或权利要求5所述的方法,其中,所述通信设备是服务器、工作站、桌面型计算机、平板计算机、移动蜂窝电话、因特网设备、膝上型计算机、智能电话、个人数字助理、移动计算机设备或通信终端中的一个,并且其中所述方法还包括:
所述通信设备确定接收到的语音数据来自用户。
7.一种被配置成利用权利要求1-5的方法的通信系统。
8.一种传输语音数据的系统,所述系统包括:
用于通信设备提示用户说话以获得用户的语音样本以识别用户语音的时域、频域、发声属音和音域中的至少一个的装置;
用于所述通信设备基于用户的语音样本来确定对于用户语音的语音度量的装置;
用于所述通信设备存储用户语音的语音度量并使那些保存的语音度量与用户相关联的装置;
用于所述通信设备从用户接收语音数据的装置;
用于所述通信设备基于用户语音的时域、频域、发声属音和音域中的至少一个来修改接收到的语音数据的装置;
用于所述通信设备将经修改的语音数据传输给另一设备的装置,
用于所述通信设备生成用于向用户发出的音调,因此用户听到所述音调的装置;
用于所述通信设备接收识别音调对于用户而言可听见时的音量设置的输入的装置;
用于所述通信设备基于接收到的识别音调对于用户而言可听见时的音量设置的输入来确定用户的听力简档的装置,
其中,所述通信设备是第一通信设备并且所述系统还包括:
用于所述通信设备将用户的听力简档传输给第二通信设备的装置;以及
用于第二通信设备在将音频数据传输给第一通信设备之前基于用户的听力简档来修改该音频数据,使得被传输给第一通信设备的经修改的音频数据省略在第一音频频谱内的音频数据的任何部分的装置,第一音频频谱是被用户的听力简档识别为对用户不可听见的音频的音频频谱。
9.根据权利要求8所述的系统,其中所述系统还包括:
用于所述通信设备基于用户的听力简档来调整由所述通信设备接收到的音频数据的音量而以更大声的音量输出音频数据的装置。
10.根据权利要求8所述的系统,其中,用于所述通信设备基于用户语音的时域、频域、发声属音和音域中的所述至少一个来修改语音数据的装置包括用于所述通信设备去除接收到的语音数据中的在用户语音的频域之外的频率范围内的部分的装置。
11.根据权利要求10所述的系统,其中,用于所述通信设备基于用户语音的时域、频域、发声属音和音域中的所述至少一个来修改语音数据的装置还包括用于所述通信设备将用户的语音的基于用户语音的时域、频域、发声属音和音域中的至少一个的参数应用于接收到的语音数据的噪声消除处理的装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/065995 WO2014081408A1 (en) | 2012-11-20 | 2012-11-20 | Method, device, and system for audio data processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104160443A CN104160443A (zh) | 2014-11-19 |
CN104160443B true CN104160443B (zh) | 2016-11-16 |
Family
ID=47326378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280071289.5A Expired - Fee Related CN104160443B (zh) | 2012-11-20 | 2012-11-20 | 用于音频数据处理的方法、设备和系统 |
Country Status (6)
Country | Link |
---|---|
US (4) | US20140379343A1 (zh) |
EP (1) | EP2786376A1 (zh) |
KR (1) | KR101626438B1 (zh) |
CN (1) | CN104160443B (zh) |
TW (1) | TWI527024B (zh) |
WO (1) | WO2014081408A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10607625B2 (en) * | 2013-01-15 | 2020-03-31 | Sony Corporation | Estimating a voice signal heard by a user |
US9344815B2 (en) | 2013-02-11 | 2016-05-17 | Symphonic Audio Technologies Corp. | Method for augmenting hearing |
US9344793B2 (en) * | 2013-02-11 | 2016-05-17 | Symphonic Audio Technologies Corp. | Audio apparatus and methods |
US9319019B2 (en) | 2013-02-11 | 2016-04-19 | Symphonic Audio Technologies Corp. | Method for augmenting a listening experience |
TWI624183B (zh) * | 2013-07-05 | 2018-05-11 | 元鼎音訊股份有限公司 | 電話語音處理之方法及其電腦程式 |
US10051120B2 (en) * | 2013-12-20 | 2018-08-14 | Ultratec, Inc. | Communication device and methods for use by hearing impaired |
US10324593B2 (en) * | 2014-01-28 | 2019-06-18 | International Business Machines Corporation | Impairment-adaptive electronic data interaction system |
US20160239253A1 (en) * | 2014-01-31 | 2016-08-18 | Matteo Staffaroni | Method for audio correction in electronic devices |
JP6454514B2 (ja) * | 2014-10-30 | 2019-01-16 | 株式会社ディーアンドエムホールディングス | オーディオ装置およびコンピュータで読み取り可能なプログラム |
US10121488B1 (en) | 2015-02-23 | 2018-11-06 | Sprint Communications Company L.P. | Optimizing call quality using vocal frequency fingerprints to filter voice calls |
CN104954555B (zh) | 2015-05-18 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 一种音量调节方法及系统 |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
JP6374854B2 (ja) * | 2015-11-10 | 2018-08-15 | 株式会社オプティム | 画面共有システム及び画面共有方法 |
CN105788612B (zh) * | 2016-03-31 | 2019-11-05 | 广州酷狗计算机科技有限公司 | 一种检测音质的方法和装置 |
CN108231089B (zh) * | 2016-12-09 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
US9973627B1 (en) | 2017-01-25 | 2018-05-15 | Sorenson Ip Holdings, Llc | Selecting audio profiles |
US20180271710A1 (en) * | 2017-03-22 | 2018-09-27 | Bragi GmbH | Wireless earpiece for tinnitus therapy |
CN108877822A (zh) * | 2017-05-09 | 2018-11-23 | 塞舌尔商元鼎音讯股份有限公司 | 智能语音系统、语音输出调整的方法及计算机可读取记忆媒体 |
US10521512B2 (en) * | 2017-05-26 | 2019-12-31 | Bose Corporation | Dynamic text-to-speech response from a smart speaker |
US10564928B2 (en) | 2017-06-02 | 2020-02-18 | Rovi Guides, Inc. | Systems and methods for generating a volume- based response for multiple voice-operated user devices |
CN107945815B (zh) * | 2017-11-27 | 2021-09-07 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
CN108986830B (zh) * | 2018-08-28 | 2021-02-09 | 安徽淘云科技有限公司 | 一种音频语料筛选方法及装置 |
US11393478B2 (en) * | 2018-12-12 | 2022-07-19 | Sonos, Inc. | User specific context switching |
TW202027062A (zh) * | 2018-12-28 | 2020-07-16 | 塞席爾商元鼎音訊股份有限公司 | 聲音播放系統及其調整輸出聲音之方法 |
US10971168B2 (en) * | 2019-02-21 | 2021-04-06 | International Business Machines Corporation | Dynamic communication session filtering |
TWI863996B (zh) | 2019-05-24 | 2024-12-01 | 瑞典商埃迪爾都公司 | 用於無損資料壓縮和解壓縮的方法、裝置、和電腦程式產品 |
US11818426B2 (en) * | 2019-11-14 | 2023-11-14 | Dish Network L.L.C. | Method and system for adaptive audio modification |
US11257480B2 (en) * | 2020-03-03 | 2022-02-22 | Tencent America LLC | Unsupervised singing voice conversion with pitch adversarial network |
KR20220081090A (ko) * | 2020-12-08 | 2022-06-15 | 라인 가부시키가이샤 | 감정 기반 멀티미디어 컨텐츠 생성 방법 및 시스템 |
DE102021103310B4 (de) | 2021-02-12 | 2024-01-04 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum |
TWI801085B (zh) * | 2022-01-07 | 2023-05-01 | 矽響先創科技股份有限公司 | 智能網路通訊之雜訊消減方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1270735A (zh) * | 1997-07-10 | 2000-10-18 | 艾利森公司 | 控制电话振铃信号的方法和装置 |
CN1604604A (zh) * | 2004-11-15 | 2005-04-06 | 北京中星微电子有限公司 | 一种手机音量自动调节的方法及装置 |
CN1855704A (zh) * | 2005-04-26 | 2006-11-01 | 佛山市顺德区顺达电脑厂有限公司 | 自动调整电子装置音量的方法 |
DE102006015497A1 (de) * | 2006-04-03 | 2007-10-11 | Nebel, Wolfgang, Dr. | Audiosystem und Verfahren sowie Computerprogramm und Datenträger der das Computerprogramm enthält zur Anpassung der Übertragungsfunktion eines Audiosystems mittels Sprachsteuerung |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH633903A5 (de) * | 1978-09-26 | 1982-12-31 | Feller Ag | Sprachschalter fuer ein an eine telefonleitung anzuschliessendes geraet. |
US4538295A (en) * | 1982-08-16 | 1985-08-27 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
US5706352A (en) | 1993-04-07 | 1998-01-06 | K/S Himpp | Adaptive gain and filtering circuit for a sound reproduction system |
US7016507B1 (en) | 1997-04-16 | 2006-03-21 | Ami Semiconductor Inc. | Method and apparatus for noise reduction particularly in hearing aids |
AU1024600A (en) * | 1998-11-09 | 2000-05-29 | Hans Kunov | System and method for processing low signal-to-noise ratio signals |
US6463128B1 (en) * | 1999-09-29 | 2002-10-08 | Denso Corporation | Adjustable coding detection in a portable telephone |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
DE19956747C1 (de) * | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
GB0116071D0 (en) * | 2001-06-30 | 2001-08-22 | Hewlett Packard Co | Improvements in audio reproduction |
US6944474B2 (en) * | 2001-09-20 | 2005-09-13 | Sound Id | Sound enhancement for mobile phones and other products producing personalized audio for users |
WO2003032681A1 (en) * | 2001-10-05 | 2003-04-17 | Oticon A/S | Method of programming a communication device and a programmable communication device |
US20050119894A1 (en) * | 2003-10-20 | 2005-06-02 | Cutler Ann R. | System and process for feedback speech instruction |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US20060282264A1 (en) * | 2005-06-09 | 2006-12-14 | Bellsouth Intellectual Property Corporation | Methods and systems for providing noise filtering using speech recognition |
CA2611118A1 (en) * | 2005-06-10 | 2006-12-14 | Neuromonics Pty Limited | Digital playback device and method and apparatus for spectrally modifying a digital audio signal |
US7720681B2 (en) * | 2006-03-23 | 2010-05-18 | Microsoft Corporation | Digital voice profiles |
US7616936B2 (en) * | 2006-12-14 | 2009-11-10 | Cisco Technology, Inc. | Push-to-talk system with enhanced noise reduction |
US8010366B1 (en) * | 2007-03-20 | 2011-08-30 | Neurotone, Inc. | Personal hearing suite |
US8270593B2 (en) * | 2007-10-01 | 2012-09-18 | Cisco Technology, Inc. | Call routing using voice signature and hearing characteristics |
US8259954B2 (en) * | 2007-10-11 | 2012-09-04 | Cisco Technology, Inc. | Enhancing comprehension of phone conversation while in a noisy environment |
US8027743B1 (en) | 2007-10-23 | 2011-09-27 | Adobe Systems Incorporated | Adaptive noise reduction |
DK2081405T3 (da) * | 2008-01-21 | 2012-08-20 | Bernafon Ag | Høreapparat tilpasset til en bestemt stemmetype i et akustisk miljø samt fremgangsmåde og anvendelse |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
WO2009143898A1 (en) | 2008-05-30 | 2009-12-03 | Phonak Ag | Method for adapting sound in a hearing aid device by frequency modification and such a device |
US20110178799A1 (en) * | 2008-07-25 | 2011-07-21 | The Board Of Trustees Of The University Of Illinois | Methods and systems for identifying speech sounds using multi-dimensional analysis |
US8244535B2 (en) * | 2008-10-15 | 2012-08-14 | Verizon Patent And Licensing Inc. | Audio frequency remapping |
DE102008052176B4 (de) | 2008-10-17 | 2013-11-14 | Siemens Medical Instruments Pte. Ltd. | Verfahren und Hörgerät zur Parameteradaption durch Ermittlung einer Sprachverständlichkeitsschwelle |
US8582790B2 (en) | 2010-02-12 | 2013-11-12 | Audiotoniq, Inc. | Hearing aid and computing device for providing audio labels |
US8369549B2 (en) * | 2010-03-23 | 2013-02-05 | Audiotoniq, Inc. | Hearing aid system adapted to selectively amplify audio signals |
EP2375781B1 (en) | 2010-04-07 | 2013-03-13 | Oticon A/S | Method for controlling a binaural hearing aid system and binaural hearing aid system |
US8386252B2 (en) * | 2010-05-17 | 2013-02-26 | Avaya Inc. | Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech |
US8639516B2 (en) * | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8781836B2 (en) * | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US8918197B2 (en) * | 2012-06-13 | 2014-12-23 | Avraham Suhami | Audio communication networks |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
WO2014062859A1 (en) * | 2012-10-16 | 2014-04-24 | Audiologicall, Ltd. | Audio signal manipulation for speech enhancement before sound reproduction |
CN104937954B (zh) * | 2013-01-09 | 2019-06-28 | 听优企业 | 用于自管理声音增强的方法和系统 |
-
2012
- 2012-11-20 EP EP12798982.0A patent/EP2786376A1/en not_active Ceased
- 2012-11-20 US US14/372,233 patent/US20140379343A1/en not_active Abandoned
- 2012-11-20 WO PCT/US2012/065995 patent/WO2014081408A1/en active Application Filing
- 2012-11-20 CN CN201280071289.5A patent/CN104160443B/zh not_active Expired - Fee Related
- 2012-11-20 KR KR1020147023147A patent/KR101626438B1/ko not_active Expired - Fee Related
-
2013
- 2013-11-18 TW TW102141819A patent/TWI527024B/zh not_active IP Right Cessation
-
2017
- 2017-08-01 US US15/665,537 patent/US10325612B2/en active Active
-
2019
- 2019-05-01 US US16/400,237 patent/US10803880B2/en not_active Expired - Fee Related
-
2020
- 2020-09-11 US US17/018,647 patent/US20200411025A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1270735A (zh) * | 1997-07-10 | 2000-10-18 | 艾利森公司 | 控制电话振铃信号的方法和装置 |
CN1604604A (zh) * | 2004-11-15 | 2005-04-06 | 北京中星微电子有限公司 | 一种手机音量自动调节的方法及装置 |
CN1855704A (zh) * | 2005-04-26 | 2006-11-01 | 佛山市顺德区顺达电脑厂有限公司 | 自动调整电子装置音量的方法 |
DE102006015497A1 (de) * | 2006-04-03 | 2007-10-11 | Nebel, Wolfgang, Dr. | Audiosystem und Verfahren sowie Computerprogramm und Datenträger der das Computerprogramm enthält zur Anpassung der Übertragungsfunktion eines Audiosystems mittels Sprachsteuerung |
Also Published As
Publication number | Publication date |
---|---|
US20170330578A1 (en) | 2017-11-16 |
TWI527024B (zh) | 2016-03-21 |
KR20140121447A (ko) | 2014-10-15 |
TW201430834A (zh) | 2014-08-01 |
KR101626438B1 (ko) | 2016-06-01 |
EP2786376A1 (en) | 2014-10-08 |
CN104160443A (zh) | 2014-11-19 |
US20200411025A1 (en) | 2020-12-31 |
US10325612B2 (en) | 2019-06-18 |
US20190259406A1 (en) | 2019-08-22 |
US10803880B2 (en) | 2020-10-13 |
US20140379343A1 (en) | 2014-12-25 |
WO2014081408A1 (en) | 2014-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104160443B (zh) | 用于音频数据处理的方法、设备和系统 | |
US10553235B2 (en) | Transparent near-end user control over far-end speech enhancement processing | |
US8918197B2 (en) | Audio communication networks | |
US8972251B2 (en) | Generating a masking signal on an electronic device | |
US20190066710A1 (en) | Transparent near-end user control over far-end speech enhancement processing | |
JP6374529B2 (ja) | ヘッドセットと音源との間のオーディオの協調的処理 | |
CN107995360B (zh) | 通话处理方法及相关产品 | |
JP2019530546A (ja) | 音響信号の聴取試験および変調 | |
WO2013182118A1 (zh) | 一种语音数据的传输方法及装置 | |
US20160239253A1 (en) | Method for audio correction in electronic devices | |
CN107277207A (zh) | 自适应通话方法、装置、移动终端及存储介质 | |
WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
TWI624183B (zh) | 電話語音處理之方法及其電腦程式 | |
US20150201057A1 (en) | Method of processing telephone voice output and earphone | |
US20130039501A1 (en) | System, Method, and Computer Program Product for Voice Decibel Monitoring on Electronic Computing Devices | |
CN107819964A (zh) | 提高通话质量的方法、装置、终端和计算机可读存储介质 | |
JP2015002386A (ja) | 通話装置、音声変更方法、及び音声変更プログラム | |
US20230290356A1 (en) | Hearing aid for cognitive help using speaker recognition | |
CN119854687A (zh) | 通话下行链路算法中用于音频限幅的系统及方法 | |
JP2025509456A (ja) | 話者認識を用いた認知的支援のための補聴器 | |
TWI566233B (zh) | 可增加通訊內容清晰度之行動通訊方法 | |
CN112399004A (zh) | 声音输出的调整方法及执行该调整方法的电子装置 | |
JP2014060601A (ja) | 電話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161116 |