[go: up one dir, main page]

ES2960555T3 - Eliminación de ruido de voz - Google Patents

Eliminación de ruido de voz Download PDF

Info

Publication number
ES2960555T3
ES2960555T3 ES18894296T ES18894296T ES2960555T3 ES 2960555 T3 ES2960555 T3 ES 2960555T3 ES 18894296 T ES18894296 T ES 18894296T ES 18894296 T ES18894296 T ES 18894296T ES 2960555 T3 ES2960555 T3 ES 2960555T3
Authority
ES
Spain
Prior art keywords
voice
acoustic microphone
speech
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18894296T
Other languages
English (en)
Inventor
Haikun Wang
Feng Ma
Zhiguo Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Application granted granted Critical
Publication of ES2960555T3 publication Critical patent/ES2960555T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

Se proporcionan un método y aparato de eliminación de ruido de voz, un servidor y un medio de almacenamiento. El método de eliminación de ruido de voz comprende: adquirir señales de voz recogidas sincrónicamente por un micrófono acústico y un micrófono no acústico (S100); llevar a cabo una detección de actividad de voz según la señal de voz recogida por el micrófono no acústico para obtener un resultado de detección de actividad de voz (S110); y según el resultado de la detección de actividad de voz, eliminar el ruido de la señal de voz recogida por el micrófono acústico para obtener una señal de voz sin ruido (S120). Se puede mejorar el efecto de eliminación de ruido y la calidad de las señales de voz. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Eliminación de ruido de voz
Campo técnico
La solicitud reivindica la prioridad de la solicitud de patente china n.° 201711458315.0, titulada "MÉTODO Y APARATO PARA LA REDUCCIÓN DE RUIDO DE VOZ, SERVIDOR, Y MEDIO DE ALMACENAMIENTO", presentada el 28 de diciembre de 2017 ante la Administración Nacional de Propiedad Intelectual de China.
Antecedentes
La tecnología de voz se ha aplicado ampliamente en diversas áreas de la vida diaria y el trabajo con su rápido desarrollo, lo que proporciona una gran comodidad para las personas.
Al aplicar la tecnología de voz, la calidad de las señales de voz generalmente disminuye debido a la interferencia de un factor tal como el ruido. La degradación de la calidad de las señales de voz afectaría a las aplicaciones (por ejemplo, reconocimiento de voz y transmisión de voz) de las señales de voz directamente. Por lo tanto, es un problema urgente cómo mejorar la calidad de las señales de voz. El documento JPH 04245720 A divulga un método de reducción de ruido en el que se utilizan un micrófono de conducción ósea y un micrófono normal para suprimir el ruido en un componente sonoro de un sonido. El documento US 20150245129 A1 divulga un método para mejorar la calidad de la voz en el que sensores inerciales y micrófonos de dos auriculares se coordinan para recopilar señales inerciales de niveles de ruido/viento para suprimir el ruido. El documento WO 03096031 A2 divulga un subsistema de eliminación de ruido que selecciona automáticamente un método de eliminación de ruido apropiado para datos de al menos una subbanda de frecuencia de las señales acústicas recibidas. El documento US 20140029762 A1 divulga una plataforma que utiliza un transductor para capturar la vibración de la habilidad o el movimiento facial de un usuario para detectar la actividad de habla de un usuario. El documento US 20130246062 A1 divulga un método para rastrear frecuencias fundamentales de señales pseudoperiódicas en presencia de ruido, en el que se rastrean las frecuencias armoniosas para distinguir la frecuencia fundamental.
Sumario
Para resolver los problemas técnicos mencionados, se proporciona un método para reducción de ruido de voz y un aparato para reducción de ruido de voz de acuerdo con las realizaciones de la presente divulgación, para mejorar la calidad de las señales de voz. Las soluciones técnicas son las siguientes.
Se proporciona un método para reducción de ruido de voz, que incluye:
obtener una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente, en donde el micrófono no acústico está configurado para recoger señales de voz de forma independiente del ruido ambiental;
detectar la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz;
eliminar el ruido de la señal de voz recogida por el micrófono acústico en función del resultado de la detección de la actividad de voz, para obtener una señal vocal sin ruido;
introducir la señal de voz sin ruido en un modelo de predicción de sonido sin voz entrenado para obtener una señal sin voz emitida desde el modelo de predicción de sonido sin voz; y
combinar la señal sin voz y la señal vocal sin ruido para obtener una señal de voz combinada.
Un aparato para reducir ruido de voz, incluye:
un módulo de obtención de señales de voz, configurado para obtener una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente, en donde el micrófono no acústico está configurado para recoger señales de voz de forma independiente del ruido ambiental;
un módulo de detección de actividad de voz, configurado para detectar la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz; un módulo de eliminación de ruido de voz, configurado para eliminar el ruido de la señal de voz recogida por el micrófono acústico en función del resultado de la detección de actividad de voz, para obtener una señal vocal sin ruido;
un módulo de predicción de señales sin voz, configurado para introducir la señal de voz sin ruido en un modelo de predicción de sonido sin voz entrenado para obtener una señal sin voz emitida desde el modelo de predicción de sonido sin voz; y
un módulo de combinación de señales de voz, configurado para combinar la señal sin voz y la señal vocal sin ruido para obtener una señal de voz combinada.
Se puede proporcionar un servidor, incluyendo al menos una memoria y al menos un procesador, donde la al menos una memoria almacena un programa, el al menos un procesador invoca el programa almacenado en la memoria, y el programa está configurado para realizar:
obtener una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente;
detectar la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz; y
eliminar el ruido de la señal de voz recogida por el micrófono acústico en función del resultado de la detección de la actividad de voz, para obtener una señal de voz sin ruido.
Se puede proporcionar un medio de almacenamiento, que almacena un programa informático, donde el programa informático, cuando es ejecutado por un procesador, realiza cada etapa del método antes mencionado para reducción de ruido de voz.
En comparación con la tecnología convencional, los efectos beneficiosos de la presente divulgación son los siguientes.
En realizaciones de la presente divulgación, se obtienen las señales de voz recogidas simultáneamente por el micrófono acústico y el micrófono no acústico. El micrófono no acústico es capaz de captar una señal de voz de manera independiente del ruido ambiental (por ejemplo, detectando la vibración de la piel humana o la vibración de los huesos de la garganta humana). De esta manera, la detección de la actividad de voz basada en la señal de voz recogida por el micrófono no acústico puede reducir la influencia del ruido ambiental y mejorar la precisión de la detección, en comparación con la basada en la señal de voz recogida por el micrófono acústico. La señal de voz captada por el micrófono acústico se elimina en función del resultado de la detección de la actividad de voz, y dicho resultado se obtiene a partir de la señal de voz recogida por el micrófono no acústico. Se mejora un efecto de reducción de ruido, se mejora la calidad de la señal de voz sin ruido, y se puede proporcionar una señal de voz de alta calidad para la aplicación posterior de la señal de voz.
Breve descripción de los dibujos
Para una ilustración más clara de las soluciones técnicas de acuerdo con las realizaciones de la presente divulgación o técnicas convencionales, a continuación se describen brevemente los dibujos que se aplicarán en realizaciones de la presente divulgación o técnicas convencionales. Aparentemente, los dibujos en las siguientes descripciones son solo algunas realizaciones de la presente divulgación, y los expertos en la materia pueden obtener otros dibujos basados en los dibujos proporcionados sin esfuerzos creativos.
La figura 1 es un diagrama de flujo de un método de reducción de ruido de voz de acuerdo con una realización de la presente divulgación;
La figura 2 es un diagrama esquemático de la distribución de la información de frecuencia fundamental de una señal de voz recogida por un micrófono no acústico;
La figura 3 es un diagrama de flujo de un método para reducción de ruido de de acuerdo con otra realización de la presente divulgación;
La figura 4 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 5 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 6 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 7 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 8 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 9 es un diagrama de flujo de un método para reducción de ruido de voz de acuerdo con otra realización de la presente divulgación;
La figura 10 es un diagrama de flujo de un método de reducción de ruido de voz de acuerdo con la invención; La figura 11 es un diagrama esquemático de una estructura lógica de un aparato para reducción de ruido de voz de acuerdo con una realización de la presente divulgación; y
La figura 12 es un diagrama de bloques de una estructura de hardware de un servidor.
Descripción detallada de las realizaciones
A continuación, las soluciones técnicas en las realizaciones de la presente divulgación se describen clara y completamente junto con los dibujos en realizaciones de la presente divulgación. Aparentemente, las realizaciones descritas son solamente algunas, más que la totalidad de las realizaciones de la presente divulgación. Cualesquiera otras realizaciones obtenidas en base a las realizaciones de la presente divulgación por parte de los expertos en la técnica sin ningún esfuerzo creativo se encuentran dentro del alcance de protección de la presente divulgación.
A continuación, se describe brevemente un concepto de un método para reducción de ruido de voz de acuerdo con las realizaciones de la presente divulgación, antes de introducir el método para reducción de ruido de voz.
En la tecnología convencional, la calidad de una señal de voz puede mejorarse mediante técnicas de reducción de ruido de voz, para mejorar una voz y mejorar el reconocimiento de la voz. Las técnicas convencionales de reducción de ruido de voz pueden incluir un método para reducción de ruido de voz basado en un solo micrófono y un método para reducción de ruido de voz basado en un conjunto de micrófonos.
En el método para reducción de ruido de voz basado en un solo micrófono, las características estadísticas del ruido y de una señal de voz están bien consideradas, y se logra un buen efecto en la supresión del ruido estacionario. No obstante, el ruido no estacionario con una característica estadística inestable no se puede predecir y hay un cierto grado de distorsión de voz. Por lo tanto, el método basado en el micrófono único tiene una capacidad limitada en la reducción de ruido de voz.
En el método para reducción de ruido de voz basado en el conjunto de micrófonos, la información temporal y la información espacial de una señal de voz se fusionan. Dicho método puede lograr un mejor equilibrio entre un grado de supresión de ruido y control de la distorsión de voz, y lograr cierto efecto en la supresión de ruido no estacionario, en comparación con el método basado en el micrófono único que simplemente aplica información temporal de una señal. No obstante, es imposible aplicar una cantidad ilimitada de micrófonos en algunos escenarios de aplicación debido al coste y al tamaño de los dispositivos. Por lo tanto, un efecto no es satisfactorio incluso si la reducción de ruido de voz se basa en el conjunto de micrófonos.
En vista de los problemas anteriores en los métodos de reducción de ruido de voz basados en el micrófono único y el conjunto de micrófonos, un dispositivo de recogida de señales independiente del ruido ambiental (en lo sucesivo denominado micrófono no acústico, tal como un micrófono de conducción ósea o un micrófono óptico), en lugar de un micrófono acústico (tal como un solo micrófono o un conjunto de micrófonos), se adopta para recoger una señal de voz de una manera independiente del ruido ambiental (por ejemplo, el micrófono de conducción ósea se presiona contra un hueso facial o un hueso de la garganta detecta la vibración del hueso y convierte la vibración en una señal de voz; o, el micrófono óptico, también llamado micrófono láser, emite un láser sobre la piel de la garganta o la piel del rostro a través de un emisor láser, recibe una señal reflejada causada por la vibración de la piel a través de un receptor, analiza una diferencia entre el láser emitido y el láser reflejado, y convierte la diferencia en una señal de voz). Se reduce en gran medida una interferencia de ruido en la comunicación de voz o el reconocimiento de voz.
El micrófono no acústico también tiene limitaciones. Dado que la frecuencia de vibración del hueso o la piel no puede ser lo suficientemente alta, un límite superior en la frecuencia de una señal captada por el micrófono no acústico es bajo, generalmente dentro de 2000 Hz. Una cuerda vocal vibra solo en un sonido vocal y no vibra en un sonido sin voz. De esta manera, el micrófono no acústico solo es capaz de recoger una señal del sonido sonoro. Una señal de voz recogida por el micrófono no acústico está incompleta, aunque tiene buena inmunidad al ruido, y el micrófono no acústico por sí solo no puede cumplir un requisito de comunicación de voz y reconocimiento de voz en la mayoría de los escenarios. En vista de lo anterior, a continuación se proporciona un método para reducción de ruido de voz. Se obtienen señales de voz que son captadas simultáneamente por un micrófono acústico y un micrófono no acústico simultáneamente. La actividad de voz se detecta en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz. La señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, para obtener una señal de voz sin ruido. De esta manera, se logra la reducción de ruido de voz.
A continuación, se presenta un método para reducción de ruido de voz de acuerdo con una realización de la presente divulgación. Haciendo referencia a la figura 1, el método incluye las etapas S100 a S120.
En la etapa S100, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización, el micrófono acústico puede incluir un solo micrófono acústico o un conjunto de micrófonos acústicos.
El micrófono acústico se puede colocar en cualquier posición donde se pueda recoger una señal de voz, para recoger la señal de voz. Es necesario colocar el micrófono no acústico en una región donde se pueda recoger una señal de voz (por ejemplo, es necesario presionar un micrófono de conducción ósea contra un hueso de la garganta o un hueso facial, y es necesario colocar un micrófono óptico en una posición en la que un láser pueda alcanzar una región de vibración de la piel (como un lado de la cara o la garganta) de un hablante), para recoger la señal de voz.
Dado que el micrófono acústico y el micrófono no acústico recogen señales de voz simultáneamente, se puede mejorar la coherencia entre las señales de voz recogidas por el micrófono acústico y el micrófono no acústico, que facilita el procesamiento de la señal de voz.
En la etapa S110, la actividad de voz se detecta en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz.
Generalmente, es necesario detectar si hay una voz durante un proceso de reducción de ruido de voz. La precisión es baja cuando la existencia de voz se detecta simplemente en función de la señal de voz recogida por el micrófono acústico en un entorno con una baja relación señal-ruido. Para mejorar tal precisión, la actividad de voz se detecta en base a la señal de voz recogida por el micrófono no acústico en esta realización. De esta manera, se detecta si hay una voz, se reduce una influencia del ruido ambiental en la detección y se mejora la precisión de la detección.
Se puede mejorar un efecto final de la reducción de ruido de voz, ya que se mejora la precisión de detectar si hay una voz.
En la etapa S120, la señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, para obtener una señal de voz sin ruido.
La señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de la actividad de voz. Puede reducirse un componente de ruido en la señal de voz recogida por el micrófono acústico y, por lo tanto, un componente de voz después de eliminar el ruido es más prominente en la señal de voz recogida por el micrófono acústico.
En realizaciones de la presente divulgación, se obtienen las señales de voz recogidas simultáneamente por el micrófono acústico y el micrófono no acústico. El micrófono no acústico es capaz de captar una señal de voz de manera independiente del ruido ambiental (por ejemplo, detectando la vibración de la piel humana o la vibración de los huesos de la garganta humana). De esta manera, la detección de la actividad de voz basada en la señal de voz recogida por el micrófono no acústico puede reducir la influencia del ruido ambiental y mejorar la precisión de la detección, en comparación con la basada en la señal de voz recogida por el micrófono acústico. La señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, que se obtiene de la señal de voz recogida por el micrófono no acústico. Se mejora un efecto de reducción de ruido, se mejora la calidad de la señal de voz sin ruido, y se puede proporcionar una señal de voz de alta calidad para la aplicación posterior de la señal de voz.
De acuerdo con otra realización de la presente divulgación, la etapa S110 de detectar la actividad de voz basándose en la señal de voz recogida por el micrófono no acústico para obtener un resultado de detección de la actividad de voz puede incluir las siguientes etapas A1 y A2.
En la etapa A1, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
La información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico determinada en este paso puede referirse a una frecuencia de un tono fundamental de la señal de voz, es decir, una frecuencia de cierre de la glotis cuando el humano habla.
Generalmente, una frecuencia fundamental de una voz masculina oscila entre 50 Hz y 250 Hz, y una frecuencia fundamental de una voz femenina oscila entre 120 Hz y 500 Hz. Un micrófono no acústico es capaz de recoger una señal de voz con una frecuencia inferior a 2000 Hz. De esta manera, la información de frecuencia fundamental completa puede determinarse a partir de la señal de voz recogida por el micrófono no acústico.
Se toma como ejemplo una señal de voz captada por un micrófono óptico, para ilustrar la distribución de información de frecuencia fundamental determinada en la señal de voz recogida por el micrófono no acústico, con referencia a la figura 2. Como se muestra en la figura 2, la información de frecuencia fundamental es una parte con una frecuencia entre 50 Hz a 500 Hz.
En la etapa A2, la actividad de voz se detecta en función de la información de frecuencia fundamental, para obtener el resultado de la detección de actividad de voz.
La información de frecuencia fundamental es información de audio que es evidente en la señal de voz recogida por el micrófono no acústico. Por lo tanto, la actividad de voz puede detectarse en base a la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico en esta realización. Se puede detectar si existe la voz, se reduce la influencia del ruido ambiental en la detección y se mejora la precisión de la detección.
La detección de actividad de voz puede implementarse de diversas maneras. Las implementaciones específicas pueden incluir, pero no se limitan a: detección de actividad de voz de un nivel de trama, detección de actividad de voz de un nivel de frecuencia, o detección de actividad de voz de una combinación de un nivel de trama y un nivel de frecuencia.
Además, la etapa S120 puede implementarse de diferentes maneras que corresponden a aquellas para implementar la detección de actividad de voz.
De aquí en adelante, se introducen implementaciones para detectar la actividad de voz en base a la información de la frecuencia fundamental y las implementaciones de la etapa 120 correspondiente en base a las implementaciones de la detección de la actividad de voz.
En una realización, se introduce un método para reducción de ruido de voz correspondiente a la detección de la actividad de voz del nivel de trama. Haciendo referencia a la figura 3, el método puede incluir las etapas S200 a S230. En la etapa S200, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
La etapa S200 es la misma que la etapa S100 en la realización antes mencionada. Un proceso detallado de la etapa S200 puede hacer referencia a la descripción de la etapa S100 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En la etapa S210, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
La etapa S210 es la misma que la etapa A1 en la realización antes mencionada. Un proceso detallado de la etapa S210 puede hacer referencia a la descripción de la etapa A1 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En la etapa S220, la actividad de voz se detecta a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de la actividad de voz del nivel de trama.
La etapa S220 es una implementación de la etapa A2.
En una realización específica, la etapa S220 puede incluir las siguientes etapas B1 a B4.
En la etapa B1, se detecta si no hay información de frecuencia fundamental.
En caso de que haya información de frecuencia fundamental, el método pasa a la etapa B2. En caso de que no haya información de frecuencia fundamental, el método pasa a la etapa B3.
En la etapa B2, se determina que hay una señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, donde la trama de voz está en la señal de voz recogida por el micrófono acústico.
En la etapa B3, se detecta una intensidad de señal de la señal de voz recogida por el micrófono acústico.
En caso de que la intensidad de la señal detectada de la señal de voz recogida por el micrófono acústico sea pequeña, el método pasa a la etapa B4.
En la etapa B4, se determina que no hay señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, donde la trama de voz está en la señal de voz recogida por el micrófono acústico.
Además, se detecta la intensidad de la señal de voz recogida por el micrófono acústico, sobre una base de detectar que no hay información de frecuencia fundamental, para mejorar la precisión de determinar que no hay señal de voz en la trama de voz correspondiente a la información de frecuencia fundamental, en la señal de voz recogida por el micrófono acústico.
En esta realización, la información de frecuencia fundamental es la señal de voz recogida por el micrófono no acústico, y el micrófono no acústico es capaz de recoger una señal de voz de forma independiente del ruido ambiental. Se puede detectar si hay una señal de voz en la trama de voz correspondiente a la información de frecuencia fundamental. Se reduce una influencia del ruido ambiental en la detección y se mejora la precisión de la detección.
En la etapa S230, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal de voz sin ruido recogida por el micrófono acústico.
La etapa S230 es una implementación de la etapa A2.
Un proceso de eliminación de ruido de la señal de voz recogida por el micrófono acústico basado en el resultado de la detección de la actividad de voz del nivel de trama es diferente para un caso en el que el micrófono acústico incluye un solo micrófono acústico y un caso en el que el micrófono acústico incluye un conjunto de micrófonos acústicos.
Para el micrófono acústico único, se puede actualizar una estimación de un espectro de ruido basándose en el resultado de la detección de actividad de voz del nivel de trama. De esta manera, se puede estimar con precisión un tipo de ruido, y la señal de voz recogida por el micrófono acústico se puede eliminar en función de la estimación actualizada del espectro de ruido. Un proceso de eliminación de ruido de la señal de voz recogida por el micrófono acústico en base a la estimación actualizada del espectro de ruido puede referirse a un proceso de reducción de ruido basado en una estimación de un espectro de ruido en tecnología convencional, y no se describe de nuevo en el presente documento.
Para el conjunto de micrófonos acústicos, una matriz de bloqueo y un filtro adaptativo para eliminar el ruido pueden actualizarse en un sistema de reducción de ruido de voz del conjunto de micrófonos acústicos, basado en el resultado de la detección de la actividad de voz del nivel de trama. De esta manera, la señal de voz recogida por el micrófono acústico se puede eliminar de ruido basándose en la matriz de bloqueo actualizada y el filtro adaptativo actualizado para eliminar el ruido. Un proceso de eliminación de ruido de la señal de voz recogida por el micrófono acústico basado en la matriz de bloqueo actualizada y el filtro adaptativo actualizado para eliminar el ruido puede referirse a la tecnología convencional y no se describe de nuevo en este documento.
En esta realización, la actividad de voz se detecta a nivel de cuadro en función de la información de frecuencia fundamental en la señal de voz recogida por el micrófono no acústico, para detectar si hay voz. Puede reducirse la influencia del ruido ambiental en la detección, y puede mejorarse la precisión de detección de si hay voz. Sobre la base de la precisión mejorada, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de la actividad de voz del nivel de trama. Para la señal de voz recogida por el micrófono acústico, se puede reducir un componente de ruido, y un componente de voz después de la primera reducción de ruido es más prominente.
En otra realización, se introduce un método para reducción de ruido de voz correspondiente a la detección de la actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 4, el método puede incluir las etapas S300 a S340.
En la etapa S300, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
La etapa S300 es la misma que la etapa S100 en la realización antes mencionada. Un proceso detallado de la etapa S300 puede hacer referencia a la descripción de la etapa S100 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En la etapa S310, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
La etapa S310 es la misma que la etapa A1 en la realización antes mencionada. Un proceso detallado de la etapa S310 puede hacer referencia a la descripción de la etapa A1 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En la etapa S320, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
La señal de voz es una señal de banda ancha y está escasamente distribuida en un espectro de frecuencia. En concreto, algunos puntos de frecuencia de una trama de voz en la señal de voz son el componente de voz, y algunos puntos de frecuencia de la trama de voz en la señal de voz son el componente de ruido. Es necesario determinar primero los puntos de frecuencia de voz, para suprimir bien los puntos de frecuencia de ruido y retener los puntos de frecuencia de voz. La etapa S320 puede servir como una forma de determinar los puntos de frecuencia de voz.
Se puede apreciar que el punto de alta frecuencia de un discurso es el componente de voz, en lugar del componente de ruido.
En algunos entornos de aplicación (tal como un entorno con mucho ruido), una relación señal-ruido en algunos puntos de frecuencia tiene un valor negativo, y es difícil estimar con precisión solo a través de un micrófono acústico si un punto de frecuencia es el componente de voz o el componente de ruido. Por lo tanto, se estima el punto de frecuencia de voz (es decir, se determina la información de distribución de un punto de alta frecuencia de voz), en base a la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico de acuerdo con esta realización, para mejorar la precisión en la estimación de los puntos de frecuencia de voz.
En una realización específica, la etapa S320 puede incluir las siguientes etapas C1 y C2.
En la etapa C1, la información de frecuencia fundamental se multiplica, para obtener información de frecuencia fundamental multiplicada.
Multiplicar la información de frecuencia fundamental puede referirse a una etapa siguiente. La información de frecuencia fundamental se multiplica por un número mayor que 1. Por ejemplo, la información de frecuencia fundamental se multiplica por 2, 3, 4, ..., N, donde N es mayor que 1.
En la etapa C2, la información de frecuencia fundamental multiplicada se expande en base a un valor de expansión de frecuencia preestablecido, para obtener una sección de distribución del punto de alta frecuencia de voz, donde la sección de distribución sirve como información de distribución del punto de alta frecuencia de voz.
Generalmente, algo de ruido residual es tolerable, mientras que una pérdida en el componente de voz no es aceptable en la reducción de ruido de voz. Por lo tanto, la información de frecuencia fundamental multiplicada puede expandirse en función del valor de expansión de frecuencia preestablecido, para reducir una cantidad de puntos de alta frecuencia que se pierden en la determinación basada en la información de frecuencia fundamental, y retener el componente de voz tanto como sea posible.
En una realización preferible, el valor de expansión de frecuencia preestablecida puede ser 1 o 2.
En esta realización, la información de distribución del punto de alta frecuencia de voz se puede expresar como 2 *F± A,3 *F± A, ...,N*f± A.
frepresenta información de frecuencia fundamental. 2 * f, 3 *f,..., yN * frepresentan la información de frecuencia fundamental multiplicada. A representa el valor de expansión de frecuencia preestablecido.
En la etapa S330, la actividad de voz se detecta a un nivel de frecuencia en la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia.
Después de determinar la información de distribución del punto de alta frecuencia de voz en la etapa S320, la actividad de voz puede detectarse al nivel de frecuencia en la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia. El punto de alta frecuencia de la trama de voz se determina como componente de voz, y un punto de frecuencia distinto de los puntos de alta frecuencia de la trama de voz se determina como componente de ruido. Sobre tal base, la etapa S330 puede incluir una etapa siguiente.
Se determina, para la señal de voz recogida por el micrófono acústico, que hay una señal de voz en un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y que no haya señal de voz en un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia.
En la etapa S340, la señal de voz recogida por el micrófono acústico se elimina mediante una segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal de voz sin ruido recogida por el micrófono acústico.
En una realización específica, un proceso de reducción de ruido de la señal de voz recogida por un solo micrófono acústico o un conjunto de micrófonos acústicos basado en el resultado de la detección de la actividad de voz del nivel de frecuencia puede referirse a un proceso de reducción de ruido basado en el resultado de la detección de la actividad de voz del nivel de trama en la etapa S230 según la realización antes mencionada, que no se describe de nuevo en el presente documento.
En esta realización, la señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de la actividad de voz del nivel de frecuencia. Dicho proceso de reducción de ruido se denomina en este documento la segunda reducción de ruido, para distinguir tal proceso de la primera reducción de ruido en la realización antes mencionada.
En esta realización, la actividad de voz se detecta en el nivel de frecuencia en función de la información de distribución del punto de alta frecuencia, para detectar si hay voz. Puede reducirse la influencia del ruido ambiental en la detección, y puede mejorarse la precisión de detección de si hay voz. Sobre la base de la precisión mejorada, la señal de voz recogida por el micrófono acústico se elimina mediante la segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia. Para la señal de voz recogida por el micrófono acústico, se puede reducir un componente de ruido, y un componente de voz después de la segunda reducción de ruido es más prominente.
En otra realización, se introduce otro método para reducción de ruido de voz correspondiente a la detección de la actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 5, el método puede incluir las etapas S400 a S450.
En la etapa S400, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización específica, la señal de voz recogida por el micrófono no acústico es una señal de voz.
En la etapa S410, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
Puede entenderse que la etapa S410 determina la información de frecuencia fundamental de la señal vocal.
En la etapa S420, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
En la etapa S430, la actividad de voz se detecta a un nivel de frecuencia en la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia.
En la etapa S440, una trama de voz cuyo punto de tiempo es el mismo que el de cada trama de voz incluida en la señal de voz captada por el micrófono no acústico que se obtiene a partir de la señal de voz captada por el micrófono acústico, como una trama de voz a procesar.
En la etapa S450, el procesamiento de ganancia se realiza en cada punto de frecuencia de la trama de voz que se va a procesar, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una trama de voz ganada, donde una señal de voz ganada recogida por el micrófono acústico está formada por todas las tramas de voz ganadas.
Un proceso del procesamiento de ganancia puede incluir una etapa siguiente. Se aplica una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y se aplica una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, donde la primera ganancia es mayor que la segunda ganancia.
La primera ganancia es mayor que la segunda ganancia y el punto de alta frecuencia es el componente de voz. De esta manera, la primera ganancia se aplica al punto de frecuencia que es el punto de alta frecuencia, y la segunda ganancia se aplica al punto de frecuencia que no es el punto de alta frecuencia, para mejorar significativamente el componente de voz en comparación con el componente de ruido. Las tramas de voz obtenidas son tramas de voz mejoradas, y las tramas de voz mejoradas forman una señal de voz mejorada. De esta manera, se mejora la señal de voz recogida por el micrófono acústico.
Generalmente, el primer valor de ganancia puede ser 1 y el segundo valor de ganancia puede oscilar entre 0 y 0,5. En una realización específica, la segunda ganancia puede seleccionarse como cualquier valor superior a 0 e inferior a 0,5.
En una realización, en la etapa de realizar el procesamiento de ganancia en cada punto de frecuencia de la trama de voz a procesar para obtener la trama de voz ganada, la siguiente ecuación se puede aplicar para el cálculo en la ecuación de procesamiento de ganancia.
SSEl = SAl*Combi i =1,2,... ,M
Ss e íySaírepresenta un i-ésimo punto de frecuencia en la trama de voz obtenida y la trama de voz que se va a procesar, respectivamente, i se refiere a un punto de frecuencia. M representa una cantidad total de puntos de frecuencia en la trama de voz a procesar.
Combirepresenta una ganancia y puede determinarse mediante la siguiente ecuación de asignación.
i e h fp
i € h fp
Ghrepresenta la primera ganancia.fpresenta la información de frecuencia fundamental.hfprepresenta la información de distribución de alta frecuencia.i e hfpindica que el i-ésimo punto de frecuencia es el punto de alta frecuencia. Gmin representa la segunda ganancia.i € hfpindica que el i-ésimo punto de frecuencia no es el punto de alta frecuencia. Además,hfpen la ecuación de asignación puede ser reemplazada porn * f± A para optimizar la ecuación de asignación:
i e h fp
i € h fp ’
en una implementación donde una sección de distribución del punto de alta frecuencia puede expresarse como 2 *f± A,3 * f ± A,...,N * f± A. La ecuación de asignación optimizada se puede expresar como:
„ ,(G<h i E n * f ± A n = l,2 ,... ,N>
Combt ] „ .<.. . . . _>
1<(,Gmf>ni E n * f A n = l,2 ,... ,N
En esta realización, la actividad de voz se detecta en el nivel de frecuencia en función de la información de distribución del punto de alta frecuencia, para detectar si hay voz. Puede reducirse la influencia del ruido ambiental en la detección, y puede mejorarse la precisión de detección de si hay voz. Sobre la base de la precisión mejorada, la señal de voz recogida por el micrófono acústico se gana (donde el procesamiento de ganancia puede tratarse como un proceso de reducción de ruido) basándose en el resultado de la detección de actividad de voz del nivel de frecuencia. Para la señal de voz recogida por el micrófono acústico, un componente de voz después del procesamiento de ganancia es más prominente.
En otra realización, se introduce otro método para reducción de ruido de voz correspondiente a la detección de la actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 6, el método puede incluir las etapas S500 a S560.
En la etapa S500, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización específica, la señal de voz recogida por el micrófono no acústico es una señal de voz.
En la etapa S510, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
Puede entenderse que la etapa S510 determina la información de frecuencia fundamental de la señal vocal.
En la etapa S520, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
En la etapa S530, la actividad de voz se detecta a un nivel de frecuencia en la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia.
En la etapa S540, la señal de voz recogida por el micrófono acústico se elimina mediante una segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal de voz sin ruido recogida por el micrófono acústico.
Las etapas S500 a S540 corresponden a las etapas S300 a S340, respectivamente, en la realización mencionada anteriormente. Un proceso detallado de las etapas S500 a S540 puede hacer referencia a la descripción de las etapas S300 a S340 en la realización antes mencionada, y no se describe de nuevo aquí.
En la etapa S550, una trama de voz cuyo punto de tiempo es el mismo que el de cada trama de voz incluida en la señal de voz captada por el micrófono no acústico que se obtiene a partir de la segunda señal de voz sin ruido captada por el micrófono acústico, como una trama de voz a procesar.
En la etapa S560, el procesamiento de ganancia se realiza en cada punto de frecuencia de la trama de voz que se va a procesar, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una trama de voz ganada, donde una señal de voz ganada recogida por el micrófono acústico está formada por todas las tramas de voz ganadas.
Un proceso del procesamiento de ganancia puede incluir una etapa siguiente. Se aplica una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y se aplica una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, donde la primera ganancia es mayor que la segunda ganancia.
Un proceso detallado de las etapas S550 a S560 puede hacer referencia a la descripción de las etapas S440 a S450 en la realización antes mencionada, y no se describe de nuevo aquí.
En esta realización, la segunda reducción de ruido se realiza primero en la señal de voz recogida por el micrófono acústico, y luego se realiza el procesamiento de ganancia en la segunda señal de voz sin ruido recogida por el micrófono acústico, para reducir aún más el componente de ruido en la señal de voz recogida por el micrófono acústico. Para la señal de voz recogida por el micrófono acústico, un componente de voz después del procesamiento de ganancia es más prominente.
En otra realización de la presente divulgación, se introduce un método para reducción de ruido de voz correspondiente a una combinación de la detección de actividad de voz del nivel de trama y la detección de actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 7, el método puede incluir las etapas S600 a S660.
En la etapa S600, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En la etapa S610, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
En la etapa S620, la actividad de voz se detecta a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de la actividad de voz del nivel de trama.
En la etapa S630, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal de voz sin ruido recogida por el micrófono acústico.
Las etapas S600 a S630 corresponden a las etapas S200 a S230, respectivamente, en la realización mencionada anteriormente. Un proceso detallado de las etapas S600 a S630 puede hacer referencia a la descripción de las etapas S200 a S230 en la realización antes mencionada, y no se describe de nuevo aquí.
En la etapa S640, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
Un proceso detallado de la etapa S640 puede hacer referencia a la descripción de la etapa S320 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En la etapa S650, la actividad de voz se detecta a un nivel de frecuencia en una trama de voz de la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia, donde el resultado de la detección de actividad de voz del nivel de trama indica que hay una señal de voz en la trama de voz de la señal de voz recogida por el micrófono acústico.
En una realización específica, la etapa S650 puede incluir una etapa siguiente.
Se determina, basado en la información de distribución del punto de alta frecuencia, que hay señal de voz en un punto de frecuencia que pertenece a un punto de alta frecuencia, y no hay señal de voz en un punto de frecuencia que no pertenece al punto de alta frecuencia, en la trama de voz de la señal de voz recogida por el micrófono acústico, donde el resultado de la detección de actividad de voz del nivel de trama indica que hay señal de voz en la trama de voz. En la etapa S660, la primera señal de voz sin ruido recogida por el micrófono acústico se elimina mediante una segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal de voz sin ruido recogida por el micrófono acústico.
En esta realización, la señal de voz recogida por el micrófono acústico se elimina primero mediante la primera reducción de ruido, basado en el resultado de la detección de la actividad de voz del nivel de trama. Se puede reducir un componente de ruido para la señal de voz recogida por el micrófono acústico. A continuación, la primera señal de voz sin ruido recogida por el micrófono acústico se elimina a través de la segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia. El componente de ruido puede reducirse aún más para la primera señal de voz sin ruido recogida por el micrófono acústico. Para la segunda señal de voz sin ruido recogida por el micrófono acústico, un componente de voz después de la segunda reducción de ruido es más prominente.
En otra realización, se introduce otro método para reducción de ruido de voz correspondiente a una combinación de la detección de actividad de voz del nivel de trama y la detección de actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 8, el método puede incluir las etapas S700 a S770.
En la etapa S700, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización específica, la señal de voz recogida por el micrófono no acústico es una señal de voz.
En la etapa S710, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
En la etapa S720, la actividad de voz se detecta a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de la actividad de voz del nivel de trama.
En la etapa S730, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal de voz sin ruido recogida por el micrófono acústico.
Las etapas S700 a S730 corresponden a las etapas S200 a S230, respectivamente, en la realización mencionada anteriormente. Un proceso detallado de las etapas S700 a S730 puede hacer referencia a la descripción de las etapas S200 a S230 en la realización antes mencionada, y no se describe de nuevo aquí.
En la etapa S740, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
En la etapa S750, la actividad de voz se detecta a un nivel de frecuencia en la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia.
En la etapa S760, una trama de voz cuyo punto de tiempo es el mismo que el de cada trama de voz incluida en la señal de voz captada por el micrófono no acústico que se obtiene a partir de la primera señal de voz sin ruido captada por el micrófono acústico, como una trama de voz a procesar.
En la etapa S770, el procesamiento de ganancia se realiza en cada punto de frecuencia de la trama de voz que se va a procesar, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una trama de voz ganada, donde una señal de voz ganada recogida por el micrófono acústico está formada por todas las tramas de voz ganadas.
Un proceso del procesamiento de ganancia puede incluir una etapa siguiente. Se aplica una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y se aplica una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, donde la primera ganancia es mayor que la segunda ganancia.
Un proceso detallado de la etapa S770 puede hacer referencia a la descripción de la etapa S450 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
En esta realización, en primer lugar, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de la actividad de voz del nivel de trama. Se puede reducir un componente de ruido para la señal de voz recogida por el micrófono acústico. Sobre tal base, la primera señal de voz sin ruido recogida por el micrófono acústico se obtiene en función del resultado de la detección de la actividad de voz del nivel de frecuencia. El componente de ruido se puede reducir para la primera señal de voz sin ruido recogida por el micrófono acústico. Para la señal de voz recogida por el micrófono acústico, un componente de voz después del procesamiento de ganancia es más prominente.
En otra realización de la presente divulgación, se introduce otro método para reducción de ruido de voz sobre la base de una combinación de la detección de actividad de voz del nivel de trama y la detección de actividad de voz del nivel de frecuencia. Haciendo referencia a la figura 9, el método puede incluir las etapas S800 a S880.
En la etapa S800, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización específica, la señal de voz recogida por el micrófono no acústico es una señal de voz.
En la etapa S810, se determina la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
En la etapa S820, la actividad de voz se detecta a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de la actividad de voz del nivel de trama.
En la etapa S830, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal de voz sin ruido recogida por el micrófono acústico.
En la etapa S840, la información de distribución de un punto de alta frecuencia de un discurso se determina basándose en la información de frecuencia fundamental.
En la etapa S850, la actividad de voz se detecta a un nivel de frecuencia en una trama de voz de la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia, donde el resultado de la detección de actividad de voz del nivel de trama indica que hay una señal de voz en la trama de voz de la señal de voz recogida por el micrófono acústico.
En la etapa S860, la primera señal de voz sin ruido recogida por el micrófono acústico se elimina mediante una segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal de voz sin ruido recogida por el micrófono acústico.
Un proceso detallado de las etapas S800 a S860 puede hacer referencia a la descripción de las etapas S600 a S660 en la realización antes mencionada, y no se describe de nuevo aquí.
En la etapa S870, una trama de voz cuyo punto de tiempo es el mismo que el de cada trama de voz incluida en la señal de voz captada por el micrófono no acústico que se obtiene a partir de la segunda señal de voz sin ruido captada por el micrófono acústico, como una trama de voz a procesar.
En la etapa S880, el procesamiento de ganancia se realiza en cada punto de frecuencia de la trama de voz que se va a procesar, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una trama de voz ganada, donde una señal de voz ganada recogida por el micrófono acústico está formada por todas las tramas de voz ganadas.
Un proceso del procesamiento de ganancia puede incluir una etapa siguiente. Se aplica una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y se aplica una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, donde la primera ganancia es mayor que la segunda ganancia.
Un proceso detallado de la etapa S880 puede hacer referencia a la descripción de la etapa S450 en la realización antes mencionada, y no se describe de nuevo en el presente documento.
El procesamiento de ganancia puede considerarse como un proceso de reducción de ruido. Por tanto, la señal vocal obtenida recogida por el micrófono acústico puede apreciarse como una tercera señal vocal sin ruido recogida por el micrófono acústico.
En esta realización, en primer lugar, la señal de voz recogida por el micrófono acústico se elimina mediante la primera reducción de ruido, basado en el resultado de la detección de la actividad de voz del nivel de trama. Se puede reducir un componente de ruido para la señal de voz recogida por el micrófono acústico. Sobre tal base, la primera señal de voz sin ruido recogida por el micrófono acústico se elimina a través de la segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia. Se puede reducir un componente de ruido para la primera señal de voz sin ruido recogida por el micrófono acústico. Sobre tal base, se gana la segunda señal de voz sin ruido recogida por el micrófono acústico. El componente de ruido se puede reducir para la segunda señal de voz sin ruido recogida por el micrófono acústico. Para la señal de voz recogida por el micrófono acústico, un componente de voz después del procesamiento de ganancia es más prominente.
Sobre la base de las realizaciones antes mencionadas, se proporciona un método de reducción de ruido de voz de acuerdo con una realización de la presente invención. Haciendo referencia a la figura 10, el método incluye las etapas S900 a S940.
En la etapa S900, se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
En una realización específica, la señal de voz recogida por el micrófono no acústico es una señal de voz.
En la etapa S910, la actividad de voz se detecta en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz.
En la etapa S920, la señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, para obtener una señal vocal sin ruido.
Un proceso detallado de las etapas S900 a S920 puede referirse a la descripción de las etapas relacionadas en las realizaciones antes mencionadas, que no se describe de nuevo en el presente documento.
En la etapa S930, la señal vocal sin ruido se introduce en un modelo de predicción de sonido sin voz, para obtener una señal sin voz emitida por el modelo de predicción de sonido sin voz.
La predicción del sonido sin voz se obtiene mediante un entrenamiento previo basado en una señal de voz de entrenamiento. La señal de voz de entrenamiento está marcada con una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal.
Generalmente, una voz incluye tanto señales sonoras como sin voz. Por lo tanto, es necesario predecir la señal sin voz en la voz, después de obtener la señal vocal sin ruido. En una realización específica, la señal sin voz se predice a través del modelo de predicción de sonido sin voz.
El modelo de predicción de sonido sin voz puede ser, pero sin limitación, un modelo DNN (Red Neural Profunda). El modelo de predicción de sonido sin voz se entrena previamente en función de la señal de voz de entrenamiento que se marca con una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal. De esta manera, se garantiza que el modelo de predicción de sonido sin voz entrenado sea capaz de predecir la señal sin voz con precisión.
En la etapa S940, la señal sin voz y la señal vocal sin ruido se combinan para obtener una señal de voz combinada. Un proceso de combinación de la señal sin voz y la señal vocal sin ruido puede referirse a un proceso de combinación de señales de voz en la tecnología convencional. No se describe con más detalle aquí un detalle de la combinación de la señal sin voz y la señal vocal sin ruido.
La señal de voz combinada puede apreciarse como una señal de voz completa que incluye tanto la señal sin voz como la señal vocal sin ruido.
En otra realización, se introduce un proceso de entrenamiento de un modelo de predicción de sonido sin voz. En una realización específica, la capacitación puede incluir las siguientes etapas D1 a D3.
En la etapa D1, se obtiene una señal de voz de entrenamiento.
Es necesario que la señal de voz de entrenamiento incluya una señal sin voz y una señal vocal, para asegurar la precisión del entrenamiento.
En la etapa D2, una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal se marcan en la señal de voz de entrenamiento.
En la etapa D3, el modelo de predicción de sonido sin voz se entrena basándose en la señal de voz de entrenamiento marcada con la hora de inicio y la hora de finalización de cada señal sin voz y cada señal vocal.
El modelo de predicción de sonido sin voz entrenado es el modelo de predicción de sonido sin voz usado en la etapa S930 en la realización antes mencionada.
En otra realización, se introduce la señal de voz de entrenamiento obtenida. En una realización específica, la obtención de la señal de voz de entrenamiento puede incluir una etapa siguiente.
Se selecciona una señal de voz que cumple una condición de entrenamiento predeterminada.
La condición de entrenamiento predeterminada puede incluir una o ambas de las siguientes condiciones. La distribución de la frecuencia de aparición de todos los diferentes fonemas en la señal de voz cumple una condición de distribución predeterminada. Un tipo de combinación de diferentes fonemas en la señal de voz cumple un requisito predeterminado sobre el tipo de combinación.
En una realización preferible, la condición de distribución predeterminada puede ser una distribución uniforme. Como alternativa, la condición de distribución predeterminada puede ser que la distribución de la frecuencia de aparición de la mayoría de los fonemas sea uniforme, y la distribución de la frecuencia de aparición de una minoría de fonemas no sea uniforme.
En una realización preferible, el requisito predeterminado sobre el tipo de combinación puede incluir todos los tipos de combinación.
Como alternativa, el requisito predeterminado sobre el tipo de combinación puede ser: incluir un número predeterminado de tipos de combinación.
La distribución de la frecuencia de aparición de todos los diferentes fonemas en la señal de voz cumple la condición de distribución predeterminada. De esta manera, se asegura que la distribución de la frecuencia de aparición de todos los diferentes fonemas en la señal de voz seleccionada que cumple la condición de entrenamiento predeterminada es lo más uniforme posible. El tipo de combinación de diferentes fonemas en la señal de voz cumple el requisito predeterminado sobre el tipo de combinación. De esta manera, se asegura que la combinación de diferentes fonemas en la señal de voz seleccionada que cumple con la condición de entrenamiento predeterminada es abundante y completa tanto como sea posible.
Se selecciona la señal de voz que cumple la condición de entrenamiento predeterminada. De esta manera, se cumple un requisito sobre la precisión del entrenamiento, se reduce un volumen de datos de la señal de voz de entrenamiento y se mejora la eficacia del entrenamiento.
Sobre la base de las realizaciones antes mencionadas, se proporciona además un método de reducción de ruido de voz de acuerdo con otra realización de la presente divulgación, en el caso de que el micrófono acústico incluya un conjunto de micrófonos acústicos. El método para reducción de ruido de voz puede incluir además las siguientes etapas S1 a S3.
En la etapa S1, una sección espacial de una fuente de voz se determina en función de la señal de voz recogida por el conjunto de micrófonos acústicos.
En la etapa S2, se detecta si hay una señal de voz en un cuadro de voz en la señal de voz recogida por el micrófono no acústico y una trama de voz en la señal de voz recogida por el micrófono acústico, que corresponde a un mismo punto temporal, para obtener un resultado de detección. Las señales de voz se recogen simultáneamente.
El resultado de la detección puede incluir que haya señal de voz o que no haya señal de voz, tanto en la trama de voz de la señal de voz recogida por el micrófono no acústico como en la trama de voz de la señal de voz recogida por el micrófono acústico, que corresponde al mismo punto temporal.
En la etapa S3, se determina una posición de la fuente de voz en la sección espacial de la fuente de voz, en base al resultado de la detección.
En base al resultado de la detección anterior en la etapa S2, se puede determinar que hay señal de voz o que no hay señal de voz tanto en la trama de voz de la señal de voz recogida por el micrófono no acústico como en la trama de voz de la señal de voz recogida por el micrófono acústico, que corresponde al mismo punto temporal. De esta manera, se determina que la señal de voz recogida por el micrófono acústico y la señal de voz recogida por el micrófono no acústico son emitidas por la misma fuente de voz. Además, la posición de la fuente de voz se puede determinar en la sección espacial de la fuente de voz, basado en la señal de voz recogida por el micrófono no acústico.
En caso de que varias personas hablen al mismo tiempo, es difícil determinar la posición de una fuente de voz de destino basándose únicamente en la señal de voz recogida por el conjunto de micrófonos acústicos. Sin embargo, la posición de la fuente de voz se puede determinar con la ayuda de la señal de voz recogida por el micrófono no acústico. Una implementación específica son las etapas S1 a S3 en esta realización.
A continuación, se presenta un aparato para reducción de ruido de voz de acuerdo con las realizaciones de la presente divulgación. El aparato para reducción de ruido de voz de aquí en adelante se puede considerar como un módulo de programa que está configurado por un servidor para implementar el método para reducción de ruido de voz de acuerdo con las realizaciones de la presente divulgación. El contenido del aparato para reducción de ruido de voz descrito a continuación y el contenido del método para reducción de ruido de voz descrito anteriormente pueden referirse entre sí.
La figura 11 es un diagrama esquemático de una estructura lógica de un aparato para reducción de ruido de voz de acuerdo con una realización de la presente divulgación. El aparato puede aplicarse a un servidor. Haciendo referencia a la figura 11, el aparato para reducción de ruido de voz puede incluir: un módulo de obtención de señal de voz 11, un módulo de detección de actividad de voz 12 y un módulo de eliminación de ruido de voz 13.
El módulo de obtención de señales de voz 11 está configurado para obtener una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
El módulo de detección de actividad de voz 12 está configurado para detectar la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz.
El módulo de eliminación de ruido de voz 13 está configurado para eliminar el ruido de la señal de voz recogida por el micrófono acústico, en base al resultado de la detección de actividad de voz, para obtener una señal de voz sin ruido.
En una realización, el módulo de detección de actividad de voz 12 incluye un módulo para la determinación de la información de frecuencia fundamental y un submódulo para la detección de la actividad de voz.
El módulo para la determinación de la información de frecuencia fundamental está configurado para determinar la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico.
El submódulo para la detección de la actividad de voz está configurado para detectar la actividad de voz en función de la información de frecuencia fundamental, para obtener el resultado de la detección de actividad de voz.
En una realización, el submódulo para la detección de la actividad de voz puede incluir un módulo para la detección de la actividad de voz a nivel de trama.
El módulo de detección de actividad de voz a nivel de cuadro está configurado para detectar la actividad de voz a nivel de cuadro en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de la actividad de voz del nivel de trama.
Correspondientemente, el módulo de eliminación de ruido de voz puede incluir un primer módulo de reducción de ruido.
El primer módulo de reducción de ruido está configurado para eliminar el ruido de la señal de voz recogida por el micrófono acústico a través de la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal de voz sin ruido recogida por el micrófono acústico.
En una realización, el aparato para reducción de ruido de voz puede incluir además: un módulo para la determinación de la información de distribución de puntos de alta frecuencia y un módulo para la detección de la actividad de voz a nivel de frecuencia.
El módulo para la determinación de información de distribución de puntos de alta frecuencia está configurado para determinar la información de distribución de un punto de alta frecuencia de una voz, basado en la información de la frecuencia fundamental.
El módulo para la detección de actividad de voz a nivel de frecuencia está configurado para detectar la actividad de voz a un nivel de frecuencia en una trama de voz de la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia, donde el resultado de la detección de actividad de voz del nivel de trama indica que hay una señal de voz en la trama de voz de la señal de voz recogida por el micrófono acústico.
Correspondientemente, el módulo de eliminación de ruido de voz puede incluir además un segundo módulo de reducción de ruido.
El segundo módulo de reducción de ruido está configurado para eliminar el ruido de la primera señal de voz eliminada del ruido recogida por el micrófono acústico a través de la segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal de voz sin ruido recogida por el micrófono acústico.
En una realización, el módulo para detección de actividad de voz a nivel de trama puede incluir un módulo para detección de información de frecuencia fundamental.
El módulo de detección de información de frecuencia fundamental está configurado para detectar si no hay información de frecuencia fundamental.
En caso de que haya información de frecuencia fundamental, se determina que hay una señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, donde la trama de voz está en la señal de voz recogida por el micrófono acústico.
En caso de que no haya información de frecuencia fundamental, se detecta una intensidad de señal de la señal de voz recogida por el micrófono acústico. En caso de que la intensidad de la señal detectada de la señal de voz recogida por el micrófono acústico sea pequeña, se determina que no hay señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, donde la trama de voz está en la señal de voz recogida por el micrófono acústico.
En una realización, el modulo para determinacion de informacion de distribucion de puntos de alta frecuencia puede incluir: un modulo de multiplicacion y un modulo para expansion de informacion de frecuencia fundamental.
El módulo de multiplicación está configurado para multiplicar la información de frecuencia fundamental, para obtener información de frecuencia fundamental multiplicada.
El módulo para expansión de información de frecuencia fundamental está configurado para expandir la información de frecuencia fundamental multiplicada en base a un valor de expansión de frecuencia preestablecido, para obtener una sección de distribución del punto de alta frecuencia de voz, donde la sección de distribución sirve como información de distribución del punto de alta frecuencia de voz.
En una realización, el módulo para la detección de actividad de voz a nivel de frecuencia puede incluir un submódulo para la detección de actividad de voz a nivel de frecuencia.
El submódulo para la detección de actividad de voz a nivel de frecuencia está configurado para determinar, basado en la información de distribución del punto de alta frecuencia, que hay señal de voz en un punto de frecuencia que pertenece a un punto de alta frecuencia, y no hay señal de voz en un punto de frecuencia que no pertenece al punto de alta frecuencia, en la trama de voz de la señal de voz recogida por el micrófono acústico, donde el resultado de la detección de actividad de voz del nivel de trama indica que hay señal de voz en la trama de voz.
En una realización, la señal de voz recogida por el micrófono no acústico puede ser una señal de voz.
Basado en que la señal de voz recolectada por el micrófono no acústico es una señal de voz, el módulo de eliminación de ruido de voz puede incluir además: un módulo de obtención de tramas de voz y un módulo de procesamiento de ganancia.
El módulo de obtención de tramas de voz está configurado para obtener una trama de voz, cuyo punto de tiempo es el mismo que el de cada cuadro de voz incluido en la señal de voz recogida por el micrófono no acústico, de la segunda señal de voz sin ruido recogida por el micrófono acústico, como una trama de voz a procesar.
El módulo de procesamiento de ganancia está configurado para realizar el procesamiento de ganancia en cada punto de frecuencia de la trama de voz que se va a procesar para obtener una trama de voz ganada, donde una tercera señal de voz sin ruido recogida por el micrófono acústico está formada por todas las tramas de voz ganadas.
Un proceso del procesamiento de ganancia puede incluir una etapa siguiente. Se aplica una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y se aplica una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, donde la primera ganancia es mayor que la segunda ganancia.
La señal de voz sin ruido puede ser una señal de voz sin ruido en el aparato anterior. Sobre tal base, el aparato para reducción de ruido de voz puede incluir además: un módulo de predicción de señales sin voz y un módulo de combinación de señales de voz.
El módulo de predicción de señales sin voz está configurado para ingresar la señal vocal sin ruido en un modelo de predicción de sonido sin voz, para obtener una señal sin voz emitida por el modelo de predicción de sonido sin voz. El modelo de predicción de sonido sin voz se obtiene mediante un entrenamiento previo basado en una señal de voz de entrenamiento. La señal de voz de entrenamiento está marcada con una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal.
El módulo de combinación de señales de voz está configurado para combinar la señal sin voz y la señal vocal sin ruido, para obtener una señal de voz combinada.
En una realización, el aparato para reducción de ruido de voz puede incluir además un módulo para el entrenamiento del modelo de predicción de sonido sin voz.
El módulo de entrenamiento del modelo de predicción de sonido sin voz está configurado para: obtener una señal de voz de entrenamiento, marcar una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal en la señal de voz de entrenamiento, y entrenar el modelo de predicción de sonido sin voz basado en la señal de voz de entrenamiento marcada con la hora de inicio y la hora de finalización de cada señal sin voz y cada señal vocal.
El módulo para el entrenamiento del modelo de predicción de sonido sin voz puede incluir un módulo para el entrenamiento de la obtención de señales de voz.
El módulo para entrenar la obtención de señales de voz está configurado para seleccionar una señal de voz que cumpla con una condición de entrenamiento predeterminada.
La condición de entrenamiento predeterminada puede incluir una o ambas de las siguientes condiciones. La distribución de la frecuencia de aparición de todos los diferentes fonemas en la señal de voz cumple una condición de distribución predeterminada. Un tipo de combinación de diferentes fonemas en la señal de voz cumple un requisito predeterminado sobre el tipo de combinación.
Sobre la base de las realizaciones antes mencionadas, el aparato para reducción de ruido de voz puede incluir además un módulo para la determinación de la posición de la fuente de voz, en el caso de que el micrófono acústico pueda incluir un conjunto de micrófonos acústicos.
El módulo para la determinación de la posición de la fuente de voz está configurado para: determinar una sección espacial de una fuente de voz basándose en la señal de voz recogida por el conjunto de micrófonos acústicos; detectar si hay una señal de voz en una trama de voz en la señal de voz recogida por el micrófono no acústico y una trama de voz en la señal de voz recogida por el micrófono acústico, que corresponde a un mismo punto temporal, para obtener un resultado de detección; y determinar una posición de la fuente de voz en la sección espacial de la fuente de voz, en base al resultado de la detección.
El aparato para reducción de ruido de voz de acuerdo con una realización de la presente divulgación se puede aplicar a un servidor, tal como un servidor de comunicaciones. En una realización, un diagrama de bloques de una estructura de hardware de un servidor es como se muestra en la figura 12. Haciendo referencia a la figura 12, la estructura de hardware del servidor puede incluir: al menos un procesador 1, al menos una interfaz de comunicación 2, al menos una memoria 3 y al menos un bus de comunicación 4.
En una realización, una cantidad de cada uno del procesador 1, la interfaz de comunicación 2, la memoria 3, y el bus de comunicación 4 es al menos uno. El procesador 1, la interfaz de comunicación 2 y la memoria 3 se comunican entre sí a través del bus de comunicación 4.
El procesador 1 puede ser una unidad central de procesamiento CPU, un circuito integrado de aplicación específica (ASIC), o uno o más circuitos integrados para implementar realizaciones de la presente divulgación.
La memoria 3 puede incluir una memoria RAM de alta velocidad, una memoria no volátil, o similares. Por ejemplo, la memoria 3 incluye al menos una memoria de disco.
La memoria almacena un programa. El procesador ejecuta el programa almacenado en la memoria. El programa está configurado para realizar las siguientes etapas.
Se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
La actividad de voz se detecta en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz.
La señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, para obtener una señal de voz sin ruido.
En una realización, las funciones refinadas y ampliadas del programa pueden referirse a la descripción anterior. Un medio de almacenamiento se proporciona, además, de acuerdo con una realización de la presente divulgación. El medio de almacenamiento puede almacenar un programa ejecutable por un procesador. El programa está configurado para realizar las siguientes etapas.
Se obtienen una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, donde las señales de voz se recogen simultáneamente.
La actividad de voz se detecta en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz.
La señal de voz recogida por el micrófono acústico se elimina en función del resultado de la detección de actividad de voz, para obtener una señal de voz sin ruido.
En una realización, las funciones refinadas y ampliadas del programa pueden referirse a la descripción anterior. En una realización, la función de refinamiento y la función de expansión del programa pueden referirse a la descripción anterior.
Las realizaciones de la presente divulgación se describen de manera progresiva, y cada realización pone énfasis en la diferencia con respecto a otras realizaciones. Por lo tanto, una realización puede referirse a otras realizaciones para partes iguales o similares. Dado que los aparatos descritos en las realizaciones corresponden a los métodos descritos en las realizaciones, la descripción de los aparatos es sencilla y se puede hacer referencia a la parte pertinente de los métodos.
Cabría destacar que, los términos de relación tales como "primero", "segundo" y similares solo se usan en elpresente documento para distinguir una entidad u operación de otra, en lugar de exigir o implicar que existe una relación u orden real entre las entidades u operaciones. Además, los términos tales como "incluir", "comprender" o cualquier otra variante de los mismos significa que no es exclusiva. Por lo tanto, un proceso, un método, un artículo o un dispositivo que incluye una serie de elementos, incluye no solo los elementos divulgados sino también otros elementos que no están claramente enumerados, o incluye además elementos inherentes al proceso, el método, el artículo o el dispositivo. A menos que se limite expresamente, la afirmación "que incluye un..." no excluye el caso de que puedan existir otros elementos similares en el proceso, el método, el artículo o el dispositivo distintos de los elementos enumerados
Por conveniencia de la descripción, las funciones se dividen en varias unidades y se describen por separado al describir los aparatos. Se aprecia que las funciones de cada unidad pueden implementarse en una o más piezas de software y/o hardware al implementar la presente divulgación.
A partir de las realizaciones descritas anteriormente, los expertos en la materia pueden entender claramente que la presente divulgación puede implementarse usando software más una plataforma de hardware universal necesaria. Basándose en tal comprensión, las soluciones técnicas de la presente divulgación pueden incorporarse en forma de un producto de software informático almacenado en un medio de almacenamiento, en sustancia o en parte haciendo una contribución a la tecnología convencional. El medio de almacenamiento puede ser, por ejemplo, una ROM/RAM, un disco magnético o un disco óptico, que incluye múltiples instrucciones para habilitar un equipo informático (tal como un ordenador personal, un servidor o un dispositivo de red) para ejecutar un método de acuerdo con las realizaciones o una parte determinada de las realizaciones de la presente divulgación.
En lo sucesivo, un método para reducción de ruido de voz, un aparato para reducir ruido de voz, un servidor y un medio de almacenamiento de acuerdo con la presente divulgación se presentan en detalle. En el presente documento se utilizan realizaciones específicas para ilustrar el principio y las realizaciones de la presente divulgación. Las realizaciones descritas anteriormente sólo pretenden ayudar a comprender los métodos y los conceptos básicos de la presente divulgación. Los expertos en la técnica pueden realizar cambios en las realizaciones y en el rango de aplicación basándose en el concepto de la presente divulgación. Resumiendo, la memoria descriptiva no debe interpretarse como una limitación a la presente invención, que se define por las reivindicaciones adjuntas.

Claims (15)

REIVINDICACIONES
1. Un método para reducción de ruido de voz, que comprende:
obtener (900, 100) una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, en donde las señales de voz se recogen simultáneamente, en donde el micrófono no acústico está configurado para recoger señales de voz de forma independiente del ruido ambiental; detectar (910, 110) la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz;
eliminar el ruido (920, 120) de la señal de voz recogida por el micrófono acústico, en base al resultado de la detección de actividad de voz, para obtener una señal vocal sin ruido;
introducir (930) la señal de voz sin ruido en un modelo de predicción de sonido sin voz entrenado para obtener una señal sin voz emitida desde el modelo de predicción de sonido sin voz; y
combinar (940) la señal sin voz y la señal vocal sin ruido para obtener una señal de voz combinada.
2. El método de acuerdo con la reivindicación 1, en donde la detección (110) de la actividad de voz basada en la señal de voz recogida por el micrófono no acústico para obtener el resultado de la detección de la actividad de voz comprende:
determinar (210) información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico; y
detectar la actividad de voz en función de la información de frecuencia fundamental, para obtener el resultado de la detección de actividad de voz.
3. El método de acuerdo con la reivindicación 2, en donde la detección de la actividad de voz basada en la información de la frecuencia fundamental para obtener el resultado de la detección de la actividad de voz comprende:
detectar (220) la actividad de voz a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de actividad de voz del nivel de trama; y
en donde eliminar el ruido (920, 120) de la señal de voz recogida por el micrófono acústico, basado en el resultado de la detección de la actividad de voz para obtener la señal de voz sin ruido comprende:
eliminar el ruido (230) de la señal de voz recogida por el micrófono acústico a través de la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal vocal sin ruido recogida por el micrófono acústico.
4. El método de acuerdo con la reivindicación 3, en donde detectar (220) la actividad de voz basándose en la información de la frecuencia fundamental para obtener el resultado de la detección de la actividad de voz comprende además:
determinar (320) información de distribución de un punto de alta frecuencia de una voz, basado en la información de la frecuencia fundamental, en donde el punto de alta frecuencia son armónicos de una frecuencia fundamental de voz; y
detectar (330) la actividad de voz a un nivel de frecuencia en una trama de voz de la señal de voz recogida por el micrófono acústico, basado en la información de distribución del punto de alta frecuencia, para obtener un resultado de detección de actividad de voz del nivel de frecuencia, en donde el resultado de la detección de actividad de voz del nivel de trama indica que hay una señal de voz en la trama de voz de la señal de voz recogida por el micrófono acústico; y
en donde eliminar el ruido (920, 120) de la señal de voz recogida por el micrófono acústico en función del resultado de la detección de la actividad de voz para obtener la señal vocal sin ruido comprende además:
eliminar el ruido (340) de la primera señal de voz eliminada de ruido recogida por el micrófono acústico a través de una segunda reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de frecuencia, para obtener una segunda señal vocal sin ruido recogida por el micrófono acústico.
5. El método de acuerdo con la reivindicación 3, en donde la detección (330) de la actividad de voz a nivel de trama en la señal de voz recogida por el micrófono acústico en función de la información de frecuencia fundamental para obtener el resultado de la detección de la actividad de voz a nivel de trama comprende:
detectar si no hay información de frecuencia fundamental;
determinar que hay una señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, en caso de que haya información de frecuencia fundamental, en donde la trama de voz está en la señal de voz recogida por el micrófono acústico;
detectar una intensidad de señal de la señal de voz recogida por el micrófono acústico, en caso de que no haya información de frecuencia fundamental; y
determinar que no hay señal de voz en una trama de voz correspondiente a la información de frecuencia fundamental, en caso de que la intensidad de la señal detectada de la señal de voz recogida por el micrófono acústico sea pequeña, en donde la trama de voz está en la señal de voz recogida por el micrófono acústico.
6. El método de acuerdo con la reivindicación 4, en donde determinar (320) la información de distribución del punto de alta frecuencia de voz, basada en la información de frecuencia fundamental comprende:
multiplicar la información de la frecuencia fundamental, para obtener información de frecuencia fundamental multiplicada; y
expandir la información de frecuencia fundamental multiplicada en base a un valor de expansión de frecuencia preestablecido, para obtener una sección de distribución del punto de alta frecuencia de voz, en donde la sección de distribución sirve como información de distribución del punto de alta frecuencia de voz.
7. El método de acuerdo con la reivindicación 4, en donde detectar (330) la actividad de voz en el nivel de frecuencia en la trama de voz de la señal de voz recogida por el micrófono acústico en función de la información de distribución del punto de alta frecuencia para obtener el resultado de la detección de la actividad de voz en el nivel de frecuencia comprende:
determinar, basado en la información de distribución del punto de alta frecuencia, que hay señal de voz en un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y no haya señal de voz en un punto de frecuencia que no pertenezca al punto de alta frecuencia, en la trama de voz de la señal de voz recogida por el micrófono acústico, en donde el resultado de la detección de actividad de voz del nivel de trama indica que hay señal de voz en la trama de voz.
8. El método de acuerdo con la reivindicación 4, en donde:
la señal de voz recogida por el micrófono no acústico es una señal de voz; y
eliminar el ruido (920, 120) de la señal de voz recogida por el micrófono acústico en función del resultado de la detección de la actividad de voz para obtener la señal vocal sin ruido comprende además:
obtener (440) una trama de voz, cuyo punto de tiempo es el mismo que el de cada trama de voz comprendido en la señal vocal recogida por el micrófono no acústico, de la segunda señal vocal sin ruido recogida por el micrófono acústico, como una trama de voz a procesar; y
realizar (450) procesamiento de ganancia en cada punto de frecuencia de la trama de voz a procesar para obtener una trama de voz ganada, en donde una tercera señal de voz sin ruido recogida por el micrófono acústico está formada por todas las tramas de voz ganadas;
un proceso de procesamiento de ganancia comprende:
aplicar una primera ganancia a un punto de frecuencia en el caso de que el punto de frecuencia pertenezca al punto de alta frecuencia, y aplicar una segunda ganancia a un punto de frecuencia en el caso de que el punto de frecuencia no pertenezca al punto de alta frecuencia, en donde el primer valor de ganancia es mayor que el segundo valor de ganancia.
9. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 8, en donde antes de introducir la señal de voz sin ruido en el modelo de predicción de sonido sin voz entrenado para obtener la señal sin voz emitida desde el modelo de predicción de sonido sin voz, el método comprende, además:
entrenar el modelo de predicción del sonido sin voz a partir de una señal de voz de entrenamiento, en donde la señal de voz de entrenamiento está marcada con una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal en la señal de voz de entrenamiento.
10. Un aparato para reducir ruido de voz, que comprende:
un módulo de obtención de señal de voz (11), configurado para obtener una señal de voz recogida por un micrófono acústico y una señal de voz recogida por un micrófono no acústico, en donde las señales de voz se recogen simultáneamente, en donde el micrófono no acústico está configurado para recoger señales de voz de forma independiente del ruido ambiental;
un módulo de detección de actividad de voz (12), configurado para detectar la actividad de voz en función de la señal de voz recogida por el micrófono no acústico, para obtener un resultado de detección de actividad de voz; y un módulo de eliminación de ruido de voz (13), configurado para eliminar el ruido de la señal de voz recogida por el micrófono acústico, en base al resultado de la detección de actividad de voz, para obtener una señal vocal sin ruido;
un módulo de predicción de señales sin voz, configurado para introducir la señal de voz sin ruido en un modelo de predicción de sonido sin voz entrenado para obtener una señal sin voz emitida desde el modelo de predicción de sonido sin voz; y
un módulo de combinación de señales de voz, configurado para combinar la señal sin voz y la señal vocal sin ruido para obtener una señal de voz combinada.
11. El aparato de acuerdo con la reivindicación 10, en donde el módulo de detección de actividad de voz (12) comprende:
un módulo para la determinación de la información de la frecuencia fundamental, configurado para determinar la información de frecuencia fundamental de la señal de voz recogida por el micrófono no acústico; y
un submódulo para la detección de actividad de voz, configurado para detectar la actividad de voz en función de la información de frecuencia fundamental, para obtener el resultado de la detección de actividad de voz.
12. El aparato de acuerdo con la reivindicación 11, en donde el submódulo para la detección de la actividad de voz comprende:
un módulo para la detección de actividad de voz a nivel de trama, configurado para detectar la actividad de voz a nivel de trama en la señal de voz recogida por el micrófono acústico, basado en la información de la frecuencia fundamental, para obtener un resultado de la detección de actividad de voz del nivel de trama;
en donde el módulo de eliminación de ruido (13) comprende:
un primer módulo de reducción de ruido, configurado para eliminar el ruido de la señal de voz recogida por el micrófono acústico a través de la primera reducción de ruido, basado en el resultado de la detección de actividad de voz del nivel de la trama, para obtener una primera señal vocal sin ruido recogida por el micrófono acústico.
13. El aparato de acuerdo con una cualquiera de las reivindicaciones 10 a 12, en donde el aparato comprende además: un módulo de entrenamiento, configurado para entrenar el modelo de predicción del sonido sin voz a partir de una señal de voz de entrenamiento, en donde la señal de voz de entrenamiento está marcada con una hora de inicio y una hora de finalización de cada señal sin voz y cada señal vocal en la señal de voz de entrenamiento.
14. Un servidor, que comprende:
al menos una memoria y al menos un procesador,
en donde la al menos una memoria almacena un programa, y el al menos un procesador invoca el programa almacenado en la memoria,
en donde el programa está configurado para realizar el método de reducción de ruido de voz de acuerdo con una cualquiera de las reivindicaciones 1 a 9.
15. Un medio de almacenamiento, que almacena un programa informático, en el que el programa informático, cuando lo ejecuta un procesador, realiza el método para reducción de ruido de voz de acuerdo con una cualquiera de las reivindicaciones 1 a 9.
ES18894296T 2017-12-28 2018-06-15 Eliminación de ruido de voz Active ES2960555T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711458315.0A CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质
PCT/CN2018/091459 WO2019128140A1 (zh) 2017-12-28 2018-06-15 一种语音降噪方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
ES2960555T3 true ES2960555T3 (es) 2024-03-05

Family

ID=61871821

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18894296T Active ES2960555T3 (es) 2017-12-28 2018-06-15 Eliminación de ruido de voz

Country Status (7)

Country Link
US (1) US11064296B2 (es)
EP (1) EP3734599B1 (es)
JP (1) JP7109542B2 (es)
KR (1) KR102456125B1 (es)
CN (1) CN107910011B (es)
ES (1) ES2960555T3 (es)
WO (1) WO2019128140A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910011B (zh) 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
CN110074759B (zh) * 2019-04-23 2023-06-06 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN110782912A (zh) * 2019-10-10 2020-02-11 安克创新科技股份有限公司 音源的控制方法以及扬声设备
CN110946554A (zh) * 2019-11-27 2020-04-03 深圳和而泰家居在线网络科技有限公司 咳嗽类型识别方法、装置及系统
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN114694673A (zh) * 2020-12-28 2022-07-01 深圳市韶音科技有限公司 音频降噪的方法和系统
CN113115190B (zh) * 2021-03-31 2023-01-24 歌尔股份有限公司 音频信号处理方法、装置、设备及存储介质
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113470676B (zh) * 2021-06-30 2024-06-25 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN113724694B (zh) * 2021-11-01 2022-03-08 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质
US20230260537A1 (en) * 2022-02-16 2023-08-17 Google Llc Single Vector Digital Voice Accelerometer
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN116110422B (zh) * 2023-04-13 2023-07-04 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统
CN118865993B (zh) * 2024-08-29 2025-02-14 湖南中科优信科技有限公司 语音信号降噪方法、系统及设备

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03241400A (ja) 1990-02-20 1991-10-28 Fujitsu Ltd 音声検出器
JPH03274098A (ja) 1990-03-23 1991-12-05 Ricoh Co Ltd 雑音除去方式
JPH07101853B2 (ja) * 1991-01-30 1995-11-01 長野日本無線株式会社 雑音低減方法
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2005520211A (ja) * 2002-03-05 2005-07-07 アリフコム ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
EP2151821B1 (en) 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
CN102411936B (zh) * 2010-11-25 2012-11-14 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140126743A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Acoustic voice activity detection (avad) for electronic systems
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN203165457U (zh) 2013-03-08 2013-08-28 华南理工大学 一种可用于强噪声环境的语音采集装置
US9532131B2 (en) * 2014-02-21 2016-12-27 Apple Inc. System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
CN104091592B (zh) * 2014-07-02 2017-11-14 常州工学院 一种基于隐高斯随机场的语音转换系统
US9311928B1 (en) * 2014-11-06 2016-04-12 Vocalzoom Systems Ltd. Method and system for noise reduction and speech enhancement
US20180233129A1 (en) * 2015-07-26 2018-08-16 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
EP3157266B1 (en) 2015-10-16 2019-02-27 Nxp B.V. Controller for a haptic feedback element
US10460744B2 (en) 2016-02-04 2019-10-29 Xinxiao Zeng Methods, systems, and media for voice communication
CN106101351A (zh) 2016-07-26 2016-11-09 哈尔滨理工大学 一种用于移动终端的多mic降噪方法
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107093429B (zh) * 2017-05-08 2020-07-10 科大讯飞股份有限公司 主动降噪方法、系统及汽车
CN107910011B (zh) 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
EP3734599A4 (en) 2021-09-01
JP2021503633A (ja) 2021-02-12
KR102456125B1 (ko) 2022-10-17
EP3734599B1 (en) 2023-07-26
US20200389728A1 (en) 2020-12-10
CN107910011A (zh) 2018-04-13
KR20200074199A (ko) 2020-06-24
JP7109542B2 (ja) 2022-07-29
CN107910011B (zh) 2021-05-04
EP3734599A1 (en) 2020-11-04
US11064296B2 (en) 2021-07-13
WO2019128140A1 (zh) 2019-07-04
EP3734599C0 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
ES2960555T3 (es) Eliminación de ruido de voz
JP6034793B2 (ja) オーディオ信号生成システム及び方法
CN110741654B (zh) 耳塞语音估计
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US20080175408A1 (en) Proximity filter
CN104335600B (zh) 多麦克风移动装置中检测及切换降噪模式的方法
JP6031041B2 (ja) 複数のオーディオセンサを有する装置とその動作方法
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
US20100098266A1 (en) Multi-channel audio device
US11290802B1 (en) Voice detection using hearable devices
JPWO2012038998A1 (ja) 雑音抑圧装置
JP2011191423A (ja) 発話認識装置、発話認識方法
JP2022547525A (ja) 音声信号を生成するためのシステム及び方法
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
CN112581970B (zh) 用于音频信号生成的系统和方法
WO2011149969A2 (en) Separating voice from noise using a network of proximity filters
CN117765948A (zh) 可穿戴电子设备及其语音检测方法
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
US11955133B2 (en) Audio signal processing method and system for noise mitigation of a voice signal measured by an audio sensor in an ear canal of a user
CN115668370A (zh) 听力设备自带的语音检测器
US11393449B1 (en) Methods and apparatus for obtaining biometric data
WO2024254974A1 (en) Bone-conduction based speech enhancement on head-mounted wearables
Radha et al. A Study on Alternative Speech Sensor
CN118942491A (zh) 数据处理方法、电子设备、存储介质及计算机程序产品