WO2023171124A1 - 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム - Google Patents
情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム Download PDFInfo
- Publication number
- WO2023171124A1 WO2023171124A1 PCT/JP2023/000764 JP2023000764W WO2023171124A1 WO 2023171124 A1 WO2023171124 A1 WO 2023171124A1 JP 2023000764 W JP2023000764 W JP 2023000764W WO 2023171124 A1 WO2023171124 A1 WO 2023171124A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- audio
- uttered
- information processing
- generates
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 86
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000605 extraction Methods 0.000 claims abstract description 125
- 238000012805 post-processing Methods 0.000 claims abstract description 59
- 238000012937 correction Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims description 82
- 230000000873 masking effect Effects 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 15
- 210000000867 larynx Anatomy 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 6
- 230000001678 irradiating effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 description 9
- 210000001260 vocal cord Anatomy 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/14—Throat mountings for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Definitions
- the present disclosure relates to an information processing device, an information processing method, an information processing program, and an information processing system that extract speech sounds uttered by a user.
- Machine learning-based speech extraction technology aims to extract only human speech from signals containing noise without using reference signals by learning from a wide variety of speech samples.
- the input signal of the microphone includes the voices of multiple people, it is difficult to extract only the voice signal of a specific speaker from among the voices.
- the purpose of the present disclosure is to extract speech sounds uttered by a specific user.
- An information processing device includes: a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech; a post-processing unit that generates a spoken voice signal representing the spoken voice by post-processing the first voice extraction signal based on the correction signal; Equipped with.
- the accuracy of the spoken audio signal is improved compared to the case where the first audio extraction signal is assumed to be the final output. do.
- the correction signal generation unit includes a second audio extraction processing unit that generates a second audio extraction signal by extracting a component of the uttered audio from the vibration signal,
- the post-processing unit may generate the uttered audio signal by post-processing the first audio extraction signal based on the second audio extraction signal.
- the vibration signal that is the basis of the second audio extraction signal does not simply indicate the presence or absence of vibration (the presence or absence of speech), but it depends on the speech voice uttered by the target user, so the accuracy may vary. Able to generate high-quality speech audio signals.
- the correction signal generation unit includes a speech detection unit that generates a masking signal indicating the presence or absence and intensity of the speech sound from the vibration signal,
- the post-processing unit may generate the uttered audio signal by post-processing the first audio extraction signal based on the masking signal.
- the vibration signal that is the basis of the masking signal does not simply indicate the presence or absence of vibration (the presence or absence of speech), but it depends on the speech voice uttered by the target user, so it is a highly accurate speech signal. can be generated.
- the correction signal generation section includes: a second audio extraction processing unit that generates a second audio extraction signal by extracting a component of the uttered audio from the vibration signal; a speech detection unit that generates a masking signal indicating the presence or absence and intensity of the speech sound from the vibration signal,
- the post-processing unit may generate the spoken audio signal by post-processing the first audio extraction signal based on the second audio extraction signal and the masking signal.
- the first audio extraction signal is post-processed based on the second audio extraction signal and the masking signal, compared to the case where the first audio extraction signal is post-processed based on either one of them, The accuracy of the spoken audio signal is improved.
- the first audio extraction processing unit inputs the audio signal into a first learning model that has been trained to output a first audio extraction signal using the audio signal as training data.
- An extracted signal may also be generated.
- the second audio extraction processing unit inputs the vibration signal into a second learning model trained to output a second audio extraction signal using the audio signal and the vibration signal as teacher data. Two audio extraction signals may be generated.
- the vibration signal that is the basis of the second audio extraction signal does not simply indicate the presence or absence of vibration (the presence or absence of speech), but it depends on the speech voice uttered by the target user, so the accuracy may vary. Able to generate high-quality speech audio signals.
- the speech detection unit may generate envelope information as the masking signal.
- the envelope information indicates the presence/absence and intensity of the uttered voice. Since the envelope information does not simply indicate the presence or absence of vibration (the presence or absence of speech), but depends on the speech voice uttered by the target user, a highly accurate masking signal can be generated.
- the part of the user that vibrates in conjunction with the user's speech may be a part of the human body located in or around the larynx, an artificial organ, or a medical device.
- the part of the user that vibrates in conjunction with the user's speech is, for example, an organ, an artificial vocal cord, typically a vocal cord.
- the post-processing section is The uttered audio signal may be output, or a removed signal generated by removing the uttered audio signal from the audio signal may be output.
- the uttered audio signal match a uttered audio waveform that shows only the uttered audio uttered by the target user. Only the speech uttered by the target user may be output, or, conversely, the background sound may be output.
- the vibration signal may be generated by a vibration signal processing unit that generates a vibration signal by processing vibrations input to a vibration input device that inputs vibrations of the region.
- the vibration signal processing section may be separate from the information processing device or may be included in the information processing device.
- the vibration input device includes:
- the sensor is a sensor that directly detects the vibration of the region, and may be built into a device worn on the human body, or may detect the vibration of the region by irradiating the region with a laser.
- Devices worn on the human body include, for example, neckband-type devices (neckband-type headsets, neckband-type speech assist devices, etc.), apparel (high-neck tee-shirts, etc.), stickers (patches) attached to the skin, chokers, ribbons, etc. It may be in the form of a necklace, etc. Alternatively, the vibration input device may detect vibration indirectly.
- the audio signal may be generated by an audio signal processing unit that generates an audio signal by processing audio input to an audio input device that inputs the audio uttered by the user.
- the audio signal processing unit may be separate from the information processing device or may be included in the information processing device.
- An information processing method includes: generating a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; Generating a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech; By post-processing the first audio extraction signal based on the correction signal, a spoken audio signal representing the spoken audio is generated.
- An information processing program includes: information processing equipment, a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech; By post-processing the first audio extraction signal based on the correction signal, the post-processing unit operates as a post-processing unit that generates a spoken audio signal representing the spoken audio.
- An information processing system includes: an audio input device that inputs speech uttered by a user; a vibration input device that inputs vibrations of the user's parts that vibrate in conjunction with the user's speech; a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of the part; a post-processing unit that generates a spoken voice signal representing the spoken voice by post-processing the first voice extraction signal based on the correction signal; an information processing device having; Equipped with.
- FIG. 1 shows a configuration of an information processing system according to an embodiment of the present disclosure.
- An example of a neckband type device is shown. This figure shows how the neckband type device is worn. The operation flow of the information processing system is shown. Each signal waveform is shown.
- FIG. 1 shows the configuration of an information processing system according to an embodiment of the present disclosure.
- the information processing system 1 removes noise including background sounds and voices uttered by other users, and extracts only the voice uttered by one specific user into the microphone.
- An example of a use case of the information processing system 1 is a case where, in an online conference system, only the user's uttered voice is extracted and output to the speaker device of the other party in the online conference.
- Another example of a use case is a case in which only the voice uttered by a user is extracted and recorded using a recorder such as an IC recorder.
- a speech assist device that extracts only the speech of users who have difficulty speaking clearly (handicapped users, elderly people, etc.) and outputs it as a clear artificial voice.
- the speech assist device may be a device integrally configured with a sound collector (hearing assist device).
- the information processing system 1 includes a preprocessing device 50, an information processing device 10, an audio input device 20, and a vibration input device 30.
- the voice input device 20 inputs the voice uttered by the user.
- Audio input device 20 includes a microphone.
- the voice input device 20 may be built in, for example, a device worn on the human body, such as a neckband type device (neckband type headset, neckband type speech assist device, etc.).
- the audio input device 20 may be a built-in microphone in a smartphone, a tablet computer, a personal computer, a head-mounted display, a wearable device, or the like, or a microphone connected to these devices by wire or wirelessly.
- the vibration input device 30 inputs vibrations of the user's parts that vibrate in conjunction with the user's speech.
- the part of the user that vibrates in conjunction with the user's speech is, for example, a part of the human body (e.g., an organ) located in or around the larynx, a prosthetic organ (such as an artificial vocal cord), or a medical device. .
- the user's site is the vocal cords.
- the vibration input device 30 is a sensor (vibration sensor, acceleration sensor, angular velocity sensor, etc.) that directly detects the vibration of a part, and is built into a device worn on the human body.
- Devices worn on the human body include, for example, neckband-type devices (neckband-type headsets, neckband-type speech assist devices, etc.), apparel (high-neck tee-shirts, etc.), stickers (patches) attached to the skin, chokers, ribbons, etc. It may be in the form of a necklace, etc.
- the vibration input device 30 may detect the vibration indirectly, for example, may detect the vibration of the region by irradiating the region with a laser.
- FIG. 2 shows an example of a neckband type device.
- FIG. 3 shows how the neckband type device is worn.
- the voice input device 20 and the vibration input device 30 may be built into the neckband type device 40.
- the audio input device 20 and the vibration input device 30 may be connected by wire (FIG. 2) or wirelessly.
- the vibration input device 30 detects vibrations of the vocal cords located in the larynx and parts of the human body near the larynx (skin, muscles, bones, etc.) as parts of the user that vibrate in conjunction with the user's speech. Detect directly or indirectly.
- the neckband type device 40 may have a UI such as a button 41 for turning on/off functions according to this embodiment (described later). Note that turning the function off means a mode in which the audio input to the audio input device 20 is output without being processed. Using a smartphone or a personal computer (not shown) connected to the neckband type device 40, it may be possible to turn a function on or off or to check the on/off state.
- the preprocessing device 50 is realized by, for example, a smartphone, a tablet computer, a personal computer, a head-mounted display, a wearable device, or the like.
- the preprocessing device 50 may be built into the neckband type device 40.
- the preprocessing device 50 includes an audio signal processing section 501 and a vibration signal processing section 502.
- the audio signal processing unit 501 processes the uttered audio input to the audio input device 20 to generate an audio signal.
- the vibration signal processing unit 502 processes vibrations input to the vibration input device 30 to generate a vibration signal.
- the preprocessing device 50 synchronizes the audio signal and the vibration signal and supplies them to the information processing device 10 .
- the preprocessing device 50 supplies audio signals and vibration signals to the information processing device 10 via a network. Note that the preprocessing device 50 may be included in the information processing device 10 instead of being separate from the information processing device 10.
- the information processing device 10 is typically a server device connected to the preprocessing device 50 via a network.
- the information processing device 10 operates as a first audio extraction processing unit 101, a correction signal generation unit 102, and a post-processing unit 107 when the CPU loads an information processing program recorded in the ROM into the RAM and executes it.
- the correction signal generation section 102 includes a second speech extraction processing section 105 and an utterance detection section 103.
- FIG. 4 shows the operational flow of the information processing system.
- FIG. 5 shows each signal waveform.
- the user speaks into the voice input device 20.
- the audio signal processing unit 501 generates an audio signal 202 by processing (using a high-pass filter, a low-pass filter, etc.) the audio input to the audio input device 20 that inputs the uttered audio uttered by the user (step S101).
- the audio signal 202 includes noise including background sounds and other users' utterances in addition to the utterance waveform 201 showing only the utterances uttered by the target user.
- the horizontal axis represents time and the vertical axis represents intensity.
- the vibration signal processing unit 502 processes (using a high-pass filter, a low-pass filter, etc.) vibrations that are input to the vibration input device 30 such as parts of the user (vocal cords, etc.) that vibrate in conjunction with the user's speech, and generates a vibration signal 203. is generated (step S102).
- the first voice extraction processing unit 101 generates the first voice extraction signal 204 by extracting the components of the voice uttered from the voice signal 202 including the voice uttered by the user (step S103). Specifically, the first audio extraction processing unit 101 generates the first audio extraction signal 204 by inputting the audio signal 202 to the first learning model 104.
- the first learning model 104 is a machine learning model that has learned to output a voice extraction signal (corresponding to the first voice extraction signal) using a large number of voice signals as training data.
- the speech detection unit 103 In the correction signal generation unit 102, the speech detection unit 103 generates a masking signal 205 (an example of a correction signal) from the vibration signal 203 (step S104).
- the masking signal 205 indicates the presence/absence and intensity of the spoken voice.
- the time period in which blanks are continuous in the horizontal axis direction means that there is no speech sound.
- the utterance detection unit 103 generates envelope information as a masking signal 205.
- the vibration signal 203 does not simply indicate the presence or absence of vibration (the presence or absence of speech), but depends on the speech voice uttered by the target user, so a highly accurate masking signal 205 can be generated.
- the second audio extraction processing unit 105 generates a second audio extraction signal 206 (an example of a correction signal) by extracting a component of the spoken audio from the vibration signal 203 (step S105). ). Specifically, the second audio extraction processing unit 105 generates the second audio extraction signal 206 by inputting the vibration signal 203 to the second learning model 106.
- the second learning model 106 is a machine learning model that has learned to output a voice extraction signal (corresponding to a second voice extraction signal) using both a large number of voice signals and vibration signals as teacher data.
- the vibration signal 203 does not simply indicate the presence or absence of vibration (the presence or absence of speech), but depends on the speech voice uttered by the target user, so a highly accurate second voice extraction signal 206 is used. Can be generated.
- the post-processing unit 107 generates the uttered audio signal 207 by post-processing the first audio extraction signal 204 based on the second audio extraction signal 206 and the masking signal 205.
- the generated speech audio signal 207 is transmitted to the information processing device 10 used by other participants participating in the online conference and is played back.
- An example of post-processing is feature association processing.
- the post-processing unit 107 may associate the first audio extraction signal 204 with the second audio extraction signal 206 and generate the result of masking with the masking signal 205 as the uttered audio signal 207. It is desirable that the uttered audio signal 207 match the uttered audio waveform 201 indicating only the uttered audio uttered by the target user.
- the vibration signal 203 which is the basis of the second audio extraction signal 206 and the masking signal 205, does not simply indicate the presence or absence of vibration (the presence or absence of speech); Therefore, a highly accurate speech signal 207 can be generated.
- the post-processing unit 107 outputs the uttered audio signal 207 (step S106). Conversely, the post-processing unit 107 may remove the spoken audio signal 207 from the audio signal 202 and output a generated removal signal (background sound, etc.).
- the correction signal generation section 102 may include at least one of the second speech extraction processing section 105 or the utterance detection section 103.
- the post-processing unit 107 may generate the uttered audio signal 207 by post-processing the first audio extraction signal 204 based on at least one of the second audio extraction signal 206 and the masking signal 205.
- the post-processing section 107 generates the second speech extraction signal 206 or the masking signal 205.
- the uttered audio signal 207 may be generated by post-processing the first audio extraction signal 204 based on at least one of the masking signals 205 .
- the first audio extraction signal 204 is post-processed based on at least one of the second audio extraction signal 206 and the masking signal 205, so it is assumed that the first audio extraction signal 204 is the final output.
- the accuracy of the uttered audio signal 207 is improved compared to the case where the uttered audio signal 207 is
- machine learning-based speech extraction technology aims to extract only human speech from signals containing noise without using reference signals by learning a wide variety of speech samples.
- the input signal of the microphone includes the voices of multiple people, it is difficult to extract only the voice signal of a specific speaker from among the voices.
- the present embodiment it is possible to accurately extract, transmit, or record only the user's voice even in a situation where there is noise including background sounds and voices uttered by other users.
- the accuracy of extraction in whispers can be improved, making it possible to conduct online meetings anywhere.
- the present disclosure may have the following configurations.
- a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech; a post-processing unit that generates a spoken voice signal representing the spoken voice by post-processing the first voice extraction signal based on the correction signal;
- An information processing device comprising: (2) The information processing device according to (1) above, The correction signal generation unit includes a second audio extraction processing unit that generates a second audio extraction signal by extracting a component of the uttered audio from the vibration signal, The post-processing unit generates the uttered audio signal by post-processing the first audio extraction signal based on the second audio extraction signal.
- the correction signal generation unit includes a speech detection unit that generates a masking signal indicating the presence or absence and intensity of the speech sound from the vibration signal,
- the post-processing unit generates the uttered audio signal by post-processing the first audio extraction signal based on the masking signal.
- the correction signal generation section includes: a second audio extraction processing unit that generates a second audio extraction signal by extracting a component of the uttered audio from the vibration signal; a speech detection unit that generates a masking signal indicating the presence or absence and intensity of the speech sound from the vibration signal, The post-processing unit generates the uttered audio signal by post-processing the first audio extraction signal based on the second audio extraction signal and the masking signal.
- the first audio extraction processing unit inputs the audio signal into a first learning model that has been trained to output a first audio extraction signal using the audio signal as training data. An information processing device that generates an extracted signal.
- the information processing device inputs the vibration signal into a second learning model trained to output a second audio extraction signal using the audio signal and the vibration signal as teacher data.
- An information processing device that generates the audio extraction signal of No. 2. (7) The information processing device according to (3) or (4) above, The information processing device, wherein the speech detection unit generates envelope information as the masking signal.
- the information processing device according to any one of (1) to (7) above, The part of the user that vibrates in conjunction with the user's speech is a part of the human body located in or around the larynx, an artificial organ, or a medical device. Information processing apparatus.
- the post-processing section is An information processing device that outputs the uttered audio signal, or outputs a removed signal generated by removing the uttered audio signal from the audio signal.
- the vibration signal is generated by a vibration signal processing unit that generates a vibration signal by processing vibrations input to a vibration input device that inputs vibrations of the region.
- the vibration input device includes: An information processing device that is a sensor that directly detects the vibrations of the region, and is built into a device worn on the human body, or that detects the vibrations of the region by irradiating the region with a laser.
- the audio signal is generated by an audio signal processing unit that generates an audio signal by processing audio input to an audio input device that inputs the audio uttered by the user.
- (13) generating a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; Generating a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech;
- An information processing method comprising post-processing the first audio extraction signal based on the correction signal to generate a spoken audio signal representing the spoken audio.
- (14) information processing equipment a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's speech; An information processing program that operates as a post-processing unit that generates a spoken voice signal representing the spoken voice by post-processing the first voice extraction signal based on the correction signal.
- an audio input device that inputs speech uttered by a user; a vibration input device that inputs vibrations of the user's parts that vibrate in conjunction with the user's speech; a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of the part; a post-processing unit that generates a spoken voice signal representing the spoken voice by post-processing the first voice extraction signal based on the correction signal; an information processing device having;
- An information processing system comprising: (16) information processing equipment, a first audio extraction processing unit that generates a first audio extraction signal by extracting a component of the uttered audio from an audio signal including the uttered audio uttered by the user; a correction signal generation unit that generates a correction signal from a vibration signal indicating vibration of a part of the user that vibrates in conjunction with the user's
- Information processing system 10 Information processing device 101 First speech extraction processing section 102 Correction signal generation section 103 Utterance detection section 104 First learning model 105 Second speech extraction processing section 106 Second learning model 107 Post-processing section 20 Audio input device 201 Speech audio waveform 202 Audio signal 203 Vibration signal 204 First audio extraction signal 205 Masking signal 206 Second audio extraction signal 207 Speech audio signal 30 Vibration input device 40 Neckband type device 41 Button 50 Preprocessing device 501 Audio signal processing section 502 Vibration signal processing section
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】特定のユーザの発話した発話音声を抽出する。 【解決手段】情報処理装置は、ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、を具備する。
Description
本開示は、ユーザの発話した発話音声を抽出する情報処理装置、情報処理方法、情報処理プログラム及び情報処理システムに関する。
ユーザがマイクロフォンに向かって発話した発話音声を抽出する技術が知られている。
機械学習型の音声抽出技術は、多種多様な音声サンプルを学習することでノイズを含む信号から参考信号を利用せずに人の音声のみを抽出することを図る。一方、マイクロフォンの入力信号が複数人の音声を含む場合、その中から特定の話者の音声信号のみを抽出することは困難である。
オンライン会議等が普及する現在、マイクロフォンに向かって発話する特定のユーザの発話音声を高精度に抽出することが要求される。
以上のような事情に鑑み、本開示の目的は、特定のユーザの発話した発話音声を抽出することにある。
本開示の一形態に係る情報処理装置は、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を具備する。
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を具備する。
本実施形態によれば、補正信号に基づき第1の音声抽出信号を後処理するので、第1の音声抽出信号を最終的な出力とすると仮定した場合に比べて、発話音声信号の精度が向上する。
前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部を含み、
前記後処理部は、前記第2の音声抽出信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
前記後処理部は、前記第2の音声抽出信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
第2の音声抽出信号の基になる振動信号は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号を生成できる。
前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
前記後処理部は、前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
前記後処理部は、前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
マスキング信号の基になる振動信号は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号を生成できる。
前記補正信号生成部は、
前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部と、
前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
前記後処理部は、前記第2の音声抽出信号及び前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部と、
前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
前記後処理部は、前記第2の音声抽出信号及び前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成してもよい。
本実施形態によれば、第2の音声抽出信号及びマスキング信号に基づき第1の音声抽出信号を後処理するので、いずれか一方に基づき第1の音声抽出信号を後処理する場合に比べて、発話音声信号の精度が向上する。
前記第1の音声抽出処理部は、音声信号を教師データとして第1の音声抽出信号を出力するように学習した第1の学習モデルに、前記音声信号を入力することにより、前記第1の音声抽出信号を生成してもよい。
前記第2の音声抽出処理部は、音声信号及び振動信号を教師データとして第2の音声抽出信号を出力するように学習した第2の学習モデルに、前記振動信号を入力することにより、前記第2の音声抽出信号を生成してもよい。
第2の音声抽出信号の基になる振動信号は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号を生成できる。
前記発話検出部は、前記マスキング信号として包絡線情報を生成してもよい。
包絡線情報は、発話音声の有無及び強度を示す。包絡線情報は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高いマスキング信号を生成できる。
前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器でもよい。
ユーザが発話するのと連動して振動するユーザの部位は、例えば、器官、人工声帯、典型的には、声帯である。
前記後処理部は、
前記発話音声信号を出力する、又は
前記音声信号から前記発話音声信号を除去して生成した除去信号を出力してもよい。
前記発話音声信号を出力する、又は
前記音声信号から前記発話音声信号を除去して生成した除去信号を出力してもよい。
発話音声信号は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形と一致することが望ましい。ターゲットのユーザの発話した発話音声のみを出力してもよいし、逆に、背景音を出力してもよい。
前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成されてもよい。
振動信号処理部は、情報処理装置と別個でもよいし、情報処理装置に含まれてもよい。
前記振動入力デバイスは、
前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
前記部位にレーザを照射して前記部位の振動を検出してもよい。
前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
前記部位にレーザを照射して前記部位の振動を検出してもよい。
人体に装着するデバイスは、例えば、ネックバンド型デバイス(ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等)、アパレル(ハイネックティーシャツ等)、皮膚に貼り付けるシール(パッチ)、チョーカ、リボン、ネックレス等の形態でよい。あるいは、振動入力デバイスは、振動を間接的に検出してもよい。
前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成されてもよい。
音声信号処理部は、情報処理装置と別個でもよいし、情報処理装置に含まれてもよい。
本開示の一形態に係る情報処理方法は、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成し、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する。
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成し、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する。
本開示の一形態に係る情報処理プログラムは、
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる。
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる。
本開示の一形態に係る情報処理システムは、
ユーザの発話した発話音声を入力する音声入力デバイスと、
ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を有する情報処理装置と、
を具備する。
ユーザの発話した発話音声を入力する音声入力デバイスと、
ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を有する情報処理装置と、
を具備する。
以下、図面を参照しながら、本開示の実施形態を説明する。
1.情報処理システムの構成
図1は、本開示の一実施形態に係る情報処理システムの構成を示す。
情報処理システム1は、背景音や他のユーザの発話音声を含むノイズを除去して特定の1人のユーザがマイクロフォンに向かって発話した発話音声だけを抽出する。情報処理システム1のユースケースの一例として、オンライン会議システムにおいて、ユーザの発話音声をだけを抽出し、オンライン会議の相手のスピーカデバイスに出力するケースが挙げられる。ユースケースの別の例として、ICレコーダ等の録音機において、ユーザの発話音声をだけを抽出し、録音するケースが挙げられる。ユースケースの別の例として、明瞭に発話することが困難なユーザ(ハンディキャップのあるユーザ、高齢者等)の発話音声をだけを抽出し、明瞭な人工音声で出力する発話補助デバイスが挙げられる。発話補助デバイスは集音機(ヒアリング補助デバイス)と一体的に構成されたデバイスでもよい。
情報処理システム1は、前処理装置50と、情報処理装置10と、音声入力デバイス20と、振動入力デバイス30と、を有する。
音声入力デバイス20は、ユーザの発話した発話音声を入力する。音声入力デバイス20は、マイクロフォンを含む。音声入力デバイス20は、例えば、ネックバンド型デバイス(ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等)の様に人体に装着するデバイスに内蔵されてもよい。音声入力デバイス20は、スマートフォン、タブレットコンピュータ、パーソナルコンピュータ、ヘッドマウントディスプレイ、ウェアラブルデバイス等に内蔵のマイクロフォンや、これらのデバイスに有線又は無線で接続されるマイクロフォンでもよい。
振動入力デバイス30は、ユーザが発話するのと連動して振動するユーザの部位の振動を入力する。ユーザが発話するのと連動して振動するユーザの部位は、例えば、喉頭に位置する又は喉頭の周辺に位置する人体の部位(例えば、器官)、人工器官(人工声帯等)又は医療機器である。典型的には、ユーザの部位は、声帯である。振動入力デバイス30は、部位の振動を直接検出するセンサ(振動センサ、加速度センサ、角速度センサ等)であり、人体に装着するデバイスに内蔵される。人体に装着するデバイスは、例えば、ネックバンド型デバイス(ネックバンド型ヘッドセット、ネックバンド型発話補助デバイス等)、アパレル(ハイネックティーシャツ等)、皮膚に貼り付けるシール(パッチ)、チョーカ、リボン、ネックレス等の形態でよい。あるいは、振動入力デバイス30は、振動を間接的に検出してもよく、例えば、部位にレーザを照射して部位の振動を検出してもよい。
図2は、ネックバンド型デバイスの一例を示す。図3は、ネックバンド型デバイスの装着時の様子を示す。
一例として、音声入力デバイス20及び振動入力デバイス30は、ネックバンド型デバイス40に内蔵されてもよい。この場合、音声入力デバイス20と振動入力デバイス30とは有線で接続されてもよいし(図2)、無線で接続されてもよい。本図で、振動入力デバイス30は、ユーザが発話するのと連動して振動するユーザの部位として、喉頭に位置する声帯や、喉頭付近の人体の部位(皮膚、筋肉、骨等)の振動を直接的又は間接的に検出する。
ネックバンド型デバイス40は、本実施形態に係る機能(後述)をOn・Offするボタン41等のUIを有してもよい。なお、機能をOffとは、音声入力デバイス20に入力された音声を未処理で出力するモードを意味する。ネックバンド型デバイス40と接続されるスマートフォンやパーソナルコンピュータ(不図示)を用いて、機能のOn・Offや、On・Offの状態の確認が可能でもよい。
前処理装置50は、例えば、スマートフォン、タブレットコンピュータ、パーソナルコンピュータ、ヘッドマウントディスプレイ、ウェアラブルデバイス等により実現される。音声入力デバイス20及び振動入力デバイス30がネックバンド型デバイス40に内蔵される場合、前処理装置50は、ネックバンド型デバイス40に内蔵されてもよい。
前処理装置50は、音声信号処理部501及び振動信号処理部502を含む。音声信号処理部501は、音声入力デバイス20に入力される発話音声を処理して音声信号を生成する。振動信号処理部502は、振動入力デバイス30に入力される振動を処理して振動信号を生成する。前処理装置50は、音声信号及び振動信号を同期して情報処理装置10に供給する。典型的には、前処理装置50は、音声信号及び振動信号を、ネットワークを介して情報処理装置10に供給する。なお、前処理装置50は、情報処理装置10と別個ではなく、情報処理装置10に含まれてもよい。
情報処理装置10は、典型的には、前処理装置50とネットワークを介して接続されるサーバ装置である。情報処理装置10は、CPUがROMに記録された情報処理プログラムをRAMにロードして実行することにより、第1の音声抽出処理部101、補正信号生成部102及び後処理部107として動作する。補正信号生成部102は、第2の音声抽出処理部105及び発話検出部103を含む。
2.情報処理システムの動作フロー
図4は、情報処理システムの動作フローを示す。図5は、各信号波形を示す。
ユーザは、音声入力デバイス20に向かって発話する。音声信号処理部501は、ユーザの発話した発話音声を入力する音声入力デバイス20に入力される音声を処理(ハイパスフィルタ、ローパスフィルタ等)して音声信号202を生成する(ステップS101)。音声信号202は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形201に加えて、背景音や他のユーザの発話音声を含むノイズを含む。図5において、横軸は時間、縦軸は強度を示す。
振動信号処理部502は、ユーザが発話するのと連動して振動するユーザの部位(声帯等)振動入力デバイス30に入力される振動を処理(ハイパスフィルタ、ローパスフィルタ等)して振動信号203を生成する(ステップS102)。
第1の音声抽出処理部101は、ユーザの発話した発話音声を含む音声信号202から、発話音声の成分を抽出することにより第1の音声抽出信号204を生成する(ステップS103)。具体的には、第1の音声抽出処理部101は、第1の学習モデル104に音声信号202を入力することにより、第1の音声抽出信号204を生成する。第1の学習モデル104は、多数の音声信号を教師データとして音声抽出信号(第1の音声抽出信号に相当)を出力するように学習した機械学習モデルである。
補正信号生成部102において、発話検出部103は、振動信号203からマスキング信号205(補正信号の一例)を生成する(ステップS104)。マスキング信号205は、発話音声の有無及び強度を示す。図5のマスキング信号205では、横軸方向に空白が連続する部分の時間は、発話音声が無いことを意味する。発話検出部103は、マスキング信号205として包絡線情報を生成する。振動信号203は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高いマスキング信号205を生成できる。
補正信号生成部102において、第2の音声抽出処理部105は、振動信号203から、発話音声の成分を抽出することにより第2の音声抽出信号206(補正信号の一例)を生成する(ステップS105)。具体的には、第2の音声抽出処理部105は、第2の学習モデル106に振動信号203を入力することにより、第2の音声抽出信号206を生成する。第2の学習モデル106は、多数の音声信号及び振動信号の両方を教師データとして音声抽出信号(第2の音声抽出信号に相当)を出力するように学習した機械学習モデルである。振動信号203は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い第2の音声抽出信号206を生成できる。
後処理部107は、第2の音声抽出信号206及びマスキング信号205に基づき第1の音声抽出信号204を後処理することにより、発話音声信号207を生成する。生成された発話音声信号207は、オンライン会議に参加している他の参加者が使用する情報処理装置10に送信され、再生される。後処理の一例として、特徴関連付け処理が挙げられる。例えば、後処理部107は、第1の音声抽出信号204に第2の音声抽出信号206を関連付け、マスキング信号205でマスクした結果を発話音声信号207として生成してもよい。発話音声信号207は、ターゲットのユーザの発話した発話音声のみを示す発話音声波形201と一致することが望ましい。第2の音声抽出信号206及びマスキング信号205の基になる振動信号203は、単に振動の有無があるか(発話の有無があるか)を示すものではなく、ターゲットのユーザの発話した発話音声に依存するので、精度の高い発話音声信号207を生成できる。後処理部107は、発話音声信号207を出力する(ステップS106)。逆に、後処理部107は、音声信号202から発話音声信号207を除去して生成した除去信号(背景音等)を出力してもよい。
変形例として、補正信号生成部102は、第2の音声抽出処理部105又は発話検出部103の少なくとも何れか一方を有すればよい。この場合、後処理部107は、第2の音声抽出信号206又はマスキング信号205の少なくとも何れか一方に基づき第1の音声抽出信号204を後処理することにより、発話音声信号207を生成すればよい。また、何らかの理由により第2の音声抽出処理部105又は発話検出部103が第2の音声抽出信号206又はマスキング信号205を生成できない場合も、後処理部107は、第2の音声抽出信号206又はマスキング信号205の少なくとも何れか一方に基づき第1の音声抽出信号204を後処理することにより、発話音声信号207を生成すればよい。この方法でも、第2の音声抽出信号206又はマスキング信号205の少なくとも何れか一方に基づき第1の音声抽出信号204を後処理するので、第1の音声抽出信号204を最終的な出力とすると仮定した場合に比べて、発話音声信号207の精度が向上する。
3.結語
典型的に、機械学習型の音声抽出技術は、多種多様な音声サンプルを学習することでノイズを含む信号から参考信号を利用せずに人の音声のみを抽出することを図る。一方、マイクロフォンの入力信号が複数人の音声を含む場合、その中から特定の話者の音声信号のみを抽出することは困難である。
これに対して、本実施形態によれば、背景音や他のユーザの発話音声を含むノイズがある状況下でも、ユーザの音声のみを正確に抽出し、送信や録音することが可能である。また、小声での抽出精度も改善できるため、オンライン会議など場所を選ばずに実施することが可能である。
本開示は、以下の各構成を有してもよい。
(1)
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を具備する情報処理装置。
(2)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部を含み、
前記後処理部は、前記第2の音声抽出信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(3)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
前記後処理部は、前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(4)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、
前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部と、
前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
前記後処理部は、前記第2の音声抽出信号及び前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(5)
上記(1)乃至(4)のいずれか一項に記載の情報処理装置であって、
前記第1の音声抽出処理部は、音声信号を教師データとして第1の音声抽出信号を出力するように学習した第1の学習モデルに、前記音声信号を入力することにより、前記第1の音声抽出信号を生成する
情報処理装置。
(6)
上記(2)又は(4)に記載の情報処理装置であって、
前記第2の音声抽出処理部は、音声信号及び振動信号を教師データとして第2の音声抽出信号を出力するように学習した第2の学習モデルに、前記振動信号を入力することにより、前記第2の音声抽出信号を生成する
情報処理装置。
(7)
上記(3)又は(4)に記載の情報処理装置であって、
前記発話検出部は、前記マスキング信号として包絡線情報を生成する
情報処理装置。
(8)
上記(1)乃至(7)のいずれか一項に記載の情報処理装置であって、
前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器である
情報処理装置。
(9)
上記(1)乃至(8)のいずれか一項に記載の情報処理装置であって、
前記後処理部は、
前記発話音声信号を出力する、又は
前記音声信号から前記発話音声信号を除去して生成した除去信号を出力する
情報処理装置。
(10)
上記(1)乃至(9)のいずれか一項に記載の情報処理装置であって、
前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成される
情報処理装置。
(11)
上記(10)に記載の情報処理装置であって、
前記振動入力デバイスは、
前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
前記部位にレーザを照射して前記部位の振動を検出する
情報処理装置。
(12)
上記(1)乃至(11)のいずれか一項に記載の情報処理装置であって、
前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成される
情報処理装置。
(13)
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成し、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する
情報処理方法。
(14)
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる情報処理プログラム。
(15)
ユーザの発話した発話音声を入力する音声入力デバイスと、
ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を有する情報処理装置と、
を具備する情報処理システム。
(16)
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる情報処理プログラム
を記録した非一過性のコンピュータ読み取り可能な記録媒体。
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を具備する情報処理装置。
(2)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部を含み、
前記後処理部は、前記第2の音声抽出信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(3)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
前記後処理部は、前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(4)
上記(1)に記載の情報処理装置であって、
前記補正信号生成部は、
前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部と、
前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
前記後処理部は、前記第2の音声抽出信号及び前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。
(5)
上記(1)乃至(4)のいずれか一項に記載の情報処理装置であって、
前記第1の音声抽出処理部は、音声信号を教師データとして第1の音声抽出信号を出力するように学習した第1の学習モデルに、前記音声信号を入力することにより、前記第1の音声抽出信号を生成する
情報処理装置。
(6)
上記(2)又は(4)に記載の情報処理装置であって、
前記第2の音声抽出処理部は、音声信号及び振動信号を教師データとして第2の音声抽出信号を出力するように学習した第2の学習モデルに、前記振動信号を入力することにより、前記第2の音声抽出信号を生成する
情報処理装置。
(7)
上記(3)又は(4)に記載の情報処理装置であって、
前記発話検出部は、前記マスキング信号として包絡線情報を生成する
情報処理装置。
(8)
上記(1)乃至(7)のいずれか一項に記載の情報処理装置であって、
前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器である
情報処理装置。
(9)
上記(1)乃至(8)のいずれか一項に記載の情報処理装置であって、
前記後処理部は、
前記発話音声信号を出力する、又は
前記音声信号から前記発話音声信号を除去して生成した除去信号を出力する
情報処理装置。
(10)
上記(1)乃至(9)のいずれか一項に記載の情報処理装置であって、
前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成される
情報処理装置。
(11)
上記(10)に記載の情報処理装置であって、
前記振動入力デバイスは、
前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
前記部位にレーザを照射して前記部位の振動を検出する
情報処理装置。
(12)
上記(1)乃至(11)のいずれか一項に記載の情報処理装置であって、
前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成される
情報処理装置。
(13)
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成し、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する
情報処理方法。
(14)
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる情報処理プログラム。
(15)
ユーザの発話した発話音声を入力する音声入力デバイスと、
ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を有する情報処理装置と、
を具備する情報処理システム。
(16)
情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる情報処理プログラム
を記録した非一過性のコンピュータ読み取り可能な記録媒体。
本技術の各実施形態及び各変形例について上に説明したが、本技術は上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
1 情報処理システム
10 情報処理装置
101 第1の音声抽出処理部
102 補正信号生成部
103 発話検出部
104 第1の学習モデル
105 第2の音声抽出処理部
106 第2の学習モデル
107 後処理部
20 音声入力デバイス
201 発話音声波形
202 音声信号
203 振動信号
204 第1の音声抽出信号
205 マスキング信号
206 第2の音声抽出信号
207 発話音声信号
30 振動入力デバイス
40 ネックバンド型デバイス
41 ボタン
50 前処理装置
501 音声信号処理部
502 振動信号処理部
10 情報処理装置
101 第1の音声抽出処理部
102 補正信号生成部
103 発話検出部
104 第1の学習モデル
105 第2の音声抽出処理部
106 第2の学習モデル
107 後処理部
20 音声入力デバイス
201 発話音声波形
202 音声信号
203 振動信号
204 第1の音声抽出信号
205 マスキング信号
206 第2の音声抽出信号
207 発話音声信号
30 振動入力デバイス
40 ネックバンド型デバイス
41 ボタン
50 前処理装置
501 音声信号処理部
502 振動信号処理部
Claims (15)
- ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を具備する情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部を含み、
前記後処理部は、前記第2の音声抽出信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記補正信号生成部は、前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部を含み、
前記後処理部は、前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記補正信号生成部は、
前記振動信号から、前記発話音声の成分を抽出することにより第2の音声抽出信号を生成する第2の音声抽出処理部と、
前記振動信号から、前記発話音声の有無及び強度を示すマスキング信号を生成する発話検出部と、を含み、
前記後処理部は、前記第2の音声抽出信号及び前記マスキング信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声信号を生成する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記第1の音声抽出処理部は、音声信号を教師データとして第1の音声抽出信号を出力するように学習した第1の学習モデルに、前記音声信号を入力することにより、前記第1の音声抽出信号を生成する
情報処理装置。 - 請求項2に記載の情報処理装置であって、
前記第2の音声抽出処理部は、音声信号及び振動信号を教師データとして第2の音声抽出信号を出力するように学習した第2の学習モデルに、前記振動信号を入力することにより、前記第2の音声抽出信号を生成する
情報処理装置。 - 請求項3に記載の情報処理装置であって、
前記発話検出部は、前記マスキング信号として包絡線情報を生成する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記ユーザが発話するのと連動して振動する前記ユーザの部位は、喉頭に位置する又は喉頭の周辺に位置する人体の部位、人工器官又は医療機器である
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記後処理部は、
前記発話音声信号を出力する、又は
前記音声信号から前記発話音声信号を除去して生成した除去信号を出力する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記振動信号は、前記部位の振動を入力する振動入力デバイスに入力される振動を処理して振動信号を生成する振動信号処理部により生成される
情報処理装置。 - 請求項10に記載の情報処理装置であって、
前記振動入力デバイスは、
前記部位の振動を直接検出するセンサであり、人体に装着するデバイスに内蔵され、又は
前記部位にレーザを照射して前記部位の振動を検出する
情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記音声信号は、前記ユーザの発話した発話音声を入力する音声入力デバイスに入力される音声を処理して音声信号を生成する音声信号処理部により生成される
情報処理装置。 - ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成し、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成し、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する
情報処理方法。 - 情報処理装置を、
ユーザの発話した発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記ユーザが発話するのと連動して振動する前記ユーザの部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部
として動作させる情報処理プログラム。 - ユーザの発話した発話音声を入力する音声入力デバイスと、
ユーザが発話するのと連動して振動する前記ユーザの部位の振動を入力する振動入力デバイスと、
前記発話音声を含む音声信号から、前記発話音声の成分を抽出することにより第1の音声抽出信号を生成する第1の音声抽出処理部と、
前記部位の振動を示す振動信号から、補正信号を生成する補正信号生成部と、
前記補正信号に基づき前記第1の音声抽出信号を後処理することにより、前記発話音声を示す発話音声信号を生成する後処理部と、
を有する情報処理装置と、
を具備する情報処理システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-034660 | 2022-03-07 | ||
JP2022034660 | 2022-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023171124A1 true WO2023171124A1 (ja) | 2023-09-14 |
Family
ID=87936722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/000764 WO2023171124A1 (ja) | 2022-03-07 | 2023-01-13 | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023171124A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020181060A (ja) * | 2019-04-24 | 2020-11-05 | ヤフー株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム |
JP2021503633A (ja) * | 2017-12-28 | 2021-02-12 | アイフライテック カンパニー,リミテッド | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 |
-
2023
- 2023-01-13 WO PCT/JP2023/000764 patent/WO2023171124A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021503633A (ja) * | 2017-12-28 | 2021-02-12 | アイフライテック カンパニー,リミテッド | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 |
JP2020181060A (ja) * | 2019-04-24 | 2020-11-05 | ヤフー株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4131256A1 (en) | Voice recognition system and method using accelerometers for sensing bone conduction | |
Nakamura et al. | Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech | |
JP6484317B2 (ja) | 発話認識システム、発話認識装置、および発話認識方法 | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
US10157626B2 (en) | Voice affect modification | |
Denby et al. | Silent speech interfaces | |
CN107112026A (zh) | 用于智能语音识别和处理的系统、方法和装置 | |
US20100131268A1 (en) | Voice-estimation interface and communication system | |
US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
WO2004021738A1 (ja) | マイクロフォン、コミュニケーションインタフェースシステム | |
JP3670180B2 (ja) | 補聴器 | |
Fuchs et al. | The new bionic electro-larynx speech system | |
Freitas et al. | An introduction to silent speech interfaces | |
CN114328851A (zh) | 用于私密对话的耳语转换 | |
WO2020079918A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2021108021A5 (ja) | ||
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Lin et al. | Optical microphone-based speech reconstruction system with deep learning for individuals with hearing loss | |
Freitas et al. | Multimodal corpora for silent speech interaction | |
Ifukube | Sound-based assistive technology | |
WO2023171124A1 (ja) | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム | |
Beskow et al. | Visualization of speech and audio for hearing impaired persons | |
WO2020208926A1 (ja) | 信号処理装置、信号処理方法及びプログラム | |
JP2022181437A (ja) | 音声処理システム及び音声処理方法 | |
CN111816182A (zh) | 助听语音识别方法、装置及助听设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23766305 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18842325 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 23766305 Country of ref document: EP Kind code of ref document: A1 |