WO2019187371A1 - 音声処理装置、音声処理方法および音声処理システム - Google Patents
音声処理装置、音声処理方法および音声処理システム Download PDFInfo
- Publication number
- WO2019187371A1 WO2019187371A1 PCT/JP2018/045419 JP2018045419W WO2019187371A1 WO 2019187371 A1 WO2019187371 A1 WO 2019187371A1 JP 2018045419 W JP2018045419 W JP 2018045419W WO 2019187371 A1 WO2019187371 A1 WO 2019187371A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- speaker
- vehicle
- microphone
- audio
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 156
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000001514 detection method Methods 0.000 claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims description 105
- 206010002953 Aphonia Diseases 0.000 claims 1
- 238000003491 array Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 35
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 238000003860 storage Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000003139 buffering effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R11/02—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R11/02—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
- B60R11/0217—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for loud-speakers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R11/02—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
- B60R11/0247—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for microphones or earphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/025—Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R2011/0001—Arrangements for holding or mounting articles, not otherwise provided for characterised by position
- B60R2011/0003—Arrangements for holding or mounting articles, not otherwise provided for characterised by position inside the vehicle
- B60R2011/0005—Dashboard
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R2011/0001—Arrangements for holding or mounting articles, not otherwise provided for characterised by position
- B60R2011/0003—Arrangements for holding or mounting articles, not otherwise provided for characterised by position inside the vehicle
- B60R2011/0019—Side or rear panels
- B60R2011/0021—Doors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Definitions
- the present disclosure relates to a voice processing device and a voice processing system mounted on a vehicle in which a plurality of different microphones are arranged corresponding to each of a plurality of seats, and a voice processing method executed by the voice processing device.
- a relatively large vehicle in which a plurality of seats (for example, three or more rows) are arranged in the front-rear direction of the vehicle body, such as a minivan, a wagon car, a one-box car, etc., a driver sitting in a driver seat and a passenger sitting in a rear seat Conversation with the driver (for example, the driver's family or friends), or playing car audio music to the rear seat, and using the microphone and speaker installed in each seat, the voice is occupant or in-vehicle equipment It is being considered to install audio technology that transmits and receives data between the two.
- the communication interface has a function of wireless communication, and is constructed by, for example, a mobile phone network (cellular network), a wireless LAN (Local Area Network), etc., and a network environment is also maintained in the vehicle.
- Drivers and the like can access various services during driving by accessing, for example, a cloud computing system (hereinafter also simply referred to as “cloud”) on the Internet line through such a communication interface.
- cloud a cloud computing system
- an automatic speech recognition system is accelerating as one of the voice technologies using the cloud in home appliances.
- This automatic speech recognition system is spreading as a human-machine interface for receiving services on the cloud.
- speech uttered by a person is converted into text data, and the content of the speech is recognized by a control device such as a computer.
- the automatic speech recognition system is an interface that replaces keyboard input using human fingers, and can be instructed to a computer or the like by an operation closer to that of a human.
- a driver's finger is taken by a conventional driver-driven driving operation or a steering operation during, for example, automatic driving at an automatic driving level 3, so that the indispensable motivation for introducing voice technology for automatic voice recognition to the vehicle is necessary. There is.
- NHTSA National Highway Traffic Safety Safety Administration
- driver assistance level 1
- partial driving automation level 2
- conditional driving automation level 3
- advanced operation automation level 4
- fully automatic operation level 5
- the automatic driving system leads driving, and human driving is requested as necessary.
- Level 3 of the automatic driving system has been put into practical use in recent years.
- uttered audio data speech signal
- a hot word audio fingerprint of the audio data determined to correspond to the hot word is generated.
- a technique is known in which access to a computer device that has been uttered is invalidated when the hot word audio fingerprint matches a previously stored hot word audio fingerprint (see, for example, Patent Document 1).
- hot word refers to a reserved voice set in advance for causing the system or the control apparatus to perform a corresponding operation.
- a hot word is a predetermined word (specific word) that triggers transmission of a command or command, and is also referred to as WuW (Wake (Up Word).
- WuW WuW
- Up Word the predetermined word
- the predetermined word is hereinafter also referred to as “WuW (Wake up Word)” or wakeup word.
- Patent Document 1 is configured assuming that the hot word, that is, WuW is uttered in a quiet environment.
- the hot word that is, WuW is uttered in a quiet environment.
- it is considered to detect from which direction the WuW is uttered in the vehicle. Absent.
- the present disclosure is devised in view of the above-described conventional circumstances, and quickly detects the utterance direction of a predetermined word (for example, a wake-up word) uttered in a vehicle, and the speaker of the predetermined word is determined by the predetermined word. It is another object of the present invention to provide a speech processing apparatus, a speech processing method, and a speech processing system that extract speech uttered exclusively from speech other than that speaker.
- a predetermined word for example, a wake-up word
- the present disclosure is an audio processing device mounted on a vehicle in which a plurality of different microphones are arranged corresponding to each of a plurality of seats, and a predetermined amount of sound collected by each of the plurality of different microphones.
- a holding unit that holds a signal
- a word detection unit that detects the presence or absence of a voice of a predetermined word uttered by a speaker riding in the vehicle, based on audio signals collected by each of the plurality of different microphones
- a speaker that picks up the voice signal of the predetermined word based on the characteristics of the voice signal for the predetermined time held in the holding unit
- the voice uttered by the speaker is obtained by using a microphone identification unit that identifies the microphone as a position microphone, the audio signal for the predetermined time held in the holding unit, and information on the speaker position microphone.
- a voice processing unit for suppressing the speech occupant not the speaker utters, to provide a speech processing apparatus.
- the present disclosure is an audio processing method in an audio processing device mounted on a vehicle in which a plurality of different microphones are arranged corresponding to each of a plurality of seats, and the sound is collected by each of the plurality of different microphones.
- a voice of a predetermined word uttered by a speaker on the vehicle based on the step of holding the voice signal for a predetermined time in the holding unit and the voice signal collected by each of the plurality of different microphones Detecting the presence / absence of the predetermined word, and when the voice of the predetermined word is detected, the voice signal of the predetermined word is collected based on the characteristics of the voice signal for the predetermined time held in the holding unit.
- the audio signal for the predetermined time held in the holding unit, and the information on the speaker position microphone It outputs the sound the speaker utters, and a step of suppressing the speech occupant not the speaker utters, to provide a speech processing method.
- the present disclosure provides a sound including a sound processing device mounted on a vehicle in which a plurality of different microphones are arranged corresponding to each of a plurality of seats, and a control device that controls an in-vehicle device mounted on the vehicle.
- the sound processing device holds a sound signal for a predetermined time collected by each of the plurality of different microphones in a holding unit, and the sound collected by each of the plurality of different microphones Based on the signal, the presence / absence of a voice of a predetermined word uttered by a speaker riding in the vehicle is detected, and when the voice of the predetermined word is detected, the predetermined time held by the holding unit is detected.
- a microphone that picks up the voice signal of the predetermined word is specified as a speaker position microphone based on the characteristics of the voice signal of the voice signal, and the voice signal for the predetermined time held in the holding unit; Using the information about the speaker position microphone, outputting the voice uttered by the speaker, suppressing the voice uttered by the occupant who is not the speaker, and obtaining the recognition result of the voice uttered by the speaker;
- the said control apparatus provides the audio
- a predetermined word for example, a wake-up word
- the speaker utters the voice uttered following the predetermined word by the speaker. Extracted exclusively for audio other than.
- a predetermined word for example, a wake-up word
- the accuracy and performance of automatic speech recognition and the like can be improved, and the in-vehicle device can be operated quickly based on detection of a predetermined word.
- FIG. 1 Functional block diagram for explaining the configuration of the speech processing system according to Embodiment 1 Processing block diagram for explaining the configuration of the voice control unit according to the first embodiment
- the flowchart which shows the operation
- FIG. Sequence diagram showing operation procedure between voice processing apparatus and voice recognition server Processing block diagram showing the operation of the voice control unit of the first modified example according to the first embodiment
- the flowchart which shows the operation
- Top view of the vehicle according to the second embodiment Functional block diagram for explaining the system configuration of the speech processing apparatus according to the second embodiment.
- Processing block diagram showing signal processing operation of the audio processing unit according to the second embodiment The flowchart which shows the operation
- the “unit” or “apparatus” referred to in the first embodiment is not limited to a physical configuration realized simply by hardware, but includes a function realized by the configuration realized by software such as a program. Further, the functions of one configuration may be realized by two or more physical configurations, or the functions of two or more configurations may be realized by, for example, one physical configuration.
- the audio processing device, the audio processing method, and the audio processing system that can be mounted on the vehicle according to each embodiment are mounted on the vehicle, for example, a plurality of different microphones are arranged corresponding to each of a plurality of seats, The sound signals collected by each of the plurality of different microphones are appropriately subjected to sound processing.
- FIG. 1 is a top view of a vehicle 1 according to the first embodiment.
- the vehicle 1 is an example of a vehicle that can automatically run in a vehicle based on the road transport vehicle law.
- the vehicle 1 is equipped with the voice processing system 100S of the first embodiment.
- the vehicle 1 has a vehicle body 2 constituting the vehicle 1.
- the vehicle 1 is a relatively large vehicle in which a plurality of (for example, three or more rows) seats (seats) are arranged in the front-rear direction, such as a minivan, a wagon car, and a one-box car.
- an instrument panel 3 is disposed in front of the driver who sits in the driver's seat in the vehicle body 2.
- a navigation device 35 (see FIG. 2) is also mounted inside the vehicle body 2 as one of in-vehicle devices, and the navigation device 35 includes a DSP (Digital Signal Processor).
- DSP Digital Signal Processor
- a plurality of (for example, six in the first embodiment) different microphones MC1 to MC6 arranged corresponding to each of a plurality of seats, and each corresponding to each of the plurality of seats.
- the processing device 100 and one or more in-vehicle devices 30 mounted on the vehicle are mounted.
- a plurality of microphones MC1 to MC6 are disposed in correspondence with the driver's driving seat (first row seat), the occupant's second seat (second row seat) and third seat (third row seat), respectively. .
- the plurality of microphones MC1 to MC6 can collect the sound emitted by the driver or the occupant in the entire region of the vehicle body 2.
- microphones MC1 to MC6 may be either directional microphones or omnidirectional microphones.
- the pair of in-vehicle speakers SP1 and SP2 are arranged in the doors corresponding to the driver's driving seat and the assistant's seat, respectively.
- the remaining pair of in-vehicle speakers SP3 and SP4 are disposed in the side walls of the vehicle body 2 between the passenger's second seat and the third seat.
- the plurality of in-vehicle speakers SP1 to SP4 can output the audio signal output from the audio processing device 100 or the in-vehicle device 30 to the driver or the passenger seated in the vehicle 1.
- the in-vehicle speakers SP1 to SP4 may be either directional speakers or omnidirectional speakers like the microphones MC1 to MC6.
- at least one of the in-vehicle speakers SP1 to SP4 may be disposed on the instrument panel 3 of the vehicle 1, and in this case, the driver or the passenger on the passenger seat can grasp the voice content more clearly.
- the voice processing device 100 and the in-vehicle device 30 are arranged in the vicinity of the instrument panel 3.
- the voice processing device 100 and the in-vehicle device 30 are connected to the cloud CL via a wireless communication line.
- a voice recognition server 40 is provided on the cloud CL.
- the sound processing system 100S is configured to include the plurality of microphones MC1 to MC6 and the sound processing device 100.
- FIG. 2 is a functional block diagram illustrating the configuration of the voice processing system 100S.
- the vehicle 1 is equipped with one or more audio output devices 20, a plurality of in-vehicle devices 30, and the audio processing system 100S of the first embodiment.
- the audio output device 20 includes an amplifier (an example of an amplification circuit) 21 that amplifies an audio signal output from the in-vehicle device 30 and the plurality of in-vehicle speakers SP1 to SP4 that output the amplified audio signal.
- the plurality of in-vehicle speakers SP1 to SP4 are provided by being incorporated in a plurality of doors installed in the vehicle 1, the instrument panel 3 of the vehicle 1, or the like.
- the plurality of in-vehicle devices 30 are generic names for various devices mounted in the vehicle body 2. Specifically, the plurality of in-vehicle devices 30 include a car audio 31, an air conditioner 32, a lighting device 33, a video display device 34, a navigation device 35, and the like. All these in-vehicle devices 30 are connected to an in-vehicle device control unit 120 of the voice processing device 100 described later.
- the car audio 31 is an audio device that receives radio broadcasts and plays music media such as CDs (Compact Discs) and electronic music files.
- the air conditioner 32 adjusts the temperature and humidity in the vehicle body 2 to make the driver's or passenger's cabin environment comfortable. Further, the air conditioner 32 defrosts and defrosts the windshield and the side glass of the vehicle body 2 by blowing dry air.
- the lighting device 33 is necessary for safe driving, and illuminates the front of the vehicle 1 or notifies the surroundings of the vehicle 1 of the behavior of the vehicle 1 by illumination.
- the video display device 34 is configured to include, for example, a liquid crystal panel as an image display unit, and is provided integrally with the instrument panel 3.
- the video display device 34 appropriately displays image information for the driver or the occupant.
- the navigation device 35 guides the position of the vehicle 1 and the route to the destination when the vehicle 1 travels.
- the above-described video display device 34 is commonly used to guide the route, and map information, arrow information, and the like are appropriately displayed on the video display device 34.
- the car audio 31, the air conditioner 32, the lighting device 33, the video display device 34, and the navigation device 35 are listed as the in-vehicle device 30, but are merely examples and are not intended to be limited thereto. .
- the amplifier 21 of the audio output device 20 is connected to in-vehicle devices 30 such as a car audio 31, a video display device 34, and a navigation device 35, and audio signals are output from these in-vehicle devices 30.
- This audio signal is finally sent into the vehicle body 2 through the vehicle-mounted speakers SP1 to SP4 of the audio output device 20.
- the voice processing system 100S includes a plurality of microphones MC1 to MC6 and the voice processing device 100 as described above.
- the voice processing device 100 includes a communication interface 110, an in-vehicle device control unit (an example of a control device) 120, a memory 130, and a voice control unit (an example of a voice processing unit) 140.
- the communication interface is described as “communication I / F” for convenience.
- part or all of the functions of the voice processing device 100 are realized by software, and a part or all of this software may be executed on the DSP of the navigation device 35, for example. In this case, since existing hardware resources can be used as they are, manufacturing costs can be suppressed.
- the communication interface 110 has a wireless communication function and is connected to the cloud CL via a wireless communication line to perform wireless communication.
- the communication interface 110 can use a cellular phone network (cellular network), a wireless LAN, or the like as a wireless communication circuit.
- a speech recognition server 40 is provided in the cloud CL.
- the voice recognition server 40 includes a communication interface 41, and further includes a calculator 42, a memory 43, and a storage 44.
- the computing unit 42 is a CPU (Central Processing Unit) for executing data processing and a predetermined algorithm.
- the memory 43 is a RAM (Random Access Memory) that temporarily stores and holds predetermined data and algorithms.
- the storage 44 is a large-capacity storage device (for example, HDD (Hard Disk Drive) or SSD (Solid State Drive)) for storing a large amount of data, and is one or more of a magnetic storage device, an optical storage device, and the like.
- the storage device is configured.
- the in-vehicle device control unit 120 is configured by using, for example, a CPU, DSP, or FPGA (Field Programmable Gate Array), and controls ON / OFF of each in-vehicle device 30 based on a recognition result of an automatic speech recognition system described later.
- the operation status of each of the in-vehicle devices 30 is controlled by instructing the operation status to be notified by voice.
- the memory 130 of the voice processing device 100 functions as a temporary storage device for exchanging predetermined data, programs, and the like between the in-vehicle device control unit 120 and the voice control unit 140.
- an automatic speech recognition system including the speech processing apparatus 100 mounted on the vehicle and the speech recognition server 40 provided on the cloud. That is, the audio processing apparatus 100 takes in audio signals collected by the plurality of microphones MC1 to MC6. The voice processing apparatus 100 performs voice processing on the voice signal, and then transmits the voice signal to the cloud CL and the voice recognition server 40 via the communication interface 110. By transmitting the voice signal, the voice recognition server 40 recognizes the transmitted voice signal based on a corpus, for example, and converts it into text data. This text data is used for various purposes such as system command or data input and for use of a predetermined service.
- the conversion and interpretation of text data is performed according to a predetermined automatic speech recognition algorithm.
- the automatic speech recognition algorithm is implemented in the speech recognition server 40 and is generated by, for example, artificial intelligence (AI) based on deep learning.
- AI artificial intelligence
- the driver or the occupant receives various services on the cloud CL, for example, other servers provided by the cloud CL, for example, schedule management or inquiry to a support desk, etc. Is possible.
- the driver or the occupant can also instruct the operation instruction of each in-vehicle device 30 through the in-vehicle device control unit 120 of the audio processing device 100, for example, music playback or the like by voice.
- the automatic speech recognition system substantially functions with a predetermined word issued before giving an instruction to the apparatus, WuW (Wake Up Word) as an example in the first embodiment as a trigger.
- WuW Wu Up Word
- the WuW voice uttered by a person is a key for permitting access to the system, it is defined in advance by a predetermined word so that the system can detect it. For this reason, this WuW is appropriately stored and held in advance in the memory 130 of the sound processing apparatus 100 or the like.
- WuW is defined by, for example, “Hello, My Computer”, “Hay, Vehicle”, etc., but is not limited to this phrase (word), and various types can be adopted. Can be set.
- the automatic speech recognition system If a phrase including WuW is detected, the automatic speech recognition system is activated (wakes up), and the automatic recognition operation is started. With this system activation using WuW, the automatic speech recognition system does not need to operate constantly, but only activates or functions when necessary. As a result, it is possible to reduce the burden on system processing and network line traffic.
- such a WuW detection function is implemented in the voice control unit 140 of the voice processing apparatus 100.
- the audio signal matching model relating to detection of WuW is set in advance, and is stored and held in, for example, the memory 130 of the audio processing device 100.
- the audio signal matching model for example, a pattern matching dictionary model or an acoustic model is adopted, but is not limited thereto. Various models or other audio signal matching techniques can be employed as appropriate.
- FIG. 3 is a signal processing block diagram illustrating the configuration of the audio control unit 140.
- the voice control unit 140 includes a WuW detection unit (an example of a word detection unit) 141, an audio signal buffer unit (an example of a holding unit) 142, and a speaker position detection unit (an example of a microphone specification unit). 143 and a CTC (Cross
- the voice control unit 140 is provided with an A / D converter (not shown).
- the A / D converter quantizes the audio signals of the microphones MC1 to MC6 at a predetermined sampling period, digitally converts them, and takes them into the audio control unit 140.
- the WuW detection unit 141 directly acquires audio signals collected by each of a plurality of different microphones MC1 to MC6. In addition, the WuW detection unit 141 acquires an audio signal matching model stored and held in the memory 130 in advance, and holds the audio signal matching model therein. The WuW detection unit 141 detects the presence or absence of a WuW audio signal generated by a specific speaker according to an algorithm corresponding to a predetermined audio signal matching model based on the input audio signal. When detecting the WuW voice, the WuW detection unit 141 transmits the detection information to the speaker position detection unit 143 as a trigger signal. Note that a storage holding unit may be provided in the WuW detection unit 141, and the above-described audio signal matching model may be held in the storage holding unit. Further, the matching algorithm may be generated by, for example, artificial intelligence (AI) based on deep learning.
- AI artificial intelligence
- the audio signal buffer unit 142 is configured by a storage circuit such as a RAM, for example, and always stores and holds the input audio signals of the microphones MC1 to MC6 individually for a predetermined time (for example, 2 to 3 seconds). When the capacity of the audio signal buffer unit 142 becomes full, the old audio signal is overwritten and updated in each of the audio signals of the microphones MC1 to MC6, and each of the latest audio data at the timing immediately before (before a predetermined period) is repeated. Retained.
- a series of processing is also referred to as “buffering processing”.
- the function is shared by the memory 130 of the audio processing device 100, and the audio control unit 140 is buffered in the memory 130 of the audio processing device 100.
- An audio signal may be appropriately acquired. In this case, the manufacturing cost can be reduced by reducing the number of parts.
- the speaker position detection unit 143 When the speaker position detection unit 143 receives the trigger signal transmitted from the WuW detection unit 141, the speaker position detection unit 143 sets the reception time as a time reference.
- the speaker position detection unit 143 individually acquires audio signals (that is, buffered signals) for the past predetermined time from the reception time from the audio signal buffer unit 142 individually.
- the speaker position detection unit 143 refers to the WuW audio signal and each buffered audio signal, and detects the spatial position of the WuW speaker in the vehicle body 2 according to, for example, a sound source direction estimation algorithm.
- spatial position detection is performed based on time difference detection of audio signals between microphones MC1 to MC6.
- each of the audio signals of the microphones MC1 to MC6 can be subjected to Fourier transform or spectrum analysis, and the audio waveform, frequency, audio level, etc. for each audio signal can be further analyzed for position detection. is there.
- the speaker position detection unit 143 when the WuW voice is detected, the speaker position detection unit 143 generates WuW based on the characteristics of the audio signals for a predetermined time stored and held in the audio signal buffer unit 142. Performs speaker spatial location detection. As a result, the speaker position detecting unit 143 uses the microphone arranged closest to the speaker (that is, one of the microphones MC1 to MC6), that is, the microphone that picks up WuW speech as the speaker position microphone. Identify. The speaker position detection unit 143 transmits, for example, the identification number of the speaker position microphone to the CTC unit 144.
- the audio signal buffer unit 142 stops the buffering process. Further, the operation of the WuW detection unit 141 is also stopped. As a result, the processing load of the voice control unit 140 can be reduced.
- the CTC unit 144 directly acquires the audio signals of the microphones MC1 to MC6 in real time.
- the CTC unit 144 includes an application filter (not shown) and an adder (not shown). Since the CTC unit 144 can extract only the voice uttered by the WuW speaker, a dummy voice signal (in other words, a cancel signal) generated by an adaptive filter with respect to the voice signal picked up by the speaker position microphone Is added by an adder to cancel voices uttered by non-WuW speakers. As a result, the CTC unit 144 uses the audio signal for a predetermined time stored in the audio signal buffer unit 142 and information about the speaker position microphone to suppress the voice uttered by the occupant who is not a WuW speaker. , Only the voice uttered by the WuW speaker is extracted as much as possible.
- the adaptive filter refers to all the audio signals collected by the microphones MC1 to MC6 including the speaker position microphone, and sets the filter coefficient until it becomes equivalent to the transfer characteristics between the microphones MC1 to MC6, for example, according to the learning algorithm. Grows while updating. By processing the audio signal using this adaptive filter, it becomes possible to generate a dummy audio signal for canceling the audio other than the speaker.
- the transfer characteristics between the microphones MC1 to MC6 may be measured in advance, and a filter reflecting this measurement result may be designed and implemented in advance.
- the CTC unit 144 lowers the volume of the microphones other than the speaker position microphone so that only the sound signal collected from the speaker position microphone is input to the sound control unit 140. It may be configured.
- FIG. 4 is a flowchart showing an operation procedure of the voice control unit 140.
- FIG. 5 is a sequence diagram showing an operation between the speech processing apparatus 100 and the speech recognition server 40.
- FIG. 4 shows the operation procedure of the subroutine SR1 of FIG.
- the operation procedure of the voice control unit 140, that is, the subroutine SR1 will be described with reference to FIG.
- the voice control unit 140 acquires the voice signals collected by the microphones MC1 to MC6, and first sends these voice signals to the WuW detection unit 141 and the voice signal buffer unit 142. Input (S10).
- the WuW detection unit 141 starts detecting a WuW audio signal in parallel for each audio signal in accordance with a predetermined audio signal matching algorithm based on each input audio signal (S11).
- the WuW detection unit 141 determines whether any of the input audio signals includes a WuW audio signal (S12). As a result of the determination, if the WuW detection unit 141 determines that there is a WuW audio signal, the process of the WuW detection unit 141 proceeds to step S14. On the other hand, if the WuW detection unit 141 determines that there is no WuW signal, the process of the WuW detection unit 141 returns to step S11.
- the audio signal buffer unit 142 In parallel with the processing of steps S11 and S12 of the WuW detection unit 141, the audio signal buffer unit 142 always stores and holds the input audio signals of the microphones MC1 to MC6 individually for a predetermined time. That is, the audio signal buffer unit 142 performs a buffering process on the audio signals of the microphones MC1 to MC6 (S13).
- Speaker position detector 143 inquires about the WuW audio signal and each buffered audio signal, and detects the spatial position of the WuW speaker in the vehicle body 2. Thereby, the speaker position detecting unit 143 identifies the microphone that picked up the WuW sound as the speaker position microphone (S14). By specifying the speaker position microphone, the voice control unit 140 sets the filter coefficient of the adaptive filter of the CTC unit 144 so as to suppress the voice uttered by a person other than the WuW speaker mixed in the voice signal of the speaker position microphone. To function (start) (S15).
- step S15 including the main routine shown in FIG. 5
- step S16 When setting the CTC unit 144, the WuW detection unit 141, the audio signal buffer unit 142, and the speaker position detection unit 143 operate (for example, buffering processing, etc.) after step S15 (including the main routine shown in FIG. 5). Is no longer necessary, so its function is stopped (S16).
- the CTC unit 144 When the filter coefficient of the adaptive filter of the CTC unit 144 is set, the CTC unit 144 directly acquires the voice signal of the speaker position microphone and suppresses the voice uttered by the occupant who is not a WuW speaker. At this time, the CTC unit 144 performs an audio signal filtering process using an adaptive filter (S17). The voice control unit 140 outputs a voice signal in which the voice of the speaker who uttered WuW is clear, and maintains the output state by this filtering process (S18).
- the voice after the WuW is uttered and the speaker position microphone is specified is always subjected to the filtering process in the CTC unit 144.
- the voice uttered by the driver or the occupant other than the WuW speaker is canceled, and the voice uttered by the WuW speaker continues to be output as the main voice signal.
- a series of such steps S10 to S18 are executed, and the subroutine SR1 is terminated, and the operation procedure of the main routine shown in FIG. 5 is returned to.
- step S100 the processing of the voice processing apparatus 100 proceeds to step S100.
- the voice control unit 140 transmits a predetermined voice recognition activation command to the voice recognition server 40 using the communication interface 110 (S100).
- the voice recognition server 40 determines whether or not a voice recognition activation command has been received from the voice control unit 140 of the voice processing device 100 (S102). If the speech recognition server 40 determines that it has not been received, the processing of the speech recognition server 40 returns to step S101 and enters a standby mode. That is, the voice recognition server 40 is in a standby mode until a voice recognition activation command is received. On the other hand, if the voice recognition server 40 determines that the voice recognition activation command has been received, the process of the voice recognition server 40 proceeds to step S104.
- the voice recognition activation command is a command sentence that functions as a trigger that prompts the voice recognition server 40 to execute automatic voice recognition. Further, the voice recognition activation command may be transmitted to the voice recognition server 40 at the same time when the WuW detection unit 141 detects the WuW voice.
- the voice control unit 140 transmits the voice signal filtered by the CTC unit 144 to the voice recognition server 40 (S103).
- the voice recognition server 40 receives the voice signal and performs voice recognition as described above.
- the voice recognition server 40 transmits the voice recognition result to the voice control unit 140 using the communication interface 41 (S104).
- the audio signal output by the audio control unit 140 is subjected to filtering processing in the CTC unit 144, and the audio uttered by the WuW speaker is the main audio signal. That is, in step S103, processing similar to that in steps S17 and S18 of the subroutine SR1 is performed.
- the in-vehicle device controller 120 of the voice processing device 100 controls the operation of each in-vehicle device 30 based on the recognition result of the voice recognition server 40 (S105).
- the voice control unit 140 determines whether or not to end the voice recognition by detecting whether or not a predetermined condition is satisfied (S106). If it is determined that the voice control unit 140 ends the voice recognition, the process of the voice control unit 140 proceeds to step S107. On the other hand, if the voice control unit 140 determines not to end the voice recognition, the process of the voice control unit 140 returns to step S103.
- the voice control unit 140 transmits a voice recognition end command to the voice recognition server 40 (S107).
- the voice recognition server 40 determines whether or not a voice recognition end command has been received from the voice control unit 140 (S108). If it is determined that the voice recognition server 40 has received it, the process of the voice recognition server 40 returns to step S101 and enters the standby mode again. On the other hand, if it is determined that the voice recognition server 40 has not received, the process returns to step S104. Unless the voice recognition end command is received, the voice recognition server 40 continues to execute voice recognition.
- the voice control unit 140 outputs the voice uttered by the WuW speaker when the predetermined condition is detected.
- the specific speaker voice output mode (S103) that suppresses the voice uttered by the passenger who is not the speaker shifts to the WuW detection standby mode (that is, SR1: an example of the predetermined word detection standby mode) that detects the presence or absence of WuW voice. It will have more functions.
- step S106 the WuW detection unit 141 of the voice control unit 140 detects the presence / absence of the SW voice according to the same algorithm based on the voice signal collected by the speaker position microphone as well as the detection of WuW.
- the voice control unit 140 executes step S106 by determining whether or not the SW voice has been detected, and shifts the work mode of the own apparatus to the WuW detection standby mode.
- the voice control unit 140 executes step S106 by obtaining a recognition result of the voice uttered by the speaker and determining whether or not a predetermined time has elapsed.
- the working mode of the own device is shifted to the WuW detection standby mode.
- step S106 it is determined whether any one of the conditions of the first or second operation procedure is satisfied, and the process of the voice control unit 140 is executed.
- the audio processing apparatus 100 includes the audio signal buffer unit 142 (an example of a holding unit) that holds audio signals for a predetermined time collected by each of a plurality of different microphones MC1 to MC6. Prepare.
- the voice processing apparatus 100 determines whether or not there is a WuW (an example of a predetermined word) spoken by a speaker riding in the vehicle 1 based on voice signals collected by each of a plurality of different microphones MC1 to MC6.
- a WuW detection unit (an example of a word detection unit) 141 for detection is provided.
- the sound processing apparatus 100 collects a WuW sound signal based on the characteristics of the sound signal for a predetermined time held in the sound signal buffer unit 142 (for example, , A speaker position detecting unit (an example of a microphone specifying unit) 143 that specifies any one of microphones MC1 to MC6 as a speaker position microphone (for example, microphone MC1).
- the voice processing device 100 outputs a voice uttered by the speaker using a voice signal for a predetermined time held in the voice signal buffer unit 142 and information on the speaker position microphone, and an occupant who is not the speaker speaks.
- a CTC unit an example of a voice processing unit
- the speech processing apparatus 100 or the speech processing system 100S quickly detects the utterance direction of the WuW uttered in the vehicle 1, and the speech uttered by the WuW speaker following the WuW is transmitted to the other than the speaker. It can be extracted exclusively for voice. By this extraction, the speech processing apparatus 100 or the speech processing system 100S suppresses and outputs the speech other than the speaker after the WuW is detected, and the speech uttered by the speaker is clear without delay ( (Clear). As a result, the voice processing device 100 or the voice processing system 100S can improve the accuracy and performance of automatic voice recognition and the like, and can quickly operate the in-vehicle device 30 based on the detection of WuW.
- the voice processing apparatus 100 when a predetermined condition is detected, the voice processing apparatus 100 outputs a specific speaker voice output that outputs a voice uttered by a speaker and suppresses a voice uttered by an occupant who is not the speaker.
- the voice control unit 140 (an example of a voice processing unit) that shifts from the mode (S103) to a WuW detection standby mode (an example of SR1, a predetermined word detection standby mode) that detects the presence or absence of WuW (an example of a predetermined word). Further prepare. Thereby, since the voice processing apparatus 100 operates itself only when necessary, it is possible to reduce useless processing and to prevent excessive line traffic from occurring with the voice recognition server 40. .
- the WuW detection unit 141 determines whether or not there is a sound of SW (an example of an end word) different from WuW (an example of a predetermined word) based on the speech signal collected by the speaker position microphone. To detect.
- the sound control unit 140 sets the operation mode of its own device to the WuW detection standby mode (SR1, predetermined word detection standby), assuming that a predetermined condition is satisfied when a sound of SW different from WuW is detected. (Example of mode)
- SR1 predetermined word detection standby
- the voice processing apparatus 100 can terminate the operation of the voice processing apparatus 100 by the WuW speaker itself, so that unnecessary processing and excessive line traffic are reduced spontaneously on the driver or passenger side. can do.
- the driver or the occupant can clearly grasp that the voice processing device 100 is in a standby state.
- the speech control unit 140 acquires the recognition result of speech uttered by the speaker, and sets the operation mode of the device itself as WuW, assuming that a predetermined condition is satisfied when a predetermined time has elapsed.
- the mode shifts to a detection standby mode (SR1, an example of a predetermined word detection standby mode).
- SR1 an example of a predetermined word detection standby mode
- FIG. 6 is a processing block diagram illustrating the operation of the voice control unit 140 of the first modification.
- FIG. 7 is a flowchart illustrating an operation procedure of the voice control unit 140 according to the first modification. 3 and 4 that are the same as or equivalent to those in FIG. 3 are denoted by the same or equivalent reference numerals, and the description thereof is omitted or simplified.
- the audio control unit 140 further includes a reproduction sound canceller 145 and a noise canceller (not shown).
- the reproduction sound canceller 145 is also connected to a car audio (an example of a music reproduction device) 31 among the plurality of in-vehicle devices 30, and an output signal thereof is input together with an output signal of the CTC unit 144.
- the same signal (digital signal) as the audio signal output from the car audio 31 to the amplifier 21 of the audio output device 20 is input to the reproduction sound canceller 145 (see FIG. 2).
- the noise canceller performs filtering processing such as a low-pass filter on the output signal of the reproduction sound canceller 145 to remove noise.
- the reproduction sound canceller 145 also has an application filter (not shown) and an adder (not shown) in the same manner as the CTC unit 144.
- the adaptive filter of the reproduction sound canceller 145 refers to the audio signal of music reproduced by the car audio 31 and generates a dummy audio signal related to the reproduction music.
- the reproduction sound canceller 145 adds, with an adder, a dummy audio signal related to reproduction music generated by the adaptive filter with respect to the sound collected by the speaker position microphone.
- the reproduced sound canceller 145 cancels the audio signal of the reproduced music that flows into the vehicle body 2 through the in-vehicle speakers SP1, SP2, SP3, and SP4 and is collected by the speaker position microphone.
- the reproduction sound canceller 145 collects the reproduction music (an example of the reproduction sound) of the car audio 31 mounted on the vehicle 1 from a plurality of different microphones MC1 to MC6 from the output audio signal of the audio control unit 140. The reproduced sound signal is suppressed.
- the process of the reproduction sound canceller 145 is executed after the process in step S17 of the CTC unit 144.
- the reproduction sound canceller 145 acquires the audio signal of the reproduction music of the car audio 31, and cancels the audio signal of the reproduction music that is mixed into the speaker position microphone and collected by the filter processing described above (S20). Thereafter, through the filtering process in both the CTC unit 144 and the reproduction sound canceller 145, the voice control unit 140 outputs a voice signal in which the voice of the speaker who has spoken WuW becomes clear and maintains this output state. (S18).
- the audio processing device 100 uses the car audio (music reproduction device of the music playback device) mounted on the vehicle 1 from the output audio signal of the audio control unit (an example of the audio processing unit) 140.
- An example) A playback sound canceller 145 that suppresses playback sound signals of 31 playback music (an example of playback sound) collected by a plurality of different microphones MC1 to MC6 is further provided.
- the reproduction sound canceller 145 can cancel the audio signal of the reproduction music that flows into the vehicle body 2 through the vehicle-mounted speakers SP1, SP2, SP3, SP4 and is collected by the speaker position microphone. .
- the speech processing apparatus 100 can more effectively suppress the output of the speech other than the speaker who utters the WuW, and can make the speech uttered by the speaker clearer. .
- FIG. 8 is a processing block diagram illustrating the operation of the voice control unit 140 of the second modified example. 3 that are the same as or equivalent to those in FIG. 3 are given the same or equivalent symbols in the drawings and the description thereof is omitted or simplified.
- the voice control unit 140 further includes a beam forming (BF: Beam Forming) processing unit 146.
- the plurality of different microphones MC1 to MC6 is a microphone array configured to include a plurality of microphone elements.
- the beam forming processing unit 146 uses a plurality of microphones MC1 to MC6 configured by a microarray to form the directivity of the voice signal to the speaker corresponding to the sound source of the voice signal picked up by the speaker position microphone. . By forming the directivity, the beamforming processing unit 146 suppresses sound and noise collection around the speaker in the vehicle body 2 with the directivity axis directed toward the WuW speaker.
- the speech processing apparatus 100 provides speech to the speaker corresponding to the sound source of the speech signal picked up by the speaker position microphone (that is, the speaker who has spoken WuW).
- a beamforming processing unit 146 that forms signal directivity is further provided.
- the sound processing apparatus 100 is a microphone array in which a plurality of different microphones MC1 to MC6 each include a plurality of microphone elements.
- the beamforming processing unit 146 uses the plurality of microphones MC1 to MC6 configured by the microarray to suppress the voice and noise collection around the speaker in the vehicle body 2, and the speaker speaks. The voice to be played can be made clearer.
- FIG. 9 is a top view of the vehicle 1 according to the second embodiment.
- FIG. 10 is a functional block diagram illustrating the system configuration of the voice processing apparatus 200.
- FIG. 11 is a processing block diagram showing the signal processing operation of the voice control unit 240.
- FIG. 12 is a flowchart showing an operation procedure of the voice control unit 240. Note that portions that are the same as or equivalent to those of the first embodiment are given the same or equivalent reference numerals in the drawings and the description thereof is omitted or simplified.
- the second embodiment seven microphones MC (specifically, microphones MC1 to MC6 and WuW detection microphone MC7) are arranged in the vehicle body 2,
- the seventh microphone other than the microphones MC1 to MC6 is the WuW detection microphone MC7.
- the WuW detection microphone MC7 as an example of a specific microphone is a dedicated microphone used for detecting WuW, and in order to easily collect the sound emitted by the occupant riding in the vehicle 1, As much as possible, it is buried in the substantially central part ceiling surface of the vehicle body 2.
- the WuW detection microphone MC7 is disposed at an intermediate position between the microphones MC3 and MC4, but is not limited to the position.
- WuW is not detected based on the sound collected by microphones MC1 to MC6 other than the seventh microphone (that is, WuW detection microphone MC7).
- the audio signals of the plurality of microphones MC1 to MC6 are not input to the WuW detection unit 241, and the seventh microphone (WuW detection microphone MC7) ), Only the sound collected, that is, the sound for one channel is input.
- the voice signal buffer unit 142, the speaker position detection unit 143, and the CTC unit 144 are input with voices for six channels of the microphones MC1 to MC6.
- the WuW detection unit 241 is configured to output a WuW audio signal generated from a specific speaker among persons on the vehicle 1 according to a predetermined matching algorithm based on the audio signal collected by the WuW detection microphone MC7. Detect the presence or absence. Other configurations are the same as those in the first embodiment.
- the WuW detection unit 241 directly acquires the audio signal collected by the WuW detection microphone MC7 (S30).
- the WuW detection unit 241 starts detection processing of the audio signal of the input WuW detection microphone MC7 (S31).
- the WuW detection unit 241 determines whether or not a WuW audio signal is included in the input audio signal (S32).
- the audio signal buffer unit 142 acquires the audio signals collected by the microphones MC1 to MC6, respectively, as in the first embodiment. (S33).
- the audio signal buffer unit 142 always stores and holds the input audio signals of the microphones MC1 to MC6 individually for a predetermined time. The subsequent steps are the same as in the first embodiment.
- the WuW detection unit (an example of the word detection unit) 241 includes a plurality of different microphones MC (specifically, the microphones MC1 to MC6 and the WuW detection microphone MC7). ), The presence / absence of WuW (an example of a predetermined word) voice uttered by the speaker is detected based on the voice signal picked up by the WuW detection microphone MC7. As a result, the voice processing device 200 only needs to detect the WuW voice from the voice signal collected by the WuW detection microphone MC7 when detecting the WuW voice. The amount of information to be processed by the H.241 can be reduced, and the voice uttered by the WuW speaker can be clarified more quickly.
- the present disclosure quickly detects the utterance direction of a predetermined word (for example, a wake-up word) uttered in a vehicle, and the voice of the speaker of the predetermined word following the predetermined word
- a predetermined word for example, a wake-up word
- the present invention is useful as a voice processing device, a voice processing method, and a voice processing system that can be mounted on a vehicle that can exclusively extract voice.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Mechanical Engineering (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
音声処理装置(100)は、WuWの音声が検出された場合に、音声信号バッファ部(142)に保持される所定時間分の音声信号のそれぞれの特性に基づいて、WuWの音声信号を収音したマイク(MC1~MC6)を話者位置マイクとして特定する話者位置検出部(143)と、音声信号バッファ部(142)に保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、話者が発声した音声を出力するとともに、話者でない乗員が発声した音声を抑圧するCTC部(音声処理部の一例)(144)とを備える。
Description
本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置および音声処理システム、ならびに音声処理装置により実行される音声処理方法に関する。
例えばミニバン、ワゴン車、ワンボックスカー等、車体の前後方向に複数(例えば3列以上)の座席(シート)が配置された比較的大きな車両において、運転席に座る運転者と後部座席に座る乗員(例えば運転者の家族や友人)との間で会話をしたり、後部座席までカーオーディオの音楽を流したりして、それぞれの席に設置されたマイクとスピーカを用いて音声を乗員または車載機器の間で伝達したり入出力したりする音声技術を搭載することが検討されている。
また、車両も通信インターフェースを有するものが近年多く登場するようになった。通信インターフェースは、無線通信の機能を有し、例えば携帯電話網(セルラー網)、無線LAN(Local Area Network)等により構築され、車両内においてもネットワーク環境が整備されるようになった。運転者等はこのような通信インターフェースを介してインターネット回線上の例えばクラウドコンピューティングシステム(以下、単に「クラウド」とも称する)にアクセスして運転中に種々のサービスを受けることが可能になった。
ここで、家庭用機器等においてクラウドを用いる音声技術の1つとして自動音声認識システムの開発が加速している。この自動音声認識システムは、クラウド上のサービスを受けるためのヒューマン・マシン・インターフェースとして普及しつつある。自動音声認識システムは、人間が発声した音声をテキストデータに変換等してコンピュータ等の制御装置にその音声の内容を認識されるものである。自動音声認識システムは、人間の手指を用いるキーボード入力に代わるインターフェースであり、より人間に近い操作でコンピュータ等に指示可能である。特に、車両では運転者の手指は従来のドライバー主体の運転走行中または例えば自動運転レベル3の自動運転中のハンドル操作に取られるため、車両に対する自動音声認識の音声技術導入には必然的な動機がある。
なお、自動運転のレベルは、NHTSA(National Highway Traffic Safety Administration)によれば運転自動化なし(レベル0)、運転者支援(レベル1)、部分的運転自動化(レベル2)、条件付運転自動化(レベル3)、高度運転自動化(レベル4)、および完全自動運転化(レベル5)に分類されている。レベル3では、自動運転システムが運転を主導しつつ、必要に応じて人間による運転が要請される。自動運転システムのレベル3は近年、実用化されつつある。
自動音声認識の音声技術に関する従来技術として、発声されたオーディオデータ(音声信号)がホットワードに対応するかどうかを判定し、ホットワードに対応すると判定されたオーディオデータのホットワードオーディオフィンガープリントを生成し、このホットワードオーディオフィンガープリントが以前に記憶されたホットワードオーディオフィンガープリントと一致した時に、発声されたコンピュータデバイスへのアクセスを無効化する技術が知られる(例えば、特許文献1参照)。
なお、ホットワードは、システムまたは制御装置に対して対応する動作を実行させるための事前に設定された予約音声を指すとされる。ホットワードは、指令または命令を送信するトリガとなる所定ワード(特定の単語)であり、WuW(Wake Up Word,ウェイクアップワード)とも称される。本明細書中では、以下、この所定ワードのことを「WuW(Wake up Word)」またはウェイクアップワードとも称して説明する。
しかしながら、上記特許文献1に開示の技術は、ホットワードすなわちWuWが静かな環境下で発声されることを想定して構成されている。つまり、車両等の移動体のように、常に振動や車載機器のノイズが発生する環境下での使用においては、WuWが車両内のどの方向から発声されたか否かを検出することは考慮されていない。
そのため、上記特許文献1の技術を用いても、振動やノイズが定常的に発生する車両内において、WuWに続けて車載機器の作動を指示する具体的な指示音声が発声されても、どの方向からWuWが発声されたか検出できない可能性があった。WuWの検出に基づいて車載機器の作動を迅速に行うことができない可能性があり、この点で改善の余地があった。
本開示は、上述した従来の事情に鑑みて案出され、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する音声処理装置、音声処理方法および音声処理システムを提供することを目的とする。
本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定するマイク特定部と、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、音声処理装置を提供する。
また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定するステップと、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、音声処理方法を提供する。
また、本開示は、複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、前記音声処理装置は、前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定し、前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、前記話者が発声した音声の認識結果を取得し、前記制御装置は、前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、音声処理システムを提供する。
本開示によれば、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出する。この抽出により、所定ワードの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明(クリア)に出力することができる。その結果、自動音声認識等の精度や性能を向上させ、所定ワードの検出に基づいて車載機器の作動を迅速に行うことができる。
以下、適宜図面を参照しながら、本開示に係る、車両に搭載可能な音声処理装置、音声処理方法および音声処理システムを具体的に開示した各実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
また、実施の形態1でいう「部」または「装置」とは単にハードウェアによって実現される物理的構成に限定されず、その構成が有する機能をプログラム等のソフトウェアにより実現されるものも含む。また、1つの構成が有する機能が2つ以上の物理的構成により実現されても、または2つ以上の構成の機能が例えば1つの物理的構成によって実現されていても構わない。
また、各実施の形態の車両に搭載可能な音声処理装置、音声処理方法および音声処理システムは、車両に搭載されており、例えば複数のシートのそれぞれに対応して複数の異なるマイクが配置され、これら複数の異なるマイクのそれぞれにより収音された音声信号を適宜音声処理する。
(実施の形態1)
図1~図8を参照して、本開示に係る車両1に搭載可能な音声処理装置100、音声処理方法および音声処理システム100Sの実施の形態1について説明する。
図1~図8を参照して、本開示に係る車両1に搭載可能な音声処理装置100、音声処理方法および音声処理システム100Sの実施の形態1について説明する。
先ず図1を参照して、実施の形態1に係る車両1の構成について説明する。図1は、実施の形態1に係る車両1の上面図である。
図1に示すように、車両1は、道路運送車両法に基づく自動車において自動走行可能な自動車を一例に挙げている。車両1には、実施の形態1の音声処理システム100Sが搭載される。
車両1は、車両1を構成する車体2を有する。車両1は、例えばミニバン、ワゴン車、ワンボックスカー等、前後方向に複数(例えば3列以上)の座席(シート)が配置された比較的大きな車両である。また、車体2内の運転席に着座する運転者の前方には、インストルメントパネル3が配置される。なお、車体2内部には、車載機器の1つとしてナビゲーション装置35(図2参照)も搭載されており、ナビゲーション装置35は、DSP(Digital Signal Processor)を含んで構成される。
車両1の車体2内には、複数のシートのそれぞれに対応して配置される複数(例えば、実施の形態1では6本)の異なるマイクMC1~MC6と、同様に複数のシートそれぞれに対応して配置される音声出力装置20(後述参照)の複数(例えば、実施の形態1では4つ)の車載スピーカSP1~SP4と、この複数のマイクMC1~MC6により入力された音声信号を処理する音声処理装置100と、車両に搭載される1つ以上の車載機器30と、が搭載される。
複数のマイクMC1~MC6は、運転者の運転シート(1列目シート)、乗員のセカンドシート(2列目シート)およびサードシート(3列目シート)にそれぞれ対応して2本ずつ配置される。これにより、複数のマイクMC1~MC6は、運転者または乗員が発する音声を車体2内の全領域で収音可能である。また、実施の形態1では、マイクMC1~MC6は指向性マイクまたは無指向性マイクのいずれでも良い。
複数の車載スピーカSP1~SP4のうち一対の車載スピーカSP1,SP2は、運転者の運転シートおよび助手シートに対応するドアにそれぞれ内蔵して配置される。また、残りの一対の車載スピーカSP3,SP4は、乗員のセカンドシートおよびサードシート間の車体2側壁部にそれぞれ内蔵して配置される。これにより、複数の車載スピーカSP1~SP4は、音声処理装置100または車載機器30から出力される音声信号を車両1の内に着席している運転者または乗員に向けて出力可能である。また、実施の形態1では、車載スピーカSP1~SP4は、マイクMC1~MC6と同様に指向性スピーカまたは無指向性スピーカのいずれでも良い。なお、車載スピーカSP1~SP4の少なくとも1つは車両1のインストルメントパネル3に配置されても良く、この場合には、運転者または助手シートの乗員は音声内容をより鮮明に把握可能となる。
音声処理装置100および車載機器30は、インストルメントパネル3近傍に配置される。また、音声処理装置100および車載機器30は無線通信回線を介してクラウドCLに接続される。クラウドCL上には、音声認識サーバ40が設けられる。また、実施の形態1では、複数のマイクMC1~MC6と音声処理装置100とを含んで、音声処理システム100Sが構成されることになる。
次に図2を参照して、音声処理システム100Sのシステム構成について説明する。図2は、音声処理システム100Sの構成を説明する機能ブロック図である。
車両1には、1つ以上の音声出力装置20と、複数の車載機器30と、実施の形態1の音声処理システム100Sと、が搭載される。
音声出力装置20は、車載機器30から出力された音声信号を増幅するアンプ(増幅回路の一例)21と、この増幅された音声信号を出力する前述の複数の車載スピーカSP1~SP4と、を含む。複数の車載スピーカSP1~SP4は、前述したように、車両1に設置される複数のドアや車両1のインストルメントパネル3等に内蔵されて設けられる。
複数の車載機器30は、車体2内に搭載される各種機器の総称である。具体的には、複数の車載機器30は、カーオーディオ31、エアコンディショナー32、照明装置33、映像表示装置34、ナビゲーション装置35等を含んで構成される。これら車載機器30はいずれも後述する音声処理装置100の車載機器制御部120に接続される。
カーオーディオ31は、音響装置であり、ラジオ放送を受信したり、CD(Compact Disc)や電子音楽ファイルなどの音楽媒体などを再生したりする。
エアコンディショナー32は、車体2内の温度や湿度を調整して運転者または乗員の車内環境を快適にする。また、エアコンディショナー32は、乾燥した空気の送風により車体2のフロントガラスやサイドガラスの霜取りや曇り取りを行う。
照明装置33は、安全走行に必要であり、車両1の前方を照らしたり、車両1の周辺に車両1の行動を照明により報知したりする。
映像表示装置34は、画像表示部として例えば液晶パネルを含んで構成され、インストルメントパネル3に一体的に設けられる。映像表示装置34は、運転者または乗員に対し画像情報を適宜表示する。
ナビゲーション装置35は、車両1の走行時に車両1の位置や目的地までの経路をガイドする。経路のガイドは、例えば前述の映像表示装置34等を共通に用いて、地図情報や矢印情報等が映像表示装置34に適宜表示されて行われる。なお、実施の形態1では、車載機器30としてカーオーディオ31、エアコンディショナー32、照明装置33、映像表示装置34、ナビゲーション装置35を列挙したが、あくまで例示でありこれらに限定されることは意図されない。
音声出力装置20のアンプ21には、カーオーディオ31、映像表示装置34、ナビゲーション装置35等の車載機器30が接続され、これら車載機器30から音声信号が出力される。この音声信号は、最終的に音声出力装置20の車載スピーカSP1~SP4を通じて車体2内に流される。
音声処理システム100Sは、前述したように、複数のマイクMC1~MC6と、音声処理装置100と、を含んで構成される。音声処理装置100は、通信インターフェース110と、車載機器制御部(制御装置の一例)120と、メモリ130と、音声制御部(音声処理部の一例)140と、を含む。図2では、通信インターフェースを便宜的に「通信I/F」と記載している。なお、音声処理装置100においてその一部または全部の機能はソフトウェアで実現されており、このソフトウェアの一部または全部を例えばナビゲーション装置35のDSP上で実行されるように構成しても良い。この場合には、既存のハード資源をそのまま利用できるので製造コストを抑制することが可能となる。
通信インターフェース110は、無線通信の機能を有しており、無線通信回線を介してクラウドCLに接続され無線通信を行う。また、通信インターフェース110は、無線通信回路として携帯電話網(セルラー網)、無線LAN等を使用することが可能である。
なお、クラウドCLには音声認識サーバ40が設けられる。音声認識サーバ40は、同様に通信インターフェース41を含み、さらに演算機42とメモリ43とストレージ44とを有する。演算機42は、データ処理および所定のアルゴリズムを実行するためのCPU(Central Processing Unit)である。メモリ43は、所定のデータやアルゴリズムを一時的に記憶保持するRAM(Random Access Memory)である。ストレージ44は、大容量のデータ等を記憶するための大容量記憶装置(例えば、HDD(Hard Disk Drive)もしくはSSD(Solid State Drive))であり、磁気記憶装置、光学記憶装置等の1つ以上の記憶装置を含んで構成される。
車載機器制御部120は、例えばCPU、DSPまたはFPGA(Field Programmable Gate Array)を用いて構成され、後述する自動音声認識システムの認識結果に基づいて、各車載機器30のON/OFFを制御したり、その動作状況を音声で報知するように指示したりして車載機器30それぞれの作動を制御する。また、音声処理装置100のメモリ130は、車載機器制御部120および音声制御部140の間の所定のデータやプログラム等のやり取りを行うための一時的記憶装置として機能する。
ここで、実施の形態1では、車載された音声処理装置100とクラウド上に設けられた音声認識サーバ40とを含んで自動音声認識システムが実現される。すなわち、音声処理装置100は複数のマイクMC1~MC6により収音された音声信号を取り込む。音声処理装置100は、音声信号を音声処理した上で、通信インターフェース110を介してクラウドCLおよび音声認識サーバ40に音声信号を送信する。この音声信号の送信により、音声認識サーバ40は、送信された音声信号を例えばコーパスに基づき音声認識してテキストデータに変換する。このテキストデータは、システムコマンドまたはデータ入力等の様々な目的や所定のサービス利用のために用いられる。
テキストデータの変換や解釈については、所定の自動音声認識アルゴリズムに従って行われる。この自動音声認識アルゴリズムは、音声認識サーバ40に実装されており、例えばディープラーニングに基づく人工知能(AI:Artificial Intelligence)により生成される。このような、音声認識および人工知能により運転者または乗員は、音声を発することでクラウドCL上の、例えば他のサーバが提供する種々のサービス、例えばスケジュール管理またはサポートデスクへの問い合わせ等を受けることが可能となる。また、運転者または乗員は、音声処理装置100の車載機器制御部120を通じて各車載機器30の操作指示、例えば音楽再生等を音声で指示することも可能となる。
また、自動音声認識システムは、装置に指示を出す前に発せされる所定ワード、実施の形態1ではその一例としてWuW(ウェイクアップワード:Wake Up Word)をトリガとして実質的に機能する。人により発せられたWuWの音声が、システムへのアクセスを許可するキーとなるので、システムが検出可能なように事前に所定ワードにより定義される。そのため、このWuWは、事前に音声処理装置100のメモリ130などに適宜記憶保持される。なお、WuWは、その一例として例えば「ハロー、マイ・コンピュータ」や「ヘイ、ビークル」等で定義付けられるが、特にこのフレーズ(語句)に限定されず種々のものを採用することができ、任意に設定可能である。
WuWを含むフレーズが検出されれば、自動音声認識システムが起動(ウェイクアップ)し、その自動認識の動作が開始されることになる。このWuWを用いたシステム起動により、自動音声認識システムは常時動作する必要はなく、必要とされるときだけ起動または機能すれば良い。これにより、システムの演算処理やネットワークの回線トラフィックなどの負担を低減することが可能となる。
実施の形態1では、このようなWuWの検出機能は音声処理装置100の音声制御部140に実装される。また、WuWの検出に関する音声信号マッチングモデルは、事前に設定され、例えば音声処理装置100のメモリ130に記憶保持されている。なお、音声信号マッチングモデルとしては、例えばパターンマッチング辞書モデルまたは音響モデル等が採用されるが、これに限定されない。種々のモデルまたはその他の音声信号マッチング技術を適宜採用することができる。
次に図3を参照して、音声制御部140の構成について説明する。図3は、音声制御部140の構成を説明する信号処理ブロック図である。
図3に示すように、音声制御部140は、WuW検出部(ワード検出部の一例)141と、音声信号バッファ部(保持部の一例)142と、話者位置検出部(マイク特定部の一例)143と、CTC(Cross Talk Canceller)部(音声処理部の一例)144と、を有する。また、音声制御部140にはA/D変換器(図示略)が設けられる。A/D変換器は、マイクMC1~MC6の音声信号を所定のサンプリング周期で量子化してデジタル変換し、音声制御部140内部に取り込む。
WuW検出部141は、複数の異なるマイクMC1~MC6のそれぞれにより収音された音声信号を直接取得する。また、WuW検出部141は、メモリ130に記憶保持された音声信号マッチングモデルを事前に取得しており、その音声信号マッチングモデルをその内部に保持している。WuW検出部141は、入力された音声信号に基づき、所定の音声信号マッチングモデルに対応するアルゴリズムに従って、特定の話者より発生されたWuWの音声信号の有無を検出する。WuW検出部141は、WuWの音声を検出したら、その検出情報を話者位置検出部143にトリガ信号として送信する。なお、WuW検出部141に記憶保持部を設けて、その記憶保持部に前述の音声信号マッチングモデルを保持しておいても良い。また、マッチングアルゴリズムは、例えばディープラーニングに基づく人工知能(AI:Artificial Intelligence)により生成されても良い。
音声信号バッファ部142は、例えばRAM等の記憶回路により構成され、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分(例えば2~3秒)、常時記憶保持する。音声信号バッファ部142の容量が一杯になったら、マイクMC1~MC6の音声信号それぞれにおいて古い音声信号は上書き更新され、現時点から直前(所定期間前まで)のタイミングでの最新の音声データそれぞれが繰り返し記憶保持される。以下、このような一連の処理を「バッファリング処理」ともいう。なお、音声信号バッファ部142を音声制御部140の内部に設ける代わりに、その機能を音声処理装置100のメモリ130に共通化し、音声制御部140はこの音声処理装置100のメモリ130にバッファされた音声信号を適宜取得するように構成しても良い。この場合には、部品点数を少なくして製造コストを削減することが可能となる。
話者位置検出部143は、WuW検出部141から送信されたトリガ信号を受信すると、この受信時刻を時刻の基準に設定する。話者位置検出部143は、その受信時刻から過去所定時間分の音声信号(つまり、バッファリング処理された信号)を個別に音声信号バッファ部142からそれぞれ取得する。話者位置検出部143は、WuWの音声信号とこのバッファリング処理された各音声信号とを照会して、例えば音源方向推定アルゴリズムに従って車体2内におけるWuWの話者の空間的位置を検出する。
音源方向推定アルゴリズムでは、例えばマイクMC1~MC6間の音声信号の時間差検出に基づいて空間的な位置検出を行う。また、時間差検出以外にも、マイクMC1~MC6の音声信号それぞれをフーリエ変換やスペクトル分析して、その音声信号ごとの音声波形、周波数や音声レベル等をさらに分析して位置検出することも可能である。
このようにして話者位置検出部143は、WuWの音声が検出された場合に、音声信号バッファ部142に記憶保持される所定時間分の音声信号のそれぞれの特性に基づいて、WuWを発生した話者の空間的な位置検出を行う。これにより、話者位置検出部143は、その話者に最も近くに配置されたマイク(つまり、マイクMC1~MC6のうちいずれか)、すなわちWuWの音声を収音したマイクを話者位置マイクとして特定する。話者位置検出部143は、例えば話者位置マイクの識別番号をCTC部144に送信する。
また、話者位置検出部143が話者位置マイクを特定した後は、音声信号バッファ部142はバッファリング処理を停止する。また、WuW検出部141の動作も停止する。これにより、音声制御部140の処理の負荷を低減することが可能となる。
CTC部144は、マイクMC1~MC6の音声信号をリアルタイムにそれぞれ直接取得する。また、CTC部144は、適用フィルタ(図示略)および加算器(図示略)を有する。CTC部144は、WuWの話者が発声した音声のみを抽出可能とするため、話者位置マイクで収音された音声信号に対し適応フィルタで生成されたダミー音声信号(言い換えると、キャンセル信号)を加算器で加算することでWuWの話者以外が発声した音声をキャンセルする。これにより、CTC部144は、音声信号バッファ部142に記憶保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、WuWの話者でない乗員が発声した音声を抑圧して、WuWの話者が発声した音声のみを可能な限り抽出して出力する。
また、適応フィルタは、話者位置マイクを含むマイクMC1~MC6で収音された音声信号すべてを参照して、例えば学習アルゴリズムに従って各マイクMC1~MC6間の伝達特性と等価になるまでフィルタ係数を更新しながら成長する。この適応フィルタを用いて音声信号の処理を行うことで、話者以外の音声をキャンセルするためのダミー音声信号を生成することが可能となる。なお、適応フィルタに限らず、WuWの話者以外の音声をキャンセル可能であれば種々のフィルタを採用することができる。例えば、マイクMC1~MC6間の伝達特性を予め実測して、この実測結果を反映したフィルタを事前に設計し実装しても良い。また、CTC部144は、適用フィルタによる処理に加えて、話者位置マイク以外のマイクのボリュームを下げ、話者位置マイクから収音される音声信号のみが音声制御部140に入力されるように構成しても良い。
次に図4および図5を参照して、音声制御部140の動作、並びに音声処理装置100および音声認識サーバ40間での動作手順について説明する。図4は、音声制御部140の動作手順を示すフローチャートである。図5は、音声処理装置100および音声認識サーバ40間での動作を示すシーケンス図である。なお、図4は、図5のサブルーチンSR1の動作手順を示している。先ず図4を用いて音声制御部140の動作手順、すなわちサブルーチンSR1について説明する。
図4に示すように、サブルーチンSR1において、音声制御部140は、各マイクMC1~MC6により収音された音声信号を取得して、WuW検出部141および音声信号バッファ部142にこれら音声信号を先ず入力する(S10)。WuW検出部141は、入力された各音声信号に基づき、所定の音声信号マッチングアルゴリズムに従って、WuWの音声信号の検出を音声信号ごとに並行して開始する(S11)。WuW検出部141は、入力された各音声信号のいずれかにWuWの音声信号が含まれるか否かを判定する(S12)。判定の結果、WuW検出部141がWuWの音声信号があると判定すれば、WuW検出部141の処理はステップS14に進む。その一方、WuW検出部141がWuWの信号がないと判定すれば、WuW検出部141の処理はステップS11に戻る。
WuW検出部141のステップS11およびS12の処理に並行して、音声信号バッファ部142は、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分、常時記憶保持する。すなわち、音声信号バッファ部142は、マイクMC1~MC6の音声信号それぞれに対しバッファリング処理を行う(S13)。
話者位置検出部143は、WuWの音声信号とバッファリング処理された各音声信号とを照会して、車体2内におけるWuWの話者の空間的位置を検出する。これにより、話者位置検出部143は、WuWの音声を収音したマイクを話者位置マイクとして特定する(S14)。この話者位置マイクの特定により、話者位置マイクの音声信号に混入するWuWの話者以外が発声した音声を抑圧するように、音声制御部140はCTC部144の適応フィルタのフィルタ係数を設定して機能(起動)させる(S15)。
このCTC部144の設定の際、WuW検出部141、音声信号バッファ部142および話者位置検出部143は、ステップS15以降(図5に示すメインルーチンも含む)では動作(例えばバッファリング処理等)が不要となるのでその機能を停止する(S16)。
CTC部144の適応フィルタのフィルタ係数が設定されたら、CTC部144は、話者位置マイクの音声信号を直接取得して、WuWの話者でない乗員が発声した音声を抑圧する。このとき、CTC部144は、適応フィルタを用いて音声信号のフィルタリング処理を行う(S17)。音声制御部140は、WuWを発声した話者の音声が鮮明になった音声信号を出力し、このフィルタリング処理による出力状態を維持する(S18)。
すなわち、WuWが発声されその話者位置マイクが特定された以降の音声は、CTC部144でのフィルタリング処理が常時施される。その結果、WuWの話者以外の運転者または乗員が発声した音声は打ち消され、WuWの話者が発声した音声が主な音声信号が出力され続けることになる。このような一連のステップS10~S18が実行され、サブルーチンSR1は終了し、図5に示すメインルーチンの動作手順に戻ることになる。
図5に示すように、音声処理装置100の音声制御部140によるサブルーチンSR1が終了すると、音声処理装置100の処理はステップS100に進む。音声制御部140は、通信インターフェース110を用いて音声認識サーバ40に所定の音声認識起動コマンドを送信する(S100)。
ここで、音声認識サーバ40は、音声処理装置100の音声制御部140から音声認識起動コマンドを受信したか否かを判定する(S102)。音声認識サーバ40は、受信していないと判定すれば、音声認識サーバ40の処理はステップS101に戻り、待機モードとなる。すなわち、音声認識サーバ40は、音声認識起動コマンドが受信されるまで待機モードとされる。その一方、音声認識サーバ40は、音声認識起動コマンドを受信したと判定すれば、音声認識サーバ40の処理はステップS104に進む。なお、音声認識起動コマンドは、音声認識サーバ40に自動音声認識の実行を促すトリガとして機能する命令文である。また、WuW検出部141がWuWの音声を検出したと同時に、音声認識サーバ40に音声認識起動コマンドが送信されるように構成しても良い。
音声制御部140は、ステップS100の後、CTC部144がフィルタリング処理した音声信号を音声認識サーバ40に送信する(S103)。音声認識サーバ40は、その音声信号を受信して、前述の通り音声認識を実行する。音声認識サーバ40は、通信インターフェース41を用いて音声認識結果を音声制御部140に送信する(S104)。なお、サブルーチンSR1以降、音声制御部140により出力される音声信号は、CTC部144でのフィルタリング処理が行われており、WuWの話者が発声した音声が主な音声信号となっている。すなわち、ステップS103では、サブルーチンSR1のステップS17,S18と同様な処理が実行されている。
音声処理装置100の車載機器制御部120は、音声認識サーバ40の認識結果に基づいて、車載機器30それぞれの作動を制御する(S105)。
次に、音声制御部140は、所定の条件を満たしたか否かを検出することで、音声認識を終了するか否かを判定する(S106)。音声制御部140音声認識を終了すると判定すれば、音声制御部140の処理はステップS107に進む。その一方、音声制御部140が音声認識を終了しないと判定すれば、音声制御部140の処理はステップS103に戻る。
音声制御部140は音声認識終了コマンドを音声認識サーバ40に送信する(S107)。音声認識サーバ40は、音声制御部140から音声認識終了コマンドを受信したか否かを判定し(S108)、受信したと判定すると音声認識サーバ40の処理はステップS101に戻り再び待機モードとなる。その一方、音声認識サーバ40が受信していないと判定するとステップS104に戻る。音声認識終了コマンドを受信しない限り、音声認識サーバ40は音声認識を実行し続ける。
すなわち、これらステップS106,S107により、音声制御部140は、その制御機能の一部として、所定の条件を検出した場合に、自装置の作動モードを、WuWの話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード(S103)から、WuWの音声の有無を検出するWuW検出待機モード(すなわちSR1:所定ワード検出待機モードの一例)に移行する機能をさらに有することになる。
ここで、実施の形態1では、所定の条件として2つの動作手順が選択的に実行される。所定の条件に関する第1動作手順では、WuWとは異なる音声認識の終了を意味するストップワード(SW,Stop Word:終了ワードの一例)が事前に定義、設定される。ステップS106において、音声制御部140のWuW検出部141は、WuWの検出だけではなく、話者位置マイクにより収音された音声信号に基づいて、同様なアルゴリズムに従ってSWの音声の有無を検出する。音声制御部140は、SWの音声が検出されたか否かを判定することによってステップS106を実行して、自装置の作業モードをWuW検出待機モードに移行する。
また、所定の条件に関する第2動作手順では、音声制御部140は、話者が発声した音声の認識結果を取得して一定時間が経過したか否かを判定することによってステップS106を実行して、自装置の作業モードをWuW検出待機モードに移行する。
このようにステップS106では、これら第1または第2動作手順のいずれか1つの条件が満足されるかどうかが判定され、音声制御部140の処理が実行される。
以上により、実施の形態1に係る音声処理装置100は、複数の異なるマイクMC1~MC6のそれぞれにより収音された所定時間分の音声信号を保持する音声信号バッファ部(保持部の一例)142を備える。音声処理装置100は、複数の異なるマイクMC1~MC6のそれぞれにより収音された音声信号に基づいて、車両1に乗車している話者が発声するWuW(所定ワードの一例)の音声の有無を検出するWuW検出部(ワード検出部の一例)141を備える。音声処理装置100は、WuWの音声が検出された場合に、音声信号バッファ部142に保持される所定時間分の音声信号のそれぞれの特性に基づいて、WuWの音声信号を収音したマイク(例えば、マイクMC1~MC6のうちいずれか)を話者位置マイク(例えばマイクMC1)として特定する話者位置検出部(マイク特定部の一例)143を備える。音声処理装置100は、音声信号バッファ部142に保持される所定時間分の音声信号と話者位置マイクに関する情報とを用いて、話者が発声した音声を出力するとともに、話者でない乗員が発声した音声を抑圧するCTC部(音声処理部の一例)144を備える。
これにより、音声処理装置100または音声処理システム100Sは、車両1内で発声されるWuWの発声方向を迅速に検出し、そのWuWの話者がWuWに続けて発声する音声をその話者以外の音声に対して排他的に抽出できる。音声処理装置100または音声処理システム100Sは、この抽出により、WuWの検出後、その話者以外の音声が混入して出力されるのを抑圧してその話者が発声する音声を遅延なく鮮明(クリア)に出力することができる。その結果、音声処理装置100または音声処理システム100Sは、自動音声認識等の精度や性能を向上させ、WuWの検出に基づいて車載機器30の作動を迅速に行うことができる。
また、音声処理装置100は、所定の条件を検出した場合に、自装置の作動モードを、話者が発声した音声を出力して話者でない乗員が発声した音声を抑圧する特定話者音声出力モード(S103)から、WuW(所定ワードの一例)の音声の有無を検出するWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する音声制御部140(音声処理部の一例)をさらに備える。これにより、音声処理装置100は、必要なときのみ自装置を作動させるので、無駄な処理を削減するとともに、音声認識サーバ40との間で過剰な回線トラフィックが発生するのを防止することができる。
また、音声処理装置100では、WuW検出部141は、話者位置マイクにより収音された音声信号に基づいて、WuW(所定ワードの一例)と異なるSW(終了ワードの一例)の音声の有無を検出する。音声処理装置100は、音声制御部140は、WuWと異なるSWの音声が検出された場合に、所定の条件を満たしたとして、自装置の作動モードをWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する。これにより、音声処理装置100は、WuWの話者自身で音声処理装置100の作動を終了させることができるので、運転者または乗員の人間側で無駄な処理や過剰な回線トラフィックを自発的に削減することができる。また、運転者または乗員は、音声処理装置100が待機状態になったことを自明的に把握することができる。
また、音声処理装置100では、音声制御部140は、話者が発声した音声の認識結果を取得して一定時間が経過した場合に、所定の条件を満たしたとして、自装置の作動モードをWuW検出待機モード(SR1、所定ワード検出待機モードの一例)に移行する。これにより、音声処理装置100は、WuWの話者自身で音声処理装置100の作動を終了させてなくても自動的に装置側で作業を終了することができる。このため、音声処理装置100では、無駄な処理や過剰な回線トラフィックの発生を自動的に抑制することができる。
(実施の形態1の第1変形例)
次に図6および図7を参照して、実施の形態1の第1変形例に係る音声制御部140の動作について説明する。図6は、第1変形例の音声制御部140の動作を示す処理ブロック図である。図7は、第1変形例の音声制御部140の動作手順を示すフローチャートである。なお、図3および図4と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
次に図6および図7を参照して、実施の形態1の第1変形例に係る音声制御部140の動作について説明する。図6は、第1変形例の音声制御部140の動作を示す処理ブロック図である。図7は、第1変形例の音声制御部140の動作手順を示すフローチャートである。なお、図3および図4と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図6に示すように、第1変形例では、音声制御部140は再生音キャンセラ145およびノイズキャンセラ(不図示)をさらに備える。再生音キャンセラ145は、複数の車載機器30のうちカーオーディオ(音楽再生装置の一例)31にも接続されており、CTC部144の出力信号とともにその出力信号も入力される。具体的には、再生音キャンセラ145には、カーオーディオ31が音声出力装置20のアンプ21に出力する音声信号と同じ信号(デジタル信号)が入力される(図2参照)。なお、ノイズキャンセラは、再生音キャンセラ145の出力信号にローパスフィルタ等のフィルタリング処理を実行してノイズを除去する。
再生音キャンセラ145も、CTC部144と同様に適用フィルタ(不図示)および加算器(不図示)を有する。再生音キャンセラ145の適応フィルタは、カーオーディオ31で再生される音楽の音声信号を参照して、その再生音楽に関するダミー音声信号を生成する。再生音キャンセラ145は、話者位置マイクで収音された音声に対し適応フィルタで生成された、再生音楽に関するダミー音声信号を加算器で加算する。これにより、再生音キャンセラ145は、車載スピーカSP1,SP2,SP3,SP4を介して車体2内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする。このようにして、再生音キャンセラ145は、音声制御部140の出力音声信号から、車両1に搭載されるカーオーディオ31の再生音楽(再生音の一例)が複数の異なるマイクMC1~MC6により収音された再生音信号を抑圧する。
図7に示すように、再生音キャンセラ145の処理は、CTC部144のステップS17での処理の後に実行される。再生音キャンセラ145は、カーオーディオ31の再生音楽の音声信号を取得して、前述したフィルタ処理により話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルする(S20)。その以降は、CTC部144および再生音キャンセラ145両方でのフィルタリング処理により、音声制御部140は、WuWを発声した話者の音声が鮮明になった音声信号を出力し、この出力状態を維持する(S18)。
以上により、実施の形態1の第1変形例に係る音声処理装置100は、音声制御部(音声処理部の一例)140の出力音声信号から、車両1に搭載されるカーオーディオ(音楽再生装置の一例)31の再生音楽(再生音の一例)が複数の異なるマイクMC1~MC6により収音された再生音信号を抑圧する再生音キャンセラ145をさらに備える。これにより、再生音キャンセラ145は、車載スピーカSP1,SP2,SP3,SP4を介して車体2内に流れ、話者位置マイクに混入して収音される再生音楽の音声信号をキャンセルすることができる。このため、音声処理装置100は、WuWを発声した話者以外の音声が混入して出力されるのをより効果的に抑制して、その話者が発声する音声をより鮮明にすることができる。
(実施の形態1の第2変形例)
図8を参照して、実施の形態1の第2変形例に係る音声制御部140の動作について説明する。図8は、第2変形例の音声制御部140の動作を示す処理ブロック図である。なお、図3と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図8を参照して、実施の形態1の第2変形例に係る音声制御部140の動作について説明する。図8は、第2変形例の音声制御部140の動作を示す処理ブロック図である。なお、図3と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図8に示すように、第2変形例では、音声制御部140はビームフォーミング(BF: Beam Forming)処理部146をさらに備える。また、複数の異なるマイクMC1~MC6は、それぞれ複数のマイク素子を含んで構成されるマイクアレイとされる。
ビームフォーミング処理部146は、マイクロアレイで構成される複数のマイクMC1~MC6を用いて、話者位置マイクにより収音された音声信号の音源に対応する話者に、音声信号の指向性を形成する。この指向性の形成により、ビームフォーミング処理部146は、その指向軸をWuWの話者の方向に向けて車体2内におけるその話者周辺の音声やノイズの収音を抑制する。
以上により、実施の形態1の第2変形例に係る音声処理装置100は、話者位置マイクにより収音された音声信号の音源に対応する話者(すなわちWuWを発声した話者)に、音声信号の指向性を形成するビームフォーミング処理部146をさらに備える。音声処理装置100は、複数の異なるマイクMC1~MC6は、それぞれ複数のマイク素子を含んで構成されるマイクアレイである。これにより、ビームフォーミング処理部146は、マイクロアレイで構成される複数のマイクMC1~MC6を用いて、車体2内におけるその話者周辺の音声やノイズの収音を抑制して、その話者が発声する音声をより一層鮮明にすることができる。
(実施の形態2)
次に図9~図12を参照して、本開示に係る車両1に搭載可能な音声処理装置200、音声処理方法および音声処理システム200Sの実施の形態2について説明する。図9は、実施の形態2に係る車両1の上面図である。図10は、音声処理装置200のシステム構成を説明する機能ブロック図である。図11は、音声制御部240の信号処理の動作を示す処理ブロック図である。図12は、音声制御部240の動作手順を示すフローチャートである。なお、実施の形態1と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
次に図9~図12を参照して、本開示に係る車両1に搭載可能な音声処理装置200、音声処理方法および音声処理システム200Sの実施の形態2について説明する。図9は、実施の形態2に係る車両1の上面図である。図10は、音声処理装置200のシステム構成を説明する機能ブロック図である。図11は、音声制御部240の信号処理の動作を示す処理ブロック図である。図12は、音声制御部240の動作手順を示すフローチャートである。なお、実施の形態1と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図9および図10にそれぞれ示すように、実施の形態2では、複数のマイクMC(具体的には、マイクMC1~MC6とWuW検出用マイクMC7)は車体2内に7本配置され、7本のうちマイクMC1~MC6以外である第7のマイクは、WuW検出用マイクMC7とされる。特定のマイクの一例としてのWuW検出用マイクMC7は、WuWを検出するために用いられる専用のマイクであり、車両1に乗車している乗員の発する音声を均等に収音し易くするために、できるだけ車体2の略中央部分天井面に埋設される。図9では、WuW検出用マイクMC7は、マイクMC3とマイクMC4との間の中間的位置に配置されるが、配置される位置に限定されない。実施の形態2では、第7のマイク(つまり、WuW検出用マイクMC7)以外のマイクMC1~MC6により収音された音声に基づいて、WuWの検出は行われない。
そのため、図11に示すように、音声制御部240の信号処理の動作において、WuW検出部241には複数のマイクMC1~MC6の音声信号は入力されず、第7のマイク(WuW検出用マイクMC7)により収音された音声のみ、すなわち1チャンネル分の音声しか入力されない。その一方、音声信号バッファ部142、話者位置検出部143およびCTC部144には、上記実施の形態1と同様、マイクMC1~MC6の6チャンネル分の音声が入力される。
WuW検出部241は、このWuW検出用マイクMC7の収音した音声信号に基づき所定のマッチングアルゴリズムに従って、車両1に乗車している人物の中から特定の話者より発生されたWuWの音声信号の有無を検出する。その他の構成については、上記実施の形態1と同様である。
すなわち、図12に示すように、実施の形態2に係るWuW検出部241は、WuW検出用マイクMC7により収音された音声信号を直接取得する(S30)。WuW検出部241は、入力されたWuW検出用マイクMC7の音声信号の検出処理を開始する(S31)。WuW検出部241は、入力された音声信号の中にWuWの音声信号が含まれるか否かを判定する(S32)。その一方、これらWuW検出部241のステップS30~ステップS32の処理に並行して、音声信号バッファ部142は、実施の形態1と同様に、マイクMC1~MC6により収音された音声信号をそれぞれ取得する(S33)。音声信号バッファ部142は、入力されたマイクMC1~MC6の音声信号それぞれを個別に所定時間分、常時記憶保持する。それ以降のステップは、実施の形態1と同様である。
以上により、実施の形態2に係る音声処理装置200は、WuW検出部(ワード検出部の一例)241は、複数の異なるマイクMC(具体的には、マイクMC1~MC6と、WuW検出用マイクMC7)のうちWuW検出用マイクMC7により収音された音声信号に基づいて、話者が発声するWuW(所定ワードの一例)の音声の有無を検出する。これにより、音声処理装置200は、WuWの音声を検出する際にWuW検出用マイクMC7により収音された音声信号の中からWuWの音声を検出すればよいので、音声制御部240のWuW検出部241が処理すべき情報量を軽減して、より迅速にWuWの話者が発声する音声をより迅速に鮮明にすることができる。
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
なお、本出願は、2018年3月29日出願の日本特許出願(特願2018-066232)に基づくものであり、その内容は本出願の中に参照として援用される。
本開示は、車両内で発声される所定ワード(例えば、ウェイクアップワード等)の発声方向を迅速に検出し、その所定ワードの話者が所定ワードに続けて発声する音声をその話者以外の音声に対して排他的に抽出することができる車両に搭載可能な音声処理装置、音声処理方法および音声処理システムとして有用である。
1 車両
2 車体
3 インストルメントパネル
20 音声出力装置
21 アンプ
30 車載機器
31 カーオーディオ
32 エアコンディショナー
33 照明装置
34 映像表示装置
35 ナビゲーション装置
40 音声認識サーバ
41 通信インターフェース
42 演算機
43 メモリ
44 ストレージ
100S 音声処理システム
100 音声処理装置
110 通信インターフェース
120 車載機器制御部
130 メモリ
140 音声制御部
141 WuW検出部
142 音声信号バッファ部
143 話者位置検出部
144 CTC部
145 再生音キャンセラ
146 ビームフォーミング処理部
200S 音声処理システム
200 音声処理装置
240 音声制御部
241 WuW検出部
SP1,SP2,SP3,SP4 車載スピーカ
MC1,MC2,MC3,MC4,MC5,MC6 マイク
MC7 WuW検出用マイク
CL クラウド
2 車体
3 インストルメントパネル
20 音声出力装置
21 アンプ
30 車載機器
31 カーオーディオ
32 エアコンディショナー
33 照明装置
34 映像表示装置
35 ナビゲーション装置
40 音声認識サーバ
41 通信インターフェース
42 演算機
43 メモリ
44 ストレージ
100S 音声処理システム
100 音声処理装置
110 通信インターフェース
120 車載機器制御部
130 メモリ
140 音声制御部
141 WuW検出部
142 音声信号バッファ部
143 話者位置検出部
144 CTC部
145 再生音キャンセラ
146 ビームフォーミング処理部
200S 音声処理システム
200 音声処理装置
240 音声制御部
241 WuW検出部
SP1,SP2,SP3,SP4 車載スピーカ
MC1,MC2,MC3,MC4,MC5,MC6 マイク
MC7 WuW検出用マイク
CL クラウド
Claims (9)
- 複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持する保持部と、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するワード検出部と、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定するマイク特定部と、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧する音声処理部と、を備える、
音声処理装置。 - 前記音声処理部の出力音声信号から、前記車両に搭載される音楽再生装置の再生音が前記複数の異なるマイクにより収音された再生音信号を抑圧する再生音キャンセラ、をさらに備える、
請求項1に記載の音声処理装置。 - 前記話者位置マイクにより収音された音声信号の音源に対応する前記話者に、音声信号の指向性を形成するビームフォーミング処理部、をさらに備え、
前記複数の異なるマイクは、それぞれ複数のマイク素子を含んで構成されるマイクアレイである、
請求項1または2に記載の音声処理装置。 - 前記ワード検出部は、
前記複数の異なるマイクのうち特定のマイクにより収音された音声信号に基づいて、前記話者が発声する所定ワードの音声の有無を検出する、
請求項1に記載の音声処理装置。 - 所定の条件を検出した場合に、自装置の作動モードを、前記話者が発声した音声を出力して前記話者でない乗員が発声した音声を抑圧する特定話者音声出力モードから、前記所定ワードの音声の有無を検出する所定ワード検出待機モードに移行する制御部、をさらに備える、
請求項1に記載の音声処理装置。 - 前記ワード検出部は、
前記話者位置マイクにより収音された音声信号に基づいて、前記所定ワードと異なる終了ワードの音声の有無を検出し、
前記制御部は、
前記所定ワードと異なる終了ワードの音声が検出された場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項5に記載の音声処理装置。 - 前記制御部は、
前記話者が発声した音声の認識結果を取得して一定時間が経過した場合に、前記所定の条件を満たしたとして、前記自装置の作動モードを前記所定ワード検出待機モードに移行する、
請求項5に記載の音声処理装置。 - 複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置における音声処理方法であって、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持するステップと、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出するステップと、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定するステップと、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力するとともに、前記話者でない乗員が発声した音声を抑圧するステップと、を有する、
音声処理方法。 - 複数のシートのそれぞれに対応して複数の異なるマイクが配置された車両に搭載される音声処理装置と、前記車両に搭載される車載機器を制御する制御装置とを含む音声処理システムであって、
前記音声処理装置は、
前記複数の異なるマイクのそれぞれにより収音された所定時間分の音声信号を保持部に保持し、
前記複数の異なるマイクのそれぞれにより収音された音声信号に基づいて、前記車両に乗車している話者が発声する所定ワードの音声の有無を検出し、
前記所定ワードの音声が検出された場合に、前記保持部に保持される前記所定時間分の音声信号のそれぞれの特性に基づいて、前記所定ワードの音声信号を収音したマイクを話者位置マイクとして特定し、
前記保持部に保持される前記所定時間分の音声信号と前記話者位置マイクに関する情報とを用いて、前記話者が発声した音声を出力し、前記話者でない乗員が発声した音声を抑圧し、
前記話者が発声した音声の認識結果を取得し、
前記制御装置は、
前記話者が発声した音声の認識結果に基づいて、前記車載機器の作動を制御する、
音声処理システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18913012.3A EP3779973A4 (en) | 2018-03-29 | 2018-12-11 | VOICE PROCESSING DEVICE, METHOD AND SYSTEM |
US16/979,714 US11804220B2 (en) | 2018-03-29 | 2018-12-11 | Voice processing device, voice processing method and voice processing system |
CN201880091245.6A CN111886647B (zh) | 2018-03-29 | 2018-12-11 | 语音处理装置、语音处理方法和语音处理系统 |
US18/370,162 US12118990B2 (en) | 2018-03-29 | 2023-09-19 | Voice processing device, voice processing method and voice processing system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018066232A JP7186375B2 (ja) | 2018-03-29 | 2018-03-29 | 音声処理装置、音声処理方法および音声処理システム |
JP2018-066232 | 2018-03-29 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US16/979,714 A-371-Of-International US11804220B2 (en) | 2018-03-29 | 2018-12-11 | Voice processing device, voice processing method and voice processing system |
US18/370,162 Continuation US12118990B2 (en) | 2018-03-29 | 2023-09-19 | Voice processing device, voice processing method and voice processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019187371A1 true WO2019187371A1 (ja) | 2019-10-03 |
Family
ID=68058722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/045419 WO2019187371A1 (ja) | 2018-03-29 | 2018-12-11 | 音声処理装置、音声処理方法および音声処理システム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11804220B2 (ja) |
EP (1) | EP3779973A4 (ja) |
JP (2) | JP7186375B2 (ja) |
CN (1) | CN111886647B (ja) |
WO (1) | WO2019187371A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021099707A1 (fr) * | 2019-11-21 | 2021-05-27 | Psa Automobiles Sa | Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d'un utilisateur, et véhicule automobile l'incorporant |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP7151694B2 (ja) * | 2019-11-27 | 2022-10-12 | 井関農機株式会社 | コンバイン |
JP7465700B2 (ja) | 2020-03-27 | 2024-04-11 | 株式会社デンソーテン | 車載装置および車載装置における音声処理方法 |
CN113113005B (zh) * | 2021-03-19 | 2024-06-18 | 大众问问(北京)信息科技有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6113900U (ja) * | 1984-06-29 | 1986-01-27 | フジテツク株式会社 | エレベ−タの音声応答装置 |
JPH1152976A (ja) * | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP2001051694A (ja) * | 1999-08-10 | 2001-02-23 | Fujitsu Ten Ltd | 音声認識装置 |
JP2005055667A (ja) * | 2003-08-04 | 2005-03-03 | Sony Corp | 音声処理装置 |
JP2015513704A (ja) * | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | ユーザ専用自動発話認識 |
JP2017076117A (ja) | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
JP2018066232A (ja) | 2016-10-21 | 2018-04-26 | 株式会社Ihi | 埋込金物及びタンクの構築方法 |
Family Cites Families (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6113900A (ja) | 1984-06-29 | 1986-01-22 | Pioneer Electronic Corp | トランスデユ−サ |
JPH1165586A (ja) * | 1997-08-18 | 1999-03-09 | Honda Motor Co Ltd | 車両用音声入力装置 |
JP2000148185A (ja) * | 1998-11-13 | 2000-05-26 | Matsushita Electric Ind Co Ltd | 認識装置及び認識方法 |
JP3436184B2 (ja) * | 1999-05-13 | 2003-08-11 | 日本電気株式会社 | 多チャンネル入力音声認識装置 |
JP3454190B2 (ja) * | 1999-06-09 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置および方法 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
WO2002015395A1 (en) * | 2000-07-27 | 2002-02-21 | Clear Audio Ltd. | Voice enhancement system |
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP4209247B2 (ja) * | 2003-05-02 | 2009-01-14 | アルパイン株式会社 | 音声認識装置および方法 |
EP1562180B1 (en) | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Speech dialogue system and method for controlling an electronic device |
JP4501559B2 (ja) * | 2004-07-07 | 2010-07-14 | ヤマハ株式会社 | スピーカ装置の指向性制御方法およびオーディオ再生装置 |
EP1695873B1 (en) * | 2005-02-23 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Vehicle speech recognition system |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
US20090055178A1 (en) | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method of controlling personalized settings in a vehicle |
CN102376309B (zh) * | 2010-08-17 | 2013-12-04 | 骅讯电子企业股份有限公司 | 降低环境噪音的系统、方法与应用的装置 |
US9274744B2 (en) * | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
US9779114B2 (en) * | 2011-10-07 | 2017-10-03 | Henk B. Rogers | Media geotagging |
KR20130106511A (ko) * | 2012-03-20 | 2013-09-30 | 삼성전자주식회사 | 휴대 단말기의 위급 상황 안내 서비스 방법 및 장치 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
JP5972372B2 (ja) * | 2012-06-25 | 2016-08-17 | 三菱電機株式会社 | 車載情報装置 |
US9620115B2 (en) * | 2013-01-03 | 2017-04-11 | Telenav, Inc. | Content delivery system with barge-in mechanism and method of operation thereof |
US20200294521A1 (en) * | 2013-03-13 | 2020-09-17 | Kopin Corporation | Microphone configurations for eyewear devices, systems, apparatuses, and methods |
US9671864B2 (en) * | 2013-03-21 | 2017-06-06 | Chian Chiu Li | System and methods for providing information |
JP6198432B2 (ja) * | 2013-04-09 | 2017-09-20 | 小島プレス工業株式会社 | 音声認識制御装置 |
KR102089638B1 (ko) * | 2013-08-26 | 2020-03-16 | 삼성전자주식회사 | 전자장치의 음성 녹음 방법 및 장치 |
US10026414B2 (en) * | 2013-09-17 | 2018-07-17 | Nec Corporation | Speech processing system, vehicle, speech processing unit, steering wheel unit, speech processing method, and speech processing program |
US10134395B2 (en) * | 2013-09-25 | 2018-11-20 | Amazon Technologies, Inc. | In-call virtual assistants |
US9532131B2 (en) * | 2014-02-21 | 2016-12-27 | Apple Inc. | System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device |
WO2016088919A1 (ko) * | 2014-12-04 | 2016-06-09 | (주) 트라이너스 | 무선 마이크로폰 시스템 |
US9792901B1 (en) * | 2014-12-11 | 2017-10-17 | Amazon Technologies, Inc. | Multiple-source speech dialog input |
EP3040984B1 (en) * | 2015-01-02 | 2022-07-13 | Harman Becker Automotive Systems GmbH | Sound zone arrangment with zonewise speech suppresion |
CN104660416B (zh) * | 2015-02-13 | 2018-08-28 | 飞天诚信科技股份有限公司 | 一种语音认证系统和设备的工作方法 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
CA2982196C (en) * | 2015-04-10 | 2022-07-19 | Huawei Technologies Co., Ltd. | Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal |
EP3292703B8 (en) * | 2015-05-15 | 2021-03-10 | Nureva Inc. | System and method for embedding additional information in a sound mask noise signal |
US9913065B2 (en) * | 2015-07-06 | 2018-03-06 | Bose Corporation | Simulating acoustic output at a location corresponding to source position data |
EP3338461B1 (en) * | 2015-08-19 | 2020-12-16 | Retune DSP ApS | Microphone array signal processing system |
US10747498B2 (en) * | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
KR102476600B1 (ko) * | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
CA3006056A1 (en) * | 2015-12-02 | 2017-06-08 | Walmart Apollo, Llc | Systems and methods of monitoring the unloading and loading of delivery vehicles |
EP3179472B1 (en) * | 2015-12-11 | 2020-03-18 | Sony Mobile Communications, Inc. | Method and device for recording and analyzing data from a microphone |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US10395644B2 (en) * | 2016-02-25 | 2019-08-27 | Panasonic Corporation | Speech recognition method, speech recognition apparatus, and non-transitory computer-readable recording medium storing a program |
US10412490B2 (en) * | 2016-02-25 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Multitalker optimised beamforming system and method |
US10090005B2 (en) * | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
US9997173B2 (en) * | 2016-03-14 | 2018-06-12 | Apple Inc. | System and method for performing automatic gain control using an accelerometer in a headset |
EP3440527A4 (en) * | 2016-04-05 | 2019-11-27 | Hewlett-Packard Development Company, L.P. | AUDIO INTERFACE FOR MULTIPLE MICROPHONES AND LOUDSPEAKER SYSTEMS FOR INTERFACING WITH A HOST |
EP3754653A1 (en) * | 2016-06-15 | 2020-12-23 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
US11062304B2 (en) * | 2016-10-20 | 2021-07-13 | Google Llc | Offline user identification |
US10210863B2 (en) * | 2016-11-02 | 2019-02-19 | Roku, Inc. | Reception of audio commands |
CN106378786B (zh) * | 2016-11-30 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于人工智能的机器人 |
KR102725853B1 (ko) * | 2016-12-13 | 2024-11-05 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US20180190282A1 (en) * | 2016-12-30 | 2018-07-05 | Qualcomm Incorporated | In-vehicle voice command control |
US10367948B2 (en) * | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
JP6650607B2 (ja) * | 2017-03-16 | 2020-02-19 | パナソニックIpマネジメント株式会社 | 音響エコー抑圧装置及び音響エコー抑圧方法 |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
KR102352560B1 (ko) * | 2017-06-09 | 2022-01-19 | 현대자동차주식회사 | 차량용 키, 차량, 및 그 제어방법 |
US10599377B2 (en) * | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10966023B2 (en) * | 2017-08-01 | 2021-03-30 | Signify Holding B.V. | Lighting system with remote microphone |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10504516B2 (en) * | 2017-09-13 | 2019-12-10 | Federal Signal Corporation | Voice control for emergency vehicle |
US10674303B2 (en) * | 2017-09-29 | 2020-06-02 | Apple Inc. | System and method for maintaining accuracy of voice recognition |
US20200327889A1 (en) * | 2017-10-16 | 2020-10-15 | Nec Corporation | Nurse operation assistance terminal, nurse operation assistance system, nurse operation assistance method, and nurse operation assistance program recording medium |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
CN107808670B (zh) * | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
US10768697B2 (en) * | 2017-11-02 | 2020-09-08 | Chian Chiu Li | System and method for providing information |
US20190139565A1 (en) * | 2017-11-08 | 2019-05-09 | Honeywell International Inc. | Intelligent sound classification and alerting |
US10805740B1 (en) * | 2017-12-01 | 2020-10-13 | Ross Snyder | Hearing enhancement system and method |
KR20190068133A (ko) * | 2017-12-08 | 2019-06-18 | 삼성전자주식회사 | 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법 |
JP6977169B2 (ja) * | 2017-12-08 | 2021-12-08 | グーグル エルエルシーGoogle LLC | デジタル音声アシスタントコンピューティングデバイスの間の信号処理の調整 |
US10884104B2 (en) * | 2017-12-20 | 2021-01-05 | Ecolink Intelligent Technology, Inc. | Monitoring device having 360 degree sensing capabilities |
US10979805B2 (en) * | 2018-01-04 | 2021-04-13 | Stmicroelectronics, Inc. | Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors |
WO2019136383A1 (en) * | 2018-01-05 | 2019-07-11 | Veoneer Us, Inc. | Vehicle microphone activation and/or control systems |
KR20190084789A (ko) * | 2018-01-09 | 2019-07-17 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US10657981B1 (en) * | 2018-01-19 | 2020-05-19 | Amazon Technologies, Inc. | Acoustic echo cancellation with loudspeaker canceling beamformer |
KR102115222B1 (ko) * | 2018-01-24 | 2020-05-27 | 삼성전자주식회사 | 사운드를 제어하는 전자 장치 및 그 동작 방법 |
KR102236471B1 (ko) * | 2018-01-26 | 2021-04-05 | 서강대학교 산학협력단 | 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법 |
US20190237067A1 (en) * | 2018-01-31 | 2019-08-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Multi-channel voice recognition for a vehicle environment |
US10885907B2 (en) * | 2018-02-14 | 2021-01-05 | Cirrus Logic, Inc. | Noise reduction system and method for audio device with multiple microphones |
US10560737B2 (en) * | 2018-03-12 | 2020-02-11 | Amazon Technologies, Inc. | Voice-controlled multimedia device |
WO2019181758A1 (ja) * | 2018-03-19 | 2019-09-26 | パナソニックIpマネジメント株式会社 | 会話支援装置 |
US10297245B1 (en) * | 2018-03-22 | 2019-05-21 | Cirrus Logic, Inc. | Wind noise reduction with beamforming |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP7023823B2 (ja) * | 2018-11-16 | 2022-02-22 | アルパイン株式会社 | 車載装置及び音声認識方法 |
CN113327608B (zh) * | 2021-06-03 | 2022-12-09 | 阿波罗智联(北京)科技有限公司 | 针对车辆的语音处理方法、装置、电子设备和介质 |
-
2018
- 2018-03-29 JP JP2018066232A patent/JP7186375B2/ja active Active
- 2018-12-11 US US16/979,714 patent/US11804220B2/en active Active
- 2018-12-11 EP EP18913012.3A patent/EP3779973A4/en active Pending
- 2018-12-11 WO PCT/JP2018/045419 patent/WO2019187371A1/ja active Application Filing
- 2018-12-11 CN CN201880091245.6A patent/CN111886647B/zh active Active
-
2022
- 2022-11-14 JP JP2022181948A patent/JP7458013B2/ja active Active
-
2023
- 2023-09-19 US US18/370,162 patent/US12118990B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6113900U (ja) * | 1984-06-29 | 1986-01-27 | フジテツク株式会社 | エレベ−タの音声応答装置 |
JPH1152976A (ja) * | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP2001051694A (ja) * | 1999-08-10 | 2001-02-23 | Fujitsu Ten Ltd | 音声認識装置 |
JP2005055667A (ja) * | 2003-08-04 | 2005-03-03 | Sony Corp | 音声処理装置 |
JP2015513704A (ja) * | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | ユーザ専用自動発話認識 |
JP2017076117A (ja) | 2015-10-16 | 2017-04-20 | グーグル インコーポレイテッド | ホットワード認識 |
JP2018066232A (ja) | 2016-10-21 | 2018-04-26 | 株式会社Ihi | 埋込金物及びタンクの構築方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021099707A1 (fr) * | 2019-11-21 | 2021-05-27 | Psa Automobiles Sa | Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d'un utilisateur, et véhicule automobile l'incorporant |
FR3103618A1 (fr) * | 2019-11-21 | 2021-05-28 | Psa Automobiles Sa | Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant |
Also Published As
Publication number | Publication date |
---|---|
JP7186375B2 (ja) | 2022-12-09 |
US20240005919A1 (en) | 2024-01-04 |
CN111886647B (zh) | 2024-07-09 |
JP7458013B2 (ja) | 2024-03-29 |
EP3779973A1 (en) | 2021-02-17 |
US12118990B2 (en) | 2024-10-15 |
US11804220B2 (en) | 2023-10-31 |
CN111886647A (zh) | 2020-11-03 |
JP2023011945A (ja) | 2023-01-24 |
JP2019174778A (ja) | 2019-10-10 |
US20210043198A1 (en) | 2021-02-11 |
EP3779973A4 (en) | 2021-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019187371A1 (ja) | 音声処理装置、音声処理方法および音声処理システム | |
EP3678135B1 (en) | Voice control in a multi-talker and multimedia environment | |
CN109273006B (zh) | 车载系统的语音控制方法、车载系统、车辆及存储介质 | |
CN109545219A (zh) | 车载语音交互方法、系统、设备及计算机可读存储介质 | |
US20050216271A1 (en) | Speech dialogue system for controlling an electronic device | |
JP2001075594A (ja) | 音声認識システム | |
US20080071400A1 (en) | Audio processing system | |
CN209183264U (zh) | 语音处理系统 | |
JP2001056693A (ja) | 騒音低減装置 | |
JP6635394B1 (ja) | 音声処理装置および音声処理方法 | |
CN110010126A (zh) | 语音识别方法、装置、设备和存储介质 | |
WO2005036530A1 (en) | Speech recognizer using novel multiple microphone configurations | |
JP2017090611A (ja) | 音声認識制御システム | |
JP2010156825A (ja) | 音声出力装置 | |
CN115428067A (zh) | 用于提供个性化虚拟个人助理的系统和方法 | |
KR20210151089A (ko) | 차량 시스템의 음성 제어 | |
JP2024026716A (ja) | 信号処理装置及び信号処理方法 | |
WO2024137112A1 (en) | Speaker-specific speech filtering for multiple users | |
WO2022059245A1 (ja) | 音声処理システム、音声処理装置、及び音声処理方法 | |
KR20180102914A (ko) | 신경회로망 학습을 통한 노이즈 제거가 적용된 인포테인먼트 시스템 및 그 제어 방법 | |
WO2022059214A1 (ja) | 車載装置及び車載システム | |
US11894013B2 (en) | Sound collection loudspeaker apparatus, method and program for the same | |
JP4190735B2 (ja) | 音声認識方法および装置とナビゲーション装置 | |
KR20160066347A (ko) | 차량용 음성 인식 장치 및 방법 | |
JP2021043913A (ja) | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18913012 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2018913012 Country of ref document: EP |
|
ENP | Entry into the national phase |
Ref document number: 2018913012 Country of ref document: EP Effective date: 20201029 |