DE102023115164B3

DE102023115164B3 - Method for detecting an interference noise as well as infotainment system and motor vehicle

Info

Publication number: DE102023115164B3
Application number: DE102023115164.9A
Authority: DE
Inventors: Christoph Weigand; Tobias Schleicher
Original assignee: Cariad SE
Current assignee: Cariad SE
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2024-08-08
Anticipated expiration: 2043-06-10

Abstract

Die Erfindung betrifft ein Verfahren zum Detektieren von Störgeräuschen (9) während einer über eine Kommunikationsvorrichtung eines Infotainmentsystems (5) eines Kraftfahrzeugs (10) laufenden Telekommunikation, folgende Schritte umfassend: Erfassen eines Sprachsignals zumindest eines sprechenden Gesprächspartners; und Prüfen, ob ein durch ein Störgeräusch (9) verursachter Störgeräuschpegel (11) während der Telekommunikation über einem festgelegten Schwellwert (8) liegt; falls der Störgeräuschpegel (11) über dem festgelegten Schwellwert (8) liegt: Unterbrechen der Telekommunikation solange der Störgeräuschpegel (11) über dem festgelegten Schwellwert (8) liegt; Wiedergabe eines semantischen Inhalts des Sprachsignals an denjenigen Gesprächspartner an den das Sprachsignal während des Störgeräuschs (9) gesendet wurde. Die Telekommunikation wird fortgesetzt, sobald der Störgeräuschpegel (11) wieder unter dem festgelegten Schwellwert (8) liegt.

The invention relates to a method for detecting noise (9) during telecommunications via a communication device of an infotainment system (5) of a motor vehicle (10), comprising the following steps: detecting a voice signal from at least one speaking conversation partner; and checking whether a noise level (11) caused by noise (9) is above a specified threshold value (8) during telecommunications; if the noise level (11) is above the specified threshold value (8): interrupting the telecommunications as long as the noise level (11) is above the specified threshold value (8); reproducing a semantic content of the voice signal to the conversation partner to whom the voice signal was sent during the noise (9). Telecommunication is continued as soon as the noise level (11) is again below the specified threshold value (8).

Description

Die Erfindung betrifft ein Verfahren zum Detektieren eines Störgeräusches während einer über eine Kommunikationsvorrichtung eines Infotainmentsystems eines Kraftfahrzeugs laufenden Telekommunikation.The invention relates to a method for detecting an interference noise during a telecommunication running via a communication device of an infotainment system of a motor vehicle.

Heutzutage existieren verschiedene Ansätze mit Störgeräuschen bei Telefonaten umzugehen. Die meisten aktuellen Mikrofone beinhalten eine integrierte Rauschunterdrückung sowie eine Störgeräuschfilterung. Dies erhöht die Audioqualität beim Gesprächspartner, dass keine oder weniger unerwünschte Geräusche übertragen werden. Des Weiteren kann speziell bei Online-Telefonaten die Internetverbindung analysiert werden. Bei schlechter Verbindung, wird dies als Information mit angezeigt und gegeben falls die Videoauflösung künstlich herabgesetzt, um die Bandbreite für die Tonspur des Telefonats zu reservieren.Nowadays, there are various approaches to dealing with noise during telephone calls. Most current microphones have integrated noise suppression and noise filtering. This increases the audio quality for the person you are talking to, so that no or fewer unwanted noises are transmitted. Furthermore, the internet connection can be analyzed, especially for online telephone calls. If the connection is poor, this is displayed as information and, if necessary, the video resolution is artificially reduced in order to reserve the bandwidth for the audio track of the telephone call.

Kommt es dabei zu einer Unterbrechung eines Telefonats oder einer Telekommunikation müssen sich Gesprächspartner im Normalfall verbal darüber verständigen, ob und was sie vom Gespräch nicht verstanden haben. Die ist mitunter umständlich und unterbricht den Gesprächsfluss.If a telephone call or telecommunication is interrupted, the parties usually have to verbally communicate whether and what they did not understand in the conversation. This is sometimes awkward and interrupts the flow of the conversation.

Aus der US 2015 / 0 319 309 A1 ist ein Verfahren zum Beteiligen eines Nutzers an einer Telefonkonferenz mit einer Aufnahmefunktion bekannt.From the US 2015 / 0 319 309 A1 A method for involving a user in a telephone conference with a recording function is known.

Aus der DE102009018074A1 ist ein Verfahren zum automatischen Verwalten eines Telefonanrufs an Bord eines Fahrzeugs mit einer Unterbrechungsfunktion bekannt. Die Unterbrechungsfunktion dient zur Gesprächspausierung bei einer kognitiven Überlastung eines Fahrers.From the DE102009018074A1 A method for automatically managing a telephone call on board a vehicle with an interrupt function is known. The interrupt function is used to pause the call in the event of a driver's cognitive overload.

Aus der US7995745B1 ist ein System zur Steuerung eines Ferngesprächs zwischen einem ersten und zweiten Gesprächsteilnehmer mit einer Aufnahmefunktion bekannt.From the US7995745B1 A system for controlling a long-distance call between a first and a second call participant with a recording function is known.

Die EP 2 058 803 A1 beschreibt ein Verfahren zur Verbesserung der Qualität eines digitalen Sprachsignals, das mit Rauschen behaftet ist. Dieses Verfahren beinhaltet die Identifizierung des Sprechers, dessen Äußerung im digitalen Sprachsignal enthalten ist, die Bestimmung des Signal-Rausch-Verhältnisses des digitalen Sprachsignals und die Synthese mindestens eines Teils des digitalen Sprachsignals. Dabei wird für die Teile des Signals, deren Signal-RauschVerhältnis unter einem vordefinierten Schwellenwert liegt, basierend auf der Identifizierung des Sprechers eine Verbesserung vorgenommen.The EP 2 058 803 A1 describes a method for improving the quality of a digital speech signal that contains noise. This method includes identifying the speaker whose utterance is contained in the digital speech signal, determining the signal-to-noise ratio of the digital speech signal and synthesizing at least a portion of the digital speech signal. In this process, an improvement is made for the parts of the signal whose signal-to-noise ratio is below a predefined threshold value based on the identification of the speaker.

Die DE 10 2019 135 799 A1 beschreibt ein Verfahren zum Verbessern von Sprachverständlichkeit einer elektronischen Sprechverbindung und ein Headset zur Durchführung des Verfahrens.The EN 10 2019 135 799 A1 describes a method for improving speech intelligibility of an electronic voice connection and a headset for carrying out the method.

Die EP 3 736 805 A1 beschreibt ein System zur aktiven Geräuschunterdrückung (ANC), das einen adaptiven Filterdivergenzdetektor enthält, der darauf abzielt, die Divergenz eines oder mehrerer steuerbarer Filter zu erkennen, wenn sie basierend auf verschiedenen Amplitudenmerkmalen im Zeit- oder Frequenzbereich angepasst werden. Wenn eine Divergenz der steuerbaren Filter erkannt wird, kann das ANC-System entweder deaktiviert werden oder bestimmte Lautsprecher stummgeschaltet werden. Als Alternative dazu kann das ANC-System die abweichenden steuerbaren Filter modifizieren, um den ordnungsgemäßen Betrieb des Geräuschunterdrückungssystems wiederherzustellen. Dies kann die Anpassung eines Leckagewertes eines adaptiven Filterreglers beinhalten.The EP 3 736 805 A1 describes an active noise cancellation (ANC) system that includes an adaptive filter divergence detector that aims to detect the divergence of one or more controllable filters when they are adjusted based on various amplitude characteristics in the time or frequency domain. When divergence of the controllable filters is detected, the ANC system may either disable or mute certain speakers. Alternatively, the ANC system may modify the diverging controllable filters to restore proper operation of the noise cancellation system. This may include adjusting a leakage value of an adaptive filter controller.

Es ist eine Aufgabe der Erfindung, ein eingangs genanntes Verfahren derart weiterzubilden, dass sprachliche Äußerungen, die während einer Telekommunikation übertragen werden, trotz Störgeräusche beim Gesprächspartner ankommen.It is an object of the invention to further develop a method mentioned at the outset in such a way that linguistic utterances transmitted during telecommunication reach the conversation partner despite background noise.

Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figuren beschrieben.The object is achieved by the subject matter of the independent patent claims. Advantageous developments of the invention are described by the dependent patent claims, the following description and the figures.

Durch die Erfindung ist ein Verfahren zum Detektieren von Störgeräuschen während einer Telekommunikation bereitgestellt, die über eine Kommunikationsvorrichtung eines Infotainmentsystems eines Kraftfahrzeugs läuft. Die Telekommunikation kann beispielsweise ein Telefonat oder Video-Gespräch sein. Das Verfahren umfasst die folgenden Schritte: Ein Sprachsignal oder Stimmsignal zumindest eines sprechenden Gesprächspartners wird z. B. mittels eines Mikrofons des Infotainmentsystems erfasst. Es wird geprüft, ob ein durch ein Störgeräusch verursachter Störgeräuschpegel während der Telekommunikation über einem festgelegten Schwellwert liegt. Es kann sich um den Störpegel im Raum des sprechenden Gesprächspartners und/oder im Raum des zuhörenden Gesprächspartners handeln. In beiden Fällen ist dem zuhörenden Gesprächspartner das Verständnis des Sprachsignals erschwert.The invention provides a method for detecting noise during telecommunications that run via a communication device of an infotainment system of a motor vehicle. The telecommunications can be, for example, a telephone call or video call. The method comprises the following steps: A speech signal or voice signal of at least one speaking conversation partner is recorded, for example, using a microphone of the infotainment system. It is checked whether a noise level caused by noise during telecommunications is above a specified threshold. This can be the noise level in the room of the speaking conversation partner and/or in the room of the listening conversation partner. In both cases, it is difficult for the listening conversation partner to understand the speech signal.

Falls der Störgeräuschpegel, z. B. über 10 Sekunden, über dem festgelegten Schwellwert liegt, wird die Telekommunikation unterbrochen, solange der Störgeräuschpegel über dem festgelegten Schwellwert liegt. Ein semantischer Inhalt des Sprachsignals wird dem Gesprächspartner wiedergegeben, an den das Sprachsignal während des Auftretens des Störgeräuschs gesendet wurde. Das kann z.B. zeitversetzt erfolgen, insbesondere wenn das Störgeräusch beim zuhörenden Gesprächspartner vorliegt, und/oder es kann in einer vom Störgeräusch unabhängigen Form, z.B. als Text, erfolgen. Sobald der Störgeräuschpegel unter dem festgelegten Schwellwert liegt, wird die Telekommunikation fortgesetzt. Mit anderen Worten wird während einer Telekommunikation, z. B. über Mobilfunk oder Internet, ein Sprachsignal zumindest eines sprechenden Gesprächspartners erfasst. Während der Telekommunikation wird geprüft, ob ein Störgeräuschpegel oder Rauschpegel über einem festgelegten Schwellwert liegt, z. B. über 40 oder 60 oder 80 dB (Dezibel). Liegt der Störgeräuschpegel also über dem festgelegten Schwellwert, wird die Telekommunikation abgebrochen oder unterbrochen, bis der Störgeräuschpegel unter dem festgelegten Schwellwert liegt. Das verhindert z.B. das Mit-Übertragen des Störgeräuschs, wenn dieses beim sprechenden Gesprächspartner vorliegt. Liegt das Störgeräusch beim zuhörenden Gesprächspartner, kann durch die Unterbrechung erreicht werden, dass keine Höranstrengung entsteht. Der semantische Inhalt, also z. B. eine sprachliche Äußerung oder ein Sprachausdruck, der von einem Gesprächspartner über die Kommunikationsvorrichtung, wie z. B. einer Freisprechanlage, während der Dauer des Störgeräuschs, an einen weiteren Gesprächspartner gesandt wurde, wird anschließend z. B. als Sprachaufzeichnung wiedergegeben, falls der aus dem Störgeräusch resultierende Störgeräuschpegel den festgelegten Schwellwert überschreitet.If the noise level is above the set threshold, e.g. for 10 seconds, the telecommunication is interrupted as long as the noise level is above the set threshold. A semantic content of the speech signal is returned to the conversation partner. to whom the voice signal was sent when the noise occurred. This can, for example, be delayed, particularly if the listening conversation partner is experiencing the noise, and/or it can be in a form that is independent of the noise, e.g. as text. As soon as the noise level falls below the specified threshold, telecommunication is continued. In other words, during telecommunication, e.g. via mobile phone or the Internet, a voice signal from at least one speaking conversation partner is recorded. During telecommunication, a check is made as to whether the noise level or noise level is above a specified threshold, e.g. above 40 or 60 or 80 dB (decibels). If the noise level is above the specified threshold, telecommunication is aborted or interrupted until the noise level is below the specified threshold. This prevents, for example, the noise from being transmitted if it is present in the speaking conversation partner. If the background noise is coming from the listening party, the interruption can ensure that no listening effort is required. The semantic content, e.g. a verbal utterance or a speech expression that was sent by one party to another party via the communication device, such as a hands-free system, during the duration of the background noise, is then played back, e.g. as a voice recording, if the background noise level resulting from the background noise exceeds the specified threshold.

Durch die Erfindung ergibt sich der Vorteil, dass ein Informationsaustausch während einer Telekommunikation selbst bei Auftreten von Störgeräuschen möglichst zuverlässig gewährleistet wird. Der Gesprächsfluss und/oder Informationsfluss zwischen zumindest zwei Gesprächspartnern kann dadurch während einer Telekommunikation besonders zuverlässig und/oder reibungslos aufrechterhalten werden.The invention provides the advantage that an exchange of information during telecommunications is ensured as reliably as possible, even when interference occurs. The flow of conversation and/or information between at least two conversation partners can thus be maintained particularly reliably and/or smoothly during telecommunications.

Zu der Erfindung gehören auch Weiterbildungen, durch die sich zusätzliche Vorteile ergeben.The invention also includes further developments which result in additional advantages.

Die Erfindung sieht gemäß einem Aspekt vor, dass das Infotainmentsystem ein selbstlernendes maschinelles Lernmodell, wie z. B. ein künstliches neuronales Netz (KNN) und/oder Support Vector Machines (SVM) bereitstellt, wobei das selbstlernende maschinelle Lernmodell durch manuelles Unterbrechen der Telekommunikation trainiert wird, den Schwellwert des Störgeräuschpegels zu erlernen und/oder festzulegen. Das maschinelle Lernmodell kann beispielsweise über eine Ausgabevorrichtung, wie z. B. einer HMI (Human Machine Interface) fragen, ob ein zuletzt vom anderen Gesprächspartner versandter semantischer Inhalt verstanden wurde und/oder ob dieser wiederholt werden soll. Sollte der Gesprächspartner dann eine Wiederholung des versandten semantischen Inhalts erwünschen und/oder verlangen, da er diesen z. B. akustisch aufgrund eines Störgeräuschs, wie z. B. aufgrund von Straßenverkehr und/oder Baustellenlärm in der Umgebung des Kraftfahrzeugs, nicht verstanden hat, so signalisiert er dies über ein manuelles Unterbrechen der Telekommunikation z. B. über eine Bedientaste oder einen Sprachbefehl, sodass die Telekommunikation unterbrochen wird. Der semantische Inhalt wird dann wiedergegeben, sodass der Gesprächspartner die fehlenden Gesprächsteile vom anderen Gesprächspartner z. B. beliebig oft abspielen kann. Zusätzlich oder alternativ zu einer Nachfrage, kann vorgesehen sein, dass der Benutzer jederzeit während eine Telekommunikation immer dann, wenn ihm der Störgeräuschpegel subjektiv zu hoch ist, dies durch eine vorbestimmte Bedienhandlung signalisieren kann. Ein zu diesem Eingabezeitpunkt erfasster Störgeräuschpegel kann zur Ermittlung eines Schwellenwerts genutzt werden. Beispielsweise kann ein Durchschnittswert für mehrere solcher Nutzereingaben berechnet werden.According to one aspect, the invention provides that the infotainment system provides a self-learning machine learning model, such as an artificial neural network (ANN) and/or support vector machines (SVM), wherein the self-learning machine learning model is trained to learn and/or set the threshold value of the noise level by manually interrupting the telecommunication. The machine learning model can, for example, ask via an output device, such as an HMI (Human Machine Interface), whether a semantic content last sent by the other conversation partner was understood and/or whether this should be repeated. Should the conversation partner then wish and/or request a repetition of the sent semantic content because they did not understand it acoustically, for example due to noise, such as road traffic and/or construction site noise in the vicinity of the motor vehicle, they signal this by manually interrupting the telecommunication, e.g. via a control button or a voice command, so that the telecommunication is interrupted. The semantic content is then played back so that the conversation partner can, for example, play the missing parts of the conversation from the other conversation partner as often as they like. In addition to or as an alternative to a request, it can be provided that the user can signal this at any time during a telecommunication by means of a predetermined control action whenever the background noise level is subjectively too high. A background noise level recorded at this input time can be used to determine a threshold value. For example, an average value can be calculated for several such user inputs.

Durch eine Analyse manueller Unterbrechungen kann das selbstlernende maschinelle Lernmodell kontinuierlich lernen und/oder sich verbessern und/oder Anpassungen des Schwellwerts vornehmen. Sobald das maschinelle Lernmodell den Schwellwert des Störgeräuschpegels erlernt hat, kann es automatisch und in Echtzeit Entscheidungen treffen, ob und/oder wann die Telekommunikation unterbrochen und/oder die Wiedergabe des zuletzt erfassten semantischen Inhalts erfolgen soll, wobei z. B die letzten 30 Sekunden oder 60 Sekunden oder zwei Minuten oder der Zeitraum der Schwellwertüberschreitung wiederholt oder wiedergegeben werden sollen. Dies ermöglicht eine effiziente und/oder reaktionsschnelle Anpassung an die jeweiligen Störgeräusche, ohne dass manuelle Eingriffe erforderlich sind. Das selbstlernende maschinelle Lernmodell und/oder die automatische Anpassung des Schwellwerts erleichtern dem Gesprächspartner die Nutzung des Infotainmentsystems. Das maschinelle Lernmodell erhält für das Training und die spätere Schwellwertüberwachung als Eingabevektor bevorzugt ein Frequenzspektrum des Störgeräuschs, da sich eine frequenzabhängige Überwachung des Störgeräuschs als besonders vorteilhaft erwiesen hat.By analyzing manual interruptions, the self-learning machine learning model can continuously learn and/or improve and/or make adjustments to the threshold. Once the machine learning model has learned the threshold of the noise level, it can automatically and in real time make decisions about whether and/or when to interrupt telecommunications and/or play back the most recently captured semantic content, e.g. repeating or playing back the last 30 seconds or 60 seconds or two minutes or the period of time when the threshold was exceeded. This enables efficient and/or responsive adaptation to the respective noise without the need for manual intervention. The self-learning machine learning model and/or the automatic adjustment of the threshold make it easier for the conversation partner to use the infotainment system. The machine learning model preferably receives a frequency spectrum of the noise as an input vector for training and subsequent threshold monitoring, since frequency-dependent monitoring of the noise has proven to be particularly advantageous.

Im Laufe der Zeit, wie z. B. nach einer bis drei Wochen, kann das selbstlernende maschinelle Lernmodell den Schwellwert des Störgeräuschpegels individuell anpassen, da es mittels des manuellen Unterbrechens gelernt hat, ab welchem Störgeräuschpegel der Gesprächspartner die Telekommunikation abricht oder unterbricht. Das selbstlernende maschinelle Lernmodell kann also eine Toleranzgrenze des Gesprächspartners für Störgeräusche erlernen. Dies ermöglicht eine personalisierte und/oder optimierte Überbrückung oder Überwindung von Störungen während der Telekommunikation. Es ist also ab einer festgelegten Trainingszeit keine manuelle Konfiguration oder Unterbrechung und/oder Feinabstimmung erforderlich, um einen Schwellwert zu erlernen.Over time, for example after one to three weeks, the self-learning machine learning model can individually adjust the threshold of the noise level, since it has learned through manual interruption at which noise level the conversation partner will stop using the telecommunications. nication. The self-learning machine learning model can therefore learn the conversation partner's tolerance limit for background noise. This enables personalized and/or optimized bridging or overcoming of interference during telecommunication. After a set training time, no manual configuration or interruption and/or fine-tuning is required to learn a threshold.

Gemäß einer weiteren vorteilhaften Ausführungsform kann vorgesehen sein, dass das in Schritt a) versandte Sprachsignal z. B. für eine festgelegte Zeit in einem Bereich von 30 Sekunden bis zwei Minuten, in einem Ringpuffer gespeichert wird. Ein Ringpuffer ermöglicht die kontinuierliche Aufnahme von Sprachsignalen oder Sprachaufzeichnungen. Dabei werden die ältesten Aufnahmen, also älter als die Speicherkapazität des Ringpuffers, z. B. älter als zwei Minuten, automatisch überschrieben, sobald der Ringpuffer voll ist. Dadurch kann eine kontinuierliche Erfassung von semantischen Inhalten gewährleistet werden. Durch die Verwendung eines Ringpuffers kann der verfügbare Speicherplatz effizient genutzt werden, da die ältesten Aufnahmen überschrieben werden, und keine unnötigen Ressourcen für die Speicherung von redundanten und/oder nicht mehr relevanten semantischen Inhalten verschwendet wird. Ein Ringpuffer erlaubt den Echtzeit-Zugriff auf die erfassten Sprachsignale. Dadurch kann ein aufgrund von einem Störgeräusch akustisch nicht wahrgenommener semantischer Inhalt in Form von Aufnahmen direkt und/oder ohne Verzögerung abgerufen und/oder verarbeitet und/oder zeitnah bereitgestellt werden und/oder wiedergegeben werden. Ein Ringpuffer erlaubt (innerhalb der Grenze der Kapazität des Ringpuffers) die zeitversetzte Wiedergabe des Spachsignals, während das aktuell gesprochene Sprachsignal weiter aufgezeichnet wird. Dadurch kann eine Unterbrechung bis zur Kapazität des Ringpuffers überbrückt werden. Die Wiedergabe aus dem Ringpuffer kann schneller als Echtzeit erfolgen, um wieder bis zum aktuell gesprochenen Sprachsignal aufzuholen. Hierzu kann z.B. auf den PSOLA-Algorithmus zurückgegriffen werden.According to a further advantageous embodiment, it can be provided that the voice signal sent in step a) is stored in a ring buffer, e.g. for a fixed time in a range of 30 seconds to two minutes. A ring buffer enables the continuous recording of voice signals or voice recordings. The oldest recordings, i.e. older than the storage capacity of the ring buffer, e.g. older than two minutes, are automatically overwritten as soon as the ring buffer is full. This can ensure continuous recording of semantic content. By using a ring buffer, the available storage space can be used efficiently, since the oldest recordings are overwritten and no unnecessary resources are wasted on storing redundant and/or no longer relevant semantic content. A ring buffer allows real-time access to the recorded voice signals. This means that semantic content that is not acoustically perceived due to noise can be retrieved and/or processed and/or provided and/or played back promptly in the form of recordings directly and/or without delay. A ring buffer allows (within the capacity of the ring buffer) the delayed playback of the speech signal while the currently spoken speech signal continues to be recorded. This allows an interruption to be bridged up to the capacity of the ring buffer. Playback from the ring buffer can be faster than real time in order to catch up with the currently spoken speech signal. The PSOLA algorithm can be used for this, for example.

Eine vorteilhafte Weiterbildung sieht vor, dass in Schritt c) ein Benachrichtigungsmodul eine visuelle und/oder akustische und/oder haptische Benachrichtigung an den (sprechenden) Gesprächspartner und/oder den anderen (zuhörenden) Gesprächspartner bereitstellt, falls ein Unterbrechen der Telekommunikation prädiziert oder durchgeführt wird. Das Benachrichtigungsmodul kann also den Gesprächspartner und/oder den anderen Gesprächspartner über bevorstehende oder aktuelle Unterbrechungen, aufgrund von Auftreten eines Störgeräuschs, während der Telekommunikation informieren. Die Benachrichtigung kann als optisches Signal auf dem Bildschirm angezeigt werden und/oder als akustisches Signal über einen Lautsprecher ausgegeben werden und/oder als haptisches Signal durch einen Aktuator ausgegeben werden. Das Benachrichtigungsmodul ermöglicht es den Gesprächspartnern, proaktiv mit Unterbrechungen in der Telekommunikation umzugehen. Dadurch ergibt sich der Vorteil, dass über unterschiedliche Benachrichtigungsformen oder Informationskanäle zuverlässig ein Sinn des Gesprächspartners angesprochen werden kann, um ein aktuelles oder bevorstehendes Unterbrechen der Telekommunikation wahrzunehmen und/oder sich darauf vorzubereiten. Das Prädizieren kann z.B. an einem zeitlichen Gradienten (Steigungsrate des Störgeräuschpegels) erfolgen, anhand welchem das Erreichen des Schwellwerts vorausberechnet werden kann.An advantageous further development provides that in step c) a notification module provides a visual and/or acoustic and/or haptic notification to the (speaking) conversation partner and/or the other (listening) conversation partner if an interruption in telecommunications is predicted or carried out. The notification module can therefore inform the conversation partner and/or the other conversation partner about impending or current interruptions due to the occurrence of noise during telecommunications. The notification can be displayed as a visual signal on the screen and/or output as an acoustic signal via a loudspeaker and/or output as a haptic signal by an actuator. The notification module enables the conversation partners to proactively deal with interruptions in telecommunications. This has the advantage that a sense of the conversation partner can be reliably addressed via different notification forms or information channels in order to perceive a current or impending interruption in telecommunications and/or to prepare for it. Prediction can be done, for example, on a temporal gradient (rate of increase of the noise level), based on which the reaching of the threshold value can be predicted.

Die Erfindung sieht gemäß einem zweiten Aspekt vor, dass in Schritt d) der semantische Inhalt als Sprachaufzeichnung bereitgestellt wird. Durch die Wiedergabe einer Sprachaufzeichnung kann eine hohe Genauigkeit bei der Wiedergabe der gesprochenen Inhalte gewährleistet werden Eine Sprachaufzeichnung kann vergangene, also z. B. von vor 30 Sekunden bis vor zwei Minuten, semantische oder gesprochene Inhalte ohne Auslassungen von Details oder Gesprächsteilen wiedergeben. Hierzu kann der besagte Ringpuffer genutzt werden. Dadurch kann sichergestellt werden, dass keine wichtigen Informationen, die während eines Störgeräuschs über Sprachsignale versandt wurden, verloren gehen. Sie kann also zumindest eine flexible Zeiteinteilung ermöglichen und/oder die Möglichkeit bereitstellen, semantische Inhalte mehrmals z. B. ein bis fünf Mal, zu wiederholen.According to a second aspect, the invention provides that in step d) the semantic content is provided as a voice recording. By playing back a voice recording, a high level of accuracy in the reproduction of the spoken content can be ensured. A voice recording can reproduce past semantic or spoken content, e.g. from 30 seconds ago to two minutes ago, without omitting details or parts of the conversation. The said ring buffer can be used for this purpose. This can ensure that no important information that was sent via voice signals during a background noise is lost. It can therefore at least enable flexible time allocation and/or provide the option of repeating semantic content several times, e.g. one to five times.

Gemäß einem dritten Aspekt wird erfindungsgemäß in Schritt d) der semantische Inhalt über ein Spracherkennungssystem erkannt. Der Vorteil, wenn ein semantischer Inhalt über ein Spracherkennungssystem erkannt wird, liegt darin, dass erkannte Wörter und/oder Sätze in einen kontextbezogenen Zusammenhang gestellt werden können. Durch eine semantische Analyse kann nicht nur die Grammatik und Syntax der gesprochenen Sprache des Gesprächspartners erkannt werden, sondern auch der Bedeutungsinhalt, also die Semantik. Dadurch können z. B. komplexe Befehle und/oder Anfragen verarbeitet und/oder beantwortet werden. Beispielsweise kann ein semantisches Spracherkennungssystem zwischen ähnlichen Begriffen wie z. B. „Lieferung“ und „Lieferant“ unterscheiden und den Kontext des Satzes berücksichtigen, um die Bedeutung des Gesagten zu verstehen. Durch die Berücksichtigung des Kontexts können Homophone oder andere Wörter, die ähnlich klingen, aber unterschiedliche Bedeutungen haben, besser unterschieden werden. Insgesamt ermöglicht dabei die im Spracherkennungssystem aufzuweisende semantische Analyse eine höhere Präzision bei der Spracherkennung und/oder kann die Nutzerfreundlichkeit und/oder Benutzererfahrung für den Gesprächspartner verbessern.According to a third aspect, in step d) the semantic content is recognized by a speech recognition system. The advantage of recognizing semantic content by a speech recognition system is that recognized words and/or sentences can be placed in a contextual context. A semantic analysis can not only recognize the grammar and syntax of the spoken language of the conversation partner, but also the meaning content, i.e. the semantics. This allows, for example, complex commands and/or requests to be processed and/or answered. For example, a semantic speech recognition system can distinguish between similar terms such as "delivery" and "supplier" and take the context of the sentence into account in order to understand the meaning of what is being said. By taking the context into account, homophones or other words that sound similar but have different meanings can be better distinguished. Overall, the semantic analysis in the language The semantic analysis provided by the recognition system may provide greater precision in speech recognition and/or may improve the usability and/or user experience for the conversation partner.

Die Erfindung sieht vor, dass das Spracherkennungssystem den semantischen Inhalt zusammenfasst, also mit weniger schriftlichen Worten wiedergibt als Worte gesprochen wurden. Durch die Zusammenfassung des semantischen Inhalts kann das Spracherkennungssystem eine kompakte Darstellung des semantischen Inhalts, wie z. B. der sprachlichen Äußerung, ermöglichen. Anstatt die gesamte sprachliche Äußerung im Detail wiederzugeben, extrahiert das Spracherkennungssystem z. B. mittels NLP (Natural Language Processing)-Methoden und/oder Deep Learning-Methoden, die wichtigen Kernpunkte und/oder fasst sie zusammen. Dadurch kann ein wiederzugebender semantischer Inhalt effizienter und/oder leichter verständlich bereitgestellt werden. Die Zusammenfassung des semantischen Inhalts hilft dabei, irrelevante und/oder redundante Informationen zu reduzieren. Das Spracherkennungssystem identifiziert also die Schlüsselaspekte einer sprachlichen Äußerung und/oder liefert eine prägnante Darstellung, die nur die wesentlichen Informationen dieser enthält. Dies kann Zeit und/oder Aufmerksamkeit für den Gesprächspartner sparen.
Die Zusammenfassung des semantischen Inhalts kann dazu verhelfen, die Bedeutung und/oder Intention der sprachlichen Äußerung klarer zu vermitteln.The invention provides that the speech recognition system summarizes the semantic content, i.e. reproduces it with fewer written words than words were spoken. By summarizing the semantic content, the speech recognition system can enable a compact representation of the semantic content, such as the linguistic utterance. Instead of reproducing the entire linguistic utterance in detail, the speech recognition system extracts the important key points and/or summarizes them, e.g. using NLP (natural language processing) methods and/or deep learning methods. This allows the semantic content to be reproduced to be provided more efficiently and/or more easily understood. The summary of the semantic content helps to reduce irrelevant and/or redundant information. The speech recognition system thus identifies the key aspects of a linguistic utterance and/or provides a concise representation that only contains the essential information. This can save time and/or attention for the conversation partner.
Summarizing the semantic content can help to convey the meaning and/or intention of the linguistic utterance more clearly.

Des Weiteren kann die Zusammenfassung des semantischen Inhalts die weitere Verarbeitung dieser Informationen erleichtern. Der komprimierte und/oder prägnante Ausdruck resultierend aus der Zusammenfassung der sprachlichen Äußerung kann es anderen Systemen und/oder Anwendungen ermöglichen, die Informationen effizient zu verarbeiten und/oder für verschiedene Zwecke zu nutzen, wie beispielsweise für die automatische Textverarbeitung und/oder für die Integration in andere Anwendungen, wie z. B. das Bereitstellen einer maschinellen Sprachübersetzung der Zusammenfassung.Furthermore, summarizing the semantic content may facilitate further processing of this information. The compressed and/or concise expression resulting from the summary of the linguistic utterance may enable other systems and/or applications to efficiently process the information and/or use it for various purposes, such as for automatic word processing and/or for integration into other applications, such as providing machine language translation of the summary.

Das Spracherkennungssystem kann gemäß einer Weiterbildung die Wiedergabe über eine Sprachsynthese bereitstellen. Die Verwendung von Sprachsynthese kann eine natürliche und/oder verständliche Wiedergabe des semantischen Inhalts ermöglichen. Der semantische Inhalt kann in eine menschenähnliche Stimme umgewandelt werden, wodurch eine angenehme Hörerfahrung für den Gesprächspartner entstehen kann. Durch die Sprachsynthese kann die Wiedergabe an die Bedürfnisse und/oder Vorlieben des Gesprächspartners angepasst werden. Die Stimme und/oder ein Tempo können konfiguriert werden, um eine optimale Verständlichkeit und/oder Hörkomfort zu gewährleisten. Die Sprachsynthese kann also z. B. die Möglichkeit bereitstellen, verschiedene Stimmen und/oder Sprachstile auszuwählen. Der Gesprächspartner kann diejenige wählen, die ihm am besten gefällt und/oder die seinen individuellen Präferenzen entspricht, was zu einer angenehmen und/oder persönlich zugeschnittenen Kommunikationserfahrung führt.According to a further development, the speech recognition system can provide the playback via speech synthesis. The use of speech synthesis can enable a natural and/or understandable playback of the semantic content. The semantic content can be converted into a human-like voice, which can create a pleasant listening experience for the conversation partner. Speech synthesis can adapt the playback to the needs and/or preferences of the conversation partner. The voice and/or a tempo can be configured to ensure optimal intelligibility and/or listening comfort. Speech synthesis can therefore, for example, provide the option of selecting different voices and/or speech styles. The conversation partner can choose the one they like best and/or the one that matches their individual preferences, resulting in a pleasant and/or personally tailored communication experience.

Das Spracherkennungssystem kann die Wiedergabe in textlicher Form über eine Ausgabevorrichtung, also z. B. einer HMI, bereitstellen. Eine textliche Wiedergabe kann dazu verhelfen, einem Gesprächspartner mit Hörbeeinträchtigungen, den Inhalt einer des weiteren Gesprächspartners gesandten sprachlichen Äußerung zu verstehen. Sollte also z. B. aufgrund eines Störgeräusch eine akustische Wiedergabe mittels Sprachaufzeichnung und/oder Sprachsynthese weiterhin für den Gesprächspartner nicht hörbar und/oder verständlich sein, so kann die textliche Wiedergabe dazu verhelfen den semantischen Inhalt zumindest visuell wahrzunehmen. Textliche Wiedergaben können in ihrer Struktur und/oder Grammatik geordnet sein, was dazu beitragen kann, das Verständnis und die Klarheit des semantischen Inhalts zu verbessern. Der Gesprächspartner kann bestimmte Schlüsselwörter suchen und/oder die relevanten Informationen schneller finden als beim Hören der gesamten sprachlichen Äußerung. Außerdem kann der Gesprächspartner die textliche Wiedergabe leicht kopieren und in andere Anwendungen einfügen, um den semantischen Inhalt zu teilen und/oder weiterzubearbeiten.The speech recognition system can provide the playback in text form via an output device, e.g. an HMI. A text playback can help a conversation partner with hearing impairments to understand the content of a linguistic utterance sent by another conversation partner. If, for example, due to background noise, an acoustic playback by means of voice recording and/or speech synthesis is still not audible and/or understandable for the conversation partner, the text playback can help to at least visually perceive the semantic content. Text playbacks can be organized in their structure and/or grammar, which can help to improve the understanding and clarity of the semantic content. The conversation partner can search for specific keywords and/or find the relevant information more quickly than by listening to the entire linguistic utterance. In addition, the conversation partner can easily copy the text playback and paste it into other applications in order to share and/or further edit the semantic content.

Eine vorteilhafte Weiterbildung sieht vor, dass in Schritt c) einer auf zu dem Störgeräusch erzeugten Gegenschall basierende Anti-Störung oder Anti-Störeinrichtung, wie z. B. mittels ANC (Active Noise Cancellation) und/oder Spatial Active Noise Control" (SANC) bereitgestellt wird, die das Störsignal des Störgeräuschs reduziert.An advantageous further development provides that in step c) an anti-interference or anti-interference device based on counter-sound generated in addition to the interference noise, such as by means of ANC (Active Noise Cancellation) and/or Spatial Active Noise Control" (SANC), is provided, which reduces the interference signal of the interference noise.

Der Vorteil einer auf einem Störgeräusch erzeugten Gegenschall basierenden Anti-Störung besteht darin, dass sie gezielt und/oder effektiv Störgeräusche reduzieren und/oder eliminieren kann. Durch die Erzeugung von Gegenschall, der dem Störgeräusch entgegengesetzt ist, kann eine aktive Geräuschreduktion erreicht werden. Der Gegenschall kann das Störgeräusch neutralisieren, indem es Interferenzen erzeugt, die zu einer teilweisen oder vollständigen Auslöschung des Störsignals des Störgeräuschs führen. Dadurch wird das Hörerlebnis verbessert und/oder unerwünschte Störgeräusche unterdrückt oder zumindest gedämpft. Eine auf Gegenschall basierende Anti-Störung kann auf verschiedene Arten von Störgeräuschen reagieren und sowohl statische und/oder sich ändernde Störgeräusche bewältigen. Sie kann unerwünschte Störgeräusche, die die Wahrnehmung von zu empfangenden sprachlichen Äußerungen und/oder Audioinhalten beeinträchtigen könnten, und ermöglicht so ein klareres und/oder angenehmeres Hörerlebnis. Eine Reduzierung von Störgeräuschen kann auch dazu beitragen, das Gehör zu schützen. Insbesondere bei wiederholter und/oder langfristiger Exposition gegenüber Störgeräuschen kann die Anti-Störung dazu beitragen, das Störsignal des Störgeräusches zu senken und/oder das Risiko von Gehörschäden zu minimieren.The advantage of an anti-interference system based on a noise generated by counter-sound is that it can specifically and/or effectively reduce and/or eliminate noise. By generating counter-sound that is opposite to the noise, active noise reduction can be achieved. The counter-sound can neutralize the noise by generating interference that leads to a partial or complete cancellation of the noise signal of the noise. This improves the listening experience and/or suppresses or at least dampens unwanted noise. An anti-interference system based on counter-sound can react to various types of noise and handle both static and/or changing noise. It can eliminate unwanted noise that could affect the perception of speech and/or audio content being received, thus enabling a clearer and/or more pleasant listening experience. Reducing noise can also help protect hearing. Particularly in the case of repeated and/or long-term exposure to noise, anti-interference can help to reduce the noise's interference signal and/or minimize the risk of hearing damage.

Für Anwendungsfälle oder Anwendungssituationen, die sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zur Eingabe einer Nutzerrückmeldung ausgegeben und/oder eine Standardeinstellung und/oder ein vorbestimmter Initialzustand eingestellt wird.For use cases or application situations that may arise during the method and which are not explicitly described here, it may be provided that, in accordance with the method, an error message and/or a request to enter user feedback is issued and/or a default setting and/or a predetermined initial state is set.

Zu der Erfindung gehört auch die Steuervorrichtung für das Kraftfahrzeug. Die Steuervorrichtung kann eine Datenverarbeitungsvorrichtung oder eine Prozessoreinrichtung aufweisen, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Prozessoreinrichtung kann hierzu zumindest einen Mikroprozessor und/oder zumindest einen Mikrocontroller und/oder zumindest einen FPGA (Field Programmable Gate Array) und/oder zumindest einen DSP (Digital Signal Processor) aufweisen. Des Weiteren kann die Prozessoreinrichtung Programmcode aufweisen, der dazu eingerichtet ist, bei Ausführen durch die Prozessoreinrichtung die Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Der Programmcode kann in einem Datenspeicher der Prozessoreinrichtung gespeichert sein. Die Prozessoreinrichtung kann z.B. auf zumindest einer Schaltungsplatine und/oder auf zumindest einem SoC (System on Chip) basieren.The invention also includes the control device for the motor vehicle. The control device can have a data processing device or a processor device that is set up to carry out an embodiment of the method according to the invention. For this purpose, the processor device can have at least one microprocessor and/or at least one microcontroller and/or at least one FPGA (Field Programmable Gate Array) and/or at least one DSP (Digital Signal Processor). Furthermore, the processor device can have program code that is set up to carry out the embodiment of the method according to the invention when executed by the processor device. The program code can be stored in a data memory of the processor device. The processor device can be based, for example, on at least one circuit board and/or on at least one SoC (System on Chip).

Zu der Erfindung gehört auch ein Infotainmentsystem, aufweisend ein selbstlernendes maschinelles Lernmodell, das durch manuelles Unterbrechen der Telekommunikation trainiert wird, einen Schwellwert des Störgeräuschpegels zu erlernen und aufweisend die Prozessoreinrichtung.The invention also includes an infotainment system comprising a self-learning machine learning model that is trained by manually interrupting the telecommunication to learn a threshold value of the noise level and comprising the processor device.

Das Infotainmentsystem kann zudem Folgendes aufweisen:

Eine Bilderkennungs- und/oder Videokameraeinrichtung, die dazu ausgebildet ist eine Gesprächsperson aufzunehmen und/oder ein Bild und/oder ein Video der Gesprächsperson zu erfassen;
Eine Datenbank, die dazu ausgebildet ist, bereits erstellte Profile von Gesprächspersonen zu speichern, einschließlich biometrischer Daten, wie z. B. Gesichtsmerkmalen und/oder Stimmen;
Eine biometrische Erkennungseinrichtung, die dazu ausgebildet ist, das erfasste Bild und/oder Video mit den in der Datenbank gespeicherten Profilen zu vergleichen, um eine Übereinstimmung zu finden;
Eine Zuordnungseinrichtung, die dazu ausgebildet ist, bei Übereinstimmung das Profil der ermittelten Gesprächsperson dem erfassten Bild und/oder Video zuzuordnen und es auf einer Ausgabevorrichtung anzuzeigen;
Eine Aktualisierungseinrichtung, die dazu ausgebildet ist, das Profil der ermittelten Gesprächsperson zu aktualisieren, falls erforderlich, basierend auf neuen erfassten biometrischen Daten;
Eine Innenraumsensoreinrichtung, die dazu ausgebildet ist, die Sitzposition und/oder Körperhaltung der Gesprächsperson innerhalb des Kraftfahrzeugs zu erfassen, indem sie Druck- und/oder Winkel- und/oder Bewegungssensoren verwendet und daraus Sensordaten ermittelt;
Eine Ortungseinrichtung, die dazu ausgebildet ist, die Position und/oder Orientierung der Gesprächsperson anhand der biometrischen Daten und/oder der Sensordaten innerhalb des Kraftfahrzeugs zu ermitteln;
Eine Schwellwerteinrichtung, die dazu ausgebildet ist, den Schwellwert je nach erfasster biometrischer Daten der Gesprächsperson zu senken oder zu erhöhen oder unverändert zu lassen, sodass z. B. bei Erfassung einer Gesprächsperson höheren Alters, die z. B. 70 bis 80 Jahre alt ist, der Schwellwert z. B. um 10 bis 30 dB gesenkt wird.

The infotainment system may also include:

An image recognition and/or video camera device configured to record a conversation person and/or capture an image and/or video of the conversation person;
A database designed to store previously created profiles of interlocutors, including biometric data such as facial features and/or voices;
A biometric recognition device configured to compare the captured image and/or video with the profiles stored in the database to find a match;
An assignment device which is designed to assign the profile of the identified conversation person to the captured image and/or video in case of a match and to display it on an output device;
An updating device configured to update the profile of the identified interlocutor, if necessary, based on new acquired biometric data;
An interior sensor device which is designed to detect the seating position and/or posture of the person being spoken to within the motor vehicle by using pressure and/or angle and/or motion sensors and to determine sensor data therefrom;
A locating device designed to determine the position and/or orientation of the person being spoken to based on the biometric data and/or the sensor data within the motor vehicle;
A threshold device designed to lower or raise the threshold or leave it unchanged depending on the recorded biometric data of the person being spoken to, so that, for example, when recording an older person being spoken to, for example, who is 70 to 80 years old, the threshold is lowered by 10 to 30 dB.

Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Verfahrens, die Merkmale aufweisen, wie sie bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs beschrieben worden sind. Aus diesem Grund sind die entsprechenden Weiterbildungen des erfindungsgemäßen Verfahrens hier nicht noch einmal beschrieben.The invention also includes further developments of the method according to the invention which have features as have already been described in connection with the further developments of the motor vehicle according to the invention. For this reason, the corresponding further developments of the method according to the invention are not described again here.

Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen oder Lastkraftwagen, oder als oder Motorrad ausgestaltet.The motor vehicle according to the invention is preferably designed as a motor vehicle, in particular as a passenger car or truck, or as a motorcycle.

Als eine weitere Lösung umfasst die Erfindung auch ein computerlesbares Speichermedium, umfassend Programmcode, der bei der Ausführung durch einen Computer oder einen Computerverbund diesen veranlasst, eine Ausführungsform des erfindungsgemäßen Verfahrens auszuführen. Das Speichermedium kann zumindest teilweise als ein nicht-flüchtiger Datenspeicher (z.B. als eine Flash-Speicher und/oder als SSD - solid state drive) und/oder zumindest teilweise als ein flüchtiger Datenspeicher (z.B. als ein RAM - random access memory) bereitgestellt sein. Das Speichermedium kann in dem Computer oder Computerverbund angeordnet sein. Das Speichermedium kann aber auch beispielsweise als sogenannter Appstore-Server und/oder Cloud-Server im Internet betrieben sein. Durch den Computer oder Computerverbund kann eine Prozessorschaltung mit beispielsweise zumindest einem Mikroprozessor bereitgestellt sein. Der Programmcode kann als Binärcode und/oder als Assembler-Code und/oder als Quellcode einer Programmiersprache (z.B. C) und/oder als Programmskript (z.B. Python) bereitgestellt sein.As a further solution, the invention also comprises a computer-readable storage medium, comprising program code which, when executed by a computer or a computer network, causes the computer to carry out an embodiment of the method according to the invention. The storage medium can be provided at least partially as a non-volatile data memory (e.g. as a flash memory and/or as an SSD - solid state drive) and/or at least partially as a volatile data memory (e.g. as a RAM - random access memory). The storage medium can be arranged in the computer or computer network. However, the storage medium can also be operated, for example, as a so-called app store server and/or cloud server on the Internet. The computer or computer network can provide a processor circuit with, for example, at least one microprocessor. The program code can be provided as binary code and/or as assembler code and/or as source code of a programming language (e.g. C) and/or as a program script (e.g. Python).

Die Erfindung umfasst auch die Kombinationen der Merkmale der beschriebenen Ausführungsformen. Die Erfindung umfasst also auch Realisierungen, die jeweils eine Kombination der Merkmale mehrerer der beschriebenen Ausführungsformen aufweisen, sofern die Ausführungsformen nicht als sich gegenseitig ausschließend beschrieben wurden.The invention also includes combinations of the features of the described embodiments. The invention therefore also includes implementations that each have a combination of the features of several of the described embodiments, provided that the embodiments have not been described as mutually exclusive.

Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt:

1 eine beispielhafte graphische Darstellung, die Merkmale veranschaulicht, die dem Verfahren gemäß der vorliegenden Offenbarung zugeordnet sind; und;
2 ein Flussdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens.

Embodiments of the invention are described below.

1 an exemplary graphical representation illustrating features associated with the method according to the present disclosure; and;
2 a flow chart of an embodiment of the method according to the invention.

Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden. Daher soll die Offenbarung auch andere als die dargestellten Kombinationen der Merkmale der Ausführungsformen umfassen. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.The exemplary embodiments explained below are preferred embodiments of the invention. In the exemplary embodiments, the components of the embodiments described each represent individual features of the invention that are to be considered independently of one another and which also develop the invention independently of one another. Therefore, the disclosure should also include combinations of the features of the embodiments other than those shown. Furthermore, the described embodiments can also be supplemented by other features of the invention already described.

In den Figuren bezeichnen gleiche Bezugszeichen jeweils funktionsgleiche Elemente.In the figures, identical reference symbols designate functionally identical elements.

1 zeigt einen Gesprächspartner in einem Kraftfahrzeug 10, bei dem es sich zum Beispiel um einen Kraftwagen, insbesondere einen Personenkraftwagen handeln kann. Das Kraftfahrzeug 10 umfasst eine Fahrzeuginnenraumsensorvorrichtung 3, ein Infotainmentsystem 5, was ein selbstlernendes maschinelles Lernmodell 7 bereitstellt, eine externe Sensorvorrichtung 6, die z. B. als Außenmikrofon ausgebildet sein kann. Symbolisch ist ein Störgeräusch 9, ein Störgeräuschpegel 11 und ein Schwellwert 8 dargestellt. Das Störgeräusch kann beispielsweise mittels des Algorithmus der „Minimum-Statistics“ ermittelt werden, wie der in zahlreichen wissenschaftlichen Veröffentlichungen von Prof. Rainer Martin beschrieben ist. Mittels dieses Algorithmus lässt sich auch gesprochene Sprache von einem Störgeräusch unterscheiden. 1 shows a conversation partner in a motor vehicle 10, which can be a motor vehicle, in particular a passenger car, for example. The motor vehicle 10 comprises a vehicle interior sensor device 3, an infotainment system 5, which provides a self-learning machine learning model 7, an external sensor device 6, which can be designed as an external microphone, for example. A noise 9, a noise level 11 and a threshold value 8 are shown symbolically. The noise can be determined, for example, using the "minimum statistics" algorithm, as described in numerous scientific publications by Prof. Rainer Martin. This algorithm can also be used to distinguish spoken language from noise.

Gemäß 2 wird das erfindungsgemäße Verfahren in Verfahrensschritt S10 gestartet, wobei ein Sprachsignal zumindest eines sprechenden Gesprächspartners erfasst wird. In Schritt S20 wird geprüft, ob ein durch ein Störgeräusch 9 verursachter Störgeräuschpegel 11 während der Telekommunikation über einem festgelegten Schwellwert 8 liegt. Falls der Störgeräuschpegel 11 über dem festgelegten Schwellwert 8 liegt, wird in Schritt S30 ein Unterbrechen der Telekommunikation durchgeführt, solange der Störgeräuschpegel 11 über dem festgelegten Schwellwert 8 liegt. In Schritt S40 erfolgt eine Wiedergabe eines semantischen Inhalts des Sprachsignals an denjenigen Gesprächspartner an den das Sprachsignal während des Störgeräuschs 9 gesendet wurde. Die Telekommunikation wird in Schritt S50 fortgesetzt, sobald der Störgeräuschpegel 11 unter dem festgelegten Schwellwert 8 liegt.According to 2 the method according to the invention is started in method step S10, wherein a voice signal from at least one speaking conversation partner is detected. In step S20, it is checked whether a noise level 11 caused by a background noise 9 is above a specified threshold value 8 during the telecommunication. If the noise level 11 is above the specified threshold value 8, the telecommunication is interrupted in step S30 as long as the noise level 11 is above the specified threshold value 8. In step S40, a semantic content of the voice signal is reproduced to the conversation partner to whom the voice signal was sent during the background noise 9. The telecommunication is continued in step S50 as soon as the noise level 11 is below the specified threshold value 8.

Gemäß einer Ausführungsform kann der Gesprächspartner bei einer Fahrt mit dem Kraftfahrzeug 10 über eine Kommunikationsvorrichtung des Infotainmentsystems 5 mit einem anderen Gesprächspartner telefonieren, wobei das Infotainmentsystem 5 über Beschreibungsdaten und/oder Navigationsdaten und/oder einer externen Sensorvorrichtung 6 ein mögliches bevorstehendes Störgeräusch 9 prädizieren kann, indem z. B. ein Baustellenlärm einer Baustelle in einer aktuell zu befahrenden Straße. Über eine Ausgabevorrichtung können die Gesprächspartner über eine zeitnahe mögliche Unterbrechung der Telekommunikation informiert werden. Während des Detektierens von Störgeräuschen 9 kann das Infotainmentsystem 5 einen Störgeräuschpegel 11 prüfen. Befindet sich der Störgeräuschpegel 11 über einen festgelegten Schwellwert 8, kann das Infotainmentsystem 5 die Telekommunikation solange unterbrechen bis der Störgeräuschpegel 11 unter dem festgelegten Schwellwert 8 liegt. Das Infotainmentsystem 5 kann dabei eine Wiedergabe in Form einer Sprachaufzeichnung eines zuletzt versandten semantischen Inhalts erzeugen, sodass der Gesprächspartner, der diesen semantischen Inhalt empfangen sollte, diesen bereitgestellt bekommen kann.According to one embodiment, the conversation partner can use a communication device of the infotainment system 5 to make a telephone call to another conversation partner while driving the motor vehicle 10, whereby the infotainment system 5 can predict a possible upcoming noise 9 using description data and/or navigation data and/or an external sensor device 6, for example by detecting construction site noise from a construction site on a road that is currently being traveled on. The conversation partners can be informed of a possible interruption of telecommunications in the near future via an output device. While detecting noise 9, the infotainment system 5 can check a noise level 11. If the noise level 11 is above a specified threshold value 8, the infotainment system 5 can interrupt telecommunications until the noise level 11 is below the specified threshold value 8. The infotainment system 5 can play back a semantic message sent most recently in the form of a voice recording. content so that the conversation partner who should receive this semantic content can have it made available to him.

Gemäß einer weiteren Ausführungsform kann eine Fahrzeuginnenraumsensorvorrichtung 3 eine im Kraftfahrzeug 10 telefonierende Gesprächsperson ermitteln. Die Fahrzeuginnenraumsensorvorrichtung 3 kann die Gesprächsperson z. B. aufgrund erfasster biometrischer Merkmale einem Profil zuweisen, wobei dieses Profil einen vorbestimmten Schwellwert 8 bezüglich eines Störgeräuschpegels 11 aufweist. Das Infotainmentsystem 5 kann über die Fahrzeuginnenraumsensorvorrichtung 3 z. B. ermitteln, dass die telefonierende Gesprächsperson höheren Alters, also z. B. zwischen 70 und 80 Jahre alt ist, weswegen das Infotainmentsystem 5 den Schwellwert 8 um z. B. 10 bis 40 dB senkt.According to a further embodiment, a vehicle interior sensor device 3 can determine a person making a telephone call in the motor vehicle 10. The vehicle interior sensor device 3 can assign the person making a telephone call to a profile, for example based on recorded biometric features, wherein this profile has a predetermined threshold value 8 with respect to a noise level 11. The infotainment system 5 can determine via the vehicle interior sensor device 3, for example, that the person making a telephone call is of advanced age, i.e., for example, between 70 and 80 years old, which is why the infotainment system 5 lowers the threshold value 8 by, for example, 10 to 40 dB.

Wird also erkannt, dass der Fahrer (Gesprächspartner) während eines Telefongesprächs (Telekommunikation), z. B. über die Freisprechanlage aufgrund starker Störgeräusche 9 (wie z. B. Sirene, Verkehrsgeräusche, Wind bei offenem Fenster, etc.) sein Gegenüber (weiteren Gesprächspartner) teilweise nicht mehr verstehen kann, wird das Gespräch (die Telekommunikation) vom System (Infotainmentsystem 5) kurzzeitig (also z. B. für 30 Sekunden bis zwei Minuten) unterbrochen und die betroffenen Gesprächsteile (semantischen Inhalte) wiederholt und/oder zusammengefasst, sobald der Störgeräuschpegel 11 wieder niedrig genug ist. Gleichzeitig wird der Gesprächspartner über die Unterbrechung informiert. Sobald dem Fahrer die fehlenden Gesprächsteile vorgespielt wurden, wird die Verbindung wiederhergestellt und das Gespräch kann normal fortgesetzt werden.If it is detected that the driver (the conversation partner) can no longer understand the other person (the other conversation partner) during a telephone conversation (telecommunications), e.g. via the hands-free system, due to loud background noise 9 (such as sirens, traffic noise, wind with the window open, etc.), the conversation (the telecommunications) is briefly interrupted by the system (infotainment system 5) (e.g. for 30 seconds to two minutes) and the affected parts of the conversation (semantic content) are repeated and/or summarized as soon as the background noise level 11 is low enough again. At the same time, the conversation partner is informed of the interruption. As soon as the missing parts of the conversation have been played back to the driver, the connection is restored and the conversation can continue normally.

Das Gespräch oder der Sprachbeitrag eines Gesprächspartners (semantischer Inhalt oder das Audiosignal) wird für eine (vor)bestimmte Zeit in einem Ringpuffer gespeichert.The conversation or the speech contribution of a conversation partner (semantic content or the audio signal) is stored in a ring buffer for a (pre)determined time.

Das System zur intelligenten Gesprächssteuerung (Infotainmentsystem 5) lernt ab welchem Pegel (Störgeräuschpegel 11) und Frequenzbereich von Störgeräuschen 9 der Fahrer das gesprochene Wort seines Gesprächspartners während eines Telefonats über die Freisprechanalage nicht mehr verstehen kann. Diese Werte können abhängig davon sein, wie laut das Multimediasystem (Infotainmentsystem 5) eingestellt wurde und/oder mit welcher Lautstärke und/oder wie deutlich der Gesprächspartner spricht.The system for intelligent call control (infotainment system 5) learns at what level (noise level 11) and frequency range of noise 9 the driver can no longer understand the spoken word of the person speaking during a telephone call via the hands-free system. These values can depend on how loud the multimedia system (infotainment system 5) has been set and/or at what volume and/or how clearly the person speaking is speaking.

In einer alternativen / erweiterten Umsetzung kann das Gespräch manuell durch Knopfdruck und/oder per Sprachbefehl unterbrochen werden. Hierbei entscheidet der Fahrer selbst, in welcher Situation dies geschieht und wann er das Gespräch fortsetzen möchte bzw. kann. Sobald das Gespräch fortgesetzt wird, werden automatisiert die letzten z.B. 10s vor der Unterbrechung aus dem Ringbuffer wiederholt und das Gespräch dann fortgesetzt.In an alternative/extended implementation, the conversation can be interrupted manually by pressing a button and/or by voice command. The driver decides in which situation this happens and when he wants or can continue the conversation. As soon as the conversation is continued, the last 10 seconds before the interruption are automatically repeated from the ring buffer and the conversation is then continued.

Dem System zur intelligenten Gesprächssteuerung liegt ein selbstlernendes Modell (selbstlernendes maschinelles Lernmodell 7) mit Initialwerten für verschiedenen Altersklassen zugrunde. Im Laufe von mehreren Gesprächen kann z.B. durch Auswertung der Mimik oder Körperhaltung (z.B. über Innenraumkamera) und/oder durch Natural Language Processing Sätze wie „Kannst du das bitte nochmal wiederholen“ oder „Wie bitte“ detektiert werden, um Schwellwerte 8 für verschiedenen Situationen neu einzustellen.The system for intelligent conversation management is based on a self-learning model (self-learning machine learning model 7) with initial values for different age groups. In the course of several conversations, for example, by evaluating facial expressions or body posture (e.g. via interior camera) and/or through natural language processing, sentences such as "Can you please repeat that again" or "Pardon?" can be detected in order to reset threshold values 8 for different situations.

Wird eine oben beschriebene Situation detektiert, pausiert das System zur intelligenten Gesprächssteuerung das Telefonat und kann den Gesprächspartner z.B. über eine generierte Ansage informieren („Bitte haben Sie einen Moment Geduld, das Gespräch wurde aufgrund hoher Störgeräusche 9 kurz pausiert“).If a situation as described above is detected, the intelligent call control system pauses the call and can inform the call partner, for example, via a generated announcement (“Please be patient for a moment, the call has been paused briefly due to high levels of background noise 9”).

Sobald der Störgeräuschpegel 11 den (festgelegten) gesetzten Schwellwert 8 wieder unterschreitet, wird dem Fahrer der Gesprächsteil, der nicht verstanden wurde aus dem Ringbuffer entweder im Original (Sprachaufzeichnung) oder durch z.B. ein KI Modell (Sprachsynthese) zusammengefasst vorgespielt (wiedergegeben).As soon as the noise level 11 falls below the (specified) threshold value 8 again, the part of the conversation that was not understood is played back to the driver from the ring buffer either in the original (voice recording) or summarized by, for example, an AI model (speech synthesis).

Im Anschluss wird die Verbindung mit dem weiteren Gesprächspartner wiederhergestellt und das Gespräch kann fortgesetzt werden.The connection with the other caller is then re-established and the conversation can continue.

Insgesamt zeigen die Beispiele, wie eine intelligente Gesprächssteuerung bei Störgeräuschen 9 (Detektion von Störgeräuschen 9) während einer Fahrt bereitgestellt werden kann.Overall, the examples show how intelligent conversation control in the presence of background noise 9 (detection of background noise 9) can be provided during a journey.

BezugszeichenlisteList of reference symbols

33: FahrzeuginnenraumsensorvorrichtungVehicle interior sensor device
55: InfotainmentsystemInfotainment system
66: externe Sensorvorrichtungexternal sensor device
77: selbstlernendes maschinelles Lernmodellself-learning machine learning model
88th: SchwellwertThreshold
99: StörgeräuschNoise
1010: KraftfahrzeugMotor vehicle
1111: StörgeräuschpegelNoise level

Claims

Method for detecting an interference noise (9) during a communication device of an infotainment system (5) of a Motor vehicle (10) ongoing telecommunication; comprising the following steps: - a) detecting a speech signal of at least one speaking conversation partner; - b) checking whether a noise level (11) caused by an interference noise (9) is above a specified threshold value (8) during the telecommunication; - c) if the noise level (11) is above the specified threshold value (8): interrupting the telecommunication as long as the noise level (11) is above the specified threshold value (8); - d) reproducing a semantic content of the speech signal to the conversation partner to whom the speech signal was sent during the interference noise (9); - e) continuing the telecommunication as soon as the noise level (11) is below the specified threshold value (8), wherein - v.1) the infotainment system (5) provides a self-learning machine learning model (7), wherein the self-learning machine learning model (7) is trained to learn the threshold value (8) of the noise level (11) by manually interrupting the telecommunication and/or - v.2) in step d) the semantic content is provided as a voice recording and/or - v.3) in step d) the semantic content is recognized via a speech recognition system, wherein the speech recognition system summarizes the semantic content.

Procedure according to Claim 1 , wherein in step a) the speech signal is stored in a ring buffer.

Method according to one of the preceding claims, wherein in step c) a notification module provides a visual and/or acoustic and/or haptic notification to the conversation partner and/or the other conversation partner if an interruption of the telecommunication is predicted or carried out.

Procedure according to Claim 1 , at least according to v.3), wherein the speech recognition system provides the playback via speech synthesis.

Procedure according to Claim 1 , at least according to v.3) or Claim 4 , wherein the speech recognition system provides the reproduction in textual form via an output device.

Method according to one of the preceding claims, wherein in step c) an anti-interference is generated based on counter-sound generated for the interference noise (9), which reduces the interference signal of the interference noise (9).

Infotainment system (5) comprising a self-learning machine learning model (7) and a processor device which has program instructions which, when executed by the processor device, cause it to carry out a method which has the features according to one of the methods claims 1 until 6 , in particular after procedural claim 1 , includes.

Motor vehicle (10), comprising the infotainment system (5) according to Claim 7 and at least one sensor device (3,6) for detecting a noise level (11) of a noise (9).