WO2022043204A1

WO2022043204A1 - Trainingsverfahren für einen generator zur erzeugung realistischer bilder

Info

Publication number: WO2022043204A1
Application number: PCT/EP2021/073127
Authority: WO
Inventors: Edgar Schoenfeld; Vadim Sushko; Dan Zhang; Anna Khoreva
Original assignee: Robert Bosch Gmbh
Priority date: 2020-08-24
Filing date: 2021-08-20
Publication date: 2022-03-03
Also published as: US20230177809A1; JP2023538444A; DE102020210710A1; KR20230057434A; JP7505117B2; CN115989524A

Abstract

Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, wobei ° aus mindestens einem vom Generator (1) erzeugten Bild (3) und mindestens einem ermittelten realen Trainingsbild (5) ein Mischbild (6) erzeugt wird (140), in dem eine erste echte Teilmenge (6a) der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) und die verbleibende echte Teilmenge (6b) der Pixel mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt ist, und °die vom Generator (1) erzeugten Bilder (3), das mindestens eine reale Trainingsbild (5) sowie mindestens ein Mischbild (6), die zur gleichen semantischen Trainingskarte (5a) gehören, einem Diskriminator (7), der dazu ausgebildet ist, vom Generator (1) erzeugte Bilder (3) von realen Bildern (5) der durch die semantische Trainingskarte (5a) vorgegebenen Szenerie zu unterscheiden, zugeführt werden (150).

Description

Beschreibung

Titel:

Trainingsverfahren für einen Generator zur Erzeugung realistischer Bilder

Die vorliegende Erfindung betrifft das Training eines Generators für realistische Bilder, die wiederum für das Training von Bildklassifikatoren verwendbar sind.

Stand der Technik

Etwa 90 % der Informationen, die ein menschlicher Fahrer zum Führen eines Fahrzeugs im Straßenverkehr benötigt, sind visuelle Informationen. Für das zumindest teilweise automatisierte Führen von Fahrzeugen ist es daher unabdingbar, Bilddaten gleich welcher Modalität, die bei der Überwachung des Fahrzeugumfelds aufgenommen werden, inhaltlich zutreffend auszuwerten. Von besonderer Bedeutung für die Fahraufgabe ist eine Klassifikation der Bilddaten dahingehend, welche verkehrsrelevanten Objekte in ihnen enthalten sind, wie beispielsweise andere Verkehrsteilnehmer, Fahrbahnmarkierungen, Hindernisse und Verkehrszeichen.

Entsprechende Bildklassifikatoren müssen mit Trainingsbildern, die in einer Vielzahl von Verkehrssituationen aufgenommen wurden, trainiert werden. Das Beschaffen der Trainingsbilder ist vergleichsweise schwierig und teuer. In der Realität selten vorkommende Verkehrssituationen können im Datensatz mit den Trainingsbildern zahlenmäßig so unterrepräsentiert sein, dass der Bildklassifikator ihre richtige Einordnung nicht optimal lernen kann. Weiterhin ist viel manuelle Arbeit notwendig, um die Trainingsbilder, bzw. deren Pixel, mit zugehörigen Soll- Klassenzuordnungen („ground truth“) zu „labeln“.

Daher werden zusätzlich auch synthetisch erzeugte Trainingsdaten verwendet, die mit einem Generator auf der Basis von Generative Adversarial Networks, GAN, erzeugt werden. Ein solcher Generator für Radardaten ist aus der DE 10 2018 204494 B3 bekannt.

Offenbarung der Erfindung

Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Generators für Bilder entwickelt.

Der Begriff des Bildes ist nicht auf statische Kamerabilder beschränkt, sondern umfasst beispielsweise auch Videobilder, Radarbilder, Lidar-Bilder und Ultraschallbilder.

Die zu erzeugenden Bilder können insbesondere beispielsweise in Bezug auf eine vorgegebene Anwendung realistisch sein. Hierbei kann „realistisch“ insbesondere bedeuten, dass sich die Bilder in einer nachgeschalteten Verarbeitung, wie beispielsweise beim Trainieren eines Bildklassifikators, in gleicher Weise nutzen lassen wie mit physikalischen Sensoren aufgenommene Bilder. Realistisch erzeugte Bilder können insbesondere beispielsweise genutzt werden, um einen Vorrat von realen, mit Sensoren aufgenommenen und anschließend „gelabelten“ Trainingsbildern für einen Bildklassifikator anzureichern. Daher werden die zu erzeugenden Bilder im Folgenden im Interesse einer besseren Lesbarkeit als „realistische Bilder“, bzw. als „realistisch erzeugte Bilder“, bezeichnet.

Der Generator erzeugt die realistischen Bilder aus einer semantischen Karte. Diese semantische Karte ordnet jedem Pixel des zu erzeugenden realistischen Bildes eine semantische Bedeutung eines Objekts, zu dem dieses Pixel gehört, zu. Es wird also nicht irgendein zufälliges realistisches Bild erzeugt, sondern eines, das die in der semantischen Karte vorgegebene Situation widerspiegelt. So kann die semantische Karte beispielsweise eine Verkehrssituation mit verschiedenen Fahrbahnen, Fahrbahnbegrenzungen, Verkehrszeichen, Verkehrsteilnehmern und weiteren Objekten bezeichnen.

Für das Verfahren werden reale Trainingsbilder und zugehörige semantische

Trainingskarten, die jedem Pixel des jeweiligen Trainingsbildes eine semantische Bedeutung zuordnen, bereitgestellt. Es gibt also zu jedem realen Trainingsbild eine semantische Trainingskarte. Umgekehrt gibt es zu jeder semantischen Trainingskarte mindestens ein reales Trainingsbild, denn es kann ja beispielsweise eine semantisch identische Situation mit unterschiedlichen Belichtungen oder anderen Abbildungsparametern aufgenommen worden sein. Die semantischen Trainingskarten können beispielsweise durch manuelles Labeln der realen Trainingsbilder erhalten werden.

Mit dem zu trainierenden Generator werden aus mindestens einer semantischen Trainingskarte realistische Bilder erzeugt. Zu der gleichen mindestens einen semantischen Trainingskarte wird mindestens ein reales Trainingsbild ermittelt. Zum Trainieren des Generators wird ein Diskriminator verwendet, der dazu ausgebildet ist, vom Generator erzeugte realistische Bilder von realen Bildern der durch die semantische Trainingskarte vorgegebenen Szenerie zu unterscheiden.

Aus mindestens einem vom Generator erzeugten realistischen Bild und mindestens einem zu der gleichen semantischen Trainingskarte ermittelten realen Trainingsbild wird ein Mischbild erzeugt. In diesem Mischbild ist eine erste echte Teilmenge der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator erzeugten realistischen Bildes belegt. Die verbleibende echte Teilmenge der Pixel ist mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes belegt. Ein jedes Pixel des Mischbildes ist also entweder mit dem korrespondierenden Pixelwert des vom Generator erzeugten realistischen Bildes oder mit dem korrespondierenden Pixelwert des realen Trainingsbildes belegt.

Dabei können insbesondere beispielsweise zusammenhängende Bereiche von Pixeln des Mischbildes, denen die semantische Trainingskarte die gleiche Bedeutung zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator erzeugten realistischen Bildes oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes belegt werden. Das Mischbild kann dann also beispielsweise eine „Collage“ aus Darstellungen von Objekten im vom Generator erzeugten realistischen Bild einerseits und Darstellungen von Objekten im realen Trainingsbild andererseits sein. Die vom Generator erzeugten realistischen Bilder, das mindestens eine reale Trainingsbild sowie das mindestens eine Mischbild werden dem Diskriminator zugeführt. Generator- Parameter, die das Verhalten des Generators charakterisieren, werden optimiert mit dem Ziel, dass die vom Generator erzeugten realistischen Bilder vom Diskriminator als reale Bilder fehlklassifiziert werden.

Gleichzeitig oder auch im Wechsel hiermit werden Diskriminator-Parameter, die das Verhalten des Diskriminators charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern und realen Bildern zu verbessern. Der Diskriminator wird also darauf trainiert, ein realistisch erzeugtes Bild als ein realistisch erzeugtes Bild zu klassifizieren und ein reales Trainingsbild als ein reales Trainingsbild zu klassifizieren.

Welche Rolle in diesem Training die Mischbilder spielen sollen, d.h. welche Klassenzuordnung der Diskriminator in Reaktion auf ein Mischbild ausgeben soll, ist ein einstellbarer Freiheitsgrad für das Training. Es gibt hier mehrere gut motivierte Möglichkeiten.

Beispielsweise kann gewünscht sein, dass der Diskriminator ein Mischbild, das überwiegend aus dem realistisch erzeugten Bild entnommene Pixel und/oder Objekte enthält, als realistisch erzeugtes Bild klassifiziert. Ebenso kann beispielsweise gewünscht sein, dass der Diskriminator ein Mischbild, das überwiegend aus dem realen Trainingsbild entnommene Pixel und/oder Objekte enthält, als reales Bild klassifiziert. Hierzwischen sind auch beliebige Abstufungen möglich. Die Parameter des Diskriminators können also darauf optimiert werden, dass der Diskriminator in Antwort auf das Mischbild die jeweils gewünschte Soll-Zuordnung ausgibt.

Dabei sind auch beliebige Abstufungen möglich. Die Diskriminator-Parameter können beispielsweise zusätzlich auf das Ziel optimiert werden, dass das Mischbild in einem Maß als reales Bild klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild in das Mischbild übernommenen Pixel und/oder Objekte korrespondiert. Wenn also beispielsweise 60 % des Bildinhalts eines Mischbildes aus einem realen Trainingsbild und 40 % des Bildinhalts dieses Mischbildes aus einem realistisch erzeugten Bild übernommen wurden, kann gewünscht sein, dass der Diskriminator das Mischbild mit einem Score von 0,6 als reales Bild und mit einem Score von 0,4 als realistisch erzeugtes Bild klassifiziert.

Es wurde erkannt, dass das Hinzunehmen von Mischbildern zum Training des Diskriminators einen doppelten Effekt hat. Zum einen lässt sich hiermit das Training regularisieren, so dass der Diskriminator die inhaltlichen und strukturellen Unterschiede zwischen realistisch erzeugten Bildern und realen Bildern besser lernt. Zum anderen lässt sich ein vorhandener Vorrat an Trainingsbildern durch das Erzeugen einer Vielzahl von Mischbildern quasi vervielfachen. Schon bei der Kombination nur eines realen Trainingsbildes mit einem realistisch erzeugten Bild gibt es eine Vielzahl von Auswahlmöglichkeiten, das Mischbild als „Collage“ von Objekten aus beiden Bildern zusammenzustellen.

Als Diskriminator kann insbesondere beispielsweise ein PatchGAN-Diskriminator gewählt werden. Ein solcher Diskriminator ermittelt die Unterscheidung, ob ein realistisch erzeugtes Bild oder aber ein reales Bild vorliegt, an Teilbereichen der Bilder mit einer vorgegebenen Größe („Patches“). Die dabei jeweils erhaltenen Ergebnisse werden dann zu einem Gesamtergebnis zusammengeführt. Ein solcher Diskriminator ist besonders gut in der Lage, das Mischungsverhältnis von realen zu realistisch erzeugten Bildinhalten in dem Mischbild quantitativ zu erfassen.

Der Diskriminator kann beispielsweise auch eine Encoder-Decoder-Anordnung mit einer Encoder- Struktur und einer Decoder-Struktur aufweisen. Die Encoder- Struktur übersetzt ein eingegebenes Bild in mehreren Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder- Struktur übersetzt diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder realistisch erzeugtes Pixel weiter. Die Ausgabe eines derartigen Diskriminators ist also nicht nur ein Score, der das eingegebene Bild als Ganzes bewertet. Stattdessen ist die Bewertung ortsaufgelöst und kann daher auch im Einzelnen erfassen, welche Pixel bzw. Objekte des Mischbildes aus dem realen Bild stammen und welche Pixel bzw. Objekte des Mischbildes aus dem realistisch erzeugten Bild stammen.

In einer weiteren vorteilhaften Ausgestaltung weist der Diskriminator mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation auf. Dann kann selektiv ein besonders relevanter Anteil der Information aus der Encoder-Struktur in die Decoder- Struktur überführt werden, ohne den „Flaschenhals“ der maximal informationsreduzierten Repräsentation passieren zu müssen. Der Diskriminator erhält hierdurch eine „U-Net“-Architektur.

In einer weiteren besonders vorteilhaften Ausgestaltung wird der Diskriminator zusätzlich darauf trainiert, dass er aus einem Mischbild, welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild und einem realistisch erzeugten Bild ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild einerseits und für das realistisch erzeugte Bild andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist. Der Diskriminator ist dann unter dem Mischen der Bilder zu dem Mischbild äquivariant.

Dies sei an einem Beispiel verdeutlicht, in dem die Szenerie gemäß der semantischen Karte in der linken oberen Ecke des Bildes ein Fahrzeug und in der rechten unteren Ecke des Bildes einen Baum aufweist. Die vorgegebene Vorschrift besagt, dass das Mischbild das aus dem realistisch erzeugten Bild entnommene Fahrzeug mit dem aus dem realen Trainingsbild entnommenen Baum kombinieren soll. Die vom Diskriminator für das Mischbild ermittelte ortsaufgelöste Ausgabe wird daher den Bereich mit dem Fahrzeug als realistisch erzeugten Bildanteil und den Bereich mit dem Baum als realen Bildanteil klassifizieren.

Wenn der Diskriminator auf das reale Bild angewendet wird, sollte seine ortsaufgelöste Ausgabe dieses reale Bild vollständig als reales Bild klassifizieren. Wenn der Diskriminator auf das realistisch erzeugte Bild angewendet wird, sollte seine ortsaufgelöste Ausgabe dieses realistisch erzeugte Bild vollständig als realistisch erzeugtes Bild klassifizieren. Werden nun diese beiden ortsaufgelösten Ausgaben in der gleichen Weise wie das Mischbild zusammengeführt, sollte im Ergebnis die linke obere Ecke als realer Bildanteil und die rechte untere Ecke als realistisch erzeugter Bildanteil klassifiziert sein. Dies ist das Ergebnis, das auch erhalten wird, wenn erst das Mischbild gebildet und dann die ortsaufgelöste Ausgabe ermittelt wird.

Beispielsweise kann die Kostenfunktion (Loss- Funktion) des Diskriminators um einen Konsistenz-Term L_c der Form

erweitert werden. Hierin ist D die ortsaufgelöste Ausgabe des Diskriminators, und M bezeichnet die Operation des Zusammenführens entsprechend der vorgegebenen Vorschrift, x ist das reale Bild, und x ist das realistisch erzeugte Bild.

Die Motivation des Konsistenz-Terms L_c ist ein Stück weit vergleichbar mit der Konsistenzprüfung, wenn eine unsortierte Menge Bargeld in Münzen und/oder Scheinen von zwei verschiedenen Personen gezählt wird. Dann können beide Personen die Zählung nach unterschiedlichen Schemata in Angriff nehmen. Beispielsweise kann die erste Person die Münzen und/oder Scheine in willkürlicher Reihenfolge greifen und die Werte jeweils addieren, während die zweite Person Pakete aus bestimmten Anzahlen von Münzen und/oder Scheinen mit gleichen Werten bildet und dann die Werte dieser Pakete addiert. Bei beiden Zählweisen sollte sich am Ende der gleiche Geldbetrag ergeben.

Mit der hier beschriebenen Regularisierung wird der Diskriminator dazu angehalten, die natürlichen semantischen Klassengrenzen zu beachten. Die erzeugten Bilder sind also nicht nur auf der Ebene der Einzel-Pixel realistisch, sondern berücksichtigen auch die Formen, die die unterschiedlichen Objekttypen zugeordneten Bildbereiche gemäß der semantischen Karte jeweils haben.

Die ortsaufgelöste Ausgabe kann insbesondere beispielsweise eine Ausgabe der letzten Schicht eines neuronalen Netzwerks des Diskriminators, aus der die Einteilung des eingegebenen Bildes als real oder realistisch erzeugt sowie Wahrscheinlichkeiten für beide Einteilungen hervorgehen, beinhalten. Diese letzte Schicht kann insbesondere beispielsweise „Logits“, also noch nicht mit der Softmax- Funktion normierte Klassifikations-Scores, beinhalten.

Wie zuvor erläutert, besteht eine wesentliche Anwendung des hier beschriebenen Trainingsverfahrens darin, einen Trainingsdatensatz für einen Bildklassifikator zu vergrößern und den Bildklassifikator so ausgehend von einem vorgegebenen Trainingsdatensatz mit realen Trainingsbildern und zugehörigen Soll-Zuordnungen zu semantischen Bedeutungen insgesamt besser zu trainieren. Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren eines Bildklassifikators, der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet.

Bei diesem Verfahren wird ein Generator nach dem zuvor beschriebenen Verfahren trainiert. Mit diesem trainierten Generator werden aus semantischen Karten realistische Bilder erzeugt. Diese semantischen Karten sind dann nicht mehr auf diejenigen semantischen Karten beschränkt, die zum Training des Generators verwendet wurden, sondern können beliebige gewünschte Szenerien beschreiben.

Aus den semantischen Karten werden semantische Soll-Bedeutungen ermittelt, auf die der trainierte Bildklassifikator die realistischen Bilder jeweils abbilden soll. Die Soll-Bedeutungen können insbesondere beispielsweise eine Zugehörigkeit zu einer oder mehreren Klassen einer vorgegebenen Klassifikation umfassen. Wenn beispielsweise in der semantischen Karte an einem bestimmten Ort ein Fahrzeug eingezeichnet ist, dann wird das realistisch erzeugte Bild an diesem Ort ein Fahrzeug enthalten. Daher soll der Bildklassifikator zumindest diesen Bildbereich der Klasse „Fahrzeug“ zuordnen.

Ein Trainingsdatensatz für den Bildklassifikator, der reale Trainingsbilder und zugehörige semantische Soll-Bedeutungen enthält, wird um die realistisch erzeugten Bilder und zugehörigen semantischen Soll-Bedeutungen erweitert. Der Bildklassifikator wird mit dem erweiterten Trainingsdatensatz trainiert.

Wie zuvor erläutert, kann der Trainingsdatensatz auf diese Weise insbesondere um realistische Bilder von Situationen bereichert werden, die zuvor in dem Trainingsdatensatz unterrepräsentiert waren. Auf diese Weise kann der Bildklassifikator besser in die Lage versetzt werden, diese Situationen zu handhaben.

Beispielsweise sind Trainingsbilder von selten, aber gefährlichen Verkehrssituationen häufig schwer erhältlich. Beispielsweise können Nebel, extremer Schneefall oder Glatteis, die wesentlicher Bestandteil der Situation sind, nur selten vorliegen. Andere Teile der Situation, wie etwa zwei Fahrzeuge auf Kollisionskurs, sind möglicherweise zu gefährlich, um sie mit realen Fahrzeugen nachzustellen.

Daher bezieht sich die Erfindung auch auf ein weiteres Verfahren. Bei diesem Verfahren wird ein Bildklassifikator, wie zuvor beschrieben, unter Nutzung von mit dem trainierten Generator erzeugten realistischen Bildern trainiert. Mit diesem trainierten Bildklassifikator werden Bilder, die mit mindestens einem von einem Fahrzeug mitgeführten Sensor aufgenommen wurden, einer semantischen Bedeutung zugeordnet. Aus der vom Bildklassifikator ermittelten semantischen Bedeutung wird ein Ansteuersignal ermittelt. Das Fahrzeug wird mit diesem Ansteuersignal angesteuert.

Durch das verbesserte Training ist die Genauigkeit der vom Bildklassifikator gelieferten semantischen Bedeutung vorteilhaft verbessert. Daher ist die Wahrscheinlichkeit, dass die durch das Ansteuersignal ausgelöste Reaktion des Fahrzeugs der in den Bildern gezeigten Verkehrssituation angemessen ist, vorteilhaft erhöht.

Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen. Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.

Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.

Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.

Ausführungsbeispiele

Es zeigt:

Figur 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Generators 1;

Figur 2 Veranschaulichung der Bildung eines Mischbildes 6;

Figur 3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren des Bildklassifikators 9;

Figur 4 Ausführungsbeispiel des Verfahrens 300 mit vollständiger Wirkkette bis zum Ansteuern eines Fahrzeugs 50.

Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100. In Schritt 110 werden reale Trainingsbilder 5 sowie zugehörige semantische Trainingskarten 5a bereitgestellt. Die semantischen Trainingskarten 5a ordnen jedem Pixel des jeweiligen Trainingsbildes 5 eine semantische Bedeutung 4 zu.

In Schritt 120 werden aus mindestens einer semantischen Trainingskarte 5a mit dem zu trainierenden Generator 1 realistische Bilder 3 erzeugt. In Schritt 130 wird zu der gleichen mindestens einen semantischen Trainingskarte 5a mindestens ein reales Trainingsbild 5 ermittelt. Dies kann beispielsweise dasjenige Trainingsbild 5 sein, durch dessen „Labeln“ die semantische Trainingskarte 5a überhaupt erst entstanden ist.

In Schritt 140 wird aus mindestens einem vom Generator 1 erzeugten realistischen Bild 3 und mindestens einem in Schritt 130 ermittelten realen Trainingsbild 5 ein Mischbild 6 erzeugt. In diesem Mischbild 6 ist eine erste echte Teilmenge 6a der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 belegt. Die verbleibende echte Teilmenge 6b der Pixel ist mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes 5 belegt.

Gemäß Block 141 können zusammenhängende Bereiche 61, 62 von Pixeln des Mischbildes 6, denen die semantische Trainingskarte 5a die gleiche semantische Bedeutung 4 zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes 5 belegt werden.

Die Bildung des Mischbildes 6 ist in Figur 2 im Detail veranschaulicht.

In Schritt 150 werden die vom Generator 1 erzeugten realistischen Bilder 3, das mindestens eine reale Trainingsbild 5 sowie mindestens ein Mischbild 6, die alle zur gleichen semantischen Trainingskarte 5a gehören, einem Diskriminator 7 zugeführt. Dieser Diskriminator 7 ist dazu ausgebildet, vom Generator 1 erzeugte realistische Bilder 3 von realen Bildern 5 der durch die semantische Trainingskarte 5a vorgegebenen Szenerie zu unterscheiden. Der Diskriminator 7 wird nur für das Training benötigt. Bei der späteren Verwendung des fertig trainierten Generators 1 wird der Diskriminator 7 nicht mehr benötigt. Gemäß Block 151 kann ein PatchGAN-Diskriminator als Diskriminator 7 gewählt werden. Ein PatchGAN-Diskriminator ermittelt die Unterscheidung zwischen realistisch erzeugten Bildern 3 und realen Bildern 5 an Teilbereichen der Bilder 3, 5, 6 mit einer vorgegebenen Größe und führt die dabei jeweils erhaltenen Ergebnisse zu einem Gesamtergebnis zusammen.

Gemäß Block 152 kann ein Diskriminator 7 mit einer Encoder- Decoder- Anordnung gewählt werden. Die Encoder-Struktur in dieser Encoder-Decoder- Anordnung übersetzt ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder-Struktur in der Encoder-Decoder-Anordnung übersetzt diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder realistisch erzeugtes Pixel weiter. Gemäß Block 152a kann insbesondere beispielsweise in dem Diskriminator 7 mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation vorgesehen sein.

In Schritt 160 werden Generator- Parameter la, die das Verhalten des Generators 1 charakterisieren, optimiert mit dem Ziel, dass die vom Generator 1 erzeugten realistischen Bilder 3 vom Diskriminator 7 als reale Bilder 5 fehlklassifiziert werden. Gleichzeitig oder auch im Wechsel hierzu werden in Schritt 170 Diskriminator-Parameter 7a, die das Verhalten des Diskriminators 7 charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern 3 und realen Bildern 5 zu verbessern.

Dabei kann die Optimierung der Diskriminator-Parameter 7a gemäß Block 171 zusätzlich auf das Ziel gerichtet sein, dass das Mischbild 6 in einem Maß (also etwa mit einem Score) als reales Bild 5 klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild 5 in das Mischbild 6 übernommenen Pixel und/oder Objekte korrespondiert.

Gemäß Block 172 kann der Diskriminator 7 zusätzlich darauf trainiert werden, dass er aus einem Mischbild 6, welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild 5 und einem realistisch erzeugten Bild 3 ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild 5 einerseits und für das realistisch erzeugte Bild 3 andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist.

Der fertig trainierte Zustand der Generator- Parameter la ist mit dem Bezugszeichen la* bezeichnet. Der fertig trainierte Zustand der Diskriminator- Parameter 7a ist mit dem Bezugszeichen 7a* bezeichnet.

Figur 2 veranschaulicht an einem einfachen Beispiel, wie ein Mischbild 6 gebildet werden kann. Vorgegeben ist in diesem Beispiel eine semantische Karte 2. Diese semantische Karte 2 ordnet einem ersten Bereich 21 die semantische Bedeutung 4 zu, dass die verwendeten Bilder 3, 5 dort ein Buch zeigen sollen. Die semantische Karte 2 ordnet einem zweiten Bereich 22 die semantische Bedeutung 4 zu, dass die verwendeten Bilder 3, 5 dort einen Tisch zeigen sollen.

Ein mit dem Generator 1 erzeugtes realistisches Bild 3 zeigt in Übereinstimmung mit der semantischen Karte 2 einen Tisch 32, auf dem ein Buch 31 liegt. Ein reales Trainingsbild 5 zeigt einen anderen Tisch 52, auf dem ein anderes Buch 51 liegt.

Im Mischbild 6 sind Pixel 6a, die einen zusammenhängenden Bereich 61 bilden, mit den korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 belegt, die sich auf den Tisch 32 beziehen. Pixel 6b, die einen zusammenhängenden Bereich 62 bilden, sind mit den korrespondieren Pixelwerten des realen Trainingsbildes 5 belegt, die sich auf das Buch 51 beziehen. Somit ist das Mischbild 6 eine Collage aus dem Tisch 32 im vom Generator 1 erzeugten realistischen Bild 3 und dem Buch 51 im realen Trainingsbild 5.

Figur 3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Bildklassifikators 9. In Schritt 210 wird ein Generator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. In Schritt 220 werden mit dem trainierten Generator 1 aus semantischen Karten 2 realistische Bilder 3 erzeugt. Aus den jeweils verwendeten semantischen Karten 2 werden in Schritt 230 semantische Soll-Bedeutungen ermittelt, auf die der Bildklassifikator 9 die realistischen Bilder 3, bzw. Pixel hiervon, jeweils abbilden soll.

Die vom Generator 1 erzeugten realistischen Bilder 3 sowie die zugehörigen Soll- Bedeutungen 4 werden in Schritt 240 zu einem Trainingsdatensatz 9a, der bereits reale Trainingsbilder 5' sowie zugehörige Soll-Bedeutungen 4' enthält, hinzugefügt. Der solchermaßen erweiterte Trainingsdatensatz 9a* wird in Schritt 250 verwendet, um den Bildklassifikator 9 zu trainieren. Figur 4 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des

Verfahrens 300. In Schritt 310 wird ein Bildklassifikator 9 mit dem zuvor beschriebenen Verfahren 200 trainiert. Mit diesem Bildklassifikator 9 werden in Schritt 320 Bilder 5, die mit mindestens einem von einem Fahrzeug 50 mitgeführten Sensor 50a aufgenommen wurden, einer semantischen Bedeutung 4 zugeordnet. Aus dieser vom Bildklassifikator 9 ermittelten semantischen

Bedeutung 4 wird in Schritt 330 ein Ansteuersignal 330a ermittelt. In Schritt 340 wird das Fahrzeug 50 mit diesem Ansteuersignal 330a angesteuert.

Claims

Ansprüche

1. Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, mit den Schritten:

• es werden reale Trainingsbilder (5) und zugehörige semantische Trainingskarten (5a), die jedem Pixel des jeweiligen Trainingsbildes (5) eine semantische Bedeutung (4) zuordnen, bereitgestellt (110);

• aus mindestens einer semantischen Trainingskarte (5a) werden mit dem Generator (1) Bilder (3) erzeugt (120);

• zu der gleichen mindestens einen semantischen Trainingskarte (5a) wird mindestens ein reales Trainingsbild (5) ermittelt (130);

• aus mindestens einem vom Generator (1) erzeugten Bild (3) und mindestens einem ermittelten realen Trainingsbild (5) wird ein Mischbild

(6) erzeugt (140), in dem eine erste echte Teilmenge (6a) der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) und die verbleibende echte Teilmenge (6b) der Pixel mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt ist;

• die vom Generator (1) erzeugten Bilder (3), das mindestens eine reale Trainingsbild (5) sowie mindestens ein Mischbild (6), die zur gleichen semantischen Trainingskarte (5a) gehören, werden einem Diskriminator

(7) zugeführt (150), der dazu ausgebildet ist, vom Generator (1) erzeugte Bilder (3) von realen Bildern (5) der durch die semantische Trainingskarte (5a) vorgegebenen Szenerie zu unterscheiden;

• Generator- Parameter (la), die das Verhalten des Generators (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass die vom Generator (1) erzeugten Bilder (3) vom Diskriminator (7) als reale Bilder (5) fehlklassifiziert werden;

• Diskriminator-Parameter (7a), die das Verhalten des Diskriminators (7) charakterisieren, werden optimiert (170) mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen erzeugten Bildern (3) und realen Bildern (5) zu verbessern.

2. Verfahren (100) nach Anspruch 1, wobei zusammenhängende Bereiche (61, 62) von Pixeln des Mischbildes (6), denen die semantische Trainingskarte (5a) die gleiche semantische Bedeutung (4) zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt werden (141).

3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei die Diskriminator-Parameter (7a) zusätzlich mit dem Ziel optimiert werden, dass das Mischbild (6) in einem Maß als reales Bild (5) klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild (5) in das Mischbild (6) übernommenen Pixel und/oder Objekte korrespondiert (171).

4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei ein PatchGAN-Diskriminator, der die Unterscheidung zwischen erzeugten Bildern (3) und realen Bildern (5) an Teilbereichen der Bilder (3, 5, 6) mit einer vorgegebenen Größe ermittelt und die dabei jeweils erhaltenen Ergebnisse zu einem Gesamtergebnis zusammenführt, als Diskriminator (7) gewählt wird (151).

5. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei ein Diskriminator (7) mit einer Encoder- Struktur, die ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation übersetzt, und einer Decoder-Struktur, die diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder erzeugtes Pixel weiterübersetzt, gewählt wird (152).

6. Verfahren (100) nach Anspruch 5, wobei ein Diskriminator (7) mit mindestens einer Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation gewählt wird (152a). - 17 -

7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei der Diskriminator (7) zusätzlich darauf trainiert wird (172), dass er aus einem Mischbild (6), welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild (5) und einem erzeugten Bild (3) ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild (5) einerseits und für das erzeugte Bild (3) andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist.

8. Verfahren (100) nach Anspruch 7, wobei die ortsaufgelöste Ausgabe eine Ausgabe der letzten Schicht eines neuronalen Netzwerks des Diskriminators (7), aus der die Einteilung des eingegebenen Bildes als real oder erzeugt sowie Wahrscheinlichkeiten für beide Einteilungen hervorgehen, beinhaltet.

9. Verfahren (200) zum Trainieren eines Bildklassifikators (9), der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet, mit den Schritten:

• ein Generator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 8 trainiert (210);

• mit dem trainierten Generator (1) werden aus semantischen Karten (2) Bilder (3) erzeugt (220);

• aus den jeweils verwendeten semantischen Karten (2) werden semantische Soll-Bedeutungen (4) ermittelt (230), auf die der trainierte Bildklassifikator (9) die Bilder (3) jeweils abbilden soll;

• ein Trainingsdatensatz (9a) für den Bildklassifikator (9), der reale Trainingsbilder (5') und zugehörige semantische Soll-Bedeutungen (4') enthält, wird um die erzeugten Bilder (3) und zugehörigen semantischen Soll-Bedeutungen (4) erweitert (240);

• der Bildklassifikator (9) wird mit dem erweiterten Trainingsdatensatz (9a*) trainiert (250).

10. Verfahren (300) mit den Schritten:

• ein Bildklassifikator (9) wird mit dem Verfahren (200) nach Anspruch 9 trainiert (310); - 18 -

• Bilder (5), die mit mindestens einem von einem Fahrzeug (50) mitgeführten Sensor (51) aufgenommen wurden, werden mit dem Bildklassifikator (9) einer semantischen Bedeutung (4) zugeordnet (320);

• aus der vom Bildklassifikator (9) ermittelten semantischen Bedeutung (4) wird ein Ansteuersignal (330a) ermittelt (330);

• das Fahrzeug (50) wird mit dem Ansteuersignal (330a) angesteuert (340).

11. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 10 auszuführen.

12. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 11.

13. Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 11, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 12.