[go: up one dir, main page]

WO2022043204A1 - Trainingsverfahren für einen generator zur erzeugung realistischer bilder - Google Patents

Trainingsverfahren für einen generator zur erzeugung realistischer bilder Download PDF

Info

Publication number
WO2022043204A1
WO2022043204A1 PCT/EP2021/073127 EP2021073127W WO2022043204A1 WO 2022043204 A1 WO2022043204 A1 WO 2022043204A1 EP 2021073127 W EP2021073127 W EP 2021073127W WO 2022043204 A1 WO2022043204 A1 WO 2022043204A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
training
generated
semantic
Prior art date
Application number
PCT/EP2021/073127
Other languages
English (en)
French (fr)
Inventor
Edgar Schoenfeld
Vadim Sushko
Dan Zhang
Anna Khoreva
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to US17/999,000 priority Critical patent/US20230177809A1/en
Priority to KR1020237010284A priority patent/KR20230057434A/ko
Priority to JP2023513119A priority patent/JP7505117B2/ja
Priority to CN202180051499.7A priority patent/CN115989524A/zh
Publication of WO2022043204A1 publication Critical patent/WO2022043204A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to the training of a realistic image generator, which in turn can be used to train image classifiers.
  • Corresponding image classifiers have to be trained with training images that were recorded in a large number of traffic situations. Obtaining the training images is comparatively difficult and expensive. Traffic situations that rarely occur in reality can be so underrepresented in the data set with the training images that the image classifier cannot optimally learn how to classify them correctly. Furthermore, a lot of manual work is necessary to “label” the training images or their pixels with the associated target class assignments (“ground truth”).
  • the concept of the image is not limited to static camera images, but also includes, for example, video images, radar images, lidar images and ultrasound images.
  • the images to be generated can be realistic, for example in relation to a given application.
  • “realistic” can mean in particular that the images can be used in downstream processing, such as when training an image classifier, in the same way as images recorded with physical sensors.
  • realistically generated images can be used, for example, to enrich a stock of real training images recorded with sensors and then “labeled” for an image classifier.
  • the images to be generated are therefore referred to below as “realistic images” or as “realistically generated images” in the interest of better legibility.
  • the generator creates the realistic images from a semantic map.
  • This semantic map assigns a semantic meaning of an object to which this pixel belongs to each pixel of the realistic image to be generated. So not just any random realistic image is generated, but one that reflects the situation given in the semantic map.
  • the semantic map can designate a traffic situation with different lanes, lane boundaries, traffic signs, road users and other objects.
  • Training maps that give each pixel of the respective training image a semantic assign meaning, provided. So there is a semantic training map for every real training image. Conversely, there is at least one real training image for each semantic training map because, for example, a semantically identical situation with different exposures or other imaging parameters may have been recorded.
  • the semantic training maps can be obtained, for example, by manually labeling the real training images.
  • a mixed image is generated from at least one realistic image generated by the generator and at least one real training image determined for the same semantic training map.
  • a first real subset of the pixels is occupied by corresponding pixel values of the realistic image generated by the generator.
  • the remaining real subset of pixels is occupied with corresponding pixel values of the real training image.
  • Each pixel of the mixed image is therefore assigned either the corresponding pixel value of the realistic image generated by the generator or the corresponding pixel value of the real training image.
  • contiguous areas of pixels of the mixed image can be assigned either uniformly with corresponding pixel values of the realistic image generated by the generator or uniformly with corresponding pixel values of the real training image.
  • the mixed image can then be, for example, a “collage” of representations of objects in the realistic image generated by the generator on the one hand and representations of objects in the real training image on the other.
  • the realistic images generated by the generator, the at least one real training image and the at least one mixed image are fed to the discriminator.
  • Generator parameters which characterize the behavior of the generator, are optimized with the aim that the realistic images generated by the generator are misclassified as real images by the discriminator.
  • discriminator parameters that characterize the behavior of the discriminator are optimized with the aim of improving the accuracy in distinguishing between realistically generated images and real images.
  • the discriminator is thus trained to classify a realistically generated image as a realistically generated image and to classify a real training image as a real training image.
  • the discriminator may be desirable for the discriminator to classify as a realistically generated image a mixed image that predominantly contains pixels and/or objects taken from the realistically generated image. It can also be desired, for example, for the discriminator to classify as a real image a mixed image that predominantly contains pixels and/or objects taken from the real training image. Any gradations in between are also possible.
  • the parameters of the discriminator can therefore be optimized so that the discriminator outputs the respectively desired target assignment in response to the mixed image.
  • the discriminator parameters can, for example, also be optimized with the aim of classifying the mixed image as a real image to an extent that corresponds to the numerical proportion of pixels and/or objects taken from a real training image into the mixed image. So if, for example, 60% of the image content of a mixed image from a real training image and 40% of the image content this mixed image was taken from a realistically generated image, it may be desirable for the discriminator to classify the mixed image as a real image with a score of 0.6 and as a realistically generated image with a score of 0.4.
  • a PatchGAN discriminator for example, can be selected as the discriminator.
  • a discriminator determines whether a realistically generated image or a real image is present in partial areas of the images with a predetermined size (“patches”). The results obtained in each case are then combined to form an overall result.
  • Such a discriminator is particularly well able to quantitatively detect the mixing ratio of real to realistically generated image content in the mixed image.
  • the discriminator can, for example, also have an encoder-decoder arrangement with an encoder structure and a decoder structure.
  • the encoder structure translates an input image into an information-reduced representation in several processing layers.
  • the decoder structure further translates this information-reduced representation into an assessment of each pixel of the input image as a real or realistically rendered pixel.
  • the output of such a discriminator is not just a score that evaluates the input image as a whole. Instead, the evaluation is spatially resolved and can therefore also record in detail which pixels or Objects of the mixed image come from the real image and which pixels or objects of the mixed image come from the realistically generated image.
  • the discriminator has at least one direct connection between a processing layer of the encoder structure and a processing layer of the decoder structure, bypassing the information-reduced representation. A particularly relevant portion of the information from the encoder structure can then be selectively transferred to the decoder structure without having to pass the "bottleneck" of the maximum information-reduced representation. This gives the discriminator a "U-Net" architecture.
  • the discriminator is also trained to generate a spatially resolved output from a mixed image, which was determined according to a specified rule from a real training image and a realistically generated image, which is as close as possible to a mixture of the real training image on the one hand and for the realistically generated image on the other hand the outputs obtained according to the same predetermined rule.
  • the discriminator is then equivariant under the merging of the images to the merged image.
  • the scenery according to the semantic map has a vehicle in the top left corner of the image and a tree in the bottom right corner of the image.
  • the specified rule states that the composite image should combine the vehicle extracted from the realistically generated image with the tree extracted from the real training image.
  • the spatially resolved output determined by the discriminator for the mixed image will therefore classify the area with the vehicle as a realistically generated image portion and the area with the tree as a real image portion.
  • the discriminator When the discriminator is applied to the real image, its spatially resolved output should fully classify that real image as a real image.
  • its spatially resolved output of this realistically rendered image should be completely as classify realistically generated image. If these two spatially resolved outputs are now combined in the same way as the mixed image, the result should be that the top left corner is classified as the real image portion and the bottom right corner as the realistically generated image portion. This is the result that is also obtained when the mixed image is first formed and then the spatially resolved output is determined.
  • the cost function (loss function) of the discriminator can be expanded by a consistency term L c of the form be expanded.
  • D is the spatially resolved output of the discriminator and M denotes the operation of merging according to the given rule, x is the real image and x is the realistically generated image.
  • L c The motivation of the consistency term L c is somewhat comparable to the consistency check when an unsorted amount of cash in coins and/or bills is counted by two different people. Then both people can start counting according to different schemes. For example, the first person may grab the coins and/or bills in random order and add up the values of each, while the second person forms packages of specified numbers of coins and/or bills of the same denomination and then adds the values of those packages. Both counting methods should end up with the same amount of money.
  • the discriminator is required to respect the natural semantic class boundaries.
  • the generated images are therefore not only realistic at the level of the individual pixels, but also take into account the shapes that the image areas assigned to the different object types have according to the semantic map.
  • the spatially resolved output can include, for example, an output from the last layer of a neural network of the discriminator, from which the classification of the input image as real or realistic is generated and probabilities for both classifications emerge.
  • the last layer can contain, for example, "logits", ie classification scores that have not yet been normalized with the Softmax function.
  • an essential application of the training method described here is to enlarge a training data set for an image classifier and thus train the image classifier better overall, starting from a given training data set with real training images and associated target assignments to semantic meanings. Therefore, the invention also relates to a method for training an image classifier that assigns a semantic meaning to an input image, and/or pixels of this input image.
  • a generator is trained according to the method described above. With this trained generator, realistic images are generated from semantic maps. These semantic maps are then no longer limited to those semantic maps that were used to train the generator, but can describe any desired scenarios.
  • Semantic target meanings are determined from the semantic maps, onto which the trained image classifier is to map the realistic images in each case.
  • the target meanings can include, for example, belonging to one or more classes of a predefined classification. For example, if a vehicle is drawn in at a specific location in the semantic map, then the realistically generated image will contain a vehicle at this location. Therefore, the image classifier should assign at least this image area to the “Vehicle” class.
  • a training data set for the image classifier which contains real training images and associated semantic target meanings, is expanded to include the realistically generated images and associated semantic target meanings.
  • the image classifier is trained with the extended training data set.
  • the training data set can be enriched in this way, in particular, with realistic images of situations that were previously in the training data set were underrepresented. In this way, the image classifier can be better able to handle these situations.
  • training images of rare but dangerous traffic situations are often difficult to obtain.
  • fog, extreme snowfall or black ice which are part and parcel of the situation, may rarely be present.
  • Other parts of the situation such as two vehicles on a collision course, may be too dangerous to replicate with real vehicles.
  • the invention therefore also relates to a further method.
  • an image classifier is trained as previously described using realistic images generated with the trained generator.
  • images that were recorded with at least one sensor carried by a vehicle are assigned a semantic meaning.
  • a control signal is determined from the semantic meaning determined by the image classifier. The vehicle is controlled with this control signal.
  • the improved training advantageously improves the accuracy of the semantic meaning provided by the image classifier. Therefore, the probability that the reaction of the vehicle triggered by the control signal is appropriate to the traffic situation shown in the images is advantageously increased.
  • the invention therefore also relates to a computer program with machine-readable instructions which, when executed on one or more computers, cause the computer or computers to carry out one of the methods described.
  • control devices for vehicles and embedded systems for technical devices that are also able to execute machine-readable instructions are also to be regarded as computers.
  • the invention also relates to a machine-readable data carrier and/or a download product with the computer program.
  • a download product is a digital product that can be transmitted over a data network, ie can be downloaded by a user of the data network, and which can be offered for sale in an online shop for immediate download, for example.
  • a computer can be equipped with the computer program, with the machine-readable data carrier or with the downloadable product.
  • FIG. 1 exemplary embodiment of the method 100 for training the generator 1
  • FIG. 2 illustration of the formation of a mixed image 6
  • FIG. 3 exemplary embodiment of the method 200 for training the image classifier 9
  • Figure 4 exemplary embodiment of the method 300 with a complete chain of effects up to the control of a vehicle 50.
  • FIG. 1 is a schematic flowchart of an exemplary embodiment of the method 100.
  • step 110 real training images 5 and associated semantic training maps 5a are provided.
  • the semantic training maps 5a assign a semantic meaning 4 to each pixel of the respective training image 5.
  • step 120 realistic images 3 are generated from at least one semantic training map 5a using the generator 1 to be trained.
  • step 130 at least one real training image 5 is determined for the same at least one semantic training map 5a. For example, this can be that training image 5 through whose "labeling" the semantic training map 5a was created in the first place.
  • a mixed image 6 is generated from at least one realistic image 3 generated by generator 1 and at least one real training image 5 determined in step 130.
  • a first real subset 6a of the pixels is occupied by corresponding pixel values of the realistic image 3 generated by the generator 1.
  • the remaining real subset 6b of the pixels is occupied with corresponding pixel values of the real training image 5 in each case.
  • contiguous areas 61, 62 of pixels of the mixed image 6, to which the semantic training map 5a assigns the same semantic meaning 4 can be assigned either uniformly with corresponding pixel values of the realistic image 3 generated by generator 1 or uniformly with corresponding pixel values of the real training image 5 will.
  • the formation of the mixed image 6 is illustrated in detail in FIG.
  • step 150 the realistic images 3 generated by the generator 1, the at least one real training image 5 and at least one mixed image 6, all of which belong to the same semantic training map 5a, are fed to a discriminator 7.
  • This discriminator 7 is designed to distinguish between realistic images 3 generated by the generator 1 and real images 5 of the scenery specified by the semantic training map 5a.
  • the discriminator 7 is only required for training. When the completely trained generator 1 is later used, the discriminator 7 is no longer required.
  • a PatchGAN discriminator can be selected as discriminator 7 .
  • a PatchGAN discriminator determines the distinction between realistically generated images 3 and real images 5 in partial areas of the images 3, 5, 6 with a predetermined size and combines the results obtained in each case into an overall result.
  • a discriminator 7 with an encoder-decoder arrangement can be selected.
  • the encoder structure in this encoder-decoder arrangement translates an input image into an information-reduced representation in several successive processing layers.
  • the decoder structure in the encoder-decoder arrangement further translates this information-reduced representation into an evaluation of each pixel of the input image as a real or realistically generated pixel.
  • at least one direct connection between a processing layer of the encoder structure and a processing layer of the decoder structure can be provided in the discriminator 7, for example, bypassing the information-reduced representation.
  • step 160 generator parameters la, which characterize the behavior of generator 1, are optimized with the aim that realistic images 3 generated by generator 1 are misclassified as real images 5 by discriminator 7.
  • discriminator parameters 7a which characterize the behavior of discriminator 7, are optimized with the aim of improving the accuracy in distinguishing between realistically generated images 3 and real images 5.
  • the optimization of the discriminator parameters 7a according to block 171 can also be aimed at the goal of classifying the mixed image 6 as a real image 5 to an extent (i.e. with a score) that corresponds to the numerical proportion of the results from a real training image 5 corresponds to pixels and/or objects taken over into the mixed image 6 .
  • the discriminator 7 can also be trained so that it is determined from a mixed image 6, which is determined from a real training image 5 and a realistically generated image 3 according to a predetermined rule was generated, a spatially resolved output which is as close as possible to a mixture of the outputs obtained for the real training image 5 on the one hand and for the realistically generated image 3 on the other hand according to the same prescribed rule.
  • the fully trained state of the generator parameters la is denoted by the reference symbol la*.
  • the fully trained state of the discriminator parameters 7a is denoted by the reference symbol 7a*.
  • FIG. 2 uses a simple example to illustrate how a mixed image 6 can be formed.
  • a semantic map 2 is specified. This semantic map 2 assigns the semantic meaning 4 to a first area 21, that the images 3, 5 used are intended to show a book there. The semantic map 2 assigns the semantic meaning 4 to a second area 22, that the images 3, 5 used should show a table there.
  • a realistic image 3 generated with the generator 1 shows, in accordance with the semantic map 2, a table 32 on which a book 31 lies.
  • a real training image 5 shows another table 52 on which another book 51 is lying.
  • the mixed image 6 is a collage of the table 32 in the realistic image 3 generated by the generator 1 and the book 51 in the real training image 5.
  • FIG. 3 is a schematic flowchart of an exemplary embodiment of the method 200 for training an image classifier 9.
  • a generator 1 is trained using the method 100 described above.
  • realistic images 3 are generated from semantic maps 2 with the trained generator 1.
  • the semantic maps 2 used in each case become in Step 230 determines semantic target meanings onto which the image classifier 9 is to map the realistic images 3 or pixels thereof.
  • FIG. 4 is a schematic flow chart of an embodiment of the
  • step 310 an image classifier 9 is trained using the method 200 described above. With this image classifier 9, in step 320, images 5 that were recorded with at least one sensor 50a carried by a vehicle 50 are assigned a semantic meaning 4. From this determined by the image classifier 9 semantic
  • a control signal 330a is determined in step 330.
  • the vehicle 50 is controlled with this control signal 330a.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, wobei ° aus mindestens einem vom Generator (1) erzeugten Bild (3) und mindestens einem ermittelten realen Trainingsbild (5) ein Mischbild (6) erzeugt wird (140), in dem eine erste echte Teilmenge (6a) der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) und die verbleibende echte Teilmenge (6b) der Pixel mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt ist, und °die vom Generator (1) erzeugten Bilder (3), das mindestens eine reale Trainingsbild (5) sowie mindestens ein Mischbild (6), die zur gleichen semantischen Trainingskarte (5a) gehören, einem Diskriminator (7), der dazu ausgebildet ist, vom Generator (1) erzeugte Bilder (3) von realen Bildern (5) der durch die semantische Trainingskarte (5a) vorgegebenen Szenerie zu unterscheiden, zugeführt werden (150).

Description

Beschreibung
Titel:
Trainingsverfahren für einen Generator zur Erzeugung realistischer Bilder
Die vorliegende Erfindung betrifft das Training eines Generators für realistische Bilder, die wiederum für das Training von Bildklassifikatoren verwendbar sind.
Stand der Technik
Etwa 90 % der Informationen, die ein menschlicher Fahrer zum Führen eines Fahrzeugs im Straßenverkehr benötigt, sind visuelle Informationen. Für das zumindest teilweise automatisierte Führen von Fahrzeugen ist es daher unabdingbar, Bilddaten gleich welcher Modalität, die bei der Überwachung des Fahrzeugumfelds aufgenommen werden, inhaltlich zutreffend auszuwerten. Von besonderer Bedeutung für die Fahraufgabe ist eine Klassifikation der Bilddaten dahingehend, welche verkehrsrelevanten Objekte in ihnen enthalten sind, wie beispielsweise andere Verkehrsteilnehmer, Fahrbahnmarkierungen, Hindernisse und Verkehrszeichen.
Entsprechende Bildklassifikatoren müssen mit Trainingsbildern, die in einer Vielzahl von Verkehrssituationen aufgenommen wurden, trainiert werden. Das Beschaffen der Trainingsbilder ist vergleichsweise schwierig und teuer. In der Realität selten vorkommende Verkehrssituationen können im Datensatz mit den Trainingsbildern zahlenmäßig so unterrepräsentiert sein, dass der Bildklassifikator ihre richtige Einordnung nicht optimal lernen kann. Weiterhin ist viel manuelle Arbeit notwendig, um die Trainingsbilder, bzw. deren Pixel, mit zugehörigen Soll- Klassenzuordnungen („ground truth“) zu „labeln“.
Daher werden zusätzlich auch synthetisch erzeugte Trainingsdaten verwendet, die mit einem Generator auf der Basis von Generative Adversarial Networks, GAN, erzeugt werden. Ein solcher Generator für Radardaten ist aus der DE 10 2018 204494 B3 bekannt.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines Generators für Bilder entwickelt.
Der Begriff des Bildes ist nicht auf statische Kamerabilder beschränkt, sondern umfasst beispielsweise auch Videobilder, Radarbilder, Lidar-Bilder und Ultraschallbilder.
Die zu erzeugenden Bilder können insbesondere beispielsweise in Bezug auf eine vorgegebene Anwendung realistisch sein. Hierbei kann „realistisch“ insbesondere bedeuten, dass sich die Bilder in einer nachgeschalteten Verarbeitung, wie beispielsweise beim Trainieren eines Bildklassifikators, in gleicher Weise nutzen lassen wie mit physikalischen Sensoren aufgenommene Bilder. Realistisch erzeugte Bilder können insbesondere beispielsweise genutzt werden, um einen Vorrat von realen, mit Sensoren aufgenommenen und anschließend „gelabelten“ Trainingsbildern für einen Bildklassifikator anzureichern. Daher werden die zu erzeugenden Bilder im Folgenden im Interesse einer besseren Lesbarkeit als „realistische Bilder“, bzw. als „realistisch erzeugte Bilder“, bezeichnet.
Der Generator erzeugt die realistischen Bilder aus einer semantischen Karte. Diese semantische Karte ordnet jedem Pixel des zu erzeugenden realistischen Bildes eine semantische Bedeutung eines Objekts, zu dem dieses Pixel gehört, zu. Es wird also nicht irgendein zufälliges realistisches Bild erzeugt, sondern eines, das die in der semantischen Karte vorgegebene Situation widerspiegelt. So kann die semantische Karte beispielsweise eine Verkehrssituation mit verschiedenen Fahrbahnen, Fahrbahnbegrenzungen, Verkehrszeichen, Verkehrsteilnehmern und weiteren Objekten bezeichnen.
Für das Verfahren werden reale Trainingsbilder und zugehörige semantische
Trainingskarten, die jedem Pixel des jeweiligen Trainingsbildes eine semantische Bedeutung zuordnen, bereitgestellt. Es gibt also zu jedem realen Trainingsbild eine semantische Trainingskarte. Umgekehrt gibt es zu jeder semantischen Trainingskarte mindestens ein reales Trainingsbild, denn es kann ja beispielsweise eine semantisch identische Situation mit unterschiedlichen Belichtungen oder anderen Abbildungsparametern aufgenommen worden sein. Die semantischen Trainingskarten können beispielsweise durch manuelles Labeln der realen Trainingsbilder erhalten werden.
Mit dem zu trainierenden Generator werden aus mindestens einer semantischen Trainingskarte realistische Bilder erzeugt. Zu der gleichen mindestens einen semantischen Trainingskarte wird mindestens ein reales Trainingsbild ermittelt. Zum Trainieren des Generators wird ein Diskriminator verwendet, der dazu ausgebildet ist, vom Generator erzeugte realistische Bilder von realen Bildern der durch die semantische Trainingskarte vorgegebenen Szenerie zu unterscheiden.
Aus mindestens einem vom Generator erzeugten realistischen Bild und mindestens einem zu der gleichen semantischen Trainingskarte ermittelten realen Trainingsbild wird ein Mischbild erzeugt. In diesem Mischbild ist eine erste echte Teilmenge der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator erzeugten realistischen Bildes belegt. Die verbleibende echte Teilmenge der Pixel ist mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes belegt. Ein jedes Pixel des Mischbildes ist also entweder mit dem korrespondierenden Pixelwert des vom Generator erzeugten realistischen Bildes oder mit dem korrespondierenden Pixelwert des realen Trainingsbildes belegt.
Dabei können insbesondere beispielsweise zusammenhängende Bereiche von Pixeln des Mischbildes, denen die semantische Trainingskarte die gleiche Bedeutung zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator erzeugten realistischen Bildes oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes belegt werden. Das Mischbild kann dann also beispielsweise eine „Collage“ aus Darstellungen von Objekten im vom Generator erzeugten realistischen Bild einerseits und Darstellungen von Objekten im realen Trainingsbild andererseits sein. Die vom Generator erzeugten realistischen Bilder, das mindestens eine reale Trainingsbild sowie das mindestens eine Mischbild werden dem Diskriminator zugeführt. Generator- Parameter, die das Verhalten des Generators charakterisieren, werden optimiert mit dem Ziel, dass die vom Generator erzeugten realistischen Bilder vom Diskriminator als reale Bilder fehlklassifiziert werden.
Gleichzeitig oder auch im Wechsel hiermit werden Diskriminator-Parameter, die das Verhalten des Diskriminators charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern und realen Bildern zu verbessern. Der Diskriminator wird also darauf trainiert, ein realistisch erzeugtes Bild als ein realistisch erzeugtes Bild zu klassifizieren und ein reales Trainingsbild als ein reales Trainingsbild zu klassifizieren.
Welche Rolle in diesem Training die Mischbilder spielen sollen, d.h. welche Klassenzuordnung der Diskriminator in Reaktion auf ein Mischbild ausgeben soll, ist ein einstellbarer Freiheitsgrad für das Training. Es gibt hier mehrere gut motivierte Möglichkeiten.
Beispielsweise kann gewünscht sein, dass der Diskriminator ein Mischbild, das überwiegend aus dem realistisch erzeugten Bild entnommene Pixel und/oder Objekte enthält, als realistisch erzeugtes Bild klassifiziert. Ebenso kann beispielsweise gewünscht sein, dass der Diskriminator ein Mischbild, das überwiegend aus dem realen Trainingsbild entnommene Pixel und/oder Objekte enthält, als reales Bild klassifiziert. Hierzwischen sind auch beliebige Abstufungen möglich. Die Parameter des Diskriminators können also darauf optimiert werden, dass der Diskriminator in Antwort auf das Mischbild die jeweils gewünschte Soll-Zuordnung ausgibt.
Dabei sind auch beliebige Abstufungen möglich. Die Diskriminator-Parameter können beispielsweise zusätzlich auf das Ziel optimiert werden, dass das Mischbild in einem Maß als reales Bild klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild in das Mischbild übernommenen Pixel und/oder Objekte korrespondiert. Wenn also beispielsweise 60 % des Bildinhalts eines Mischbildes aus einem realen Trainingsbild und 40 % des Bildinhalts dieses Mischbildes aus einem realistisch erzeugten Bild übernommen wurden, kann gewünscht sein, dass der Diskriminator das Mischbild mit einem Score von 0,6 als reales Bild und mit einem Score von 0,4 als realistisch erzeugtes Bild klassifiziert.
Es wurde erkannt, dass das Hinzunehmen von Mischbildern zum Training des Diskriminators einen doppelten Effekt hat. Zum einen lässt sich hiermit das Training regularisieren, so dass der Diskriminator die inhaltlichen und strukturellen Unterschiede zwischen realistisch erzeugten Bildern und realen Bildern besser lernt. Zum anderen lässt sich ein vorhandener Vorrat an Trainingsbildern durch das Erzeugen einer Vielzahl von Mischbildern quasi vervielfachen. Schon bei der Kombination nur eines realen Trainingsbildes mit einem realistisch erzeugten Bild gibt es eine Vielzahl von Auswahlmöglichkeiten, das Mischbild als „Collage“ von Objekten aus beiden Bildern zusammenzustellen.
Als Diskriminator kann insbesondere beispielsweise ein PatchGAN-Diskriminator gewählt werden. Ein solcher Diskriminator ermittelt die Unterscheidung, ob ein realistisch erzeugtes Bild oder aber ein reales Bild vorliegt, an Teilbereichen der Bilder mit einer vorgegebenen Größe („Patches“). Die dabei jeweils erhaltenen Ergebnisse werden dann zu einem Gesamtergebnis zusammengeführt. Ein solcher Diskriminator ist besonders gut in der Lage, das Mischungsverhältnis von realen zu realistisch erzeugten Bildinhalten in dem Mischbild quantitativ zu erfassen.
Der Diskriminator kann beispielsweise auch eine Encoder-Decoder-Anordnung mit einer Encoder- Struktur und einer Decoder-Struktur aufweisen. Die Encoder- Struktur übersetzt ein eingegebenes Bild in mehreren Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder- Struktur übersetzt diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder realistisch erzeugtes Pixel weiter. Die Ausgabe eines derartigen Diskriminators ist also nicht nur ein Score, der das eingegebene Bild als Ganzes bewertet. Stattdessen ist die Bewertung ortsaufgelöst und kann daher auch im Einzelnen erfassen, welche Pixel bzw. Objekte des Mischbildes aus dem realen Bild stammen und welche Pixel bzw. Objekte des Mischbildes aus dem realistisch erzeugten Bild stammen.
In einer weiteren vorteilhaften Ausgestaltung weist der Diskriminator mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation auf. Dann kann selektiv ein besonders relevanter Anteil der Information aus der Encoder-Struktur in die Decoder- Struktur überführt werden, ohne den „Flaschenhals“ der maximal informationsreduzierten Repräsentation passieren zu müssen. Der Diskriminator erhält hierdurch eine „U-Net“-Architektur.
In einer weiteren besonders vorteilhaften Ausgestaltung wird der Diskriminator zusätzlich darauf trainiert, dass er aus einem Mischbild, welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild und einem realistisch erzeugten Bild ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild einerseits und für das realistisch erzeugte Bild andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist. Der Diskriminator ist dann unter dem Mischen der Bilder zu dem Mischbild äquivariant.
Dies sei an einem Beispiel verdeutlicht, in dem die Szenerie gemäß der semantischen Karte in der linken oberen Ecke des Bildes ein Fahrzeug und in der rechten unteren Ecke des Bildes einen Baum aufweist. Die vorgegebene Vorschrift besagt, dass das Mischbild das aus dem realistisch erzeugten Bild entnommene Fahrzeug mit dem aus dem realen Trainingsbild entnommenen Baum kombinieren soll. Die vom Diskriminator für das Mischbild ermittelte ortsaufgelöste Ausgabe wird daher den Bereich mit dem Fahrzeug als realistisch erzeugten Bildanteil und den Bereich mit dem Baum als realen Bildanteil klassifizieren.
Wenn der Diskriminator auf das reale Bild angewendet wird, sollte seine ortsaufgelöste Ausgabe dieses reale Bild vollständig als reales Bild klassifizieren. Wenn der Diskriminator auf das realistisch erzeugte Bild angewendet wird, sollte seine ortsaufgelöste Ausgabe dieses realistisch erzeugte Bild vollständig als realistisch erzeugtes Bild klassifizieren. Werden nun diese beiden ortsaufgelösten Ausgaben in der gleichen Weise wie das Mischbild zusammengeführt, sollte im Ergebnis die linke obere Ecke als realer Bildanteil und die rechte untere Ecke als realistisch erzeugter Bildanteil klassifiziert sein. Dies ist das Ergebnis, das auch erhalten wird, wenn erst das Mischbild gebildet und dann die ortsaufgelöste Ausgabe ermittelt wird.
Beispielsweise kann die Kostenfunktion (Loss- Funktion) des Diskriminators um einen Konsistenz-Term Lc der Form
Figure imgf000009_0001
erweitert werden. Hierin ist D die ortsaufgelöste Ausgabe des Diskriminators, und M bezeichnet die Operation des Zusammenführens entsprechend der vorgegebenen Vorschrift, x ist das reale Bild, und x ist das realistisch erzeugte Bild.
Die Motivation des Konsistenz-Terms Lc ist ein Stück weit vergleichbar mit der Konsistenzprüfung, wenn eine unsortierte Menge Bargeld in Münzen und/oder Scheinen von zwei verschiedenen Personen gezählt wird. Dann können beide Personen die Zählung nach unterschiedlichen Schemata in Angriff nehmen. Beispielsweise kann die erste Person die Münzen und/oder Scheine in willkürlicher Reihenfolge greifen und die Werte jeweils addieren, während die zweite Person Pakete aus bestimmten Anzahlen von Münzen und/oder Scheinen mit gleichen Werten bildet und dann die Werte dieser Pakete addiert. Bei beiden Zählweisen sollte sich am Ende der gleiche Geldbetrag ergeben.
Mit der hier beschriebenen Regularisierung wird der Diskriminator dazu angehalten, die natürlichen semantischen Klassengrenzen zu beachten. Die erzeugten Bilder sind also nicht nur auf der Ebene der Einzel-Pixel realistisch, sondern berücksichtigen auch die Formen, die die unterschiedlichen Objekttypen zugeordneten Bildbereiche gemäß der semantischen Karte jeweils haben.
Die ortsaufgelöste Ausgabe kann insbesondere beispielsweise eine Ausgabe der letzten Schicht eines neuronalen Netzwerks des Diskriminators, aus der die Einteilung des eingegebenen Bildes als real oder realistisch erzeugt sowie Wahrscheinlichkeiten für beide Einteilungen hervorgehen, beinhalten. Diese letzte Schicht kann insbesondere beispielsweise „Logits“, also noch nicht mit der Softmax- Funktion normierte Klassifikations-Scores, beinhalten.
Wie zuvor erläutert, besteht eine wesentliche Anwendung des hier beschriebenen Trainingsverfahrens darin, einen Trainingsdatensatz für einen Bildklassifikator zu vergrößern und den Bildklassifikator so ausgehend von einem vorgegebenen Trainingsdatensatz mit realen Trainingsbildern und zugehörigen Soll-Zuordnungen zu semantischen Bedeutungen insgesamt besser zu trainieren. Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren eines Bildklassifikators, der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet.
Bei diesem Verfahren wird ein Generator nach dem zuvor beschriebenen Verfahren trainiert. Mit diesem trainierten Generator werden aus semantischen Karten realistische Bilder erzeugt. Diese semantischen Karten sind dann nicht mehr auf diejenigen semantischen Karten beschränkt, die zum Training des Generators verwendet wurden, sondern können beliebige gewünschte Szenerien beschreiben.
Aus den semantischen Karten werden semantische Soll-Bedeutungen ermittelt, auf die der trainierte Bildklassifikator die realistischen Bilder jeweils abbilden soll. Die Soll-Bedeutungen können insbesondere beispielsweise eine Zugehörigkeit zu einer oder mehreren Klassen einer vorgegebenen Klassifikation umfassen. Wenn beispielsweise in der semantischen Karte an einem bestimmten Ort ein Fahrzeug eingezeichnet ist, dann wird das realistisch erzeugte Bild an diesem Ort ein Fahrzeug enthalten. Daher soll der Bildklassifikator zumindest diesen Bildbereich der Klasse „Fahrzeug“ zuordnen.
Ein Trainingsdatensatz für den Bildklassifikator, der reale Trainingsbilder und zugehörige semantische Soll-Bedeutungen enthält, wird um die realistisch erzeugten Bilder und zugehörigen semantischen Soll-Bedeutungen erweitert. Der Bildklassifikator wird mit dem erweiterten Trainingsdatensatz trainiert.
Wie zuvor erläutert, kann der Trainingsdatensatz auf diese Weise insbesondere um realistische Bilder von Situationen bereichert werden, die zuvor in dem Trainingsdatensatz unterrepräsentiert waren. Auf diese Weise kann der Bildklassifikator besser in die Lage versetzt werden, diese Situationen zu handhaben.
Beispielsweise sind Trainingsbilder von selten, aber gefährlichen Verkehrssituationen häufig schwer erhältlich. Beispielsweise können Nebel, extremer Schneefall oder Glatteis, die wesentlicher Bestandteil der Situation sind, nur selten vorliegen. Andere Teile der Situation, wie etwa zwei Fahrzeuge auf Kollisionskurs, sind möglicherweise zu gefährlich, um sie mit realen Fahrzeugen nachzustellen.
Daher bezieht sich die Erfindung auch auf ein weiteres Verfahren. Bei diesem Verfahren wird ein Bildklassifikator, wie zuvor beschrieben, unter Nutzung von mit dem trainierten Generator erzeugten realistischen Bildern trainiert. Mit diesem trainierten Bildklassifikator werden Bilder, die mit mindestens einem von einem Fahrzeug mitgeführten Sensor aufgenommen wurden, einer semantischen Bedeutung zugeordnet. Aus der vom Bildklassifikator ermittelten semantischen Bedeutung wird ein Ansteuersignal ermittelt. Das Fahrzeug wird mit diesem Ansteuersignal angesteuert.
Durch das verbesserte Training ist die Genauigkeit der vom Bildklassifikator gelieferten semantischen Bedeutung vorteilhaft verbessert. Daher ist die Wahrscheinlichkeit, dass die durch das Ansteuersignal ausgelöste Reaktion des Fahrzeugs der in den Bildern gezeigten Verkehrssituation angemessen ist, vorteilhaft erhöht.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, eines der beschriebenen Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen. Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:
Figur 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren des Generators 1;
Figur 2 Veranschaulichung der Bildung eines Mischbildes 6;
Figur 3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren des Bildklassifikators 9;
Figur 4 Ausführungsbeispiel des Verfahrens 300 mit vollständiger Wirkkette bis zum Ansteuern eines Fahrzeugs 50.
Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100. In Schritt 110 werden reale Trainingsbilder 5 sowie zugehörige semantische Trainingskarten 5a bereitgestellt. Die semantischen Trainingskarten 5a ordnen jedem Pixel des jeweiligen Trainingsbildes 5 eine semantische Bedeutung 4 zu.
In Schritt 120 werden aus mindestens einer semantischen Trainingskarte 5a mit dem zu trainierenden Generator 1 realistische Bilder 3 erzeugt. In Schritt 130 wird zu der gleichen mindestens einen semantischen Trainingskarte 5a mindestens ein reales Trainingsbild 5 ermittelt. Dies kann beispielsweise dasjenige Trainingsbild 5 sein, durch dessen „Labeln“ die semantische Trainingskarte 5a überhaupt erst entstanden ist.
In Schritt 140 wird aus mindestens einem vom Generator 1 erzeugten realistischen Bild 3 und mindestens einem in Schritt 130 ermittelten realen Trainingsbild 5 ein Mischbild 6 erzeugt. In diesem Mischbild 6 ist eine erste echte Teilmenge 6a der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 belegt. Die verbleibende echte Teilmenge 6b der Pixel ist mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes 5 belegt.
Gemäß Block 141 können zusammenhängende Bereiche 61, 62 von Pixeln des Mischbildes 6, denen die semantische Trainingskarte 5a die gleiche semantische Bedeutung 4 zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes 5 belegt werden.
Die Bildung des Mischbildes 6 ist in Figur 2 im Detail veranschaulicht.
In Schritt 150 werden die vom Generator 1 erzeugten realistischen Bilder 3, das mindestens eine reale Trainingsbild 5 sowie mindestens ein Mischbild 6, die alle zur gleichen semantischen Trainingskarte 5a gehören, einem Diskriminator 7 zugeführt. Dieser Diskriminator 7 ist dazu ausgebildet, vom Generator 1 erzeugte realistische Bilder 3 von realen Bildern 5 der durch die semantische Trainingskarte 5a vorgegebenen Szenerie zu unterscheiden. Der Diskriminator 7 wird nur für das Training benötigt. Bei der späteren Verwendung des fertig trainierten Generators 1 wird der Diskriminator 7 nicht mehr benötigt. Gemäß Block 151 kann ein PatchGAN-Diskriminator als Diskriminator 7 gewählt werden. Ein PatchGAN-Diskriminator ermittelt die Unterscheidung zwischen realistisch erzeugten Bildern 3 und realen Bildern 5 an Teilbereichen der Bilder 3, 5, 6 mit einer vorgegebenen Größe und führt die dabei jeweils erhaltenen Ergebnisse zu einem Gesamtergebnis zusammen.
Gemäß Block 152 kann ein Diskriminator 7 mit einer Encoder- Decoder- Anordnung gewählt werden. Die Encoder-Struktur in dieser Encoder-Decoder- Anordnung übersetzt ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation. Die Decoder-Struktur in der Encoder-Decoder-Anordnung übersetzt diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder realistisch erzeugtes Pixel weiter. Gemäß Block 152a kann insbesondere beispielsweise in dem Diskriminator 7 mindestens eine Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation vorgesehen sein.
In Schritt 160 werden Generator- Parameter la, die das Verhalten des Generators 1 charakterisieren, optimiert mit dem Ziel, dass die vom Generator 1 erzeugten realistischen Bilder 3 vom Diskriminator 7 als reale Bilder 5 fehlklassifiziert werden. Gleichzeitig oder auch im Wechsel hierzu werden in Schritt 170 Diskriminator-Parameter 7a, die das Verhalten des Diskriminators 7 charakterisieren, optimiert mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen realistisch erzeugten Bildern 3 und realen Bildern 5 zu verbessern.
Dabei kann die Optimierung der Diskriminator-Parameter 7a gemäß Block 171 zusätzlich auf das Ziel gerichtet sein, dass das Mischbild 6 in einem Maß (also etwa mit einem Score) als reales Bild 5 klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild 5 in das Mischbild 6 übernommenen Pixel und/oder Objekte korrespondiert.
Gemäß Block 172 kann der Diskriminator 7 zusätzlich darauf trainiert werden, dass er aus einem Mischbild 6, welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild 5 und einem realistisch erzeugten Bild 3 ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild 5 einerseits und für das realistisch erzeugte Bild 3 andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist.
Der fertig trainierte Zustand der Generator- Parameter la ist mit dem Bezugszeichen la* bezeichnet. Der fertig trainierte Zustand der Diskriminator- Parameter 7a ist mit dem Bezugszeichen 7a* bezeichnet.
Figur 2 veranschaulicht an einem einfachen Beispiel, wie ein Mischbild 6 gebildet werden kann. Vorgegeben ist in diesem Beispiel eine semantische Karte 2. Diese semantische Karte 2 ordnet einem ersten Bereich 21 die semantische Bedeutung 4 zu, dass die verwendeten Bilder 3, 5 dort ein Buch zeigen sollen. Die semantische Karte 2 ordnet einem zweiten Bereich 22 die semantische Bedeutung 4 zu, dass die verwendeten Bilder 3, 5 dort einen Tisch zeigen sollen.
Ein mit dem Generator 1 erzeugtes realistisches Bild 3 zeigt in Übereinstimmung mit der semantischen Karte 2 einen Tisch 32, auf dem ein Buch 31 liegt. Ein reales Trainingsbild 5 zeigt einen anderen Tisch 52, auf dem ein anderes Buch 51 liegt.
Im Mischbild 6 sind Pixel 6a, die einen zusammenhängenden Bereich 61 bilden, mit den korrespondierenden Pixelwerten des vom Generator 1 erzeugten realistischen Bildes 3 belegt, die sich auf den Tisch 32 beziehen. Pixel 6b, die einen zusammenhängenden Bereich 62 bilden, sind mit den korrespondieren Pixelwerten des realen Trainingsbildes 5 belegt, die sich auf das Buch 51 beziehen. Somit ist das Mischbild 6 eine Collage aus dem Tisch 32 im vom Generator 1 erzeugten realistischen Bild 3 und dem Buch 51 im realen Trainingsbild 5.
Figur 3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Bildklassifikators 9. In Schritt 210 wird ein Generator 1 mit dem zuvor beschriebenen Verfahren 100 trainiert. In Schritt 220 werden mit dem trainierten Generator 1 aus semantischen Karten 2 realistische Bilder 3 erzeugt. Aus den jeweils verwendeten semantischen Karten 2 werden in Schritt 230 semantische Soll-Bedeutungen ermittelt, auf die der Bildklassifikator 9 die realistischen Bilder 3, bzw. Pixel hiervon, jeweils abbilden soll.
Die vom Generator 1 erzeugten realistischen Bilder 3 sowie die zugehörigen Soll- Bedeutungen 4 werden in Schritt 240 zu einem Trainingsdatensatz 9a, der bereits reale Trainingsbilder 5' sowie zugehörige Soll-Bedeutungen 4' enthält, hinzugefügt. Der solchermaßen erweiterte Trainingsdatensatz 9a* wird in Schritt 250 verwendet, um den Bildklassifikator 9 zu trainieren. Figur 4 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des
Verfahrens 300. In Schritt 310 wird ein Bildklassifikator 9 mit dem zuvor beschriebenen Verfahren 200 trainiert. Mit diesem Bildklassifikator 9 werden in Schritt 320 Bilder 5, die mit mindestens einem von einem Fahrzeug 50 mitgeführten Sensor 50a aufgenommen wurden, einer semantischen Bedeutung 4 zugeordnet. Aus dieser vom Bildklassifikator 9 ermittelten semantischen
Bedeutung 4 wird in Schritt 330 ein Ansteuersignal 330a ermittelt. In Schritt 340 wird das Fahrzeug 50 mit diesem Ansteuersignal 330a angesteuert.

Claims

Ansprüche
1. Verfahren (100) zum Trainieren eines Generators (1) für Bilder (3) aus einer semantischen Karte (2, 5a), die jedem Pixel des Bildes (3) eine semantische Bedeutung (4) eines Objekts, zu dem dieses Pixel gehört, zuordnet, mit den Schritten:
• es werden reale Trainingsbilder (5) und zugehörige semantische Trainingskarten (5a), die jedem Pixel des jeweiligen Trainingsbildes (5) eine semantische Bedeutung (4) zuordnen, bereitgestellt (110);
• aus mindestens einer semantischen Trainingskarte (5a) werden mit dem Generator (1) Bilder (3) erzeugt (120);
• zu der gleichen mindestens einen semantischen Trainingskarte (5a) wird mindestens ein reales Trainingsbild (5) ermittelt (130);
• aus mindestens einem vom Generator (1) erzeugten Bild (3) und mindestens einem ermittelten realen Trainingsbild (5) wird ein Mischbild
(6) erzeugt (140), in dem eine erste echte Teilmenge (6a) der Pixel mit jeweils korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) und die verbleibende echte Teilmenge (6b) der Pixel mit jeweils korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt ist;
• die vom Generator (1) erzeugten Bilder (3), das mindestens eine reale Trainingsbild (5) sowie mindestens ein Mischbild (6), die zur gleichen semantischen Trainingskarte (5a) gehören, werden einem Diskriminator
(7) zugeführt (150), der dazu ausgebildet ist, vom Generator (1) erzeugte Bilder (3) von realen Bildern (5) der durch die semantische Trainingskarte (5a) vorgegebenen Szenerie zu unterscheiden;
• Generator- Parameter (la), die das Verhalten des Generators (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass die vom Generator (1) erzeugten Bilder (3) vom Diskriminator (7) als reale Bilder (5) fehlklassifiziert werden;
• Diskriminator-Parameter (7a), die das Verhalten des Diskriminators (7) charakterisieren, werden optimiert (170) mit dem Ziel, die Genauigkeit bei der Unterscheidung zwischen erzeugten Bildern (3) und realen Bildern (5) zu verbessern.
2. Verfahren (100) nach Anspruch 1, wobei zusammenhängende Bereiche (61, 62) von Pixeln des Mischbildes (6), denen die semantische Trainingskarte (5a) die gleiche semantische Bedeutung (4) zuordnet, entweder einheitlich mit korrespondierenden Pixelwerten des vom Generator (1) erzeugten Bildes (3) oder einheitlich mit korrespondierenden Pixelwerten des realen Trainingsbildes (5) belegt werden (141).
3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei die Diskriminator-Parameter (7a) zusätzlich mit dem Ziel optimiert werden, dass das Mischbild (6) in einem Maß als reales Bild (5) klassifiziert wird, das zum zahlenmäßigen Anteil der aus einem realen Trainingsbild (5) in das Mischbild (6) übernommenen Pixel und/oder Objekte korrespondiert (171).
4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei ein PatchGAN-Diskriminator, der die Unterscheidung zwischen erzeugten Bildern (3) und realen Bildern (5) an Teilbereichen der Bilder (3, 5, 6) mit einer vorgegebenen Größe ermittelt und die dabei jeweils erhaltenen Ergebnisse zu einem Gesamtergebnis zusammenführt, als Diskriminator (7) gewählt wird (151).
5. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei ein Diskriminator (7) mit einer Encoder- Struktur, die ein eingegebenes Bild in mehreren sukzessiven Verarbeitungsschichten in eine informationsreduzierte Repräsentation übersetzt, und einer Decoder-Struktur, die diese informationsreduzierte Repräsentation in eine Bewertung jedes Pixels des eingegebenen Bildes als reales oder erzeugtes Pixel weiterübersetzt, gewählt wird (152).
6. Verfahren (100) nach Anspruch 5, wobei ein Diskriminator (7) mit mindestens einer Direktverbindung zwischen einer Verarbeitungsschicht der Encoder- Struktur und einer Verarbeitungsschicht der Decoder- Struktur unter Umgehung der informationsreduzierten Repräsentation gewählt wird (152a). - 17 -
7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei der Diskriminator (7) zusätzlich darauf trainiert wird (172), dass er aus einem Mischbild (6), welches nach einer vorgegebenen Vorschrift aus einem realen Trainingsbild (5) und einem erzeugten Bild (3) ermittelt wurde, eine ortsaufgelöste Ausgabe erzeugt, die möglichst nahe an einer Mischung der für das reale Trainingsbild (5) einerseits und für das erzeugte Bild (3) andererseits erhaltenen Ausgaben nach der gleichen vorgegebenen Vorschrift ist.
8. Verfahren (100) nach Anspruch 7, wobei die ortsaufgelöste Ausgabe eine Ausgabe der letzten Schicht eines neuronalen Netzwerks des Diskriminators (7), aus der die Einteilung des eingegebenen Bildes als real oder erzeugt sowie Wahrscheinlichkeiten für beide Einteilungen hervorgehen, beinhaltet.
9. Verfahren (200) zum Trainieren eines Bildklassifikators (9), der ein eingegebenes Bild, und/oder Pixel dieses eingegebenen Bildes, einer semantischen Bedeutung zuordnet, mit den Schritten:
• ein Generator (1) wird mit dem Verfahren (100) nach einem der Ansprüche 1 bis 8 trainiert (210);
• mit dem trainierten Generator (1) werden aus semantischen Karten (2) Bilder (3) erzeugt (220);
• aus den jeweils verwendeten semantischen Karten (2) werden semantische Soll-Bedeutungen (4) ermittelt (230), auf die der trainierte Bildklassifikator (9) die Bilder (3) jeweils abbilden soll;
• ein Trainingsdatensatz (9a) für den Bildklassifikator (9), der reale Trainingsbilder (5') und zugehörige semantische Soll-Bedeutungen (4') enthält, wird um die erzeugten Bilder (3) und zugehörigen semantischen Soll-Bedeutungen (4) erweitert (240);
• der Bildklassifikator (9) wird mit dem erweiterten Trainingsdatensatz (9a*) trainiert (250).
10. Verfahren (300) mit den Schritten:
• ein Bildklassifikator (9) wird mit dem Verfahren (200) nach Anspruch 9 trainiert (310); - 18 -
• Bilder (5), die mit mindestens einem von einem Fahrzeug (50) mitgeführten Sensor (51) aufgenommen wurden, werden mit dem Bildklassifikator (9) einer semantischen Bedeutung (4) zugeordnet (320);
• aus der vom Bildklassifikator (9) ermittelten semantischen Bedeutung (4) wird ein Ansteuersignal (330a) ermittelt (330);
• das Fahrzeug (50) wird mit dem Ansteuersignal (330a) angesteuert (340).
11. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 10 auszuführen.
12. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 11.
13. Computer, ausgerüstet mit dem Computerprogramm nach Anspruch 11, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 12.
PCT/EP2021/073127 2020-08-24 2021-08-20 Trainingsverfahren für einen generator zur erzeugung realistischer bilder WO2022043204A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/999,000 US20230177809A1 (en) 2020-08-24 2021-08-20 Training method for a generator for generating realistic images
KR1020237010284A KR20230057434A (ko) 2020-08-24 2021-08-20 사실적 이미지들의 생성을 위한 생성기를 위한 트레이닝 방법
JP2023513119A JP7505117B2 (ja) 2020-08-24 2021-08-20 写実的画像を生成する生成器のためのトレーニング方法
CN202180051499.7A CN115989524A (zh) 2020-08-24 2021-08-20 用于产生逼真图像的生成器的训练方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020210710.6 2020-08-24
DE102020210710.6A DE102020210710A1 (de) 2020-08-24 2020-08-24 Trainingsverfahren für einen Generator zur Erzeugung realistischer Bilder

Publications (1)

Publication Number Publication Date
WO2022043204A1 true WO2022043204A1 (de) 2022-03-03

Family

ID=77543527

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/073127 WO2022043204A1 (de) 2020-08-24 2021-08-20 Trainingsverfahren für einen generator zur erzeugung realistischer bilder

Country Status (6)

Country Link
US (1) US20230177809A1 (de)
JP (1) JP7505117B2 (de)
KR (1) KR20230057434A (de)
CN (1) CN115989524A (de)
DE (1) DE102020210710A1 (de)
WO (1) WO2022043204A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240165772A (ko) 2023-05-16 2024-11-25 고려대학교 산학협력단 토큰 유사도 기반의 벡터-양자화 확산 모델을 활용한 고품질 이미지 생성 방법 및 이를 위한 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (de) 2018-03-23 2019-08-14 Robert Bosch Gmbh Erzeugung synthetischer Radarsignale

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) * 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11899748B2 (en) * 2019-09-06 2024-02-13 Volkswagen Aktiengesellschaft System, method, and apparatus for a neural network model for a vehicle

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204494B3 (de) 2018-03-23 2019-08-14 Robert Bosch Gmbh Erzeugung synthetischer Radarsignale

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MICHAL URICAR ET AL: "Yes, we GAN: Applying Adversarial Techniques for Autonomous Driving", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 9 February 2019 (2019-02-09), XP081590898, DOI: 10.2352/ISSN.2470-1173.2019.15.AVM-048 *
SCHONFELD EDGAR ET AL: "A U-Net Based Discriminator for Generative Adversarial Networks", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 13 June 2020 (2020-06-13), pages 8204 - 8213, XP033803473, DOI: 10.1109/CVPR42600.2020.00823 *
XIHUI LIU ET AL: "Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 October 2019 (2019-10-15), XP081575876 *

Also Published As

Publication number Publication date
US20230177809A1 (en) 2023-06-08
JP2023538444A (ja) 2023-09-07
DE102020210710A1 (de) 2022-02-24
KR20230057434A (ko) 2023-04-28
JP7505117B2 (ja) 2024-06-24
CN115989524A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
WO2020193510A1 (de) Training für künstliche neuronale netzwerke mit besserer ausnutzung der lern-datensätze
WO2013152929A1 (de) Lernverfahren zur automatisierten erkennung von verkehrszeichen, verfahren zur bestimmung eines aktualisierten parametersatzes für eine klassifikation von einem verkehrszeichen und verkehrszeichenerkennungssystem
DE102019214200A1 (de) Übersetzung von Trainingsdaten zwischen Beobachtungsmodalitäten
WO2019206792A1 (de) Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne
EP3850536A1 (de) Analyse dynamisscher räumlicher szenarien
DE102020210711A1 (de) Training eines Generators zur Erzeugung realistischer Bilder mit einem semantisch segmentierenden Diskriminator
DE102019208733A1 (de) Verfahren und Generator zum Erzeugen von gestörten Eingangsdaten für ein neuronales Netz
DE102020208008A1 (de) Bildklassifikation und zugehöriges Training für sicherheitsrelevante Klassifikationsaufgaben
WO2022043204A1 (de) Trainingsverfahren für einen generator zur erzeugung realistischer bilder
WO2022043200A1 (de) Erzeugung realistischer bilder aus vorgegebenen semantischen karten
DE102021205447A1 (de) Datenanreicherung für das Trainieren von Bildklassifizierern
DE102018132627A1 (de) Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt
DE102022208083A1 (de) Trainieren eines neuronalen Netzwerks mit Hilfe von Wissensgraphen
DE112022003908T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, servervorrichtung, fahrzeugvorrichtung und informationsverarbeitungsprogramm
WO2021175783A1 (de) Computerimplementiertes verfahren und system zum erzeugen synthetischer sensordaten und trainingsverfahren
EP4033452B1 (de) Domänenunabhängiges training von bildklassifikatoren
EP3895415A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE102021214464B3 (de) Bewertung von Generatoren zur Erzeugung realistischer Bilder
DE102019108722A1 (de) Videoverarbeitung für maschinelles Lernen
DE102019103192A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein digitales, lernfähiges Kamerasystem
DE102021104672A1 (de) Erzeugen von kontrafaktischen Bildern für die Auswertung von Bildklassifikatoren
DE102022208564A1 (de) Auswertung von Messdaten mit angepasster Auflösungssteigerung
DE102021208156A1 (de) Bildklassifikator mit geringerem Erfordernis gelabelter Trainingsdaten
DE102021209805A1 (de) Anomaliekontrolle für technische Systeme anhand der Kompatibilität von Bilddaten zu einer vorgegebenen Verteilung

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21762729

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023513119

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20237010284

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21762729

Country of ref document: EP

Kind code of ref document: A1