[go: up one dir, main page]

WO2019206792A1 - Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne - Google Patents

Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne Download PDF

Info

Publication number
WO2019206792A1
WO2019206792A1 PCT/EP2019/060047 EP2019060047W WO2019206792A1 WO 2019206792 A1 WO2019206792 A1 WO 2019206792A1 EP 2019060047 W EP2019060047 W EP 2019060047W WO 2019206792 A1 WO2019206792 A1 WO 2019206792A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
images
training
image
domain
Prior art date
Application number
PCT/EP2019/060047
Other languages
English (en)
French (fr)
Inventor
Andrej Junginger
Markus Hanselmann
Thilo Strauss
Holger Ulmer
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to EP19721223.6A priority Critical patent/EP3785169A1/de
Publication of WO2019206792A1 publication Critical patent/WO2019206792A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the invention relates to methods for training a neural network for converting an input image of a first domain or in a first display style into an output image of a second domain or in a second display style.
  • Motor vehicles are often equipped with camera systems that capture image information about a vehicle environment, in particular an image of a vehicle environment ahead in the direction of travel. This image information is used to perform driver assistance functions to assist the driver and autonomous driving functions. Examples of such driver assistance functions may include a recognition system for traffic signs or a brake assist, which recognizes, for example, that a pedestrian is in a collision area in front of the motor vehicle or moves into it.
  • driver assistance functions may include a recognition system for traffic signs or a brake assist, which recognizes, for example, that a pedestrian is in a collision area in front of the motor vehicle or moves into it.
  • image data usually contain no meta information, the z. B. image segmentation information, ie, indicate which pixel regions of the image data to a pedestrian, to a surrounding area, to a street area, to a building area and the like. Often, such image information must be manually created, which is a costly and, above all, time-consuming process.
  • a disadvantage of the methods described above is that a so-called cycle consistency must be calculated during training, whereby in training the input image data must be explicitly calculated into the output image data and vice versa, which makes the training very computationally intensive and thus time consuming.
  • a method for training a neural network for converting an input image of a first domain into an output image of a second domain according to claim 1 and a corresponding device according to the independent claim are provided. Further embodiments are specified in the dependent claims.
  • a method of training a first neural network to convert an input image of a first domain to an output image of a second domain wherein the training is performed on first domain input images provided for the training and second domain training images; with the following steps:
  • Training the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined;
  • Training the generator network based on an input image provided for training and a generator error value that depends on a quality of the output image provided by the generator network responsive to the input image and a similarity size between the input image and the output image that indicates a measure of structural similarity.
  • the aim of the above method is to train a neural network so that a given input image is converted into an output image.
  • the input and output images should have different styles, ie the input image data should be available in a first domain and the output image data in a second domain.
  • the styles correspond to display styles, such as a segmentation representation in which, for example, different color areas are assigned to different objects or image areas, a photorealistic image, a comic image, a line drawing, a watercolor sketch, and the like.
  • These images are intended to replace camera images and to be as indistinguishable as possible from them.
  • These images may also optionally be provided with meta information including, for example, segmentation information that associates image areas of the photorealistic image with particular objects or backgrounds.
  • meta information including, for example, segmentation information that associates image areas of the photorealistic image with particular objects or backgrounds.
  • an input image indicating only image areas for particular objects and / or backgrounds such as image areas representing a person, a cyclist, a road area, a development area, a vegetation area, and the like, may be processed by the trained neural network such that corresponding image areas are provided with realistic structures of the corresponding objects.
  • the above method envisages using a GAN network (GAN: Generative Adversarial Network) in which a generator network corresponding to a first neural network is to be trained by means of a discriminator network which corresponds to a second neural network.
  • the generator network then generates output image data in a second domain from provided input image data in a first domain.
  • the discriminator network provides training for the generator network as relevant information Rating label for the output image generated by the generator network.
  • the discriminator network is trained to evaluate whether an image provided at its input is an image in a second domain.
  • the discriminator network is trained at the same time or in alternation with the generator network based on generator-generated output images and training images in a second domain, wherein the training images are assigned a rating label indicating a high degree of allocation to the second domain (ie, indicating that the images in question are the second domain).
  • the discriminator network is supplied with the output images generated by the generator network, together with a rating label indicating a low allocation level to the second domain (ie indicating that the respective second domain images were artificially generated by the generator network).
  • Generator network and discriminator network can be trained alternately, thereby iteratively improving both neural networks and finally learning the generator network to convert a provided input image in the first domain into an output image in the second domain.
  • loss functions or cost functions are used.
  • a generator function that includes two parts is used as the cost function.
  • a first part forces the generated output image to be assigned to the second domain.
  • the output image generated by the generator network is supplied to the discriminator network and the distance to the desired evaluation label (evaluation label for a training image of the second domain) is minimized.
  • the second part ensures that the image contents of the output image generated by the generator network correspond to the original image by minimizing a structural distance of the output image to the input image, i. H. the output image differs from the input image only by the style of presentation (domain) but only slightly by the image content or the scene shown.
  • the structural distance can be determined, for example, by a similarity value, which is a measure of the structural similarity of two images in different domains.
  • a similarity value which is a measure of the structural similarity of two images in different domains.
  • an SSIM index (SSIM: Structural Similarity Index), which indicates the structural similarity between the input image and the output image in a known manner, is suitable for this purpose.
  • the generator network is allowed to train an input image in the first domain or a first rendering style into an output image in a second domain, i. a second style of presentation, to transform.
  • the input images of the first presentation style and the training images of the second presentation style must be specified, wherein a similarity or identity of the representation of the input images and the training images is not necessary, d. H. it is not necessary to provide input images that differ from the training images only by the style of presentation.
  • a neural network (generator network) can be trained by the above method, which automatically and monitored from synthetic input images that show, for example, a traffic situation schematically or stylized, photorealistic output images of the corresponding traffic situation generated.
  • the output images can then be used to develop and / or test driver assistance functions or autonomous driving functions.
  • situations can be created that can not be tested in reality, such as: B. a running on the roadway person to test a brake assist system or to test an evasive behavior of an autonomous driving function.
  • the training method described above can achieve a significantly improved conversion of an input image of a first presentation style into a corresponding output image of a second presentation style, wherein the training method can be implemented in a simple manner and has high reliability and robustness. Also, the above training method results in better results, ie, an improved more precise conversion of the input image of the first presentation style into the output image of the second presentation style, than corresponding conventional methods. Furthermore, the training of the discriminator network and the generator network can be performed simultaneously or alternately repeatedly, in particular using a backpropagation method, until an abort condition is met.
  • the termination condition is fulfilled if a number of passes or a predetermined quality of the output images generated by the generator network is reached.
  • the quality of the one or more training images and / or the one or more output images may each be determined by the discriminator network and may correspond to a rating of the extent to which the image in question is an image of the second domain.
  • the discriminator error value may be a function of a deviation measure for the deviation between the respective quality of the one or more training images and a rating label indicating a training image as a real image of the second domain, and depending on a deviation measure for the deviation between the respective quality of the respective one output image or the respective plurality of output images and a rating label which indicates an output image generated by the generator network as a false image of the second domain, the deviation measure corresponding in particular to a mean squared error or a binary cross entropy.
  • the similarity quantity depends on or corresponds to an SSIM index for a structural similarity between one of the input images and an output image generated by the generator network from the relevant input image.
  • the first and / or the second neural network can be configured as a convolutional neural network (folding neural network), wherein in particular the first and / or the second neural network is a series connection of some convolutional layer blocks (Convolution blocks), some ResNet blocks, and some Deconvolutional blocks, each of which blocks may contain as an activation function a ReLU, leaky-ReLU, tanh, or sigmoid function.
  • Convolution blocks convolutional layer blocks
  • ResNet blocks some Deconvolutional blocks, each of which blocks may contain as an activation function a ReLU, leaky-ReLU, tanh, or sigmoid function.
  • the generator error value may depend on a deviation measure for the deviation between the respective quality of the output image provided by the generator network as a function of the input image and a rating label from the discriminator network indicating a second domain image, wherein the deviation measure is in particular a mean squared error or corresponds to a binary cross entropy.
  • the training of the discriminator network and / or the generator network can only be performed if a condition dependent on the current discriminator error value and / or on the generator error value is satisfied.
  • a method for providing a control for a technical system in particular for a robot, a vehicle, a tool or a factory machine, wherein the above method is carried out for training a first neural network, wherein the trained first neural network uses is going to workout images, ie Output images of the second domain, with which the controller, which in particular contains a neural network, is trained.
  • the technical system can be operated using the controller.
  • a use of a first neural network trained in accordance with the above method is for generating photorealistic seed images in a second domain dependent on predetermined input images in a first domain, which are created in particular via a script-based description
  • a GAN network is for training a first neural network to convert an input image of a first domain to an output image of a second domain, wherein the training is performed on first domain input images provided for training and second domain training images
  • the GAN network comprises a generator network comprising the first neural network and a discriminator network comprising a second neural network, the GAN network being adapted to
  • the discriminator network based on a discriminator error value and one or more training images and / or one or more output images generated by processing one or more of the input images by the generator network, the discriminator error value being dependent on a respective quality of the one or more training images and / or the one or more output images is determined;
  • Figures 1 a and 1 b exemplary representations of an image of a first
  • Figure 2 is a block diagram illustrating a system for training a GAN network to translate an input image of a first presentation style and an output image of a second presentation style; and FIG. 3 shows a flow chart for illustrating a method for training a neural network for converting an input image into an output image of a different presentation style.
  • a neural network is to be trained which is able to convert an input image into an output image.
  • the goal is that the input image in a first domain, i. H. in a first display style, and in an output image corresponding to the input image in a second domain, i. H. in a second of the first different style of presentation.
  • Presentation style herein refers to a representation of information contained in the corresponding image.
  • a segmentation image indicating segmentation of object and background areas of a photorealistic image, or other artificially generated (synthetic) image, such as a photorealistic image may be used.
  • a sketch as an input image represent a template from which a photorealistic image is generated as an output image, so that the input image and the output image correspond to different presentation styles.
  • Figures 1 a and 1 b show exemplary representations of a synthetic image or a photorealistic image corresponding to the synthetic image in sketch form and as realistic representations.
  • a possible application of such a trained neural network could be to convert a given input image in the form of a segmentation image, in which only segmentation ranges are given, into an artificially generated photorealistic output image.
  • Figure 1 as a real image and as a sketch image, for example, a Segment michstruck ( Figure 1 a) in which only areas are marked, for example, display areas for a carriageway area, a development area, a vegetation area of foreign vehicles, pedestrians, of Cyclists or other objects, in a corresponding photorealistic Image ( Figure 1 b) are converted.
  • Such a photorealistic image may then be used in a test or development environment for testing and / or creating driver assistance functions or autonomous driving functions.
  • FIG. 2 essentially shows a basic structure of a GAN network 1 with a generator network 2 comprising a first neural network and a discriminator network 3 comprising a second neural network.
  • the first and / or second neural network may in particular be designed as convolutional neural networks or other types of neural networks.
  • the first neural network of the generator network 2 Various architectures known per se are conceivable for the first neural network of the generator network 2.
  • a series connection of a few convolutional layer blocks (folding blocks), some ResNet blocks and a few deconvolutional blocks can be selected.
  • Each of these blocks may optionally include a batch or other type of normalization.
  • Each of the blocks may further contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
  • each of these blocks may contain a batch or other type of normalization.
  • each of the blocks may contain none, one or more activation functions, such as a ReLU, leaky-ReLU, tanh or sigmoid function.
  • the generator network 2 is designed to generate an output image A of a second presentation style based on an input image E of a first presentation style.
  • the input image E can be an image with one or more Be color channels, in particular three color channels, and the output image A a tensor same or different format. Alternatively, a random tensor may be added to the input image E to cause the output image A to have higher variability.
  • the generator network 2 is trained based on a provided generator error value GF, in particular using a backpropagation method.
  • the generator error value GF is generated in an evaluation block 4, on the one hand, the structural similarity S or dissimilarity of the input image E and of the generator network 2 based on a predetermined input image E generated output image A (image similarity (similarity of the image content or the scene) regardless of Domain or the presentation style) and on the other hand, the quality C of the output image A indicates.
  • the quality C of the output image A indicates the proximity of the presentation style of the output image A to the style of presentation of predetermined training images T.
  • the quality C of the output image A is determined by means of the discriminator network 3, to which the output image A produced is provided as input.
  • the quality C By taking into account the quality C during training of the generator network 3, it is achieved that the generated output image A assumes the second style of presentation.
  • the structural similarity S between the input image E and the output image A it is achieved that the images have the same image content.
  • the discriminator network 3 can be supplied with training images T, which are images of the second representation style and which are each provided with a rating label BT, which confirms the second presentation style of the training images.
  • the training images T may be provided with a rating label BT of 1, indicating that the training images T correspond to the second style of presentation.
  • the discriminator network 3 can also be provided with the output images A generated by the generator network 2, which are provided with a rating label B A of 0, indicating that the presentation style of these images is of the second style significantly different.
  • the Discriminator network 3 z. B. be trained using the Backpropagation method or other training method to determine the quality of C provided by the generator network 2 output images A.
  • the discriminator network 3 When training the discriminator network 3, this can with the help of a discriminator error DFK, such. As a mean squared error, binary cross entropy or other appropriate cost functions are trained. As a result, by influencing the generator error value, the discriminator network 3 obtains the capability that the generator network 2 generates not only output images A corresponding to the second display style, but simultaneously the output images A have the same image content as the input image E of the first presentation style supplied to the generator network 2.
  • a discriminator error DFK such.
  • a mean squared error binary cross entropy or other appropriate cost functions are trained.
  • the discriminator network 3 obtains the capability that the generator network 2 generates not only output images A corresponding to the second display style, but simultaneously the output images A have the same image content as the input image E of the first presentation style supplied to the generator network 2.
  • generator network 2 is trained with the generator error value GF by means of a backpropagation method or another training method, the generator error value GF being determined by the structural similarity between the input image E and the output image A generated by the generator network 2 and by the quality determined by the discriminator network 3 C of the generated by the generator network 2 output image A is determined.
  • a tensor B x is provided. This can be multidimensional or correspond to a real number.
  • the tensor B x corresponds to the evaluation label and can indicate 1 for the training images and 0 for the images generated by the generator network.
  • the rating labels thus correspond to Bi for a training image T and Bo for an output image A generated by the generator network.
  • the dimension of the evaluation label B is essentially freely selectable and depends on the selected network architecture.
  • the evaluation label B can also be provided with a different standardization, and in particular so-called soft evaluation labels B can be used, ie instead of the values 1 and 0 correspondingly slightly noisy values can be assumed, whereby the stability of the training can be improved depending on the application ,
  • the map of the discriminator network 3 corresponds to D 9d , where 0 D are the discriminator parameters (weights) of the neural network of the discriminator network to be optimized.
  • the mapping performed by the generator network 2 corresponds to Gg G, where 0 G are the generator parameters (weights) of the neural network of the generator network 2 to be optimized.
  • the discriminator error function for training the discriminator network 2 serves to determine the discriminator error value DF used in the parameter optimization training of the discriminator parameter 0D.
  • the loss function has several addend IDs.
  • the discriminator error function DFK used for this training of the discriminator network 3 must realize a deviation measure l D as far as C (T), C (A) and the corresponding evaluation label B A , B T differ from each other.
  • l D the deviation measure l D
  • MSE mean squared error
  • BCE binary cross entropy
  • a generator error function is used to generate a generator error value consisting of two parts, a first part corresponding to a deviation amount l G between the quality C of the output image A T based on an input image E T applied for training and a rating label B indicating complete achievement of the second display style, in particular a rating label BT, which is given training images T for the training of the discriminator network 3, preferably a rating label of 1.
  • MSE Mean Squared Error
  • BCE binary Cross Entropy
  • the second part of the generator error function corresponds to a similarity quantity S, which is determined in a similarity block 6 by means of a similarity evaluation function.
  • the similarity evaluation function calculates a measure of a structural similarity of the two images based on the input image ET of the first presentation style and the output image AT of the second presentation style respectively generated by the generator network 2.
  • a function may be provided as a similarity evaluation function which, with a high structural similarity, assumes a value close to 1 and with no structural similarity near -1.
  • Suitable as a similarity evaluation function is, for example, to select a so-called SSIM function which indicates an index of structural similarity or a MSSIM based thereon, such as Zhou Wang et al., Image Quality Assessment: From Error Visibility to Structural Similarity, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004, pages 600-612.
  • the training method for the first neural network of the generator network 2 is descriptive described, so that the trained generator network 2 can be used to change a display style of an input image E.
  • an initial parameterization of the first neural network with the Generator parameters 0G and the second neural network with the discriminator 0D is descriptive described, so that the trained generator network 2 can be used to change a display style of an input image E.
  • step S2 With the aid of the discriminator network 3, a quality is achieved in step S2
  • step S3 the similarity quantity S between the input image ET provided for training and the corresponding output image AT is calculated:
  • a generator error value GF for the generated output image A T is determined using the generator error function GFF in step S4.
  • a learning step for the first neural network of the generator network 2 is performed in step S5, in particular based on a backpropagation method.
  • the generator parameters 0 G are updated based on the partial derivatives dGF / d0 G.
  • steps S1 to S5 of the training of the generator network 2 can be repeated with the same or with another input image ET provided for training.
  • step S8 one or more last-generated output images Ai . m corresponding to a quality C (Ai ..m) is determined and from it in step S9, the dimensions or the deviation Z ß (Ai .. m) determined: D l (71) MSE ⁇ Dg 04), B a) and l D (71) BCE ⁇ Dg (71), B A )
  • a discriminator error value DF is determined, for example, according to the following formula:
  • a learning step for the second neural network of the discriminator network 3 may be performed in step S1 1.
  • Characterized the Diskriminatorparameter be updated 0 D in a back propagation method by using the corresponding partial derivatives dDF / dQ D.
  • the backpropagation method can also be carried out only based on a training image T and / or an output image A.
  • the discriminator network 3 not only generated images in the second display style but also other training images in the first presentation style of 0 (or near 0) may be used. This makes it easier for the discriminator, if necessary, to better learn the differences between the two domains.
  • step S12 an abort condition is checked. If the termination condition is not fulfilled (alternative: no), the method is continued with step S1, otherwise (alternative: yes) the method is continued with step S13.
  • An abort condition can be, for example, the achievement of a number of passes or the achievement of a predetermined discriminator error value DF and / or generator error value GF, or the achievement of a predetermined quality C (A) of the output images A generated by the generator network 2.
  • the step S13 now represents the generator network 2 as a system for converting an input image E of a first presentation style or a first domain into an output image A of a second presentation style or a second domain.
  • the discriminator parameters 0D and generator parameters 0G are only updated under certain conditions, e.g. B. depending on the current discriminator error value DF for training the discriminator network 3 and the generator error value GF for training the generator network 2.
  • the size of the batches for the training of the discriminator network 3 or the generator network 2 can be varied.
  • an input image deviation measure which adds a deviation of the quality C of the input image from a rating label B A for a fake image, ie an output image A generated by the generator network can still be additively added. This can increase the stability of the training.
  • the trained generator network 2 can then be used to select from input images E created via a script-based description, e.g. B. Traffic situations show input images E to produce a first presentation style. If the generator network 2 has been trained based on images of the first representation style and photorealistic images of traffic situations, the artificially generated input images E can be assigned photorealistic images that represent a corresponding traffic situation. As a result, the generator network 2 can be used to create any number of photorealistic images that represent desired traffic situations.
  • the generator network 2 can also be trained in a reverse manner to convert photorealistic images into synthetic images, for example to remove reflections or the like from the photorealistic images, for example when a classifier can better classify synthetic images than photorealistic images.
  • the above system may also be trained to create segmented images from photorealistic images, in which case the photorealistic images correspond to the first style of presentation and the segmented images to the images of the second style of presentation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes (E) einer ersten Domäne in ein Ausgangsbild (A) einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern (E) der ersten Domäne und Trainingsbildern (T) der zweiten Domäne durchgeführt wird; mit folgenden Schritten: - Bereitstellen eines GAN-Netzwerks mit einem Generatornetzwerk (2), das das erste neuronale Netz umfasst, und einem Diskriminatornetzwerk (3), das ein zweites neuronales Netz umfasst; - Trainieren des Diskriminatornetzwerks (3) basierend auf einem Diskriminatorfehlerwert (DF) und einem oder mehreren Trainingsbildern (T) und/oder einem oder mehreren Ausgangsbildern (A), die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk (2) erzeugt werden, wobei der Diskriminatorfehlerwert (DF) abhängig von einer jeweiligen Güte (C) des einen oder der mehreren Trainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird; - Trainieren des Generatornetzwerks (2) basierend auf einem für das Training bereitgestellten Eingangsbild (E) und einem Generatorfehlerwert (GF), der von einer Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einer Ähnlichkeitsgröße (S) zwischen dem Eingangsbild (E) und dem Ausgangsbild (A) abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.

Description

Beschreibung
Titel
Verfahren und Vorrichtung zur Umsetzung eines Einqanqsbildes einer ersten
Domäne in ein Ausgangsbild einer zweiten Domäne
Technisches Gebiet
Die Erfindung betrifft Verfahren zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes einer ersten Domäne bzw. in einem ersten Darstellungsstil in ein Ausgangsbild einer zweiten Domäne bzw. in einem zweiten Darstellungsstil.
Technischer Hintergrund
Kraftfahrzeuge sind häufig mit Kamerasystemen ausgestattet, die eine Bildinformation über eine Fahrzeugumgebung, insbesondere ein Bild einer in Fahrtrichtung vorausliegenden Fahrzeugumgebung, erfassen. Diese Bildinformation wird zur Durchführung von Fahrerassistenzfunktionen zur Unterstützung des Fahrers und von autonomen Fahrfunktionen verwendet. Beispiele für solche Fahrerassistenzfunktionen können ein Erkennungssystem für Verkehrsschilder oder einen Bremsassistenten umfassen, der beispielsweise erkennt, dass sich ein Fußgänger in einem Kollisionsbereich vor dem Kraftfahrzeug befindet oder sich in diesen hineinbewegt.
Ein Problem bei der Entwicklung derartigen Funktionen besteht darin, dass nur unzureichend Bilddaten vorhanden sind, an denen diese Funktionen getestet bzw. trainiert werden können. Insbesondere ist es mühsam, Bilddaten für kritische Situationen zur Verfügung zu stellen. Weiterhin beinhalten bereitgestellte Bilddaten in der Regel keine Metainformationen, die z. B. Bildsegmentierungsinformation aufweisen, d. h. die angeben, welche Pixelregionen der Bilddaten zu einem Fußgänger, zu einem Umgebungsbereich, zu einem Straßenbereich, zu einem Gebäudebereich und dergleichen gehören. Oftmals müssen derartige Bildinformationen manuell erstellt werden, was ein kostspieliger und vor allem zeitaufwendiger Prozess ist.
Bekannte Ansätze, Bilddaten für mögliche Verkehrssituationen als künstliches Kamerabild künstlich zu erzeugen, bestehen darin, gewünschte Verkehrssituationen per Skript, d. h. mit einer Formalsprache zu beschreiben und mit einer Graphik-Engine zu visualisieren. Die so ermittelten Bilder bzw. Bilddaten stellen die Verkehrssituationen jedoch künstlich und nicht photorealistisch dar, was für das Entwickeln und Testen von Fahrerassistenzfunktionen und autonomen Fahrfunktionen unter realistischen Bedingungen ungeeignet ist.
Weitere Verfahren sind aus dem Stand der Technik bekannt, die einen Stiltransfer von einem Eingangsbild zu einem Ausgangsbild vorschlagen. Während einfache Ansätze zum Training eines solchen Systems einander zugeordnete Bilddaten des Eingangsbilds und des Ausgangsbilds verwenden, die beide denselben Bildinhalt aufzeigen und nur im Stil (mit ihrer Domäne) voneinander abweichen, können fortgeschrittene Verfahren Eingangs- und Ausgangsbilddaten der entsprechenden Stile verwenden, die keinen Bezug zueinander aufweisen müssen.
Ein Nachteil der oben beschriebenen Verfahren besteht darin, dass während des Trainings eine sogenannte Cycle Consistency berechnet werden muss, wodurch im Training explizit die Eingangsbilddaten in die Ausgangsbilddaten und umgekehrt berechnet werden müssen, was das Training sehr rechenintensiv und damit zeitaufwendig macht.
Offenbarung der Erfindung
Erfindungsgemäß sind ein Verfahren zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne gemäß Anspruch 1 sowie eine entsprechende Vorrichtung gemäß dem nebengeordneten Anspruch vorgesehen. Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.
Gemäß einem ersten Aspekt ist ein Verfahren zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne vorgesehen, wobei das Training auf für das Training bereitgestellten Eingangsbildern der ersten Domäne und Trainingsbildern der zweiten Domäne durch geführt wird; mit folgenden Schritten:
Bereitstellen eines GAN-Netzwerks mit einem Generatornetzwerk, das das erste neuronale Netz umfasst, und einem Diskriminatornetzwerk, das ein zweites neuronales Netz umfasst;
Trainieren des Diskriminatornetzwerks basierend auf einem Diskriminatorfehlerwert und einem oder mehreren Trainingsbildern und/oder einem oder mehreren Ausgangsbildern, die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk erzeugt werden, wobei der Diskriminatorfehlerwert abhängig von einer jeweiligen Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird;
Trainieren des Generatornetzwerks basierend auf einem für das Training bereitgestellten Eingangsbild und einem Generatorfehlerwert, der von einer Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einer Ähnlichkeitsgröße zwischen dem Eingangsbild und dem Ausgangsbild abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.
Ziel des obigen Verfahrens ist es, ein neuronales Netz so zu trainieren, dass ein vorgegebenes Eingangsbild in ein Ausgangsbild umgewandelt wird. Dabei sollen Eingangs- und Ausgangsbild unterschiedliche Stile aufweisen, d. h. die Eingangsbilddaten sollen in einer ersten Domäne und die Ausgangsbilddaten in einer zweiten Domäne zur Verfügung stehen. Die Stile entsprechen Darstellungsstilen, wie z.B. eine Segmentierungsdarstellung, in der z.B. farblich unterschiedliche Bereiche unterschiedlichen Objekten oder Bildbereichen zugeordnet sind, ein photorealistisches Bild, ein Comic-Bild, eine Strichzeichnung, eine Aquarell-Skizze und dergleichen. Zum Erstellen und Testen von Fahrerassistenzfunktionen und/oder autonomen Fahrfunktionen für ein Kraftfahrzeug, die auf einer Auswertung von Kamerabildern der aktuellen Fahrzeugumgebung basieren, ist es notwendig, eine ausreichende Anzahl von photorealistischen Bildern der Fahrzeugumgebung bereitzustellen. Diese Bilder sollen Kamerabilder ersetzen und von solchen möglichst nicht unterscheidbar sein. Diese Bilder können zudem optional mit einer Metainformation zur Verfügung gestellt werden, die beispielsweise eine Segmentierungsinformation umfassen, die Bildbereiche des photorealistischen Bildes bestimmten Objekten oder Hintergründen zuordnet. Somit ist eine wichtige Anwendung für ein so trainiertes neuronales Netz die Umwandlung eines z. B. durch eine Skriptsprache oder als Handskizze beschriebenen Eingangsbilds in ein künstlich erzeugtes photorealistisches Ausgangsbild, das dem Eingangsbild inhaltlich bzw. szenarisch entspricht, jedoch in der Darstellungsweise, dem Darstellungsstil, von diesem abweicht.
Im Folgenden wird von einer Umwandlung eines Eingangsbilds eines ersten Stiles in ein Ausgangsbild eines zweiten Stiles bzw. eines Eingangsbilds in einer ersten Domäne in ein Ausgangsbild in einer zweiten Domäne gesprochen, um diesen Generierungsprozess zu beschreiben. Beispielsweise kann ein Eingangsbild, das lediglich Bildbereiche für bestimmte Objekte und/oder Hintergründe angibt, wie beispielsweise Bildbereiche zur Darstellung einer Person, eines Fahrradfahrers, eines Straßenbereichs, eines Bebauungsbereichs, eines Vegetationsbereichs und dergleichen, so durch das trainierte neuronale Netz verarbeitet werden, dass die entsprechenden Bildbereiche mit realistischen Strukturen der entsprechenden Objekte versehen werden.
Dazu sieht das obige Verfahren vor, ein GAN-Netzwerk zu verwenden (GAN: Generative Adversarial Network), bei dem ein Generatornetzwerk, das einem ersten neuronalen Netz entspricht, mithilfe eines Diskriminatornetzwerks, das einem zweiten neuronalen Netz entspricht, trainiert werden soll. Das Generatornetzwerk erzeugt dann aus bereitgestellten Eingangsbilddaten in einer ersten Domäne Ausgangsbilddaten in einer zweiten Domäne.
Bei einem GAN-Netzwerk wird die Güte des Trainings des Generatornetzwerks mithilfe des Diskriminatornetzwerks verbessert. Das Diskriminatornetzwerk liefert für das Training des Generatornetzwerks als relevante Information ein Bewertungslabel für das vom Generatornetzwerk generierte Ausgangsbild. Zum Bereitstellen des Bewertungslabels wird das Diskriminatornetzwerk so trainiert, dass dieses bewerten kann, ob ein an dessen Eingang bereitgestelltes Bild ein Bild in einer zweiten Domäne ist. Das Diskriminatornetzwerk wird zeitgleich oder im Wechsel mit dem Generatornetzwerk basierend auf vom Generatornetzwerk generierten Ausgangsbildern und Trainingsbildern in einer zweiten Domäne trainiert, wobei den Trainingsbildern ein Bewertungslabel zu geordnet wird, das ein hohes Zuordnungsmaß zur zweiten Domäne angibt (d. h. angibt, dass die betreffenden Bilder der zweiten Domäne zuzuordnen sind). Zudem werden dem Diskriminatornetzwerk die Ausgangsbilder zugeführt, die vom Generatornetzwerk erstellt wurden, zusammen mit einem Bewertungslabel, das ein niedriges Zuordnungsmaß zur zweiten Domäne angibt (d. h. angibt, dass die betreffenden Bilder der zweiten Domäne künstlich durch das Generatornetzwerk erzeugt wurden).
Generatornetzwerk und Diskriminatornetzwerk können wechselweise trainiert werden, wodurch iterativ beide neuronale Netze verbessert werden und das Generatornetzwerk letztlich lernt, ein bereitgestelltes Eingangsbild in der ersten Domäne in ein Ausgangsbild in der zweiten Domäne umzuwandeln.
Zum Training des Generatornetzwerks und des Diskriminatornetzwerks werden Verlustfunktionen bzw. Kostenfunktionen verwendet. Zum Training des Generatornetzwerks wird als Kostenfunktion eine Generatorfehlerfunktion verwendet, die zwei Teile umfasst. Ein erster Teil erzwingt, dass das generierte Ausgangsbild der zweiten Domäne zugeordnet wird. Hierfür wird das durch das Generatornetzwerk generierte Ausgangsbild dem Diskriminatornetzwerk zugeführt und der Abstand zum gewünschten Bewertungslabel (Bewertungslabel für ein Trainingsbild der zweiten Domäne) minimiert. Der zweite Teil stellt sicher, dass die Bildinhalte des durch das Generatornetzwerk generierten Ausgangsbildes dem Ursprungsbild entsprechen, indem ein struktureller Abstand des Ausgangsbildes zum Eingangsbild minimiert wird, d. h. das Ausgangsbild unterscheidet sich von dem Eingangsbild lediglich durch den Darstellungsstil (Domäne) aber nur wenig durch den Bildinhalt bzw. die dargestellte Szene.
Der strukturelle Abstand kann beispielsweise durch einen Ähnlichkeitswert bestimmt werden, der ein Maß für die strukturelle Ähnlichkeit von zwei Bildern in unterschiedlichen Domänen ist. Beispielsweise eignet sich hierfür ein SSIM-Index (SSIM: Structural Similarity Index), der die strukturelle Ähnlichkeit zwischen dem Eingangs- und dem Ausgangsbild in bekannter Weise angibt.
Auf diese Weise wird ermöglicht, dass das Generatornetzwerk darauf trainiert wird, ein Eingangsbild in der ersten Domäne bzw. eines ersten Darstellungsstils in ein Ausgangsbild in einer zweiten Domäne, d.h. eines zweiten Darstellungsstils, umzuwandeln. Dazu müssen die Eingangsbilder des ersten Darstellungsstils und die Trainingsbilder des zweiten Darstellungsstils vorgegeben werden, wobei eine Ähnlichkeit oder Identität der Darstellung der Eingangsbilder und der Trainingsbilder nicht notwendig ist, d. h. es ist nicht notwendig, Eingangsbilder bereitzustellen, die sich von den Trainingsbildern nur durch den Darstellungsstil unterscheiden.
Durch das obige Verfahren kann somit ein neuronales Netz (Generatornetzwerk) trainiert werden, das automatisiert und überwacht aus synthetischen Eingangsbildern, die beispielsweise eine Verkehrssituation schematisch bzw. stilisiert zeigen, photorealistische Ausgangsbilder der entsprechenden Verkehrssituation generiert. Die Ausgangsbilder können dann dazu verwendet werden, Fahrerassistenzfunktionen bzw. autonome Fahrfunktionen zu entwickeln und/oder zu testen. Ein Vorteil besteht insbesondere darin, dass Situationen erstellt werden können, die in der Realität nicht getestet werden können, wie z. B. eine auf die Fahrbahn rennende Person zum Testen eines Bremsassistenzsystems bzw. zum Testen eines Ausweichverhaltens einer autonomen Fahrfunktion.
Insgesamt lässt sich durch das oben beschriebene Trainingsverfahren eine deutlich verbesserte Umsetzung eines Eingangsbildes eines ersten Darstellungsstils in ein entsprechendes Ausgangsbild eines zweiten Darstellungsstils erreichen, wobei das Trainingsverfahren in einfacher Weise implementiert werden kann und eine hohe Zuverlässigkeit und Robustheit aufweist. Auch führt das obige Trainingsverfahren zu besseren Resultaten, d. h. eine verbesserte präzisere Umsetzung des Eingangsbildes des ersten Darstellungsstils in das Ausgangsbild des zweiten Darstellungsstils, als entsprechende herkömmliche Verfahren. Weiterhin kann das Trainieren des Diskriminatornetzwerks und des Generatornetzwerks gleichzeitig oder wechselweise wiederholt durchgeführt werden, insbesondere mithilfe eines Backpropagation-Verfahrens, bis eine Abbruchbedingung erfüllt ist.
Es kann vorgesehen sein, dass die Abbruchbedingung erfüllt ist, wenn eine Anzahl von Durchgängen oder eine vorbestimmte Güte der vom Generatornetzwerk generierten Ausgangsbilder erreicht ist.
Weiterhin kann die Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder jeweils durch das Diskriminatornetzwerk bestimmt werden und einer Bewertung entsprechen, in welchem Maß es sich bei dem betreffenden Bild um ein Bild der zweiten Domäne handelt.
Insbesondere kann der Diskriminatorfehlerwert abhängig von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des betreffenden einen Trainingsbildes oder der betreffenden mehreren Trainingsbilder und einem Bewertungslabel, das ein Trainingsbild als ein echtes Bild der zweiten Domäne angibt, und abhängig von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des betreffenden einen Ausgangsbildes oder der betreffenden mehreren Ausgangsbilder und einem Bewertungslabel, das ein von dem Generatornetzwerk generiertes Ausgangsbild als unechtes Bild der zweiten Domäne angibt, bestimmt werden, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht.
Es kann vorgesehen sein, dass die Ähnlichkeitsgröße von einem SSIM-Index für eine strukturelle Ähnlichkeit zwischen einem der Eingangsbilder und einem durch das Generatornetzwerk aus dem betreffenden Eingangsbild generierten Ausgangsbild abhängt oder diesem entspricht.
Weiterhin kann das erste und/oder das zweite neuronale Netz als Convolutional Neural Network) (faltendes neuronales Netz) ausgebildet sein, wobei insbesondere das erste und/oder das zweite neuronale Netz eine Hintereinanderschaltung von einigen Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken aufweisen, wobei jeder der Blöcke als eine Aktivierungsfunktion eine ReLU-, leaky- ReLU-, tanh- oder Sigmoid-Funktion enthalten kann.
Weiterhin kann der Generatorfehlerwert von einem Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einem Bewertungslabel aus dem Diskriminatornetzwerk, das ein Bild der zweiten Domäne angibt, abhängen, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht.
Gemäß einer Ausführungsform kann das Training des Diskriminatornetzwerks und/oder des Generatornetzwerks nur dann durchgeführt werden, wenn eine von dem aktuellen Diskriminatorfehlerwert und/oder von dem Generatorfehlerwert abhängige Bedingung erfüllt ist.
Weiterhin kann ein Verfahren zum Bereitstellen einer Steuerung für ein technisches System, insbesondere für einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine, vorgesehen sein, wobei das obige Verfahren zum Trainieren eines ersten neuronalen Netzes ausgeführt wird, wobei das trainierte erste neuronale Netz verwendet wird, um Trainingsbilder, d.h. Ausgangsbilder der zweiten Domäne, zu erzeugen, mit denen die Steuerung, die insbesondere ein neuronales Netz enthält, trainiert wird. Insbesondere kann das technische System mithilfe der Steuerung betrieben werden.
Gemäß einem weiteren Aspekt ist eine Verwendung eines ersten neuronalen Netzes, das entsprechend dem obigen Verfahren trainiert ist, zum Generieren von photorealistischen Ausgangsbildern in einer zweiten Domäne abhängig von vorgegebenen Eingangsbildern in einer ersten Domäne, die insbesondere über eine Skript-basierte Beschreibung erstellt werden
Weiterhin können die erzeugten photorealistischen Ausgangsbilder als künstliche Kamerabilder zum Herstellen eines Klassifikators für Umgebungssituationen verwendet werden. Gemäß einem weiteren Aspekt ist ein GAN-Netzwerk zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern der ersten Domäne und Trainingsbildern der zweiten Domäne durchgeführt wird, wobei das GAN-Netzwerk ein Generatornetzwerk, das das erste neuronale Netz umfasst, und ein Diskriminatornetzwerk aufweist, das ein zweites neuronales Netz umfasst, wobei das GAN-Netzwerk ausgebildet ist, um
das Diskriminatornetzwerk basierend auf einem Diskriminatorfehlerwert und einem oder mehreren Trainingsbildern und/oder einem oder mehreren Ausgangsbildern, die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk erzeugt werden, zu trainieren, wobei der Diskriminatorfehlerwert abhängig von einer jeweiligen Güte des einen oder der mehreren Trainingsbilder und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird; und
das Generatornetzwerk basierend auf einem für das T raining bereitgestellten Eingangsbild und einem Generatorfehlerwert zu trainieren, der von einer Güte des von dem Generatornetzwerk abhängig von dem Eingangsbild bereitgestellten Ausgangsbilds und einer Ähnlichkeitsgröße zwischen dem Eingangsbild und dem Ausgangsbild abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.
Kurzbeschreibung der Zeichnungen
Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:
Figuren 1 a und 1 b beispielhafte Darstellungen eines Bildes eines ersten
Darstellungsstils und eines zugeordneten Bildes eines zweiten Darstellungsstils;
Figur 2 ein Blockdiagramm zur Veranschaulichung eines Systems zum Trainieren eines GAN-Netzes zur Umsetzung eines Eingangsbildes eines ersten Darstellungsstils und eines Ausgangsbildes eines zweiten Darstellungsstils; und Figur 3 ein Flussdiagramm zur Veranschaulichung eines Verfahrens zum Trainieren eines neuronalen Netzes zur Umsetzung eines Eingangsbildes in ein Ausgangsbild eines davon verschiedenen Darstellungsstils.
Beschreibung von Ausführungsformen
Es soll ein neuronales Netz trainiert werden, das in der Lage ist, ein Eingangsbild in ein Ausgangsbild umzuwandeln. Ziel ist es, dass das Eingangsbild in einer ersten Domäne, d. h. in einem ersten Darstellungsstil, bereitgestellt wird und in ein dem Eingangsbild entsprechendes Ausgangsbild in einer zweiten Domäne, d. h. in einem zweiten von dem ersten verschiedenen Darstellungsstil, bereitgestellt wird. "Darstellungsstil" bezeichnet hierin eine Darstellungsweise einer in dem entsprechenden Bild enthaltenen Information.
So können beispielsweise ein Segmentierungsbild, das eine Segmentierung von Objekt- und Hintergrundbereichen eines photorealistischen Bilds angibt, oder ein sonstiges künstlich erzeugtes (synthetisches Bild), wie z.B. eine Skizze, als Eingangsbild eine Vorlage darstellen, aus der ein photorealistisches Bild als Ausgangsbild generiert wird, so dass das Eingangsbild und das Ausgangsbild unterschiedlichen Darstellungsstilen entsprechen. Figuren 1 a und 1 b zeigen beispielhafte Darstellungen eines synthetischen Bildes bzw. eines dem synthetischen Bild entsprechenden photorealistischen Bildes in Skizzenform und als realistische Darstellungen.
Eine mögliche Anwendung eines so trainierten neuronalen Netzes könnte darin bestehen, ein vorgegebenes Eingangsbild in Form eines Segmentierungsbildes, bei dem lediglich Segmentierungsbereiche vorgegeben sind, in ein künstlich erzeugtes photorealistisches Ausgangsbild umzuwandeln. So kann, wie in Figur 1 als Realbild und als Skizzenbild gezeigt, beispielsweise ein Segmentierungsbild (Figur 1 a), in dem lediglich Flächen gekennzeichnet sind, die beispielsweise Darstellungsbereiche für einen Fahrbahnbereich, einen Bebauungsbereich, einen Vegetationsbereich, von Fremdfahrzeugen, von Fußgängern, von Fahrradfahrern oder von sonstigen Objekten aufweisen, in ein entsprechendes photorealistisches Bild (Figur 1 b) umgewandelt werden. Ein solches photorealistisches Bild kann dann in einer Test- oder Entwicklungsumgebung zum Testen und/oder Erstellen von Fahrerassistenzfunktionen oder autonomen Fahrfunktionen verwendet werden.
Zum Trainieren eines neuronalen Netzes kann ein System verwendet werden, das strukturell dem Blockschaltbild der Figur 2 entspricht. Figur 2 zeigt im Wesentlichen eine Grundstruktur eines GAN-Netzwerks 1 mit einem Generatornetzwerk 2, das ein erstes neuronales Netz umfasst, und einem Diskriminatornetzwerk 3, das ein zweites neuronales Netz umfasst. Das erste und/oder zweite neuronale Netz können insbesondere als faltende neuronale Netze (convolutional neural networks) oder andere Arten von neuronalen Netzen ausgebildet sein.
Für das erste neuronale Netz des Generatornetzwerks 2 sind verschiedene an sich bekannte Architekturen denkbar. Insbesondere kann eine Hintereinanderschaltung von einigen Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken gewählt werden. Jeder dieser Blöcke kann optional eine Batch- oder andere Art der Normalisierung umfassen. Jeder der Blöcke kann weiterhin keine, eine oder mehrere Aktivierungsfunktionen enthalten, wie beispielsweise eine ReLU-, leaky- ReLU-, tanh- oder Sigmoid-Funktion.
Für das zweite neuronale Netz des Diskriminatornetzwerks 3 können ebenfalls verschiedene an sich bekannte Netzwerkarchitekturen vorgesehen werden. Als Netzwerkarchitektur können eine Hintereinanderschaltung von Blöcken, wie mehreren Convolutional Layer-Blöcken (Faltungsblöcken), einigen ResNet- Blöcken und einigen Deconvolutional-Blöcken verwendet werden. Jeder dieser Blöcke kann ein Batch- oder eine andere Art der Normalisierung enthalten. Weiterhin kann jeder der Blöcke keine, eine oder mehrere Aktivierungsfunktionen enthalten, wie beispielsweise eine ReLU-, leaky-ReLU-, tanh- oder Sigmoid- Funktion.
Das Generatornetzwerk 2 ist ausgebildet, um basierend auf einem Eingangsbild E eines ersten Darstellungsstils ein Ausgangsbild A eines zweiten Darstellungsstils zu erzeugen. Das Eingangsbild E kann ein Bild mit einem oder mehreren Farbkanälen, insbesondere drei Farbkanälen, sein und das Ausgangsbild A ein Tensor desselben oder abweichenden Formats. Alternativ kann dem Eingangsbild E ein Zufallstensor hinzugefügt werden, der dafür sorgt, dass das Ausgangsbild A eine höhere Variabilität aufweist.
Das Generatornetzwerk 2 wird basierend auf einem bereitgestellten Generatorfehlerwert GF trainiert, insbesondere mithilfe eines Backpropagation- Verfahrens. Der Generatorfehlerwert GF wird in einem Bewertungsblock 4 erzeugt, der einerseits die strukturelle Ähnlichkeit S bzw. Unähnlichkeit des Eingangsbilds E und des von dem Generatornetzwerk 2 basierend auf einem vorgegebenen Eingangsbild E generierten Ausgangsbilds A (Bildähnlichkeit (Ähnlichkeit des Bildinhalts bzw. der Szene) ungeachtet der Domäne bzw. des Darstellungsstils) und andererseits die Güte C des Ausgangsbildes A angibt. Die Güte C des Ausgangsbildes A gibt die Nähe des Darstellungsstils des Ausgangsbildes A zu dem Darstellungsstil von vorgegebenen Trainingsbildern T an.
Die Güte C des Ausgangsbildes A wird mithilfe des Diskriminatornetzwerks 3 bestimmt, dem als Eingang das erstellte Ausgangsbild A bereitgestellt wird. Durch Berücksichtigung der Güte C beim Training des Generatornetzwerks 3 wird erreicht, dass das generierte Ausgangsbild A den zweiten Darstellungsstil annimmt. Zusätzlich wird durch Berücksichtigung der strukturellen Ähnlichkeit S zwischen Eingangsbild E und Ausgangsbild A erreicht, dass die Bilder denselben Bildinhalt haben.
Zum Training können dem Diskriminatornetzwerk 3 Trainingsbilder T zugeführt werden, die Bilder des zweiten Darstellungsstils sind und die jeweils mit einem Bewertungslabel BT versehen sind, das den zweiten Darstellungsstil der Trainingsbilder bestätigt. Beispielsweise können die Trainingsbilder T mit einem Bewertungslabel BT von 1 versehen werden, was angibt, dass die Trainingsbilder T dem zweiten Darstellungsstil entsprechen. Um die Diskriminierungsfähigkeit des Diskriminatornetzwerks 3 zu verbessern, können zum Training dem Diskriminatornetzwerk 3 auch die durch das Generatornetzwerk 2 erzeugten Ausgangsbilder A bereitgestellt, die mit einem Bewertungslabel BA von 0 versehen sind, was angibt, dass der Darstellungsstil dieser Bilder sich von dem zweiten Darstellungsstil erheblich unterscheidet. Durch Bereitstellen der Trainingsbilder T und der Ausgangsbilder mit den zugehörigen Bewertungslabels BT, BA kann das Diskriminatornetzwerk 3 z. B. mithilfe des Backpropagation-Verfahrens oder eines sonstigen Trainingsverfahrens trainiert werden, die Güte C von durch das Generatornetzwerk 2 bereitgestellten Ausgangsbildern A zu bestimmen.
Beim Training des Diskriminatornetzwerks 3 kann dieses mithilfe einer Diskriminatorfehlerfunktion DFK, wie z. B. einer Mean Squared Error, binären Cross Entropy oder anderer geeigneter Kostenfunktionen trainiert werden. Dadurch erhält das Diskriminatornetzwerk 3 durch Beeinflussung des Generatorfehlerwerts die Fähigkeit, dass das Generatornetzwerk 2 nicht nur Ausgangsbilder A erzeugt, die dem zweiten Darstellungsstil entsprechen, sondern dass gleichzeitig die Ausgangsbilder A denselben Bildinhalt haben, wie das dem Generatornetzwerk 2 zugeführte Eingangsbild E des ersten Darstellungsstils.
Durch eine wechselseitige oder gleichzeitige Trainingsphase von Generatornetzwerk 2 und Diskriminatornetzwerk 3 können diese iterativ verbessert werden. Dabei wird das Generatornetzwerk 2 mit dem Generatorfehlerwert GF mithilfe eines Backpropagation-Verfahrens oder eines sonstigen Trainingsverfahren trainiert, wobei der Generatorfehlerwert GF durch die strukturelle Ähnlichkeit zwischen dem Eingangsbild E und dem durch das Generatornetzwerk 2 generierten Ausgangsbild A und durch die von dem Diskriminatornetzwerk 3 bestimmte Güte C des durch das Generatornetzwerk 2 generierten Ausgangsbilds A bestimmt ist.
Abhängig von dem Trainingsbild T als Eingang des Diskriminatornetzwerks 3 wird ein Tensor Bx bereitgestellt. Dieser kann mehrdimensional sein oder einer reellen Zahl entsprechen. Der Tensor Bx entspricht dem Bewertungslabel und kann für die Trainingsbilder elementweise jeweils 1 und für die durch das Generatornetzwerk erzeugten Bilder jeweils 0 angeben. Die Bewertungslabel entsprechen somit Bi für ein Trainingsbild T und Bo für ein von dem Generatornetzwerk generiertes Ausgangsbild A. Die Dimension des Bewertungslabels B ist im Wesentlichen frei wählbar und abhängig von der gewählten Netzwerkarchitektur. Das Bewertungslabel B kann auch mit einer anderen Normierung versehen sein, und insbesondere können sogenannte weiche Bewertungslabel B angesetzt werden d. h., dass anstelle der Werte 1 und 0 auch entsprechend leicht verrauschte Werte angenommen werden können, wodurch die Stabilität des Trainings je nach Anwendungsfall verbessert werden kann. Die Abbildung des Diskriminatornetzwerks 3 entspricht D9d, wobei 0D die zu optimierenden Diskriminatorparameter (Gewichtungen) des neuronalen Netzes des Diskriminatornetzwerks sind. Analog entspricht die Abbildung, die vom Generatornetzwerk 2 durchgeführt wird, GgG , wobei 0G die zu optimierenden Generatorparameter (Gewichtungen) des neuronalen Netzes des Generatornetzwerks 2 sind.
Die Diskriminatorfehlerfunktion zum Training des Diskriminatornetzwerks 2 dient der Bestimmung des Diskriminatorfehlerwerts DF, der im Training zur Parameteroptimierung der Diskriminatorparameter 0D verwendet wird. Die Verlustfunktion weist mehrere Summanden ID auf. Die Diskriminatorfehlerfunktion ist in dem Diskriminatorbewertungsblock 4 implementiert und bewertet zum Training eine Abweichung lD zwischen einer für ein angelegtes Bild (Trainingsbild T oder Ausgangsbild A) ermittelten Güte C (T) = ϋqo( T) oder C (A) = DgD{f ) und einem dem angelegten (zugeführten) Bild zugeordneten Bewertungslabel BA , BT (z. B. 1 für Trainingsbild T oder 0 für ein Ausgangsbild A). Die Diskriminatorfehlerfunktion DFK, die für dieses Training des Diskriminatornetzwerks 3 verwendet wird, muss ein Abweichungsmaß lD realisieren, wie weit C(T), C(A) und das entsprechende Bewertungslabel BA , BT voneinander abweichen. Zur Bestimmung des Abweichungsmaßes lD kann man jede geeignete Funktion zur Abstandsbewertung annehmen, wobei insbesondere der Mean Squared Error (MSE) oder die binäre Cross Entropy (BCE) hierfür geeignet sind. Somit gehen die beiden Größen lD (T) = MSE{ C(T), BT) bzw. lD (T) = BCE{ C(T), BT) und
lD Ä) = MSE{ C(Ä), Ba ) bzw. lD (Ä) = BCE{ C{Ä), BA ) in die Verlustfunktion des Diskriminatornetzwerks 3 ein, so dass beispielsweise DF = lD (T) + lD Ä) gewählt werden kann.
Zum Training des Generatornetzwerks 2 wird eine Generatorfehlerfunktion verwendet, um einen Generatorfehlerwert, der aus zwei Teilen besteht, wobei ein erster Teil einem Abweichungsmaß lG zwischen der Güte C des Ausgangsbilds AT entspricht, das basierend auf einem zum Training angelegten Eingangsbild ET generiert wurde, und einem Bewertungslabel B, das ein vollständiges Erreichen des zweiten Darstellungsstils angibt, insbesondere einem Bewertungslabel BT, das Trainingsbildern T für das Training des Diskriminatornetzwerks 3 vorgegeben wird, vorzugsweise einem Bewertungslabel von 1.
Zur Bestimmung des Abweichungsmaßes lG mithilfe der Generatorfehlerfunktion kann man jede geeignete Funktion zur Abstandsbewertung annehmen, wobei insbesondere der Mean Squared Error (MSE) oder die binäre Cross Entropy (BCE) hierfür geeignet sind. lG = MSE( D(AT), BT) bzw. lG = BCE{ D{AT), BT) wobei AT = G(ET ) entspricht.
Der zweite Teil der Generatorfehlerfunktion entspricht einer Ähnlichkeitsgröße S, die in einem Ähnlichkeitsblock 6 mithilfe einer Ähnlichkeitsbewertungsfunktion ermittelt wird. Die Ähnlichkeitsbewertungsfunktion berechnet basierend auf dem für das Training verwendeten Eingangsbild ET des ersten Darstellungsstils und dem entsprechend durch das Generatornetzwerk 2 generierte Ausgangsbild AT des zweiten Darstellungsstils ein Maß für eine strukturelle Ähnlichkeit der beiden Bilder. Insbesondere kann als eine Ähnlichkeitsbewertungsfunktion eine Funktion vorgesehen sein, die bei einer hohen strukturellen Ähnlichkeit einem Wert nahe 1 und bei keinerlei struktureller Ähnlichkeit nahe -1 annimmt. Geeignet als Ähnlichkeitsbewertungsfunktion ist beispielsweise, eine sogenannte SSIM- Funktion zu wählen, die einen Index struktureller Ähnlichkeit angibt oder eine darauf aufbauende MSSIM, wie beispielsweise aus Zhou Wang et al., “Image Quality Assessment: From Error Visibility to Structural Similarity”, IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 13, NO. 4, APRIL 2004, Seite 600 - 612 bekannt, verwendet.
In dem Flussdiagramm der Figur 3 wird anschaulich das Trainingsverfahren für das erste neuronale Netz des Generatornetzwerks 2 beschrieben, so dass das trainierte Generatornetzwerk 2 zur Änderung eines Darstellungsstils eines Eingangsbildes E verwendet werden kann. Dabei wird initial von einer Anfangsparametrisierung des ersten neuronalen Netzes mit den Generatorparametern 0G und dem zweiten neuronalen Netz mit den Diskriminatorparametern 0D ausgegangen.
In Schritt S1 wird basierend auf einem zum Training bereitgestellten Eingangsbild ET eines ersten Darstellungsstils ein Ausgangsbild AT eines zweiten Darstellungsstils berechnet: AT = GgD(ET ).
Mithilfe des Diskriminatornetzwerks 3 wird in Schritt S2 eine Güte
Figure imgf000018_0001
des von dem Generatornetzwerk 2 generierten Ausgangsbildes AT und daraus das Abweichungsmaß lG = MSE{ C(AT ), BT) bzw. lG = BCE{ C(AT ), BT) ermittelt.
In Schritt S3 wird die Ähnlichkeitsgröße S zwischen dem zum Training bereitgestellten Eingangsbild ET und dem entsprechenden Ausgangsbild AT berechnet:
S = SSIM(AT, ET )
Basierend auf dem Abweichungsmaß lG und dem Ähnlichkeitsmaß S wird mithilfe der Generatorfehlerfunktion GFF in Schritt S4 ein Generatorfehlerwert GF für das generierte Ausgangsbild AT ermittelt.
GF =GFF {lG, S)
Beispielsweise kann der Generatorfehlerwert GF bestimmt sein als: GF = lG+ k*S, wobei der Optimierungsfaktor k entsprechend empirisch gewählt werden kann und insbesondere zwischen -1 ...-3 gewählt werden kann, wenn ZG e {0; l) und Se {-1; 1) sind.
Basierend auf dem Generatorfehlerwert GF wird in Schritt S5 ein Lernschritt für das erste neuronale Netz des Generatornetzwerk 2 durchgeführt, insbesondere basierend auf einem Backpropagation-Verfahren. Dadurch werden die Generatorparameter 0G basierend auf den partiellen Ableitungen dGF/d0G aktualisiert.
Gegebenenfalls können die Schritte S1 bis S5 des Trainings des Generatornetzwerks 2 mit demselben oder einem anderen zum Training bereitgestellten Eingangsbild ET wiederholt werden.
Nun beginnt das Training des Diskriminatornetzwerks 3. In einem nachfolgenden Schritt S6 wird für ein oder mehrere vorgegebene Trainingsbilder Ti..n in dem zweiten Darstellungsstil eine Güte C(Ti..n) entsprechend dem aktuellen Trainingszustand des Diskriminatornetzwerks 3 ermittelt und daraus in Schritt S7 das bzw. die Abweichungsmaße lD (T n) bestimmt: lD (T) = MSE{ C(X), BT) bzw. lD (T) = BCE{ C(X), BT)
Weiterhin wird in Schritt S8 für ein oder mehrere zuletzt generierte Ausgangsbilder A-i. m entsprechend eine Güte C(Ai..m) ermittelt und daraus in Schritt S9 das bzw. die Abweichungsmaße Zß(Ai..m) bestimmt: lD (71) MSE{ Dg 04), Ba) bzw. lD (71) BCE{ Dg (71), BA)
In einem nächsten Schritt S10 wird ein Diskriminatorfehlerwert DF beispielsweise entsprechend folgender Formel ermittelt:
Figure imgf000019_0001
Basierend auf dem Diskriminatorfehlerwert DF kann in Schritt S1 1 ein Lernschritt für das zweite neuronale Netz des Diskriminatornetzwerks 3 durchgeführt werden. Dadurch werden die Diskriminatorparameter 0D in einem Backpropagation- Verfahren entsprechend mithilfe der partiellen Ableitungen dDF/dQD aktualisiert.
Selbstverständlich kann das Backpropagation-Verfahren auch nur basierend auf einem Trainingsbild T und/oder einem Ausgangsbild A durchgeführt werden. Zusätzlich können für das Trainieren des Diskriminatornetzwerks 3 nicht nur generierte Bilder in dem zweiten Darstellungsstil, sondern auch sonstige Trainingsbilder in dem ersten Darstellungsstil mit der Güte 0 (oder nahe 0) verwendet werden. Hierdurch erleichtert man es dem Diskriminator ggf. die Unterschiede zwischen beiden Domänen besser zu lernen.
Nun wird in Schritt S12 eine Abbruchbedingung überprüft. Ist die Abbruchbedingung nicht erfüllt (Alternative: Nein), wird das Verfahren mit Schritt S1 fortgesetzt, anderenfalls (Alternative: Ja) wird das Verfahren mit Schritt S13 fortgesetzt. Eine Abbruchbedingung kann beispielsweise das Erreichen einer Anzahl von Durchgängen sein oder das Erreichen eines vorbestimmten Diskriminatorfehlerwerts DF und/oder Generatorfehlerwerts GF, oder das Erreichen einer vorbestimmten Güte C(A) der vom Generatornetzwerk 2 generierten Ausgangsbilder A.
Der Schritt S13 stellt nun das Generatornetzwerk 2 als System zur Umsetzung eines Eingangsbildes E eines ersten Darstellungsstils bzw. einer ersten Domäne in ein Ausgangsbild A eines zweiten Darstellungsstils bzw. einer zweiten Domäne dar.
Das oben beschriebene Verfahren kann in vielfältiger Weise modifiziert werden. So ist es möglich, dass die Diskriminatorparameter 0D und Generatorparameter 0G nur unter bestimmten Bedingungen aktualisiert werden, z. B. abhängig von dem aktuellen Diskriminatorfehlerwert DF zum Training des Diskriminatornetzwerks 3 bzw. des Generatorfehlerwerts GF zum Training des Generatornetzwerks 2. Auch die Größe der Batches für das Training des Diskriminatornetzwerks 3 oder des Generatornetzwerks 2 kann variiert werden.
Weiterhin kann bei der Diskriminatorfehlerfunktion DFK des Diskriminatornetzwerks 3 noch ein Eingangsbild-Abweichungsmaß additiv hinzugefügt werden, die eine Abweichung der Güte C des Eingangsbildes von einem Bewertungslabel BA für ein unechtes Bild, d. h. eines vom Generatornetzwerk generierten Ausgangsbildes A angibt. Dadurch kann die Stabilität des Trainings erhöht werden. Das trainierte Generatornetzwerk 2 kann dann dazu benutzt werden, aus Eingangsbildern E, die über eine Skript-basierte Beschreibung erstellt wurden, die z. B. Verkehrssituationen zeigen, Eingangsbilder E eines ersten Darstellungsstils zu erzeugen. Ist das Generatornetzwerk 2 basierend auf Bildern des ersten Darstellungsstils und photorealistischen Bildern von Verkehrssituationen trainiert worden, so lassen sich den künstlich erzeugten Eingangsbildern E photorealistische Bilder zuordnen, die eine entsprechende Verkehrssituation darstellen. Dadurch können mithilfe des Generatornetzwerks 2 beliebig viele photorealistische Bilder erstellt werden, die gewünschte Verkehrssituationen abbilden.
Das Generatornetzwerk 2 lässt sich auch in umgekehrter Weise trainieren, um photorealistische Bilder in synthetische Bilder umzuwandeln, um beispielsweise Reflexionen oder Ähnliches aus den photorealistischen Bildern zu entfernen, wenn beispielsweise ein Klassifikator synthetische Bilder besser klassifizieren kann als photorealistische Bilder.
Weiterhin kann das obige System auch so trainiert werden, um aus photorealistischen Bildern segmentierte Bilder zu erstellen, wobei in diesem Fall die photorealistischen Bilder dem ersten Darstellungsstil entsprechen und die segmentierten Bilder den Bildern des zweiten Darstellungsstils.

Claims

Ansprüche
1. Verfahren zum Trainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes (E) einer ersten Domäne in ein Ausgangsbild (A) einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern (E) der ersten Domäne und Trainingsbildern (T) der zweiten Domäne durchgeführt wird; mit folgenden Schritten:
Bereitstellen eines GAN-Netzwerks mit einem Generatornetzwerk (2), das das erste neuronale Netz umfasst, und einem Diskriminatornetzwerk (3), das ein zweites neuronales Netz umfasst;
Trainieren des Diskriminatornetzwerks (3) basierend auf einem Diskriminatorfehlerwert (DF) und einem oder mehreren Trainingsbildern (T) und/oder einem oder mehreren Ausgangsbildern (A), die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk (2) erzeugt werden, wobei der Diskriminatorfehlerwert (DF) abhängig von einer jeweiligen Güte (C) des einen oder der mehreren T rainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird;
Trainieren des ersten neuronalen Netzes des Generatornetzwerks (2) basierend auf einem für das Training bereitgestellten Eingangsbild (E) und einem Generatorfehlerwert (GF), der von einer Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einer Ähnlichkeitsgröße (S) zwischen dem Eingangsbild (E) und dem Ausgangsbild (A) abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.
2. Verfahren nach Anspruch 1 , wobei das Trainieren des Diskriminatornetzwerks (3) und des Generatornetzwerks (2) gleichzeitig oder wechselweise wiederholt durchgeführt wird, insbesondere mithilfe eines Backpropagation-Verfahrens, bis eine Abbruchbedingung erfüllt ist.
3. Verfahren nach Anspruch 2, wobei die Abbruchbedingung erfüllt ist, wenn eine Anzahl von Durchgängen oder eine vorbestimmte Güte (C) der vom Generatornetzwerk (2) generierten Ausgangsbilder erreicht ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Güte (C) des einen oder der mehreren Trainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder (A) jeweils durch das Diskriminatornetzwerk (3) bestimmt wird und einer Bewertung entspricht, in welchem Maß es sich bei dem betreffenden Bild um ein Bild der zweiten Domäne handelt.
5. Verfahren nach Anspruch 4, wobei der Diskriminatorfehlerwert (DF) abhängig von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des betreffenden einen oder der betreffenden mehreren Trainingsbilder (T) und einem Bewertungslabel, das eine jeweilige Zugehörigkeit des einen oder der mehreren Trainingsbilder (T) zu der zweiten Domäne angibt, und/oder abhängig von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des einen oder der mehreren Ausgangsbilder (A) und einem Bewertungslabel (B), das ein von dem Generatornetzwerk (2) generiertes Ausgangsbild als ein nicht der zweiten Domäne zugehöriges Bild angibt, bestimmt wird, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Ähnlichkeitsgröße von einem SSIM-Index für eine strukturelle Ähnlichkeit zwischen einem der Eingangsbilder und einem durch das Generatornetzwerk aus dem betreffenden Eingangsbild generierten Ausgangsbild abhängt oder diesem entspricht.
7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das erste und/oder das zweite neuronale Netz als faltende neuronale Netze (convolutional neural networks) ausgebildet sind, wobei insbesondere das erste und/oder das zweite neuronale Netz eine Hintereinanderschaltung von einigen Convolutional Layer- Blöcken, einigen ResNet-Blöcken und einigen Deconvolutional-Blöcken aufweisen, wobei insbesondere jeder der Blöcke als eine Aktivierungsfunktionen eine ReLU-, leaky-ReLU-, tanh- oder Sigmoid-Funktion enthält.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Generatorfehlerwert (GF) von einem jeweiligen Abweichungsmaß für die Abweichung zwischen der jeweiligen Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einem Bewertungslabel (B), das ein Bild der zweiten Domäne angibt, abhängt, wobei das Abweichungsmaß insbesondere einem Mean Squared Error oder einer binären Cross Entropy entspricht.
9. Verfahren nach einem der Ansprüche 1 bis 8, wobei das Training des Diskriminatornetzwerks und/oder des Generatornetzwerks nur dann durchgeführt wird, wenn eine von dem aktuellen Diskriminatorfehlerwert (DF) und/oder von dem Generatorfehlerwert (GF) abhängige Bedingung erfüllt ist.
10. Verfahren zum Bereitstellen einer Steuerung für ein technisches System, insbesondere für einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine, wobei das Verfahren zum Trainieren eines ersten neuronalen Netzes nach einem der Ansprüche 1 bis 9 ausgeführt wird, wobei das trainierte erste neuronale Netz verwendet wird, um Trainingsbilder zu erzeugen, mit denen die Steuerung, die insbesondere ein neuronales Netz enthält, trainiert wird.
1 1. Verfahren nach Anspruch 10, wobei das technische System mithilfe der Steuerung betrieben wird.
12. Verwenden eines ersten neuronalen Netzes, das entsprechend einem Verfahren nach einem der Ansprüche 1 bis 9 trainiert ist, zum Generieren von photorealistischen Ausgangsbildern in einer zweiten Domäne abhängig von vorgegebenen Eingangsbildern (E) in einer ersten Domäne, die insbesondere über eine Skript-basierte Beschreibung erstellt werden
13. Verwendung nach Anspruch 12, wobei die erzeugten photorealistischen Ausgangsbilder (A) als künstliche Kamerabilder zum Herstellen eines Klassifikators für Umgebungssituationen verwendet werden.
14. GAN-Netzwerk zum T rainieren eines ersten neuronalen Netzes zur Umwandlung eines Eingangsbildes (E) einer ersten Domäne in ein Ausgangsbild (A) einer zweiten Domäne, wobei das Training auf für das Training bereitgestellten Eingangsbildern (E) der ersten Domäne und Trainingsbildern (T) der zweiten Domäne durchgeführt wird, wobei das GAN-Netzwerk ein Generatornetzwerk (2), das das erste neuronale Netz umfasst, und ein Diskriminatornetzwerk (3) aufweist, das ein zweites neuronales Netz umfasst, wobei das GAN-Netzwerk ausgebildet ist, um
das Diskriminatornetzwerk (3) basierend auf einem Diskriminatorfehlerwert (DF) und einem oder mehreren Trainingsbildern (T) und/oder einem oder mehreren Ausgangsbildern (A), die durch Verarbeiten eines oder mehrerer der Eingangsbilder durch das Generatornetzwerk (2) erzeugt werden, zu trainieren, wobei der Diskriminatorfehlerwert (DF) abhängig von einer jeweiligen Güte (C) des einen oder der mehreren T rainingsbilder (T) und/oder des einen oder der mehreren Ausgangsbilder bestimmt wird; und das Generatornetzwerk (2) basierend auf einem für das Training bereitgestellten Eingangsbild (E) und einem Generatorfehlerwert (GF) zu trainieren, der von einer Güte (C) des von dem Generatornetzwerk (2) abhängig von dem Eingangsbild (E) bereitgestellten Ausgangsbilds (A) und einer Ähnlichkeitsgröße (S) zwischen dem Eingangsbild (E) und dem Ausgangsbild (A) abhängt, die ein Maß für eine strukturelle Ähnlichkeit angibt.
15. Computerprogramm mit Programmcodemitteln, das dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Computerprogramm auf einer Recheneinheit, insbesondere einer mobilen Recheneinheit, ausgeführt wird.
16. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 15.
PCT/EP2019/060047 2018-04-23 2019-04-18 Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne WO2019206792A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP19721223.6A EP3785169A1 (de) 2018-04-23 2019-04-18 Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE102018206199 2018-04-23
DE102018206199.8 2018-04-23
DE102018206806.2A DE102018206806A1 (de) 2018-04-23 2018-05-03 Verfahren und Vorrichtung zur Umsetzung eines Eingangsbildes einer ersten Domäne in ein Ausgangsbild einer zweiten Domäne
DE102018206806.2 2018-05-03

Publications (1)

Publication Number Publication Date
WO2019206792A1 true WO2019206792A1 (de) 2019-10-31

Family

ID=68105256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/060047 WO2019206792A1 (de) 2018-04-23 2019-04-18 Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne

Country Status (3)

Country Link
EP (1) EP3785169A1 (de)
DE (1) DE102018206806A1 (de)
WO (1) WO2019206792A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561814A (zh) * 2020-06-16 2021-03-26 上海联影智能医疗科技有限公司 图像转换设备及方法
US11281942B2 (en) * 2018-12-11 2022-03-22 Hitachi, Ltd. Machine learning system, domain conversion device, and machine learning method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11745749B2 (en) * 2019-12-30 2023-09-05 Magna Electronics Inc. Vehicular system for testing performance of object detection algorithms
DE102021200374A1 (de) 2021-01-15 2022-07-21 Volkswagen Aktiengesellschaft Digitale Repräsentation eines Materials
CN114610677B (zh) * 2022-03-10 2024-07-23 腾讯科技(深圳)有限公司 一种转换模型的确定方法和相关装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PAOLO RUSSO ET AL: "From Source to Target and Back: Symmetric Bi-Directional Adaptive GAN", 29 November 2017 (2017-11-29), XP055590681, Retrieved from the Internet <URL:https://arxiv.org/pdf/1705.08824.pdf> [retrieved on 20190521] *
YANIV TAIGMAN ET AL: "Unsupervised Cross-Domain Image Generation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 November 2016 (2016-11-07), XP080730006 *
ZHOU WANG ET AL.: "Image Quality Assessment: From Error Visibility to Structural Similarity", TRANSACTIONS ON IMAGE PROCESSING, vol. 13, no. 4, April 2004 (2004-04-01), pages 600 - 612, XP011110418, DOI: doi:10.1109/TIP.2003.819861

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281942B2 (en) * 2018-12-11 2022-03-22 Hitachi, Ltd. Machine learning system, domain conversion device, and machine learning method
CN112561814A (zh) * 2020-06-16 2021-03-26 上海联影智能医疗科技有限公司 图像转换设备及方法
CN112561814B (zh) * 2020-06-16 2024-06-07 上海联影智能医疗科技有限公司 图像转换设备及方法

Also Published As

Publication number Publication date
DE102018206806A1 (de) 2019-10-24
EP3785169A1 (de) 2021-03-03

Similar Documents

Publication Publication Date Title
WO2019206792A1 (de) Verfahren und vorrichtung zur umsetzung eines eingangsbildes einer ersten domäne in ein ausgangsbild einer zweiten domäne
DE102019202090A1 (de) Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Künstlichen-Intelligenz-Moduls für eine Steuervorrichtung eines Roboters
WO2020048669A1 (de) Verfahren zum bestimmen einer spurwechselangabe eines fahrzeugs, ein computerlesbares speichermedium und ein fahrzeug
EP3748453B1 (de) Verfahren und vorrichtung zum automatischen ausführen einer steuerfunktion eines fahrzeugs
EP3393875B1 (de) Verfahren zum verbesserten erkennen von objekten durch ein fahrerassistenzsystem
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE102019216206A1 (de) Vorrichtung und Verfahren zum Bestimmen einer Kehrtwendestrategie eines autonomen Fahrzeugs
DE102017127600A1 (de) Verfahren zum automatischen Parken für ein Kraftfahrzeug mit einem Fahrunterstützungssystem
DE102019208735A1 (de) Verfahren zum Betreiben eines Fahrassistenzsystems eines Fahrzeugs und Fahrerassistenzsystem für ein Fahrzeug
WO2019110177A1 (de) Trainieren und betreiben eines maschinen-lern-systems
WO2022043203A1 (de) Training eines generators zur erzeugung realistischer bilder mit einem semantisch segmentierenden diskriminator
EP3850536A1 (de) Analyse dynamisscher räumlicher szenarien
DE102019208733A1 (de) Verfahren und Generator zum Erzeugen von gestörten Eingangsdaten für ein neuronales Netz
DE102018130004B3 (de) Auf einer support vector machine basierende intelligente fahrweise zum passieren von kreuzungen und intelligentes fahrsystem dafür
EP3748454A1 (de) Verfahren und vorrichtung zum automatischen ausführen einer steuerfunktion eines fahrzeugs
DE102019105850A1 (de) Verfahren zur Erzeugung eines reduzierten neuronalen Netzes für ein Steuergerät eines Fahrzeuges mithilfe von Eigenvektoren
DE102020109364A1 (de) Verfahren und Vorrichtung zum Ermitteln und Klassifizieren wenigstens eines Objekts in einem Erfassungsbereich eines Sensors
DE102020105070A1 (de) Verfahren zum Erkennen eines befahrbaren Bereichs in einer Umgebung eines Fahrzeugs mithilfe eines binären künstlichen neuronalen Netzes, Recheneinrichtung sowie Fahrerassistenzsystem
DE102018129871A1 (de) Trainieren eins tiefen konvolutionellen neuronalen Netzwerks zum Verarbeiten von Sensordaten zur Anwendung in einem Fahrunterstützungssystem
DE102019114049A1 (de) Verfahren zur Validierung eines Fahrerassistenzsystems mithilfe von weiteren generierten Testeingangsdatensätzen
DE102021133977A1 (de) Verfahren und System zur Klassifikation von Szenarien eines virtuellen Tests sowie Trainingsverfahren
EP4191469A1 (de) Verfahren zum bestimmen ähnlicher szenarien,trainingsverfahren und trainingssteuergerät
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen
WO2022043200A1 (de) Erzeugung realistischer bilder aus vorgegebenen semantischen karten
DE102019217952A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Trainingsdatensatzes zum Trainieren einer KI-Funktion auf eine unbekannte Datendomäne

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19721223

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019721223

Country of ref document: EP

Effective date: 20201123