Was ist Deep Learning?

Aktualisiert: 17. Juni 2024
Mitwirkende: Jim Holdsworth, Mark Scapicchio

Deep Learning ist ein Teilbereich des maschinellen Lernens, der mehrschichtige neuronale Netzwerke (sogenannte tiefe neuronale Netzwerke) verwendet, um die komplexen Entscheidungsstrukturen des menschlichen Gehirns zu simulieren. Die meisten Anwendungen der künstlichen Intelligenz (KI) in unserem heutigen Leben basieren auf einer Form des Deep Learning.

Der Hauptunterschied zwischen Deep Learning und maschinellem Lernen ist die Struktur der zugrunde liegenden neuronalen Netzwerkarchitektur. Klassische Modelle des maschinellen Lernens verwenden einfache neuronale Netze mit einer oder zwei Rechenschichten. Deep-Learning-Modelle verwenden drei oder mehr Schichten – in der Regel jedoch Hunderte oder Tausende von Schichten –, um die Modelle zu trainieren.

Während überwachte Lernmodelle strukturierte, beschriftete Eingabedaten erfordern, um genaue Ergebnisse zu erzielen, können Deep-Learning-Modelle unüberwachtes Lernen verwenden. Mit unüberwachtem Lernen können Deep-Learning-Modelle die Merkmale, Merkmale und Beziehungen extrahieren, die sie benötigen, um aus unstrukturierten Rohdaten genaue Ergebnisse zu erzielen. Darüber hinaus können diese Modelle ihre Ergebnisse sogar auswerten und verfeinern, um die Präzision zu erhöhen.

Deep Learning ist ein Aspekt der Data Science, der viele Anwendungen und Dienste unterstützt, mit denen die Automatisierung verbessert wird, indem analytische und physische Aufgaben ohne menschliches Eingreifen durchgeführt werden. Dies ermöglicht viele alltägliche Produkte und Dienstleistungen – wie digitale Assistenten, sprachgesteuerte TV-Fernbedienungen, Erkennung von Kreditkartenbetrug, selbstfahrende Autos und generative KI.

Erstellen Sie verantwortungsvolle KI-Workflows mit KI-Governance

Lernen Sie die Bausteine und Best Practices kennen, die Ihren Teams helfen, verantwortungsvolle KI zu beschleunigen.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema generative KI

Beginnen Sie jetzt mit KI

Erfahren Sie, wie Sie KI skalieren

Erkunden Sie die KI Academy

So funktioniert Deep Learning

Neuronale Netze oder künstliche neuronale Netze versuchen, das menschliche Gehirn durch eine Kombination von Dateneingaben, Gewichten und Bias zu imitieren – sie fungieren alle als Siliziumneuronen. Diese Elemente arbeiten zusammen, um Objekte in den Daten genau zu erkennen, zu klassifizieren und zu beschreiben.

Tiefe neuronale Netzwerke bestehen aus mehreren Schichten miteinander verbundener Knoten, wobei jede Schicht auf der vorherigen Schicht aufbaut, um die Vorhersage oder Kategorisierung zu verfeinern und zu optimieren. Dieses Fortschreiten der Berechnungen durch das Netz wird als Vorwärtsausbreitung (Forward Propagation) bezeichnet. Die Eingabe- und Ausgabeschichten eines tiefen neuralen Netzwerks werden als sichtbare Schichten bezeichnet. Die Eingabeschicht ist der Ort, an dem das Deep-Learning-Modell die Daten zur Verarbeitung aufnimmt, und die Ausgabeschicht ist der Ort, an dem die endgültige Vorhersage oder Klassifizierung vorgenommen wird.

Ein anderer Prozess namens Backpropagation verwendet Algorithmen wie den Gradientenabstieg, um Fehler in Vorhersagen zu berechnen, und passt dann die Gewichtung und den Bias der Funktion an, indem sie sich rückwärts durch die Layer bewegt, um das Modell zu trainieren. Zusammen ermöglichen Forward Propagation und Backpropagation einem neuronalen Netz, Vorhersagen zu treffen und etwaige Fehler zu korrigieren. Im Laufe der Zeit wird der Algorithmus allmählich genauer.

Deep Learning erfordert eine enorme Menge an Rechenleistung. Hochleistungsfähige grafische Verarbeitungseinheiten (Graphical Processing Units, GPUs) sind ideal, da sie eine große Menge an Berechnungen in mehreren Kernen verarbeiten können, wobei viel Arbeitsspeicher zur Verfügung steht. Distributed Cloud Computing könnte ebenfalls hilfreich sein. Dieses Maß an Rechenleistung ist erforderlich, um Deep-Algorithmen durch Deep Learning zu trainieren. Die Verwaltung mehrerer lokaler GPUs kann jedoch einen hohen Bedarf an internen Ressourcen verursachen und unglaublich kostspielig sein. Für Softwareanforderungen werden die meisten Deep-Learning-Apps mit einem dieser drei Lern-Frameworks codiert: JAX, PyTorch oder TensorFlow.

Typen von Deep-Learning-Modellen

Deep-Learning-Algorithmen sind unglaublich komplex und es gibt verschiedene Arten von neuronalen Netzwerken zur Bearbeitung spezifischer Probleme oder Datensätze. Hier finden Sie sechs Beispiele. Jedes Modell hat seine eigenen Vorteile und wird hier ungefähr in der Reihenfolge seiner Entwicklung vorgestellt, wobei jedes nachfolgende Modell angepasst wird, um die Schwächen des vorherigen Modells zu beheben.

Eine potenzielle Schwäche aller Deep-Learning-Modelle besteht darin, dass es sich häufig um „Black Boxes“ handelt. Ihre Funktionsweise ist daher nur schwer zu verstehen und es ergeben sich Herausforderungen hinsichtlich der Interpretierbarkeit. Dem stehen jedoch die allgemeinen Vorteile einer höheren Genauigkeit und Skalierbarkeit gegenüber.

CNNs

Konvolutionale neuronale Netzwerke (CNNs oder ConvNets) werden vor allem in Computer-Vision-Anwendungen und Bildklassifizierungsanwendungen verwendet. Sie können Merkmale und Muster in Bildern und Videos erkennen und so Aufgaben wie Objekterkennung, Bilderkennung, Mustererkennung und Gesichtserkennung ermöglichen. Diese Netze nutzen Prinzipien der linearen Algebra, insbesondere der Matrixmultiplikation, um Muster innerhalb eines Bildes zu erkennen.

Jeder Knoten ist mit anderen Knoten verbunden und verfügt über eine bestimmte Gewichtung und einen Schwellenwert. Wenn der Output eines einzelnen Knotens über dem angegebenen Schwellenwert liegt, wird dieser Knoten aktiviert und sendet Daten an die nächste Schicht des Netzes. Liegt die Ausgabe unter dem Schwellenwert, werden keine Daten an die nächste Netzebene weitergeleitet.

Ein CNN besteht aus mindestens drei Haupttypen von Schichten: einer Faltungsschicht, einer Pooling-Schicht und einer vollständig verbundenen Schicht. Für komplexe Anwendungen kann ein CNN bis zu Tausende von Schichten enthalten, wobei jede Schicht auf den vorherigen Schichten aufbaut. Durch „Faltung“ – das Bearbeiten und Überarbeiten der ursprünglichen Eingabe – können detaillierte Muster entdeckt werden. Mit jeder Schicht nimmt die Komplexität des CNN zu, sodass immer größere Teile des Bildes identifiziert werden. Frühere Schichten konzentrieren sich auf einfache Merkmale wie Farben und Kanten. Wenn die Bilddaten die Schichten des CNN durchlaufen, beginnt das konvolutionale Netz, größere Elemente oder Formen des Objekts zu erkennen, bis schließlich das beabsichtigte Objekt identifiziert wird.

CNNs unterscheiden sich von anderen neuronalen Netzen durch ihre überlegene Leistung bei Bild-, Sprach- oder Audiosignaleingaben. Vor CNNs wurden manuelle und zeitaufwändige Methoden zur Merkmalsextraktion verwendet, um Objekte in Bildern zu identifizieren. CNNs bieten jetzt jedoch einen skalierbareren Ansatz für Bildklassifizierungs- und Objekterkennungsaufgaben und verarbeiten hochdimensionale Daten. Und CNNs können Daten zwischen den Schichten austauschen, um eine effizientere Datenverarbeitung zu ermöglichen. Zwar gehen in der Pooling-Schicht möglicherweise Informationen verloren, doch wird dies durch die Vorteile von CNNs aufgewogen, die dazu beitragen können, die Komplexität zu reduzieren, die Effizienz zu verbessern und das Risiko einer Überanpassung zu begrenzen.

Es gibt noch weitere Nachteile von CNNs, die rechenintensiv sind – sie kosten Zeit und Budget und erfordern viele grafische Verarbeitungseinheiten (GPUs). Sie erfordern außerdem hochqualifizierte Experten mit bereichsübergreifenden Kenntnissen und sorgfältige Tests von Konfigurationen, Hyperparametern und Konfigurationen.

RNNs

Rekurrente neuronale Netze (RNNs) werden typischerweise in Anwendungen für natürliche Sprache und Spracherkennung verwendet, da sie sequenzielle Daten oder Zeitreihendaten verwenden. RNNs können an ihren Feedback-Schleifen identifiziert werden. Diese Lernalgorithmen werden hauptsächlich verwendet, wenn Zeitreihendaten verwendet werden, um Vorhersagen über zukünftige Ergebnisse zu treffen. Zu den Anwendungsfällen zählen Aktienmarktvorhersagen oder Verkaufsprognosen oder ordinale oder zeitliche Probleme wie Sprachübersetzung, Verarbeitung natürlicher Sprache (NLP), Spracherkennung und Bildunterschrift. Diese Funktionen sind oft in populäre Anwendungen wie Siri, Sprachsuche und Google Translate integriert.

RNNs nutzen ihr „Gedächtnis“, indem sie Informationen aus früheren Eingaben übernehmen, um die aktuelle Eingabe und Ausgabe zu beeinflussen. Während herkömmliche tiefe neuronale Netzwerke davon ausgehen, dass Ein- und Ausgaben unabhängig voneinander sind, hängt der Output von RNNs von den vorherigen Elementen innerhalb der Sequenz ab. Auch wenn zukünftige Ereignisse bei der Bestimmung des Outputs einer bestimmten Sequenz hilfreich wären, können unidirektionale rekurrente neuronale Netze diese Ereignisse bei ihren Vorhersagen nicht berücksichtigen.

RNNs teilen sich die Parameter in jeder Schicht des Netzwerks und teilen sich die gleichen Gewichtsparameter innerhalb jeder Schicht des Netzwerks, wobei die Gewichte durch die Prozesse der Backpropagation und des Gradientenabstiegs angepasst werden, um das Verstärkungslernen zu erleichtern.

RNNs verwenden einen Backpropagation through Time (BPTT) Algorithmus, um die Gradienten zu bestimmen. Dieser unterscheidet sich leicht von der traditionellen Backpropagation, da er spezifisch für Sequenzdaten ist. Die Prinzipien von BPTT sind die gleichen wie bei der traditionellen Backpropagation, bei der das Modell sich selbst trainiert, indem es Fehler von seiner Ausgabeschicht zu seiner Eingabeschicht berechnet. BPTT unterscheidet sich vom herkömmlichen Ansatz dadurch, dass BPTT Fehler in jedem Zeitschritt summiert, während Feedforward-Netzwerke keine Fehler summieren müssen, da sie keine Parameter über alle Schichten hinweg gemeinsam nutzen.

Ein Vorteil gegenüber anderen neuronalen Netzwerktypen besteht darin, dass RNNs sowohl binäre Datenverarbeitung als auch Speicher verwenden. RNNs können mehrere Eingaben und Produktionen planen, sodass RMMs nicht nur ein Ergebnis für eine einzige Eingabe liefern, sondern ein-zu-viele, viele-zu-eins oder viele-zu-viele-Outputs produzieren können.

Auch innerhalb der RNNs gibt es Optionen. Das LSTM-Netzwerk (Long Short Term Memory) zum Beispiel ist einfachen RNNs überlegen, da es längerfristige Abhängigkeiten lernt und berücksichtigt.

RNNs neigen jedoch dazu, zwei grundlegende Probleme zu haben, die als explodierende Gradienten und verschwindende Gradienten bekannt sind. Diese Probleme werden durch die Größe des Gradienten definiert, der die Steigung der Verlustfunktion entlang der Fehlerkurve darstellt.

Wenn der Gradient verschwindet und zu klein ist, wird er weiter kleiner und aktualisiert die Gewichtungsparameter, bis sie unbedeutend – das heißt: Null (0) – werden. Wenn dies geschieht, lernt der Algorithmus nicht mehr.
Explodierende Gradienten treten auf, wenn der Gradient zu groß ist und dadurch ein instabiles Modell erstellt wird. In diesem Fall werden die Modellgewichtungen zu groß und schließlich als NaN (keine Zahl) dargestellt. Eine Lösung für diese Probleme besteht darin, die Anzahl der versteckten Schichten innerhalb des neuronalen Netzwerks zu reduzieren und so einen Teil der Komplexität in den RNN-Modellen zu eliminieren.

Einige letzte Nachteile: RNNs können auch eine lange Trainingszeit erfordern und bei großen Datensätzen schwierig zu verwenden sein. Die Optimierung von RNNs wird komplexer, wenn sie viele Schichten und Parameter haben.

Autoencoder und Variational Autoencoder

Deep Learning ermöglicht es, über die Analyse von numerischen Daten hinauszugehen und die Analyse von Bildern, Sprache und anderen komplexen Datentypen hinzuzufügen. Zu den ersten Modellen, die dies erreichen, gehörten Variational Autoencoder (VAEs). Sie waren die ersten Deep-Learning-Modelle, die in großem Umfang für die Generierung realistischer Bilder und Sprache eingesetzt wurden. Dies hat die tiefe generative Modellierung gestärkt, da die Modelle leichter skaliert werden konnten – der Grundstein dessen, was wir als generative KI bezeichnen.

Autoencoder kodieren unkomprimierte Daten in eine komprimierte Darstellung und dekodieren die Daten dann wieder in ihre ursprüngliche Form zurück. Einfache Autoencoder wurden für eine Vielzahl von Zwecken verwendet, einschließlich der Rekonstruktion von korrupten oder unscharfen Bildern. Variational Autoencoder fügten die entscheidende Fähigkeit hinzu, Daten nicht nur zu rekonstruieren, sondern auch Variationen der Originaldaten auszugeben.

Diese Fähigkeit, neuartige Daten zu generieren, löste eine rasante Abfolge neuer Technologien aus, von generativen adversen Netzwerken (GANs) bis hin zu Diffusionsmodellen, die immer realistischere – aber gefälschte – Bilder erzeugen können. Auf diese Weise legten die VAEs den Grundstein für die heutige generative KI.

Autoencoder sind aus Blöcken von Encodern und Decodern aufgebaut, eine Architektur, die auch den heutigen großen Sprachmodellen zugrunde liegt. Kodierer komprimieren einen Datensatz in eine dichte Darstellung, indem sie ähnliche Datenpunkte in einem abstrakten Raum näher beieinander anordnen. Die Decoder nehmen aus diesem Bereich Stichproben, um etwas Neues zu erstellen, wobei die wichtigsten Merkmale des Datensatzes erhalten bleiben.

Der größte Vorteil von Autoencodern ist die Fähigkeit, große Datenmengen zu verarbeiten und die Eingabedaten in komprimierter Form darzustellen, so dass die wichtigsten Aspekte bei der Erkennung von Anomalien und Klassifizierungsaufgaben im Vordergrund stehen. Dies beschleunigt auch die Übertragung und reduziert den Speicherbedarf. Autoencoder können auf nicht beschrifteten Daten trainiert werden, so dass sie verwendet werden können, wenn keine beschrifteten Daten verfügbar sind. Wenn unüberwachtes Training verwendet wird, ergibt sich ein Zeitvorteil: Deep-Learning-Algorithmen lernen automatisch und gewinnen an Genauigkeit, ohne dass eine manuelle Funktionserstellung erforderlich ist. Darüber hinaus können VAEs neue Beispieldaten für die Text- oder Bilderzeugung generieren.

Autoencoder haben Nachteile. Das Trainieren tiefer oder komplizierter Strukturen kann eine Belastung für die Rechenressourcen darstellen. Und beim unüberwachten Training könnte das Modell die benötigten Eigenschaften übersehen und stattdessen einfach die Eingabedaten replizieren. Autoencoder können auch komplexe Datenverknüpfungen in strukturierten Daten übersehen, sodass sie komplexe Beziehungen nicht richtig erkennen.

GANs

Generative Adversarial Networks (GANs) sind neuronale Netzwerke, die sowohl im Bereich der künstlichen Intelligenz (KI) als auch außerhalb verwendet werden, um neue Daten zu erzeugen, die den ursprünglichen Trainingsdaten ähneln. Diese können Bilder enthalten, die wie menschliche Gesichter aussehen, aber generiert und nicht von echten Menschen aufgenommen wurden. Der „Adversarial“ Teil des Namens kommt von der Hin- und Herbewegung zwischen den beiden Teilen des GAN: einem Generator und einem Diskriminator.

Der Generator erzeugt etwas: Bilder, Video oder Audio und generiert dann ein Output mit einem Twist. Zum Beispiel kann ein Pferd mit einem gewissen Grad an Genauigkeit in ein Zebra transformiert werden. Das Ergebnis hängt von der Eingabe ab und davon, wie gut die Schichten des generativen Modells für diesen Anwendungsfall trainiert sind.
Der Diskriminator ist das Gegenstück, bei dem das generative Ergebnis (gefälschtes Bild) mit den echten Bildern im Datensatz verglichen wird. Der Diskriminator versucht, zwischen echten und gefälschten Bildern, Videos oder Audios zu unterscheiden.

GANs trainieren sich selbst. Der Generator erstellt Fälschungen, während der Diskriminator lernt, die Unterschiede zwischen den Fälschungen des Generators und den wahren Beispielen zu erkennen. Wenn der Diskriminator in der Lage ist, die Fälschung zu erkennen, dann wird der Generator bestraft. Die Feedback-Schleife wird so lange fortgesetzt, bis es dem Generator gelingt, einen Output zu erzeugen, die der Diskriminator nicht unterscheiden kann.

Der Hauptvorteil von GAN besteht darin, realistische Ergebnisse zu erzeugen, die schwer von den Originalen zu unterscheiden sind und die wiederum zum Trainieren von maschinellen Lernmodellen verwendet werden können. Das Einrichten eines GAN zum Lernen ist einfach, da sie mithilfe von Daten ohne Kennzeichnung oder mit geringer Kennzeichnung trainiert werden. Der potenzielle Nachteil ist jedoch, dass der Generator und der Diskriminator lange Zeit miteinander konkurrieren können, was zu einer starken Belastung des Systems führt. Eine Einschränkung beim Training ist, dass eine große Menge an Eingabedaten erforderlich sein kann, um ein zufriedenstellendes Ergebnis zu erzielen. Ein weiteres potenzielles Problem ist der „Modus-Kollaps“, wenn der Generator nur eine begrenzte Anzahl von Outputs produziert, anstatt eine größere Vielfalt.

Diffusionsmodelle

Diffusionsmodelle sind generative Modelle, die mit dem Vorwärts- und Rückwärtsdiffusionsprozess der progressiven Rauschaddition und Rauschminderung trainiert werden. Diffusionsmodelle generieren Daten – meist Bilder –, die den Daten ähneln, mit denen sie trainiert wurden, überschreiben dann aber die Daten, mit denen sie trainiert wurden. Sie fügen den Trainingsdaten allmählich Gaußsches Rauschen hinzu, bis sie unkenntlich sind, und lernen dann einen umgekehrten „Rauschminderungs“-Prozess, der aus dem zufälligen Rauscheingang ein Output (normalerweise Bilder) synthetisieren kann.

Ein Diffusionsmodell lernt, die Unterschiede zwischen den generierten Proben und dem gewünschten Ziel zu minimieren. Jede Diskrepanz wird quantifiziert und die Parameter des Modells werden aktualisiert, um den Verlust zu minimieren. So wird das Modell darauf trainiert, Proben zu produzieren, die den echten Trainingsdaten sehr ähnlich sind.

Abgesehen von der Bildqualität haben Diffusionsmodelle den Vorteil, dass sie kein Adversarial Training erfordern, was den Lernprozess beschleunigt und außerdem eine enge Prozesskontrolle ermöglicht. Das Training ist stabiler als bei GANs und Diffusionsmodelle sind nicht so anfällig für den Zusammenbruch des Modus.

Im Vergleich zu GANs können Diffusionsmodelle jedoch mehr Rechenressourcen zum Trainieren erfordern, einschließlich mehr Feinabstimmung. IBM Research® hat außerdem herausgefunden, dass diese Form der generativen KI mit versteckten Hintertüren missbraucht werden kann. Dadurch erhalten Angreifer die Kontrolle über den Bilderstellungsprozess, sodass KI-Diffusionsmodelle dazu gebracht werden können, manipulierte Bilder zu erzeugen.

Transformator-Modelle

Transformer-Modelle kombinieren eine Encoder-Decoder-Architektur mit einem Textverarbeitungsmechanismus und haben das Training von Sprachmodellen revolutioniert. Ein Encoder konvertiert rohen, unkommentierten Text in Repräsentationen, die als Einbettungen bekannt sind. Der Decoder nimmt diese Einbettungen zusammen mit früheren Outputs des Modells und sagt nacheinander jedes Wort in einem Satz voraus.

Mit Hilfe von Lückentexten lernt der Kodierer, wie Wörter und Sätze miteinander in Beziehung stehen, und baut so eine leistungsfähige Darstellung der Sprache auf, ohne dass Sie Wortarten und andere grammatikalische Merkmale kennzeichnen müssen. Transformer können nämlich von Anfang an ohne eine bestimmte Aufgabe vortrainiert werden. Nachdem diese leistungsstarken Repräsentationen erlernt wurden, können die Modelle später – mit viel weniger Daten – spezialisiert werden, um eine gewünschte Aufgabe zu erfüllen.

Mehrere Innovationen machen dies möglich. Transformers verarbeiten die Wörter eines Satzes gleichzeitig und ermöglichen so eine parallele Textverarbeitung, was das Training beschleunigt. Frühere Techniken, einschließlich rekurrenter neuronaler Netze (RNNs), verarbeiteten ein Wort nach dem anderen. Transformer lernten auch die Positionen von Wörtern und ihre Beziehungen zueinander – dieser Kontext ermöglicht es ihnen, die Bedeutung abzuleiten und Wörter wie „es“ in langen Sätzen zu disambiguieren.

Da es nicht mehr notwendig war, eine Aufgabe im Voraus zu definieren, konnten Sprachmodelle mit riesigen Mengen an Rohtext trainiert werden, sodass ihre Größe dramatisch anstieg. Bisher wurden gekennzeichnete Daten gesammelt, um ein Modell für eine bestimmte Aufgabe zu trainieren. Mit Transformern kann ein Modell, das auf einer riesigen Datenmenge trainiert wurde, an mehrere Aufgaben angepasst werden, indem es anhand einer kleinen Menge gekennzeichneter aufgabenspezifischer Daten optimiert wird.

Sprachbasierte Transformer werden heute sowohl für nicht-generative Aufgaben wie Klassifizierung und Entitätsextraktion als auch für generative Aufgaben wie maschinelle Übersetzung, Zusammenfassung und Fragenbeantwortung verwendet. Transformer haben viele Menschen mit ihrer Fähigkeit überrascht, überzeugende Dialoge, Essays und andere Inhalte zu generieren.

Transformer für die Verarbeitung natürlicher Sprache (NLP) bieten eine bemerkenswerte Leistung, da sie parallel laufen und mehrere Teile einer Sequenz gleichzeitig verarbeiten können, was das Training erheblich beschleunigt. Transformer verfolgen auch langfristige Abhängigkeiten in Text, wodurch sie den Gesamtkontext klarer verstehen und überlegene Ergebnisse erzielen können. Außerdem sind Transformer skalierbar und flexibel, sodass sie je nach Aufgabe angepasst werden können.

Was die Einschränkungen betrifft, so benötigen Transformer aufgrund ihrer Komplexität große Rechenressourcen und eine lange Trainingszeit. Außerdem müssen die Trainingsdaten zielgenau, unverzerrt und umfangreich sein, um genaue Ergebnisse zu erzielen.

Anwendungsfälle für Deep Learning

Die Zahl der Anwendungen für Deep Learning wächst täglich. Hier sind nur einige Beispiele dafür, wie die Software Unternehmen dabei hilft, effizienter zu werden und ihre Kunden besser zu bedienen.

Anwendungsmodernisierung

Generative KI kann die Fähigkeiten von Entwicklern verbessern und die immer größer werdende Kompetenzlücke in den Bereichen Anwendungsmodernisierung und IT-Automatisierung verringern. Generative KI für Code ist dank der jüngsten Durchbrüche bei Technologien für Large Language Models (LLM) und der Verarbeitung natürlicher Sprache (NLP) möglich. Es werden Deep-Learning-Algorithmen und große neuronale Netze verwendet, die auf riesigen Datensätzen mit vorhandenem Quellcode trainiert wurden. Der Trainingscode stammt in der Regel aus öffentlich zugänglichem Code, der von Open-Source-Projekten stammt.

Programmierer können Klartext-Eingabeaufforderungen eingeben, die beschreiben, was der Code tun soll. Generative KI-Tools schlagen Codeschnipsel oder vollständige Funktionen vor und rationalisieren den Coding-Prozess, indem sie sich wiederholende Aufgaben übernehmen und die Notwendigkeit des manuellen Coding verringern. Generative KI kann auch Code von einer Sprache in eine andere übersetzen und so Codekonvertierungs- oder Modernisierungsprojekte rationalisieren, z. B. die Aktualisierung von Altanwendungen durch die Übersetzung von COBOL in Java.

Computervision

Computer Vision ist ein Bereich der künstlichen Intelligenz (KI), der Bildklassifizierung, Objekterkennung und semantische Segmentierung umfasst. Es nutzt maschinelles Lernen und neuronale Netzwerke, um Computern und Lernsystemen beizubringen, aussagekräftige Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben abzuleiten – und Empfehlungen abzugeben oder Maßnahmen zu ergreifen, wenn das System Fehler oder Probleme feststellt. Während KI Computer zum Denken befähigt, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen. 

Da ein Computer Vision System oft für die Inspektion von Produkten oder die Überwachung von Produktionsanlagen trainiert wird, kann es in der Regel Tausende von Produkten oder Prozessen pro Minute analysieren und dabei auch nicht wahrnehmbare Fehler oder Probleme feststellen. Computer Vision wird in Branchen eingesetzt, die von der Energie- und Versorgungswirtschaft bis hin zur Fertigung und Automobilindustrie reichen.

Computer Vision benötigt viele Daten, und dann führt es immer wieder Analysen dieser Daten durch, bis es Bilder erkennt und schließlich erkennt. Um beispielsweise einen Computer für die Erkennung von Autoreifen zu trainieren, muss er mit großen Mengen von Reifenbildern und reifenbezogenen Gegenständen gefüttert werden, um die Unterschiede zu lernen und einen Reifen zu erkennen, insbesondere einen, der keine Mängel aufweist.

Computer Vision verwendet algorithmische Modelle, die es einem Computer ermöglichen, sich den Kontext visueller Daten selbst beizubringen. Wenn das Modell mit genügend Daten gefüttert wird, wird der Computer die Daten „betrachten“ und sich selbst beibringen, ein Bild von einem anderen zu unterscheiden. Algorithmen ermöglichen es der Maschine, von selbst zu lernen, anstatt dass jemand sie programmiert, um ein Bild zu erkennen.

Computer Vision ermöglicht es Systemen, aus digitalen Bildern, Videos und anderen visuellen Eingaben aussagekräftige Informationen abzuleiten und auf der Grundlage dieser Eingaben Maßnahmen zu ergreifen. Durch diese Fähigkeit,Empfehlungen zu geben, unterscheidet sie sich von einfachen Bilderkennungsaufgaben. Gängige Computer-Vision-Anwendungen sind heute in folgenden Bereichen verfügbar:

Automobilbranche: Das Zeitalter der fahrerlosen Autos ist zwar noch nicht ganz angebrochen, aber die zugrundeliegende Technologie hat bereits ihren Weg in die Automobilbranche gefunden und erhöht die Sicherheit von Fahrern und Passagieren durch Funktionen wie die Fahrspurerkennung.
Gesundheitswesen: Computer Vision wurde in Radiologietechnologie integriert und ermöglicht es Ärzten, Krebstumoren in gesunder Anatomie besser zu identifizieren.
Marketing: Social-Media-Plattformen machen Vorschläge dazu, wer auf einem Foto, das auf einem Profil gepostet wurde, zu sehen sein könnte, und erleichtern so das Taggen von Freunden in Fotoalben.
Einzelhandel: Visuelle Suche wurde in einige E-Commerce-Plattformen integriert und ermöglicht es Marken, Artikel zu empfehlen, die gut zu einer bestehende Garderobe passen würden.

Kundenbetreuung

KI hilft Unternehmen dabei, die steigenden Verbraucheranforderungen besser zu verstehen und zu erfüllen. Mit dem Aufkommen von hochgradig personalisiertem Online-Shopping, Direct-to-Consumer-Modellen und Lieferdiensten kann generative KI dazu beitragen, eine Vielzahl von Vorteilen zu erschließen, die die Kundenbetreuung, den Talentwandel und die Leistung von Anwendungen verbessern können.

KI ermöglicht es Unternehmen, einen kundenzentrierten Ansatz zu verfolgen, indem sie wertvolle Erkenntnisse aus Kundenfeedback und Kaufgewohnheiten nutzen. Dieser datengestützte Ansatz kann dazu beitragen, das Produktdesign und die Verpackung zu verbessern und eine hohe Kundenzufriedenheit und höhere Umsätze zu erzielen.

Generative KI kann auch als kognitiver Assistent für die Kundenbetreuung dienen, indem sie auf der Grundlage von Gesprächsverläufen, Stimmungsanalysen und Call-Center-Transkripten kontextbezogene Hilfestellungen gibt. Außerdem kann generative KI personalisierte Einkaufserlebnisse ermöglichen, die Kundentreue fördern und einen Wettbewerbsvorteil bieten.

Digitale Arbeit

Unternehmen können ihre Belegschaft durch die Entwicklung und den Einsatz von robotergestützter Prozessautomatisierung (RPA) und digitaler Arbeit erweitern, um mit Menschen zusammenzuarbeiten und so die Produktivität zu steigern oder zu helfen, wenn Unterstützung benötigt wird. Zum Beispiel kann das Entwicklern helfen, die Aktualisierung von Legacy-Software zu beschleunigen.

Digital Labor nutzt Foundation Models, um die Produktivität von Wissensarbeitern zu automatisieren und zu verbessern, indem es Self-Service-Automatisierung auf schnelle und zuverlässige Weise ermöglicht – ohne technische Barrieren. Um die Ausführung von Aufgaben oder den Aufruf von APIs zu automatisieren, kann ein LLM-basiertes Slot-Filling-Modell Informationen in einer Konversation identifizieren und alle für die Ausführung einer Aktion oder den Aufruf einer API erforderlichen Informationen ohne großen manuellen Aufwand erfassen.

Anstatt technische Experten zu beauftragen, sich wiederholende Handlungsabläufe für Wissensarbeiter aufzuzeichnen und zu kodieren, können digitale Arbeitsautomatisierungen, die auf einer Grundlage von modellgestützten Konversationsanweisungen und -demonstrationen aufgebaut sind, von den Wissensarbeitern für die Selbstbedienungsautomatisierung genutzt werden. Um beispielsweise die Erstellung von Apps zu beschleunigen, können No-Code Digital Apprentices Endbenutzern, denen es an Programmierkenntnissen mangelt, helfen, indem sie den Code effektiv lehren, überwachen und validieren.

Generative KI

Generative KI (auch GenAI genannt) ist eine Kategorie von KI, die autonom Texte, Bilder, Videos, Daten oder andere Inhalte als Reaktion auf eine Eingabe oder Anfrage eines Benutzers erstellt.

Generative KI stützt sich auf Deep-Learning-Modelle, die aus Mustern in bestehenden Inhalten lernen und auf der Grundlage dieses Trainings neue, ähnliche Inhalte erzeugen können. Sie findet in vielen Bereichen Anwendung – z. B. im Kundenservice, im Marketing, in der Softwareentwicklung und in der Forschung – und bietet ein enormes Potenzial zur Rationalisierung der Arbeitsabläufe in Unternehmen durch schnelle, automatisierte Erstellung und Ergänzung von Inhalten.

Generative KI eignet sich hervorragend für den Umgang mit unterschiedlichen Datenquellen wie E-Mails, Bildern, Videos, Audiodateien und Inhalten sozialer Medien. Diese unstrukturierten Daten bilden das Rückgrat für die Erstellung von Modellen und das laufende Training der generativen KI, sodass sie langfristig effektiv bleiben kann. Die Nutzung dieser unstrukturierten Daten kann den Kundenservice durch Chatbots verbessern und eine effektivere Weiterleitung von E-Mails ermöglichen. In der Praxis kann dies bedeuten, dass Sie die Benutzer zu geeigneten Ressourcen leiten, sei es, dass Sie sie mit dem richtigen Agenten verbinden oder sie auf Benutzerhandbücher und FAQs verweisen.

Trotz der viel diskutierten Einschränkungen und Risiken gehen viele Unternehmen voran und erkunden vorsichtig, wie ihre Unternehmen die generative KI nutzen können, um ihre internen Arbeitsabläufe zu verbessern und ihre Produkte und Dienstleistungen zu optimieren. Das ist die neue Herausforderung: Wie kann man den Arbeitsplatz effizienter gestalten, ohne rechtliche oder ethische Probleme zu schaffen?

Generative AI für Entwickler

Natürliche Sprachverarbeitung und Spracherkennung

NLP kombiniert Computerlinguistik – regelbasierte Modellierung der menschlichen Sprache – mit statistischen und maschinellen Lernmodellen, damit Computer und digitale Geräte Text und Sprache erkennen, verstehen und generieren können. NLP ermöglicht Anwendungen und Geräte, die Text von einer Sprache in eine andere übersetzen, auf getippte oder gesprochene Befehle reagieren und Benutzer anhand ihrer Stimme erkennen oder authentifizieren können. Es hilft, große Textmengen zusammenzufassen, die Absicht oder Stimmung von Text oder Rede zu bewerten und auf Abruf Text, Grafiken oder andere Inhalte zu generieren.

Eine Teilmenge von NLP ist statistische NLP, die Computeralgorithmen mit maschinellem Lernen und Deep-Learning-Modellen kombiniert. Dieser Ansatz hilft beim automatischen Extrahieren, Klassifizieren und Beschriften von Text- und Sprachdaten und weist dann jeder möglichen Bedeutung dieser Elemente eine statistische Wahrscheinlichkeit zu. Heute ermöglichen Deep-Learning-Modelle und Lerntechniken, die auf RNNs basieren, NLP-Systeme, die während der Arbeit „lernen“ und immer genauere Bedeutungen aus riesigen Mengen an rohen, unstrukturierten und unbeschrifteten Text- und Sprachdatensätzen extrahieren.

Spracherkennung– auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder Speech-to-Text-Funktion – ist eine Funktion, die es einem Programm ermöglicht, menschliche Rede in einem schriftlichen Format zu verarbeiten.

Während Spracherkennung häufig mit Stimmerkennung verwechselt wird, konzentriert sich die Spracherkennung auf die Übersetzung von Sprache aus einem verbalen Format in ein Textformat, während die Spracherkennung lediglich versucht, die Stimme eines einzelnen Benutzers zu identifizieren.

Branchenanwendungen

Deep-Learning-Anwendungen sind in der realen Welt allgegenwärtig und so gut in Produkte und Dienstleistungen integriert, dass die Benutzer nichts von der komplexen Datenverarbeitung im Hintergrund mitbekommen. Einige dieser Beispiele sind:

Deep Learning im Kundenservice

Viele Unternehmen integrieren Deep-Learning-Technologie in ihre Kundenserviceprozesse. Chatbots werden häufig in verschiedenen Anwendungen, Diensten und Kundendienstportalen verwendet. Herkömmliche Chatbots verwenden natürliche Sprache und sogar Visual Recognition, die häufig in Callcenter-ähnlichen Menüs zu finden ist. Allerdings versuchen ausgefeiltere Chatbot-Lösungen durch Lernen in Echtzeit festzustellen, ob es mehrere Antworten auf mehrdeutige Fragen gibt. Basierend auf den erhaltenen Antworten versucht der Chatbot dann, diese Fragen direkt zu beantworten oder leitet das Gespräch an einen menschlichen Benutzer weiter.

Virtuelle Assistenten wie Siri von Apple, Alexa von Amazon oder der Google Assistant erweitern die Idee eines Chatbots, indem sie Spracherkennungsfunktionen ermöglichen. Dadurch entsteht eine neue Methode, um Benutzer auf eine personalisierte Weise anzusprechen.

Analyse von Finanzdienstleistungen

Finanzinstitute nutzen regelmäßig Vorhersageanalysen, um den algorithmischen Aktienhandel voranzutreiben, Geschäftsrisiken für die Kreditvergabe zu bewerten, Betrug aufzudecken und die Verwaltung von Kredit- und Anlageportfolios für Kunden zu unterstützen.

Führung von Krankenakten

Die Gesundheitsbranche hat seit der Digitalisierung von Krankenhausakten und Bildern stark von Deep-Learning-Funktionen profitiert. Anwendungen zur Bilderkennung können Fachärzte für medizinische Bildgebung und Radiologen unterstützen und ihnen helfen, mehr Bilder in kürzerer Zeit zu analysieren und zu beurteilen.

Strafverfolgungsbehörden setzen Deep Learning ein

Deep-Learning-Algorithmen können Transaktionsdaten analysieren und daraus lernen, um gefährliche Muster zu erkennen, die auf mögliche betrügerische oder kriminelle Aktivitäten hinweisen. Spracherkennung, Computer Vision und andere Deep-Learning-Anwendungen können die Effizienz und Effektivität von Ermittlungsanalysen verbessern, indem sie Muster und Beweise aus Ton- und Videoaufnahmen, Bildern und Dokumenten extrahieren. Dank dieser Fähigkeit können Strafverfolgungsbehörden große Mengen an Daten schneller und genauer analysieren.

Weiterführende Lösungen

IBM watsonx

IBM watsonx ist ein auf Unternehmen abgestimmtes Portfolio von Tools, Anwendungen und Lösungen, die darauf ausgelegt sind, die Kosten und Hürden für die Einführung von KI zu senken und gleichzeitig die Ergebnisse und den verantwortungsvollen Einsatz von KI zu optimieren.

IBM watsonx erkunden

IBM watsonx Assistant – KI-Chatbot

IBM watsonx Assistant ist der intelligente Chatbot für Unternehmen. Diese Technologie der künstlichen Intelligenz für Unternehmen ermöglicht es Benutzern, dialogorientierte KI-Lösungen zu erstellen.

watsonx Assistant entdecken

IBM Watson Studio

Erstellen, betreiben und verwalten Sie KI-Modelle. Bereiten Sie Daten vor und erstellen Sie Modelle in jeder Cloud mit Open-Source-Code oder visueller Modellierung. Sagen Sie Ihre Ergebnisse voraus und optimieren Sie sie.

Watson Studio erkunden

Ressourcen

Erkunden Sie Granite LLM von IBM

Granite ist die führende Serie der IBM LLM-Foundation-Models, die auf einer reinen Decoder-Transformer-Architektur basieren. Granite-Sprachmodelle werden anhand von vertrauenswürdigen Unternehmensdaten aus den Bereichen Internet, Wissenschaft, Coding, Recht und Finanzen trainiert.

Kostenloses, praxisnahes Lernen für generative KI-Technologien

Lernen Sie die grundlegenden Konzepte für KI und generative KI kennen, einschließlich Prompt Engineering, große Sprachmodelle und die besten Open-Source-Projekte.

Eine Einführung in Deep Learning

Erforschen Sie diesen Zweig des maschinellen Lernens, der auf großen Datenmengen trainiert wird und sich mit Recheneinheiten befasst, die im Tandem arbeiten, um Vorhersagen zu treffen.

Architekturen für Deep Learning

Lernen Sie die Grundlagen des maschinellen Lernens und der Deep-Learning-Architektur kennen und entdecken Sie die damit verbundenen Anwendungen und Vorteile.

Deep Learning Frameworks vergleichen

Die Auswahl des richtigen Frameworks für Deep Learning auf der Grundlage Ihrer individuellen Workload ist ein wichtiger erster Schritt beim Deep Learning.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Buchen Sie eine Live-Demo