Neuronale Netze — Vom Neuron zum Modell

Einführung

ChatGPT, Stable Diffusion, AlphaFold, Siri — alle basieren auf neuronalen Netzen. Neuronale Netze sind der Motor der modernen KI-Revolution. Sie sind so leistungsfähig, dass sie Bilder beschriften, Proteine falten, Sprache übersetzen und Texte schreiben können — Dinge, die man jahrzehntelang für unlösbar hielt.

Wie funktioniert das? Das Grundprinzip ist überraschend einfach: Viele einfache Recheneinheiten (Neuronen) werden in Schichten angeordnet, und durch wiederholte Fehlerkorrektur lernen die Verbindungsgewichte, Muster in Daten zu erfassen.

Diese Lektion zeigt dir den Weg vom einzelnen künstlichen Neuron bis zum Transformer — dem Herzstück moderner Sprachmodelle.

Grundidee

Das menschliche Gehirn hat etwa 86 Milliarden Neuronen, die über Billionen von Synapsen verbunden sind. Jedes Neuron empfängt Signale, und wenn die Gesamtsignalstärke einen Schwellenwert überschreitet, feuert es ein Signal an seine Nachbarn.

Künstliche neuronale Netze sind sehr abstrakte Inspiration davon: Keine Biologie, sondern Mathematik. Aber die Grundidee — viele einfache Einheiten, die zusammen komplexes Verhalten erzeugen — ist dieselbe.

Erklärung

Das künstliche Neuron

Ein künstliches Neuron hat drei Teile:

Eingaben (Inputs): Zahlen x₁, x₂, …, xₙ — z. B. Pixelwerte eines Bildes.
Gewichte (Weights): Jeder Eingabe ist ein Gewicht w₁, w₂, …, wₙ zugeordnet. Gewichte bestimmen, wie wichtig jede Eingabe ist.
Aktivierungsfunktion: Das Neuron berechnet die gewichtete Summe: z = w₁·x₁ + w₂·x₂ + ... + wₙ·xₙ + b (b = Bias-Term). Dann wendet es eine Aktivierungsfunktion an.

Aktivierungsfunktionen:

Sigmoid: Gibt einen Wert zwischen 0 und 1 aus. Gut für Binäre Ausgaben (Spam/Kein Spam).
ReLU (Rectified Linear Unit): max(0, z) — alles unter 0 wird 0, alles darüber bleibt. Sehr verbreitet in modernen Netzen wegen Effizienz.
Softmax: Gibt eine Wahrscheinlichkeitsverteilung über viele Klassen aus — gut für Mehrklassen-Klassifikation.

Ein einzelnes Neuron ist wie ein einfacher Entscheidungsfilter: Sind die relevanten Signale stark genug — und wie der Schaltkreis sie kombiniert — bestimmt, was weitergegeben wird.

Schichten: Von einfach zu tief

Neuronen werden in Schichten angeordnet:

Eingabeschicht: Nimmt die Rohdaten entgegen (z. B. 784 Pixel für ein 28×28-Bild).
Versteckte Schichten (Hidden Layers): Verarbeitung — hier entstehen abstrakte Repräsentationen.
Ausgabeschicht: Gibt das Ergebnis aus (z. B. 10 Neuronen für Ziffern 0–9).

Alle Neuronen einer Schicht sind mit allen Neuronen der nächsten verbunden (fully connected oder dense).

Beispiel: Ziffernerkennung. Eingabe: 784 Pixel. Versteckte Schicht: 128 Neuronen. Ausgabe: 10 Neuronen (eine pro Ziffer). Das Neuron mit dem höchsten Ausgabewert bestimmt die Vorhersage.

Vorwärtspropagation

Vorwärtspropagation bedeutet: Die Eingabe fließt von links nach rechts durch alle Schichten, bis die Ausgabe berechnet ist.

Schicht für Schicht:

Berechne gewichtete Summe der Eingaben jedes Neurons.
Wende Aktivierungsfunktion an.
Weitergabe an nächste Schicht.

Am Ende gibt das Netz eine Vorhersage aus — zunächst zufällig (weil die Gewichte zufällig initialisiert sind).

Verlustfunktion

Die Verlustfunktion (Loss Function) misst, wie falsch die Vorhersage war. Sie vergleicht Vorhersage mit dem echten Label.

Bei Klassifikation: Kreuzentropie. Wenn das Netz sagt „Ziffer 3 mit 90 % Wahrscheinlichkeit” und die echte Ziffer ist 3 → kleiner Verlust. Wenn es sagt „Ziffer 7 mit 60 %” → großer Verlust.
Bei Regression: Mittlerer quadratischer Fehler (Mean Squared Error).

Ziel des Trainings: Die Gewichte so anpassen, dass der Verlust minimiert wird.

Backpropagation und Gradient Descent

Wie werden die Gewichte angepasst?

Backpropagation (Fehlerrückpropagation) berechnet, wie viel jedes Gewicht zum Gesamtfehler beigetragen hat. Es nutzt die Kettenregel der Differentialrechnung, um den Gradienten des Verlusts bezüglich jedes Gewichts zu berechnen.

Der Gradient zeigt in die Richtung des steilsten Anstiegs des Verlusts. Um den Verlust zu minimieren, gehen wir in die entgegengesetzte Richtung (Abstieg).

Gradient Descent:

neues_gewicht = altes_gewicht - lernrate × gradient

Lernrate: Wie groß sind die Schritte? Zu groß → überspringt das Minimum. Zu klein → dauert sehr lange.

Das passiert für alle Gewichte gleichzeitig, für Tausende von Trainingsbeispielen, für viele Epochen (Durchläufe durch alle Daten). Am Ende haben die Gewichte gelernt, den Verlust zu minimieren — also gute Vorhersagen zu machen.

Deep Learning

Deep Learning bedeutet: Netze mit vielen (tiefen) versteckten Schichten. Warum ist das besser?

Jede Schicht lernt eine Abstraktion der vorherigen. Bei Bilderkennung:

Schicht 1: Kanten und Farben erkennen
Schicht 2: Formen aus Kanten zusammensetzen
Schicht 3: Teile von Objekten (Augen, Räder)
Schicht 4+: Ganze Objekte (Gesicht, Auto)

Diese Hierarchie entsteht automatisch durch Training — niemand programmiert sie. Durch tiefe Netze können extrem komplexe Funktionen gelernt werden, die flache Netze nicht erfassen könnten.

Convolutional Neural Networks (CNN)

CNNs sind spezialisierte Netze für Bilddaten.

Das Problem mit vollständig verbundenen Netzen für Bilder: Ein 256×256-RGB-Bild hat fast 200.000 Eingabewerte. Jedes mit jedem zu verbinden erzeugt astronomisch viele Gewichte.

Convolution: Statt alles mit allem zu verbinden, gleitet ein kleiner Filter (z. B. 3×3) über das Bild und berechnet nur lokale Verbindungen. Der Filter erkennt ein bestimmtes Muster (z. B. horizontale Kanten). Mehrere Filter = mehrere Muster.

Max Pooling: Reduziert die räumliche Auflösung — hält nur das stärkste Signal in einem Bereich. Das macht das Netz robuster gegenüber kleinen Verschiebungen.

CNNs sind die Grundlage von Bilderkennung, medizinischer Bildanalyse, autonomem Fahren.

Transformer und LLMs

Transformer (2017, Google Brain: „Attention is all you need”) sind die Architektur hinter modernen Sprachmodellen wie GPT, BERT, T5.

Das Schlüsselkonzept: Self-Attention. Statt Wörter sequenziell zu verarbeiten, betrachtet der Transformer alle Wörter gleichzeitig und berechnet für jedes Wort, wie viel Aufmerksamkeit es anderen Wörtern schenken soll.

Beispiel: „Die Bank, an der wir saßen, war kalt.” Das Wort „Bank” — meint es Geldinstitut oder Sitzgelegenheit? Durch Attention sieht das Modell, dass „saßen” und „kalt” in der Nähe sind — und lernt den Kontext.

Large Language Models (LLMs) wie GPT-4 sind Transformer mit:

Milliarden bis Billionen von Parametern (Gewichten)
Training auf hunderten Milliarden Textwörtern
Vorhersage des nächsten Tokens (Wortteil)

LLMs lernen kein „Verständnis” — sie lernen statistische Beziehungen zwischen Tokens aus riesigen Textmengen. Das reicht für beeindruckende Leistung — erklärt aber auch die Grenzen: Halluzinationen, fehlende Kausalität, Bias aus Trainingsdaten.

Grenzen neuronaler Netze

Daten: Tiefe Netze brauchen riesige Datenmengen. Bei wenig Daten: Overfitting.
Rechenaufwand: Training von GPT-4 kostete schätzungsweise 100 Millionen Dollar und erzeugte erhebliche CO₂-Emissionen.
Interpretierbarkeit: Warum hat das Netz diese Entscheidung getroffen? Oft unklar — ein zentrales Problem für sicherheitskritische Anwendungen.
Verteilungsverschiebung: Wenn die realen Daten anders verteilt sind als die Trainingsdaten, bricht die Leistung ein.

Beispiel aus dem Alltag

Gesichtserkennung (CNN):

Dein Handy hat ein CNN, das auf Millionen beschrifteten Gesichtsfotos trainiert wurde. Bei jedem Entsperrversuch: Bild → Convolution-Schichten extrahieren Merkmale → Dense-Schichten → „Ist das die registrierte Person?” Ja/Nein.

ChatGPT (Transformer + LLM):

Du gibst einen Text ein (Prompt). Das Modell berechnet Self-Attention über alle Tokens, verarbeitet sie durch viele Transformer-Blöcke und sagt das wahrscheinlichste nächste Token voraus — dann das übernächste, usw. Es generiert keine „Gedanken”, sondern statistische Fortsetzungen.

AlphaFold (Transformer):

DeepMind nutzte Transformer-Architekturen, um aus einer Aminosäure-Sequenz die 3D-Struktur eines Proteins vorherzusagen — ein Problem, das Jahrzehnte der Strukturbiologie revolutioniert hat.

Anwendung

Arbeite folgendes Szenario durch:

Du trainierst ein neuronales Netz zur Klassifikation von handgeschriebenen Ziffern (0–9).

Wie viele Ausgabe-Neuronen braucht dein Netz? Was gibt jedes davon aus?
Dein Netz sagt für eine 3 voraus: [0.05, 0.02, 0.08, 0.70, 0.04, 0.03, 0.02, 0.02, 0.02, 0.02]. Wie interpretierst du das Ergebnis?
Was würde passieren, wenn du die Lernrate sehr groß wählst (z. B. 100)? Was wenn sehr klein (z. B. 0.00001)?
Welche Schicht des Netzes würde einfache Kanten lernen — und welche komplexere Muster?

Typische Fehler

Mehr Schichten = immer besser: Zu viele Schichten bei zu wenig Daten oder schlechtem Training führen zu Overfitting oder Gradienten, die verschwinden (vanishing gradients) — das Netz lernt dann in frühen Schichten nichts mehr.

Aktivierungsfunktion vergessen: Ohne Aktivierungsfunktionen wäre ein mehrschichtiges Netz mathematisch äquivalent zu einem einschichtigen (weil lineare Transformationen hintereinander wieder linear sind). Die Nichtlinearität der Aktivierungsfunktion ist entscheidend.

LLMs verstehen Text: LLMs berechnen statistische Muster über Tokens. Sie haben kein Weltmodell, kein Verständnis, keine Absichten — auch wenn ihre Ausgaben so wirken.

Training = einmaliger Vorgang: In der Praxis ist Training iterativ: Hyperparameter anpassen, Architektur modifizieren, Daten bereinigen, Fehler analysieren. Kein Modell ist beim ersten Training fertig.

Zusammenfassung

Ein künstliches Neuron berechnet eine gewichtete Summe seiner Eingaben und wendet eine Aktivierungsfunktion an
Netze bestehen aus Eingabe-, versteckten und Ausgabeschichten; vollständig verbundene Schichten verbinden jedes Neuron mit dem nächsten
Vorwärtspropagation: Daten fließen durch das Netz; Verlustfunktion misst den Fehler
Backpropagation + Gradient Descent: Gradienten werden berechnet, Gewichte werden in Richtung kleineren Verlusts aktualisiert
Deep Learning: viele Schichten ermöglichen Merkmalshierarchien; CNNs für Bilder nutzen Convolution statt vollständiger Verbindungen
Transformer mit Self-Attention sind die Basis von LLMs; sie lernen statistische Sprachmuster — kein Verständnis im menschlichen Sinne

Quiz

Frage 1: Was macht eine Aktivierungsfunktion — und warum ist sie für tiefe Netze unverzichtbar?

Frage 2: Erkläre Backpropagation in drei Sätzen.

Frage 3: Was ist Self-Attention bei Transformern — und warum ist es hilfreich für Sprache?

Frage 4: Was sind die wichtigsten Grenzen neuronaler Netze?