4 min read

🇩🇪 KI Glossar

A

Autoregressiv
Ein Modell, das autogenerativ oder autoregressiv genannt wird, erzeugt Text, indem es basierend auf bereits generierten Tokens das jeweils nächste Token vorhersagt. LLMs wie GPT-Modelle nutzen diesen Ansatz, um Wort für Wort oder Token für Token fortzufahren.

E

Embeddings
Embeddings sind mathematische Vektordarstellungen von Wörtern, Token oder Sätzen. Sie dienen dazu, semantische Ähnlichkeiten im n-dimensionalen Raum zu erfassen. So können Wörter mit ähnlicher Bedeutung ähnlich positioniert werden.

Epoch
Eine Epoche ist ein kompletter Durchlauf durch den gesamten Trainingsdatensatz während des Modelltrainings. Nach einer Epoche hat das Modell jeden Trainingssample mindestens einmal gesehen.

F

Fine-Tuning
Fine-Tuning bedeutet, ein bereits vortrainiertes Modell (z. B. GPT, BERT) mit zusätzlichen Daten oder auf eine spezielle Aufgabe (z. B. Klassifikation, Fragebeantwortung) anzupassen. Durch Fine-Tuning werden die Gewichte des Modells an die jeweilige Anwendung weiteroptimiert.

G

GGML / GGUF
GGML (und dessen Nachfolger GGUF) sind spezielle Dateiformate sowie Bibliotheken, um LLMs effizient auf CPUs (und ggf. GPUs) lauffähig zu machen. Sie führen häufig Quantisierungen durch, um den Speicherbedarf zu reduzieren, ohne die Genauigkeit zu stark zu beeinträchtigen.

GPU (Graphics Processing Unit)
Eine GPU kann große Matrizen und Vektoren extrem schnell verarbeiten, was in der KI-Forschung für Training und Inference von großen Modellen genutzt wird.

I

Inference
Inference bezeichnet den Prozess, in dem ein trainiertes Modell auf Eingabedaten angewendet wird, um Vorhersagen oder Ausgaben zu generieren. Bei einem Chatbot ist dies zum Beispiel das Generieren einer Antwort auf eine Nutzerfrage.

L

Large Language Model (LLM)
Ein LLM ist ein großes Sprachmodell, das auf riesigen Textmengen trainiert wurde. Es kann unter anderem Texte verstehen, erzeugen, zusammenfassen oder übersetzen.

LoRA (Low-Rank Adaptation)
LoRA ist eine Technik, bei der nur ein Teil der Modellgewichte aktualisiert wird (oft in einer Low-Rank-Darstellung). Damit lässt sich ein großes Modell ressourcenschonender fine-tunen.

M

Model Checkpoint
Ein Checkpoint ist eine gespeicherte Version der Modellgewichte zu einem bestimmten Zeitpunkt (z. B. während oder nach dem Training). Checkpoints können auch aufgeteilt in mehrere Dateien (Sharding) vorliegen.

Multi-Head Attention
In Transformer-Modellen wird eine Attention-Schicht in mehrere sogenannte „Heads“ aufgeteilt. Diese mehreren Heads können gleichzeitig unterschiedliche Beziehungen zwischen Tokens erlernen und so kontextreiche Repräsentationen erzeugen.

P

Parameter
Parameter sind die Gewichte (Gewichtsmatrizen, Vektoren usw.) eines Modells. Bei LLMs kann die Anzahl in den Milliarden oder sogar Billionen liegen.

Prompt
Ein Prompt ist die Eingabe, die einem LLM gegeben wird, um eine Ausgabe zu erhalten. Die Kunst, Prompts so zu gestalten, dass das Modell die gewünschte Antwort liefert, nennt man Prompt-Engineering.

Q

Quantisierung
Quantisierung ist das Reduzieren der numerischen Präzision von Modellgewichten (z. B. von 16-Bit-Gleitkommazahlen auf 8-Bit oder 4-Bit). Dadurch sinkt der Speicherbedarf und oftmals steigt die Ausführungsgeschwindigkeit, bei nur geringem Genauigkeitsverlust.

S

Safetensors
Safetensors ist ein sicheres und schnelles Dateiformat zum Speichern von Modellgewichten, das vor ungewollter Code-Ausführung schützen soll. Modelle können gesplittet in mehreren Dateien vorliegen (Sharding) und über ein Index-File zusammengeführt werden.

Sharding
Sharding beschreibt das Aufsplitten sehr großer Dateien – etwa Modellgewichte – in kleinere Teilstücke. Dies ist nötig, wenn Dateigrößenlimits überschritten werden oder das Herunterladen/Verteilen einfacher werden soll.

T

Tensor
Ein Tensor ist eine allgemeine Datenstruktur, ähnlich einem mehrdimensionalen Array (0D = Skalar, 1D = Vektor, 2D = Matrix, …). In LLMs werden die Modellgewichte, die Inputs und Outputs in Form von Tensors verarbeitet.

Token
Ein Token ist die kleinste verarbeitete Einheit in einem Sprachmodell (z. B. ein Wort, ein Subwort oder sogar einzelne Zeichen). Das Modell sagt jeweils das nächste Token voraus.

Tokenizer / Tokenization
Der Tokenizer zerlegt Text in einzelne Tokens. Bei der Verwendung von LLMs muss sowohl beim Training als auch bei der Inference der Text getokenized werden.

Transformers
Ein Transformer ist ein Modellarchitektur-Paradigma, das auf dem Attention-Mechanismus basiert. Die meisten modernen großen Sprachmodelle (BERT, GPT, etc.) setzen auf Variationen der Transformer-Architektur.

W

Weight
Weight (Gewicht) ist ein einzelnes Parameterelement innerhalb eines Neuronalen Netzes. In LLMs kann es Milliarden oder mehr davon geben. Die Gesamtheit aller Gewichte bildet den Großteil der Modelldateien.