Zum Inhalt springen →

Buch: (WIP) A Little Bit of Reinforcement Learning from Human Feedback

Neben dem Pretrainging und dem Post-Training ist RLHF eines der 3 wichtigsten Schritte beim Training von modernen LLMs. KI-Systemen werden hierbei aus menschlichem Feedback trainiert und an menschliche Werte und Präferenzen angepasst. In dem Buch „A Little Bit of Reinforcement Learning from Human Feedback“ kann man genau nachlesen, wie das im Detail funktioniert, was ein Reward Modell ist und wie genau die RLHF dem LLM den letzten Schliff gibt. Das Buch zielt darauf ab, eine Einführung in die Kernmethoden von RLHF für Personen mit einem oberflächlichen KI-Hintergrund zu geben.

Aktuell ist das Buch noch nicht komplett fertig. Alle Teile die noch in Arbeit sind habe ich hier als „unvollständig“ gekennzeichnet.

  • Einleitung
    Einführung in RLHF als eine Technik, die dazu dient, menschliche Informationen in KI-Systeme zu integrieren, um schwer zu spezifizierende Probleme zu lösen. Der Fokus liegt auf der Anwendung in Sprachmodellen, wie sie durch ChatGPT bekannt wurde.
  • Verwandte Arbeiten
    Überblick über die wichtigsten Projekte und Veröffentlichungen, die zur Entwicklung von RLHF beigetragen haben. Der Fokus liegt auf der jüngeren Geschichte, die zu ChatGPT führte, wobei frühe Arbeiten im Bereich Reinforcement Learning und deren Anwendung auf Sprachmodelle beleuchtet werden.
  • Definitionen
    Klärung der grundlegenden Begriffe, Symbole und Operationen, die im RLHF-Prozess verwendet werden. Dies umfasst Definitionen aus den Bereichen Machine Learning (ML), Natural Language Processing (NLP) und Reinforcement Learning (RL).
  • Problemformulierung
    Erläuterung, wie RLHF auf der Grundlage des Standard-RL-Setups aufgebaut ist, jedoch mit wesentlichen Änderungen, darunter der Übergang von einer Belohnungsfunktion zu einem Belohnungsmodell, der Verzicht auf Zustandsübergänge und die Verwendung von Belohnungen auf Antwort-Ebene.
  • Das Wesen der Präferenzen
    Diskussion der philosophischen und sozialen Grundlagen von RLHF. Es werden die verschiedenen Perspektiven auf Präferenzen aus den Bereichen Philosophie, Psychologie, Wirtschaft und Entscheidungstheorie beleuchtet.
  • Präferenzdaten
    Erörterung, wie man qualitative Daten wie menschliche Präferenzen in ein numerisches Format umwandelt, sodass ein Belohnungsmodell daraus trainiert werden kann. Es werden Methoden zur Sammlung von Präferenzdaten, Vor- und Nachteile von Rangfolgen vs. Bewertungen sowie die Frage der Repräsentation von Präferenzen in Modellen behandelt.
  • Belohnungsmodellierung
    Detaillierte Beschreibung des Trainings von Belohnungsmodellen, die dazu dienen, menschliche Präferenzen zu erfassen. Dies umfasst Architekturen, Implementierungsbeispiele, Varianten des Trainings (wie Preference Margin Loss und K-wise Loss Function), Outcome Reward Models und Process Reward Models.
  • Regularisierung
    Behandlung von Regularisierungstechniken zur Verhinderung von Overfitting, einschließlich KL-Distanzen und Pretraining-Gradienten.
  • Instruction Tuning
    Dies ist eine Art des Nachverarbeitens, bei der Formatierungen und die Basis für Anweisungen erlernt werden.
  • Rejection Sampling
    Beschreibung der Rejection Sampling-Methode, bei der neue Kandidaten-Anweisungen kuratiert, anhand eines trainierten Belohnungsmodells gefiltert und anschließend das ursprüngliche Modell nur auf den Top-Completions feinjustiert wird.
  • Policy Gradient Algorithmen
    Beschreibung der Algorithmen, die zur Steuerung der Modellrichtlinie verwendet werden. Dazu gehören Vanilla Policy Gradient, REINFORCE, REINFORCE Leave One Out (RLOO), Proximal Policy Optimization (PPO) und Group Relative Policy Optimization (GRPO).
  • Direkte Alignment-Algorithmen (unvollständig)
    Dieser Abschnitt ist unvollständig und wird wahrscheinlich neuere PreFT-Algorithmen (Preference Fine-Tuning) behandeln, die kein RL benötigen.
  • Constitutional AI and AI Feedback (unvollständig) 
    Diskussion der Verwendung von KI zur Augmentierung oder Generierung von Feedback-Daten, einschließlich paarweiser Präferenzen.
  • Reasoning Training and Models (unvollständig)
    Erörterung des Trainings von Modellen für fortgeschrittenes Denken.
  • Synthetische Daten (unvollständig)
    Synthetische Daten können verwendet werden, um RLHF zu unterstützen.
  • Evaluation (unvollständig)
    Überblick über Community-Bewertungstools wie ChatBot Arena.
  • Over Optimization
    In der RLHF-Literatur und Diskussion gibt es zwei Richtungen, in die eine Überoptimierung entstehen kann: quantitative Forschung zur technischen Vorstellung einer Überoptimierung von Belohnungen und qualitative Beobachtungen, dass eine „übermäßige“ RLHF zu schlechteren Modellen führen kann.
  • Style and Information
    Style-Transfer hat die RLHF-Erzählung aus zwei Gründen zurückgehalten.

Alle Details, den Download des PDF und die Links zum Github.com Repository findet man unter https://rlhfbook.com/. Das PDF wird aus dem Sourcen mit Pandoc erstellt und unter der „Attribution-NonCommercial-ShareAlike 4.0 International“ Lizenz veröffentlicht.

Veröffentlicht in Allgemein