Warum der Feedbackzettel am Ende einer Schulung fast nichts aussagt – und was wirklich funktioniert
Das Kirkpatrick-Modell in der Praxis: Wie Sie Weiterbildung wirklich messen – und wo Sie aufhören sollten, es zu versuchen.
Ich habe einige Jahre als Berater für eine Trainingsagentur gearbeitet. Am Ende jedes Workshops kam der Feedbackbogen – und der war der Agentur wichtig. Nicht wegen der Viererskala, sondern wegen der Freitextfelder. Denn die Freitextantworten landeten auf der Website. Als Teilnehmerstimmen. Als Qualitätsbeweis.
Was dabei niemand erwähnte: Diese Antworten entstanden im sogenannten Happy Sheet-Moment. Direkt nach dem Workshop, wenn die Stimmung gut ist, der Kaffee noch warm und die Ernüchterung des Alltags noch zwei Tage entfernt. Ob das Gelernte drei Monate später noch angewendet wurde – keine Ahnung. Niemand hat gefragt.
Das Schlimmste daran war nicht die Marketingnutzung. Das Schlimmste war, dass intern mit denselben Zahlen ernsthaft über die Qualität und Nachhaltigkeit der Trainingsmaßnahmen gesprochen wurde. 4,3 Punkte Durchschnitt. Sehr gut. Nächstes Jahr wiederholen.
Manche Unternehmen machen sich mit Absicht qualitätsblind.

Das Modell, das seit 60 Jahren erklärt, warum das nicht reicht
Donald Kirkpatrick hat sein Evaluationsmodell erstmals 1959 veröffentlicht. Seitdem hat es die Weiterbildungsbranche begleitet – und wird trotzdem in der Praxis konsequent falsch angewendet. Oder besser: nur zur Hälfte.
Das Modell kennt vier Stufen:
- Stufe 1 – Reaktion: Wie haben die Teilnehmer die Schulung erlebt? Hat sie ihnen gefallen?
- Stufe 2 – Lernen: Was haben die Teilnehmer tatsächlich gelernt? Welches Wissen, welche Fähigkeiten, welche Einstellungen haben sich verändert?
- Stufe 3 – Verhalten: Wenden die Teilnehmer das Gelernte im Arbeitsalltag an? Hat sich ihr Verhalten im Job verändert?
- Stufe 4 – Ergebnisse: Welche messbaren Auswirkungen hat das auf das Unternehmen? Umsatz, Fehlerquote, Kundenzufriedenheit?
Stufe 1 ist der Feedbackzettel. Die meisten Unternehmen hören hier auf.
Stufe 1: Was sie wirklich misst – und was nicht
Die Reaktionsmessung ist nicht wertlos. Sie zeigt, ob die Schulung als relevant wahrgenommen wurde, ob der Dozent verständlich war, ob das Format gepasst hat. Das ist wichtiges Feedback für die Qualitätssicherung.
Aber: Eine hohe Zufriedenheit bedeutet nicht, dass gelernt wurde. Und noch viel weniger, dass sich etwas im Arbeitsalltag verändert. Es gibt gut dokumentierte Studien, die zeigen, dass beliebte Trainer nicht zwingend die lernförderlichsten sind. Unterhaltung und Transfer sind verschiedene Dinge.
Wer nur auf Stufe 1 misst, weiß ob die Schulung gut ankam. Er weiß nicht, ob sie etwas bewirkt hat.
Stufe 2: Lernen messen – so geht es wirklich
Hier wird es ernst. Und hier scheiden sich die Geister zwischen Trainingsabteilungen, die es wissen wollen, und solchen, die es lieber nicht so genau nehmen.
Lernmessung bedeutet: Vorher und nachher. Ein Wissensstand wird vor der Schulung erhoben, nach der Schulung erhoben, und die Differenz ist der Lernzuwachs.
Das kann einfach aussehen: Ein kurzer Test vor dem Workshop, ein gleicher Test danach. Fünf Fragen, zehn Minuten. Keine große Wissenschaft, aber ein echter Datenpunkt.
Es kann auch komplexer sein: Bei Kommunikationsschulungen etwa lassen sich Rollenspiele vor und nach dem Training strukturiert beobachten und bewerten. Verhaltensbeobachtung mit vorher definierten Kriterien. Was soll sich konkret verändern? Aktives Zuhören? Fragetechnik? Einwandbehandlung? Für jeden dieser Punkte lässt sich eine Beobachtungsskala entwickeln.
Drei praktische Voraussetzungen für funktionierende Stufe-2-Messung:
Erstens: Die Lernziele müssen vor der Schulung klar definiert sein – nicht als blumige Überschriften, sondern als konkrete Verhaltensänderungen. „Die Teilnehmer können nach der Schulung Kundenbedürfnisse mit offenen Fragen herausarbeiten“ ist ein Lernziel. „Die Teilnehmer verstehen Kommunikation besser“ ist keins.
Zweitens: Die Messinstrumente müssen zu den Lernzielen passen. Einen Wissenstest einzusetzen, wenn man Verhaltensfähigkeiten trainiert hat, misst das Falsche.
Drittens: Die Teilnehmer müssen wissen, dass gemessen wird – und warum. Wer den Test als Bedrohung erlebt, liefert keine validen Daten.
Was dabei oft vergessen wird:
Stufe 2 misst, ob in der Schulung etwas angekommen ist. Nicht ob es bleibt. Nicht ob es angewendet wird. Der Transfer in den Alltag ist eine andere Frage – und das ist Stufe 3.
Stufe 3: Verhalten – die schwierigste und wichtigste Stufe
Jetzt wird es wirklich interessant. Und kompliziert.
Die entscheidende Frage ist nicht: Hat der Teilnehmer in der Schulung gelernt, wie gute Kundengespräche funktionieren? Die entscheidende Frage ist: Führt er drei Monate später tatsächlich bessere Kundengespräche?
Diese Differenz ist gewaltig. Und sie ist der Grund, warum Weiterbildung so oft als Investition ohne Return wahrgenommen wird. Das Wissen ist da. Das Können ist da. Aber das Tun verändert sich nicht.
Woran liegt das? In den meisten Fällen liegt es nicht an der Schulung. Es liegt am System, in das die Teilnehmer zurückkehren.
Wenn ein Berater nach einem Kommunikationstraining zurück ins Büro kommt und sein Team nach wie vor ausschließlich per E-Mail kommuniziert, wenn sein Vorgesetzter nie nachfragt, was er aus der Schulung mitgenommen hat, wenn der Alltag sofort wieder mit dem alten Trott beginnt – dann verpufft das Gelernte. Innerhalb von Wochen.
Was Stufe 3 konkret bedeutet:
Verhaltensänderung im Arbeitsalltag lässt sich messen – aber nicht im Feedbackbogen. Sie braucht Beobachtung durch Führungskräfte, die gezielt auf veränderte Verhaltensweisen achten. Das setzt voraus, dass Führungskräfte wissen, was in der Schulung trainiert wurde. Sie braucht Nachbefragungen: 60, 90 Tage nach der Schulung, strukturierte Gespräche oder Kurzumfragen mit Teilnehmern und Vorgesetzten. „Was wenden Sie an? Was nicht? Was hindert Sie?“ Und sie braucht 360-Grad-Feedback: Kolleginnen und Kollegen, Kunden, direkte Berichte geben Rückmeldung auf konkrete Verhaltensweisen.
Und hier kommt ein Faktor ins Spiel, den viele Trainingsabteilungen schlicht nicht auf dem Schirm haben.
Stufe 3 und das Betriebsverfassungsgesetz und warum es hier relevant wird
Wenn Mitarbeiter im Rahmen einer Weiterbildungsevaluation beobachtet, befragt und bewertet werden, hört die rein pädagogische Übung auf – und das Arbeitsrecht beginnt.
Sobald Leistungsbeurteilungen oder Verhaltensbeobachtungen systematisch erhoben werden, greift das Mitbestimmungsrecht des Betriebsrats.
§ 94 BetrVG regelt die Mitbestimmung bei Personalfragebögen und Beurteilungsgrundsätzen. Wenn ein Unternehmen systematische Nachbefragungen oder Beurteilungsbögen zur Verhaltensveränderung nach Schulungen einführt, kann das als Beurteilungssystem im Sinne dieses Paragrafen gewertet werden – mit der Folge, dass der Betriebsrat zustimmen muss.
§ 87 Abs. 1 Nr. 6 BetrVG betrifft die Überwachung von Mitarbeitern durch technische Einrichtungen. Wenn digitale Tools eingesetzt werden, um Verhaltensdaten zu erheben – auch im Rahmen von Lernplattformen mit Trackingfunktionen – ist der Betriebsrat ebenfalls einzubeziehen.
Das ist kein Wunsch der Arbeitnehmervertretung. Das ist geltendes Recht.
In der Praxis bedeutet das: Wer Stufe 3 ernsthaft umsetzen will, muss den Betriebsrat von Anfang an ins Boot holen. Nicht als Pflichtübung, sondern als Partner. Die Erfahrung zeigt, dass Betriebsräte deutlich konstruktiver mitarbeiten, wenn sie frühzeitig eingebunden werden – und nicht erst, wenn das Konzept schon steht.
Stufe 4: Der Return on Investment – und warum ein ganzes Konzernteam damit gescheitert ist
Viele Unternehmen verlieben sich in die Idee, den ROI einer Weiterbildung exakt zu beziffern. Das klingt nach Managementnähe, nach Zahlenorientierung, nach Seriosität.
Ich habe das aus nächster Nähe erlebt. Als ich in einem Konzern im Bereich Sicherheits- und Gebäudetechnik ein Trainingscenter leitete – verantwortlich für die fachliche Ausbildung von rund 2.000 Mitarbeitenden – erschien irgendwann eine Delegation der zentralen Weiterbildungseinheit des Konzerns. Zuständig für übergreifende Themen. Fachlich hatten sie zu unserem Bereich nichts beizutragen. Was sie mitbrachten, waren Formulare. Messmethoden. Nachweissysteme für Weiterbildungswirksamkeit. Schwerpunkt: Stufe 4.
Wir haben die Kollegen freundlich empfangen. Kaffee gab es auch. Aber als die Formulare auf dem Tisch lagen und wir fragten, welchen konkreten Mehrwert das für unsere Produktschule hätte, blieb die Antwort aus. Was folgte, war keine Konfrontation – sondern Koordination. Wir haben uns mit den Trainingcentern anderer Geschäftsbereiche zusammengetan und das Thema gemeinsam nach oben eskaliert. Beim Personalvorstand wurde deutlich gemacht, dass diese Aktivität uns von der eigentlichen Arbeit abhält, ohne erkennbaren Nutzen zu liefern.
Das war das Ende der Formulare.
Diese Geschichte ist kein Einzelfall. Sie beschreibt ein strukturelles Muster in großen Organisationen: Zentrale Einheiten, die ihre Existenz durch Methodik rechtfertigen müssen, landen fast automatisch bei Stufe 4. Weil Stufe 4 nach Substanz klingt. Weil ROI-Zahlen Vorstände beeindrucken. Weil niemand fragt, was der Aufwand für die Erhebung dieser Zahlen tatsächlich kostet.
Und genau das ist das Problem: Der Aufwand für saubere ROI-Messung ist erheblich. Kontrollgruppen, Längsschnittstudien, statistische Kontrolle von Störvariablen – das ist ein Forschungsprojekt, kein Tagesgeschäft. Hinzu kommt die Frage der Kausalität: Wenn nach einem Kommunikationstraining die Kundenzufriedenheit steigt – war das die Schulung? Der neue Teamleiter? Die verbesserte Auftragsstruktur? Der Rückgang von Projektstress?
In komplexen Systemen lässt sich eine Wirkung fast nie monokausal auf eine einzelne Intervention zurückführen. Wer das trotzdem versucht, betreibt im Grunde Fiktion mit Zahlendeko.
Was sinnvoll ist: Einschätzungen statt exakter Messung. Geschäftsführung und Führungskräfte können durchaus qualifiziert einschätzen, ob sich nach einer Weiterbildungsinitiative Verbesserungen zeigen. Das ist kein exakter ROI – aber es ist ehrlicher als eine Zahl, die drei Stellen hinter dem Komma präzise wirkt und in der Sache trotzdem auf Annahmen basiert.
Was das für Ihren nächsten Weiterbildungsauftrag bedeutet
Wenn Sie das nächste Mal einen Kommunikationsworkshop planen – oder irgendein anderes Training –, stellen Sie sich diese Fragen, bevor der erste Termin gebucht wird:
Was genau soll sich verändert haben, wenn die Schulung erfolgreich war?
Nicht: „Die Teilnehmer kommunizieren besser.“ Sondern: „Die Berater nutzen in Kundengesprächen strukturierte Bedarfsanalysen und bestätigen das in Gesprächsnotizen.“
Wie messen wir Stufe 2?
Welche einfachen, validen Instrumente setzen wir ein, um Lernzuwachs zu dokumentieren?
Wer ist für den Transfer verantwortlich?
Wenn die Antwort „die Teilnehmer selbst“ ist, sollten Sie das Geld für die Schulung lieber anderweitig investieren. Transfer braucht Führungskräfte, die nachfragen, und Strukturen, die neue Verhaltensweisen ermöglichen. Wer darauf wartet, dass der Mitarbeitende von alleine über seinen Lernerfolg berichtet, wartet meist vergeblich – warum das so ist, habe ich hier ausführlicher beschrieben.
Haben wir den Betriebsrat einbezogen?
Wenn Verhaltensveränderungen systematisch beobachtet oder erhoben werden sollen: ja, bitte.
Haben wir eine realistische Erwartung an das, was wir messen können?
Stufe 4 ist oft nicht sinnvoll. Das zu akzeptieren ist keine Niederlage – es ist professionelle Klarheit.
Der Feedbackzettel hat seinen Platz. Aber er ist der Anfang einer Evaluation, nicht ihr Ende. Unternehmen, die das verstehen, treffen bessere Entscheidungen über ihre Weiterbildungsbudgets – und bekommen mehr aus ihren Schulungen heraus.
Wer nur die Smileys zählt, zählt die falsche Währung.
Sie arbeiten mit Trainings- oder Personalentwicklungsthemen und fragen sich, wie Sie Evaluation sinnvoll in Ihre Praxis integrieren können?
