Klassische und operante Konditionierung

Sprache lernen im Vorübergehen!

Wenn ein biologischer Reflex (z. B. Speichelfluss bei Futter) mit einem zuvor neutralen Reiz (z. B. einem Ton) in Verbindung gebracht wird, löst dieser Reiz eine ähnliche reflexartige Reaktion aus. Die klassischen Experimente von Pawlow haben gezeigt, dass Hunde lernen können, einen Ton (konditionierter Reiz) mit Futter (unkonditionierter Reiz) zu assoziieren und auf den Ton allein zu speicheln (unkonditionierte Reaktion auf Futter, aber konditionierte Reaktion auf Ton). Ein einprägsamerer Begriff für diese Art des Lernens ist die respondente Konditionierung , da sie betont, dass das Verhalten als Antwort oder Reaktion auf einen auslösenden Reiz auf unwillkürliche Weise erfolgt (im Gegensatz zur operanten Konditionierung.

Pawlows untersuchte ebenfalls die Konditionierungsfähigkeit von Reflexen und versuchte zu katalogisieren, welche Gewohnheiten oder Reflexe als „natürlich“ und welche als „erlernt“ angesehen werden können. Im Rahmen dieses Forschungsprogramms lieferte Watson die klassische Demonstration der konditionierten Angst bei Little Albert, indem er eine zuvor neutrale weiße Ratte in einen Raum brachte und anschließend ein lautes Geräusch verursachte, was unweigerlich dazu führte, dass allein die Anwesenheit der Ratte ausreichte, um Angst auszulösen.

Trotz der scheinbaren Leichtigkeit, mit der die respondente Konditionierung erfolgen kann, gibt es erhebliche Grenzen. Die Verallgemeinerung auf andere Reize geht nur so weit. Die Angst vor einer weißen Ratte verallgemeinert sich auf andere pelzige Objekte, aber nicht auf eine hölzerne Ente. Tiere, denen von einer blauen Flüssigkeit übel wird, meiden andere Flüssigkeiten mit demselben Geschmack oder Geruch, aber sie assoziieren die Übelkeit nicht mit der Farbe Blau. Das vermeintliche Prinzip hierbei ist, dass wir biologisch darauf vorbereitet sind, Geschmack oder Geruch mit Nahrungsmitteln und Ängste mit Geräuschen oder Erscheinungen zu assoziieren. Dennoch sind konditionierte Emotionen eine wichtige Ebene des Lernens, die mit Verhaltens- und kognitiven Handlungen interagiert.

Während die respondente Konditionierung unwillkürliches Verhalten betrifft, befasst sich die operante oder instrumentelle Konditionierung mit freiwilligem oder zielgerichtetem Verhalten. Dieses Verhalten wird von einem Organismus gezeigt, der seine Umgebung erkundet, oft um eine gewünschte Konsequenz oder ein Ziel zu erreichen. Das Erreichen einer erwünschten Konsequenz erhöht die zukünftige Wahrscheinlichkeit dieses Verhaltens, da es zur Erreichung des Ziels beiträgt. Genauer gesagt lernt der Organismus, seine Umwelt zu kontrollieren, während er gleichzeitig von den Konsequenzen der Umwelt geprägt wird. In diesem Fall sprechen wir von einer Verstärkung des Verhaltens: Das Wort Verstärkung bezieht sich auf die Tatsache, dass das Verhalten mit größerer Wahrscheinlichkeit – oder häufiger – in ähnlichen zukünftigen Situationen auftreten wird.

Verstärkung kann auf zwei Arten erfolgen. Positive Verstärkung erfolgt durch den Erhalt von etwas Erstrebenswertem, z. B. wenn man bei der Arbeit Geld verdient oder wenn man ein Level eines Videospiels meistert und Zugang zu neuen Levels oder Fähigkeiten im Spiel erhält. Negative Verstärkung tritt auf, wenn man einem negativen Ergebnis oder einem schädlichen Reiz entgeht, z. B. wenn ein Hund über ein Hindernis springt, um einem Schock zu entgehen, oder wenn ein Schüler fleißig lernt (oder vielleicht schummelt), um einer schlechten Note zu entgehen. Hier beziehen sich positiv und negativ nicht unbedingt auf gutes oder schlechtes Verhalten.

Freiwilliges Verhalten kann auch durch Auslöschung und Bestrafung verändert werden. Extinktion ist der Prozess der Nicht-Verstärkung, bei dem der Lernende lernt, dass die zuvor belohnte Verhaltensweise nicht mehr effektiv ist. Auf diese Weise nimmt die Häufigkeit des Verhaltens schließlich ab, wenn auch nicht in einem gleichmäßigen Muster, da die Nicht-Belohnung frustrierend ist und die Verhaltensreaktion nicht vergessen wurde. Bestrafung hingegen hat eine aversive Konsequenz für ein Verhalten und bewirkt in der Regel, dass das Verhalten zumindest vorübergehend und in Anwesenheit des Bestrafenden unterdrückt wird (man denke nur daran, wie Menschen dazu neigen, die ausgeschilderten Geschwindigkeitsbegrenzungen zu befolgen, wenn Autobahnpatrouillen anwesend sind). Löschung und Bestrafung gehen mit vielen komplexen Effekten und Nebenwirkungen einher, darunter Frustrationseffekte und masochistische Verhaltensweisen.

Wie Skinner feststellte, ist die operante Konditionierung mit Darwins natürlicher Selektion vergleichbar: Verhaltensweisen überleben und werden beibehalten, weil die Konsequenzen sie ausgewählt haben. Die Folgen sind daher für das Verhalten und seine Häufigkeit ausschlaggebend. Dennoch treten Verhaltensweisen in einer Situation oder einem Kontext auf, der Hinweise (diskriminierende Stimuli) für das entsprechende Verhalten liefert. Solche Hinweise sind die Antezedenzien, bei deren Vorhandensein das Verhalten auftritt und die Konsequenzen für zukünftige Ergebnisse ausgewählt werden. Rote und grüne Ampeln sind Hinweise auf unser Stop-and-Go-Verhalten; sie zwingen uns nicht zum Anhalten (wie bei der respondenten Konditionierung). Vielmehr lernen wir zu unterscheiden, wann es angemessen ist, anzuhalten oder zu gehen, vermutlich aufgrund der Konsequenzen, die mit diesen Verhaltensweisen (oder deren Gegenteil) verbunden sind. Einmal erlernt, signalisiert der Hinweis das entsprechende Verhalten, das zur Gewohnheit werden kann, so dass kaum bewusste Kontrolle erforderlich ist und Multitasking gefördert wird.

Je mehr Verstärkung (in Form von Anzahl oder Menge) ein Verhalten erhält, desto schneller oder besser erfolgt das Lernen. Aber jede neue Verstärkung folgt dem Gesetz des abnehmenden Ertrags, wodurch eine Variation der bekannten S-förmigen Lernkurve entsteht. Noch wichtiger als die Menge der Verstärkung ist der Zeitplan der Verstärkung, in dem intermittierende und variable Verstärkung (wie die von Spielautomaten und ihren unvorhersehbaren Belohnungen) über die Zeit hinweg konsistentere Verhaltensweisen hervorruft (d. h., wenn man bei einem Versuch nicht gewinnt, neigt man dazu, es weiter zu versuchen) als kontinuierliche oder völlig vorhersehbare Verstärkung (wie die von Automaten). Wenn ein Verhalten ständig verstärkt wird, geht der Lernende dazu über, diese Verstärkung zu erwarten und sich darauf zu verlassen. Wenn die Verstärkung entzogen wird (z. B. wenn der Automat die Münzen schluckt, aber den Einkauf nicht ausliefert), kann der Lernende emotional frustriert werden. Im Falle des Automaten ist es unwahrscheinlich, dass der Lernende weiterhin Münzen in den Automaten wirft. Wenn ein Verhalten jedoch intermittierend und variabel verstärkt wurde, lernen wir, Frustration zu tolerieren und trotz ausbleibender Verstärkung weiterzumachen (sich der Auslöschung zu widersetzen): Man denke nur an Glücksspieler an Spielautomaten, die trotz anhaltender Verluste weitermachen, oder an Videospieler, die stundenlang nach einem seltenen Gegenstand suchen.