El condicionamiento operante de Skinner

Aunque el condicionamiento instrumental u operante está forzosamente vinculado a la figura de B. F. Skinner, sus principios fueron establecidos por Thorndike a comienzos del siglo XX.

La ley del efecto de Thorndike

Thorndike realizó experimentos con gatos a los que metía en el interior de una caja que sólo se abría al accionar un resorte. Fuera de la caja ponía comida y los gatos intentaban escapar para alcanzarla. Al principio su movimiento era aleatorio hasta que, por casualidad, lograban salir. En los sucesivos intentos los gatos repetían acciones similares pero cada vez encontraban más rápidamente la manera de conseguir su recompensa. Estas observaciones le condujeron a enunciar la ley del efecto:

La conexión entre estímulo y respuesta se fortalece si va seguida de una consecuencia placentera y se debilita si va seguida de una consecuencia desagradable.

Por tanto, los actos que tienen consecuencias satisfactorias tenderán a repetirse, lo que constituye el principio fundamental del aprendizaje que sostiene la teoría del condicionamiento operante que desarrolló Skinner.

condicionamiento-operante

El condicionamiento operante de Skinner

Para Skinner la conducta puede explicarse mediante las conexiones entre estímulos y respuestas, sin necesidad de considerar los procesos mentales. Entiende que existe una conducta respondiente, provocada por estímulos conocidos, que puede comprenderse mediante el condicionamiento clásico, pero que la mayor parte de la conducta humana es operante, es decir, que es emitida espontáneamente por el organismo sin necesidad de recurrir a estímulos conocidos.

Skinner adoptó la ley del efecto de Thorndike y denominó refuerzo o reforzador a todo estímulo que sigue a una respuesta y que incrementa la probabilidad de que ésta se repita. Los estímulos que actúan como reforzadores pueden ser de dos tipos:

  • Reforzadores positivos: cuando la consecuencia que fortalece la conducta es la aparición de un estímulo (normalmente placentero).
  • Reforzadores negativos: cuando lo que fortalece la conducta es la supresión de un estímulo (normalmente aversivo o desagradable).

Así, el reforzamiento es el uso de determinados reforzadores para favorecer o fortalecer una conducta y, como éstos, puede ser positivo o negativo. Ambos tienen el mismo efecto: aumentar la probabilidad de la respuesta. Por ejemplo, se tiene un reforzamiento positivo cuando una mujer recibe piropos al estrenar un vestido o un alumno chistoso recibe halagos por sus gracias (véase que las conductas reforzadas no tienen por que ser “positivas” en el sentido de beneficiosas). Por el contrario, un reforzamiento negativo puede ser el molesto pitido del cinturón de seguridad del coche que no se desactiva hasta que nos lo abrochamos (la desaparición del sonido refuerza nuestra conducta).

Es importante no confundir el reforzamiento negativo con el castigo, ya que el reforzamiento, sea positivo o negativo, siempre implica el fortalecimiento de la conducta, mientras que el castigo supone la disminución o supresión de un determinado comportamiento. La misma distinción que se hace para los reforzadores se puede aplicar a los castigos:

  • Castigos positivos (o por presentación): cuando la consecuencia que debilita la conducta es la aparición de un estímulo (en este caso, aversivo). No me puedo resistir a poner como ejemplo la mítica escena de cierre de los Simpsons en la que Bart está copiando repetidamente la misma frase después de clase.
los-simpson-bart-escribe-pizarron-16

¡Castigado después de clase!, un ejemplo de castigo “positivo”

  • Castigos negativos (o por remoción): cuando lo que fortalece la conducta es la supresión de un estímulo (en este caso, placentero). Muchas madres nos darías buenos ejemplos de ellos: ¡castigado sin tele!, ¡castigado sin propina! o ¡castigado sin móvil!

En resumen:

Reforzamiento-castigo

Programas de reforzamiento

El uso de reforzadores permite fortalecer o fomentar una conducta, es decir, aumentar la probabilidad de que se produzca una determinada respuesta. La efectividad de este condicionamiento depende, sobre todo, del modo de efectuar ese reforzamiento.

La manera más sencilla es el reforzamiento continuo, que consiste en aplicar el reforzador cada vez que se produce la respuesta deseada; con él se consigue un rápido aprendizaje. Ahora bien, una vez que la respuesta operante ha sido condicionada éstas se mantienen mejor cuando el reforzador no se aplica de forma continua sino de forma intermitente. Según Skinner, hay dos programas básicos de reforzamiento intermitente: los programas de intervalo y los programas de razón.

Los programas de intervalo tienen como base el tiempo, es decir, el reforzador se aplica después de un determinado periodo de tiempo, que puede ser fijo o variable:

  • Los programas de intervalo fijo consisten en administrar el reforzador tras un periodo o intervalo constante de tiempo, independientemente de las respuestas que emita el sujeto. Con ellos, la frecuencia de respuestas aumenta según se aproxima el momento del reforzamiento y luego disminuye. Tienen poca persistencia y la frecuencia de respuestas decae rápidamente si cesa el reforzamiento.
  • En los programas de intervalo variable el periodo de tiempo entre un reforzador y otro varía aleatoriamente. Consigue una frecuencia de respuestas lenta y estable y una mayor persistencia que el anterior.

Los programas de razón se basan en la respuesta del sujeto, esto es, el reforzador se aplica después de que el sujeto emite un determinado número de respuestas, que también puede ser fijo o variable:

  • En los programas de razón fija el reforzador se administra tras la realización de un número establecido de respuestas. Consigue una frecuencia de respuestas rápida pero poco persistente cuando cesa el reforzador. Producen, según Skinner, una frecuencia muy alta de respuestas siempre que la razón no sea demasiado alta.
  • En los programas de razón variable el número de respuestas entre un reforzador y otro varía aleatoriamente, de manera que el sujeto nunca sabe si su respuesta será reforzada. Ofrece una frecuencia de respuestas muy alta y mayor persistencia que el anterior.

Tanto el reforzamiento continuo como los dos programas fijos de reforzamiento intermitente son bastante predecibles, por lo que su persistencia es menor: los programas variables son los más apropiados para el mantenimiento de las respuestas.

Además, la velocidad de respuestas depende del control que se tenga sobre el reforzamiento. En los programas de razón el individuo ofrece más rápidamente las respuestas con el fin de conseguir el reforzamiento.

Al igual que ocurre en el condicionamiento clásico, la supresión del reforzamiento conduce a la extinción, aunque el proceso puede tardar cierto tiempo.

Skinner y la enseñanza

En 1954 Skinner escribió un artículo, titulado La ciencia del aprendizaje y el arte de la enseñanza, en el que hace un diagnóstico de los males de las escuelas y, al mismo tiempo, aporta un conjunto de sugerencias para la enseñanza.

El principal problema que advirtió Skinner fue que el número de alumnos en un aula era excesivo, por lo que éstos tenían pocas posibilidades de responder a las preguntas del profesor y, cuando tenían esta oportunidad, el reforzamiento o castigo recibido se hacía tras un intervalo de tiempo excesivamente largo, con lo que perdía toda su eficacia.

Las críticas de Skinner a la enseñanza tradicional se centraban en torno a cuatro puntos:

  • En el aula la conducta está controlada generalmente por el estímulo aversivo (los profesores tendían a hacer más uso del castigo que de la recompensa).
  • Cuando se utilizaban recompensas, el tiempo que transcurre entre la respuesta y el reforzamiento es excesivamente largo, por lo que pierden su eficacia.
  • Ausencia de reforzamientos en serie (los programas educativos no estaban organizados de una manera sistemática que permitiera avanzar a los estudiantes paso a paso, a través de una serie de aproximaciones sucesivas, con reforzamientos correspondientes, hasta llegar a la conducta final deseada).
  • Poca frecuencia de reforzamiento (la cantidad total de recompensas administradas a los estudiantes era extremadamente baja, por lo que no se aplicaba el reforzamiento intermitente necesario para consolidar una respuesta).

¿Crees que estas observaciones tienen vigencia en la actualidad?

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s