instrumental Condicionamiento

CondicionamientoinstrumentalPID_00273424

Joan Sansa i Aguilar

Tiempo mínimo de dedicación recomendado: 11 horas

© FUOC • PID_00273424 Condicionamiento instrumental

Joan Sansa i Aguilar

Doctor en Psicología por la Univer-sidad de Barcelona. Actualmente esprofesor del Departamento de Psi-cología Básica de la Universidad deBarcelona. Su investigación se cen-tra en el estudio del aprendizaje aso-ciativo.

La revisión de este recurso de aprendizaje UOC ha sido coordinadapor la profesora: Belén Jiménez Alonso (2020)

Cuarta edición: febrero 2020© Joan Sansa i AguilarTodos los derechos reservados© de esta edición, FUOC, 2020Av. Tibidabo, 39-43, 08035 BarcelonaRealización editorial: FUOC

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escritade los titulares de los derechos.


Índice

Introducción............................................................................................... 5

1. Definición de condicionamiento instrumental......................... 7

1.1. La conducta emergente o voluntaria. El hedonismo como

mecanismo de la conducta voluntaria ....................................... 7

1.2. Comparación entre condicionamiento clásico e instrumental ... 8

2. Preparaciones experimentales: ensayos discretos y

conducta operante............................................................................. 11

2.1. Ensayos discretos ......................................................................... 11

2.2. Operante libre ............................................................................. 12

2.3. El modelado ................................................................................ 14

3. Procedimientos de condicionamiento instrumental................ 17

4. Elementos del condicionamiento operante................................ 20

4.1. El estímulo discrimitativo ........................................................... 20

4.2. La respuesta instrumental ........................................................... 23

4.3. El estímulo reforzador ................................................................. 26

4.4. La relación respuesta-reforzador: contigüidad temporal y

contingencia ................................................................................ 32

5. Programas de reforzamiento.......................................................... 39

5.1. Programas de reforzamiento continuo ....................................... 39

5.2. Programas de razón ..................................................................... 40

5.3. Programas de intervalo ............................................................... 42

5.4. Comparación de los programas de razón y de intervalo ............ 45

5.5. Conducta de elección: programa concurrente y programa

concurrente encadenado ............................................................. 46

5.5.1. Programa concurrente ................................................... 47

5.5.2. Programa concurrente encadenado ............................... 53

6. Extinción de la respuesta instrumental...................................... 56

6.1. Otros efectos de la extinción sobre la respuesta instrumental .... 58

7. Condicionamento aversivo.............................................................. 60

7.1. Evitación y escape ....................................................................... 60

7.2. Castigo ......................................................................................... 65

8. Teorías del condicionamiento instrumental.............................. 73

8.1. Estructura asociativa del condicionamiento instrumental ......... 74


8.1.1. Asociaciones E-R ............................................................ 74

8.1.2. Asociaciones R-C ............................................................ 76

8.1.3. Asociaciones E-C ............................................................ 78

8.1.4. Asociaciones jerárquicas ................................................ 79

8.2. Teorías sobre la regulación de la conducta ................................. 80

9. Generalización y discriminación................................................... 84

9.1. Generalización y discriminación ................................................ 85

9.2. Gradientes de generalización ...................................................... 85

9.3. Discriminaciones extra e intradimensionales ............................. 87

9.4. La transposición y el desplazamiento del vértice ....................... 88

9.5. Teoría de Spence (1936) .............................................................. 90

9.6. Teoría de la discriminación basada en procesos de atención ...... 96

9.7. Aprendizaje perceptivo ................................................................ 98

10. Aprendizaje por observación.......................................................... 106

10.1. Teorías de la imitación ................................................................ 107

10.1.1. La imitación como instinto ........................................... 107

10.1.2. La imitación como una respuesta instrumental ............ 110

10.1.3. La teoría de Bandura sobre el aprendizaje por

imitación ........................................................................ 112

10.2. Factores que afectan a la probabilidad de la imitación ............... 113

10.2.1. Características del modelo ............................................. 114

10.2.2. Características del aprendiz ........................................... 115

10.2.3. Características de la situación ....................................... 116

10.3. Influencia del aprendizaje por observación en el desarrollo

cognitivo ...................................................................................... 118

Ejercicios de autoevaluación.................................................................. 121

Solucionario................................................................................................ 125

Glosario........................................................................................................ 126

Qué deberíais saber................................................................................... 128

Bibliografía................................................................................................. 129

© FUOC • PID_00273424 5 Condicionamiento instrumental

Introducción

El objetivo de este módulo es proporcionar a los estudiantes conocimientos

sobre el condicionamiento instrumental, la generalización y la discriminación

y el aprendizaje por observación.

A lo largo del módulo se presentarán procedimientos, fenómenos y teorías re-

lacionadas con la conducta instrumental o dirigida a una meta. Toda conducta

que realizamos tiene un efecto sobre el entorno físico o social. El condiciona-

miento instrumental estudia, pues, cómo detectamos los efectos que tienen

nuestras conductas y cómo estos efectos o consecuencias influyen a su vez en

nuestro comportamiento. También se presentan numerosos ejemplos de la vi-

da cotidiana con el objetivo de facilitar la comprensión y la transferencia de los

conceptos teóricos a las situaciones reales. En este sentido, es importante que

los estudiantes hagan un esfuerzo con el fin de encontrar ejemplos diferentes

a los propuestos al módulo para poder asentar los conocimientos alcanzados.

En el apartado de generalización y discriminación, nos centraremos en aque-

llos estímulos que llegan a controlar la conducta de las personas. Es importan-

te para nuestra adaptación poder generalizar y discriminar entre estímulos. La

generalización tiene claras ventajas evolutivas. En el mundo real raramente

encontramos el mismo estímulo dos veces. Un ejemplo muy característico es

el reconocimiento de caras: aprendemos a reconocer a una persona con inde-

pendencia de su peinado, el tipo de gafas o la ropa que lleva.

Es crucial, por lo tanto, que la respuesta no se produzca exclusivamente en

presencia del estímulo concreto que encontramos en el momento del condi-

cionamiento. Por otra parte, en los organismos también podemos discriminar

estímulos muy diferentes. Y, en ocasiones, estímulos muy parecidos pueden

tener consecuencias opuestas, por lo que convendrá aprender a discriminar-

los. El aprendizaje de discriminación se produce cuando nos exponemos a dos

o más estímulos, que, a pesar de ser muy parecidos, tienen como consecuencia

efectos radicalmente opuestos.

Finalmente, el módulo dedica un último apartado al aprendizaje por observa-

ción. Es importante poder aprender por medio de la conducta de los otros.

Se ha demostrado que ver las consecuencias de los comportamientos de otras

personas regula nuestro propio comportamiento. Analizaremos varias carac-

terísticas del aprendizaje por observación, así como las variables que influyen

en este aprendizaje. También estudiaremos algunas de las teorías que se han

propuesto para explicar el aprendizaje por observación.


1. Definición de condicionamiento instrumental

1.1. La conducta emergente o voluntaria. El hedonismo como

mecanismo de la conducta voluntaria

Hasta ahora hemos estudiado diferentes situaciones en las que los estímulos

provocaban respuestas en los organismos. En la respuesta refleja, la presencia

de un estímulo activa automáticamente una respuesta. De esta manera, un

trozo de alimento introducido dentro de la boca activará la respuesta de sali-

vación.

También hemos visto cómo la conducta refleja puede ser modulada por medio

de la experiencia: la habituación y la sensibilización modifican la intensidad

de la respuesta, reduciéndola o intensificándola, respectivamente. En el mó-

dulo "Condicionamiento clásico pavloviano" hemos analizado el condiciona-

miento clásico. Si un estímulo inicialmente neutro, por ejemplo el olor de

pan acabado de hacer, se empareja sistemáticamente con la introducción del

pan en la boca, ambos estímulos, olor y pan, quedan asociados y el estímulo

neutro es capaz de provocar una respuesta que inicialmente no provocaba.

En el ejemplo, el olor de pan puede provocar respuestas como la salivación,

movimientos de la boca y otros. El estímulo olor sirve de señal que anticipa

el alimento y prepara al organismo para recibirlo. Desde esta perspectiva, la

conducta es una consecuencia del estímulo. Pero hay otras situaciones en las

que la relación se invierte y son precisamente los estímulos la consecuencia

de nuestra conducta.

Un ejemplo simple servirá para ilustrar esta situación:

Si entramos en una habitación que está a oscuras, podemos manipular el interruptorde la luz y hacer que se ilumine. Así pues, primero ejecutamos una conducta y despuésaparece la consecuencia.

Podemos decir que nuestra conducta es el instrumento que nos permite

modificar el entorno, ya sea físico o social. Por este motivo esta conduc-

ta recibe el nombre de conducta�instrumental.

Un análisis más detallado de la situación mencionada nos permite darnos

cuenta de que hemos ejecutado la conducta con un objetivo: iluminar la sala.

Por ello, a menudo se define la conducta instrumental como "dirigida�a�una

meta". Pero todavía más, podríamos no haber encendido la luz.

Por ejemplo, si sabemos que en la habitación hay un bebé que se acaba de dormir, po-dríamos decidir no encender la luz para no despertarlo.


Por lo tanto, la conducta instrumental puede encajar perfectamente en lo que

conocemos como conducta�voluntaria.

Descartes diferenció entre la conducta involuntaria y la conducta voluntaria.

El primer caso sería la conducta refleja, esto es, todo comportamiento provo-

cado por un estímulo y que estaría sometido a unos principios mecanicistas

como el arco reflejo. Por otra parte, la conducta voluntaria no estaría controla-

da por ningún mecanismo, sino que estaría determinada por el libre albedrío.

Dicho con otras palabras, si encendemos la luz de una habitación es porque

queremos y así lo decidimos.

No obstante, existe una explicación alternativa de la conducta voluntaria que

recurre a mecanismos deterministas. Hobbes propuso que la conducta volun-

taria seguiría el principio del hedonismo, según el cual y en sentido estricto el

placer es el único o principal bien de la vida. Aplicado al control de la conduc-

ta voluntaria tendremos que el objetivo de la conducta es la busca del placer

y la huida del dolor.

Volvamos al ejemplo que nos ocupa. Si al entrar en la habitación a oscuras

encendemos la luz, este acto se puede explicar porque con la sala iluminada

podemos evitar tropezar con muebles u objetos que no vemos y el dolor que

nos podría causar. También, con la luz podremos localizar más rápidamente

aquello que hemos ido a buscar. Por otra parte, podemos no encender la luz

si en la habitación duerme un bebé para no despertarlo y evitar las molestias

que podría causar.

Así pues, la conducta voluntaria vendría determinada por las conse-

cuencias agradables y desagradables que origina.

De hecho, y como veremos a continuación, los procedimientos de condiciona-

miento instrumental se centran en las consecuencias que tiene nuestro com-

portamiento sobre estímulos apetitivos (agradables) y estímulos aversivos (des-

agradables).

1.2. Comparación entre condicionamiento clásico e instrumental

Ya hemos apuntado las diferencias entre el condicionamiento clásico y el con-

dicionamiento instrumental. Los dos tipos de condicionamiento se basan en

el mecanismo de la asociación y sus principios.

La idea básica es que dos acontecimientos que se presentan contiguos en el

tiempo quedan asociados. A pesar de esta generalidad, en la actualidad se co-

nocen muchas condiciones que modulan este mecanismo y muchas de ellas


son aplicables a los dos tipos de condicionamiento. En todo caso, la diferen-

cia básica entre condicionamiento clásico y condicionamiento instrumental

radica en la naturaleza de los elementos que se asocian.

• En el condicionamiento�clásico los acontecimientos que quedan asocia-

dos son dos estímulos que el organismo�no�puede�manipular. Podemos

aprender que un cielo nublado puede significar una alta probabilidad de

lluvia. En consecuencia, podemos no salir de casa o, en caso de hacerlo,

tomar el paraguas. Estas conductas, sin embargo, en ningún caso alterarán

la presentación de los estímulos.

• En cambio, en el condicionamiento�instrumental los acontecimientos

implicados son una conducta y un estímulo; de tal manera que la conducta

alterará este estímulo, haciéndolo aparecer si estaba ausente o haciéndolo

desaparecer si estaba presente. Si se pone a llover mientras vamos por la

calle, abrir el paraguas impedirá que nos mojemos.

Como consecuencia de estas características, el condicionamiento clásico nos

sirve para anticipar hechos importantes o su ausencia, mientras que el condi-

cionamiento instrumental nos sirve para alterar nuestro entorno con el obje-

tivo de hacerlo más agradable.

El primer investigador formalmente aceptado dedicado al estudio del condi-

cionamiento instrumental fue Thorndike (1898, 1911). Sus trabajos tenían

como finalidad estudiar la inteligencia animal y consistían en presentar a unos

gatos una serie de problemas para estudiar cómo los solucionaban.

Construyó unas cajas de madera que tenían una puerta abatible sujetada por

uno o más pestillos. Los pestillos podían ser manipulados por varios mecanis-

mos, como por ejemplo directamente con la pata del animal o por medio de

un pedal al que se ataba una cuerda. Cuando Thorndike encerraba a un gato

hambriento en una de estas cajas, podía observar que el pobre animal no tenía

la más mínima intuición de lo que debía hacer para poder escapar de su con-

finamiento y acceder a un bol lleno de comida que se encontraba en el exte-

rior de la caja. Como medida objetiva de la evolución del animal, Thorndike

cronometraba el tiempo que tardaba en escapar de la caja.

No es de extrañar que en los primeros ensayos agotara todo el tiempo (por

ejemplo, 5 minutos) sin alcanzar con éxito su objetivo. Pero a medida que

Thorndike iba presentando el mismo problema a los gatos, observó que el

tiempo que necesitaban para escaparse disminuía progresivamente. Precisa-

mente la reducción del tiempo de escapada era el dato que indicaba que los

animales habían aprendido cómo solucionar el problema, es decir, qué res-

puestas debía ejecutar para poder abrir la puerta y acceder a la comida. Sin

embargo, ¿cómo se explicaba este aprendizaje? Según Thorndike, no había

Edward�L.�Thorndike

La "caja problema"


rastro de conducta intuitiva, sino que los gatos iban llevando a cabo diferen-

tes comportamientos hasta que alguno de ellos proporcionaba la solución del

problema. Esta estrategia se llama ensayo�y�error.

De hecho, los animales realizaban muchas conductas, la mayoría de las cuales

no tenían ninguna consecuencia. Pero de vez en cuando, aparecía una con-

ducta que permitía abrir la puerta y acceder a la comida. Según Thorndike,

las conductas infructuosas tendían a desaparecer mientras que se selecciona-

ban aquellas otras que tenían éxito. Sin embargo, ¿qué mecanismo era el res-

ponsable de esta selección? Siguiendo a Thorndike, cuando un animal ejecuta

una conducta que va seguida de un acontecimiento agradable entonces los

estímulos presentes en el momento de la respuesta y la respuesta quedaban

conectados de modo que en el futuro la presencia de los estímulos activaba

directamente la respuesta a ellos conectada. Si la consecuencia era aversiva,

entonces la conexión se debilitaba. Este mecanismo se conoce como ley�del

efecto.

Tened en cuenta que el papel de la consecuencia (agradable o desagradable)

era más bien secundario y servía para fortalecer o debilitar la conexión entre

los estímulos y las respuestas, pero no quedaba conectada a ninguno de es-

tos elementos. Esta manera de explicar el condicionamiento instrumental era

coherente con la explicación que se daba inicialmente al condicionamiento

clásico siguiendo el esquema E-R1 (estímulo-respuesta) y que años más tarde

adoptaron los psicólogos dentro del enfoque conductista.

(1)En la actualidad se sabe que estaasociación E-R no es la única quepuede establecerse en situacionesde condicionamiento, tanto clásicocomo instrumental.


2. Preparaciones experimentales: ensayos discretos yconducta operante

2.1. Ensayos discretos

En el procedimiento experimental de Thorndike, el animal quedaba encerrado

en la caja problema hasta que ejecutaba la conducta (o cadena de conductas)

instrumental que lo liberaba y le permitía el acceso a la comida. Después de

comer, el animal era retirado de la situación experimental hasta el siguiente

ensayo. Este tipo de procedimiento recibe el nombre de ensayos�discretos. Las

principales características son que sólo se permite realizar una vez la respuesta

instrumental en cada ensayo y una vez dada se retira el animal del aparato.

Actualmente existen unas cuantas tareas de ensayo discreto que se han con-

vertido en estándares.

La tarea de ensayo discreto más utilizada es la del laberinto. A comienzos del

siglo XX se utilizaban laberintos muy complejos, pero poco a poco se fueron

simplificando hasta llegar al pasillo o laberinto de pasadizo recto y a los labe-

rintos en forma de T o Y. El pasillo (podéis ver la figura siguiente, b) tiene una

caja de salida en uno de los extremos y una caja de meta en el otro. Un ensayo

de condicionamiento empieza colocando al animal (generalmente una rata)

en la caja de salida. Seguidamente se abre la puerta que da acceso al pasillo y se

permite que el animal camine hasta llegar a la caja meta donde normalmente

encontrará el reforzador, comida o agua.

Esquema de un laberinto con forma de T (a) y de un pasillo recto (b). S = caja de salida; PE = punto de elección; M1, M2 y M =cajas meta


El laberinto en forma de T (podéis ver la figura anterior, a) está diseñado para

estudiar la conducta de elección, ya que contiene un brazo de salida y dos cajas

metas. Tened en cuenta que el punto de unión entre el brazo de salida y los dos

brazos meta es el punto de elección. En este punto el animal debe decidir a cuál

de las dos metas posibles se dirigirá. La manipulación experimental permite

varias alternativas.

Se puede poner comida sólo en uno de los brazos pero no en el otro. También se podríanutilizar dos tipos de reforzador, como por ejemplo una base de agua y harina en uno delos brazos y la misma base pero endulzada en la otra meta.

En los laberintos se pueden medir varias variables. En el pasillo se suele calcu-

lar la velocidad de carrera o la latencia de la respuesta –el tiempo que tarda el

animal en iniciar el recorrido–. La velocidad de carrera normalmente aumen-

ta a medida que se repiten los ensayos de condicionamiento, mientras que

la latencia de la respuesta se acorta. En el laberinto en T la medida más habi-

tual es el porcentaje de elección del brazo crítico. Al tener dos alternativas,

un porcentaje de elección del 50% indica que la elección es al azar, mientras

que porcentajes por encima del 50% indican que el animal aprende dónde se

encuentra la comida (en caso de que sólo haya comida en uno de los brazos)

o una preferencia por una de las dos comidas (en el caso de utilizar dos tipos

diferentes de alimentos).

2.2. Operante libre

Dadas las características de los ensayos discretos, la conducta del animal es-

tá restringida por las condiciones programadas por el investigador. Skinner

(1938) creó un procedimiento que permitía el estudio de la conducta de ma-

nera continua. Si analizamos el comportamiento de una persona o de un ani-

mal, podremos darnos cuenta de que la conducta fluye constantemente y a

menudo se hace difícil determinar claramente las diferentes unidades de con-

ducta. Skinner resolvió este problema introduciendo el concepto de respuesta

operante, que se define a partir del efecto que tiene una conducta sobre el

entorno del animal.

Una respuesta operante en un humano puede ser introducir unas monedas en una má-quina y pulsar el botón correspondiente del refresco que se quiere consumir.

Todo este patrón de conducta será un operante, ya que tiene la propiedad de

modificar el entorno haciendo accesible una bebida que antes de realizar la

respuesta no podíamos tomar. En el laboratorio se estudia la respuesta operan-

te con la caja de Skinner o caja�de�condicionamiento (podéis ver la figura

siguiente).

La caja de condicionamiento consta de un espacio en el que se sitúa al animal.

Dentro de este habitáculo hay varios elementos que sirven para ejecutar res-

puestas y presentar estímulos. Como mecanismos de respuesta se pueden uti-

lizar distintas modalidades, pero las más comunes son la palanca de respuesta

en el caso de las ratas y la tecla de respuesta en el caso de las palomas. La pa-


lanca es un mecanismo que el animal puede presionar y, una vez deja de hacer

presión, vuelve a su posición original. La tecla de respuesta es un botón en el

que el ave puede picotear. En ambos casos, cada vez que se ejecuta la respuesta

se registra en un ordenador. Normalmente, cuando el animal ejecuta la res-

puesta operante activa un mecanismo que dispensa un poco de comida. La co-

mida recibe el nombre de reforzador, ya que su presentación inmediatamente

después de la respuesta refuerza la conducta. No obstante, en determinados

experimentos la respuesta operante va seguida de un estímulo aversivo como

puede ser una descarga eléctrica moderada que se administra en la planta de

los pies por medio de un enrejado metálico.

Esquema de una caja de condicionamiento o caja de Skinner

En una de las paredes podemos encontrar los mecanismos para dispensar estímulos (altavoz, luces, comedero). Tambiénencontramos un mecanismo de respuesta que en el caso de las ratas suele ser una palanca de respuesta y en el caso de laspalomas es una tecla de respuesta.

La preparación del operante libre nos permite estudiar la conducta dentro de

un continuo. Pero ¿cómo medimos la conducta operante? Partimos de la base

de que es el animal quien determina cuándo y con qué frecuencia realizará la

conducta a lo largo del tiempo, más que el propio experimentador. Skinner

propuso la medida de la tasa�de�respuesta para analizar la conducta operante.

La tasa de respuesta es la frecuencia con la que la conducta aparece por

unidad de tiempo (un minuto, por ejemplo).

La manera más habitual de medir la tasa de respuesta es el registro�acumula-

tivo de respuestas (podéis ver la figura siguiente).

Skinner�en�su�laboratorio�con�una�caja�decondicionamiento


Un registro acumulativo es un modo de representar la forma de repetirse

una respuesta a lo largo del tiempo.

Muestra el número total (o acumulado) de respuestas que se han producido

hasta un momento concreto. A la hora de representar gráficamente un registro

acumulativo, situaremos en el eje de abcisas el tiempo y en el eje de ordenadas,

las respuestas acumuladas. Cada vez que aparece una respuesta (una presión

de palanca, por ejemplo), la curva que se dibuja incrementará una unidad en

el eje de abscisas.

La figura muestra una gráfica de un registro acumulado

Las pendientes de las respuestas acumuladas (líneas punteadas) indican la frecuencia de la respuesta: cuanto más inclinadasea la pendiente, más alta es la frecuencia de la respuesta. Las rayas oblicuas que cortan el registro acumulado representanlos reforzadores dispensados. El registro se ha obtenido a partir de una simulación con la rata virtual Sniffy (Alloway, Wilson yGraham, 2006).

Por otra parte, cada unidad de tiempo que transcurra hará que la curva se

desplace en el eje de abcisas. Las variaciones en las dos variables (tiempo y

respuestas acumuladas) generan una curva que variará en su pendiente. Si la

rata no ejecuta la respuesta operante, obtendremos que el registro acumulativo

sólo crece en sentido horizontal, ya que va transcurriendo el tiempo, mientras

que no hay cambios en el eje de ordenadas, puesto que no hay respuestas

que acumular. El resultado es que se dibuja una pendiente nula, es decir, una

línea completamente horizontal. A partir del momento en el que se producen

respuestas y se van acumulando, la curva empieza a mostrar una pendiente. Es

precisamente la inclinación de la pendiente la que nos da información sobre la

frecuencia de ejecución de la respuesta operante, de modo que las pendientes

suaves indican que la tasa de respuesta es baja mientras que las pendientes

muy inclinadas muestran tasas de respuesta altas.

2.3. El modelado

Cuando situamos por primera vez a una rata en una caja de condicionamiento,

raramente observaremos que el animal ejecute la respuesta espontáneamente.

Se hace necesario enseñarle a presionar la palanca. Este entrenamiento pasa

por varias fases. En primer lugar, es necesario que el animal sepa cuándo ha

obtenido el reforzador y dónde lo encontrará. Este entrenamiento se basa en

un condicionamiento clásico.


El procedimiento consiste en presentar reforzadores independientemente de

la conducta que esté realizando la rata. Hay que señalar que el dispensador

de comida emite un ruido característico cada vez que se pone en marcha, in-

cluso la comida hace ruido en el momento de caerse en el comedero. Estos

ruidos actúan como estímulo condicionado, ya que quedan asociados con la

presentación de la comida, que actúa como estímulo incondicionado. La res-

puesta condicionada generada por este condicionamiento que nos interesa es

el acercamiento al comedero. Se trata, pues, de un procedimiento del segui-

miento�del�signo, ya que al acercarse al lugar donde se localiza el ruido se

acerca también a la comida. El entrenamiento en el comedero, que es como

se conoce este entrenamiento, tendrá la ventaja de que el ruido, una vez tiene

las propiedad de estímulo condicionado, también sirve como reforzador. De

esta manera, cuando el animal ejecute la respuesta operante y oiga el ruido,

la respuesta será reforzada inmediatamente, incluso si el animal tarda unos

segundos en acercarse al comedero a recoger la comida.

Una vez que el animal ya ha recibido el entrenamiento en el comedero, está

en condiciones de aprender la respuesta operante deseada. En el caso de la rata

que ha de presionar la palanca, ya decíamos que difícilmente ejecutará la res-

puesta de manera espontánea. Esto provoca que necesitemos programar este

aprendizaje. La técnica utilizada normalmente es el modelado, que se define

como el reforzamiento de aproximaciones sucesivas a la respuesta requerida.

Toda conducta, especialmente las conductas complejas como presionar una

palanca, pueden desglosarse en unidades simples. Si analizamos con detalle la

respuesta de presionar la palanca, podremos identificar estas unidades. Para

ejecutar la conducta, la rata debe atender a la palanca, acercarse a ella, ponerse

de pie, apoyarse encima de la palanca y hacer fuerza hacia abajo a fin de que

la palanca baje. Si nos fijamos bien en toda esta secuencia de movimientos,

nos daremos cuenta de que cada unidad por sí misma es fácil de observar en

una rata de manera espontánea: una rata inspecciona y atiende a diferentes

objetos de su entorno, se pone recta sobre las patas de detrás, toca y manipula

objetos con sus manos, se apoya sobre objetos o las paredes de la caja.

En definitiva, la conducta que se debe modelar es nueva en cuanto al

conjunto y patrón de movimientos que requiere, pero no en cuanto a

las unidades de conducta que la componen.

Así, para modelar la conducta de presión de palanca en una rata, podríamos

empezar por reforzar cada vez que el animal se pone recto sobre las patas pos-

teriores y con independencia de en qué lugar de la cámara lo haga. Podremos

observar que, con el entrenamiento necesario, este comportamiento aparece

cada vez con más frecuencia de lo que lo hacía inicialmente. El siguiente pa-


so consistirá en restringir el reforzador a cuando se pone en pie pero en una

ubicación próxima a la palanca, y no lo reforzaremos por ponerse en pie si se

encuentra lejos de ella.

Vemos, aquí, una segunda característica del modelado, no reforzar las

formas de conducta más tempranas una vez se hayan alcanzado.

Al igual que antes, veremos que la rata cada vez tiende a localizarse más cer-

ca de la palanca. Siguiendo con el modelado, podremos pasar a reforzar sólo

cuando el animal se ponga en pie justo delante de la palanca. Para acabar, po-

dremos reforzar sólo si la rata toca la palanca cuando se pone en pie o cuando

vuelve a la posición sobre las cuatro patas. Si todo ha procedido correctamente,

observaremos que el animal pasa bastante rato tocando la palanca y en algún

momento hará suficiente fuerza sobre la palanca para que ésta baje y accione

automáticamente el mecanismo que le entregará la comida. A partir de este

momento, detendremos nuestra intervención y dejaremos que el animal siga

manipulando la palanca por su cuenta.

La técnica del modelado se ha utilizado con éxito en muchos campos distintos

en los que se debían instaurar nuevos comportamientos tanto en humanos

como en otras especies de animales. Los adiestradores de animales enseñan

a delfines, lobos marinos, perros, caballos y otro tipo de animales a realizar

conductas sorprendentes tanto para espectáculos como para ayudar a personas

con determinadas discapacidades.

Modelado en humanos

En el caso de los humanos, elmodelado puede utilizarse pa-ra perfeccionar habilidades endeportes, artes y como terapiaen casos donde las personasson incapaces de seguir ins-trucciones verbales.


3. Procedimientos de condicionamiento instrumental

Hasta ahora nos hemos centrado en una situación muy concreta de condicio-

namiento instrumental: cuando la aparición de la respuesta iba seguida de la

obtención de unos estímulos agradables como la comida. No obstante, hay

muchas otras situaciones de condicionamiento instrumental.

Algunos padres pueden dar un helado de postre a su hijo si se ha comido un plato depatatas hervidas con acelgas, o pueden prohibirle ver la televisión durante una tarde si elniño ha pegado a su hermano. Una persona puede golpear a su perro si el animal enseñalos dientes agresivamente a un vecino. Podemos quitar las pilas a un reloj si su tictac nonos deja dormir.

Todos estos ejemplos han implicado un condicionamiento instrumental, es

decir, la respuesta ejecutada supone una consecuencia. En dos de los ejemplos

se incluyen hechos agradables (un helado, ver la televisión). Un hecho agra-

dable lo denominamos estímulo�apetitivo. Los otros dos ejemplos incluyen

hechos desagradables (un golpe, un ruido molesto). Un hecho desagradable

lo denominamos estímulo�aversivo. Además, dos de los ejemplos expuestos

implican que la respuesta provoca la presentación del estímulo que no estaba

presente antes de dar la respuesta (gruñir el perro y comer el plato de patatas

y acelgas). En estos casos hablamos de una contingencia positiva entre la res-

puesta y el estímulo. Por el contrario, algunas veces la conducta instrumental

provoca que un estímulo presente antes de dar la respuesta desaparezca cuan-

do ésta se produce (pegar al hermano, quitar las pilas del reloj). Es decir, en

estas situaciones la contingencia entre respuesta y estímulo es negativa.

Por lo tanto, los diferentes procedimientos de condicionamiento instrumen-

tal se clasifican en función de la contingencia positiva o negativa entre la res-

puesta y el estímulo sobre la que actúa la respuesta y por la naturaleza del

estímulo consecuente.

1)�Reforzamiento�positivo

Cuando ponemos una moneda en una máquina y obtenemos el refresco que nos apetece,cuando cobramos el sueldo a final de mes, cuando la pareja nos da un beso, cuando lehacemos un regalo, todos son ejemplos de reforzamiento positivo.

En cada uno de ellos, una respuesta ha provocado la aparición de un estímulo

apetitivo. Si se realiza la respuesta, el estímulo apetitivo aparece, si no está

la respuesta, entonces el estímulo apetitivo no se presenta. Por lo tanto, la

contingencia entre la respuesta y el estímulo es positiva. Los efectos que tiene

el reforzamiento positivo sobre la conducta es que incrementa la probabilidad

de aparición de la conducta.

2)�Castigo�positivo�o�simplemente�castigo


Si ponemos los dedos en un enchufe, recibiremos una descarga eléctrica, si tocamos unacafetera justo cuando acabamos de hacer el café, nos quemaremos, si el gato se afila lasuñas en el sofá, le gritamos.

En cada una de estas situaciones la conducta ha provocado la aparición de un

estímulo aversivo y son ejemplos de castigo. La contingencia entre la respuesta

y el estímulo aversivo es positiva, ya que el estímulo sólo se presenta si antes

se ha dado la respuesta. Las consecuencias del castigo sobre la conducta es que

provoca una tendencia a desaparecer o a disminuir.

3)�Reforzamiento�negativo

Una persona que tiene fobia a los perros puede salir corriendo si de sopetón se encuentrade frente con un perro. Un conductor puede llevar el coche al mecánico para realizar unarevisión antes de un viaje largo para evitar una avería.

Éstos son dos ejemplos del procedimiento de reforzamiento negativo. En am-

bos casos se establece una contingencia negativa entre la respuesta y un estí-

mulo aversivo. La persona que huye en presencia de un perro puede conseguir

alejarse del perro. El conductor que lleva el coche al mecánico puede evitar

una avería y las consecuencias aversivas que tiene. Aunque las dos situaciones

son prácticamente iguales, existe una diferencia notable entre ellas.

• En el primer caso la persona se ha encontrado directamente con el estímu-

lo aversivo (el perro) y la respuesta ha provocado la desaparición del estí-

mulo. En otras palabras, la persona ha escapado de la situación aversiva.

Este procedimiento recibe el nombre de procedimiento�de�escape.

• En el segundo caso, el estímulo aversivo (la avería del coche) no se ha

llegado a producir, es decir, la conducta se realiza sin que esté presente el

estímulo aversivo e impide que aparezca. Se trata de un procedimiento

de�evitación. Es importante remarcar que en el caso de la evitación, debe

haber algún hecho que anticipe la posibilidad de la situación aversiva.

Si la persona con fobia a los perros pasea por una calle y oye ladrar a un perro, puedecambiar de itinerario antes de encontrarse cara a cara con el animal y, en definitiva, estáevitando al animal. En el caso del conductor, podría haber experimentado en el pasadouna avería de su coche justo en medio de los Monegros de noche. El conocimiento quetiene de realizar un viaje largo podría anticipar la posibilidad de una avería, y efectuar larevisión del coche impediría o reduciría que se repitiera en el futuro.

Sea como sea, el reforzamiento negativo provoca que la conducta se repita en

el futuro.

4)�Castigo�negativo�o�entrenamiento�de�omisión

Un adolescente responde mal a uno de sus padres y éste le retira el teléfono móvil duranteuna semana; la dirección de tráfico quita puntos del carné de conducir a un conductorque ha sido pillado circulando a más de 140 km por hora.


Ambos ejemplos muestran una contingencia negativa entre una conducta y un

estímulo apetitivo. Si se produce la conducta, se retira un estímulo agradable

para la persona. La consecuencia de estas situaciones sobre la conducta es que

tenderá a desaparecer. Los procedimientos de entrenamiento de omisión tam-

bién reciben el nombre de reforzamiento�diferencial�de�otras�conductas2.

Es necesario realizar algunos comentarios finales sobre los términos utilizados

para referirse a los procedimientos de condicionamiento instrumental.

En primer lugar, los términos positivo y negativo no se refieren a valoraciones

del procedimiento ni al tipo de estímulo implicado en el condicionamiento,

sino que se refieren exclusivamente a la contingencia entre la respuesta y el

estímulo.

Otra aclaración que ayudará a la comprensión de los diferentes procedimien-

tos es que cuando hablamos de reforzamiento nos referimos a que la con-

ducta será reforzada, es decir, tenderá a incrementar su probabilidad de apari-

ción o se mantendrá. En cambio, cuando hablamos de castigo nos referimos

a aquellos procedimientos que provocarán una reducción en la frecuencia de

la conducta.

Una confusión común se da entre castigo y reforzamiento negativo. A menudo

encontramos personas, incluso profesionales de la psicología, que utilizan el

término reforzamiento negativo como sinónimo de castigo, probablemente en

contraposición al término reforzamiento positivo. Atendiendo al origen de los

términos positivo y negativo referidos a la contingencia y al significado del tér-

mino reforzamiento (incremento de la conducta) y castigo (reducción de la con-

ducta) esta confusión no debería producirse.

Tipo de consecuencia

Apetitiva Aversiva

Positiva Reforzamientopositivo

Castigo positivoCorrelación respuesta- consecuencia

Negativa Castigo nega-tivo o entrena-miento de omi-sión

Reforzamientonegativo:1) Escape2) Evitación

En la tabla se muestran los cuatro procedimientos del condicionamiento instrumental en función de la correlación entre la res-puesta y la consecuencia (entrada de las filas) y del tipo de consecuencia (entrada de las columnas)

(2)Este término refleja el hecho deque el individuo recibe un estímuloapetitivo periódicamente siempreque se dedique a realizar una con-ducta diferente a la respuesta ins-trumental especificada por el pro-cedimiento.


4. Elementos del condicionamiento operante

Un organismo está ejecutando conductas de manera continua. Algunas de es-

tas conductas pueden coincidir con un estímulo reforzador. Además, las con-

ductas se producen en un contexto en el que hay gran cantidad de estímulos.

Imaginemos que hemos quedado con unos amigos y hemos decidido ir a tomar unos re-frescos en un bar. En esta situación encontramos muchos estímulos presentes: los propiosamigos con los que hemos quedado, la decoración del bar, la época del año (si hace caloro frío), la ropa que llevamos, la gente que nos rodea, la hora del día y muchos más. Ade-más, a lo largo del encuentro podemos realizar varias conductas: podemos dar un trago alrefresco, hablar de una anécdota, de una noticia que ha aparecido en los diarios, rascar-nos, sonreír, escuchar, contar un chiste, etc. Además, a lo largo de este flujo de conductaspodemos encontrar algunas que van seguidas de un estímulo reforzador, por ejemplo, siexplicamos un chiste y el resto de amigos ríen, y otras pueden no tener consecuencias,por ejemplo, si cambiamos de postura las piernas probablemente no tendrá consecuen-cias sobre nuestros amigos. Como resultado de estas disposiciones, habrá conductas quese verán seleccionadas y otras no. Precisamente aquellas que van seguidas del reforzadortendrán más probabilidad de repetirse que las que no van seguidas del reforzador. Si he-mos contado un chiste y los amigos se han reído, es muy posible que nosotros mismosu otros compañeros cuenten un segundo chiste, e incluso podemos estar unos minutoshaciendo gala de nuestro conocimiento de estas historietas cómicas.

Pero cambiemos de escenario.

Ahora estamos en el tanatorio para dar el pésame a un amigo nuestro por la muerte desu padre. Es difícil pensar que en esta situación alguien pueda contar un chiste, pero encambio es mucho más probable que aparezcan comentarios sobre otras defunciones.

Las dos situaciones ilustran cómo los estímulos presentes en una situación

pueden controlar nuestra conducta.

Por lo tanto, para llegar a la comprensión de la conducta instrumental

se deben tener en cuenta los tres elementos y las relaciones que se es-

tablecen entre ellos, lo que se conoce como una contingencia de tres

términos: los estímulos discriminativos o antecedentes, las respuestas y

las consecuencias.

4.1. El estímulo discrimitativo

El estímulo discriminativo es aquel que aparece antes de ejecutar la con-

ducta instrumental y que, por lo tanto, es el antecedente de la conducta

instrumental.


Thorndike, en su ley del efecto3, consideraba que el estímulo discriminativo

controlaba totalmente la conducta instrumental. Esta explicación lleva a la

concepción de la conducta instrumental como una reacción ante los estímulos

del entorno.

No obstante, Skinner demostró que la conducta instrumental estaba contro-

lada por el estímulo reforzador, es decir, por las consecuencias que tiene la

conducta.

Así, si damos comida a una rata para presionar una palanca observaremos que la tasa dela conducta incrementa y se mantiene en un determinado nivel. Pero si dejamos de darel reforzador, entonces el animal dejará de emitir la conducta. Si finalmente volvemos aintroducir el reforzador cada vez que la rata presiona la palanca, la conducta reapareceráde nuevo.

Estos datos indican que la conducta instrumental está controlada por sus con-

secuencias. Entonces, ¿cuál es el papel de los estímulos antecedentes?.

Una posible respuesta es que tengan un papel informativo con respecto a la

disponibilidad o no del reforzador. De esta manera, una situación determina-

da indicará si la respuesta puede ser reforzada o no lo será, pero en última ins-

tancia quien controlará que se emita o no la conducta son las consecuencias

de ésta. Si los estímulos del entorno anticipan la disponibilidad del reforzador,

y estamos suficientemente motivados para obtenerlo, entonces realizaremos

la conducta adecuada para conseguir el reforzador.

Diferencia entre estímulo discriminativo y condicionado

A menudo se ha hecho énfasis en indicar que un estímulo discriminativo no es un es-tímulo condicionado, ya que los estímulos condicionados provocan la respuesta condi-cionada, es decir, controlan directamente la conducta condicionada, mientras que unestímulo discriminativo no provoca la respuesta, sino que sólo indica la posibilidad delreforzador.

No obstante, la distinción entre estímulo discriminativo y estímulo condicio-

nado en ocasiones no es tan clara.

Experimento de Bechterev

Por ejemplo, Bechterev realizó un experimento en el que un tono precedía sistemá-ticamente a una descarga eléctrica que se administraba en la planta del pie de unosperros. En este experimento, Bechterev midió la respuesta de flexión de pata en pre-sencia del tono como una respuesta condicionada y observó que, a medida que avan-zaba el entrenamiento, los animales flexionaban la pata en presencia del tono, lo quellevaba en la mayoría de los ensayos a que los animales evitaran el estímulo aversivo.

La interpretación de Bechterev fue que la flexión de pata era una respuesta

condicionada que se activaba cuando aparecía el tono. La disposición experi-

mental permite una segunda interpretación desde el punto de vista del condi-

cionamiento instrumental. Si el animal daba la respuesta de flexión de pata,

entonces un estímulo aversivo dejaba de presentarse o, dicho con otras pala-

(3)Recordemos que la ley del efec-to explica la conducta instrumentalmediante las asociaciones E-R, esdecir, entre los estímulos discrimi-nativos y las respuestas.


bras, la supuesta respuesta condicionada controlaba la presentación del estí-

mulo. Desde este punto de vista, Bechterev había diseñado una situación de

reforzamiento negativo.

¿Cuál era la función del estímulo discriminativo? ¿Realmente provocaba la

respuesta de flexión de pata o sólo informaba de que se presentaría un estímulo

doloroso y la flexión de pata se había seleccionado porque era útil para evitar

la descarga?

Si atendemos al hecho de que en el condicionamiento clásico el organismo

no tiene control sobre los estímulos, entonces hemos de aceptar que los datos

de Bechterev se ajustan más a la interpretación del condicionamiento instru-

mental, ya que sus perros controlaban la presentación o no de la descarga fle-

xionando la pata. Centrémonos ahora en otra situación común a muchos ex-

perimentos de condicionamiento clásico en los que la respuesta condicionada

es el acercamiento al comedero. Si presentamos un EC, como puede ser un

tono, y sistemáticamente va seguido de la entrega de comida en el comedero,

entonces podemos observar que poco a poco los animales introducen la cabe-

za en el comedero con más frecuencia durante el tono que cuando éste no está

presente. La interpretación de este dato es que el acercamiento al comedero es

una RC provocada por el EC. Como en esta situación el animal experimenta

los dos estímulos, el EC y el EI y, en un primer análisis, ninguno de los dos

estímulos parecen estar bajo el control del animal, los investigadores no han

dudado en clasificar la respuesta de acercamiento al comedero como respuesta

condicionada.

Sin embargo, podríamos realizar una nueva interpretación de la situación: el

tono podría ser un estímulo discriminativo que señala la próxima presenta-

ción de la comida y que la respuesta de acercamiento al comedero fuera una

respuesta instrumental que permite al animal tener acceso a la comida. Si la

rata no se aproxima al comedero, no obtendrá la comida. Tanto la presenta-

ción de la descarga en el experimento de Bechterev o la presentación de la co-

mida están programados por el experimentador. Éstos se presentan igualmen-

te en el entorno pero que los animales los lleguen a experimentar depende en

última instancia de su comportamiento, flexionando la pata se evita recibir la

descarga y acercándose al comedero se facilita el acceso a la comida.

La cuestión de fondo es si el estímulo antecedente, el tono en los dos ejem-

plos, provoca directamente la respuesta observada o provoca respuestas tanto

emocionales, como puede ser el miedo en el caso de anticipar un estímulo

aversivo o "alegría" en el caso de la comida, como fisiológicas, por ejemplo, un

incremento en la tasa cardiaca cuando se anticipa una descarga o la salivación

cuando se anticipa la comida, que motivan al animal para ejecutar la respuesta

que le permite controlar los cambios en el entorno. Sea como sea, la cuestión

permanece sin resolver aunque profundizaremos en ella cuando analicemos

los mecanismos asociativos implicados en el condicionamiento instrumental.


4.2. La respuesta instrumental

El segundo elemento que vamos a analizar en el condicionamiento instrumen-

tal es la respuesta. Una de las ideas que podemos tener con respecto al con-

dicionamiento instrumental es que podemos condicionar cualquier conducta

siempre y cuando la reforcemos. Nada más lejos que eso.

Al igual que en el condicionamiento clásico, donde determinadas com-

binaciones de EC y EI eran más fáciles de condicionar que otras, en el

condicionamiento instrumental observaremos que hay conductas más

fáciles de condicionar.

Algunos de estos límites están relacionados con la preparación biológica de

los organismos para enfrentarse a determinadas situaciones; otros se refieren

a la interferencia de conductas innatas con las conductas que queremos con-

dicionar.

Thorndike observó diferencias en la facilidad de condicionar determinadas

conductas en sus gatos. Por ejemplo, cuando intentó condicionar respuestas

como rascarse o bostezar como respuestas instrumentales, encontró que, a pe-

sar de que los animales aprendían a ejecutarlas para obtener el reforzador, la

forma de las conductas variaba a lo largo del entrenamiento. Al principio las

respuestas eran intensas, pero en ensayos posteriores eran sólo simulacros de

rascado o de bostezos.

Thorndike propuso el concepto de pertenencia para explicar este comporta-

miento de los animales. Según Thorndike, determinadas conductas son cohe-

rentes con el reforzador por la historia evolutiva de la especie. De esta manera,

manipular objetos, apoyarse en las paredes, etc. son comportamientos natu-

rales de un gato cuando está encerrado en un espacio. En cambio, rascarse y

bostezar no son comportamientos que permitan a los animales escaparse de

una situación de confinamiento. Probablemente, la debilidad de las respuestas

de rascarse y bostezar observadas por Thorndike se debía a que no eran perti-

nentes para escapar de la caja en la que estaban encerrados.

Los primeros en publicar datos sobre la dificultad de entrenar determinadas

conductas siguiendo los principios del condicionamiento instrumental fueron

los Breland (Breland y Breland, 1961) en su artículo titulado "The Misbehavior4

of Organisms". Los Breland fueron estudiantes de Skinner y se dedicaron en su

vida profesional a entrenar animales de muy distintas especies para que reali-

zaran conductas complejas. Entrenaban a los animales para zoos, anuncios de

televisión y otras actuaciones públicas. Si bien tenían éxito con muchas de las

conductas que entrenaban, se encontraron con la dificultad o imposibilidad

de entrenar algunas de ellas en determinadas especies animales.

(4)El término Misbehavior podemostraducirlo como mala conducta oconducta errónea (en algunas tra-ducciones al castellano se utiliza eltérmino conducta�maladaptati-va).


El caso más conocido probablemente sea cuando quisieron que un ma-

pache tomara unas monedas y las introdujera dentro de una caja. Al

principio se entrenó al animal con una sola moneda y aprendió fácil-

mente a agarrar la moneda e introducirla dentro de la caja, con lo que

conseguía comer como reforzador. Pero cuando se le dieron dos mone-

das simultáneamente para que las guardara en la caja, la conducta se

deterioró marcadamente. En lugar de tomar las monedas y ponerlas en

la caja (con lo que conseguiría rápidamente el reforzador), el mapache

sostenía las monedas entre las manos durante unos minutos, a menudo

rozándolas entre ellas, y en ocasiones dejándolas en la caja y volviendo

a tomarlas inmediatamente.

Los mapaches pueden aprender varias conductas, como por ejemplo encestar una pelota. En cambio, resultó difícilcondicionarlos a introducir monedas en una hucha

A pesar de que estas conductas no se reforzaron nunca, cada vez apa-

recían con más frecuencia hasta el punto de que los Breland tuvieron

que desistir en su intento de entrenarlos. Encontraron los mismos pro-

blemas cuando querían entrenar conductas similares en cerdos. En un

principio los cerdos aprendían a tomar una "moneda" de madera y la

metían en una caja, pero después de muchos intentos los animales em-

pezaban a alterar su comportamiento y mostraban respuestas como de-

jar caer la moneda y hocicar en el barro, volver a dejarla caer y hocicar

otra vez. Evidentemente, estas conductas no eran reforzadas, pero los

animales mostraban una fuerte tendencia a realizarlas.


¿Cómo es posible que unas respuestas que impiden la presentación del refor-

zador se mantuvieran con tanta fuerza? Los Breland se dieron cuenta de que

las conductas erróneas eran aquellas que los mapaches y los cerdos realizaban

normalmente como parte de su repertorio de conductas para la recolección de

comida. Ya que estas conductas parecían estar relacionadas con las respuestas

innatas de los sujetos, las denominaron derivas�instintivas:

Con una gran experiencia, la actuación de los sujetos se aleja de las res-

puestas reforzadas hacia las conductas instintivas que aparecen cuando

el animal está buscando el reforzador (en este caso, comida) en el medio

natural.

Otro aspecto del condicionamiento instrumental es que, la presentación del

reforzador después de una determinada respuesta provoca que ésta se seleccio-

ne en detrimento de otras respuestas. Una consecuencia de esta selección es

que el condicionamiento instrumental promueve una reducción en el rango

de respuestas que ejecutará un individuo. Efectivamente, si la única manera

que tiene una rata hambrienta para obtener comida es presionar una palanca,

veremos que esta conducta ocupa la mayor parte del tiempo del animal, al

menos mientras tenga hambre.

Una cuestión importante es si podemos, por medio del condicionamiento ins-

trumental, promover un incremento en la variabilidad�en�la�conducta. En

la mayoría de los procedimientos de condicionamiento instrumental el inves-

tigador selecciona una respuesta concreta y la refuerza cuando aparece. Pero

¿podremos condicionar a un animal para que ejecute cada vez una respuesta

diferente para conseguir el reforzador?

Page y Neuringer (1985) demostraron que el condicionamiento instrumental

podía utilizarse para provocar una variabilidad en la conducta.

Experimento de Page y Neuringer (1985)

En su investigación reforzaron a unas palomas con comida para ejecutar una secuen-cia de ocho picotazos a dos teclas de respuesta en una caja de condicionamiento. Parauno de los grupos, el grupo de control, no se puso ninguna restricción en la secuenciade las ocho respuestas. Esto es, cada vez que había picoteado ocho veces las teclascon independencia de qué tecla picoteaba y en qué orden lo había hecho, recibía elreforzador. Para el segundo grupo, el grupo experimental, se incluyó una restricciónpara recibir el reforzador. De hecho, los animales del grupo experimental sólo reci-bían comida si la secuencia de picotazos en las teclas de respuesta era diferente a lassecuencias de respuestas que el animal había realizado en los últimos 50 ensayos.

La frecuencia de respuestas diferentes (secuencias derecha-izquierda) durante

los primeros días de entrenamiento fue del 50% en los dos grupos. En cambio,

al final del entrenamiento, mientras los animales del grupo control, sin nin-

guna restricción en la secuencia de respuestas derecha-izquierda, mostraron


una tendencia a realizar la misma secuencia (el porcentaje de secuencias dife-

rentes era de menos del 20%), los animales del grupo experimental mostraban

más del 75% de secuencias diferentes.

Estos resultados muestran claramente que si tomamos como respuesta

instrumental la variabilidad en la conducta, podemos reforzarla y pro-

mover de esta manera que los organismos ejecuten respuestas diferen-

tes cada vez.

4.3. El estímulo reforzador

El tercer elemento implicado en el condicionamiento instrumental es el refor-

zador. Habitualmente, en el laboratorio se utilizan estímulos biológicamente

potentes cuando se trabaja con animales no humanos. Podemos utilizar co-

mida para reforzar conductas como presionar una palanca con ratas o picotear

una tecla con palomas. Podemos utilizar igualmente estímulos aversivos como

descargas.

No obstante, podemos encontrar estímulos reforzadores que no entrarían en

la categoría de biológicamente potentes.

Trabajando con humanos podemos reforzar una conducta indicando simplemente quela respuesta ha sido correcta o castigar otra conducta informando de que es incorrecta.Fuera del laboratorio podemos modular la conducta de otras personas elogiándolas ocriticándolas. Con animales de compañía como perros o gatos podemos pronunciar lapalabra NO para que los animales dejen de hacer alguna conducta (por ejemplo, entraren una habitación) o hablarle cariñosamente cuando el animal se nos acerca.

Estas consideraciones nos llevan a dos aspectos de los reforzadores: primero,

existe una amplia variedad de estímulos que pueden funcionar como reforza-

dores; y, segundo, existen reforzadores que inicialmente eran estímulos neu-

tros y con un entrenamiento específico se convierten en reforzadores eficaces.

El primer punto nos lleva a buscar una definición de reforzador basada en sus

efectos y no en sus características físicas. Teniendo en cuenta eso,

podemos definir un reforzador como cualquier consecuencia que, pre-

sentada de manera contingente a una conducta, incrementa la proba-

bilidad de que la conducta se repita en el futuro. De la misma mane-

ra, podemos definir un estímulo punitivo como cualquier consecuencia

que presentada de modo contingente a una conducta previa reduce la

probabilidad de aparición de esta conducta en el futuro.

Entrenamiento de lacreatividad

El condicionamiento instru-mental puede ser útil para en-trenar a las personas a ser crea-tivas, en el sentido de que bus-quen soluciones nuevas a losproblemas conocidos.


Atendiendo a estas definiciones nos damos cuenta de que no podemos saber

las propiedades reforzadoras (o punitivas) de un estímulo a priori. Sabremos si

un estímulo es reforzador (o punitivo) por los efectos que observaremos sobre

la conducta, pero no por las características intrínsecas al estímulo.

Ejemplo

Podemos pensar que un caramelo es un poderoso reforzador para los niños, y probable-mente así será para la mayoría, pero podemos encontrar a algún niño a quien no le gus-ten los caramelos y, en consecuencia, la golosina no tendrá propiedades reforzadoras.

La definición de reforzador dada por los efectos sobre la conducta nos permite

una clasificación amplia que incluye tanto los estímulos biológicamente po-

tentes, como los estímulos no biológicamente potentes. Sin embargo, la defi-

nición es circular. Si damos comida contingente a picotear una tecla y obser-

vamos que la conducta incrementa o se mantiene, podemos afirmar que la

comida es un reforzador porque incrementa la conducta contingente, pero si

preguntamos qué hace que la comida provoque un incremento de la respuesta

contingente, responderemos que el motivo es que la comida es un reforzador.

Es decir, volvemos al punto de partida.

Para salir de este estancamiento, se han propuesto algunas definiciones alter-

nativas basadas en la privación y el estado de necesidad que genera esta pri-

vación.

• Hull (1943) definía un reforzador no por las características del estímulo,

sino por sus propiedades a la hora de reducir un estado de necesidad. Por

ejemplo, si un animal ha pasado horas sin comida, el alimento será un

reforzador eficaz porque permite reducir un estado de necesidad. De aquí

se desprende que si el animal está saciado, la comida dejará de ser un re-

forzador eficaz. Esta definición nos permite predecir cuándo un estímulo

será un buen reforzador.

• De manera similar, Premack (1959) define un reforzador no en términos

de estímulos, sino de actividad. Si observamos a qué actividades se dedica

libremente un niño cuando llega a casa después de la escuela, probable-

mente observaremos que pasa un rato comiendo, que ve la televisión, jue-

ga a la Play Station, hace deberes o lee. Evidentemente, cada una de estas

actividades variará en cuanto a frecuencia de aparición y no será excesiva-

mente imprudente predecir que dedicará mucho tiempo a ver la televisión

y a jugar a la Play Station, y menos tiempo a hacer deberes o leer un libro.

De esta manera, Premack parte del supuesto de que el patrón global de activi-

dad de un sujeto se puede analizar en función de sus actividades componentes.

Probablemente, cuando no hay ningún tipo de restricción, el sujeto distribuirá

el tiempo entre las diferentes actividades de una determinada manera y esta

distribución reflejará la preferencia del sujeto por cada una de las actividades.

Si el niño del ejemplo dedica más tiempo a ver la televisión que a leer, enton-


ces podemos afirmar que la primera conducta se prefiere a la segunda. Ahora

bien, la distribución de las conductas puede variar en función de los estados

motivacionales. Si el niño no ha comido nada desde la hora de comer, es más

probable que cuando llegue a casa se dedique a comer y no a ver la televisión.

En definitiva, según Premack, la preferencia no depende del número o tipo

de actividad, sino de la tasa de ejecución de la actividad en relación con las

opciones disponibles. En cuanto a la relación de reforzamiento, Premack afir-

ma que una actividad preferida reforzará una actividad menos preferida si la

primera es contingente a la segunda. Por ejemplo, si observamos que el niño

del ejemplo dedica un 70% del tiempo a ver la televisión, un 10% a hacer de-

beres, un 10% a comer y el 5% restante a leer un libro, podremos reforzar la

conducta de leer (poco preferida) si la hacemos contingente a la conducta de

ver la televisión (muy preferida).

Hacer contingentes dos conductas implica, primero, restringir la conducta más

preferida y, segundo, establecer que sólo tendrá acceso a ella si previamente ha

dedicado un cierto tiempo a la conducta menos preferida. Así, podemos privar

al niño de ver la televisión si antes no lee un capítulo de un libro. Con esta

relación contingente observaremos dos efectos: un incremento de la conducta

menos preferida y una disminución de la conducta más preferida. El niño

puede dedicar en esta nueva disposición un 30% del tiempo a leer y un 55%

del tiempo a ver la televisión, manteniendo constantes el resto de conductas.

De igual manera podemos explicar el comportamiento de una rata en una caja

de condicionamiento. Si el animal lleva 16 horas sin comida y la ponemos

en una caja de condicionamiento con una palanca y acceso libre a la comida,

probablemente observaremos que dedica el 90% del tiempo a comer y el 10%

a otras conductas. Pero si restringimos el acceso a comida a que previamente

presione la palanca, observaremos un incremento en esta conducta. El prin-

cipio explicativo es el mismo: la restricción de una conducta preferida como

comida y contingente a una conducta poco preferida como presionar una pa-

lanca reforzará la conducta menos preferida.

Una consecuencia de este análisis es que cualquier conducta puede actuar co-

mo reforzador de otra conducta si se cumplen las condiciones mencionadas.

Si a una rata la ponemos en una caja donde hay disponible una rueda de ac-

tividad y agua, es posible que si el animal está saciado dedique más tiempo a

correr que a beber, pero un animal sediento dedicará más tiempo a beber que

a correr. Según Premack, en el primer caso correr podrá reforzar la conducta

de beber si restringimos el acceso a la rueda y lo hacemos contingente a la

respuesta de beber. En el segundo caso, beber puede reforzar la conducta de

correr si restringimos el acceso a agua y lo hacemos contingente a la conducta

de correr.


Con esta discusión sobre la definición de reforzador, hemos dejado de lado

el hecho de que determinados estímulos que no son biológicamente potentes

también tienen la capacidad de reforzar los comportamientos con los que son

contingentes. Un estímulo corriente en nuestra cultura servirá para ilustrar

este punto.

El trabajo diario que desarrollamos, seamos empleados o empresarios,

tiene una consecuencia importante: el dinero. Es evidente que las mo-

nedas y los billetes no son estímulos primarios, ya que no son bioló-

gicamente potentes como es el agua, la comida, el placer sexual o el

confort. Existe un proceso de aprendizaje a partir del cual el dinero se

convierte en un reforzador eficaz para modular nuestro comportamien-

to. ¿Cuál es este aprendizaje que provoca que un estímulo inicialmente

neutro termine convirtiéndose en un reforzador? A lo largo de nuestra

infancia vamos asociando el dinero con todos los bienes que podemos

obtener con él. Un niño puede intercambiar unos céntimos de euro por

caramelos, por juguetes y otros objetos que son reforzadores primarios.

De mayores, podemos invertir el dinero en muy diferentes objetos y ac-

tividades. Podemos ir a la discoteca, comprar la comida diaria, pagar el

gas, la electricidad, el agua, adquirir una casa y un coche, etc. Así pues,

trabajar nos proporciona dinero y el dinero anticipa la posibilidad de

satisfacer la mayoría de nuestras necesidades básicas.

¿Es posible que un estímulo condicionado clásicamente con un EI pueda servir

como reforzador?

En el módulo "Condicionamiento clásico pavloviano" ya hemos visto, cuando

hemos estudiado el condicionamiento de segundo orden, que si un EC (como

una luz) se empareja sistemáticamente con un EI, este EC se puede utilizar

como EI en el condicionamiento clásico si lo emparejas con un EC nuevo

(por ejemplo un tono). Si emparejamos el tono con la luz, el tono empezará

a provocar la respuesta condicionada como si el tono se hubiera emparejado

directamente con el EI.

En el condicionamiento instrumental, el papel del EI lo hace el reforzador. El

papel de EC primario es el estímulo neutro que se convertirá en un reforzador

condicionado o secundario después de emparejarlo con el reforzador prima-

rio. Posteriormente, el reforzador secundario puede actuar como sustituto del

reforzador primario para reforzar una conducta con la que se entrega de ma-

nera contingente.

Skinner (1938) publicó una de las primeras demostraciones de la capacidad de

un reforzador secundario para reforzar una conducta instrumental.


Experimento de Skinner (1938)

En una primera fase del experimento presentó repetidamente a unas ratas un sonidoemparejado con comida. Durante esta fase del experimento los animales no teníanque realizar ninguna conducta para obtener comida, por lo tanto, se trataba de unprocedimiento de condicionamiento clásico. En la segunda fase del experimento, sedejó de presentar la comida y, a pesar de ello, los animales aprendieron a presionar lapalanca cuando esta conducta activaba el sonido. Evidentemente, ya que el sonido nose volvió a emparejar con la comida durante la segunda fase, no nos debe sorprenderque la respuesta de presión de la palanca no persistiera durante demasiado tiempo.Este aspecto es un paralelismo más con el condicionamiento de segundo orden.

Un concepto similar al de reforzador condicionado es el que Skinner denomi-

nó reforzador�generalizado.

Un reforzador generalizado no es nada más que un tipo especial de re-

forzador condicionado que se ha relacionado con muchos reforzadores

primarios diferentes.

El ejemplo del dinero que veíamos más arriba sirve para ilustrar qué es un re-

forzador generalizado. El dinero lo tenemos asociados con diferentes reforza-

dores primarios y de ahí que se convierta en un reforzador tan potente. Pero su

poder depende de que siga asociado con los reforzadores primarios tal como

demostraba el experimento de Skinner. Si el dinero dejara de ser útil para inter-

cambiarlo por reforzadores primarios, difícilmente encontraríamos a alguien

que trabajara para obtener un puñado de trozos de papeles de varios colores.

Existen algunas variables como la cantidad y la naturaleza del reforzador que

determinan directamente la tasa de la respuesta instrumental.

Experimento de Hutt (1954)

Por ejemplo, Hutt (1954) manipuló la cantidad y calidad del reforzador que unas ratasobtenían por presionar una palanca. Diferentes grupos de ratas obtenían cantidadespequeñas, medias o grandes de comida si llevaban a cabo la respuesta instrumental.La comida consistía en una masa líquida de agua, leche y harina. Hutt manipulóla calidad de la comida haciendo más agradable la masa básica añadiendo sacarina,haciéndola desagradable con ácido cítrico o dejando la masa básica sin aditivos.

Los resultados encontrados por Hutt (1954) fueron que la tasa de respuesta

de presión de palanca incrementaba de manera directamente proporcional a

la cantidad y calidad del reforzador. Es decir, la tasa de respuesta era mayor

cuando proporcionaba más cantidad de reforzador. También la tasa de la res-

puesta era mayor cuando la calidad del reforzador mejoraba.

Veamos ahora una situación diferente.

Imaginemos que un día que estamos en el trabajo nos llama el jefe para comunicarnosque a partir del mes siguiente cobraremos un 50% más de sueldo por el mismo trabajoy, efectivamente, a final de mes nos ingresan el dinero tal como nos habían prometido.


¿Tendrá algún efecto sobre nuestro comportamiento en relación con las tareas que reali-zábamos habitualmente (recordemos que en este caso hipotético no se nos pide nada acambio)? Es muy probable que, aparte de la alegría e incredulidad que nos puede provo-car el inédito hecho, trabajemos con más entusiasmo, al menos, durante un tiempo.

¿Realmente sucederá así? En el laboratorio se han estudiado situaciones simi-

lares a la descrita en la situación presentada y los resultados confirman estas

predicciones.

Experimento de Crespi (1942)

Crespi (1942) entrenó a tres grupos de ratas a correr por un pasillo para obtener co-mida. Durante una primera fase del experimento, cada grupo recibía una cantidaddiferente de reforzador cuando llegaba a la caja meta. Uno de los grupos recibía 4bolitas de comida, otro grupo recibía 16 bolitas de comida y el tercer grupo recibía64 bolitas de comida. Al final de este primer entrenamiento y, tal como era de espe-rar, el grupo que recibía la cantidad más pequeña de reforzador era el que corría máslentamente (aproximadamente, a 1,5 pies por segundo), mientras que el que recibíala cantidad mayor era el que corría más deprisa (aproximadamente, a 3,5 pies porsegundo). El grupo que recibía una cantidad media mostró una velocidad de carre-ra entre los otros dos grupos (aproximadamente, a 2,5 pies por segundo). Lo másinteresante fue la manipulación que llevó a cabo Crespi, en una segunda fase delexperimento: igualó la cantidad de bolitas de comida en los tres grupos de maneraque todos recibieron 16 bolitas de comida. Por lo tanto, había un grupo que pasóde recibir 4 bolitas a recibir 16, otro grupo que pasó de recibir 64 a recibir 16 y untercer grupo, el grupo de control, que no experimentó ningún cambio en la cantidadde reforzador. Podemos realizar una primera predicción del comportamiento de losanimales en esta segunda fase.

Si la intensidad de la respuesta instrumental depende del valor absoluto de la

cantidad de reforzador, entonces los tres grupos deberían manifestar la misma

velocidad de carrera durante la segunda fase, ya que los tres grupos recibieron

la misma cantidad de reforzador.

En realidad, los resultados no se ajustaron a esta predicción. Evidentemente,

el grupo de control que no experimentó ningún cambio en la cantidad de

reforzador mantuvo su velocidad de carrera. En cambio, el grupo que había

estado recibiendo la cantidad pequeña, mostró una velocidad de carrera supe-

rior a la del grupo de control (en torno a 3,5 pies por segundo), mientras que

el que vio reducida la cantidad de reforzador en la segunda fase mostró una

velocidad de carrera inferior (aproximadamente, 1,5 pies por segundo) a la del

grupo de control.

Los cambios en la conducta observados cuando se incrementa la cantidad de

reforzador se denominan contraste�positivo, mientras que los cambios de

conducta debidos a una reducción en la cantidad habitual de reforzador reci-

ben el nombre de contraste�negativo.


En definitiva, los efectos de contraste positivo y negativo ponen en re-

lieve que los efectos de la cantidad (y también de la calidad) de un refor-

zador concreto dependen de la cantidad (y calidad) de los reforzadores

que un individuo ha experimentado en el pasado.

Flaherty y sus colegas han estudiado qué mecanismos pueden estar implica-

dos en los efectos de contraste. A pesar de estar lejos todavía de una respues-

ta suficientemente convincente, parece que los mecanismos de cada efecto

de contraste, positivo y negativo, están mediados por mecanismos diferentes

(Flaherty, 1996). El efecto de contraste negativo es más robusto que el de con-

traste positivo. Entre los diferentes mecanismos responsables del contraste ne-

gativo se ha propuesto que un cambio a una recompensa peor puede provocar

un estado de frustración (Amsel, 1992). Flaherty (1996) propone que el cam-

bio a una recompensa pequeña provocaría cambios cognitivos y de conducta.

Inicialmente, el hecho de encontrar una recompensa más pequeña de la espe-

rada activaría respuestas de investigación de mejores fuentes de alimentación.

Cuando estas conductas exploratorias no tienen éxito, entonces se producen

cambios emocionales de desencanto y la conducta se adapta a la nueva situa-

ción.

4.4. La relación respuesta-reforzador: contigüidad temporal y

contingencia

A lo largo del módulo estamos presentando situaciones en las que la conduc-

ta produce y está controlada por sus consecuencias. La conducta fluye en un

continuo y al mismo tiempo a nuestro alrededor se producen infinidad de es-

tímulos. Todo puede parecer caótico; no obstante, los procesos de aprendizaje

nos permiten extraer qué regularidades se producen en nuestro entorno. Po-

demos llegar a determinar si algunos estímulos dependen de nuestro compor-

tamiento y qué estímulos no están bajo nuestro control.

Ejemplo

Aprendemos que manipulandoun interruptor podemos en-cender o apagar una luz, peroque salga o se ponga el sol noestá bajo nuestro control.

También es cierto que las relaciones entre nuestra conducta y las consecuencias

no son siempre determinantes, como la manipulación del interruptor y la luz,

sino que son probabilísticas.

El descubrimiento de todas las posibles relaciones entre acontecimientos y, en

el caso que nos ocupa en este módulo, entre la conducta y sus consecuencias,

nos permite adaptarnos al entorno en función de nuestras necesidades. Nues-

tro objetivo ahora es analizar qué mecanismos permiten a los organismos de-

tectar las regularidades entre nuestro comportamiento y sus consecuencias.

Ejemplo

Si lanzamos una pelota a unacanasta durante un partidode baloncesto, sólo encestare-mos un porcentaje de los lan-zamientos.


Como ya hemos visto en el módulo "Condicionamiento clásico pavloviano" a

la hora de explicar cómo se detectaban las relaciones entre estímulos, existen

dos tipos de principios que se han tenido en cuenta para explicar por qué dos

acontecimientos quedan asociados. El primer principio es el de la contigüidad

temporal y el segundo es el de la contingencia.

1)�Principio�de�la�contigüidad�temporal

La perspectiva tradicional del condicionamiento, tanto clásico como instru-

mental, es que la contigüidad temporal es la condición que determina si se

formarán las asociaciones. Si al entrar en una habitación que está a oscuras

pulsamos el interruptor, la luz se enciende inmediatamente y podemos detec-

tar rápidamente la relación entre la conducta y su consecuencia. Pero ¿qué

sucedería si introdujéramos una demora entre los dos acontecimientos? ¿Se-

remos capaces de detectar la relación entre respuesta y reforzador? La investi-

gación realizada en la que se manipulaba la demora entre la respuesta y el re-

forzador ha mostrado que a medida que se incrementaba la demora, el apren-

dizaje era más débil.

Experimento de Dickinson, Watt y Griffiths (1992)

Dickinson, Watt y Griffiths (1992) realizaron un experimento en el que las ratas de-bían presionar la palanca para obtener una bolita de comida. La manipulación ex-perimental consistía en introducir diferentes demoras entre la respuesta y el reforza-dor. En cuatro grupos diferentes de animales se utilizaron demoras de 2, 4, 24 y 64segundos. Así, en el caso del grupo con una demora de 2 segundos, la presión de pa-lanca proporcionaba el reforzador 2 segundos después de que se hubiera producidola respuesta y en el grupo con la demora de 64 segundos, el reforzador aparecía 64segundos después de ejecutar cada presión de palanca. Se midió la tasa de presión depalanca y se obtuvo que a medida que se incrementaba la demora, la tasa disminuía.El grupo que tenía una demora de 2 segundos, presionaba la palanca con una tasa de20 respuestas por minuto; el grupo con una demora de 4 segundos respondía 7 vecespor minuto; el grupo con 64 segundos de demora respondió sólo una vez por minuto.

A menudo nos encontramos con situaciones que no proporcionan la

recompensa inmediatamente; no obstante, aprendemos las relaciones

entre nuestra conducta y el reforzador.

Si introducimos monedas en una máquina de refrescos y pulsamos el botón

adecuado, el refresco cae con una demora muy breve. ¿Pero sucede lo mismo

con una máquina de café? Normalmente, las máquinas de café dispensan la

bebida con una demora relativamente larga, el tiempo que se necesita para

moler el grano de café y filtrar el agua a través del café molido. Pulsar el bo-

tón para llamar a un ascensor también incluye una demora si el ascensor no

se encuentra en la misma planta desde donde lo llamamos. ¿Qué hace que

podamos aprender la relación entre la respuesta y el reforzador a pesar de las

demoras entre ellos?


Si realizamos un análisis más esmerado de las situaciones de la máquina de

café y del ascensor, nos daremos cuenta de que entre la respuesta y el reforza-

dor aparecen una serie de estímulos. Por ejemplo, una vez hemos pulsado el

botón del café expreso se ponen en marcha los mecanismos necesarios para

moler el café y después la bomba que hace circular el agua. Todos estos meca-

nismos producen unos sonidos específicos que se presentan inmediatamente

después de la respuesta y se alargan hasta que el café está preparado. ¿Serán

estos estímulos los responsables de que podamos aprender la relación entre

nuestra conducta y el reforzador?

Experimento de Reed (1999)

En un trabajo, Reed (1999) entrenó a unos participantes a elegir una de dos teclasde un teclado de ordenador, la A y la L. Pulsar la tecla A iba seguido el 75% de lasveces por el parpadeo de un triángulo dibujado en la pantalla, mientras que pulsarla tecla L no provocaba nunca el parpadeo. En uno de los grupos (grupo inmediato),el parpadeo se producía inmediatamente después de pulsar la tecla A. En cambio,para otros dos grupos, el parpadeo del triángulo se producía 5 segundos después de larespuesta. En uno de estos dos grupos con demora, entre el momento de la respuestay el reforzador no pasaba nada (grupo no señalado), mientras que para el otro grupo,inmediatamente después de pulsar la tecla A, aparecían cuatro X próximas al trián-gulo y desaparecían en el momento en el que se presentaba el parpadeo del triángulo(grupo señalado). Finalmente, se pedía a los participantes que valoraran la relaciónentre presionar cualquiera de las teclas, A y L, con la consecuencia. Todos los gruposseñalaron que la tecla L no tenía ninguna relación con el parpadeo del triángulo, perodiscreparon en la relación dada entre la tecla A y el parpadeo. El grupo inmediato fueel que encontró una relación alta, en torno a 95 en una escala de 0 a 100. El grupo noseñalado encontró una relación baja, unos 30 puntos. Finalmente, el grupo señaladopuntuó ligeramente por encima de los 50 puntos.

Los resultados mostraron que cuando se señalaba un reforzador demorado in-

crementaba los juicios de la relación causal entre respuesta y reforzador en

relación con cuando el reforzador demorado no iba señalado. Pero ¿por qué

la señal que llena la demora reduce los efectos perjudiciales de la demora?

La respuesta más habitual es que la señal actúa como reforzador condicionado

o secundario. Por su emparejamiento con el reforzador, forma una asociación

clásica con éste. Una vez formada esta asociación, el participante puede rela-

cionar la respuesta con la señal, que a su vez indica la presentación del refor-

zador. Las personas que no detectan la relación entre la iluminación de la tecla

del ascensor una vez la han presionado y la llegada de éste, pueden persistir

en la respuesta si el ascensor tarda más de lo que pueden suponer razonable.

Otro fenómeno relacionado con la demora del reforzador es lo que se deno-

mina hipótesis�del�marcado.

Experimento de Lieberman, McIntosh y Thomas (1979)

Lieberman, McIntosh y Thomas (1979) fueron los primeros en describir este fenó-meno. Utilizaron un aparato adaptado expresamente a los objetivos de su experimen-to. El aparato consistía en una caja de salida que daba paso a la caja de elección. En lapared del fondo de esta caja había dos pasadizos que corrían paralelos y que desem-bocaban en una caja común de demora. Los dos pasadizos se distinguían por el color,ya que uno era negro y el otro era blanco. Finalmente, la caja de demora daba paso


a la caja meta donde se proporcionaba la comida. Los sujetos experimentales fueronratas. Un ensayo consistía en dejar una rata en la caja de salida. Después se abría lapuerta que comunicaba con la caja de elección y una vez el animal había entradodebía elegir uno de los dos pasadizos posibles. Cuando había atravesado el pasadizoelegido, el animal entraba en la caja de demora, donde quedaba confinado durante60 segundos. Pasados los 60 segundos, se abría la puerta que daba acceso a la cajameta. Las ratas encontraban comida si en su elección habían elegido un brazo con-creto, por ejemplo el de color blanco, pero no había comida si habían elegido el brazonegro. Por lo tanto, una buena actuación de los animales era elegir el brazo blancoen cada ensayo. No obstante, los animales entrenados en estas condiciones elegíanel brazo correcto un 50% de las veces después de 50 ensayos de condicionamiento,lo que indicaba que no habían aprendido en absoluto la relación entre elegir el brazoblanco y encontrar comida en la caja meta, lo que constituye un ejemplo más de losefectos perjudiciales de la demora. El experimento constaba de un segundo grupoque recibió el mismo tratamiento excepto que una vez habían elegido cualquiera delos dos brazos, era el experimentador quien los tomaba y los situaba en la caja dedemora y, 60 segundos después, los volvía a tomar y los dejaba en la caja meta dondeencontraban o no el reforzador en función del brazo elegido.

Lieberman y sus colaboradores designaron esta manipulación experimental

como un marcado�de�la�conducta�clave. Como el marcado aparecía tanto

en las respuestas correctas como incorrectas, no tenía posibilidades de actuar

como un reforzador secundario. A diferencia del grupo no marcado, el grupo

marcado aprendió la discriminación y en los 10 últimos ensayos de entrena-

miento realizaban el 90% de elecciones de manera correcta.

La explicación dada por Lieberman y sus colaboradores del fenómeno

del marcado es que cuando se produce un efecto intenso se marca la res-

puesta que se estaba realizando en aquel momento. El efecto del mar-

cado sería facilitar la grabación en la memoria de lo que sucedía en el

momento del marcado y de esta manera permitiría asociar mejor estas

respuestas con las consecuencias.

Torres gemelas

Un paralelismo a los efectos del marcado sería el hecho de que muchas personas podemosrecordar perfectamente lo que hacíamos en el momento en el que nos enteramos delos atentados contra las torres gemelas o contra los trenes de cercanías en Madrid. Estosacontecimientos intensos permitieron registrar en nuestra memoria las conductas querealizábamos en el momento de enterarnos de los atentados, por irrelevantes o rutinariasque fueran.

El hecho de que haya un deterioro del condicionamiento con demoras largas

en la presentación del reforzador no significa que no haya situaciones donde

se puede obtener aprendizaje cuando se retrasa el reforzador, a pesar de que no

haya reforzadores condicionados ni el marcado de la respuesta instrumental.


Experimento de Williams (1975)

Por ejemplo, Williams (1975) entrenó a unas palomas en una caja de condiciona-miento para que picotearan una tecla de respuesta que se iluminaba durante 5 segun-dos. Las respuestas de picotear la tecla se reforzaban con la presentación de comida 9ó 10 segundos después de que se apagara la tecla iluminada. Esta demora del reforza-miento no impidió el condicionamiento: los animales aprendieron a picotear la te-cla iluminada. El experimento de Williams incluía un segundo grupo de palomas. Eltratamiento recibido fue idéntico, excepto en que al finalizar la demora y justo antesde que se presentara la comida se iluminaba una segunda tecla de un color diferente.Esta simple manipulación experimental dio como resultado un descenso dramáticoen la respuesta instrumental de picotear la primera tecla. Los sujetos atribuyeron laaparición de la comida al estímulo que lo precedía inmediatamente en lugar de ha-cerlo a las respuestas dadas algunos segundos antes.

Siempre se puede argumentar que en el experimento de Williams la segun-

da tecla mantenía una mejor contigüidad temporal con el reforzador que la

respuesta de picotear en la primera tecla y, por lo tanto, se ajusta, de alguna

manera, al principio de contigüidad. No obstante, la respuesta instrumental

mantenía la misma contigüidad temporal en los dos grupos de palomas (una

demora de 9 o 10 segundos) y, según el principio de la contigüidad temporal

por sí solo, la presencia de un segundo estímulo no debería haber interferido

en el aprendizaje respuesta-reforzador.

Experimento de Pearce y Hall (1978)

En otro trabajo de Pearce y Hall (1978) se entrenó a unas ratas a presionar la palancapara obtener comida con un programa de intervalo variable (podéis ver el apartadosiguiente sobre programas de reforzamiento; de momento sólo hay que enfatizar queeste programa de reforzamiento es intermitente y hace que no todas las respuestasvayan seguidas de reforzador, es decir, la relación respuesta reforzador es imperfecta).En uno de los grupos se presentó un predictor perfecto de la comida al disponer quelas presiones de palanca reforzadas también provocaran un estímulo externo, breve.Este estímulo añadido no aparecía en ningún otro momento y, por lo tanto, estabaperfectamente correlacionado con el reforzador interfiriendo significativamente conel establecimiento de las presiones de palanca y, por lo tanto, presumiblemente conel aprendizaje de la asociación entre la presión de palanca y el reforzador. En cam-bio, en los grupos de control en los que o bien no aparecía este estímulo externoo aparecía pero de manera no correlacionada con el reforzador, se observó un buencondicionamiento de la respuesta de presión de palanca.

2)�Principio�de�la�contingencia

Una consecuencia del principio de contigüidad temporal es que cualquier res-

puesta que fuera seguida del reforzador quedaría asociada con él. No obstante,

hemos presentado bastantes ejemplos que indican que la contigüidad tempo-

ral no es suficiente ni necesaria para el establecimiento de asociaciones, de lo

contrario tendríamos la cabeza llena de asociaciones irrelevantes.

Ved también

Podéis ver el apartado 5.3,"Programas de intervalo", deeste módulo didáctico.


Según Mackintosh (1983), si la función del condicionamiento es detec-

tar las relaciones causales entre acontecimientos, esta capacidad se debe

basar en un mecanismo que impida la formación de las asociaciones

irrelevantes.

¿Cuál es este mecanismo que asegura un buen condicionamiento de los bue-

nos predictores del reforzador a expensas de los peores predictores? Al estu-

diar el condicionamiento clásico ya hemos visto los experimentos de Rescorla

(1967, 1968) en los que se demostraba que el condicionamiento dependía de

la contingencia entre el EC y el EI, es decir, de la probabilidad de que el EI se

presentara en presencia del EC y en su ausencia. ¿Es este mecanismo también

responsable del condicionamiento instrumental?

Si recordamos los procedimientos de condicionamiento instrumental, tendre-

mos presente que una de las variables que se debe tener en cuenta a la hora

de estudiar estos procedimientos es la relación positiva o negativa entre la res-

puesta y el estímulo consecuente. Hablábamos de una relación positiva cuan-

do el estímulo consecuente se presentaba sólo si se producía la respuesta y

decíamos también que la relación negativa implicaba que la respuesta hacía

desaparecer un estímulo relevante. En términos de probabilidad respuesta-re-

forzador, podemos decir que tanto en el reforzamiento como en el castigo po-

sitivo la probabilidad del estímulo apetitivo y aversivo, respectivamente, en

presencia de la respuesta es 1, mientras que la probabilidad de que aparecieran

estos estímulos en ausencia de la respuesta es 0. En el caso del reforzamiento y

del castigo negativo, la relación se invierte de manera que la probabilidad del

estímulo aversivo y apetitivo, respectivamente, en presencia de la respuesta es

0, mientras que la probabilidad de que aparecieran estos estímulos en ausencia

de la respuesta es 1.

Por otra parte, cuando se ha estudiado directamente el papel de la contingen-

cia en el condicionamiento instrumental, se ha observado que este factor es

más importante que la contigüidad temporal.

Experimento de Hammond (1980)

Hammond (1980) estableció en una investigación que el 5% de las respuestas de pre-sión de palanca de unas ratas proporcionaran agua como reforzador. Formalmente,la probabilidad del reforzador dada la respuesta era de 0,05, o p(Rf/Rs) = 0,05, dondeRf es el reforzador y Rs la respuesta. El reforzador, sin embargo, nunca se presenta-ba si antes no se ejecutaba la respuesta, es decir, que la probabilidad del reforzadoren ausencia de la respuesta era igual a cero, o p(Rf/no Rs) = 0. Esta disposición ase-guraba que los animales recibieran un reforzador cada 20 segundos si, y sólo si, ha-bían presionado la palanca. En una segunda fase, Hammond introdujo presentacio-nes gratuitas de agua, de manera que la probabilidad de obtener agua sin presionarla palanca igualaba la probabilidad de recibir el agua cuando ejecutaban la respuestainstrumental.


Los resultados fueron claros: cuando la única manera posible de obtener agua

era presionando la palanca la tasa de respuesta era alta, pero cuando el refor-

zador era igual de probable respondiendo o no, los animales dejaron de pre-

sionar la palanca. Los resultados demuestran que los animales eran sensibles

a las diferentes contingencias respuesta reforzador y su actuación estaba con-

trolada por estas contingencias.

En un experimento con estudiantes universitarios, Chatlosh, Neunaber y Was-

serman (1985) encontraron resultados similares.

Experimento de Chatlosh, Neunaber y Wasserman (1985)

En este caso, se pidió a los estudiantes que en cada ensayo pulsaran o no una tecla.La tarea consistía en averiguar si pulsar la tecla tenía algún efecto sobre el encendidode una luz blanca. Finalmente, los participantes debían estimar el grado de relaciónentre la respuesta y la luz blanca en una escala de –100 a +100 (un valor negativoindicaba que la respuesta evitaba que se encendiera la luz mientras que puntuacionespositivas querían decir que la respuesta hacía encender la luz). Los experimentadoresvariaron la contingencia entre respuesta y consecuencia que iba de –75 a +75.

Los datos mostraron cómo las puntuaciones estimadas de los participantes se

ajustaban a las contingencias reales.


5. Programas de reforzamiento

Un programa de reforzamiento es el conjunto de criterios que determi-

nan si una conducta irá seguida de reforzador o no.

Estos criterios se establecen, básicamente, en términos del número de respues-

tas necesarias que se deben ejecutar y de cuánto tiempo ha de transcurrir desde

el último reforzador para que el siguiente esté disponible. Si bien los progra-

mas de reforzamiento pueden influir en la adquisición de nuevas conductas,

su estudio se ha centrado en los efectos que tienen sobre el mantenimiento de

conductas ya adquiridas y, también, en el efecto que tienen sobre la extinción

de conductas que se quieren eliminar.

El estudio de los programas de reforzamiento se ha llevado a cabo principal-

mente en situaciones de operante libre que permiten ver la conducta a lo largo

del tiempo y se ha encontrado que los diferentes programas simples de refor-

zamiento provocan patrones de respuesta bien definidos y diferenciados.

5.1. Programas de reforzamiento continuo

Prácticamente, todos los ejemplos que hemos visto hasta ahora estaban con-

trolados por un programa�de�reforzamiento�continuo. Esto significa que ca-

da vez que aparece la respuesta operante va seguida del reforzador.

Si ponemos las monedas pertinentes en una máquina de café y presionamos el botóncorrespondiente a café expreso, siempre obtendremos la bebida. Si introducimos un vasode leche en el microondas durante un tiempo apropiado, obtendremos la temperaturadeseada para tomarnos la leche. Si manipulamos un interruptor, se encenderá la luz siestaba apagada, o se apagará si estaba encendida.

Un programa de reforzamiento será útil para mantener la tasa de respuesta.

Ahora bien, no todas las conductas que realizamos llevan siempre a la obten-

ción del reforzador.

Un jugador de baloncesto puede tirar a canasta varias veces durante un partido pero nosiempre obtendrá el resultado deseado, sino que encestará sólo un porcentaje de sus lan-zamientos. Podemos llamar por teléfono, pero no siempre conseguimos contactar con lapersona deseada, ya que unas veces comunican y otras no responden. Si nos encontramosen un semáforo que cambia de rojo a verde y el coche de delante no avanza, podemostocar el claxon y probablemente el conductor despistado se pondrá en marcha, pero sinos encontramos en un atasco de tráfico por mucho que toquemos el claxon, los cochesno se pondrán en movimiento.

En todas estas situaciones, la respuesta va seguida unas veces del reforzador

y otras no. Sin embargo, la respuesta se mantiene. No dejaremos de lanzar a

canasta si fallamos unos lanzamientos, ni dejaremos de realizar llamadas tele-

fónicas a pesar de que no hayamos podido contactar con la persona que nos

interesaba, ni dejaremos de tocar el claxon cuando nos encontramos con el


coche de delante parado. Estos tipos de programas donde la respuesta no va

seguida siempre del reforzador reciben el nombre de programas�de�reforza-

miento�parcial�o�intermitente.

5.2. Programas de razón

El único criterio que define un programa�de�razón es que la respuesta se dé

un determinado número de veces antes de proporcionar el reforzador. Cuando

el número de respuestas necesario para cada reforzador es constante, recibe el

nombre de razón fija y se abrevia RFn, donde n es el valor de la razón.

Una rata que está sometida a un programa de reforzamiento RF25 recibirá el reforzadorcada 25 respuestas, esto es, las primeras 24 respuestas no serán reforzadas y la que hace25 recibirá al reforzador. Una vez ha recibido el reforzador, se vuelve a iniciar la razón.

Esquema de un programa de reforzamiento de razón

En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso, el animalrecibe un reforzador cada 5 respuestas y se trata de un programa de razón fija 5 o RF5. En la parte inferior, el animal ha recibidoun reforzador después de 4, 7, 3 y 6 respuestas. En este caso, se trata de un programa de razón variable. Si calculamos la mediaaritmética de las cuatro razones, obtendremos que el animal ha necesitado una media de 5 respuestas para cada reforzador, deahí que el programa sea de RV5.

Fuera del laboratorio podemos encontrar ejemplos de programas de reforza-

miento de razón fija:

Una persona que ha de vender un número determinado de productos para cobrar losincentivos, teclear nueve dígitos para establecer una llamada telefónica, o subir los pel-daños de la escalera hasta el primer piso.

En todos estos ejemplos, hay que dar un número fijo de respuestas antes de

alcanzar el reforzador.

Un caso particular de programa�de�reforzamiento�de�razón�fija es la RF1.

Si el número de respuestas necesarias para cada reforzador es 1, entonces el

programa es de reforzamiento continuo, ya que cada respuesta irá seguida del

reforzador.

Los programas�intermitentes�de�razón�fija generan un patrón de respuesta

característico. Si la razón es suficientemente grande, se puede observar que los

animales dejan de responder durante un tiempo cada vez que reciben un re-

forzador. La tasa cero que se observa después de cada reforzador se denomina


pausa�postreforzamiento. Después de la pausa, los animales inician las res-

puestas con una tasa alta y estable hasta que obtienen el siguiente reforzador.

La tasa de respuestas dadas por los animales se denomina carrera�de�la�razón.

Cuando se entrena a un animal (o una persona) bajo un programa de RF, se

empieza por razones bajas y progresivamente se va incrementando la razón

hasta llegar a la razón deseada. Hay que tener en cuenta, sin embargo, que los

incrementos en la razón no pueden ser excesivamente grandes si no queremos

que se deje de responder.

Efectivamente, cada vez que incrementamos la razón de manera repentina y

significativa, aparece un efecto que recibe el nombre de tensión�de�la�razón,

que consiste en que el animal realice pausas periódicas durante la carrera de

la razón. Si la tensión de la razón es extrema, entonces el animal podría dejar

de responder. La pausa postreforzamiento se ha explicado como un efecto de

la predictibilidad del número de respuestas necesarias para cada reforzador.

Además, se suponía que la duración de la pausa estaba relacionada con el es-

fuerzo requerido por la razón precedente, es decir, la pausa postreforzamiento

se interpretaba como un efecto directo de la conducta inmediatamente prece-

dente. No obstante, Baron y Herpolsheimer (1999) encontraron que la pausa

postreforzamiento estaba controlada más por la razón subsecuente que por la

razón inmediatamente previa.

La interpretación de estos datos es que los animales no realizan la pausa pos-

reforzamiento para descansar, sino que más bien están evaluando el esfuerzo

requerido para alcanzar el siguiente reforzador.

Si completamos un puzzle de 1.000 piezas, es posible que dejemos pasar cierto tiempoantes de comenzar a realizar el siguiente y que este tiempo será más largo si el siguientepuzzle es de 3.000 piezas que si es de 1.000.

Si la pausa fuera determinada por el esfuerzo del puzzle que acabamos de ha-

cer, la pausa sería la misma independientemente del número de piezas del si-

guiente puzzle.

Por otra parte, en los programas�de�reforzamiento�de�razón�variable el nú-

mero de respuestas requeridas para cada reforzador va cambiando. Estos pro-

gramas se abrevian RVn, donde n es el número promedio de respuestas dadas

para obtener cada reforzador.

Si jugamos una partida de billar en la que hemos de introducir 8 bolas en los diferentesagujeros, necesitaremos un número diferente de tiradas para introducir en cada uno delos agujeros las bolas. Puede darse el caso de que a la primera tirada acertemos a intro-ducir una bola en uno de los agujeros o puede ser que necesitemos varios golpes paraconseguirlo.

Si hemos necesitado 2, 5, 10, 6, 9, 1, 10 y 5 veces para introducir las 8 bolas que nos co-rresponden, entonces habremos ejecutado nuestra conducta bajo un programa de RV6.Tendremos en cuenta que el valor 6 de la RV es la media aritmética del número de res-puestas requeridas por las 8 bolas.


Más familiar puede ser el ejemplo de las máquinas tragaperras, en las que el jugadordebe realizar un conjunto de jugadas para recibir el reforzador pero nunca sabe cuántasjugadas debe efectuar.

Como en estos programas la razón varía, no se puede predecir el número de

respuestas necesarias para cada reforzador, las pausas posreforzador desapare-

cen y, por lo tanto, la tasa de respuestas es mucho más estable en los progra-

mas de RV que en los programas de RF.

5.3. Programas de intervalo

A diferencia de los programas de razón, en los que el único requisito para ob-

tener el reforzador es dar un cierto número de respuestas, en los programas

de�intervalo existe una segunda condición que implica que debe haber trans-

currido una determinada cantidad de tiempo desde el último reforzador para

que vuelva a estar disponible.

En los programas de intervalo se deben cumplir dos condiciones para

obtener el reforzador: ejecutar la respuesta instrumental y haber trans-

currido una determinada cantidad de tiempo desde el último reforzador.

Si somos aficionados a las series televisivas, por ejemplo Dr. House, podemos ser reforza-dos si encendemos el televisor y sintonizamos el canal adecuado en el día y la hora deemisión. Ahora bien, una vez se ha acabado el capítulo de la semana, poner en marchael televisor y sintonizar el canal no producirá el reforzador. De hecho, será necesario quetranscurra una semana hasta que vuelva a estar disponible nuestra serie preferida.

El ejemplo hace referencia a un período fijo de tiempo (una semana) y, por lo

tanto, hablaremos de programa de reforzamiento de intervalo fijo una semana

o, de manera abreviada, IF1semana. En el laboratorio podemos estudiar este

tipo de programa haciendo que un reforzador esté disponible, por ejemplo, 2

minutos después de que se haya obtenido el último reforzador. Esto implica

que, una vez se ha dispensado un reforzador, durante los dos minutos siguien-

tes no se obtendrá otro reforzador, a pesar de que el animal responda. Ahora

bien, una vez transcurridos estos dos minutos, el reforzador volverá a estar

disponible y la primera respuesta que se dé será reforzada y se volverá a iniciar

otro intervalo de dos minutos. Hay que tener en cuenta que un programa de

intervalo no depende sólo del tiempo, sino que es necesario que el organismo

ejecute la respuesta instrumental; de lo contrario, el reforzador no se entrega-

rá. Si ya ha pasado una semana desde la última emisión de Dr. House, éste

estará disponible otra vez, pero no seremos recompensados si no ejecutamos

la respuesta, esto es, si no sintonizamos el canal apropiado.


Esquema

Esquema de un programa de reforzamiento de intervalo

En la parte superior se muestran las respuestas dadas a lo largo del tiempo y los reforzadores obtenidos. En este caso,el animal recibe un reforzador para la primera respuesta que ejecuta pasados 60 segundos desde la última respuestareforzada. Como el intervalo es constante, se trata de un programa de intervalo fijo 60 segundos o IF60seg. Enla parte inferior, el animal ha recibido un reforzador para la primera respuesta dada después de un intervalo de45 segundos y de un intervalo de 75 segundos. En este caso se trata de un programa de intervalo variable. Sicalculamos la media aritmética de los dos intervalos, obtendremos un intervalo medio de 60 segundos, de ahí que elprograma sea de IV60seg.

Los programas de IF generan un patrón de respuestas propio. Al igual que los

programas de RF, justo después de recibir el reforzador, los organismos dejan

de responder, pero a diferencia de los programas de RF, cuando se vuelve a

responder no se hace con una tasa alta y estable, sino que las respuestas in-

crementan de manera exponencial. A medida que transcurre el intervalo, em-

piezan a aparecer algunas respuestas tímidamente, que van incrementando

en su frecuencia lentamente hasta que hacia el final del intervalo la tasa de

respuesta se dispara. Esto provoca que el registro acumulativo de respuestas

presente una forma llamada de festón por su semejanza con el ornamento de

la orilla de algunos vestidos u objetos que consiste en un recortado en forma

de dientes curvos.

Para ejemplificar este patrón de respuestas fuera del laboratorio, imaginemos que vamosa la parada del autobús y justo cuando estamos llegando vemos que el autobús se marcha.Supongamos que no llevamos ningún reloj pero sabemos que el autobús pasa cada 20minutos, por lo tanto, mientras esperamos el próximo autobús nos sentamos en el bancoy empezamos a leer un libro. En esta situación la respuesta instrumental es mirar calleabajo para ver si llega el próximo autobús. El reforzador para esta respuesta es simple-mente ver llegar el autobús. Puede parecer un reforzador demasiado débil, pero una vezvemos el autobús, nos podemos poner en pie y acercarnos a la vía para asegurarnos deque el conductor nos ve y para. Al principio, la respuesta de mirar calle abajo para ver elautobús puede no aparecer en absoluto, y podemos leer ininterrumpidamente durante 5o 10 minutos antes de dar el primer vistazo a la calle. La próxima mirada a la calle puedeaparecer 2 o 3 minutos después, y a continuación podemos mirar cada minuto. Despuésde 15 minutos de espera, podemos decidir dejar el libro y mirar de manera continuadahasta que llegue el autobús.


¿Por qué se produce este patrón festoneado de respuestas? El primer aspecto

importante del patrón de respuestas observado en los programas IF es que los

animales disponemos de algún mecanismo que nos permite medir el tiempo.

Como los intervalos son fijos, los animales pueden aprender con suficiente

entrenamiento cuál es la duración del intervalo. Así, una vez un animal acaba

de recibir el reforzador, la probabilidad de recibir un nuevo reforzador es cero

y, en consecuencia, no dará respuestas, pero a medida que va pasando el tiem-

po, la probabilidad de llegar al final del intervalo va incrementando y, por lo

tanto, también incrementa la probabilidad de obtener el reforzador. Cuanto

más tiempo pase, más alta es la probabilidad de recibir el reforzador y también

la motivación para responder.

Una variante de los programas de intervalo es hacer que sea imprevisible la

duración del intervalo. En este caso hablamos de programas�de�reforzamien-

to�de�intervalo�variable o abreviado, IV. Así, un programa de IV 2 minutos

indica que el tiempo pormedio de los intervalos es de dos minutos, pero en

según qué momentos sólo habrá que esperar, por ejemplo, 30 segundos pa-

ra que el reforzador esté disponible y en otros momentos la espera será más

larga, por ejemplo 3 minutos. El hecho de que la duración del intervalo sea

imprevisible provoca que la tasa de respuesta sea más estable y, por lo tanto,

desaparezca el patrón de respuesta en forma de festón.

Una situación que estaría bajo un programa similar al de intervalo variable es cuandovamos a buscar setas. Si conocemos un rincón en el que salen níscalos, podemos ir un díacualquiera y tomar todos los que encontramos. Cuándo volverán a estar disponibles mássetas no lo podemos saber. En ocasiones, al día siguiente ya pueden volverse a encontrarsetas, otras veces quizá no hemos encontrado setas hasta una semana después. Como esimprevisible cuándo encontraremos los níscalos, es más probable que hagamos visitascon bastante frecuencia.

En los programas de intervalo simples, una vez que el reforzador está dispo-

nible, se mantiene disponible hasta que se ejecuta la respuesta instrumental,

independientemente de cuándo se realice. Si una paloma está picoteando bajo

un programa IF2minutos, el reforzador estará disponible pasados dos minutos

desde la última vez que se obtuvo un reforzador. Si el animal responde justo en

el momento en el que se cumplen los dos minutos, recibirá el reforzador, pero

si se espera 20 minutos también será reforzado. Es decir, una vez el reforzador

está disponible, lo estará hasta que se dé la respuesta.

Si recuperamos el ejemplo de la serie televisiva Dr. House, podemos darnos cuenta deque existe una diferencia importante. Sólo seremos reforzados si conectamos el televisordurante la hora siguiente a la que ha empezado el programa, pero pasado este tiempoya no se podrá ver.

Este tipo de restricción con respecto a cuánto tiempo estará disponible el re-

forzador se denomina espera limitada y se puede aplicar tanto a los programas

de intervalo fijo como variable.

Lectura recomendada

Para una revisión sobre la ha-bilidad de medir el tiempo:J. Gibbon y R. M. Church(1992). Comparison of va-riance and covariance pat-terns in parallel and se-rial theories of timing.J.Exp.Anal.Behav. 1992 05; 57(3), 393-406.


En la gráfica se muestran registros acumulados hipotéticos generados por los cuatro programas de reforzamientosimples. Se puede observar cómo los programas fijos (RF y IF) producen pausas postreforzamiento. Por otra parte,los programas de razón (RF y RV) producen tasas de respuesta más elevadas que los programas de intervalo (IF y IV).

5.4. Comparación de los programas de razón y de intervalo

Podemos observar varias similitudes entre los programas de razón y de inter-

valo. En los programas fijos, tanto de razón como de intervalo, se observa una

pausa después de recibir el reforzador. Estas pausas desaparecen cuando los

programas son variables. No obstante, hay diferencias notables con respecto

a la tasa de respuesta que generan. Los programas de razón provocan una tasa

de respuesta mucho más alta que los programas de intervalo.

Experimento de Reynolds (1975)

Reynolds (1975) llevó a cabo un experimento en el que comparó un programa de RVcon un programa de IV. Dos palomas recibieron comida por picotear en una tecla derespuesta. Una de las palomas fue reforzada con un programa de RV. La frecuenciacon la que obtenía comida dependía de la tasa de respuesta y del valor de la razónen cada momento. La segunda paloma fue acoplada a la primera de manera quecada vez que ésta era reforzada, el reforzador se hacía disponible para la segundapaloma bajo el programa de IV. Dado que el tiempo entre reforzadores de la primerapaloma variaba en función de lo que tardaba en dar las respuestas necesarias paraobtener cada reforzador, la segunda paloma estaba sometida a un programa de IV. Estatécnica del acoplamiento permitía que las dos palomas recibieran la misma cantidadde reforzadores y distribuidos de manera muy similar.

Los resultados de Reynolds (1975) mostraron que la tasa de respuesta de la

paloma reforzada con un programa de RV era mucho más alta que la tasa de

respuesta de la paloma reforzada con un programa de IV. Se han encontrado

resultados similares en un estudio en el que comparó los programas de RV y

de IV utilizando estudiantes universitarios como sujetos en lugar de palomas

(Raia, Shillingford, Miller y Baier, 2000).

¿Por qué los programas de razón provocan tasas de respuesta más elevadas

que los programas de intervalo? Una primera respuesta es que debido a que

ganar reforzadores bajo un programa de razón depende exclusivamente de


la actuación del organismo, mientras que en los programas de intervalo el

reforzador depende además del paso del tiempo, los primeros provocan más

motivación que los segundos.

En efecto, ejecutar la respuesta está completamente bajo el control del orga-

nismo, mientras que el paso del tiempo queda fuera de su control, de manera

que en un programa de razón, cuanto más se responda más reforzadores se

ganan, mientras que en un programa de intervalo no se reciben más reforza-

dores por responder más, sino por responder en el momento adecuado.

Una explicación alternativa recurre a procesos de reforzamiento en vez de pro-

cesos relacionados con la motivación.

Sin embargo, ¿qué se estaría reforzando de manera diferente en los programas

de razón y de intervalo que generara la diferencia en la tasa de respuesta ob-

servada? Una posibilidad es que en los programas de razón se estuviera refor-

zando tiempos cortos entre respuestas mientras que en los programas de inter-

valo se reforzaron tiempos largos entre respuestas. De hecho, en un programa

de razón cuanto más rápido responda el sujeto, más reforzadores conseguirá.

Por lo tanto, si el organismo espera poco tiempo entre respuestas obtiene más

reforzadores y se están favoreciendo tiempos cortos entre respuestas. En cam-

bio, en un programa de intervalo sucede justamente lo contrario. Pensemos

en un programa de IF1minuto. Si el animal responde con una frecuencia al-

ta (tiempos cortos entre respuesta), puede ejecutar muchas respuestas duran-

te el intervalo que no serán reforzadas (ni tampoco los tiempos cortos entre

respuestas). Por otra parte, si el animal se espera bastante tiempo entre una

respuesta y la siguiente, la probabilidad de que el reforzador esté disponible

y, por lo tanto, de recibirlo será más alta. Consecuentemente, lo que se estará

reforzando es que se espere un tiempo entre respuesta y respuesta, es decir, se

reforzarán tiempos largos entre respuestas.

5.5. Conducta de elección: programa concurrente y programa

concurrente encadenado

Ya hemos dicho que la conducta es un continuo y que en el entorno ocurren

multitud de hechos. Algunos de estos hechos están estrechamente relaciona-

dos con las conductas y otros no. Además, hay hechos que mantienen una

relación perfecta o determinante con la conducta y otros sólo una relación

probabilística. También hemos aceptado que los mecanismos de aprendizaje

nos permiten descubrir estas relaciones. La cuestión que ahora estudiaremos

es cómo distribuimos nuestra conducta en este continuo.

Es evidente que constantemente estamos eligiendo qué hacer. Desde las elec-

ciones más banales, como por ejemplo si miramos la televisión o si leemos una

revista, hasta elecciones más importantes como si establecemos una familia o

no. Cada alternativa que se nos presenta tiene unas consecuencias concretas

y, por lo tanto, es muy posible que estas consecuencias influyan en la elección


final. Si analizamos los dos ejemplos que hemos puesto, veremos que las elec-

ciones que implican son diferentes en el sentido de que en el primer caso no

exige ningún compromiso y podemos ir cambiando de alternativa siempre que

queramos. Podemos poner la televisión y verla un rato y cuando nos parezca

podemos leer la revista y al revés. En cambio, la segunda elección implica un

compromiso, al menos por un determinado período de tiempo. Si decidimos

formar una familia con una pareja, no será muy común cambiar de pareja e ir

alternando con la primera siempre que nos apetezca. Estos dos tipos de elec-

ción se han estudiado en el laboratorio utilizando los procedimientos de pro-

grama�concurrente y programa�concurrente�encadenado, respectivamente.

5.5.1. Programa concurrente

La conducta�de�elección se ha estudiado habitualmente en laberintos en for-

ma de T, pero actualmente se utiliza un procedimiento que permite estudiar

la conducta en un continuo.

En un experimento estándar de programa concurrente, el animal se ubica en una caja decondicionamiento donde hay dos mecanismos de respuesta, por ejemplo, dos palancaso dos teclas de respuesta. Cada una de estas alternativas está vinculada a un programa dereforzamiento y las dos funcionan simultáneamente. Los animales no tienen ningún tipode restricción y, por lo tanto, pueden ir alternando libremente entre las dos opciones.

¿Cómo distribuirán sus respuestas entre las dos alternativas?

Antes de responder a la pregunta hemos de describir con más precisión el pro-

cedimiento y la medida de la conducta de elección que se utiliza en una situa-

ción como ésta. Supongamos que dejamos una paloma dentro de una caja de

condicionamiento donde hay dos teclas de respuesta. La que se encuentra a la

izquierda (tecla A) proporciona reforzamiento con un programa, por ejemplo,

de IV30seg, y la que se encuentra a la derecha (tecla B) con un programa de

RV25. En esta situación el animal podrá responder a la tecla de la derecha y

de la izquierda cuándo y cómo quiera. Una manera de medir la respuesta de

elección es calcular la tasa relativa de respuesta en cada una de las teclas. La

tasa relativa de respuestas de la tecla A, por ejemplo, se calcula dividiendo la

tasa de respuesta en la tecla A por la tasa de respuesta total (la tasa en la tecla

A más la tasa en la tecla B):

RA / (RA + RB)

Donde RA es la tasa de respuesta en la tecla A y Rb es la tasa de respuesta

en la tecla B.

Si un animal responde por igual a las dos alternativas, la tasa relativa de res-

puesta en la tecla A será igual a 0,5. Si muestra más tendencia a responder a la

tecla A, entonces la tasa relativa de respuesta en la tecla A será mayor de 0,5,

mientras que si muestra más tendencia a responder a la tecla B, entonces el

valor de la tasa relativa de respuesta en la tecla A será menor de 0,5.


Ya hemos apuntado que la elección entre las alternativas estará influenciada

por los reforzadores que se pueden obtener en cada una de ellas. Si tenemos

dos programas de reforzamiento IV30seg y IV60seg, los animales pueden ob-

tener diferente cantidad de refuerzos en cada uno de ellos. En el programa

IV30seg se pueden conseguir dos reforzadores por minuto, mientras que en

el programa de IV60seg sólo se puede conseguir un reforzador por minuto. Es

evidente que el programa IV30seg es más ventajoso y podríamos pensar que

la paloma se dedicará sólo a responder a este programa. Pero al tratarse de dos

programas de intervalo, el animal puede conseguir, al menos teóricamente,

todos los reforzadores de los dos programas si alterna de manera adecuada en-

tre las dos teclas de respuesta. La tasa relativa de respuesta nos proporcionará

información sobre la distribución de las respuestas entre las dos alternativas.

Pero también podremos calcular otro parámetro que nos permitirá ver si la

distribución de respuestas está influida por el reforzamiento obtenido en cada

alternativa. Este parámetro es la tasa relativa de reforzamiento. Así, la tasa

relativa de reforzamiento en la tecla A, por ejemplo, se calcula dividiendo la

tasa de reforzamiento en la tecla A por la tasa de reforzamiento total (la tasa

en la tecla A más la tasa en la tecla B):

rA / (rA + rB)

Donde rA es la tasa de reforzamiento en la tecla A y rB es la tasa de refor-

zamiento en la tecla B.

Herrnstein (1961) estudió sistemáticamente cómo se distribuían las respuestas

y los reforzadores en diferentes combinaciones de programas concurrentes IV-

IV. Diseñó varios pares de programas concurrentes que permitieran entre los

dos obtener un máximo de 40 reforzadores en una hora. Por ejemplo, en un

programa concurrente IV6min-IV2min, el animal puede obtener un máximo

de 10 reforzadores en una hora en el programa IV6min y un máximo de 30

reforzadores en el programa IV2min. Trabajó con varias palomas y calculó las

tasas relativas de respuestas y de reforzadores en una de las teclas para cada pa-

loma y en cada combinación de programas concurrentes. Los resultados fue-

ron sorprendentes: los animales ajustaban la tasa relativa de respuestas en una

de las teclas de manera que se acercaba mucho a la tasa relativa de reforzadores

obtenidos en esta alternativa. Esta regularidad ha sido replicada en muchas

ocasiones y ha dado lugar a la ley�de�la�igualación. Matemáticamente la ley

de la igualación se expresa de la siguiente manera:

RA / (RA + RB) = rA / (rA + rB)

Donde RA y RB son las tasas de respuesta en las teclas A y B, y rA y rB las

tasas de reforzamiento en las teclas A y B.


Lo que establece la ley de la igualación es, simplemente, que las tasas

relativas de respuesta en una tecla determinada se igualan a las tasas

relativas de reforzamiento en la misma tecla.

La ley de la igualación se ha mostrado válida para otros parámetros del refor-

zador, como es su magnitud, inmediatez y calidad, así como para condiciona-

miento aversivo, o incluso para los programas simples de reforzamiento con

una única alternativa de respuesta. Se han hecho diferentes adaptaciones de

la expresión matemática de la ley de la igualación para cada uno de estos pa-

rámetros y situaciones. No expondremos aquí todas estas reformulaciones de

la ley de la igualación pero sí presentaremos un ejemplo cotidiano.

Todo el mundo está más o menos familiarizado con el deporte del baloncesto y sus re-glas. Un jugador puede elegir a lo largo del partido realizar lanzamientos desde dentro dela zona, con los que se consiguen 2 puntos por canasta, o efectuar lanzamientos desdefuera de la zona, con los que se consiguen tres puntos por canasta. Consideramos loslanzamientos a canasta como la respuesta instrumental, el enceste como el reforzador ylos puntos obtenidos con cada uno de los dos tipos de enceste como la magnitud del re-forzador. En la tabla se muestra la estadística de lanzamientos y encestes de dos jugadoresprofesionales de baloncesto de la Peña durante la temporada 2007-2008.

2 puntos 3 puntosJugador

Encestes Puntos Lanzamientos Encestes Puntos Lanzamientos

Rudy�Fernández 105 210 177 90 270 220

Demond�Mallet 37 74 82 88 264 207

Podemos calcular la tasa relativa de lanzamientos de tres puntos para cada uno de losdos jugadores.

Rudy: R3 / (R3 + R2) = 220 / (220 + 177) = 0,55Mallet: R3 / (R3 + R2) = 207 / (207 + 82) = 0,72

A continuación calculamos la tasa relativa de reforzamiento (encestes) de tres puntos delos dos jugadores:

Rudy: r3 / (r3 + r2) = 90 / (90 + 105) = 0,46Mallet: r3 / (r3 + r2) = 88 / (88 + 37) = 0,70

Y finalmente calculamos la tasa relativa de la magnitud del reforzador (puntos) de trespuntos:

Rudy: M3 / (M3 + M2) = 270 / (270 + 210) = 0,56Mallet: M3 / (M3 + M2) = 264 / (264 + 74) = 0,78

Podemos observar que la ley de la igualación se cumple en el primer jugador con respectoa la magnitud del reforzador, mientras que para el segundo jugador, la ley se cumplepor la frecuencia del reforzamiento. Parece ser que para cada uno de los dos jugadores laelección de los lanzamientos de 2 ó 3 puntos viene determinada por diferentes aspectosdel reforzador: en el primer jugador es la magnitud del reforzador la que controla suelección del tipo de lanzamiento, mientras que para el segundo jugador es la frecuenciade encestes de cada tipo de lanzamiento la que controla sus elecciones.


En el ejemplo hemos observado cómo se aplica la ley de la igualación en una

situación real. Los datos obtenidos se ajustan de manera bastante precisa a las

predicciones de la ley de la igualación. No obstante, Baum (1974) identificó

tres errores sistemáticos en situaciones de elección: sesgos, sobreigualación

e infraigualación.

• Los sesgos se observan cuando los sujetos tienen una clara preferencia por

una de las alternativas de respuesta, por ejemplo la palanca de la derecha.

En estos casos la preferencia por uno de los mecanismos de respuesta in-

terfiere en los parámetros de la recompensa y produce un sesgo con res-

pecto a lo que prevé la ley de la igualación.

• La sobreigualación se refiere a una tasa de respuesta superior para el mejor

de los dos programas en relación con lo que predice la fórmula de la igua-

lación. Este error se produce cuando existe un coste adicional para cambiar

de una alternativa a la otra. Por ejemplo, es común que en un programa

concurrente las primeras respuestas después del cambio no sean reforza-

das para evitar que se refuerce precisamente la alternancia. Esta técnica

se denomina "tiempo fuera" y si es relativamente largo suele producir la

sobreigualación.

• El tercer error que ha detectado Baum es la infraigualación y se refiere al

hecho de que la tasa de respuesta a la mejor alternativa es más baja que la

que hay que esperar a partir de la ley de la igualación.

Con el fin de tener en cuenta estos errores en la ley de la igualación, Baum

(1974) reformó la ecuación de la ley introduciendo dos parámetros que corri-

gieran los errores identificados:

RA / RB = k (rA / rB)s

Donde RA, RB, rA y rB, son las respuestas y las frecuencias del reforzador

en los programas A y B, respectivamente; k es una constante que repre-

senta el sesgo de respuesta, y s es un exponente que regula la sensibilidad

del sujeto hacia los dos programas.

Cuando las dos constantes, k y s, valen 1, entonces la ley de la igualación

mantiene su formulación original. Si s tiene un valor superior a 1, entonces

se produce sobreigualación, y si tiene un valor inferior a 1, se produce infra-

igualación.

Otro problema de la ley de la igualación es que no se cumple si los progra-

mas de reforzamiento en las dos alternativas son de razón. Si presentamos dos

alternativas con dos programas RV5 y RV15, la ley de la igualación predice

que se elegirá el programa más favorable (RV5) el 75% del tiempo. En cambio,

los animales eligen exclusivamente el programa más favorable. Al tratarse de


programas de razón, la situación cambia notablemente con respecto a los pro-

gramas de intervalo, y, en esta nueva situación, responder al programa menos

favorable (RV15) hace perder reforzadores que se hubieran ganado dedicando

el mismo número de respuestas al programa más favorable.

La ley de la igualación sólo realiza una descripción del comportamiento en

situaciones de elección concurrente, pero no explica por qué se produce esta

alternancia. Se han propuesto varias teorías para explicar la conducta de elec-

ción. Una de ellas es la que se conoce con el nombre de maximización.

La idea central es que los animales alternan entre dos fuentes de refor-

zamiento con el fin de conseguir el máximo de reforzadores.

En los programas concurrentes IV-IV, la disponibilidad del reforzador depende

no sólo de la respuesta, sino también del paso del tiempo. Esto implica que

aunque el animal esté respondiendo a la alternativa A, el tiempo también pasa

para la alternativa B, con lo que la probabilidad de que el reforzador vuelva

a estar disponible en la alternativa B incrementa. Imaginemos que el animal

ha dedicado 50 segundos a picotear la alternativa A hasta recibir el reforzador.

A partir de este momento la probabilidad de recibir el reforzador en la alter-

nativa A es muy baja y probablemente la probabilidad de recibir el reforzador

en el programa B haya aumentado, ya que ha pasado más tiempo desde que

recibió el último reforzador en este programa. Si eso es así y el animal quiere

maximizar los reforzadores, lo más ventajoso es cambiar a la alternativa B.

Aunque la teoría de la maximización puede explicar la alternancia entre dos

programas IV-IV y la dedicación al mejor de dos programas RV-RV, no puede

explicar por qué las tasas relativas de respuesta se ajustan a la ley de la iguala-

ción. Por ejemplo, si un animal está sometido a una elección IV30seg-IV60seg,

podría obtener el máximo de reforzamiento si se dedica al programa IV30seg

y cada 60 segundos cambia al programa IV60seg. Pero también obtendría el

máximo de reforzadores si se dedicara al programa IV60seg y cada 30 segun-

dos probara en el programa IV30seg. Encontramos otro problema cuando los

individuos están sometidos a una elección concurrente RV-IV. La maximiza-

ción pasaría por responder casi exclusivamente al programa RV y cambiar al

programa IV cuando se ha completado el intervalo. No obstante, tanto ani-

males como humanos dedican más tiempo al programa de intervalo de lo que

la maximización predice.

Como alternativa a la maximización, se ha propuesto la teoría�de�la�mejora.

Aquí se entiende mejorar en el sentido de hacer que alguna cosa sea mejor que

en el pasado inmediato. En este caso, los animales valorarían su rendimiento

cada cierto tiempo evaluando las tasas de reforzamiento que reciben en cada

programa.


Hasta ahora hemos hablado de las tasas de respuesta en un sentido global, esto

es, los reforzadores obtenidos en una alternativa en toda la sesión. Si un animal

obtiene 50 reforzadores en la alternativa A en una sesión de una hora, la tasa

global es de 50 reforzadores por hora, pero si ha dedicado sólo 15 minutos

a esta alternativa, entonces podemos calcular la tasa local de reforzadores a

la alternativa A: 50 reforzador por 15 minutos o, lo que es lo mismo, 200

reforzadores por hora. Como la tasa local sólo tiene en cuenta el tiempo que

se ha dedicado a una de las alternativas, la tasa local siempre será más alta que

la tasa global.

La teoría de la mejora propone que los animales irán haciendo ajustes a la

distribución de sus respuestas hasta que las tasas locales de las dos alternativas

se igualen, momento en el que ya no se puede mejorar la situación. Lo más

interesante de la teoría es que predice que las distribuciones de las respuestas

se ajustarán exactamente a lo que predice la teoría de la igualación.

Supongamos un programa concurrente IV30seg-IV60seg. Durante la primera

sesión de una hora, un animal puede distribuir el tiempo a partes iguales entre

las dos alternativas y hacerlo de modo que obtenga el máximo de reforzado-

res teóricamente disponibles en cada alternativa. Las tasas globales en cada

alternativa serían de 120 reforzadores en una hora en el programa IV30seg

y 60 reforzadores en el programa IV60seg. Las tasas locales serían 240 y 120

reforzadores por hora, respectivamente. Es evidente que en esta situación es

mucho más ventajoso responder durante más rato al programa IV30seg. Es

muy posible que para mejorar el rendimiento, el animal decida responder más

tiempo al programa de IV30seg durante la segunda sesión. Imaginemos que el

animal dedica 45 minutos al programa IV30seg y obtiene los 120 reforzadores

posibles y que dedica sólo 15 minutos al programa IV60seg y obtiene también

los 60 reforzadores disponibles en la sesión (hemos de tener en cuenta que los

tiempos de dedicación a cada alternativa se acumulan a lo largo de la sesión,

es decir, un animal irá alternando de una alternativa a la otra varias veces de-

dicando pequeñas cantidades de tiempo a cada alternativa, pero que acumu-

ladas serán 45 y 15 minutos a cada una de ellas).

Al conseguir el máximo de reforzadores en las dos alternativas, la tasa global

no variará con respecto a la primera sesión, pero ¿qué sucede con las tasas

locales? Si obtiene 120 reforzadores en 45 minutos con el programa IV30seg,

tendremos que la tasa local será de 160 reforzadores por hora, mientras que en

el caso del programa IV60seg la tasa local será de 60 reforzadores por 15 minu-

tos o, lo que es lo mismo, 240. Después de la segunda sesión, el animal percibe

que es más rentable dedicar más de 30 minutos al programa IV30seg (primera

sesión) pero menos de 45 minutos (segunda sesión). De acuerdo con esto, en

la tercera sesión podemos encontrar que el animal ha dedicado 40 minutos al

programa IV30seg y 20 minutos al programa IV60seg, obteniendo todos los

reforzadores disponibles en ambos programas. Ahora las tasas locales de refor-

zamiento serían 120 reforzadores en 40 minutos, o 180 reforzadores por hora

en el programa IV30seg, y 60 reforzadores en 20 minutos, o 180 reforzadores


por hora. Ahora se han igualado las dos tasas de reforzamiento locales y, por

lo tanto, ya no se puede mejorar la situación. Si calculamos la ley de la igua-

lación, obtendremos que la tasa relativa de respuestas en el programa IV30seg

es 40 minutos / 60 minutos = 0,67. De la misma manera podemos calcular la

tasa de reforzamiento relativa en el programa de IV30seg, 120 reforzadores /

(120 reforzadores + 60 reforzadores) = 0,67. Podemos observar, pues, cómo la

teoría de la mejora consigue predecir exactamente cómo se distribuirán las

respuestas entre los dos programas concurrentes.

5.5.2. Programa concurrente encadenado

El segundo tipo de elección que hemos introducido más arriba era aquella

que implicaba un compromiso. Si recibimos dos ofertas de trabajo, deberemos

decidirnos por una de ellas. La elección implica un compromiso porque una

vez realizada la elección nos dedicaremos, al menos un cierto tiempo, a la

elección elegida y renunciaremos a la alternativa. ¿Cómo se ha estudiado esta

situación en el laboratorio?

En este caso, la elección se realiza antes de acceder a un programa de reforza-

miento concreto. La situación más simple es presentar dos alternativas de las

que el animal deberá elegir una de ellas ejecutando un número determinado

de respuestas (por ejemplo, tres picotazos con el pico en la tecla de la derecha).

Una vez elegida la alternativa, el animal tiene acceso a un programa concreto

durante un período de tiempo, por ejemplo un programa de RV25 durante 10

minutos. La característica más relevante es que una vez elegido el programa de

reforzamiento, ya no puede cambiar hasta que no haya transcurrido el tiempo

especificado y se le permita una nueva elección.

Supongamos la siguiente situación:

• Estamos en casa dispuestos a estudiar para el examen que tenemos dentro de 15 díascuando los amigos telefonean y nos invitan a ir a la discoteca. ¿Qué haremos en estasituación? Lo más probable es que vayamos a la discoteca.

• Queremos dejar de fumar. Sabemos que después de un tiempo sin fumar encontrare-mos unas mejoras importantes por lo que respecta a la salud, no oleremos a humo,no deberemos salir del lugar de trabajo cada dos por tres para fumar un cigarrillo,etc. En cambio, después de 6 horas sin encender un cigarrillo empezamos a notar-nos nerviosos, no nos concentramos en lo que hacemos, comemos más a menudo ynuestro humor se ha vuelto agrio. Sabemos que si fumamos un cigarrillo todos estossíntomas desaparecerán. ¿Qué haremos en esta situación? La respuesta más probableserá encender el cigarrillo.

¿Qué tienen en común las dos situaciones?

En las dos encontramos dos opciones y hemos de decidir entre ellas. Cuando

elegimos una de las alternativas, perdemos la oportunidad de dedicarnos a la

otra, al menos un cierto tiempo. Pero además tenemos que una de las opciones

proporciona un reforzamiento grande pero demorado, mientras que la otra

opción proporciona un reforzamiento pequeño aunque inmediato. En efecto,

estudiar nos permite aprobar un examen que, a la larga nos proporciona un

Autocontrol

Quizá el campo donde más seha aplicado el estudio de pro-gramas concurrentes encade-nados es el del autocontrol.


oficio y la posibilidad de ganar dinero, mientras que ir a la discoteca da un

placer inmediato pero pequeño, nos lo habremos pasado bien durante un ra-

to pero difícilmente tendrá importantes repercusiones para nuestra vida. No

fumar (y dedicarnos a otras actividades) proporciona una gran recompensa

en cuanto a salud y relaciones sociales, pero sus efectos no los veremos hasta

pasados unos días o semanas, mientras que fumar un cigarrillo nos elimina el

síndrome de abstinencia de manera inmediata.

Rachlin y Green (1972) diseñaron un procedimiento en el laboratorio para es-

tudiar estas situaciones de elección. Utilizaron un procedimiento de elección

concurrente encadenado donde la elección inicial daba lugar o bien a un pro-

grama que proporcionaba recompensas pequeñas inmediatas, o bien a otro

programa que proporcionaba recompensas grandes demoradas. Siempre que

la elección implique el acceso directo al programa seleccionado, las palomas

prefieren la opción que lleva a recompensas pequeñas pero inmediatas. En el

mismo trabajo, Rachlin y Green introdujeron una nueva variable que consistía

en posponer el acceso al programa seleccionado un cierto tiempo. El tiempo de

demora entre el momento de la elección y el acceso al programa era el mismo

para los dos casos. Lo más interesante es que en esta nueva alternativa las pa-

lomas elegían preferentemente el programa que daba una recompensa grande

y demorada. En otras palabras, las palomas mostraban autocontrol. Resultados

similares se han encontrado en diferentes especies de animales incluyendo a

los humanos (podéis ver Logue, 1998).

¿Por qué es preferible un reforzador inmediato que un reforzador demorado?

A igual magnitud del reforzador es un hecho que la inmediatez le otorga más

valor o, lo que es lo mismo, la demora le resta valor a un reforzador. Este

hecho se ha convertido en un principio general y los esfuerzos se han dirigido

a establecer cómo la demora reduce el valor del reforzador. Mazur (1987) ha

propuesto una función matemática que representaría la pérdida de valor del

reforzador (V) en función de la magnitud (M) y la demora en la que se presenta

(D):

V = M / (1 + KD)

Donde K es la tasa de descuento del valor.

Esta fórmula matemática se conoce como función�del�decaimiento�hiperbó-

lico. Si el reforzador se da sin demora, D vale 0 y, en consecuencia, el valor del

reforzador viene determinado sólo por su magnitud. Pero si el reforzamiento

se demora, entonces el valor se ve reducido. Pero ¿cómo funciona la ecuación?

Cuando la recompensa es inmediata aunque pequeña, entonces el valor de-

pende exclusivamente de su magnitud. En cambio, si el reforzador es mayor,

pero se entrega con una demora suficiente, la ecuación predice que perderá

valor y si el resultado final da lugar a un valor más pequeño que el que tiene la

recompensa pequeña inmediata, entonces elegiremos ésta última. En el caso


del autocontrol, se introduce una demora desde el momento en el que se rea-

liza la elección hasta que se tiene el acceso al reforzador. Esta demora permite a

la recompensa pequeña perder buena parte de su valor y, si es suficientemente

larga, quedará por debajo del valor de la recompensa grande y demorada, por

lo que ahora los sujetos preferirán la recompensa grande y demorada.

Teniendo en cuenta esta función del decaimiento hiperbólico de la recompen-

sa, se recomienda a las personas que quieren dejar de fumar, o que quieren

perder peso, que no tengan reservas de tabaco o comida con alto contenido

calórico en casa. Por un lado, esta técnica permite eliminar claves que podrían

desencadenar el deseo por el consumo de tabaco o comida rica en calorías pe-

ro, por otra parte, implicaría demorar el acceso a las recompensas pequeñas,

ya que la persona ha de salir de casa y desplazarse hasta la tienda. Esta demora

haría perder el valor de las recompensas pequeñas facilitando el autocontrol.


6. Extinción de la respuesta instrumental

Los mecanismos de aprendizaje proporcionan flexibilidad a la conducta y per-

miten adaptarnos a nuestro entorno. Hasta ahora nos hemos centrado en si-

tuaciones relacionadas con la adquisición y el mantenimiento de conductas.

En el condicionamiento instrumental, cuando una conducta va seguida de

una consecuencia agradable se verá reforzada y, en consecuencia, se manten-

drá. Pero si las circunstancias cambian, por ejemplo, si la conducta deja de

ir seguida del reforzador, entonces dejar de ejecutar la conducta será lo más

adaptativo.

Ponemos monedas en una máquina expendedora de café para obtener la bebida, sin em-bargo, si la máquina está estropeada y no nos proporciona el café, insistiremos pulsandoel botón hasta que nos convenzamos de que no habrá reforzador y dejamos de pulsarlo.

La ausencia del reforzador esperado provoca la extinción de la respuesta ins-

trumental. En la situación descrita, la extinción se producirá rápidamente. Pe-

ro ¿qué sucederá si se estropea una máquina tragaperras? En este caso un ju-

gador persistirá en su conducta durante mucho tiempo a pesar de que deje de

recibir el reforzador. Recordemos que las máquinas tragaperras funcionan bajo

un programa de reforzamiento intermitente y es precisamente esta caracterís-

tica del programa de reforzamiento la que provoca que se observe esta resis-

tencia a la extinción.

Este hallazgo se denomina efecto�del�reforzamiento�parcial. Sin embargo,

¿por qué una respuesta que ha sido reforzada sólo intermitentemente mostrará

más resistencia a la extinción que una conducta que ha sido reforzada cada

vez que ha aparecido?

Las conductas reforzadas con programas intermitentes son más difíciles

de extinguir que las conductas reforzadas con un programa continuo.

Fase Adquisición Extinción

Procedimiento Respuesta → Reforzador Respuesta → Ø

Ejemplo Presión de palanca → comida Presión de palanca → no comida

La tabla muestra el procedimiento de adquisición y extinción de una respuesta instrumental

Una explicación del efecto del reforzamiento parcial es la conocida con el

nombre de la hipótesis�de�la�discriminación (Mowrer y Jones, 1945).


La hipótesis afirma que para que un sujeto deje de ejecutar la respuesta

una vez se inicia la extinción, el sujeto debe ser capaz de discriminar el

cambio en la contingencia del reforzamiento.

Con el reforzamiento continuo, donde cada respuesta es reforzada, el cambio

a una situación de extinción es fácil de discriminar y por ello la respuesta des-

aparece rápidamente. En cambio, si estamos actuando bajo un programa de

reforzamiento intermitente, nos será difícil discriminar la situación de extin-

ción.

Aunque la teoría es sencilla, actualmente existe evidencia experimental a favor

de una teoría alternativa ligeramente diferente basada en el decremento de la

generalización y propuesta por Capaldi (1966, 1967). La hipótesis�del�decre-

mento�en�la�generalización es el término utilizado para denominar el decre-

mento en las respuestas que se observa en pruebas de generalización cuando

los estímulos de prueba son cada vez menos similares al estímulo de entrena-

miento.

Si reforzamos a una paloma por picotear una tecla iluminada de color amarillo, observa-remos un decremento en la generalización (una frecuencia más baja de respuestas) si elcolor de la tecla es azul durante la prueba de generalización.

De acuerdo con la hipótesis del decremento en la generalización, se ob-

servarán menos respuestas durante la extinción si los estímulos presen-

tes durante la extinción son diferentes de los que estaban presentes du-

rante el reforzamiento. Ahora bien, si los estímulos durante el reforza-

miento y la extinción son similares, entonces la tasa de respuestas tam-

bién será similar.

Según Capaldi, existe un decremento en la generalización mayor cuando el

programa de reforzamiento cambia de un reforzamiento continuo a la extin-

ción, ya que el sujeto nunca ha experimentado una situación donde sus res-

puestas no fueran reforzadas. En otras palabras, el animal dejaría de responder

rápidamente, ya que nunca se le ha enseñado a seguir respondiendo cuando

sus respuestas no fueran reforzadas. Si atendemos ahora a un programa inter-

mitente, por ejemplo RV50, observamos que el animal realiza muchas respues-

tas que no van seguidas del reforzador, de media sólo un 2% de las respuestas

proporcionan el reforzador. Si el programa de reforzamiento pasa de RV50 a la

extinción, donde el 0% de respuestas son reforzadas, las dos situaciones serán

muy similares y el decremento en la generalización será pequeño, es decir, el

animal continuará respondiendo durante más tiempo. Un programa de refor-

zamiento parcial, pues, puede haber enseñado al animal a persistir en sus res-

puestas a pesar de que muchas no sean reforzadas porque tarde o temprano

recibirá el reforzador.

Ved también

Podéis ver el subapartado 9.2,"Gradientes de generaliza-ción", de este módulo didácti-co.


Si bien el efecto del reforzamiento parcial es un fenómeno robusto, hay situa-

ciones en las que no se observa o incluso se observa el efecto contrario. Así, si se

entrena a una paloma con un programa continuo cuando la tecla de respuesta

es de color amarillo y con un programa RV10 cuando la tecla de respuesta es de

color verde, cuando se introduce la extinción en ambas situaciones, se observa

más persistencia en la respuesta cuando está presente la tecla iluminada de

color amarillo (reforzamiento continuo) que cuando está iluminada de color

verde (reforzamiento RV10) (por ejemplo, Flora y Pavlik, 1990). Nevin (1988)

ha propuesto que cuando un animal se entrena en la situación descrita, el pro-

grama que proporciona más reforzadores adquiere más resistencia al cambio,

y esto explicaría por qué en la extinción se sigue respondiendo más a él.

6.1. Otros efectos de la extinción sobre la respuesta instrumental

El efecto más estudiado de la extinción sobre una respuesta instrumental es la

reducción de la respuesta y la resistencia a la extinción de los programas de

reforzamiento parcial. No obstante, podemos observar otros efectos. Uno de

ellos afecta a la conducta y el otro al estado emocional.

1) En la conducta, si la respuesta instrumental efectiva deja de producir el

reforzador, podremos observar un incremento�en�la�variabilidad�de�la�con-

ducta.

Por ejemplo, si llegamos a casa y se ha estropeado el ascensor y no lo sabemos, pulsaremosel botón para llamarlo. Cuando vemos que no llega, probablemente volveremos a pulsarel botón. Como el ascensor no llegará, podremos empezar a probar nuevas estrategiascomo pulsar repetidamente el botón o mantener la presión sobre el botón más tiempodel necesario.

Este efecto de la extinción sobre la variabilidad de la respuesta instrumental ha

sido estudiado experimentalmente por Neuringer y sus colaboradores (Neu-

ringer, Kornell y Olufs, 2001).

En líneas generales, las ratas del experimento debían ejecutar una secuencia de tres res-puestas para obtener un reforzador. De hecho, los animales podían pulsar cualquiera delas dos palancas de respuesta y/o una tecla de respuesta. Cualquier combinación podíaser reforzada durante el entrenamiento y se midió la variabilidad de la respuesta. Cuan-do no había ninguna restricción sobre la variabilidad en la secuencia de tres respuestas,se observó que los animales desarrollaban una preferencia por una secuencia concreta eintroducían pocos cambios. Cuando posteriormente se llevó a cabo la extinción, se ob-servó que el descenso en la tasa de respuesta iba acompañado por un incremento en lavariabilidad de la respuesta. Las ratas de Neuringer y colaboradores probaban secuenciasdiferentes de respuestas cuando las habituales dejaron de producir el reforzador.

2) El otro efecto de la extinción de una respuesta instrumental es la frustra-

ción. La emoción de frustración se produce cuando no se obtiene un reforza-

dor que se espera. Como proceso emocional, la frustración activa la conducta

y en determinadas situaciones en las que la frustración es vivida severamente,

puede generar conducta agresiva.

Ejemplo

En el ejemplo del ascensor es-tropeado, si vivimos en el sép-timo piso podríamos reaccio-nar dando una patada a lapuerta del ascensor.


Experimento de Azrin, Hutchinson y Hake (1966)

En un experimento, Azrin, Hutchinson y Hake (1966) situaron dos palomas en unacaja de Skinner. Uno de los sujetos recibía reforzadores para picotear una tecla derespuesta, mientras que el otro animal permanecía atado en una esquina de la caja.Mientras el sujeto experimental era reforzado, ignoraba completamente a su compa-ñero. Cuando se introdujo un programa de extinción y la respuesta ya no proporcio-naba al reforzador esperado, el sujeto experimental mostró una conducta agresivahacia su inocente compañero, que hasta entonces había sido un convidado de piedra.

Esta misma reacción agresiva inducida por la extinción también se ha obser-

vado en ratas y personas (por ejemplo, Nation y Cooney, 1982; Tomie, Carelli

y Wagner, 1993).

Resumiendo, la extinción consiste en dejar de proporcionar el reforza-

dor una vez se ejecuta la respuesta.

Imaginemos una situación en la que un bebé llora durante la noche y los padres lo to-man en brazos. La conducta de llorar se habrá visto reforzada por el hecho de que lopaseen arriba y abajo del pasillo. Si queremos que el bebé deje de llorar por la noche,deberemos instaurar un procedimiento de extinción que implicará no tomar al niño enbrazos cuando llora. Es muy posible que durante las primeras noches el bebé intensifiquey alargue el llanto debido a la frustración de no recibir el reforzador. También es posibleque el bebé dé patadas. Este comportamiento muestra los cambios en la respuesta dellanto (duración e intensidad) y la conducta agresiva que genera la extinción. Si los pa-dres resisten la tentación de tomar al niño en brazos, la respuesta de llanto desaparecerá.En cambio, si los padres cometen el error de tomarlo en brazos algunas veces y otras no,estarán instaurando un programa de reforzamiento parcial. La consecuencia será que laextinción será más difícil si finalmente deciden no tomarlo más en brazos.


7. Condicionamento aversivo

La mayoría de las situaciones que hemos visto hasta ahora se refieren al re-

forzamiento positivo, es decir, que la conducta provoca que se presente un

estímulo o situación agradables. No obstante, cuando hablábamos del proce-

dimientos de condicionamiento instrumental hemos definido dos situaciones

en las que estaban implicados estímulos o situaciones aversivas o desagrada-

bles. Si recordamos, estas situaciones eran el reforzamiento negativo, donde

la ejecución de la respuesta provocaba la finalización de un estímulo aversi-

vo o impedía su presentación, y el castigo, donde la conducta hacía aparecer

un estímulo aversivo. En este apartado veremos con detenimiento estas dos

situaciones.

7.1. Evitación y escape

Solomon y Wynne (1953) realizaron un experimento que ilustra muchas de

las características del reforzamiento negativo.

Experimento de Solomon y Wynne (1953)

Trabajaron con perros y el aparato era una caja de ida y vuelta (del inglés shuttlebox; podéis ver la figura siguiente). Este aparato consta de dos compartimentos se-parados por una valla de unos centímetros de altura. Un animal puede desplazarsede un compartimiento al otro saltando la valla. Cada compartimiento tiene el suelode metal, que se puede electrificar para dispensar estímulos aversivos (descargas eléc-tricas). Finalmente, hay que indicar que en cada compartimiento hay una bombillaque pueden iluminar los dos compartimentos independientemente. En cada sesiónexperimental un perro recibía 10 ensayos en los que podía escapar o evitar una des-carga si saltaba al otro compartimiento. Cada pocos minutos se apagaba la luz delcompartimiento donde se encontraba el animal, mientras que la luz del otro ladose mantenía encendida. Si el perro se quedaba en el compartimiento a oscuras, des-pués de 10 segundos el suelo se electrificaba y el animal recibía la descarga eléctrica,que duraba hasta que el animal saltaba la barrera. De esta manera, el animal podíaescapar de la descarga. El perro también podía evitar la descarga si daba la respuestaantes de que pasaran los 10 segundos desde que se apagaba la luz. En el siguienteensayo se procedía de la misma manera pero la respuesta consistía en volver al primercompartimiento.


Esquema de una caja de ida y vuelta

El animal se ubica en uno de los compartimentos separados por la valla. En un momento determinado sepresenta un estímulo visual o auditivo de unos pocos segundos de duración y a continuación se electrificala reja del suelo del compartimiento donde se encuentra el animal, pero no la del compartimiento vacío.Para escapar de la descarga, el animal ha de saltar la valla para pasar al compartimiento de seguridad. Con elentrenamiento, el animal dará respuestas de evitación, ya que cambiará de compartimiento en el momento enel que se presenta el estímulo discriminativo y antes de que se electrifique el suelo.

En cada ensayo, Solomon y Wynne midieron el tiempo que tardaba el animal encambiar de compartimiento a partir del momento en el que la luz se apagaba. Enlos primeros ensayos pudieron ver que los animales tardaban más de 10 segundos ensaltar al otro compartimiento desde el apagón de la luz. Esta demora en la respuestaprovocaba que los pobres animales recibieran la descarga y, por lo tanto, las respues-tas eran de escape. Sin embargo, con pocos ensayos de entrenamiento los animalescambiaban de compartimiento antes de que pasaran los 10 segundos y, en conse-cuencia, evitaban la descarga. Hacia los 12 ensayos de condicionamiento la mayoríade los perros evitaban completamente la descarga, ya que tardaban de 2 a 3 segundospara dar la respuesta.

Los primeros ensayos de condicionamiento que consistían en escapar de la

descarga no son difíciles de explicar por el condicionamiento instrumental, ya

que la respuesta modifica la situación en la que se encuentra el animal. Aho-

ra bien, los ensayos de evitación son problemáticos porque hay que explicar

cómo un estímulo que no se presenta (que el animal no experimenta) puede

reforzar la conducta.

En otras palabras, al impedir la presentación de la descarga, la situación no

se ve modificada por el comportamiento (no hay descarga y continúa igual

después de que el animal responda).

1)�Teoría�de�los�dos�factores

Uno de los primeros investigadores que intentó explicar por qué se mantiene

la conducta de evitación fue Mowrer (1947) con la teoría�de�los�dos�facto-

res. Los dos factores son el condicionamiento clásico y el condicionamiento


instrumental y los dos deben actuar para poder explicar el condicionamiento

de evitación. Expondremos la teoría siguiendo el experimento de Solomon y

Wynner.

La descarga eléctrica es un EI que provoca una RI de miedo y es precisamente

esta respuesta emocional la clave de la teoría. Mediante el condicionamiento

clásico, alguna señal acaba anticipando la descarga y provocando la respuesta

de miedo. En el experimento de Solomon y Wynne, este EC eran los 10 segun-

dos de oscuridad que precedían a la descarga. Con pocos ensayos, los perros

podían aprender que la oscuridad señalaba la descarga y provocaba miedo a

los animales.

El condicionamiento de miedo a un estímulo inicialmente neutro es el primer

proceso de la teoría.

La sensación de miedo es desagradable y, por lo tanto, la reducción del miedo

será reforzante para cualquier respuesta que la preceda. De esta manera, la res-

puesta de evitación lo que hace es alejar al animal del estímulo que provoca

miedo y, debido a ello, el miedo se reduce reforzando la conducta. En el caso

de Solomon y Wynne, la respuesta de los animales los llevaba a un comparti-

miento iluminado y, por lo tanto, desaparecía la oscuridad que les provocaba

el miedo. Éste es el segundo factor de la teoría: el condicionamiento instru-

mental de una conducta de evitación por la reducción del miedo cuando el

EC que la provoca desaparece.

De hecho, la teoría de los dos factores elimina la respuesta de evitación y la

sustituye por una respuesta de escape. En efecto, cuando aparece el EC activa

el miedo y la respuesta instrumental permite al animal escapar del EC aversi-

vo. Se trata, por ende, de una respuesta de escape y ya hemos visto que este

tipo de respuesta no supone ningún inconveniente para ser explicada desde

el condicionamiento instrumental.

Rescorla y LoLordo (1965) llevaron a cabo una serie experimental que daba

soporte a la teoría de los dos factores. Ya que la clave de la teoría se encuentra

en el papel del estímulo que predice clásicamente el EI, Rescorla y Lolordo

manipularon el significado de un EC emparejándolo con la descarga (condi-

cionamiento excitador) o con la ausencia de la descarga (condicionamiento

inhibidor). Los resultados mostraron que las presentaciones del EC excitador

en una situación de evitación incrementaban la intensidad de la respuesta ins-

trumental, mientras que si se presentaba el EC inhibidor atenuaba la respuesta

de evitación. Un EC inhibidor del miedo se denomina señal�de�seguridad, ya

que señala la ausencia de un aversivo (Weisman y Litner, 1969). La eficacia de

las señales de seguridad se ha demostrado en varias situaciones. Por ejemplo, si

se presenta un estímulo explícito cada vez que se acaba una descarga, entonces

el miedo de los animales a la situación experimental se ve atenuado (Mineka,


Cook y Miller, 1984). Por otra parte, el condicionamiento de evitación es más

rápido si se presenta un estímulo cada vez que el animal realiza la respuesta

instrumental requerida (McAllister y McAllister, 1992).

Aunque estos experimentos, y otros similares, dan soporte a la teoría de los

dos factores, otros trabajos han encontrado datos que resultan un reto para

la teoría.

En primer lugar, se ha observado que la respuesta de evitación aparece en si-

tuaciones en las que los animales no muestran signos de miedo. En el mismo

experimento de Solomon y Wynne, los animales gemían, orinaban y tembla-

ban cuando la luz se apagaba, comportamientos que señalaban que los ani-

males tenían miedo. Sin embargo, a medida que avanzaba el entrenamiento

y los animales eran eficientes con la respuesta de evitación, estas manifesta-

ciones de miedo desaparecían. Si lo que mantiene la respuesta de evitación es

escapar del miedo, ¿cómo se puede mantener la conducta si ya no hay miedo?

Es evidente que estos datos aportan quebraderos de cabeza a la teoría.

Un segundo problema de la teoría de los dos factores es su resistencia a la ex-

tinción. Si analizamos la situación, cuando los animales son expertos en evitar

la descarga, ya no la experimentan más y, por lo tanto, la presentación de la

señal de la descarga sin ella debería producir una extinción de esta asociación.

Si se produce la extinción, entonces la señal dejará de provocar miedo y si

no hay miedo, el animal debería dejar de responder. Finalmente, si deja de

responder debería volver a recibir las descargas y volver a adquirir el miedo y

la respuesta de evitación. No obstante, este ciclo que predice la teoría de los

dos factores no se ha observado nunca. Todavía más, una vez adquirida la res-

puesta de evitación, ésta muestra mucha resistencia a la extinción. Solomon

y Wynne presentaron centenares de ensayos de extinción y algunos de sus

perros seguían respondiendo.

2)�Teoría�de�un�factor

Dados los problemas de la teoría de los dos factores, no ha de extrañar que

aparecieran nuevas teorías para explicar el condicionamiento de evitación.

Una de ellas recibe el nombre de la teoría�de�un�factor. Recibe este nombre

porque afirma que el condicionamiento clásico del miedo no es necesario para

que se dé la respuesta de evitación. En otras palabras, la evitación de la descarga

es en sí misma el reforzador.

Sidman (1953) y Herrnstein (1969; Herrnstein y Hineline, 1966) diseñaron

procedimientos de evitación sin necesidad de presentar señales que predijeran

la descarga. No describiremos aquí los procedimientos, ya que son complejos,

pero sí mencionaremos que trabajaron con ratas que recibían descargas eléctri-

cas sin ningún estímulo explícito que las precediera. Si los animales presiona-

ban una palanca, entonces la descarga se retrasaba o se reducía la probabilidad

de que apareiera. Estos procedimientos permiten que los animales aprendan a


presionar la palanca para evitar descargas, aunque la actuación nunca es tan

perfecta como en los procedimientos donde se utiliza la señal para anticipar

la descarga. Herrnstein (1969) defiende que para que los animales actúen con

éxito en una situación como ésta, deben ser sensibles a la razón de descargas

en presencia y en ausencia de la respuesta, y que justamente la reducción en

la razón de descargas recibidas es suficiente para reforzar la conducta de evita-

ción. Para Herrnstein, la presencia de la señal de la descarga provoca que sean

más discriminables las situaciones con diferente probabilidad de descargas,

hecho que facilitaría el aprendizaje de evitación. También puede explicar los

efectos de la extinción. Como la respuesta de evitación implica la reducción

de la presencia de descargas, habrá poca diferencia entre esta situación y la

de extinción, de manera que al no detectar el cambio entre el momento en

el que sí se presentaban descargas y el momento en el que no se presentan,

los animales no realizan ningún ajuste en su conducta y siguen dando la res-

puesta de evitación.

3)�Teoría�cognitiva

Una segunda alternativa a la teoría de los dos factores y, claro está, también a la

teoría de un factor, es la teoría�cognitiva que propusieron Seligman y Johnson

(1973). La teoría cognitiva se centró en el principio de la discrepancia entre

lo que sucede y lo que los organismos esperan que suceda. Esta perspectiva

sigue los postulados de la teoría de Rescorla y Wagner (1972) estudiada en el

módulo "Condicionamiento clásico pavloviano".

El modelo de Rescorla y Wagner se centró en dos elementos principales:

el EI real que los animales experimentan y la expectativa que tienen

los animales del EI. Si existe una discrepancia entre el EI observado y

el esperado, entonces se producirá aprendizaje. Si no hay discrepancia,

entonces no habrá aprendizaje.

De acuerdo con este principio de la discrepancia, Seligman y Johnson afirman

que el aprendizaje de evitación se producirá cuando se dé una discrepancia

entre lo que se espera y lo que se observa. Proponen que en el aprendizaje de

evitación hay dos expectativas importantes: 1) si se responde no habrá estí-

mulo aversivo, y 2) si no se responde se presentará el estímulo aversivo. No

creemos equivocarnos si afirmamos que la mayoría de los organismos preferi-

mos la primera situación a la segunda y, por lo tanto, se producirá la respuesta.

Además, la respuesta se mantendrá mientras no se viole alguna de estas ex-

pectativas, esto es, mientras no se produzca una discrepancia entre lo que se

espera y lo que se observa. Así, la teoría puede explicar muy fácilmente la re-

sistencia a la extinción. Aunque en la extinción se deja de presentar la des-

carga, eso no altera las expectativas de los animales; en otras palabras, si dan

la respuesta esperan no recibir la descarga y como en la extinción ya no se


presenta la descarga, se cumple la expectativa. Si la extinción no se produce

porque no se vulnera ninguna expectativa, entonces ¿cómo podemos hacer

para extinguir una respuesta de evitación?

Si el aprendizaje (y la extinción) se produce cuando existe una discrepancia

entre lo que esperamos y lo que observamos, habrá que provocar esta discre-

pancia. Una manera de hacerlo es impidiendo que los animales den la res-

puesta de evitación en presencia de las claves que activan la expectativa de la

descarga. Como decíamos antes, una de las expectativas del animal en una si-

tuación de evitación es que la descarga se presentará si no ejecuta la respuesta.

El procedimiento que bloquea la respuesta de evitación fuerza a los animales

a tener la expectativa de la presentación de la descarga, pero como en la ex-

tinción no se presentan descargas, se produce una discrepancia entre lo que

se espera y lo que se observa. Es justamente esta discrepancia la que favorece

la extinción. Page y Hall (1953) fueron de los primeros en demostrar que este

procedimiento que impide la respuesta de evitación aceleraba su extinción.

Reforzamiento negativo

Escape Evitación

Contingencia�respuesta-reforzador Negativa Negativa

Consecuencia�de�la�respuesta Elimina un estímulo aversivo Impide un estímulo aversivo

Resultado�sobre�la�conducta Se mantiene la conducta Se mantiene la conducta

Teorías Condicionamiento instrumental • Teoría de los dos factores• Teoría de un factor (contingencia)• Teoría cognitiva (discrepancia entre la expectativa y la

realidad)

Resumen comparativo entre escape y evitación

7.2. Castigo

Cuando una conducta va seguida de un estímulo aversivo, podemos observar

un decremento en la conducta.

Si al llegar a la montaña bajamos del coche y rozamos sin darnos cuenta un puñado deortigas, probablemente dejaremos de tocarlas en el futuro. La urticaria que nos provoca laplanta es un estímulo aversivo lo suficientemente intenso como para inhibir la conductade tocarla con la piel descubierta.

Siguiendo nuestro paseo por los Pirineos, podemos ver cómo una manada de vacas pacetranquilamente en un prado. Por más que buscamos, no encontramos al pastor ni al perropastor, sino a un alambre electrificado que rodea el campo. Hace años que los pastoresutilizan este método para mantener los rebaños controlados sin tener que estar presentetodas las horas del día.

El alambre que rodea el prado es electrificado y si una vaca se acerca y lo to-

ca, recibe una descarga. Los animales aprenden rápidamente que no deben

intentar superar los límites de prado señalados por el alambre. Ambos casos

son ejemplos de castigo.


En el laboratorio se puede estudiar el castigo presentando una descarga eléctri-

ca (o cualquier otro estímulo aversivo) cuando una rata ejecuta una conducta

instrumental, por ejemplo, presionar la palanca.

Experimento de Skinner (1938)

En un experimento clásico de Skinner (1938), se entrenó durante tres días a dos gru-pos de ratas con un programa IV para obtener comida si presionaban una palanca.Después del entrenamiento se introdujo un procedimiento de extinción durante dossesiones. La única diferencia entre los dos grupos fue que para uno de los grupos,durante los diez primeros minutos de la primera sesión de extinción, cuando el ani-mal presionaba la palanca, ésta saltaba hacia arriba golpeando las patas del animal.Este ligero castigo fue suficiente como para reducir la conducta de manera notablecon respecto al grupo que recibía sólo extinción. Sin embargo, cuando desaparecióel castigo, la respuesta volvió a aparecer. A lo largo de la segunda sesión las tasasde respuesta de los dos grupos fueron muy similares y se acabaron extinguiendo almismo ritmo.

Skinner concluyó que el castigo tenía un efecto de supresión de la conducta,

pero que el efecto era temporal.

Experimento de Azrin (1960)

Azrin (1960) llevó a cabo un experimento en el que después de entrenar a unas ratasa presionar la palanca para obtener comida, introdujo el castigo de manera que cadavez que presionaban la palanca recibían una descarga suave. Al principio la tasa derespuesta disminuyó drásticamente, pero a lo largo de varias sesiones, la respuestase recuperó. Sin embargo, cuando la descarga era suficientemente intensa, el castigoproducía un descenso o la completa desaparición de la respuesta a largo plazo.

También se ha estudiado la naturaleza de la supresión de la conducta, ya que

hay otros procedimientos que también provocan la supresión de una conduc-

ta instrumental sin que esta conducta provoque la presentación de un estímu-

lo aversivo (por ejemplo, la supresión condicionada estudiada en el módulo

"Condicionamiento clásico pavloviano").

Ved también

Sobre programa IV podéis verel subapartado 5.3, "Progra-mas de intervalo", de este mó-dulo didáctico.


Experimento de Schuster y Rachlin (1968)

Schuster y Rachlin (1968) llevaron a cabo un experimento en el que unas palomaspodían picotear dos teclas de respuesta para obtener comida bajo el mismo programade IV. En algunos momentos se encendía la tecla de respuesta ubicada a la derecha ypicotearla proporcionaba comida. En otros momentos era la tecla de la izquierda laque se iluminaba y las respuestas a ella también eran reforzadas. Una vez los animalesaprendieron la tarea, se introdujo el estímulo aversivo. Concretamente, cuando seiluminaba la tecla de la derecha, algunos de los picotazos de las palomas iban seguidosde una descarga. En cambio, cuando se iluminaba la tecla de la izquierda, se presen-taba la descarga con la misma frecuencia pero independientemente de la respuestade picotear. Los resultados mostraron que los animales dejaron de responder cuandose iluminaba la tecla de la derecha, pero mantenían la respuesta si se iluminaba latecla de la izquierda. Los resultados muestran, pues, que la supresión de la respuestadurante el castigo se debe a la contingencia entre la respuesta y el estímulo aversivo(podéis ver la figura siguiente).

Representación de los datos de Schuster y Rachlin (1968)

La descarga sólo reducía la respuesta de presión de palanca cuando era contingente a la respuesta, pero nocuando no era contingente a la respuesta.

De acuerdo con lo que hemos expuesto hasta ahora, podemos concluir

que el castigo positivo tiene los efectos opuestos al reforzamiento po-

sitivo. Mientras que el reforzamiento provoca un incremento en la res-

puesta, el castigo provoca un descenso y estos cambios se mantendrán

mientras se mantenga la contingencia entre la respuesta y el estímulo

apetitivo o aversivo, respectivamente.

Ahora analizaremos algunos factores que influyen en la eficacia del castigo

positivo.

• Si queremos suprimir una conducta mediante el castigo, es necesario que

introduzcamos el estímulo aversivo con su máxima intensidad desde un

buen comienzo. Ya hemos comentado al analizar el experimento de Azrin

(1960) que los sujetos se pueden habituar a un estímulo aversivo suave y

varios estudios han mostrado cómo esta habituación se puede generalizar

a otros estímulos aversivos más intensos. Azrin, Holz y Hake (1963) de-

mostraron que unas palomas dejaban de ejecutar la conducta si ésta pro-


ducía una descarga de 80 voltios desde el primer momento, pero si la in-

tensidad de la descarga empezaba con una intensidad baja en las primeras

presentaciones y se iba incrementando poco a poco a lo largo de las sesio-

nes experimentales, las palomas seguían respondiendo incluso cuando la

respuesta producía descargas de 130 voltios.

• Otro factor que interfiere en la eficacia del castigo es la inmediatez con la

que se presenta el estímulo aversivo. Igual que en el reforzamiento la de-

mora entre la conducta y el reforzador reducía la eficacia del reforzador, en

el castigo se ha demostrado que la demora del estímulo aversivo con res-

pecto a la conducta que se quiere suprimir no tiene efecto. Todo el mundo

que tiene animales de compañía sabe la inutilidad de castigar a un perro

o un gato por haber defecado en medio del comedor si el castigo no se

administra en el momento en el que se produce la conducta del animal.

De igual manera, advertir a un niño que se porta mal por la calle de que

cuando lleguemos a casa lo castigaremos tiene pocos efectos.

• Los programas�de�castigo, es decir, el patrón con el que se administra

el castigo también tiene repercusiones sobre su eficacia. La manera más

efectiva de eliminar una conducta es mediante un programa continuo de

castigo y no mediante un programa intermitente. Antes de presentar los

estudios que muestran algunos de los efectos de los programas de castigo

cabe recordar que en estos experimentos los animales aprenden a dar la

respuesta para obtener comida, y posteriormente se introduce el castigo de

la misma conducta. Por lo tanto, los animales están altamente motivados

para ejecutar la conducta que se castiga. Con este procedimiento, Azrin y

colaboradores (1963) compararon diferentes programas de castigo de RF

que iban desde una razón igual a 1 a una razón de 1000. Demostraron

que cuanto más pequeña era la razón, más eficaz era el programa para re-

ducir la conducta. También se ha demostrado (Azrin, 1956) que cuando

se castiga una conducta con un programa de IF60seg provoca un patrón

de respuestas desacelerado a medida que se acaba el intervalo (justo el pa-

trón opuesto al que provoca el reforzamiento, en el que se observa una

aceleración hacia el final del intervalo). Cuando se ha utilizado un pro-

grama de RF20, los animales reducían las respuestas a medida que se acer-

caba la respuesta número 20, y que justo después de recibir el castigo los

animal volvían a responder con una tasa alta (Hendry y VanToller, 1964).

De nuevo, encontramos un patrón de respuesta opuesto al que provoca

el reforzamiento con programas de RF. Allí veíamos que la RF provocaba

justamente una pausa después del reforzamiento; en el castigo la pausa se

realiza antes de recibir el castigo.

• Al recordar el procedimiento para estudiar los programas de castigo decía-

mos que los animales estaban motivados para llevar a cabo la respuesta.

¿Cómo influencia la motivación para responder sobre la eficacia del casti-

go? Azrin y colaboradores (1963) demostraron que el éxito de castigar una

conducta mantenida con reforzamiento de comida dependía del grado de


privación de comida de los animales. Si los animales llevaban muchas ho-

ras sin comida, la eficacia del castigo era mínima, pero si sólo estaban lige-

ramente hambrientos, entonces el castigo suprimía prácticamente la con-

ducta. Aunque esta relación no debe sorprender a nadie, tiene importan-

tes implicaciones si queremos castigar una conducta altamente motivada

sin tener que utilizar estímulos aversivos muy intensos. Es necesario iden-

tificar el reforzador que mantiene la conducta y devaluarlo. Una manera

de hacerlo es dispensándolo de modo no contingente a la conducta que

queremos castigar. Un ejemplo dejará claro este punto.

Supongamos que unos padres quieren eliminar la conducta destructiva de su hijo. Sospe-chan de que la conducta destructiva del niño persigue la finalidad de captar la atenciónde los padres. Entonces, la manera de devaluar el reforzador sería prestar atención al niñoen otros momentos diferentes a cuando se porta mal.

• Relacionado con este último punto, se ha observado que proporcionar

conductas�alternativas a la conducta castigada que proporcionen el mis-

mo reforzador aumenta la eficacia del reforzador. Seguimos con el ejemplo

del niño que rompe objetos para obtener la atención de los padres. Si real-

mente es la única manera que tiene el niño de recibir atención, el castigo

no tendrá ningún efecto, ya que en sí mismo implicará la atención que

busca el niño. Si prestamos atención al niño por otros comportamientos

aceptados, como leer, entonces podemos proporcionarle atención intere-

sándonos por lo que lee, o dedicándole tiempo al día para jugar.

Experimento de Azrin y Holz (1966)

Azrin y Holz (1966) presentaron datos en los que una paloma que respondía bajo unprograma RF25 para obtener comida (podéis ver los programas de razón, subapartado6.2 de este módulo) y fue castigada con una descarga leve redujo la tasa de respuestasólo en un 10%. En cambio, otra paloma que disponía de dos teclas de respuesta conel mismo programa RF25 en cada una de ellas y que sólo se castigaba el hecho deresponder en una, pero no en la otra, dejó de responder completamente a la alterna-tiva castigada.

A pesar de la obviedad de los resultados, muchas personas fallan a la hora

de proporcionar y reforzar conductas alternativas aceptadas a la conduc-

ta indeseada. En el campo de la modificación de la conducta a menudo

se utilizan técnicas basadas en estos resultados. Así, si un terapeuta de-

cide castigar la conducta de pelearse con los compañeros de la escuela,

lo más común es que, aparte de castigar la conducta indeseada, refuerce

otra conducta alternativa e incompatible con la indeseada, por ejemplo

el juego cooperativo.

• El último factor que veremos que afecta a la eficacia del castigo hace refe-

rencia al papel que desempeña el castigo como señal�del�reforzador.


Experimento de Holz y Azrin (1961)

Holz y Azrin (1961) entrenaron a unas palomas a picotear una tecla de respuesta paraobtener la comida. La peculiaridad del procedimiento era que la comida sólo estabadisponible cuando se castigaba la respuesta de picotear con una descarga, pero noen otros momentos en los que no se castigaba la respuesta. De hecho, la descargallevaba a cabo el papel de un estímulo discriminativo que señalaba la disponibilidadde la comida. No es de extrañar, pues, que las pobres palomas estuvieran dispuestasa recibir descargas si era el único momento en el que podían comer.

Azrin y Holz (1963) propusieron que el comportamiento masoquista podría

estar relacionado con estos datos. Si una persona aprende que la única manera

de obtener atención de los otros es cuando sufre daño, es posible que busque

estas situaciones, ya que le anticipan la atención que busca.

Factores que afectan a la eficacia del castigo

Incrementan�la�eficacia • Máxima intensidad del estímulo aversivo.• Contigüidad temporal respuesta-estímulo aversivo.• Programa de castigo continuo.• Proporcionar alternativas para el reforzador.

Reducen�la�eficacia • Nivel de motivación alto para el reforzador.• Estímulo aversivo como señal de la disponibilidad del reforza-

dor.

Resumen de los factores que afectan a la eficacia del castigo

Si se tienen en cuenta todos los factores que afectan a la eficacia del cas-

tigo para suprimir conductas, podemos concluir que el procedimiento

es tan eficaz como el reforzamiento para modificar el comportamiento.

No obstante, hay ciertos efectos�secundarios�del�castigo que hay que tener

en cuenta antes de decidir su utilización.

• Primero, el castigo puede provocar determinadas reacciones�emocionales

como el miedo o el enfado. Estas emociones a menudo interfieren en el

aprendizaje y en la ejecución. Balaban, Rhodes y Neuringer (1990) presen-

taron una tarea de memoria a unos estudiantes. En uno de los grupos se

les castigaba con una descarga cuando cometían un error y en el otro gru-

po se les castigaba con un tono. Los resultados fueron que los estudiantes

trabajaban más lentamente y cometían más errores cuando se les castigaba

con la descarga que cuando se les castigaba con el tono.

• Un segundo aspecto que hay que tener en cuenta es que el castigo puede

suprimir�otras�conductas diferentes a la que se castiga.

Imaginad un aula en la que un estudiante realiza una pregunta y el profesor le responde:"esta es una pregunta sin sentido". Probablemente, la intención del profesor es reducirlas preguntas estúpidas, pero no sería de extrañar que al mismo tiempo redujera el hechode realizar preguntas en general, las malas pero también las buenas.

Experimento Ulrich yAzrin (1962)

Ulrich y Azrin (1962) me-tieron dos ratas en unacaja donde se compor-taban plácidamente. Perotan pronto como empeza-ron a recibir descargas suconducta se volvió agresi-va y se peleaban entre ellas.


En las situaciones de la vida real, es muy difícil llevar a cabo un segui-

miento completo de todas las conductas de una persona, pero espe-

cialmente de las conductas que son susceptibles de ser castigadas.

Si un niño es reforzado por arreglar su habitación, él mismo estará interesado en hacernotar a los padres que ha puesto en orden la habitación. Pero si se castiga al niño porpegar a su hermano, procurará hacerlo cuando no haya adultos delante y si el hermanolo delata, lo más probable es que el infractor lo niegue por evidente que sea.

Relacionado con lo que acabamos de decir, Azrin y Holz describieron

el comportamiento de una rata bastante inteligente que recibía casti-

gos por algunas de las presiones de palanca que realizaba con el obje-

tivo de obtener comida. Concretamente, este animal aprendió a pre-

sionar la palanca poniéndose panza arriba de manera que la piel lo

aislaba de las descargas que se dispensaban desde el suelo. Es evidente

que un delincuente intentará esconder todas las pruebas posibles de

sus delitos con el fin de escapar del castigo que suponen sus acciones.

• Otro problema del castigo es que tiende a provocar conductas�agresivas

hacia la persona que proporciona el castigo y hacia otras personas que

puedan estar cerca.

Como conclusión, Azrin y Holz (1963) afirman que el castigo no es re-

comendado, especialmente si hay otras técnicas que permiten obtener

los mismos resultados que el castigo pero que utilizan estimulación ape-

titiva.

Ésta no es sólo una cuestión de eficacia, sino ética. No obstante, hay muchas

situaciones en las que podemos aplicar el castigo considerándolas como nor-

males. Es evidente que los gobiernos pueden regular el funcionamiento de las

instituciones para erradicar el castigo de las instituciones como la policía, las

escuelas, las prisiones, etc., pero ya es más difícil controlar la utilización del

castigo en las interacciones interpersonales del día a día, como entre padres e

hijos, entre esposos, etc. Además, el mundo físico está lleno de situaciones en

las que podemos recibir un castigo. Sólo hay que pensar en las consecuencias

que puede tener un descuido mientras conducimos, trabajamos o practicamos

algún deporte. Dado que estas situaciones son inevitables, tiene sentido seguir

estudiando los efectos del castigo sobre nuestro comportamiento.

Hasta aquí hemos expuesto los efectos del procedimiento de castigo y los fac-

tores que influyen en su eficacia. Pero ¿cómo se explica que el castigo reduzca

la conducta?

La primera teoría que analizaremos recibe el nombre de teoría�de�la�evitación

del�castigo y está basada en la teoría de los dos factores.


Experimentos de Dinsmoor (1954, 1955, 1977)

Dinsmoor (1954, 1955, 1977) asumió que cualquier respuesta está constituida poruna cadena de otras conductas. Presionar una palanca empieza por acercarse al uten-silio, levantar la pata, apoyarla encima de la palanca y realizar suficiente presión.Cuando el último elemento de la cadena provoca el estímulo aversivo, los eslabonesprevios de la cadena quedan asociados con el estímulo aversivo y sirven como se-ñales clásicas para evocar miedo. De esta manera, iniciar la cadena puede activar elmiedo del animal y cualquier respuesta que interrumpa el miedo se verá reforzada.Así, romper la cadena y dedicarse a otras conductas elimina el miedo y éstas se venreforzadas. En definitiva, los animales dejan de ejecutar la respuesta castigada porquese refuerzan otras conductas incompatibles con la conducta castigada.

Como alternativa a esta explicación encontramos la que se basa en la ley ne-

gativa del efecto (Thorndike, 1911; Rachlin y Herrnstein, 1969) o también co-

nocida como teoría�del�factor�único.

Básicamente, la teoría postula que el castigo actúa directamente sobre la

conducta castigada sin necesidad de recurrir al condicionamiento clá-

sico.

A pesar de que es difícil poder comparar experimentalmente las dos teorías,

la investigación ha aportado más datos a favor de la teoría del factor único.

No obstante, los experimentos más concluyentes a favor de la teoría del factor

único son bastante complejos y no los expondremos aquí.


8. Teorías del condicionamiento instrumental

En la introducción del estudio de la conducta instrumental decíamos que és-

ta reflejaba lo que tradicionalmente se entiende como conducta voluntaria.

También nos referíamos a un mecanismo muy elemental que se había pro-

puesto para explicar la conducta instrumental basado en el hedonismo: los

organismos estamos motivados para ejecutar respuestas que nos proporcionan

placer y evitamos el dolor. A pesar de que podamos estar de acuerdo con este

planteamiento, es necesario un análisis más detallado de los mecanismos que

controlan la conducta instrumental.

¿Por qué el reforzador motiva nuestro comportamiento? Y ¿qué mecanismos

provocan que detectemos la respuesta apropiada para obtener el reforzador?

Responder a las dos preguntas es importante para comprender mejor nuestro

comportamiento. En la realidad, cada una de estas preguntas ha generado su

propia vía de investigación y sus teorías.

Las cuestiones motivacionales de la respuesta instrumental se han enfocado

desde la perspectiva de la regulación�de�la�conducta, más próxima al enfoque

de Skinner, y que contempla un análisis molar de la conducta. Su interés prin-

cipal es cómo el procedimiento de condicionamiento instrumental determina

el flujo de las actividades de un organismo. Parte de la base de que la conducta

persigue metas y que los organismos se sirven de su conducta para conseguir

las metas. El énfasis se pone, pues, en la función de la conducta instrumental.

Por otra parte, los mecanismos que permiten descubrir las relaciones entre el

comportamiento y sus consecuencias es el centro de interés de la perspectiva

asociativa. Thorndike fue el primero en intentar explicar el comportamiento

instrumental para la formación de asociaciones. Actualmente, el interés por el

enfoque asociativo viene influenciado por los estudios en el campo del con-

dicionamiento clásico y toma una estrategia molecular.

La conducta instrumental se estudia en referencia a los antecedentes estimula-

dores y las consecuencias específicas de la conducta. A pesar de las diferencias

evidentes, o precisamente por estas diferencias, ambas perspectivas se deben

tomar como complementarias y no como adversarias si queremos llegar a al-

canzar un conocimiento más amplio de la conducta instrumental.


8.1. Estructura asociativa del condicionamiento instrumental

Thorndike fue el primero que describió los elementos implicados en el condi-

cionamiento instrumental: la respuesta (R), la consecuencia o reforzador (C)

y los estímulos (E) en presencia de los cuales se produce la respuesta.

Desde un punto de vista asociativo, la existencia de los tres elementos permite

pensar en la posibilidad de tres asociaciones diferentes como mínimo (podéis

ver la figura siguiente). Una asociación entre los estímulos y la respuesta (E-

R), una asociación entre la respuesta y la consecuencia (R-C) y una asociación

entre los estímulos y las consecuencias (E-C).

Esquema de la estructura asociativa implicada en el condicionamiento instrumental

La flecha discontinua muestra la asociación E-R correspondiente a la ley del efecto formulada por Thorndike. Las flechascontinuas muestran las asociaciones entre el estímulo discriminativo y la consecuencia (asociación E-C) y la asociación entrela respuesta y la consecuencia (asociación R-C). (Podéis ver el texto para una explicación detallada de cada una de estasasociaciones).

8.1.1. Asociaciones E-R

Como hemos visto al principio del módulo, Thorndike formuló la ley�del

efecto para explicar el condicionamiento instrumental.

Según la ley del efecto, cuando se refuerza una conducta se forma una

asociación entre los estímulos presentes en el momento de ejecutar la

respuesta y la respuesta. El papel del reforzador es marginal en el sentido

de que no forma parte de la asociación.

Siguiendo la ley del efecto, la presencia de un estímulo que se ha asociado

a una respuesta sería suficiente para que se produjera la respuesta. La ley del

efecto no prevé que un organismo pueda tener una expectativa del reforzador,

ya que al no estar éste asociado ni a los estímulos ni a la respuesta, no se puede

activar su representación mental. Esta idea va contra la intuición.

''Abecé de la conducta''

Skinner denominaba a esta es-tructura el abecé de la conduc-ta: A de antecedentes (los es-tímulos), B de behaviour (con-ducta en inglés) y C de conse-cuentes.


Si pulsamos el botón del ascensor es porque esperamos que el ascensor venga al pisodonde nos encontramos, si introducimos unas monedas en la máquina expendedora derefrescos es porque tenemos la expectativa del refresco.

No obstante, las primeras teorías veían el aprendizaje como una asociación

E-R.

Hull (1934, 1943, 1952) desarrolló uno de los sistemas teóricos sobre el apren-

dizaje más influyentes.

El núcleo central de la teoría es que la conducta depende de dos factores

principales: el hábito o aprendizaje y el estado motivacional.

Esta teoría es uno de los primeros intentos desde una perspectiva asociativa

de diferenciar entre conducta y aprendizaje. Efectivamente, uno de los prin-

cipales problemas del enfoque conductista era la confusión entre aprendizaje

y conducta o, dicho de otra manera, la definición de aprendizaje como un

cambio en la conducta. La teoría de Hull, sin embargo, realiza esta diferencia-

ción y considera que sin hábito o sin motivación no habrá comportamiento.

Este aspecto de la teoría es relevante, ya que puede haber aprendizaje pero si

no hay un estado motivacional, no se verá reflejado en el comportamiento.

Lo mismo se puede decir en cuanto a la motivación. El hecho de aceptar dos

factores que no se pueden observar directamente hace necesaria la definición

esmerada de estas variables.

1)�Motivación

El primer concepto que hay que definir es la motivación. Según Hull, los

organismos tienen necesidades biológicas, como puede ser el hambre, la sed,

el sueño. Cualquiera de estas necesidades impulsará o motivará la conducta,

en principio no aprendida, que tiene por objetivo la reducción de la necesidad.

Por lo tanto, la motivación depende estrechamente del estado del organismo.

Esta concepción de la motivación le permite a Hull definir también lo que

es un reforzador. De acuerdo con Hull, lo que reforzará la conducta no es

el estímulo reforzador por sí mismo, sino la reducción de la necesidad que

produce el reforzador.

La comida no sería un reforzador por sí misma, sino el hecho de que al ingerirla se permiteeliminar o reducir la sensación de hambre.

Sin embargo, Hull acaba admitiendo que hay algunos aspectos de los estímu-

los reforzadores que pueden influir en la conducta. Por ejemplo, vemos que el

tamaño o la calidad del reforzador influía directamente en el comportamien-

to de los animales, de manera que estaban más dispuestos a trabajar por un

alimento dulce que por un alimento ácido. Pues bien, Hull incluye estas pro-

piedades motivacionales del reforzador con lo que denomina incentivo.


En resumen, la motivación viene definida por el estado de necesidad

del organismo pero también por las propiedades de incentivo de los

estímulos reforzadores.

2)�Aprendizaje

El segundo factor que Hull tenía en cuenta para explicar el comportamiento

es el aprendizaje o hábito.

Hull explica el aprendizaje o la formación de un hábito de la siguiente manera:

siempre que un organismo experimenta una secuencia estímulo-res-

puesta seguida de una reducción de su estado de necesidad o impulso

(D, del inglés drive), entonces se incrementa el hábito (EHR), que consis-

te en una tendencia a efectuar la respuesta en presencia del estímulo.

La fuerza�del�hábito está en relación con el número de veces que la se-

cuencia estímulo respuesta ha ido seguida de la reducción del impulso.

La definición que da Hull del aprendizaje sigue el modelo de la ley del efecto

de Thorndike, es decir, una asociación entre los estímulos presentes en el mo-

mento de la respuesta y ésta. Pero a diferencia de Thorndike, Hull incluye una

explicación del modo como actúa el reforzador en este proceso de aprendizaje:

la capacidad del reforzador para reducir un estado de necesidad es la clave para

formar las asociaciones E-R.

Pero ¿qué evidencia existe de la formación de asociaciones E-R? Rescorla (1991,

podéis ver también Nevin, 1999) reconoce que la evidencia de estas asociacio-

nes es indirecta y se basa en el hecho de que, una vez hemos aprendido una

respuesta instrumental, no podemos dejar de responder totalmente a pesar de

que se devalúe completamente el reforzador. Pero para entender esta idea es

necesario que primero nos centremos en un segundo tipo de asociación im-

plicada en el condicionamiento instrumental: las asociaciones�entre�las�res-

puestas�y�las�consecuencias o asociaciones R-C.

8.1.2. Asociaciones R-C

Las asociaciones E-R defienden que la conducta está controlada por los estímu-

los antecedentes, de manera que si se presenta un determinado estímulo, éste

activa la respuesta con la que está asociada. No obstante, Skinner se dio cuenta

de que los estímulos consecuentes también tienen control sobre el compor-

tamiento. Así, si una rata presiona la palanca y obtiene comida, mantendrá

su comportamiento, al menos mientras tenga hambre. Pero si en un segundo

momento se deja de presentar la comida, podremos observar que la conducta


de presionar la palanca se reduce e incluso desaparece. Si se vuelve a presen-

tar la comida contingente con la respuesta, ésta vuelve a aparecer. Esta simple

manipulación experimental permite asumir que la conducta está controlada

por los estímulos consecuentes. Pero ¿qué mecanismo permite explicar estos

cambios en la conducta que dependen de los estímulos consecuentes?

Desde la perspectiva asociativa cabe la posibilidad de que se formen asociacio-

nes entre las respuestas y las consecuencias.

Este tipo de asociaciones permiten en los organismos saber qué han de

hacer para producir determinados cambios en su entorno como, por

ejemplo, obtener comida.

¿Qué evidencias tenemos de la existencia de estas asociaciones? Nos centrare-

mos en una investigación de Colwill y Rescorla (1985).

Experimento de Colwill y Rescorla (1985)

En este trabajo, un grupo de ratas aprendieron a obtener dos reforzadores ejecutandodos respuestas diferentes. Así, los animales obtenían bolitas de comida presionandouna palanca y azúcar líquido si estiraban de una cadena que colgaba del techo dela caja de condicionamiento. El entrenamiento con cada una de las respuestas sellevaba a cabo en días alternos. Para evitar explicaciones a partir de las dificultadesen la manipulación de los mecanismos de respuesta o al valor de los dos reforzadoresutilizados, se dispuso que para la mitad de los sujetos las relaciones entre las dosrespuestas y los dos reforzadores fueran las mencionadas, pero para la otra mitadde los animales estas relaciones se invertían, de manera que presionar la palancaproporcionaba el azúcar líquido, mientras que estirar de la cadena producía las bolitasde comida. Una vez los animales habían aprendido las relaciones entre cada conductay sus consecuencias concretas, se procedió a devaluar uno de los reforzadores.

El concepto de devaluar hace referencia a la manipulación experimental que provocaque un determinado estímulo reforzador cambie su valor hedónico. Por ejemplo, lacomida es un estímulo apetitivo para un animal hambriento, pero deja de ser apeti-tivo si el animal está saciado, o si el consumo de esta comida provoca un malestargastrointestinal. En el experimento de Colwill y Rescorla la devaluación consistió enpresentar, en días alternos, los dos reforzadores. La ingestión de uno de los reforza-dores iba seguida de un malestar provocado por una inyección de ClLi, mientras queel consumo del otro reforzador no provocaba ningún malestar. Otra vez, para evitarexplicaciones alternativas, en la mitad de los sujetos se devaluó el azúcar líquido yen la otra mitad se devaluaron las bolitas de comida.

Resumiendo el procedimiento e, independientemente de las respuestas y los reforza-dores concretos, cada animal aprendió que dos respuestas, R1 y R2, proporcionabancada una una consecuencia diferenciada, C1 y C2. Si se forman asociaciones R-C, en-tonces los animales deberían adquirir dos asociaciones, R1-C1 y R2-C2. La devaluaciónde C1 permitiría poner a prueba si realmente se han adquirido estas asociaciones R-C.Colwill y Rescorla llevaron a cabo una última fase de prueba después de la devalua-ción de C1 que consistía en una sesión de 20 minutos en la que estaban disponibleslos dos mecanismos de respuesta y, por lo tanto, los animales podían elegir entre R1 yR2. Durante esta sesión, ninguno de los dos mecanismos proporcionaba al reforzador,por lo que se trataba de un procedimiento de extinción. Si se hubieran formado lasasociaciones R-C, entonces los animales podían anticipar un reforzador que provocaun malestar si ejecutan la R1, y un reforzador apetitivo si ejecutan la R2. Los resultadosfueron claros: los animales preferían trabajar en aquel mecanismo que proporciona-ba reforzadores no devaluados que en el mecanismo que proporcionaba reforzadoresdevaluados. Durante los primeros 4 minutos de la prueba, los animales respondierona R2 con una tasa de 6,7 respuestas por minuto, mientras que respondían a R1 con unatasa de 1,8 respuestas por minuto. Estos resultados sólo son posibles si los animales


pueden anticipar qué consecuencia tiene cada una de sus acciones y, por lo tanto,dan soporte a la formación de asociaciones R-C.

Pero volvamos un momento atrás, cuando decíamos que las pruebas de la for-

mación de asociaciones E-R sólo eran indirectas. Si nos fijamos en la condición

en la que se devalúa el reforzador, podemos apreciar que los animales no de-

jaron de responder totalmente. Este dato no es coherente si sólo se formaran

asociaciones R-C, ya que los animales están invirtiendo tiempo en una activi-

dad que los llevaría a un alimento nocivo. ¿Por qué se sigue respondiendo a

R1? La respuesta es que se han formado asociaciones E-R. Esto es, las caracterís-

ticas físicas de cada mecanismo de respuesta se han asociado con la respuesta

correspondiente, de manera que estas características físicas pueden provocar

la respuesta de los animales.

8.1.3. Asociaciones E-C

Al introducir el análisis asociativo del condicionamiento instrumental, postu-

lábamos una tercera asociación entre los estímulos antecedentes y los estímu-

los consecuentes. A pesar de que esta asociación es clásica, ya que los dos ele-

mentos asociados son estímulos, puede tener repercusiones importantes sobre

la conducta instrumental. Pensad en la siguiente manipulación experimental:

un animal puede obtener comida si presiona la palanca, pero sólo cuando está

presente un tono. Si no aparece el tono, entonces la presión de palanca no

proporciona comida. Es evidente que una buena conducta adaptada del ani-

mal es la que limita las respuestas de presión de palanca sólo en presencia del

tono, ya que en su ausencia es un gasto energético inútil. Como veremos en

el apartado de discriminación y generalización, los animales no tienen dema-

siada dificultad en aprender a limitar las respuestas en presencia del estímulo

antecedente o discriminativo.

Si bien este comportamiento se puede explicar mediante una asociación E-R,

ya que la respuesta ha ido seguida de reforzador sólo cuando estaba presente

el tono, cabe una segunda posibilidad: que los animales aprendan una asocia-

ción E-C entre el tono y la comida de manera que el estímulo discriminativo

anticipe la disponibilidad del reforzador.

Colwill y Rescorla (1988) aportaron datos a favor de la existencia de estas aso-

ciaciones. En el experimento que analizaremos se utilizaron dos estímulos dis-

criminativos (un ruido y una luz), cuatro respuestas (empujar con el morro un

botón, estirar de una manecilla, presionar una palanca y estirar de una cadena)

y dos consecuencias (bolitas de comida y azúcar líquido).


Experimento de Colwill y Rescorla (1988)

En una primera fase se entrenó a los animales a ejecutar la R1 para obtener la C1 enpresencia del E 1 y ejecutar R2 para obtener la C2 en presencia del E2. Al igual queen el experimento que hemos descrito anteriormente, las respuestas, los estímulosy las consecuencias concretas se contrabalancearon de manera adecuada. De acuer-do con la formación de asociaciones clásicas entre el estímulo discriminativo y lasconsecuencias (E-C), entonces el procedimiento habría permitido asociaciones entreel E 1 y la C1 y entre el E2 y la C2. Para poner a prueba estas asociaciones, Colwill yRescorla llevaron a cabo una segunda fase en la que los animales aprendieron dosnuevas respuestas: la R3 que proporcionaba la C1, y la R4 que proporcionaba la C2.Durante esta fase no se presentó ninguno de los dos estímulos discriminativos. Final-mente, se llevó a cabo la fase de prueba, en la que se presentaban ensayos con el E1

y ensayos con el E2. En cada uno de estos ensayos los animales podían elegir entrelas respuestas R3 y R4.

Como las respuestas R3 y R4 nunca se habían ejecutado en presencia de los estímulosdiscriminativos, no se habían podido formar asociaciones E-R y, en consecuencia, losestímulos discriminativos no podían activar ninguna de las dos respuestas. Por otraparte, si el E1 se hubiera asociado con C1 y el E2 se hubiera asociado con C2, enton-ces E1 y E2 activarían la expectativa de C1 y de C2, respectivamente. Si los animalestenían la expectativa de C1 en presencia de E1, entonces se esperaría que ejecutaranla respuesta que les proporcionaría el reforzador esperado, esto es, R3, mientras que sitenían la expectativa de C2, entonces ejecutan la R4. En otras palabras, en presenciade un determinado estímulo discriminativo, los animales esperan que esté disponibleuna consecuencia concreta y que, por lo tanto, ejecuten preferentemente la respuestaque proporciona esta consecuencia.

Los resultados fueron en esta línea. La prueba consistió en 8 ensayos y se obtuvouna media de 7,3 respuestas por minuto al mecanismo de respuesta asociado a lamisma consecuencia que el estímulo discriminativo presente, mientras que la mediade respuestas al mecanismo asociado a la consecuencia diferente era de 5,1 respuestaspor minuto. Por lo tanto, el estímulo discriminativo se debería haber asociado conla consecuencia, ya que la capacidad de éste para modular la conducta era mayorcuando la consecuencia asociada al estímulo discriminativo y a la respuesta era lamisma.

8.1.4. Asociaciones jerárquicas

Finalmente, hay que tener en cuenta que si bien la naturaleza de la asociación

E-C es clásica, la consecuencia no se producirá si antes no aparece la respuesta

instrumental.

En otras palabras, el estímulo discriminativo sólo marca la ocasión para

la consecuencia, pero ésta no tendrá lugar a no ser que el organismo

ejecute la respuesta adecuada.

Esta situación nos lleva a la necesidad de evaluar una nueva posibilidad: que el

estímulo discriminativo no sólo se asocie con cada uno de los otros elementos,

sino que evoque una representación de la relación que existe entre la respues-

ta y el reforzador (Jenkins, 1977). Este tipo de asociación más compleja que

la que relaciona dos elementos simples recibe el nombre de asociación�jerár-

quica. Esta estructura asociativa implicaría que un estímulo discriminativo no

provocaría la respuesta directamente por medio de la asociación E-R –que, co-

mo señala Mackintosh (1983), es factible cuando la respuesta instrumental se

ha convertido en un hábito–, ni se limitaría a activar una expectativa del re-

Asociaciones E-C

Las asociaciones E-C permitena los organismos anticipar ladisponibilidad de un reforza-dor.


forzador por medio de la asociación E-C, sino que aportaría información más

concreta sobre lo que debe hacer el animal para obtener el reforzador, es decir,

activaría la representación de la asociación R-C. En los últimos años se han

obtenido datos experimentales a favor de estas asociaciones jerárquicas (por

ejemplo, Rescorla, 1990); no obstante, la complejidad de los procedimientos

experimentales utilizados hace que su presentación quede fuera de los objeti-

vos de este módulo.

Para acabar con el análisis asociativo del condicionamiento instrumental, ex-

pondremos la idea de Mackintosh (1983), quien afirma que la actuación ins-

trumental es la consecuencia de una instrucción que se infiere de una asocia-

ción, en lugar de ser provocada directamente por una asociación.

La exposición de una contingencia positiva entre las presiones de palanca y

la comida establecerá una asociación entre ellas, o una proposición que las

presiones de palanca proporcionan comida. Si una rata tiene hambre y la co-

mida es agradable, entonces el conocimiento adquirido de la premisa que las

presiones de palanca producen comida se combinará con otra premisa de que

la comida hay que buscarla. A partir de estas dos premisas se puede derivar la

instrucción de accionar la palanca.

8.2. Teorías sobre la regulación de la conducta

El análisis asociativo del condicionamiento constituye una explicación mo-

lecular del condicionamiento instrumental. Llevado al extremo, los mecanis-

mos asociativos expuestos permiten a los organismos adquirir información

relevante con respecto al entorno, un conocimiento en forma de premisas o

proposiciones que permitirá la combinación entre éstas de manera que se ac-

tive la conducta más apropiada en cada momento.

Sin embargo, el análisis del condicionamiento instrumental también se ha

efectuado desde una perspectiva molar, global. Se han propuesto varias teorías

que se agrupan bajo el título de la regulación de la conducta. Algunas de estas

teorías toman supuestos del campo de la economía para intentar explicar de

qué manera se regula nuestro comportamiento.

Cuando exponíamos los elementos del condicionamiento instrumental, y

concretamente el reforzador, hemos presentado la teoría�de�Premack.

Recordemos que, de acuerdo con Premack, en cualquier situación en la

que no hay restricciones, los organismos distribuyen su tiempo en varias

actividades en función de las necesidades del animal y la disponibilidad

de las distintas actividades.


Siguiendo el argumento de Premack, una actividad que aparece en una fre-

cuencia alta puede servir para reforzar otra actividad de baja frecuencia siem-

pre que se restrinja la primera y se haga contingente con la segunda. Si una rata

tiene hambre (podéis ver la figura siguiente), lo más probable es que dedique

más tiempo a comer que a correr en una rueda de actividad. Si restringimos el

acceso a la comida y lo hacemos contingente a dar unas vueltas en la rueda de

actividad, podremos observar que la conducta de baja frecuencia incrementa

y la de alta frecuencia disminuye. De manera simétrica podemos establecer un

procedimiento de castigo. En este caso, se hace contingente una conducta de

baja frecuencia con otra conducta de alta frecuencia de manera que si aparece

la segunda, se obliga a la ejecución de la primera. En los dos casos se obtiene

una redistribución en la frecuencia de aparición de las distintas conductas. El

punto crítico de la teoría de Premack es la probabilidad diferencial de las con-

ductas instrumental y reforzadora.

Diagrama representativo del principio de Premack

Si las ratas están privadas de comida, entonces comer será la conducta más frecuente y reforzará la conducta debaja frecuencia correr. Si los animales no están privados de comida, entonces las ratas correrán más y reforzará laconducta de comer.

Allison (1989, Timberlake y Allison, 1974) propuso que el factor crítico para

que una conducta refuerce a otra es la restricción de la conducta con indepen-

dencia de su frecuencia de aparición. A favor de esta hipótesis, Timberlake y

Allison (1974) encontraron que el acceso a una conducta de baja probabilidad

se podía utilizar como reforzador de otra conducta, con la única condición de

que los sujetos tuvieran la restricción de realizar esta conducta.

La idea básica de este punto de vista es que los organismos distribu-

yen sus conductas, cuando no hay restricciones, de manera óptima pa-

ra ellos. Esta distribución recibe el nombre de punto�de�deleite de la

conducta.

Pongamos un ejemplo sencillo en el que sólo se tengan en cuenta dos con-

ductas en el caso de un adolescente.


Imaginemos que el chico o la chica dedica de manera espontánea el 60% del tiempo entrela finalización del instituto y la hora de cenar a ver la televisión y el 15% a estudiar (elresto del tiempo los dedicará a otras actividades). Esta distribución constituiría el puntode deleite de la conducta. Sin embargo, en el momento en el que se introduce una con-tingencia respuesta-reforzador, se altera este punto de deleite o, lo que es lo mismo, elpunto de equilibrio.

Supongamos que establecemos una contingencia en la que por cada 15 minutos de es-tudio puede ver la televisión durante 15 minutos. Es evidente que esta nueva situaciónrompe el equilibrio de la distribución de las conductas y la consecuencia es que el adoles-cente redistribuirá su conducta de manera que se acerque al máximo al punto de deleite.

Se entenderá mejor con una representación gráfica (podéis ver la figura siguiente). Elpunto de deleite de la conducta se representa por el círculo blanco, mientras que la con-tingencia establecida entre las dos conductas se representa con la línea negra. Cualquierpunto de esta línea cumpliría el requisito de la contingencia. ¿En qué punto se situará lanueva distribución de las dos actividades? De acuerdo con la teoría, el adolescente busca-rá el punto que lo acerque más al punto de deleite, es decir, el punto de la línea que se en-cuentre más cerca del punto de deleite (Staddon, 1983). Supongamos que el adolescentedispone de dos horas desde que llega a casa y la hora de cenar. En condiciones normales,dedicaría 72 minutos a ver la televisión y 18 minutos a estudiar. Si quiere mantener elmáximo de dedicación a ver la televisión y de acuerdo con el programa establecido, loobligaría a dedicar 60 minutos a estudiar para poder ver 60 minutos de televisión. Lomás probable es que el adolescente no esté dispuesto a pagar un "precio" tan alto. Otraopción es que no estuviera dispuesto a estudiar más tiempo del que ya dedicaba, peroen este caso pierde mucho con respecto a ver la televisión, ya que sólo le puede dedicar18 minutos. Buscar el punto que mejor se ajuste al punto de deleite se convierte en lamotivación de la conducta. En el ejemplo que nos ocupa, una solución podría ser dedicar37,5 minutos a cada conducta; de esta manera conseguiría distribuir las dos conductasalejándose lo mínimo del equilibrio. La nueva distribución implica un incremento en eltiempo de estudio y una reducción del tiempo dedicado a la televisión.

Distribución de las conductas de ver la TV y de estudiar

El punto blanco muestra el punto de deleite o la distribución óptima cuando no hay restricciones. La línea muestralas diferentes posibilidades de combinar las dos conductas cuando se introduce un programa de reforzamiento enel que se pide que el estudiante dedique la misma cantidad de estudio que de ver la tele. Como se puede observar,ninguno de los puntos de la línea pasa por el punto de deleite. La consecuencia es que el estudiante deberá reajustarlos dos comportamientos de acuerdo con el punto de la recta que está más cerca del punto de deleite (el triángulonegro).

Un aspecto interesante de la teoría es que si restringimos la conducta de estu-

diar y la hacemos contingente con la de ver la televisión, podremos ver que

la conducta de estudio serviría para reforzar la de ver la televisión. Si nuestro

adolescente hubiera de ver 90 minutos de televisión para poder estudiar du-

rante 10 minutos, entonces para mantenerse próximo al punto de deleite ne-

cesitaría incrementar el tiempo de ver la televisión para no perder demasiado

tiempo de estudio.


Teorías del condicionamiento instrumental

Basadas�en�los�mecanismos Basadas�en�la�motivación

• Explicación molecular

• Mecanismos asociativos– Asociaciones E-R– Asociaciones R-C– Asociaciones E-C– Asociaciones E-(R-C)

• Explicación molar

• Regulación de la conducta– Premack: Las conductas de alta proba-

bilidad refuerzan las conductas de bajaprobabilidad.

– Punto de deleite: La restricción de unaconducta la convierte en reforzadora deuna segunda conducta.

Resumen de las teorías sobre el condicionamiento instrumental. Hay que señalar que las teorías molares y moleculares no sonincompatibles, sino complementarias.


9. Generalización y discriminación

A lo largo del módulo hemos podido observar cómo la conducta instrumental

está gobernada por los estímulos antecedentes y los estímulos consecuentes.

Los primeros aportan información sobre la disponibilidad o no de los estímu-

los consecuentes y sobre qué conductas permiten controlarlos, mientras que

los segundos consisten en situaciones agradables que procuramos obtener o

desagradables que intentemos detener o impedir. En este apartado nos centra-

remos en las propiedades de los estímulos que permiten controlar la conducta.

Hay que tener en cuenta, sin embargo, que a pesar de tratar este tema en el

módulo del condicionamiento instrumental, las características que veremos

no se limitan a este tipo de condicionamiento, sino que se extienden también

al condicionamiento clásico. Así pues, el conocimiento que tenemos sobre la

generalización y la discriminación de los estímulos afecta tanto a los estí-

mulos condicionados como a los estímulos discriminativos.

Expondremos la idea del control de la conducta mediante un experimento de

Reynolds (1961) expuesto en Domjan (2003).

Experimento de Reynolds (1961)

En este experimento se entrenó a dos palomas a picotear una tecla iluminada de colorrojo con un triángulo blanco en el centro. El entrenamiento consistía en proporcio-nar comida si las palomas picoteaban la tecla siempre que estuviera iluminada coneste dibujo, pero no recibían comida si la picoteaban cuando no estaba iluminada.Los animales mostraron su aprendizaje limitando la respuesta a los momentos en losque la tecla se iluminaba. Podemos afirmar que la iluminación de la tecla controlabala respuesta de picotear de las palomas. Más interesante, sin embargo, fue la pruebaque llevó a cabo Reynolds con las palomas una vez habían alcanzado el aprendiza-je. La prueba consistía en presentar en algunos ensayos el disco iluminado de colorrojo sin el triángulo, y en otros ensayos presentaba el triángulo blanco pero sin elfondo de color rojo. Durante la prueba, la respuesta de picotear la tecla no iba seguidadel reforzador. ¿Qué característica del estímulo original controlaría la respuesta? Rey-nolds encontró que mientras una de las palomas respondía a la tecla de color rojo eignoraba el triángulo blanco, la segunda paloma respondía básicamente al triánguloblanco e ignoraba la tecla de color rojo.

Estos resultados de la prueba indican que de todos los estímulos o caracte-

rísticas de los estímulos, sólo algunas de ellas llegan a tener el control de la

conducta. Por otra parte, los resultados también ilustran el hecho de que sin

un entrenamiento explícito cualquier característica puede llegar a adquirir el

control de la conducta. En el experimento de Reynolds, podría ser que uno de

los animales se hubiera fijado en el color rojo o la forma circular de la tecla

durante el entrenamiento, mientras que la otra paloma se podría haber fija-

do en el color blanco de la tecla o en la forma triangular de la figura blanca.

Aún más, los resultados muestran que los animales discriminaban entre los

dos estímulos de prueba, ya que respondían de manera diferencial ante cada

uno de ellos. Al mismo tiempo, podemos afirmar que los animales también


generalizaban entre el estímulo utilizado durante el entrenamiento original y

uno de los estímulos de prueba, ya que seguían respondiendo en su presencia,

y discriminaban entre el estímulo original y el otro estímulo de prueba, ya que

no respondían en su presencia.

9.1. Generalización y discriminación

El ejemplo que acabamos de exponer nos ha servido para introducir los dos

conceptos que trataremos en este apartado y que hay que definir formalmente.

La generalización es la tendencia a tratar dos estímulos diferentes como

si fueran iguales.

La discriminación es la tendencia a responder de manera diferencial a

dos estímulos diferentes.

Es evidente que los dos fenómenos son complementarios, ya que si generali-

zamos entre dos estímulos, no estamos discriminando entre ellos; y, por otra

parte, si discriminamos entre dos estímulos, no generalizamos entre ellos.

Lashley y Wade (1946) afirmaron que la generalización es una consecuencia

de la incapacidad del sujeto para diferenciar los estímulos. Lashley y Wade

consideran que se generaliza porque existe una confusión entre los estímulos

de prueba y el estímulo que se ha utilizado durante el entrenamiento. De esta

afirmación de Lashley y Wade se desprende que cuanto más parecidos sean dos

estímulos, más confusión habrá entre ellos y se producirá más generalización.

En otras palabras, la generalización es la relación sistemática entre la fuerza

de la respuesta a los estímulos generalizados y la similitud de estos estímulos

con el estímulo utilizado durante el entrenamiento original. Esta relación sis-

temática se denomina gradiente�de�generalización.

9.2. Gradientes de generalización

Una manera de estudiar los gradientes de generalización consiste en llevar a

cabo una fase de entrenamiento en la que se enseña a los sujetos a responder

en presencia de un determinado estímulo, por ejemplo, una luz de un deter-

minado color. Una vez finalizado este entrenamiento, se realiza una fase de

prueba durante la cual se presentan de manera aleatoria el estímulo de entre-

namiento y otros estímulos nuevos que varían en el color. Durante la prueba

no se administra el reforzador y se registran las respuestas ante cada estímulo

de prueba.

La primera demostración de los gradientes de generalización la aportaron

Guttman y Kalish (1956).


Experimento de Guttman y Kalish (1956)

En su experimento manipularon el color de la luz de una tecla de respuesta median-te unos filtros cromáticos. El entrenamiento inicial consistía en iluminar la tecla derespuesta de un color determinado, concretamente una luz con una longitud de on-da de 580 nanómetros. Durante los períodos de presentación del estímulo, de 60 se-gundos, las palomas tenían acceso a comida con un programa de reforzamiento IVde un minuto. En los períodos en los que la tecla estaba apagada no se dispensabacomida a los animales. En la prueba de generalización, presentaron el estímulo deentrenamiento durante períodos de 30 segundos, además de otros 10 estímulos conuna longitud de onda inferior o superior en el espectro cromático que variaba entrelos 520 nm y los 640 nm de longitud de onda. Los 11 estímulos se presentaron untotal de 12 veces cada uno. No se administró comida durante las sesiones de prueba.

Los resultados mostraron que las palomas respondieron con la tasa de respuesta másalta ante el estímulo de entrenamiento (580 nm de longitud de onda). También mos-traron tasas de respuestas muy altas ante longitudes de onda similares (570 y 590nm). Las tasas de respuesta fueron disminuyendo a medida que la longitud de ondade los estímulos de prueba se alejaba del valor del estímulo original hasta que losanimales apenas respondían cuando las longitudes de onda eran de 520, 540, 620 y640 nm. En otras palabras, los gradientes de generalización muestran cómo la gene-ralización y la discriminación dependen del grado de similitud entre los estímulos.

La gráfica muestra un gradiente de generalización similar al que obtuvieronGuttman y Kalish

Se puede observar que la frecuencia máxima de respuestas se produce en presencia del estímulo deentrenamiento (580 nm). También se puede ver cómo los estímulos de prueba (570 y 590 nm) similaresal estímulo de entrenamiento provocan una tasa de respuesta muy alta, lo que indica un alto grado degeneralización. Finalmente, los estímulos de prueba alejados del estímulo de entrenamiento provocan tasas derespuesta muy bajas, lo que indica una buena discriminación con respecto al estímulo de entrenamiento.

Como se puede observar en la figura anterior, la forma de un gradiente de ge-

neralización es como la de una campana. Generalmente, los sujetos muestran

el máximo de respuestas en presencia del estímulo de entrenamiento, mien-

tras que en presencia de los estímulos de prueba la tasa de respuesta es menor.

Podemos encontrar gradientes de generalización muy estrechos, lo que tene-

mos que interpretar como una discriminación muy fina, o gradientes de ge-

neralización muy anchos que nos indican mucha generalización. El caso más

extremo es el del gradiente de generalización plano que se produce cuando

se generaliza completamente entre los estímulos de prueba y el estímulo de

entrenamiento.


9.3. Discriminaciones extra e intradimensionales

El experimento de Guttman y Kalish muestra un entrenamiento en el que sólo

se utiliza un estímulo durante el entrenamiento para indicar la disponibilidad

del reforzador, mientras que la no disponibilidad del reforzador queda seña-

lada por la ausencia del estímulo discriminativo. El estímulo discriminativo

recibe el nombre de E+.

En otros procedimientos se pueden utilizar dos estímulos diferentes para in-

dicar cuándo hay y cuándo no hay disponibilidad del reforzador. Por ejem-

plo, se pueden presentar unas líneas verticales como señal de la disponibili-

dad del reforzador y el color verde como señal de que el reforzador no está

disponible. El estímulo que señala el no reforzamiento recibe el nombre de E–.

Como los estímulos discriminativos corresponden a dimensiones de estimu-

lación diferentes, la discriminación se denomina extradimensional. Por otra

parte, podríamos hacer la discriminación más difícil si pedimos a los sujetos

que discriminen entre dos estímulos que pertenecen a la misma dimensión

del estímulo, por ejemplo entre dos colores o dos frecuencias sonoras. En este

caso hablamos de discriminaciones intradimensionales. En la figura siguiente

aparecen dos ejemplos de estas discriminaciones.

Ejemplos de estímulos utilizados en discriminaciones extradimensionales (izquierda) eintradimensionales (derecha)

En la discriminación extradimensional, los sujetos deben discriminar entre rayas verticales y el color verde. La orientación delas rayas y el color son dos dimensiones diferentes de los estímulos. En la discriminación intradimensional, los sujetos han dediscriminar entre dos valores (colores) dentro de la misma dimensión estimular.

El tipo de entrenamiento en discriminación utilizado influirá notablemente

en los gradientes de generalización. Jenkins y Harrison (1962) entrenaron a

tres grupos de palomas a picotear una tecla de respuesta para obtener comida.

Para uno de los grupos, el E+ era un tono de 1000 Hz, mientras que la ausencia

del tono actuaba como E–, es decir, picotear la tecla era reforzado siempre que

estaba presente el tono, pero nunca se reforzaba la respuesta en ausencia del

tono. Un segundo grupo recibió el mismo entrenamiento que el primer grupo,

excepto que el E– era otro tono de 950 Hz. Finalmente, el tercer grupo era de

control y no recibió ningún entrenamiento en discriminación. Concretamen-

te, en este grupo de control, el tono de 1000 Hz estaba siempre presente y los

animales siempre recibían el reforzador por picotear la tecla.


Una vez se acabó el entrenamiento en los tres grupos, se procedió a la prue-

ba de generalización con tonos de distintas frecuencias con el objetivo de ver

hasta qué punto el tono controlaba la conducta. El grupo de control mostró

un gradiente de generalización plano, es decir, respondía con la misma tasa

de respuesta a cualquier estímulo de prueba de manera que había una gene-

ralización completa entre el tono de 1000 Hz y el resto de tonos de prueba.

En cambio, los dos grupos que habían recibido un entrenamiento en discri-

minación mostraban gradientes de generalización. El gradiente más estrecho

correspondía al grupo que había recibido la discriminación intradimensional

entre los dos tonos. En otras palabras, el entrenamiento con una discrimina-

ción intradimensional produjo la discriminación más fina.

9.4. La transposición y el desplazamiento del vértice

Experimento de Kohler (1939)

Kohler (1939) entrenó a unos polluelos en una discriminación intradimensional enla que presentaban dos estímulos que variaban en la tonalidad de gris. Si los polluelosse acercaban al gris más claro, entonces tenían acceso a comida. Pero si se acercabanal gris más oscuro, no recibían el reforzador. Este procedimiento recibe el nombre dediscriminación simultánea, ya que los dos estímulos están presentes a la vez y lospolluelos debían elegir uno de ellos. Con el entrenamiento suficiente, los polluelosaprendieron a acercarse al color gris claro.

¿Cómo habían resuelto este problema?

Muchos psicólogos pioneros que estudiaban el comportamiento de los anima-

les pensaban que los animales aprendían las asociaciones E-R en términos de

los valores�absolutos de los estímulos (por ejemplo, Morgan, 1894). En otras

palabras, los polluelos de Kohler se acercaban al gris claro porque esta tonali-

dad de gris, y no otra, había quedado asociada con la respuesta de acercamien-

to, ya que proporcionaba el reforzador.

Sin embargo, Kohler defendía que los animales podían manipular conceptos

abstractos para resolver problemas como el de discriminación entre las dos

tonalidades de gris. Según Kohler, los polluelos habrían aprendido a elegir el

más claro entre los dos grises. Hay que tener en cuenta que este aprendizaje

sería relacional, ya que los animales deben haber descubierto la relación entre

los dos grises y que esta relación era la relevante para resolver el problema.

Más concretamente, los animales habrían aprendido a acercarse al más claro

de los dos grises.

Evidentemente, las dos explicaciones pueden explicar la actuación de los po-

lluelos. Para poder determinar cuáles de las dos explicaciones, absoluta o re-

lacional, era la más adecuada, Kohler ideó una prueba bastante original: des-

pués del entrenamiento que hemos descrito, Kohler presentó a los polluelos

una nueva discriminación simultánea entre el gris claro que había sido el E

+ en la primera fase y un segundo estímulo nuevo más claro todavía (podéis


ver la figura siguiente). Durante esta prueba no se reforzaba ninguna de las

elecciones de los animales para asegurar que su conducta dependía de lo que

habían aprendido durante el entrenamiento inicial.

Estímulos utilizados por Kohler (1939) en su experimento de transposición

Durante la prueba, los polluelos eligieron preferentemente el gris más claro aunque había sido el gris más oscuro el reforzadodurante el entrenamiento de discriminación.

De acuerdo con la teoría absoluta, los polluelos seguirían acercándose al E+, ya

que sus características físicas son las que se habrían asociado con la respuesta

de acercamiento. En cambio, la posición de Kohler defendía que los polluelos

se acercarían al estímulo nuevo, ya que era el más claro. Los resultados que

obtuvo Kohler mostraron que los polluelos preferían el estímulo nuevo, el más

claro de los dos estímulos de prueba, que el E+ original, el más oscuro de los

dos grises de prueba.

Este fenómeno recibió el nombre de transposición debido a que se suponía

que los animales habían transferido la regla "elegir el gris más claro" aprendida

durante el entrenamiento a la situación de prueba.

Un fenómeno relacionado con la transposición es el desplazamiento�del�vér-

tice. Cuando se utilizan discriminaciones intradimensionales y se evalúa pos-

teriormente la generalización en una fase de prueba, se puede observar un

fenómeno bastante robusto: el desplazamiento del máximo o vértice del gra-

diente de generalización.

El desplazamiento del vértice consiste en el alejamiento del máximo del

gradiente de generalización con respecto al E+ original y en dirección

opuesta al E–.

Experimento de Hanson (1959)

Hanson (1959) realizó un experimento en el que se entrenó a diferentes grupos depalomas a discriminar entre dos colores definidos por la longitud de onda. Aunqueel experimento constaba de cinco grupos, aquí sólo analizaremos tres de ellos. En lostres grupos se utilizó un color de 550 nm de longitud de onda como E+. En cambio,los tres grupos diferían en el color del E–. Para uno de los grupos, el E– era una luzde 590 nm de longitud de onda, para otro grupo el E– era una luz de 555 nm delongitud de onda. El tercer grupo era de control y el E– consistía en la ausencia de laluz. Resumiendo, el grupo control debía discriminar entre presencia y ausencia del

Transposición

La transposición se ha demos-trado en diferentes especiesanimales como chimpancés(Kohler, 1939), ratas (Lawren-ce y DeRivera, 1954) y niños(Alberts y Ehrenfreund, 1951),así como en otras dimensionesestimulares como el tamaño(Gulliksen, 1932).


E+, y los otros grupos debían discriminar entre un E+ y un E–. Durante la fase deprueba se presentaron luces de diferente longitud de onda que variaban entre 480nm y 620 nm. El grupo de control mostró un gradiente de generalización normal,es decir, con el máximo de respuestas en presencia del E+. En cambio, el grupo quehabía discriminado entre las dos luces de 550 y 590 nm mostró el máximo de res-puestas a la longitud de onda de 540 nm, aunque la tasa de respuestas al E+ era muysimilar. Sin embargo, el desplazamiento del vértice fue más espectacular en el grupoque discriminó entre las longitudes de onda muy parecidas, 550 y 555 nm. En estecaso, las longitudes de onda que provocaron el máximo de respuestas fueron las de540 y 530 nm, pero los animales prácticamente no respondieron en presencia del E+. En la figura siguiente se puede ver cómo la línea con cuadrados negros dibuja ungradiente de generalización normal, mientras que las líneas con cuadrados y trián-gulos blancos tienen el máximo desplazado con respecto al E+ (550 nm) en direcciónopuesta a los respectivos E–.

Gráfica basada en los datos de Hanson (1959) en la que se puede ver el efecto del desplazamiento del máximo.

Desde el punto de vista de la posición absoluta, el desplazamiento del vértice es

un nuevo reto, ya que predice que los animales deberían seguir respondiendo

con más intensidad ante el E+ durante la prueba de generalización.

Por otra parte, la posición relacional tampoco puede explicar de manera clara

los datos de Hanson. En la discriminación con longitudes de onda de 550 y

555 nm los colores son verde-amarillo, y la longitud de onda de 550 nm es

más verdosa. Según el aprendizaje relacional, en la prueba los animales debe-

rían responder al más verde de los estímulos. Efectivamente, las longitudes de

onda de 540 y 530 nm son más verdosas que el E+ y hasta aquí los resultados

están de acuerdo con el aprendizaje relacional. El problema es que las longi-

tudes de onda comprendidas entre 500 y 520 nm son los verdes puros y en

el experimento de Hanson no provocaron la máxima tasa de respuesta, como

predice el aprendizaje relacional.

9.5. Teoría de Spence (1936)

Spence (1936) elaboró una teoría absoluta que puede explicar de manera ele-

gante los fenómenos de la transposición y del desplazamiento del vértice.

El punto de partida es que los sujetos aprenden sólo sobre los estímulos

de manera individual y no aprenden nada con respecto a sus relaciones.


A partir de este supuesto, Spence propuso que en un entrenamiento intradi-

mensional el E+ adquiría fuerza excitadora y el E– adquiría fuerza inhibidora;

esto es, el E+ activa la respuesta mientras que el E– inhibe la respuesta.

Un segundo supuesto de Spence es que ambas fuerzas, excitadora e in-

hibidora, forman sus respectivos gradientes de generalización excitador

e inhibidor.

Guttman y Kalish demostraron la existencia de los gradientes de generaliza-

ción excitadores, pero ahora hay que presentar alguna evidencia de la existen-

cia de gradientes de generalización inhibidores antes de seguir con la exposi-

ción de la teoría de Spence y su aplicación a los fenómenos de la transposición

y del desplazamiento del vértice.

Representación esquemática de los estímulos utilizados en el experimento de Honig et al. (1963). Podéis ver el textopara una explicación del experimento.

Una demostración clásica de los gradientes de generalización inhibidores la

encontramos en el trabajo de Honig, Boneau, Burstein y Pennypacker (1963).

Experimento de Honig, Boneau, Burstein y Pennypacker (1963)

Estos investigadores entrenaron a dos grupos de palomas en una discriminación vi-sual. Un grupo recibió el reforzador para responder a la tecla de respuesta cuandoestaba iluminada de color blanco con una línea vertical superpuesta (E+), pero nofue reforzado cuando se presentaba la luz blanca sin la línea (E–). El segundo gruporecibió el mismo entrenamiento en discriminación pero con los estímulos intercam-biados, es decir, la luz blanca sola era el E+ y la luz blanca con la línea negra verticalera el E–. Una vez los dos grupos aprendieron la discriminación con los respectivosestímulos se realizó una prueba de generalización en la que se presentaba la tecla derespuesta iluminada de color blanco y superpuesta una línea negra que difería en elángulo de inclinación con respecto a la vertical (0°). El ángulo de inclinación de lalínea variaba de 30 en 30 grados, de manera que las inclinaciones de prueba fueronde –90°, –60°, –30°, 0°, +30°, +60° y +90° (podéis ver la figura anterior).


Los animales del grupo en el que la línea vertical actuaba como E+ mostraron

el máximo de respuesta en presencia del E+ y, a medida que la inclinación

de la línea se alejaba de la verticalidad, las tasas de respuesta fueron menores.

Estos resultados son una demostración más del gradiente de generalización

excitador. Para nuestros intereses actuales, son más interesantes los resultados

del grupo en el que la línea vertical actuaba como E–. Los animales de este

grupo respondieron muy poco en presencia de la línea vertical, pero en el caso

en el que la línea aparecía inclinada con respecto a la vertical, los animales

respondían con tasas más elevadas. Cuando la línea aparecía horizontal (con-

diciones de prueba –90° y +90°), los animales mostraron las tasas de respuesta

más elevadas. Ésta es una clara evidencia de la existencia de los gradientes de

generalización inhibidores que necesitábamos para seguir exponiendo la teo-

ría de Spence.

Habíamos dejado la exposición de la teoría de Spence en el supuesto de la

existencia de los gradientes de generalización excitador e inhibidor alrededor

del E+ y del E–, respectivamente. En el continuo de una dimensión de un es-

tímulo, como el color, el tamaño o la frecuencia sonora, algunos valores de

la dimensión podrán verse afectados tanto por fuerzas excitadoras como por

fuerzas inhibidoras simultáneamente y, dada la dirección opuesta de estas dos

fuerzas, es razonable asumir que se contrarrestarán. En la figura siguiente se

puede ver una representación gráfica de estos supuestos. La curva continua

representa la fuerza excitadora neta en el continuo de estímulos. Hay que ad-

vertir que el E+ muestra una fuerza excitadora neta menor que otros estímulos

nuevos como el E1 y el E2.

Representación gráfica de los gradientes excitador e inhibidor en torno a los estímulos E+ y E–, respectivamente (líneaspunteadas). La línea continua representa la fuerza excitadora neta resultante de las fuerzas excitadoras e inhibidoras

Apliquemos la teoría de Spence al experimento de Hansen sobre el desplaza-

miento del máximo. A partir de la fase de entrenamiento en discriminación, se

habrá desarrollado un gradiente de generalización excitador en torno al estí-

mulo 550 nm y un gradiente de generalización inhibidor en torno al estímulo

555 nm. A pesar de que el estímulo 550 nm tenga la fuerza excitadora mayor,

también recibirá mucha fuerza inhibidora de la longitud de onda de 555 nm


y, una vez contrarrestadas las fuerzas excitadoras e inhibidoras, se obtendrá

una fuerza excitadora neta más baja que una longitud de onda de 530 nm,

la cual recibe una importante fuerza excitadora desde la longitud de onda de

550 nm, pero poca fuerza inhibidora desde la longitud de onda de 555 nm.

De acuerdo con la teoría de Spence, la fuerza excitadora neta de la longitud

de onda de 530 nm será mayor que la fuerza excitadora neta de la longitud

de onda de 550 nm y provocará, en consecuencia, más respuestas, lo que dará

lugar al desplazamiento del vértice. Recordemos que la teoría relacional tiene

dificultades de explicar por qué las longitudes de onda de 500 o 520 nm no

provocan más respuestas que la de 530 nm. En cambio, la teoría de Spence no

tiene dificultades para explicar estos datos. La longitud de onda de 520 nm

está muy alejada tanto del E+ como del E–, lo que implica que puede recibir

una cierta fuerza excitadora generalizada del E+ pero muy poca o ninguna

fuerza inhibidora generalizada desde el E–. En todo caso, la teoría de Spence

puede asumir que la fuerza excitadora neta de la longitud de onda de 520 nm

será menor que la de 530 nm y, por lo tanto, también será menor la tasa de

respuesta provocada.

El mismo razonamiento puede aplicarse al fenómeno de la transposición. Du-

rante la discriminación, el gris claro (E+) habrá adquirido fuerza excitadora

mientras que el gris oscuro (E–) habrá adquirido fuerza inhibidora. Durante

la prueba, el E+ recibirá fuerza inhibidora generalizada desde el E–, lo que re-

ducirá su fuerza excitadora ganada durante el entrenamiento. En cambio, el

estímulo nuevo presentado durante la prueba de transposición recibirá fuerza

excitadora desde el E+ pero no recibirá fuerza inhibidora del E–, ya que se en-

cuentra más próximo al E+ que al E–. Si la fuerza excitadora neta del estímulo

nuevo resulta mayor que la del E+, entonces no es sorprendente que los ani-

males elijan con más frecuencia el estímulo nuevo que el E+.

El análisis que acabamos de realizar muestra que la teoría de Spence

puede explicar los fenómenos de la transposición y del desplazamiento

del máximo sin problemas.

No obstante, veremos un experimento de Gonzalez, Gentry y Bitterman

(1954) con un procedimiento que recibe el nombre de problema�del�tamaño

intermedio.


Experimento de González, Gentry y Bitterman (1954)

Utilizaron 9 estímulos que consistían en cuadrados de diferentes tamaños. El más pe-queño tenía un área de 9 pulgadas cuadradas y el mayor tenía 27 pulgadas cuadradas.Los estímulos se numeraron desde el 1 (el más pequeño) hasta el 9 (el mayor). Du-rante el entrenamiento, unos chimpancés debían elegir entre los estímulos 1, 5 y 9.Los animales recibieron un reforzador siempre que eligieran el cuadrado intermedio,el número 5. (Naturalmente, la posición de los tres estímulos se fue intercambiandoaleatoriamente con el objetivo de que los animales no utilizaran la posición comoestímulo discriminativo).

Durante la prueba, se presentaron a los chimpancés conjuntos de tres estímulos yse reforzó cualquiera de sus elecciones. Supongamos que en un ensayo de pruebase presentan los cuadrados 4, 7 y 9. Desde la teoría relacional se predice que si losanimales han aprendido la regla "elegir el cuadrado de tamaño intermedio" ahoraelegirían el cuadrado número 7. En cambio, la teoría de Spence realiza una prediccióndiferente. Debido al entrenamiento inicial, el cuadrado número 5 tendría la máximafuerza excitadora que se generalizaría a los otros tamaños, mientras que los cuadrados1 y 9 han adquirido fuerza inhibidora que también se generalizaría a los cuadradospróximos.

Dada la disposición de las fuerzas excitadoras e inhibidoras, este procedimien-

to no debería provocar un desplazamiento del máximo, sino que sus efectos

serían hacer más estrecho el gradiente de generalización en torno al estímulo

número 5 (el E+).

En definitiva, la teoría de Spence predice que en este problema se elegirá siem-

pre el estímulo más próximo al E+ (el cuadrado 4 en el ejemplo).

Los resultados de González y colaboradores favorecieron la teoría relacional.

Los chimpancés eligieron habitualmente el estímulo con un tamaño interme-

dio en los ensayos de prueba con independencia de qué conjunto de cuadra-

dos se les presentaba.

Ambas teorías, relacional y absoluta, tienen sus puntos fuertes y sus puntos

débiles. Esto hace pensar que los animales pueden aprender tanto las caracte-

rísticas absolutas de los estímulos como las relaciones que existen entre los es-

tímulos que hay que discriminar. La cuestión es determinar en qué momentos

se impondrá una estrategia sobre la otra. De hecho, la teoría absoluta explica

mejor que la relacional el desplazamiento del vértice, donde la discriminación

original es secuencial. Por el contrario, la teoría relacional puede explicar me-

jor el problema del tamaño intermedio donde la discriminación inicial es si-

multánea.


Una solución de compromiso es que el aprendizaje sobre las caracterís-

ticas absolutas de los estímulos se favorecería cuando las discriminacio-

nes son secuenciales y en las que es difícil determinar relaciones entre

los estímulos.

En cambio, la utilización de relaciones sería más fácil en las discrimi-

naciones simultáneas donde están presentes a la vez los estímulos, de

manera que es más sencillo determinar la relación entre ellos.

A pesar de que la solución planteada para hacer compatibles las teorías relacio-

nales y absolutas de la discriminación y la generalización es coherente, Tho-

mas (1993) ha planteado, a partir de su investigación con estudiantes univer-

sitarios, un modelo relacional que puede explicar el fenómeno del desplaza-

miento del máximo y efectos relacionados.

Experimento de Thomas y Jones (1962)

Thomas y Jones (1962) llevaron a cabo un experimento en el que mostraban a susparticipantes una luz de 525 nm de longitud de onda durante 60 segundos. Pasadoeste minuto, se presentaba un estímulo de prueba de un conjunto de 5 estímulos (elpropio E+ y cuatro estímulos diferentes) y los participantes debían decidir si era o noel mismo color que el estímulo original. El experimento constaba de cinco grupos di-ferentes que diferían en el conjunto de estímulos de prueba que recibían. Así, el grupode control recibía un conjunto simétrico con respecto al E+, es decir, dos estímulosde prueba con longitudes de onda inferiores al E+ y dos estímulos con longitudes deonda superiores al E+ (el quinto estímulo de prueba era el mismo E+). Para el restode grupos, los estímulos de prueba se desplazaban hacia valores inferiores respectoal E+ o hacia valores superiores. Por ejemplo, a uno de los grupos se le presentaronlos cuatro estímulos de prueba generalizados con longitudes de onda que iban desde485 hasta 515 nm, y en otro de los grupos los estímulos de prueba generalizados ibanentre 535 y 565 nm.

La teoría de Spence predice que independientemente de cuál sea el conjunto de estí-mulos de prueba, los participantes debían dar más respuestas ante el E+, y reducir lasrespuestas a medida que los estímulos generalizados difirieran del E+. En cambio, losresultados de Thomas y Jones no confirmaban esta predicción, ya que sus participan-tes desplazaban el máximo de respuestas en la dirección del conjunto de estímulos deprueba. Esto es, cuando el conjunto de estímulos de prueba comprendía longitudesde onda entre 485 y 525 nm, el máximo de respuestas se obtenía en presencia delestímulo 515 nm, mientras que si el conjunto de estímulos comprendía longitudesde onda entre 525 y 565 nm, el máximo de respuestas se obtenía en presencia delestímulo 535 nm (recordemos que el E+ era la longitud de onda de 525 nm). De he-cho, el único grupo que mostró un gradiente de generalización de acuerdo con laspredicciones de la teoría de Spence fue el que recibió un conjunto de estímulos deprueba simétrico con respecto al E+.

El modelo de Thomas es relacional, ya que defiende que los sujetos juzgan

los estímulos de prueba con respecto a un referente o representación subjetiva

del valor medio de los estímulos que experimentan. Así, en el experimento de

Thomas y Jones, los participantes del grupo simétrico elaboraron una repre-

sentación del estímulo de referencia similar al propio E+ y, por esta razón, die-

ron el máximo de respuestas al E+. En cambio, cuando los estímulos de prueba

tenían valores por debajo del E+, la representación de referencia tenía un valor

por debajo del valor del E+ y, por ello, los participantes respondieron más a la

longitud de onda de 515 nm. (Hay que advertir que en el experimento en cada


ensayo se mostraba el E+ y después uno de los estímulos de prueba, lo que

implica que el E+ se mostró más veces que el resto de estímulos y, por esto, el

desplazamiento del máximo es moderado.) Este modelo realiza predicciones

contraintuitivas. Por ejemplo, si presentamos una discriminación entre un E+

y un E–, y el conjunto de estímulos de prueba de la generalización se encuentra

desplazado hacia el E–, entonces la representación media de referencia obte-

nida de la media de los estímulos experimentados se situaría más cerca del E–

que del E+ y, por lo tanto, se debería obtener un desplazamiento del máximo

en dirección al E–, justo lo contrario que predice la teoría de Spence. Thomas,

Mood, Morrison y Wiertelak (1991) encontraron precisamente los resultados

que predice el modelo de Thomas. Lo que no sabemos es por qué las palomas

muestran un desplazamiento del máximo de acuerdo con lo que predice la

teoría de Spence y los humanos no.

9.6. Teoría de la discriminación basada en procesos de atención

Sutherland y Mackintosh (1971) consideran que el aprendizaje de discrimi-

nación depende de dos procesos. Cualquier estímulo está formado por varias

dimensiones como, por ejemplo, el color, la forma, el tamaño, etc. Normal-

mente, los experimentos que hemos visto hasta aquí sobre discriminación y

generalización manipulaban una dimensión y mantenían constantes las otras

dimensiones. Sin embargo, en la naturaleza los estímulos que hemos de dis-

criminar no son tan puros y pueden variar en más de una dimensión.

Según Sutherland y Mackintosh, uno de los procesos implicados en la discri-

minación es el proceso�de�atención. Si un estímulo presenta una dimensión

más saliente, como el brillo o el color, entonces atenderemos más a esta di-

mensión. Por otra parte, si en un momento determinado estamos atendiendo

a una dimensión concreta cuando damos una respuesta y somos reforzados,

entonces se incrementará la fuerza de esta dimensión y tenderemos a atender-

la más.

Supongamos que vemos un estímulo que nos llama la atención por su color,

pero si esta dimensión no es relevante para obtener el reforzador, dejaremos

de atender al color y atenderemos a otra dimensión, por ejemplo, la forma. Si

esta nueva dimensión es relevante para obtener el reforzador, entonces incre-

mentaremos la atención a dicha dimensión.

El segundo proceso propuesto por la teoría de Sutherland y Mackintosh es la

adquisición�de�la�respuesta. En el caso de una discriminación, la respuesta

sería la elección del valor de la dimensión que provoca el reforzamiento. Así,

si recibimos al reforzador cuando elegimos un estímulo que tiene la forma

cuadrada y no somos reforzados si elegimos un estímulo con forma triangular,

acabaremos dando la respuesta de elegir la forma cuadrada.


Un diseño experimental que aporta evidencia a favor de la teoría de Sutherland

y Mackintosh consiste en los efectos de los cambios intra y extradimensionales

en el aprendizaje de discriminaciones.

Experimento de Mackintosh y Little (1969)

Mackintosh y Little (1969) llevaron a cabo un experimento en el que se presentabandos problemas sucesivos en los que unas palomas debían discriminar entre estímulosvisuales (podéis ver la figura siguiente). A los sujetos de la condición extradimensio-nal se les entrenaba en primer lugar a discriminar basándose en la orientación de doslíneas (vertical y horizontal). Las líneas también tenían colores diferentes (amarillosy rojos) pero esta dimensión del estímulo era irrelevante. De hecho, en la mitad delos ensayos, la línea vertical era amarilla y la horizontal era roja y en la otra mitad delos ensayos los colores se invertían. Una vez las palomas habían aprendido la discri-minación de acuerdo con la orientación de las líneas, los animales debían aprenderuna segunda discriminación entre dos colores (azules y verdes). En esta segunda dis-criminación, los dos colores se presentaban en dos líneas oblicuas cuya orientación(derecha e izquierda) era irrelevante para resolver el nuevo problema. Así, para estegrupo, la dimensión orientación era relevante en la primera discriminación, mien-tras que la dimensión color era irrelevante. El segundo problema de discriminaciónimplicaba un cambio extradimensional, ya que la dimensión relevante era el color yno la orientación de la línea. Los sujetos de la condición intradimensional recibíanun primer problema con los mismos estímulos que el grupo extradimensional, perocon la diferencia de que la dimensión relevante era el color y la irrelevante era laorientación de la línea. El segundo problema de discriminación era idéntico al delgrupo extradimensional; por lo tanto, para el segundo grupo, la dimensión color erarelevante en las dos discriminaciones, mientras que la dimensión orientación de lalínea era irrelevante (podéis ver la figura siguiente).

Esquema del diseño experimental de Mackintosh y Little (1969). El grupo G1 (grupo extradimensional) recibíaun cambio extradimensional entre las dos discriminaciones. El grupo G2 (grupo intradimensional) recibía uncambio intradimensional entre las dos discriminaciones.

La teoría de Sutherland y Mackintosh predice que, como consecuencia del pri-

mer problema, los animales del grupo extradimensional habrían aprendido a

atender a la dimensión orientación, ya que era la relevante para solucionar el

problema y dejarían de atender al color, puesto que es irrelevante. Este apren-

dizaje sobre la dimensión relevante interferirá en la segunda discriminación,

ya que los animales seguirán atendiendo a la orientación al principio hasta

que se dieran cuenta de que aquí es irrelevante. Por el contrario, para los ani-

males del grupo intradimensional la dimensión color sería relevante en los dos

problemas, por lo que la segunda discriminación se vería favorecida.

Resumiendo, un aprendizaje más rápido en la condición de cambio intradi-

mensional aportaría una buena evidencia a favor de la teoría de Sutherland y

Mackintosh. Los resultados confirmaron estas predicciones.


9.7. Aprendizaje perceptivo

Hemos observado cómo el entrenamiento de discriminación en el que se pre-

sentan dos estímulos que varían en una dimensión provoca gradientes de ge-

neralización bastante estrechos, lo que significa que la discriminación es muy

esmerada. Ahora bien, este entrenamiento implicaba reforzar una de las alter-

nativas (E+) y no reforzar la otra alternativa (E–). Otro procedimiento que fa-

cilita la adquisición de una discriminación es enseñar a los sujetos cuál es la

dimensión del estímulo relevante para resolver el problema (Lawrence, 1949).

Sin embargo, ¿es necesario reforzar de manera distintiva dos estímulos para

producir una buena discriminación?

Gibson y Walk (1956) demostraron por primera vez que la mera exposición a

estímulos complejos como pueden ser triángulos y círculos es suficiente para

facilitar la discriminación entre los estímulos.

Expertimento de Gibson y Walk (1956)

Gibson y Walk presentaron círculos y triángulos a unas ratas en sus jaulas desde quenacieron hasta que cumplieron 90 días (edad en la que una rata ya es adulta). Losanimales aprendieron a discriminar entre estos estímulos con una cantidad signifi-cativamente menor de errores que un grupo de control que no recibió la exposiciónprevia a los estímulos.

Experimentos posteriores mucho más controlados han demostrado que el

efecto es robusto y que no es necesaria una exposición tan larga ni que los

animales sean jóvenes (para una revisión podéis ver Hall, 1989).

Esta facilitación de la discriminación entre estímulos complejos debido

a la exposición no reforzada de los estímulos previamente al entrena-

miento de discriminación recibe el nombre de aprendizaje�perceptivo.

En el módulo sobre condicionamiento clásico hemos observado que la expo-

sición no reforzada en un estímulo que se emparejará con el EI provoca un

retraso en el aprendizaje, una inhibición latente. ¿Cómo es que un procedi-

miento similar puede producir un retraso en el condicionamiento y una faci-

litación en la discriminación?

Gibson (1969) propuso que el hecho de que los sujetos pudieran inspeccionar

los estímulos antes del entrenamiento les permitía diferenciarlos, ya que po-

dían extraer las características diferenciadoras por medio de un proceso per-

ceptivo.

McLaren, Kaye y Mackintosh (1989, McLaren y Mackintosh, 2000) han pro-

puesto una teoría asociativa del aprendizaje perceptivo. Según McLaren y co-

laboradores, todo estímulo, por simple que sea, está formado por varios ele-


mentos. En cada presentación del estímulo se muestrea un determinado nú-

mero de elementos que quedarán asociados entre ellos. Consideran, igual que

las teorías absolutas, que la generalización entre dos estímulos se debe a la

cantidad de elementos en común que tienen los estímulos. Cuando dos estí-

mulos comparten muchos elementos en común, la discriminación entre ellos

será muy difícil.

Si presentamos un estímulo compuesto AX y lo emparejamos con una consecuencia, EI,se formarán tres tipos de asociaciones: una entre los elementos del estímulo A-X y dosentre cada elemento y el EI. Si en una prueba de generalización presentamos un estímulodiferente, pero que comparte una parte de elementos en común, BX, tendremos que Xactivará la representación del EI por dos vías: una directa por la asociación X-EI y unaindirecta por la cadena asociativa X-A-EI. Por lo tanto, se producirá una generalizaciónentre AX y BX, mayor cuanto más peso tengan los elementos en común.

¿Cómo puede ayudar la exposición no reforzada a los estímulos a mejorar la

discriminación?

Según McLaren y colaboradores, hay tres mecanismos que intervendrían du-

rante la exposición: la inhibición latente diferenciada de los elementos en co-

mún, las conexiones inhibidoras entre los elementos únicos y la unitización.

1)�Inhibición�latente�diferenciada�de�los�elementos�en�común

El mecanismo de la inhibición latente diferenciada de los elementos en común

se basa en el hecho de que los elementos en común reciben el doble de expo-

sición no reforzada. Dados dos estímulos complejos, AX y BX, cada uno de

ellos consta de un elemento único, A y B, respectivamente, y además compar-

ten un elemento, X. Cada vez que se presenta el estímulo AX, los elementos

que lo forman, A y X, reciben inhibición latente. De la misma manera, cada

vez que se presenta el estímulo BX, los elementos que lo forman, B y X, tam-

bién reciben inhibición latente. Así, si se realizan 10 presentaciones de cada

estímulo, obtendremos que al final se han presentado 10 veces los elementos

únicos, A y B, y en cambio, se ha presentado 20 veces el elemento común X.

Por lo tanto, la inhibición latente del elemento común será el doble que la de

los elementos únicos. En la figura siguiente se muestra cómo los elementos

comunes se exponen el doble que los elementos únicos. Cuando después de

la exposición no reforzada se lleve a cabo el aprendizaje de discriminación, los

elementos únicos tendrán más facilidad de entrar en asociación con las dife-

rentes consecuencias, mientras que los elementos en común no se asociarán,

por lo que se reduce de esta manera la generalización entre los estímulos.


Esquema explicativo del mecanismo de la inhibición latente diferenciadaentre elementos únicos y comunes según la teoría de McLaren, Kaye yMackintosh (1989)

Experimento de Trobalon, Sansa, Chamizo y Mackintosh (1991)

Trobalon, Sansa, Chamizo y Mackintosh (1991) realizaron una serie experimentalen la que se manipulaba la cantidad de elementos en común que tenían dos brazosde un laberinto en T. Para dos grupos de ratas, los suelos de los brazos diferían encolor y textura (elementos únicos), mientras que las paredes de los brazos eran delmismo color marrón (elementos en común). Por lo tanto, los estímulos que había quediscriminar eran AX y BX; A y B eran los suelos y X las paredes. Para otros dos gruposse redujeron el número de elementos en común pintando las paredes de uno de losbrazos de color blanco y las del otro brazo de color negro. Por lo tanto, podemosrepresentar la discriminación entre dos estímulos complejos AX y BY, donde A y Bserían los suelos y X y Y serían las paredes. Un grupo en cada tipo de discriminaciónfue expuesto sin reforzar a los dos brazos, mientras que el segundo grupo de cadadiscriminación no recibió la exposición. Después de la fase de exposición no reforzadase realizó un entrenamiento en el que uno de los brazos, AX, contenía comida comoreforzador, mientras que el otro brazo, BX o BY, en función de la discriminación, nocontenía comida.

Como era de esperar, el grupo de control en el que los brazos diferían en el suelo y lasparedes, AX y BY, aprendieron la discriminación más rápidamente que el grupo decontrol en el que las paredes de los brazos eran del mismo color, AX y BX, ya que elelemento X quedaba asociado con la comida cuando los animales elegían el brazo AX.

El dato más interesante, sin embargo, lo proporcionaron los grupos expuestos pre-viamente a los brazos. Concretamente, en los grupos en los que las paredes de losbrazos estaban pintadas de diferente color, la exposición retrasó la discriminacióncon respecto al grupo de control correspondiente. Por el contrario, la exposición alos brazos que tenían las paredes pintadas del mismo color facilitó la discriminaciónentre los dos brazos.

Los resultados de este experimento son coherentes con el mecanismo de la in-

hibición latente diferenciada de los elementos en común. Cuando las paredes

y los suelos de los brazos eran diferentes, la exposición no reforzada provocó

una inhibición latente a todos los elementos, AX y BY, y los animales tuvie-

ron dificultades para aprender las consecuencias de cada brazo. En cambio,

en la discriminación entre AX y BX, la exposición previa no reforzada redujo

la capacidad de asociarse del elemento X, y por lo tanto, fueron los elemen-


tos únicos los que se asociaron con las respectivas consecuencias. En compa-

ración, en su grupo de control no expuesto, el elemento en común X quedó

asociado a la comida cuando las ratas eligieron el brazo AX. La presencia de

X en el brazo BX activaba la representación de la comida provocando que los

animales lo eligieran con una alta proporción, al menos durante el inicio del

entrenamiento.

En el experimento de Trobalon y colaboradores se realizó una exposición al-

ternada de los dos brazos que había que discriminar. Este procedimiento alter-

nado se ha demostrado que es clave a la hora de obtener el efecto facilitador de

la exposición. Efectivamente, Symonds y Hall (1995) compararon el programa

de exposición alternada (AX, BX, AX, BX...) con otro procedimiento que de-

nominaban por bloques y que consiste en exponer primero en un bloque uno

de los dos estímulos y después en un segundo bloque el otro estímulo (AX,

AX... – BX, BX...). La figura siguiente muestra de manera esquematizada las

presentaciones alternadas y por bloques utilizadas por Symonds y Hall.

Los resultados del experimento mostraron que sólo se obtenía un efecto de

aprendizaje perceptivo cuando la exposición era alternada, pero no cuando la

exposición era por bloques. La implicación de este hallazgo es que se contra-

dice con el mecanismo de la inhibición latente diferenciada de los elementos

en común. Tened en cuenta que independientemente del orden de presenta-

ción de los estímulos, los dos programas de exposición garantizan el doble de

exposición a los elementos en común con respecto a los únicos y, de acuerdo

con este mecanismo, en los dos procedimientos se debería obtener el efecto

facilitador de la exposición previa no reforzada.

Esquema de las exposiciones alternada y por bloques

Los dos tipos de presentación de los estímulos garantizan la misma cantidad de exposición a los dos estímuloscompuestos. La única diferencia es el orden en el que se presentan los compuestos.

2)�Conexiones�inhibidoras

El segundo mecanismo propuesto por McLaren y colaboradores es la forma-

ción de conexiones inhibidoras entre los elementos únicos de los estímulos

expuestos. Recordemos que durante las primeras presentaciones de los estímu-

los se supone que se forman asociaciones entre los elementos que constituyen

cada compuesto. Así, al presentar AX se formará una asociación A↔X, y al pre-

sentar BX se formará una asociación B↔X. Una vez formadas estas asociacio-

nes, la presentación AX provocará que el elemento X evoque la representación


del elemento único B. De acuerdo con la teoría de McLaren y colaboradores

(podéis ver también, McLaren y Mackintosh, 2000) la activación asociativa de

B no estando físicamente presente, es decir, a partir de su asociación con X,

permitirá una asociación inhibidora entre A y B, (A–׀B). De la misma mane-

ra, las presentaciones de BX activarán la representación de A por medio de la

asociación X→A y permitirán la conexión inhibidora B–׀A. Cuando después

de la exposición condicionamos uno de los estímulos compuestos, AX, con la

consecuencia (EI), tanto el elemento A como el elemento X quedarán asocia-

dos con el EI. En la prueba de generalización con BX, X activará la represen-

tación del EI, pero B inhibirá la representación de A y, como está asociado con

el mismo EI, éste también se verá inhibido. En definitiva, la representación

del EI activada por X se verá reducida por la inhibición procedente de la co-

nexión inhibidora B–׀(A→EI). En consecuencia, BX no activará la respuesta y,

por lo tanto, no habrá generalización de AX a BX, con respecto a un grupo de

control que no haya recibido la exposición previa a AX y BX, ya que en este

grupo, B no podrá inhibir la representación de A y, en cambio, X activará la

representación del EI.

La demostración de conexiones inhibidoras entre los elementos únicos de dos

estímulos expuestos sin reforzamiento proviene del efecto Espinet.

Experimento de Espinet, Iraola, Bennett y Mackintosh (1995)

Espinet, Iraola, Bennett y Mackintosh (1995) llevaron a cabo una exposición alterna-da a dos compuestos gustativos, AX y BX. Después condicionaron uno de los com-puestos, AX, con un malestar gastrointestinal y finalmente llevaron a cabo las prue-bas propias para estudiar la inhibición condicionada (pruebas de retraso estudiadasen el módulo del condicionamiento clásico). En la prueba de retraso, se emparejó elcompuesto BX con el EI y el condicionamiento se desarrolló más lentamente que ungrupo de control que había recibido una exposición alternada sólo a los elementosúnicos, A y B. La exposición de los elementos únicos en el grupo de control asegura-ba la misma cantidad de exposición a A y a B y, por lo tanto, la misma cantidad deinhibición latente, pero la ausencia del elemento común, X, impedía la formación deconexiones inhibidoras entre A y B. Para la prueba de la suma utilizaron otro sabor,Q, emparejado con el malestar gastrointestinal y durante la prueba presentaron elcompuesto QB. Si B inhibiera la representación del EI por medio de su asociacióninhibidora con A, debería contrarrestar la activación del malestar provocada por lapresencia de Q. En el grupo de control, el compuesto QB debería activar la represen-tación del malestar con más fuerza, ya que B no puede inhibirla.

3)�Unitización

El tercer mecanismo propuesto por McLaren y colaboradores para explicar el

aprendizaje perceptivo es el que se denomina unitización.

Este mecanismo propone que las conexiones entre los elementos úni-

cos de unos estímulos serán más fuertes que las conexiones entre los

elementos únicos y los elementos comunes.


El argumento se basa en el hecho de que cuando se presenta un compuesto

AX, se forman asociaciones entre los elementos únicos (a1, a2...) y entre los

elementos únicos y comunes (a1, a2,x1,x2...). En cambio, en la presentación de

BX, como están presentes los elementos comunes pero no los elementos úni-

cos de A, se producirá una extinción de las asociaciones entre los elementos

únicos de A y los elementos en común. El resultado de este proceso es que

al presentar AX habrá una tendencia central a que se activen con más fuerza

los elementos únicos de A que los elementos únicos de X. Lo mismo sucede-

rá con el compuesto BX. De esta manera, los elementos únicos tendrán más

oportunidad de asociarse con las consecuencias que los elementos en común,

lo que facilitará la discriminación entre AX y BX. A pesar de que el mecanismo

es coherente, su demostración experimental resulta muy complicada de llevar

a la práctica.

En resumen, de los tres mecanismos propuestos por McLaren y colabo-

radores, el más potente y con más datos que le den respaldo es el de

las conexiones inhibidoras entre los elementos únicos de los estímulos

expuestos.

Hall (2003) propuso una explicación alternativa del aprendizaje perceptivo.

Según Hall, la exposición alternada a dos estímulos compuestos que compar-

ten elementos en común, AX y BX, interfiere en un proceso de habituación

de los elementos únicos pero no de los elementos comunes. En otras palabras,

la saliencia de los elementos únicos se mantendría alta después de una expo-

sición alternada, mientras que la saliencia de los elementos comunes se ve re-

ducida significativamente. Hall acepta que en las primeras exposiciones de los

compuestos, AX y BX, se forman asociaciones entre los elementos únicos y

comunes (A↔X, B↔X). Una vez formadas estas asociaciones, la presentación

de AX activará la representación de B por medio de la asociación X→B. La

activación asociativa de B estando físicamente ausente el estímulo B, evitará

la habituación o, lo que es lo mismo, mantendrá alta la saliencia de B. En los

ensayos en los que se presenta BX, se activará la representación de A y será

este estímulo el que mantenga alta su saliencia. Este proceso no se producirá

cuando la exposición sea por bloques, ya que al presentar siempre AX, tanto

A como X perderán saliencia, y lo mismo cuando se presente el bloque BX,

en el que B y X perderán saliencia. Cuando se condicione el compuesto AX,

en el grupo de exposición alternada, A ensombrecerá fuertemente a X, ya que

tiene más saliencia y X no se asociará con el EI. En el grupo que ha recibido

una exposición por bloques, A será poco saliente y no podrá ensombrecer efi-

cazmente a X permitiendo su asociación con el EI. Finalmente, en la prueba

de generalización en la que se presenta BX, X no activará la expectativa del EI

en el grupo expuesto alternadamente, lo que producirá una buena discrimi-


nación entre AX y BX, mientras que en el grupo de exposición por bloques, X

sí podrá activar la representación del EI, provocando una generalización entre

AX y BX.

Artigas, Prados, Sansa, Blair y Hall (2006) han aportado datos a favor del me-

canismo propuesto por Hall.

Experimento de Artigas, Prados, Sansa, Blair y Hall (2006)

En uno de sus experimentos utilizaron dos grupos de ratas a los que exponían a dosestímulos compuestos con un elemento en común, AX y BX. En uno de los grupos laexposición era alternada y en el otro grupo la exposición era por bloques. Una carac-terística del experimento era que uno de los elementos únicos era el sabor salado. Larazón de utilizar este sabor es que el procedimiento utilizado consistía en provocaruna necesidad de sal y poder utilizar el sabor salado como un potente EI. De hecho,después de la exposición, los dos grupos recibieron un compuesto formado por losdos sabores únicos, AB. La idea es que si la exposición alternada produce conexionesinhibidoras entre los elementos únicos, A y B, como proponen McLaren y colabora-dores, entonces sería difícil formar una asociación entre los dos elementos únicos.En cambio, siguiendo a Hall, si la exposición alternada mantiene alta la saliencia delos elementos únicos, entonces se facilitaría la asociación entre los dos elementosúnicos, A y B. En los dos casos, el retraso o la facilitación sería con respecto al grupode control que recibió la exposición por bloques. Para poder medir la fuerza de laasociación AB, estos investigadores provocaron una necesidad de sal el día previo ala prueba y durante ésta presentaron el sabor único diferente a la sal.

Los resultados mostraron una facilitación de la asociación AB en el grupo al-

ternado, lo que da respaldo a la teoría de Hall y va en contra de las conexiones

inhibidoras entre los elementos en común.

No obstante, Artigas, Sansa y Prados (2006) también han encontrado el efecto

Espinet después de exposiciones alternadas pero no después de exposiciones

por bloques. Sin embargo, el efecto Espinet sólo aparecía cuando las exposi-

ciones eran largas pero no cuando eran cortas. Ya hemos comentado que el

efecto Espinet es una buena demostración de la existencia de asociaciones in-

hibidoras entre los elementos únicos. Por otra parte, esta investigación mos-

tró el aprendizaje perceptivo tanto en exposiciones largas como en cortas. Las

conclusiones fueron que es posible que los dos mecanismos contribuyan al

fenómeno del aprendizaje perceptivo. El mantenimiento de la saliencia ten-

dría efectos a corto plazo (y quizá también a largo plazo), mientras que las co-

nexiones inhibidoras implican un proceso más lento y sólo se manifestarían

después de una exposición relativamente larga.

Tabla�resumen�de�la�generalización�y�la�discriminación

Definiciones Generalización: tendencia a responder a un estímulo nuevo similares alEC o a los estímulos discriminativos.Discriminación: consiste en responder de manera diferente a dos estí-mulos en función de sus diferencias.

Fenómenos • Desplazamiento del máximo• Transposición• Aprendizaje perceptivo


Teorías de la discriminación y generalización • Gradientes de generalización excitadores e inhibidores (Spence,1936)

• Aprendizaje relacional (Köhler, 1939)• Teoría de la atención (Sutherland y Mackintosh, 1971)

Teorías del aprendizaje perceptivo • Conexiones inhibidoras (McLaren, Kaye y Mackintosh, 1989)• Mantenimiento de la saliencia (Hall, 2003)


10.Aprendizaje por observación

Es indudable que una gran proporción del aprendizaje humano se produce

no con el condicionamiento clásico o como resultado del reforzamiento o del

castigo, sino por observación.

Bandura y Walters (1963) se interesaron por este tipo de aprendizaje. Su punto

de partida era que la teoría tradicional del aprendizaje era incompleta, ya que

no tenía en cuenta el papel del aprendizaje por observación. A lo largo tanto

del módulo "Condicionamiento clásico pavloviano" como de este módulo he-

mos estudiado formas de aprendizaje que ponen el énfasis en la experiencia

individual: un individuo ejecuta una determinada conducta y experimenta las

consecuencias que la siguen. En cambio, Bandura y Walters afirman que mu-

chos de los aprendizajes se dan mediante la experiencia de los otros y no por

nuestra experiencia personal.

Observamos la conducta de los otros, observamos las consecuencias y

posteriormente imitamos sus conductas.

En pocas palabras, Bandura y Walters afirman que el enfoque tradicional del

aprendizaje, que enfatiza la práctica y la experiencia personal, es insuficiente

–puede explicar algunos tipos de aprendizaje pero no todos.

Bandura y Walters estaban interesados en explicar cómo se desarrollan las di-

ferentes personalidades. Aceptan que algunas diferencias en la personalidad

de las personas pueden deberse a factores hereditarios, pero que la mayoría

se deben a las experiencias personales de aprendizaje. Consideran que la per-

sonalidad adulta está marcadamente influenciada por las experiencias en la

primera infancia y que estas experiencias ejercen su influencia por medio de

los principios de la teoría�del�aprendizaje�social.

Por teoría� del� aprendizaje� social Bandura y Walters entienden una

combinación de los principios del condicionamiento clásico e instru-

mental y de los principios del aprendizaje por observación o imitación.

De hecho, no rechazan en absoluto los principios del aprendizaje por condi-

cionamiento, sino que añaden una nueva vía de aprender.


Aunque la teoría de Bandura y Walters ha sido la más influyente con respecto

al papel que desempeña la imitación en el aprendizaje, no fueron los primeros

investigadores que trataron el tema.

10.1. Teorías de la imitación

10.1.1. La imitación como instinto

Algunos de los primeros psicólogos (Baldwin, 1906; James, 1890; Morgan,

1896; McDougall, 1908) sugirieron que las personas y otros animales tienen

una tendencia�innata�a�imitar el comportamiento de otros individuos. La

idea de que la imitación es innata proviene en parte de la evidencia de que los

bebés pueden imitar los movimientos de los adultos. Por ejemplo, McDougall

(1908) describía cómo su hijo de 4 meses de edad sacaba la lengua cuando

un adulto delante de él hacía lo mismo. Naturalmente, existe la posibilidad

de que este comportamiento fuera reforzado si los adultos sonreían o reían

cuando el niño realizaba la conducta.

Experimentos de Meltzoff y Moore (1977, 1983)

Meltzoff y Moore (1977, 1983) realizaron experimentos controlados con el fin dedeterminar si efectivamente unos bebés de 12 a 21 días de edad podían imitar algu-nos movimientos que realizaban los adultos. Concretamente, utilizaron cuatro mo-vimientos: sacar los labios hacia fuera, abrir la boca, sacar la lengua y el movimientosecuencial de los dedos (podéis ver la figura siguiente). Un modelo ejecutaba una delas conductas y esperaba para ver si el niño la repetía. Las conductas de los niños fue-ron registradas en vídeo y puntuadas por personas que desconocían cuál de los cuatrogestos había observado el niño en un ensayo dado. Los investigadores encontraronque los niños realmente mostraban una tendencia a imitar el comportamiento quehabían visto. Dada la edad de los bebés, era poco probable que estos comportamien-tos hubieran sido reforzados por sus padres. De hecho, los padres indicaron que nohabían observado ningún tipo de imitación en sus hijos.

Representación de las conductas que debían imitar los bebés en el experimento de Meltzoff y Moore (1977)


Los resultados de Meltzoff y Moore se han replicado varias veces y actualmente

queda bastante claro que los bebés tienen una tendencia a imitar algunas ges-

ticulaciones de los adultos, especialmente sacar la lengua. No obstante, toda-

vía no existe un acuerdo absoluto en cómo interpretar estos datos. Por ejem-

plo, Anisfeld (1991) ha propuesto que sacar la lengua (y posiblemente otras

conductas) es un patrón de acción fijo innato (un reflejo) que se activa cuando

el niño ve a otra persona haciendo el mismo gesto. Meltzoff y Moore (1989)

no están de acuerdo con esta interpretación y mantienen que los bebés tienen

la capacidad de imitar movimientos que ven realizar a los adultos. Si esta in-

terpretación de Meltzoff y Moore es correcta, entonces tiene importantes re-

percusiones, ya que significa que los humanos nacemos con la capacidad de

asociar determinadas entradas sensoriales (la visión de un adulto haciendo un

gesto determinado) con un conjunto de movimientos musculares que permi-

ten al niño realizar el mismo movimiento que ven. Hay que tener en cuenta

que los bebés no tienen la oportunidad de ver su propia cara cuando abren la

boca o sacan la lengua. Todavía más, la mayoría de los bebés estudiados por

Meltzoff y Moore probablemente no habían visto su cara reflejada en un es-

pejo. Esto es, estos niños difícilmente habrían tenido ocasión de practicar di-

ferentes posturas frente a un espejo y asociar determinados movimientos con

las expresiones faciales a las que dan lugar. Sin embargo, son necesarias más

investigaciones para poder determinar si los bebés pueden imitar un amplio

rango de movimientos o sólo unos pocos como sacar la lengua.

Una segunda cuestión sobre la capacidad de imitar se centra en si se trata

de una habilidad exclusivamente humana u otras especies animales poseen

también la capacidad de imitar.

Thorndike (1911) no encontró ninguna evidencia de que sus animales apren-

dieran a resolver problemas mediante la observación de otros individuos. Esto

reforzó su ley del efecto y que, por lo tanto, los animales no humanos apren-

dían a partir de sus experiencias directas. No obstante, Robert (1990) ha reco-

gido más de 200 estudios sobre el aprendizaje por observación en animales.

Las especies estudiadas son primates, gatos, perros, roedores, pájaros y peces.

Las tareas aprendidas variaban en complejidad.

Thorpe (1963) propuso tres categorías de aprendizaje por observación.

• La categoría más simple propuesta por Thorpe era la facilitación�social, en

la que el comportamiento de un individuo provoca una conducta similar

en otro individuo, pero que la conducta ya se encuentra en el repertorio

del imitador.


Experimento de Wyrwicka (1978)

Un ejemplo de esta facilitación social lo encontramos en un trabajo de Wyrwicka(1978) en el que entrenó a unas gatas a comer algunos alimentos poco habitualescomo plátanos o patatas chafadas y observó cómo sus crías también empezaron acomer los mismos alimentos que las madres.

• La segunda categoría de aprendizaje por observación propuesta por Thorpe

es el aumento�local, en el que la conducta de un modelo dirige la atención

del aprendiz hacia un determinado objeto o lugar en el entorno. Como

resultado se tiene que una conducta que se podría aprender por ensayo y

error se aprende más rápidamente.

Experimento de Warden, Fjeld y Koch (1940)

Warden, Fjeld y Koch (1940) entrenaron a unos monos a estirar de una cadena paraobtener comida como reforzador. A continuación se puso a un mono sin entrena-miento en una caja idéntica próxima a la caja del mono entrenado. Los investigado-res pudieron constatar que el mono sin experiencia observaba el comportamiento delque conocía la respuesta adecuada e inmediatamente lo imitaba. Probablemente, elmono ingenuo hubiera aprendido la respuesta por ensayo y error, pero su aprendizajese vio acelerado por la observación de la conducta de su compañero adiestrado.

Este tipo de aprendizaje por observación también se ha encontrado

en aves (por ejemplo, Hogan, 1986) y, lo que es más interesante, no

es necesario que el modelo y el aprendiz sean de la misma especie.

Bullock y Neuringer (1977) encontraron que unas palomas podían

aprender a ejecutar una cadena de dos respuestas (picotear dos teclas

en un orden concreto) observando la mano de un humano realizando

la secuencia correcta.

• La tercera categoría de aprendizaje por observación propuesta por Thorpe

recibe el nombre de imitación�auténtica y no es fácil distinguirla de la

categoría anterior. Se refiere a la imitación de un patrón de conductas que

es muy poco probable que aparezca en una determinada especie, y que

raramente puede ser aprendida por ensayo y error.

Experimento de Kawai (1965)

Un ejemplo de imitación auténtica la encontramos en un estudio de Kawai (1965),que observó el comportamiento de un grupo de monos que vivía en una isla de Japón.Cuando los granos de trigo se derramaban por la playa, los monos los recogían deuno en uno entre los granos de arena y se los comían. Uno de los monos descubrióque lanzando un puñado de arena con el trigo al agua, la arena se hundía y el trigoflotaba, lo que facilitaba la tarea de separarlos. Rápidamente otros monos empezarona imitar este comportamiento.


Imitación auténtica

Es difícil encontrar ejemplos de la imitación auténtica en otras especies de animales di-ferentes a los primates, pero se han descrito casos anecdóticos que pueden entendersecomo una evidencia de una imitación auténtica en aves (Fisher y Hinde, 1947). En 1921,algunos habitantes del sur de Inglaterra se dieron cuenta de que algunos pájaros habíanempezado a obtener leche agujereando las botellas depositadas en el umbral de las puer-tas. A lo largo de los años, este comportamiento de las aves se extendió a lo largo de In-glaterra, Gales, Escocia e Irlanda. Además, este comportamiento se observó en diferentesespecies de pájaros. Ya que no tiene demasiado sentido pensar que todos estos pájarosaprendieron repentinamente este comportamiento por sí mismos, debieron aprender ytransmitir la conducta mediante el aprendizaje por observación.

10.1.2. La imitación como una respuesta instrumental

Miller y Dollard (1941) propusieron que el aprendizaje por observación no

era un nuevo tipo de aprendizaje diferente a los condicionamientos clásico e

instrumental, sino que era un caso especial de aprendizaje instrumental. Ya

hemos visto cómo los estímulos discriminativos tenían un papel importante

en el control de la conducta instrumental. Según Miller y Dollar, en el apren-

dizaje por observación la conducta del modelo tendría el papel de estímulo

discriminativo con la peculiaridad de que la respuesta reforzada sería la misma

o muy similar a la que realiza el modelo.

Experimento de Miller y Dollard (1941)

En un experimento de Miller y Dollar trabajaron con parejas de niños de primer ciclo.En cada pareja, uno de los niños tenía el papel de modelo y el otro de aprendiz. Encada ensayo los dos niños entraban en una habitación donde había dos sillas y encada una, una caja. Antes de cada ensayo se indicó al niño que hacía de modeloque se dirigiera a una de las dos cajas donde podía haber un caramelo. El aprendizpodía ver la elección del modelo pero no si obtenía o no el caramelo. A continuación,era el aprendiz el que debía ir a una de las dos cajas donde podía o no encontrar elcaramelo. La mitad de los aprendices formaban parte del grupo de imitación y eranreforzados si emitían la misma respuesta de elección que el modelo. La otra mitad deaprendices eran del grupo de no imitación y obtenían el reforzador si elegían la cajaque no había elegido el modelo.

Los resultados de este experimento son fácilmente previsibles. Después de unos po-cos ensayos, los niños del grupo de imitación realizaban la misma elección que sumodelo, mientras que los niños del grupo de no imitación elegían la caja contrariaa la que había elegido el modelo.

La interpretación de Miller y Dollar es que la imitación se producirá si se re-

fuerza a un individuo para imitar el modelo y, por el contrario, la imitación

no se producirá si se refuerza al individuo por realizar una conducta diferente

a la del modelo. Este análisis del aprendizaje por observación no necesita di-

ferenciarlo como una forma diferente del condicionamiento instrumental.

Ahora bien, hay que ser prudentes a la hora de aceptar esta explicación del

aprendizaje por observación, ya que sólo es viable en situaciones en las que

el aprendiz observa el comportamiento del modelo, copia inmediatamente la

conducta y recibe reforzador por hacerlo. Muchas conductas aprendidas por

observación no muestran este patrón, como señaló Bandura (1969).


Una niña pequeña ve cómo su madre le prepara un bol de leche con cereales. La madresaca el bol de un armario y a continuación toma la bolsa de cereales de otro armario yvierte una cantidad en el bol. A continuación abre la nevera y toma una botella de lechey acaba de llenar el bol. Probablemente, la niña puede haber atendido toda esta cadenade conductas pero no las ejecutará y, por lo tanto, no será reforzada. Sin embargo, aldía siguiente cuando la madre no está en la cocina, la niña se prepara ella sola el bol decereales con más o menos éxito.

El ejemplo ilustra una situación de aprendizaje por observación en la que la

conducta no ha sido previamente practicada ni, en consecuencia, reforzada.

Por lo tanto, es difícil explicar este aprendizaje a partir del condicionamiento

instrumental. Sin embargo, hay que tener en cuenta que los principios del

condicionamiento instrumental tampoco pueden explicar por qué una rata

ejecuta por primera vez una presión de palanca.

De todas maneras, podemos explicar la aparición de nuevas conductas si re-

currimos al concepto de generalización. De hecho, muchas conductas nuevas

son variaciones de respuestas similares reforzadas previamente.

Experimento de Lashley (1924)

Por ejemplo, en un experimento de Lashley (1924) se entrenó a unas ratas para ca-minar por un laberinto cubierto ligeramente de agua para llegar a un punto en el quehabía el reforzador. Cuando se inundó el laberinto de manera que el animal debíanadar, las ratas no tuvieron ningún problema para llegar hasta el reforzador.

Podemos afirmar que la conducta de nadar fue una generalización de la conductapreviamente reforzada de caminar por el agua.

Volviendo al ejemplo de la niña que prepara su propio bol de cereales, es muy

probable que los padres refuercen a sus hijos para imitar sus conductas. Por

ejemplo, podemos pronunciar la palabra agua delante del niño y si éste emite

un sonido similar (abua), es muy posible que riamos, lo felicitemos y le haga-

mos carantoñas, lo que reforzará la conducta de imitación. Por otra parte, los

componentes de la conducta de preparación de un bol de cereales se pueden

haber reforzado en otras situaciones. Es muy probable que la niña hubiera sido

reforzada en el pasado para abrir armarios, o también habría podido recibir

reforzadores por llenar botes de arena en el parque o trasvasar agua de un bote

a otro mientras jugaba.

En definitiva, las conductas nuevas pueden producirse a partir de la generali-

zación de otras conductas reforzadas en el pasado.

Experimento de Baer, Peterson y Sherman (1967)

Por ejemplo, Baer, Peterson y Sherman (1967), reforzaron a algunos niños con retra-so mental profundo para imitar varias conductas realizadas por el profesor (ponersederechos, asentir con la cabeza, abrir una puerta). Después del establecimiento de lasrespuestas imitadas (lo que necesitó varias sesiones), el profesor realizaba ocasional-mente conductas nuevas y los niños también las imitaron aunque nunca habían sidoreforzados antes para hacerlas.


10.1.3. La teoría de Bandura sobre el aprendizaje por imitación

Experimento de Bandura (1965)

Bandura (1965) llevó a cabo un experimento sobre imitación de la conducta agresivaen niños de 4 años de edad. Los niños participaron en el experimento de manera in-dividual. Cada niño vio inicialmente una película corta en una pantalla de televisoren la que un adulto realizaba cuatro conductas agresivas diferentes dirigidas contrauna muñeca de grandes dimensiones. Cada conducta iba acompañada de verbaliza-ciones específicas. Las conductas fueron:

1) Sentarse encima de la muñeca y golpearla en la cara.2) Golpear la cabeza de la muñeca con un mazo.3) Dar patadas a la muñeca.4) Lanzar pelotas de goma contra la muñeca.

Posteriormente, algunos niños vieron cómo el agresor recibía algunos reforzadorespor parte de otro adulto al tiempo que lo elogiaba. Otros niños vieron cómo reñíanal agresor. Finalmente, para un tercer grupo de niños, el vídeo no mostraba ningunaconsecuencia de la conducta agresiva del modelo.

Gru-po

Fase de observación Fase de prueba 1 Fase de prueba 2

Pre-mio

Conducta agresiva delmodelo → Reforza-miento

Casti-go

Conducta agresiva delmodelo → Castigo

Sincon-se-cuen-cia

Conducta agresiva delmodelo → no conse-cuencia

Común a los tres grupos:los niños tenían accesoa la muñeca con la quehabía actuado el modelode manera individual.

Común a los tres grupos:los niños fueron reforzadospara imitar en el modelode manera individual.

Esquema del diseño experimental de Bandura (1965)Inmediatamente después de ver la película, cada niño entraba en una habitacióndonde había una muñeca idéntica a la mostrada en la película junto con otros jugue-tes y se le animaba para que jugara con ellas. El niño permanecía solo en la habitaciónpero se lo observaba a través de un espejo unidireccional. Durante el tiempo en el quese quedaron solos en la habitación, los niños mostraron muchas conductas agresivascontra la muñeca y muchas de ellas eran semejantes a las del modelo. Además, losniños mostraron más conducta agresiva que las niñas.

Estos resultados pueden ser los esperados por la teoría de la generalización de la

imitación. No obstante, Bandura encontró dos aspectos de la conducta que no

pueden ser explicados por esta teoría. Primero, las consecuencias que recibían

los modelos influían en la conducta de los niños. En concreto, los niños que

observaron que el modelo era recompensado exhibían más conducta agresiva

que los niños que habían visto cómo castigaban al modelo. De acuerdo con la

teoría de la generalización de la imitación, los niños (y los adultos) imitan a

otras personas porque la conducta de imitar ha sido reforzada anteriormente,

pero no dice nada sobre cómo el reforzamiento o el castigo del modelo afecta-

rá al aprendiz. El segundo hallazgo hace referencia a una fase final del experi-

mento en la que Bandura ofreció refuerzo a los niños de todos los grupos para

imitar el modelo de la película. Con este incentivo, todos los niños de los tres

grupos mostraron mucha conducta agresiva y no diferían entre las condicio-

nes experimentales. Estos datos llevaron a Bandura a concluir que el reforza-


dor no es necesario para el aprendizaje por observación de nuevas conductas,

pero que la expectativa de reforzamiento es esencial para la ejecución de estas

nuevas conductas. Según Bandura, existe una clara distinción entre aprendi-

zaje y conducta, y es precisamente la falta de esta distinción lo que impide que

la teoría de la generalización de la imitación pueda explicar sus resultados.

A partir de sus investigaciones Bandura (1969, 1986) propuso la teoría�cog-

nitiva�del�aprendizaje�por�observación. Bandura diferencia cuatro procesos

implicados en el aprendizaje por observación:

1)�Procesos�de�atención. El aprendiz debe prestar atención a las características

relevantes de la conducta del modelo.

2)�Procesos�de�retención. Es obvio que un individuo debe retener informa-

ción adquirida mediante la observación si después quiere reproducir la con-

ducta.

3)� Procesos� de� reproducción� motora. Para poder reproducir la conducta

aprendida mediante la observación, es necesario que el aprendiz tenga las ca-

pacidades motoras mínimas para llevar a cabo la conducta. Golpear una mu-

ñeca no presenta problemas para el aprendiz, ya que tiene bastante habilidad

para dar golpes. Pero un experto jugador de billar nos puede mostrar paso por

paso cómo hacer una carambola a tres bandas, pero si el observador no ha

manipulado nunca un taco, posiblemente le será como mínimo difícil repro-

ducir la conducta, aunque nos pueda efectuar una descripción verbal perfecta.

4)�Procesos�de�motivación�y�de�incentivo. Según Bandura, los tres primeros

procesos son todo lo que se necesita para adquirir la capacidad de realizar una

nueva conducta, pero esta nueva conducta no se reflejará si el aprendiz no

recibe el incentivo adecuado. Para que la conducta se ejecute, el individuo

debe tener la expectativa de que será reforzada. El experimento de Bandura

(1965) descrito más arriba proporciona un ejemplo del papel que desempeña

el incentivo. Los niños que vieron cómo se castigaba al modelo por agredir a

la muñeca, probablemente desarrollaron la expectativa de que esta conducta

tiene consecuencias desagradables y, por lo tanto, mostraron menos conducta

agresiva que los niños de los otros grupos. En cambio, cuando se les ofreció

un reforzador para imitar la conducta del modelo, sus expectativas sobre las

consecuencias de la conducta cambiaron y emitieron la misma cantidad de

conducta agresiva que los niños de los otros grupos.

10.2. Factores que afectan a la probabilidad de la imitación

Hasta ahora hemos visto dos factores importantes y evidentes que hacen más o

menos probable que un observador imite la conducta de un modelo: las con-

secuencias que tiene el comportamiento sobre el modelo y las consecuencias

sobre el observador. Los niños son más propensos a imitar las conductas de un


modelo que ha sido reforzado. Los niños también tienen más probabilidad de

imitar a un modelo cuando han sido reforzados por su imitación. Ahora nos

centraremos en otros factores que se sabe que influyen en la imitación.

10.2.1. Características del modelo

Los niños generalmente tienen más contacto con sus padres que con cualquier

otra persona, pero eso no quita que estén expuestos a muchos otros modelos

en potencia: los hermanos, los compañeros de clase, los profesores, los abue-

los, personalidades de la televisión, personajes de los dibujos animados, de-

portistas famosos, etc. Sin embargo, los niños no imitan por igual a todos estos

posibles modelos. ¿Qué hace que unos modelos sean más imitados que otros?

Una de las características que provoca que un modelo tenga más probabilidad

de ser imitado es su capacidad�de�reforzar�a� los�niños. En otras palabras,

las personas que proporcionan más reforzamiento, tanto afectivo como otras

formas de reforzadores, tienden a ser más imitadas.

Experimento de Bandura y Huston (1961)

Bandura y Huston (1961) realizaron un experimento en el que una mujer interac-tuaba individualmente con unos niños del jardín de infancia. La mujer se mostróafectuosa con la mitad de los niños y fría y distante con la otra mitad. Cuando mástarde se permitió jugar a los niños con la mujer, los que la conocían como personaafectuosa imitaron significativamente más las conductas del modelo que los niñosque la conocían como persona distante.

Una segunda característica del modelo es el poder�que�tiene�sobre�el�imita-

dor. De hecho, los padres ejercen un gran control sobre los hijos decidiendo

lo que pueden y lo que no pueden hacer. Mischel y Grusec (1966) pusieron

a prueba esta hipótesis.

Experimento de Mischel y Grusec (1966)

A unos niños del jardín de infancia les presentaron a una mujer como la nueva pro-fesora, mientras que para otros niños, la misma mujer fue presentada como una pro-fesora visitante. La idea era que los niños vieran a la persona que sería su profesoracomo una persona con más poder que si sólo era una visitante que no volverían a veren el futuro. La mujer pasó un rato jugando con cada grupo por separado. Posterior-mente, y cuando no estaba la mujer presente, se dejó jugar a los niños libremente. Losresultados mostraron más conducta de imitación en los niños que pensaban que lamujer sería su nueva profesora que en los niños que la veían sólo como una visitante.

El concepto de poder o control equivale al concepto de dominancia en los

casos de los grupos sociales. Varios estudios han mostrado resultados equiva-

lentes a los que acabamos de ver cuando el modelo era un niño dominante

en el aula (Abramovitch y Grusec (1978) o una cheer-leader entre un grupo de

chicas (McCullagh, 1986).


Otra variable es la similitud�entre�el�modelo�y�el�observador. Por ejemplo,

se ha demostrado que es mucho más probable que un niño imite a un mo-

delo que es del mismo sexo, edad o que parece mostrar los mismos intereses

(Burnstein, Stotland y Zander, 1961; Davidson y Smith, 1982).

Otra variable es la sinceridad�del�modelo. Klass (1979) halló que los niños

imitaban más que un modelo que parecía sincero que a otro que parecía poco

sincero.

El listado de variables no es exhaustivo, pero es fácil ver cómo pueden ser

explicadas sin dificultad por la teoría de Bandura y de la generalización de la

imitación. Un niño puede haber aprendido que una persona dominante lo

podrá reforzar si lo imita. Un niño también puede haber sido reforzado por

imitar a otras personas del mismo sexo, edad, y, en cambio, puede haber sido

castigado por imitar a personas de diferente sexo o edad. También es posible

que un niño haya aprendido que es poco aconsejable imitar a personas poco

sinceras. De acuerdo con la teoría de la generalización de la imitación, cada

una de estas variables refleja los efectos de la experiencia pasada del niño; de

acuerdo con la teoría de Bandura, reflejan las expectativas que tiene el niño

del reforzamiento futuro.

10.2.2. Características del aprendiz

Otro foco de interés ha sido descubrir las diferencias individuales que corre-

lacionan con la tendencia de una persona a imitar el comportamiento de los

otros. Algunas de estas características pueden parecer obvias, pero otras no.

Por ejemplo, Bandura (1965) mostró que los niños tienden más a imitar con-

ductas agresivas que las niñas. Abramovitch y Grusec (1978) encontraron que

los niños pequeños (4 años) imitaban más que niños más mayores (9 años).

También descubrieron que los niños dominantes (a quienes imitan más) re-

sultaban mostrar más conducta imitativa.

Muchas de estas características son específicas de la situación. Sin embargo, se

puede afirmar, aunque de manera intuitiva, que las personas menos seguras

de sí mismas tienden a imitar más el comportamiento de los otros (Thelen,

Dollinger y Kirkland, 1979). Muchos estudios han manipulado el nivel de se-

guridad presentando a los participantes tareas que podían o no resolver.

Experimento de Roberts, Boone y Wurtele (1982)

Roberts, Boone y Wurtele (1982) trabajaron con niños en edad preescolar y les dierona hacer una tarea de discriminación. La mitad de los niños recibían retroalimentaciónpositiva y la otra mitad recibía retroalimentación negativa.

Los resultados mostraron más imitación de un modelo en los niños que habían

recibido la retroalimentación negativa.


En la misma línea, Jakubczak y Walters (1959) encontraron que los niños que

mostraban independencia al resolver un problema (esto es, que no aceptaban

la ayuda a pesar de que tuvieran dificultades para resolver los problemas) eran

menos propensos a imitar a un modelo que los niños que eran altamente de-

pendientes (que aceptaban ayuda incluso cuando no la necesitaban).

10.2.3. Características de la situación

Si las personas muestran más tendencia a imitar cuando están inseguras de su

conducta, entonces las situaciones�ambiguas también provocarán más inse-

guridad y, por lo tanto, más imitación.

Experimento de Thelen, Paul y Dollinger (1978)

Thelen, Paul y Dollinger (1978) manipularon la incertidumbre de una situación pre-sentando a los participantes, niños preadolescentes, tareas que tenían dos opciones(condición de baja incertidumbre) o con diez posibles opciones (condición de altaincertidumbre). Los niños que se encontraban con una situación de alta incertidum-bre imitaban más el modelo que los niños que se encontraban en la condición debaja certeza.

Una segunda variable de la situación que afecta a la imitación es la dificultad

de�la�tarea encomendada. Harnick (1978) encontró que niños de entre 14 y

28 meses de edad imitaron más a un modelo cuando se enfrentaban con tareas

de dificultad media que cuando las tareas eran muy fáciles o muy difíciles. Este

comportamiento puede ser adaptativo, ya que cuando la tarea es muy fácil no

hay que aprender nada por imitación y, por otra parte, cuando la tarea es muy

difícil ni siquiera la observación del modelo puede ayudar.

Contra lo que podría pensarse, el modo de presentar al modelo no es una va-

riable que afecte al aprendizaje por observación. Bandura (1962) comparó mo-

delos vivos, registrados en vídeo o en dibujos animados, todos ellos mostran-

do los mismos comportamientos agresivos, pero no observó diferencias signi-

ficativas en cuanto a la imitación de estas conductas por parte de los niños.

¿Qué podemos aprender mediante la observación?

Bandura y Walters defienden que las formas características de respon-

der a las diferentes situaciones que tienen los individuos, lo que se pue-

de entender como personalidad, se desarrolla principalmente a lo largo

de la infancia por medio de las influencias tanto del condicionamiento

instrumental como del aprendizaje por observación. Esta idea ha pro-

movido abundante investigación y es destacable en el campo de las fo-

bias, las adicciones y el desarrollo cognitivo.


En el caso de las fobias, la investigación se basa principalmente en estudios

correlacionales, estudios de casos e informes retrospectivos, lo que no repre-

senta un respaldo demasiado fuerte a la idea de que el aprendizaje por obser-

vación esté en la base del desarrollo de las fobias.

Se ha encontrado que miembros de la misma familia muestran las mismas fobias, o quealgunos aviadores de la Segunda Guerra Mundial desarrollaban fobias después de ver elmiedo de algunos de sus compañeros durante o después de las misiones.

Por otra parte, se dispone de datos que sugieren que la teoría del aprendizaje

social o por observación puede explicar la adquisición de conductas�de�adic-

ción al tabaco, al alcohol y a las drogas. Ya hemos visto cómo los principios de

reforzamiento y castigo pueden explicar el mantenimiento de la conducta de

adicción (podéis ver la teoría de Solomon y Corbit) una vez ya se ha desarro-

llado. Sin embargo, la adquisición de estos comportamientos se puede explicar

mediante el aprendizaje por observación.

El primer cigarrillo que fuma una persona es una experiencia aversiva, entonces, ¿cómoes posible que la persona vuelva a fumar? De muy pequeños muchos niños han sido ex-puestos a personas que fumaban: los propios padres, hermanos mayores, personalidadesde la televisión y cine, etc. La consecuencia de fumar parece tener algún aspecto posi-tivo. Algunas personas han manifestado que empezaron a fumar porque los hacía másmaduros, sofisticados o atractivos. Podría ser que estas "ventajas" tuvieran más fuerza quela experiencia aversiva de fumar. De esta manera, las personas imitarían la conducta defumar, ya que los modelos son bien percibidos.

Estas ideas fueron expuestas por Kozlowski (1979). Actualmente, sin embar-

go, la conducta de fumar empieza a ser mal valorada por una gran parte de

la sociedad y los gobiernos de muchos países han empezado a restringir seve-

ramente la conducta de fumar. Si el fumador se muestra como una persona

que recibe más castigos que refuerzos, se espera –de acuerdo con la teoría del

aprendizaje por observación– que el número de jóvenes que inician el hábito

se vea significativamente reducido.

También parece que la teoría del aprendizaje por observación puede explicar

el desarrollo del alcoholismo. O'Leary, O'Leary y Donovan (1976) observaron

que había una tendencia a que los padres de las personas alcohólicas se ubica-

ran en una de dos categorías: o bien eran mayores consumidores o bien todo

lo contrario, abstemios muy rígidos. La idea de O'Leary y colaboradores era

que en ambos casos los padres eran malos modelos para un consumo mode-

rado de alcohol. Si los padres son grandes bebedores, los hijos pueden imitar

este comportamiento. Si los padres son abstemios, entonces los hijos también

pueden imitar este comportamiento. Pero imaginemos que el hijo de unos

padres totalmente abstemios decide empezar a beber. Los padres no habrán

mostrado nunca al hijo los hábitos que previenen de caer en el alcoholismo

(tal como beber sólo en ocasiones especiales, no beber nunca antes del traba-

jo, o dejar de consumir alcohol después de una o dos bebidas). A no ser que

los hijos hayan aprendido estas guías en otro entorno, pueden progresar de

manera inadvertida hacia el consumo patológico de alcohol.


10.3. Influencia del aprendizaje por observación en el desarrollo

cognitivo

A continuación analizaremos cómo el aprendizaje social puede influir en el

desarrollo cognitivo.

Piaget (1926, 1929) sugirió que a medida que los niños crecen van pasando por

diferentes etapas de desarrollo cognitivo, y que pasar de una etapa a otra de-

pende del crecimiento, de la madurez y de la experiencia personal. Los teóri-

cos del aprendizaje social (por ejemplo, Rosenthal y Zimmerman, 1972, 1978)

defienden que el aprendizaje por observación es el principal mecanismo para

el desarrollo de las habilidades cognitivas.

Como ejemplo, analizaremos la tarea de conservación. En una de sus versio-

nes, se muestra a los niños tres recipientes cilíndricos transparentes. Dos de

ellos son idénticos y contienen la misma cantidad de agua. La prueba se inicia

preguntando cuál de los dos recipientes contiene más cantidad de agua y la

respuesta habitual es que contienen la misma cantidad. A continuación y de-

lante del niño, se traspasa el agua de uno de los recipientes al tercero, que es

más delgado y alto. Se vuelve a preguntar al niño cuál de los dos recipientes

contiene más agua. Si el niño responde que contienen la misma cantidad, en-

tonces el niño ya ha alcanzado el concepto de conservación de los volúmenes.

Sin embargo, la mayoría de los niños menores de 7 años de edad responden

que hay más agua en el recipiente estrecho y alto. Parece ser que estos niños

se dejan llevar por la altura del nivel del agua en cada recipiente e ignoran

otras características, como por ejemplo el diámetro de la base del recipiente.

Estos niños todavía no han aprendido que los líquidos mantienen su volumen

constante con independencia de la forma del recipiente que los contenga.

Rosenthal y Zimmerman intentaron demostrar que la adquisición del concep-

to de la conservación de los volúmenes no dependía de la simple madurez y

de la experiencia personal, sino del aprendizaje por observación. En uno de

sus experimentos, unos niños que todavía no habían adquirido el concepto de

conservación de los volúmenes observaron cómo un modelo adulto ejecutaba

correctamente la tarea. El experimento constaba de dos grupos que diferían

sólo en el hecho de que, en uno de ellos, el modelo explicaba por qué los dos

recipientes contenían la misma cantidad de agua.

Posteriormente a la observación del modelo, los dos grupos tuvieron que re-

solver varios problemas relacionados con la conservación de los volúmenes.

Los resultados mostraron que los niños de los dos grupos mejoraron en la rea-

lización de la tarea, y los que recibían una explicación mostraron una mejora

mayor.


Una crítica a estos resultados es que los niños podían aprender a cambiar su

respuesta, pero sin entender el porqué (Kuhn, 1974). No obstante, existe evi-

dencia de que los niños pueden resolver problemas diferentes a los que han

visto resolver en los modelos. Por ejemplo, Rosenthal y Zimmerman observa-

ron que los niños eran capaces de resolver un problema de conservación del

número que implica la comprensión de que el número de objetos en una línea

no varía si la línea se hace más larga espaciando más los objetos. Los niños

eran capaces de resolver correctamente esta nueva tarea después de haber visto

actuar al modelo en la tarea de conservación de volúmenes, pero nunca en la

de conservación del número.

Bandura también ha propuesto que el aprendizaje por observación puede in-

fluir en el juicio de los niños con respecto a qué conductas son buenas y cuáles

son malas.

Un niño que observa un comportamiento honesto en sus padres en cuanto a cuestionesfinancieras, puede aprender a comportarse de la misma manera. En cambio, un niñoque observa cómo sus padres estafan, hacen trampas en la declaración de la renta, dejande pagar facturas, pueden aprender que estos comportamientos son aceptados o inclusodeseables.

Experimento de Bandura y McDonald (1963)

En un experimento, Bandura y McDonald (1963) presentaron problemas sobre jui-cios morales desarrollados inicialmente por Piaget (1932). Se preguntaba a unos niñosun juicio sobre cuál de dos situaciones hipotéticas era una travesura antes y despuésde ver a un modelo haciendo juicios similares. En cada pareja de historias, un prota-gonista provocaba un daño mayor que otro, pero sus intenciones eran mejores. Porejemplo, en una situación un niño obedecía a su madre que lo había llamado a cenary al abrir una puerta golpeaba una silla tirando por el suelo y rompiendo un montónde tazas de café que estaban sobre la silla. Este niño provocaba un gran daño mientrasobedecía a la madre. La segunda historia mostraba a un niño que rompía una taza decafé mientras intentaba agarrar un bote de galletas cuando su madre no lo veía. Esteniño provocaba un daño menor mientras realizaba una travesura. Los niños peque-ños juzgan la travesura en relación con el tamaño del daño causado, mientras que losniños más mayores tienen en cuenta las intenciones de las personas cuando hacensus juicios. Después de que los niños del experimento de Bandura y McDonald hu-bieran dado su juicio, cada uno de ellos observó a un modelo adulto dando el juiciocontrario (independientemente del tipo de decisión que había tomado cada niño).Los resultados mostraron cómo los participantes en el experimento podían cambiarsus juicios en cualquier dirección después de haber visto al modelo. El hecho de quelos juicios durante la prueba eran sobre historias completamente nuevas muestra quelos niños habían aprendido una regla general sobre los juicios morales.

Aunque no entraremos en detalles, el aprendizaje por observación se ha uti-

lizado como una herramienta en las terapias de conducta. Se ha observado

su eficacia para facilitar conductas con baja probabilidad de aparición, la ad-

quisición de nuevas conductas, la eliminación de miedos y de conductas no

deseadas.

Aprendizaje porobservación

También se ha visto que elaprendizaje por observaciónmejora la ejecución en otros ti-pos de tareas cognitivas comola adquisición de reglas grama-ticales, conceptos abstractos ysolución de problemas (Riveray Smith, 1987; Zimmerman yBlom, 1983).


Ejercicios de autoevaluación

Preguntas�de�alternativas�múltiples

1. Según Skinner (1938), un reforzador es un acontecimiento que...

a) reduce el impulso.b) produce miedo.c) reduce el nivel de dolor.d) aumenta la probabilidad de ejecución de una respuesta.

2. La ley del efecto de Thorndike propone que...

a) la fuerza de la conexión estímulo-estímulo puede aumentar con la experiencia.b) el sujeto en un experimento de aprendizaje puede ser motivado para formar una asocia-ción.c) el refuerzo fortalece la asociación entre un estímulo y una respuesta.d) el aprendizaje ocurre sólo cuando un estímulo es seguido por una respuesta.

3. ¿Qué es un estímulo discriminativo?

a) Es un estímulo que señala la disponibilidad del reforzador.b) Es un estímulo biológicamente potente y que suele denominarse reforzador.c) Es un estímulo que provoca una respuesta refleja que en el condicionamiento instrumentalse da por supuesta.d) Es un estímulo intenso indispensable para el condicionamiento instrumental.

4. En el procedimiento de REC, necesitamos que los animales muestren una tasa de respuestaen la tarea instrumental alta y estable. ¿Cuál de los siguientes programas básicos de refuerzogarantiza una tasa de respuesta alta y estable?

a) Intervalo fijo.b) Razón variable.c) Razón fija.d) Intervalo variable.

5. Retirar el permiso de conducir a alguien por conducir bajo los efectos del alcohol es unejemplo de...

a) castigo.b) entrenamiento de recompensa.c) entrenamiento de evitación.d) entrenamiento de omisión.

6. En el procedimiento de omisión, la ejecución de la respuesta instrumental da lugar...

a) a la aparición de un estímulo aversivo.b) a la retirada de un estímulo aversivo.c) a la aparición de un estímulo apetitivo.d) a la retirada de un estímulo apetitivo.

7. La respuesta de escape consiste en una respuesta que se da para...

a) impedir la aparición de un EI apetitivo.b) hacer desaparecer un EI apetitivo.c) hacer desaparecer un EI aversivo.d) impedir la aparición de un EI aversivo.

8. ¿En qué se parece el entrenamiento de castigo positivo al de reforzamiento negativo (es-cape-evitación)?

a) En los dos entrenamientos se pretende instaurar una nueva conducta.


b) En los dos entrenamientos se utilizan EI aversivos.c) En los dos entrenamientos se pretende suprimir una conducta en curso.d) Los dos entrenamientos se enmarcan en el condicionamiento clásico.

9. ¿En qué consiste un programa de intervalo variable (IV)? En que...

a) el reforzamiento se le presenta al sujeto por la primera respuesta que realiza después detranscurrida una cantidad fija de tiempo desde el último reforzamiento.b) el sujeto es recompensado por cada ''n'' respuestas (previamente fijadas).c) el sujeto es recompensado por cada ''n'' respuestas, pero el número de respuestas requeridopara la presentación del refuerzo varía aleatoriamente.d) la recompensa está disponible después de transcurrido un tiempo determinado, cuya du-ración varía aleatoriamente.

10. ¿Qué representa la pendiente de la línea que se dibuja en un registro acumulativo?

a) La intensidad de las respuestas.b) La tasa de respuestas.c) Las aproximaciones sucesivas de las respuestas.d) El número de errores de las respuestas que medimos.

11. Según se puede observar en el gráfico, ¿qué programa de reforzamiento puede estar re-flejando?

a) RF10.b) IF2''.c) RV10.d) Ninguno de los tres.

12. ¿En qué consiste la técnica del modelado?

a) En el establecimiento de una nueva conducta emparejándola a un refuerzo positivo.b) En la imitación de la conducta de un modelo que ejecuta una respuesta nueva.c) En el establecimiento de una nueva pauta de conducta mediante el reforzamiento diferen-cial de conductas que se aproximan sucesivamente a la conducta deseada.d) Es una técnica muy empleada en las peluquerías, pero de escaso interés para la psicología.

13. La ley de la igualación refleja un hecho fundamental de la conducta de elección entredos alternativas A y B, e indica que...

a) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de respuestas enla alternativa B.b) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de reforzamientosen la alternativa B.c) la tasa relativa de respuestas en la alternativa A es igual a la tasa relativa de reforzamientospara esta alternativa.d) la tasa relativa de reforzamientos en la alternativa A es igual a la tasa relativa de reforza-mientos en la alternativa B.


14. Como podemos observar en la figura, tenemos una gallina sometida a dos programasconcurrentes de refuerzo. Según la ley de la igualación, ¿cuál sería la distribución de respues-tas esperada en las dos teclas?

a) En la tecla VI 30 sec. el doble de respuestas que en la tecla VI 60 sec.b) En la tecla VI 60 sec. el doble de respuestas que en la tecla VI 30 sec.c) En las dos teclas igual.d) No lo podemos saber.

15. ¿Qué supone para la teoría de Spence del aprendizaje discriminativo el hecho de quepuedan presentarse gradientes de excitación y de inhibición en torno al E+ y en torno al E–?

a) Un problema para la teoría.b) Un gran respaldo a la teoría.c) No supone nada.d) Nunca se ha podido demostrar la existencia de gradientes de generalización inhibidores.

16. Imaginemos que adiestramos a un grupo de palomas a picotear en presencia de unaluz de 580 nm de longitud de onda, y posteriormente las ponemos a prueba en presenciade luces de otros colores. Los resultados que observamos en la gráfica muestran cómo susrespuestas están en función del grado de semejanza de los estímulos de prueba con el estímulode entrenamiento original. Este tipo de resultados constituye...

a) un contraste de conducta.b) un desplazamiento del máximo.c) un gradiente de generalización.d) un gradiente plano de generalización.


17. En la gráfica se muestran dos gradientes de generalización. ¿Qué fenómeno se puedeobservar?

a) Una discriminación extradimensional.b) El efecto de transposición en el grupo G1.c) Un gradiente de generalización excitador en el grupo G1 y un gradiente de generalizacióninhibidor en el grupo G2.d) El desplazamiento del máximo en el grupo G2.


Solucionario

Ejercicios de autoevaluación

1.�d

2.�c

3.�a

4.�b

5.�d

6.�d

7.�c

8.�b

9.�d

10.�b

11.�a

12.�c

13.�c

14.�a

15.�b

16.�c

17.�d


Glosario

aprendizaje relacional m Concepción según la cual la discriminación entre dos estímu-los se basa en una relación entre ellos.

asociación jerárquica f Asociación entre un estímulo y una relación respuesta-conse-cuencia particular.

asociación R-C (respuesta-consecuencia) f Asociación entre la conducta de un indivi-duo y una consecuencia, por ejemplo, comer.

autocontrol m Una condición que describe la situación en la que un individuo elige laopción de una recompensa grande, pero demorada en lugar de una recompensa pequeña einmediata.

cambio extradimensional m Procedimiento en el que varía la respuesta de eleccióncorrecta y la dimensión del estímulo en el que difieren las posibles elecciones.

cambio intradimensional m Procedimiento en el que varía la respuesta de elección co-rrecto, pero se mantiene la dimensión del estímulo en el que difieren las posibles elecciones.

castigo m Procedimiento de condicionamiento instrumental en el que una conducta vaseguida de un estímulo aversivo.

condicionamiento instrumental m Forma de aprendizaje en la que un estímulo escontingente a una respuesta.

conducta maladaptada (misbehaviour) f Conductas innatas evocadas por el reforza-dor y que interfieren con la conducta instrumental.

contigüidad temporal f Inmediatez de la presentación del reforzador.

contingencia f Dependencia de la presentación del reforzador de la ejecución de la res-puesta instrumental.

contraste negativo m Reducción de la respuesta como consecuencia de una reducciónen el valor del reforzador.

contraste positivo m Incremento de la respuesta como consecuencia de un aumento enel valor del reforzador.

control por el estímulo m Grado en el que un estímulo provoca la respuesta.

desplazamiento del máximo (o del vértice) m Desplazamiento del máximo del gra-diente de generalización respecto al E+ y en dirección opuesta al E–.

discriminación f Consiste en responder de manera diferente a dos estímulos en funciónde sus diferencias.

efecto del reforzamiento parcial m Dificultad de extinguir una respuesta que ha sidoreforzada parcialmente.

entrenamiento de omisión m Procedimiento de condicionamiento instrumental en elque la respuesta va seguida de la retirada de un estímulo apetitivo.

escape m Procedimiento de condicionamiento instrumental en el que la respuesta va se-guida de la retirada de un estímulo aversivo.

estímulo discriminativo m Estímulo que informa de la disponibilidad del reforzador.

evitación f Procedimiento de condicionamiento instrumental en el que la respuesta im-pide la presentación de un estímulo aversivo.

fuerza del hábito f Tendencia a ejecutar una respuesta en presencia de un determinadoestímulo.

generalización f Tendencia a responder a un estímulo nuevo similar al EC o a los estímu-los discriminativos.

gradiente de generalización m Relación entre la fuerza de la respuesta a los estímulosde prueba en función de la similitud de éstos con el EC o a los estímulos discriminativos.


hipótesis del marcado f Teoría de la facilitación del aprendizaje según la cual la presen-tación de una clave después de una respuesta de elección marca esta respuesta en la memoriadel animal.

imitación f Reproducción de una conducta observada en otro individuo.

impulso m Estado del organismo que corresponde a un desequilibrio biológico.

infraigualación f Tasa de respuesta para el mejor de dos programas de reforzamientoinferior a la que predice la ley de la igualación.

ley de la igualación f Enunciado matemático que describe la relación entre la tasa derespuesta y la tasa de reforzamiento.

maximización f Teoría de la igualación que afirma que la conducta de la igualación seproduce porque el animal pretende obtener el máximo de reforzadores.

mejoramiento m Teoría de la igualación que afirma que la conducta de la igualación seproduce porque el animal elige continuamente la opción con la tasa de reforzamiento másgrande en un momento dado.

moldeamiento m Procedimiento para fortalecer una respuesta instrumental por mediode reforzar aproximaciones sucesivas a la respuesta criterio final.

pausa postreforzamiento f Período posterior al reforzamiento en el que el individuodeja de responder. Se observa en los programas de reforzamiento de razón y de intervalo fijos.

programa de reforzamiento de intervalo fijo (IF) m Programa de reforzamientointermitente en el que el sujeto recibe la recompensa por responder después de un períododeterminado de tiempo.

programa de reforzamiento de intervalo variable (IV) m Programa de reforzamien-to intermitente en el que el sujeto recibe la recompensa por responder después de un períodode tiempo que varía de un reforzador a otro.

programa de reforzamiento de razón fija (RF) m Programa de reforzamiento inter-mitente en el que el sujeto recibe la recompensa por responder un determinado número deveces.

programa de reforzamiento de razón variable (RV) m Programa de reforzamientointermitente en el que el sujeto recibe la recompensa por responder un determinado númerode veces, que varía entre un reforzador y el siguiente.

programa de reforzamiento continuo m Programa de reforzamiento en el que la con-secuencia se presenta cada vez que se ejecuta la respuesta.

programa de reforzamiento parcial o intermitente m Programa de reforzamientoen el que la consecuencia no se presenta cada vez que se ejecuta la respuesta.

punto de deleite m Combinación preferida de dos actividades.

reforzador m Estímulo que, contingente a la respuesta, hace que incremente la tasa dela respuesta.

reforzador condicionado (secundario) m Estímulo inicialmente neutro que por suemparejamiento con un reforzador primario adquiere la propiedad de reforzar una conducta.

reforzamiento negativo m Procedimiento del condicionamiento instrumental en el queuna respuesta elimina o impide la presentación de un estímulo aversivo.

reforzamiento positivo m Procedimiento de condicionamiento instrumental en el quela respuesta va seguida por la presentación de un estímulo apetitivo.

sobreigualación f Tasa de respuesta para el mejor de dos programas de reforzamientosuperior a la que predice la ley de la igualación.


Qué deberíais saber

Después de estudiar el módulo de condicionamiento instrumental, deberíais

conocer los métodos de operante libre y de ensayos discretos utilizados en la

investigación sobre condicionamiento instrumental. También es importante

que se recuerde todo lo relacionado con reforzamiento positivo y el reforza-

miento negativo, así como el castigo y el entrenamiento por omisión. Hay que

conocer también los efectos que tiene la demora en el reforzamiento sobre el

aprendizaje instrumental. Relacionado con este último punto, es conveniente

conocer la importancia de la contingencia entre respuesta y reforzador.

Con respecto a los programas de reforzamiento, es necesario saber los efectos

que tienen sobre la conducta en lo referente a la tasa y la estabilidad de la

misma. En cuanto a la ley de la igualación, se debe conocer su formulación y

las teorías que lo explican. También es interesante poder distinguir entre los

programas concurrentes y los programas concurrentes encadenados.

En relación con las teorías sobre el condicionamiento hay que tener conoci-

miento de las diferentes asociaciones que se producen entre los estímulos dis-

criminativos, las respuestas y las consecuencias. También es útil saber las teo-

rías sobre la regulación de la conducta.

En cuanto al control por el estímulo, hay que saber qué es la discriminación y

la generalización, saber interpretar un gradiente de generalización y qué fac-

tores pueden determinar su forma. Hay que tener conocimientos sobre el des-

plazamiento del máximo y cómo se interpreta desde las perspectivas absolutas

y relacionales.

En lo referente al aprendizaje observacional, es necesario conocer las bases de

la conducta imitativa y las teorías propuestas para explicarla. Es importante

saber diferenciar entre la conducta imitativa como respuesta instrumental y el

punto de vista de Bandura. A partir de esta última teoría hay que conocer los

diferentes procesos implicados en el aprendizaje por observación y los factores

relacionados con el modelo y el aprendiz que influyen en el aprendizaje por

observación.


Bibliografía

Bibliografía recomendada

Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.

Dickinson, A. (1984). Teorías actuales del aprendizaje animal. (Original inglés de 1980). Madrid:Editorial Debate.

Domjan, M. (2003). Principios de aprendizaje y conducta. (Original inglés de 2003) Madrid:Thomson.

Froufe, M. (2004). Aprendizaje asociativo. Madrid: Thompson.

Mackintosh, N. J. (1988). Condicionamiento y aprendizaje asociativo. (Original inglés de 1983).Madrid: Alhambra Universidad.

Maldonado, A. (1998). Aprendizaje, cognición y comportamiento humano. Madrid: BibliotecaNueva.

Pearce, J. M. (1998). Aprendizaje y cognición. (Original inglés de 1997). Barcelona: Ariel.

Pellón, R. y Huidobro, A. (Ed.). (2004). Inteligencia y aprendizaje. Barcelona: Ariel.

Tarpy, R. M. (2000). Aprendizaje: Teoría e investigación contemporáneas. (Original inglés de1997). Madrid: McGraw-Hill.

Referencias bibliográficas

Abramovitch, R. y Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03;49 (1), 60-65.

Alberts, E. y Ehrenfreund, D. (1951). Transposition in children as a function of age. J. Exp.Psychol., 01; 41 (1), 30-38.

Allison, J. (1989). The nature of reinforcement. En S. B. Klein y R. R. Mowrer (Ed.), Contem-porary learning theories: Instrumental conditioning theory and the impact of biological constraintson learning. Hillsdale, NJ, England: Lawrence Erlbaum Associates, Inc., 13-39.

Alloway, T., Wilson, G., y Graham, J. Sniffy (2006). La rata virtual. Madrid: Thompson.

Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. NuevaYork, NY, US: Cambridge University Press.

Anisfeld, M. (1991). Neonatal imitation. Developmental Review, 03; 11 (1), 60-97.

Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., y Prados, J. (2006). Enhanced discriminationbetween flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim.Behav. Processes, 04; 32 (2), 173-177.

Artigas, A. A., Sansa, J., y Prados, J. (2006). The espinet and the perceptual learning effectsin flavour aversion conditioning: do they depend on a common inhibitory mechanism? TheQuarterly Journal of Experimental Psychology, 59: 471-481.

Azrin, N. H. y Holz, W. C. (1966). Punishment. En W. K. Honig (Ed.), Operant behavior: Areasof research and application. Englewood Cliffs, NJ: Prentice-Hall.

Azrin, N. H., Holz, W. C., y Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav.,6 (2), 141-148.

Azrin, N. H., Hutchinson, R. R., y Hake, D. F. (1966). Extinction-induced aggression. J. Exp.Anal. Behav., 9 (3), 191-204.

Azrin, N. H. (1969). Effects of punishment intensity during variable-interval reinforcement.J. Exp. Anal. Behav., 3: 123-142.

Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42: 3-21.

Baer, D. M., Peterson, R. F., y Sherman, J. A. (1967). The Development of Imitation by Rein-forcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10 (5), 405-416.


Balaban, M. T., Rhodes, D. L., y Neuringer, A. (1990). Orienting and defense responses topunishment: Effects on learning. Biol.Psychol., 06; 30 (3), 203-217.

Baldwin, J. M. (1906). Mental development, methods, and processes. Nueva York: Macmillian.

Bandura, A. y Huston, A. C. (1961). Identification as a process of incidental learning. TheJournal of Abnormal and Social Psychology, 09; 63 (2), 311-318.

Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. EnglewoodCliffs, NJ, US: Prentice-Hall, Inc.

Bandura, A. (1969). Principles of behavior modification. Oxford, England: Holt, Rinehart, &Winston.

Bandura, A. (1965). Influence of models' reinforcement contingencies on the acquisition ofimitative responses. J. Pers. Soc. Psychol., 06; 1 (6), 589-595.

Bandura, A. (1962). Social learning through imitation. En M. R. Jones (Ed.), Nebraska Sym-posium on Motivation. Oxford, England: Univer. Nebraska Press, 211-274.

Bandura, A. y McDonald, F. J. (1963). Influence of social reinforcement and the behavior ofmodels in shaping children's moral judgment. The Journal of Abnormal and Social Psychology,09; 67 (3), 274-281.

Bandura, A. y Walters, R. H. (1963). Social learning and personality development. Holt Rinehartand Winston: Nueva York.

Baron, A. y Herpolsheimer, L. R. (1999). Averaging effects in the study of fixed-ratio responsepatterns. J. Exp. Anal. Behav., 03; 71 (2), 145-153.

Baum, W. M. (1974). On two types of deviation from the matching law: Bias and undermat-ching. J. Exp. Anal. Behav., 07; 22 (1), 231-242.

Breland, K. y Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16 (11),681-684.

Bullock, D. y Neuringer, A. (1977). Social learning by following: An analysis. J. Exp. Anal.Behav., 01; 27 (1), 127-135.

Burnstein, E., Stotland, E., y Zander, A. (1961). Similarity to a model and self-evaluation.The Journal of Abnormal and Social Psychology, 03; 62 (2), 257-264.

Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. En K. W. Spence y J.T. Spence (Ed.), The psychology of learning and motivation: I. Oxford, England: Academic Press.

Capaldi, E. J. (1966). Partial reinforcement: A hypothesis of sequential effects. Psychol. Rev.,09; 73 (5), 459-477.

Chatlosh, D. L., Neunaber, D. J., y Wasserman, E. A. (1985). Response-outcome contingency:Behavioral and judgmental effects of appetitive and aversive outcomes with college students.Learn. Motiv., 02; 16 (1), 1-34.

Colwill, R. M. y Rescorla, R. A. (1988). Associations between the discriminative stimulusand the reinforcer in instrumental learning. J. Exp. Psychol.: Anim. Behav. Processes, 04; 14(2), 155-164.

Colwill, R. M. y Rescorla, R. A. (1985). Postconditioning devaluation of a reinforcer affectsinstrumental responding. J. Exp. Psychol.: Anim. Behav. Processes, 01; 11 (1), 120-132.

Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat.Am. J. Psychol., 55: 467-517.

Davidson, E. S. y Smith, W. P. (1982). Imitation, social comparison, and self-reward. ChildDev., 08; 53 (4), 928-932.

Dickinson, A., Watt, A., Griffiths, W. J. (1992). Free-operant acquisition with delayed rein-forcement. The Quarterly Journal of Experimental Psychology B: Comparative and PhysiologicalPsychology, 10; 45 (3), 241-258.

Dinsmoor, J. A. (1977). Escape, avoidance, punishment: Where do we stand? J. Exp. Anal.Behav., 07; 28 (1), 83-95.


Dinsmoor, J. A. (1955). Punishment: Ii. an Interpretation of Empirical Findings. Psychol. Rev.,03; 62 (2), 96-105.

Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61 (1),34-46.

Espinet, A., Iraola, J. A., Bennett, C. H., y Mackintosh, N. J. (1995). Inhibitory associationbetween neutral stimuli in flavor- aversion conditioning. Anim. Learn. Behav., 11; 23 (4),361-368.

Fisher, J. y Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.

Flaherty, C. F. (1996). Incentive relativity. Nueva York, NY, US: Cambridge University Press.

Flora, S. R. y Pavlik, W. B. (1990). Conventional and reversed partial reinforcement effectsin human operant responding. Bulletin of the Psychonomic Society, 09; 28 (5), 429-432.

Gibbon, J. y Church, R. M. (1992). Comparison of variance and covariance patterns in pa-rallel and serial theories of timing. J. Exp. Anal. Behav., 05; 57 (3), 393-406.

Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, US:Appleton-Century-Crofts.

Gibson, E. J. y Walk, R. D. (1956). The effect of prolonged exposure to visually presentedpatterns on learning to discriminate them. J. Comp. Physiol. Psychol., 06; 49 (3), 239-242.

Gonzalez, R. C. y Gentry, G. V. (1954). Bitterman ME. Relational discrimination of interme-diate size in the chimpanzee. J. Comp. Physiol. Psychol., 1954 10; 47 (5), 385-388.

Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in thediscrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.

Guttman, N. y Kalish, H. I. (1956). Discriminability and stimulus generalization. J. Exp.Psychol., 01; 51 (1), 79-88.

Hall, G. (2003). Learned changes in the sensitivity of stimulus representations: Associativeand nonassociative mechanisms. The Quarterly Journal of Experimental Psychology B: Compa-rative and Physiological Psychology, 56B (1), 43-55.

Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-operant behavior. J. Exp. Anal. Behav., 11; 34 (3), 297-304.

Hanson, H. M. (1959). Effects of discrimination training on stimulus generalization. J. Exp.Psychol., 11; 58 (5), 321-334.

Harnick, F. S. (1978). The relationship between ability level and task difficulty in producingimitation in infants. Child Dev., 03; 49 (1), 209-212.

Hendry, D. P. y Van-Toller, C. (1964). Fixed-ratio punishment with continuous reinforce-ment. J. Exp. Anal. Behav., 7 (4), 293-300.

Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01; 76(1), 49-69.

Herrnstein, R. J. (1961). Relative and absolute strength of response as a function of frequencyof reinforcement. J. Exp. Anal. Behav., 4: 267-272.

Herrnstein, R. J. y Hineline, P. N. (1966). Negative reinforcement as shock-frequency reduc-tion. J. Exp. Anal. Behav., 9 (4), 421-430.

Hogan, D. E. (1986). Observational learning of a conditional hue discrimination in pigeons.Learn. Motiv., 02; 17 (1), 40-58.

Holz, W. C. y Azrin, N. H. (1961). Discriminative properties of punishment. J. Exp. Anal.Behav., 4: 225-232.

Honig, W. K., Boneau, C. A., Burstein, K. R. y Pennypacker, H. S. (1963). Positive and nega-tive generalization gradients obtained after equivalent training conditions. J. Comp. Physiol.Psychol., 02; 56 (1), 111-116.


Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individualorganism. New Haven, CT, US: Yale University Press.

Hull, C. L. (1943). Principles of behavior: an introduction to behavior theory. Oxford, England:Appleton-Century.

Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Expe-rimental Psychology. Worcester, MA, US: Clark University Press, 382-455.

Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward.J. Comp. Physiol. Psychol., 06; 47 (3), 235-239.

Jakubczak, L. F. y Walters, R. H. (1959). Suggestibility as dependency behavior. The Journalof Abnormal and Social Psychology, 07; 59 (1), 102-107.

James, W. (1890). Association. En W. James (Ed.), The principles of psychology, Vol I. NuevaYork, NY, US: Henry Holt and Co., 550-604.

Jenkins, H. M. (1977). Sensitivity of different response systems to stimulus-reinforcer andresponse-reinforcer relations. En H. Davis y H. M. B. Hurwitz (Ed.), Operant-Pavlovian inter-actions. Hillsdale, NJ: Erlbaum.

Jenkins, H. M. y Harrison, R. H. (1962). Generalization gradients of inhibition followingauditory discrimination learning. J. Exp. Anal. Behav., 5 (4), 435-441.

Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanesemonkeys on Koshima islet. Primates, 6: 1-30.

Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J.Exp. Child Psychol., 02; 27 (1), 48-59.

Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. En W. D.Ellis (Ed.), A source book of gestalt psychology. Nueva York: Harcourt Brace.

Kozlowski, L. T. (1979). Psychosocial influences on cigarette smoking. En N. A. Krasnegor(Ed.), The behavioral influences on cigarette smoking. NIDA Research Monograph 26. DHEW Pu-blication No. (ADM) 79-882.

Kuhn, D. (1974). Inducing development experimentally: Comments on a research paradigm.Developmental Psychology,10: 590-600.

Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motorhabits after destruction of so-called motor areas in primates. Archives of Neurology and Psy-chiatry, 12: 249-276.

Lashley, K. S. y Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev., 03;53 (2), 72-87.

Lawrence, D. H. (1949). Acquired distinctiveness of cues: I. Transfer between discriminationson the basis of familiarity with the stimulus. J. Exp. Psychol., 12; 39 (6), 770-784.

Lawrence, D. H. y Derivera, J. (1954). Evidence for Relational Transposition. J. Comp. Physiol.Psychol., 12; 47 (6), 465-471.

Lieberman, D. A., McIntosh, D. C., y Thomas, G. V. (1979). Learning when reward is delayed:A marking hypothesis. J. Exp. Psychol.: Anim. Behav. Processes, 07; 5 (3), 224-242.

Logue, A. W. (1998). Laboratory research on self-control: Applications to administration.Review of General Psychology, 06; 2 (2), 221-238.

Mackintosh, N. J. (1983). Conditioning and associative learning. Oxford: Oxford UniversityPress.

Mackintosh, N. J. y Little, L. (1969). Intradimensional and extradimensional shift learningby pigeons. Psychonomic Science, 14 (1), 5-6.

Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. En M. L.Commons, J. E. Mazur, J. A. Nevin y H. Rachlin (Ed.), The effect of delay and of interveningevents on reinforcement value. Hillsdale, NJ, England: Lawrence Erlbaum Associates, Inc, 55-73.


McAllister, W. R. y McAllister, D. E. (1992). Fear determines the effectiveness of a feedbackstimulus in aversively motivated instrumental learning. Learn. Motiv., 02; 23 (1), 99-115.

McCullagh, P. (1986). Model status as a determinant of observational learning and perfor-mance. Journal of Sport Psychology, 12; 8 (4), 319-331.

McDougall, W. (1908). An Introduction to Social Psychology. Nueva York, NY, US: Methuen.

McLaren, I. P. L. y Mackintosh, N. J. (2000). An elemental model of associative learning: I.Latent inhibition and perceptual learning. Anim. Learn. Behav., 08; 28 (3), 211-246.

McLaren, I. P. L., Kaye, H., y Mackintosh, N. J. (1989). An associative theory of the repre-sentation of stimuli: Applications to perceptual learning and latent inhibition. En R. G. M.Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology. NuevaYork, NY, US: Clarendon Press/Oxford University Press, 102-130.

Meltzoff, A. N. y Moore, M. K. (1989). Imitation in newborn infants: Exploring the range ofgestures imitated and the underlying mechanisms. Dev. Psychol., 11; 25 (6), 954-962.

Meltzoff, A. N. y Moore, M. K. (1983). Newborn infants imitate adult facial gestures. ChildDev., 06; 54 (3), 702-709.

Meltzoff, A. N. y Moore, M. K. Imitation of facial and manual gestures by humanneonates. Science, 10; 198

Miller, N. E. y Dollard, J. (1941). Social learning and imitation. New Haven, CT, US: Yale Uni-versity Press.

Mineka, S., Cook, M., y Miller, S. (1984). Fear conditioned with escapable and inescapa-ble shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10 (3),307-323.

Mischel, W. y Grusec, J. (1966). Determinants of the rehearsal and transmission of neutraland aversive behaviors. J. Pers. Soc. Psychol., 02; 3 (2), 197-205.

Morgan, C. L. (1896). Habit and Instinct. E. Arnold: Nueva York.

Morgan, C. L. (1894). An introduction to comparative psychology. Londres, England: WalterScott.

Mowrer, O. H. y Jones, H. (1945). Habit strength as a function of the pattern of reinforce-ment. J. Exp. Psychol., 08; 35 (4), 293-311.

Mowrer, O. H. (1947). On the dual nature of learning--a re-interpretation of 'conditioning'and 'problem-solving.'. Harvard Educational Review, 17, 102-148.

Nation, J. R. y Cooney, J. B. (1982). The time course of extinction-induced aggressive beha-vior in humans: Evidence for a stage model of extinction. Learn. Motiv., 02; 13 (1), 95-112.

Neuringer, A., Kornell, N., y Olufs, M. (2001). Stability and variability in extinction. J. Exp.Psychol.: Anim. Behav. Processes, 01; 27 (1), 79-94.

Nevin, J. A. (1999). Analyzing Thorndike's Law of Effect: The question of stimulus-responsebonds. J. Exp. Anal. Behav., 11; 72 (3), 447-450.

Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.Bull., 01; 103 (1), 44-56.

O'Leary, D. E., O'Leary, M. R., y Donovan, D. M. (1976). Social skill acquisition and psycho-social development of alcoholics: A review. Addict. Behav., 1 (2), 111-120.

Page, H. A. y Hall, J. F. (1953). Experimental extinction as a function of the prevention of aresponse. J. Comp. Physiol. Psychol., 02; 46 (1), 33-34.

Page, S. y Neuringer. A. (1985). Variability is an operant. J. Exp. Psychol.: Anim. Behav. Pro-cesses, 07; 11 (3), 429-452.

Pearce, J. M. y Hall, G. (1978). Overshadowing the instrumental conditioning of a lever-pressresponse by a more valid predictor of the reinforcer. J. Exp. Psychol.: Anim. Behav. Processes,10;4 (4), 356-367.


Piaget, J. (1932). The moral judgment of the child. Oxford, England: Harcourt, Brace.

Piaget, J. (1929). The child's conception of the world. Oxford, England: Harcourt, Brace.

Piaget, J. (1926). The language and thought of the child. Oxford, England: Harcourt, Brace.

Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev.,07; 66 (4), 219-233.

Rachlin, H. y Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav.,01; 17 (1), 15-22.

Rachlin, H. y Herrnstein, R. J. (1969). Hedonism revisited: On the negative law of effect.En B. A. Campbell y R. M. Church (Ed.), Punishment and aversive behavior. Nueva York: Ap-pleton-Century-Crofts.

Raia, C. P., Shillingford, S. W., Miller, H. L. J., y Baier, P. S. (2000). Interaction of proceduralfactors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74 (3), 265-281.

Reed, P. (1999). Role of a stimulus filling an action-outcome delay in human judgments ofcausal effectiveness. J. Exp. Psychol.: Anim. Behav. Processes, 01; 25 (1), 92-102.

Rescorla, R. A. (1991). Associative relations in instrumental learning: The Eighteenth BartlettMemorial Lecture. The Quarterly Journal of Experimental Psychology B: Comparative and Physio-logical Psychology, 02; 43 (1), 1-23.

Rescorla, R. A. (1990). Evidence for an association between the discriminative stimulus andthe response-outcome association in instrumental learning. J. Exp. Psychol.: Anim. Behav. Pro-cesses, 10; 16 (4), 326-334.

Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Con-ditioning. J. Comp. Physiol. Psychol., 08; 66 (1), 1-5.

Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol.Rev., 01; 74 (1), 71-80.

Rescorla, R. A. y Lolordo, V. M. (1965). Inhibition of avoidance behavior. J. Comp. Physiol.Psychol., 06; 59 (3), 406-412.

Rescorla, R. A. y Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in theeffectiveness of reinforcement and nonreinforcement. En A. H. Black y W. F. Prokasy (Ed.),Classical conditioning II: Current research and theory. Nueva York: Appleton-Century-Crofts.

Reynolds, G. S. (1975). A primer of operant conditioning. (Rev ed). Oxford, England: Scott,Foresman.

Reynolds, G. S. (1961). Attention in the pigeon. J. Exp. Anal. Behav., 4, 203-208.

Rivera, D. M. y Smith, D. D. (1987). Influence of modeling on acquisition and generalizationof computational skills: A summary of research findings from three sites. Learning DisabilityQuarterly, 10 (1), 69-80.

Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified biblio-graphy spanning over 100 years of research. Psychol. Rec., 40 (2), 289-311.

Roberts, M. C., Boone, R. R. y Wurtele, S. K. (1982). Response uncertainty and imitation:Effects of pre-experience and vicarious consequences. British Journal of Social Psychology, 09;21 (3), 223-230.

Rosenthal, T. L. y Zimmerman, B. J. (1972). Modeling by exemplification and instruction intraining conservation. Dev. Psychol., 05; 6 (3), 392-401.

Rosenthal, T. L. y Zimmerman, B. J. (1978). Social learning and cognition. Nueva York: Acade-mic Press.

Schuster, R. y Rachlin, H. (1968). Indifference between punishment and free shock: Evidencefor the negative law of effect. J. Exp. Anal. Behav., 11 (6), 777-786.

Seligman, M. E. y Johnston, J. C. (1973). A cognitive theory of avoidance learning. En F.J. McGuigan y D. B. Lumsden (Ed.), Contemporary approaches to conditioning and learning.Oxford, England: V. H. Winston & Sons.


Sidman, M. (1953). Two temporal parameters of the maintenance of avoidance behavior bythe white rat. J. Comp. Physiol. Psychol., 08; 46 (4), 253-261.

Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. Oxford, England:Appleton-Century.

Solomon, R. L. y Corbit, J. D. (1974). An opponent-process theory of motivation: I. Temporaldynamics of affect. Psychol. Rev., 03; 81 (2), 119-145.

Solomon, R. L. y Wynne, L. C. (1953). Traumatic avoidance learning: acquisition in normaldogs. Psychol. Monogr., 67 (4), 19-19.

Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09;43 (5), 427-449.

Sutherland, N. S. y Mackintosh, N. J. (1971). Mechanisms of animal discrimination learning.Nueva York: Academic Press.

Symonds, M, y Hall, G. (1995). Perceptual learning in flavor aversion learning: Roles ofstimulus comparison and latent inhibition of common elements. Learning and Motivation,26, 203-219.

Thelen, M. H., Dollinger, S. J., y Kirkland, K. D. (1979). Imitation and response certainty.Journal of Genetic Psychology, 09; 135 (1), 139-152.

Thelen, M. H., Paul, S. C., Dollinger, S. J., y Roberts, M. C. (1978). Response uncertainty andimitation: The interactive effects of age and task options. Journal of Research in Personality,09; 12 (3), 370-380.

Thomas, D. R. (1993). A model for adaptation-level effects on stimulus generalization. Psy-chol. Rev., 10; 100 (4), 658-673.

Thomas, D. R. y Jones, C. G. (1962). Stimulus generalization as a function of the frame ofreference. J. Exp. Psychol., 07; 64 (1), 77-80.

Thomas, D. R., Mood, K., Morrison, S., y Wiertelak. E. (1991). Peak shift revisited: A test ofalternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17 (2), 130-140.

Thorndike, E. L. (1911). Animal Intelligence. Experimental Studies. Oxford, England: Macmillan.

Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative pro-cesses in animals. Psychol. Monogr., 06; 2 (4), 1-109.

Thorpe, W. H. (1963). Learning and instinct in animals (2.ª edición). Londres: Methuen.

Timberlake, W. y Allison, J. (1974). Response deprivation: An empirical approach to instru-mental performance. Psychol. Rev., 03; 81 (2), 146-164.

Tomie, A., Carelli, R. y Wagner, G. C. (1993). Negative correlation between tone (S) andwater increases target biting during S in rats. Anim. Learn. Behav., 11; 21 (4), 355-359.

Trobalon, J. B., Sansa. J., Chamizo, V. D., y Mackintosh, N. J. (1991). Perceptual learningin maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative andPhysiological Psychology, 11; 43 (4), 389-402.

Ulrich, R. E. y Azrin, N. H. (1962). Reflexive fighting in response to aversive stimulation. J.Exp. Anal. Behav., 5 (4), 511-520.

Warden, C. J., Fjeld, H. A., y Koch, A. M. (1940). Imitative behavior in cebus and rhesusmonkeys. Journal of Genetic Psychology, 56: 311-322.

Weisman, R. G. y Litner, J. S. (1969). Positive conditioned reinforcement of Sidman avoi-dance behavior in rats. J. Comp. Physiol. Psychol., 08; 68 (4), 597-603.

Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24(2), 215-226.

Wyrwicka, W. (1978). Imitation of mother's inappropriate food preference in weanling kit-tens. Pavlov. J. Biol. Sci., 13 (2), 55-72.


Zimmerman, B. J. y Blom, D. E. (1983). Toward an empirical test of the role of cognitiveconflict in learning. Developmental Review, 03; 3 (1), 18-38.

instrumental Condicionamiento

Documents

Transcript of instrumental Condicionamiento