acondicionamiento operante

El Acondicionamiento Operante

(Aprendizaje Operante, Aprendizaje Estímulo-Respuesta

Aprendizaje de Skinner)

Conceptos Importantes• Estímulos• Respuesta Operante• Aprendizaje vs. Extinción• Consecuencias• La Ley de Efecto Propuesta por Thorndike• Refuerzos• Castigos• Refuerzo constante o parcial• Itinerarios de Refuerzos usados por Skinner• Efectos de la magnitud del refuerzo o castigo• Efectos del retraso del refuerzo o castigo• Generalización del aprendizaje• Aprendizaje de discriminación• Moldeamiento

Estímulos

• Eventos externos o internos que son notados por un organismo.

• Ejemplos: ver la luz roja, ver una puerta cerrada, “sentir” hambre”, ver un billete de $20 en el piso.

Respuesta Operante

• Acciones del organismo referente a un estímulo en particular y que hace algo (“opera en”) en el ambiente.

• Ver luz roja – frenar el carro• Ver puerta cerrada – abrir la puerta• Sentir “hambre” – ir a la cafetería• Ver un billete de $20 en el piso - recogerlo

Aprendizaje vs. Extinción

• La fase en la cual se adquiere la respuesta operante se le llama “adquisición” y la fase en la cual se pierde la respuesta operante se llama “extinción”.

• Durante adquisición el refuerzo es administrado siguiendo a la respuesta.

• Durante extinción, el refuerzo nunca más es administrado siguiendo a la respuesta.

Consecuencias

• Se refiere a lo que pasa siguiendo a la acción tomada.

• Ver luz roja – frenar – evitar accidente• Ver puerta cerrada – abrir la puerta –

entrar en la clase• Sentir hambre – ir a la cafetería –

saciamos el hambre• Ver billete de $20 – recogerlo – nos

alegramos

• Las consecuencias pueden ser positivas o negativas.

• Las consecuencias pueden ser inmediatas o pueden ser retrasadas.

• Las consecuencias pueden variar en magnitud

La Ley de Efectode Throndyke

• Si la respuesta a un estímulo produce consecuencias positivas para el organismo, la probabilidad de esa respuesta a ese estímulo en un futuro aumentará.

• Si la respuesta a un estímulo produce consecuencias negativas para el organismo, la probabilidad de esa respuesta a ese estímulo en un futuro se reducirá.

• Otra manera de ver la Ley de Efecto:

Respuestas que son seguidas de consecuencias positivas aumentan la probabilidad de que ese organismo haga la misma respuesta cuando, en un futuro, vuelva a ver a ese estímulo.

Respuestas que son seguidas de consecuencias negativas causan que esa respuesta a ese estímulo tienda a no ocurrir en el futuro

Ejemplo de Consecuencia Positiva

• Juan ha notado a una joven, María, en una de sus clases y la quiere conocer.

• Él se asegura que está frente a la puerta del salón para que cuando María llegue, él poder sonreirle.

• María llega y va a entrar (estímulo), Juan le sonríe (respuesta operante), María sonríe de vuelta y le habla (consecuencia positiva).

• La probabilidad de que Juan sonría cuando no conoce a la persona aumenta en el futuro.

Ejemplo de Consecuencia Negativa

• Juan ha notado a una joven, María, en una de sus clases y la quiere conocer.

• Él se asegura que está frente a la puerta del salón para que cuando María llegue, él poder sonreírle.

• María llega y va a entrar (estímulo), Juan le sonríe (respuesta operante), María lo mira mal y le vira la cara (consecuencia negativa).

• La probabilidad de que Juan soría cuando no conoce a la persona baja en el futuro.

Refuerzos

• La Ley de Efecto lo que hace es definir los refuerzos y los castigos. Refuerzo es cualquier consecuencia que aumenta la probabilidad de una respuesta operante.

• Los refuerzos pueden ser positivos o negativos, ambos aumentan la probabilidad de la respuesta operante.

Refuerzo Positivo

• El refuerzo Positivo aumenta la probabilidad de la respuesta operante porque el organismo quiere obtener esa consecuencia.

• Ejemplo: Juana le dice a Luis (su hijo de 8 años) que si recoge su cuarto le dará $5 para que vaya a comprar un juguete. Luis recoge el cuarto para obtener la consecuencia (los $5).

Refuerzo Negativo

• El refuerzo Negativo aumenta la probabilidad de la respuesta operante porque el organismo quiere evitar esa consecuencia.

• Ejemplo: Juana le dice a Luis (su hijo de 8 años) que si no recoge su cuarto no lo dejará ver el TV esa noche. Luis recoge el cuarto para evitar la consecuencia (no poder ver TV esa noche).

CASTIGOS

• Un castigo es cualquier consecuencia que reduce la probabilidad de que la respuesta operante ocurra en el futuro.

• Como en el caso de los refuerzos, los castigos pueden ser positivos o negativos, y ambos reducen la probabilidad de la respuesta operante ocurra en futuro.

Castigo Positivo• En el caso del castigo positivo la respuesta

operante no ocurre para así evitar recibir una consecuencia negativa de la respuesta operante.

• Ejemplo: María le dice a su hijo de 8 años “Si no dejas de molestar a tu hermanito, te sentaréen una silla por una hora”.El hijo de María deja de molestar a su hermanito para no recibir la consecuencia de que lo sienten en una silla por una hora.

Castigo Negativo

• En el caso del castigo negativo la respuesta operante no ocurre para evitar perder algo positivo.

• Ejemplo: María le dice a su hijo de 8 años “Si no dejas de molestar a tu hermanito, no te dejaré ver TV esta noche”.El hijo de María deja de molestar a su hermanito para evitar perder de ver la TV esa noche.

OTRA MANERA DE VERLOS

REFUERZO POSITIVOProbabilidad de la respuesta aumentapara obtener consecuencia.

REFUERZO NEGATIVOProbabilidad de la respuesta aumentapara evitar consecuencia

CASTIGO POSITIVOprobabilidad de la respuesta disminuyepara evitar recibir consecuencia

CASTIGO NEGATIVOprobabilidad de la respuesta disminuyepara evitar perder algo positivo

No Confundir Refuerzos Negativos con los Castigos Negativos

• Si notan, las consecuencias del ejemplo de refuerzo negativo y castigo negativo son iguales.

• Pero lo que sucede con la respuesta operante NO ES IGUAL.

• En el caso del refuerzo negativo, la probabilidad de la respuesta aumenta.(el hijo de María recoge su cuarto)

• En el caso del castigo negativo, la probabilidad de la respuesta disminuye.(el hijo de María deja de molestar a su hermanito)

Refuerzos Constantes y Refuerzos Parciales

• Las consecuencias positivas que causan que una respuesta operante aumente en probabilidad pueden ocurrir de varias maneras.

• Constante (“continuous”): si cada vez que la respuesta ocurre, ocurre también la consecuencia positiva. Ejemplo: cada vez que una rata aprieta una palanca, la rata recibe comida.

• parcial: si no siempre que la respuesta ocurre, ocurre la consecuencia positiva. En vez de siempre, la consecuencia puede que ocurra la mitad de las veces (50% parcial), la tercera parte de las veces (33% parcial), la cuarta parte de las veces (25% parcial), una décima parte de las veces (10% parcial) y así. Ejemplo: cada 10 veces que una rata aprieta la palanca, recibe comida.

El Efecto de Refuerzo parcial(Partial Reinforcement Effect)

• Se ha estudiado en profundidad la diferencia entre dar refuerzo constante o refuerzo parcial. Dos efectos han sido notados en la literatura. El efecto de refuerzo parcial durante adquisición y el efecto de refuerzo parcial durante extinción. El primero no se confirma consistentemente en los estudios, pero el segundo (efecto de refuerzo parcial durante extinción) si es confirmado consistentemente.

Efecto de Refuerzo parcial en Adquisición

• El efecto del refuerzo parcial en adquisición es que los organismo que reciben refuerzos parcials tienden a formar vínculos más fuertes entre el estímulo y la respuesta.

• Este vínculo fuerte se demuestra durante la extinción, pues si comparamos a dos grupos, uno que aprendiócon refuerzo constante y el otro que aprendió con refuerzo parcial, podemos ver que el grupo parcial persiste por mucho más tiempo emitiendo la respuesta operante. Los datos indican que mientras más bajo el % de refuerzo parcial, más persistencia de la respuesta operante (pudiérase decir que lo aprendido con un refuerzo parcial es díficil de extinguir).

Itinerarios Usados por Skinner• Skinner usó 4 diferentes itinerarios mayormente e indicó las

diferencias de los efectos de los itinerarios en la respuesta operante• Primero, él diferenció entre la categoría de “razón” y de “intérvalo”.

La categoría de “razón” se basa en cuántas respuestas hace el organismo y la de “intérvalo” se basa en cuanto tiempo ha pasado desde la última respuesta.

• Segundo, él diferenció entre dos maneras de decidir “cuándo” dar el refuerzo. La categoría “fijo” se refiere a siempre se da refuerzo cada vez que el organismo emite un número específico de respuesta o pasa un período de tiempo específico.

La categoría “variable” se refiere a que el refuerzo va a ocurrir, en promedio, cada un número específico de respuestas o pasa un período específico de tiempo. Pero los refuerzos en particulares ocurren aleatoriamente (en número de respuestas o intérvalos de tiempo).

Itinerarios de RAZÓN• De Razón: Basados en # de respuestas.

Razón Fija (RF): se da el refuerzo cada vez que el organismo emite un número específico de respuestas.

Ejemplo: Itinerario de RF5: Se refuerza la respuesta #5, la #10, la #15, la #20, la #25, la #30 y así.

Razón Variable (RV): se da el refuerzo en promedio, cada cierto número de respuestas, pero en cuál respuesta en particular es aleatorio.

Ejemplo: Itinerario de RV5: Primero hay que saber cuántas respuestas van a haber en el estudio. Digamos que habrán 100 respuestas en total. Si el promedio de refuerzo es cada 5 respuestas, van a haber 20 refuerzos en total durante el estudio (100 entre 5=20). Las respuestas serán de la 1 a la 100, y sabemos que reforzaremos a 20 de ellas. Las 20 respuestas de la 1 a la 100 se escogen al azar. Un ejemplo sería, se refuerza la respuestas: 4, 9, 15, 17, 22, 33, 35, 40, 48, 51, 55, 60, 62, 70, 71, 82, 85, 90, 92, y 98. Lo importante es que la respuesta específica que se va reforzar fue escogida al azar.

Itinerarios de INTÉRVALOS• De Intérvalos: Basados en el período de tiempo desde que se emitó la última

respuesta.

Intérvalo Fijo (IF): se da el refuerzo cada vez que el organismo emite una respuesta cuando se cumple un período de tiempo específico.

Ejemplo: Itinerario de IF5 seg.: Se refuerza la primera respuesta que ocurre después de pasar 5 segundos, 10 segundos, 15 segundos y así.

Intérvalo Variable (IV): se da el refuerzo cuando pasa un período de tiempo específico, en promedio, pero en cuál período en particular es aleatorio.

Ejemplo: Itinerario de IV5 seg.: Primero hay que saber cuánto tiempo va a durar el estudio. Digamos que el estudio durará 2 minutos. Si el promedio de refuerzo es cada 5 segundos, van ahaber 24 refuerzos en total durante el estudio (2 min. x 60 seg. entre 5 seg.=24 refuerzos). Los intérvalos serán de 1 seg. a 120 seg. (1 seg, 2 seg, 3 seg, 4 seg, etc.), y sabemos que reforzaremos a 24 de ellos. Los 24 intérvalos del segundo 1 al segundo 120 se escogen al azar. Un ejemplo sería, se refuerza la primera respuesta que ocurre después del segundo número: 4, 9, 15, 17, 22, 33, 35, 40, 48, 51, 55, 60, 62, 70, 71, 82, 85, 90, 92, 98, 102, 105, 108, 115. Lo importante es que el período de tiempo específico que se va reforzar fue escogido al azar.

Efectos de Itinerario en la Respuesta Operante

• Skinner se interesó mucho en ver cuáles eran los efectos de los diferentes itinerarios en la respuesta operante del organismo en el laboratorio (él usó usualmente palomas).

• Cómo Leer Gráficas de Aprendizaje:

1. Los ejes de la gráfica:

El eje “Y” es el vertical y es de costumbre usarlo para poner la conducta observada (la variable dependiente en los estudios experimentales.

El eje “X” es el horizontal y es de costumbre usarlo para poner el número de la respuesta o el número del intérvalo de tiempo (la variable independiente en estudios experimentales).Skinner usó el número de respuestas “acumuladas”, por lo tanto, las gráficas siempre suben hacia la derecha.

Gráfica de Itinerario de Razón Variable

Itinerario de Razón Variable

Número de

respuestas

acumuladas

Gráfica de Itinerario de Razón Fija

Número de

respuestas

acumuladas

Itinerario de Razón Fija

Gráfica de Itinerario de Intérvalo Variable

Itinerario de Intérvalo Variable

Número de

respuestas

acumuladas

Gráfica de Itinerario de Intérvalo Fijo

Itinerario Intérvalo Fijo

Número de

respuestas

acumuladas

Interpretación de las Gráficas• Mientras más fuerte es el vínculo entre el estímulo y la

respuesta operante, más vertical es la línea. Como podemos ver, la línea que indica aprendizaje intenso sería la correspondiente a la gráfica de razón variable.

• Efecto “escalonado” del itinerario de intérvalo fijo: Si notan, en esa gráfica, el organismo tiene un período de tiempo que no emite respuestas (las partes donde la línea es horizontal), seguido por un período corto de respuestas rápidas. Este es efecto es típico de los intérvalos fijos, pues, como el refuerzo se da exactamente cada cierto período de tiempo, el organismo aprende a solo responder cuándo el período está por acabarse.

Efectos de la Magnitud del Refuerzo

• También se ha estudiado en profundidad la diferencia en la magnitud del refuerzo dado como consecuencia de la respuesta operante.

• Los datos de los estudios indican que mientras más magnitud de refuerzo, más fuerte es el vínculo y más rápido es la adquisición de la respuesta operante.

Efectos del Retraso del Refuerzo

• Otra área que ha sido estudiada en profundidad es el efecto en el aprendizaje del retraso del refuerzo.

• Refuerzo que sigue inmediatamente a la respuesta operante es el que más efectivo es en acondicionar la respuesta.

• Si hay un lapso de tiempo (retraso) entre la respuesta y el refuerzo, mientras más largo es el lapso, menos efectivo es el refuerzo en acondicionar la respuesta.

• Se ha visto también que lo mismo aplica a los castigos. Los castigos más efectivos son los que suceden inmediatamente siguiendo a la respuesta. Mientras más largo es el lapso de itempo, menos efectivo es el castigo.

Generalización del Aprendizaje Operante

• Una respuesta operante asociada a un estímulo en particular también se emite a estímulos parecidos al original. Por ejemplo, un niño que aprende a temer a la autoridad de su padre, puede también estar demostrando temor a estímulos generalizados, como “personas en posiciones de autoridad (maestros, policías etc).

• En general, pudiéramos decir que la generalización “extiende” la respuesta a otros estímulos similares.

Aprendizaje Discriminante en el acondicionamiento operante

• Discriminación es lo opuesto de generalización. En esta situación el organismo aprende a no responder a estímulos similares y solamente responder a un estímulo en particular con una respuesta en particular.

• “Estímulo Discriminante” es el nombre que se le da a un estímulo que señala que una respuesta en particular es la que se reforzará. Por ejemplo, cuando la luz de tránsito pone la luz “roja” esa luz roja es el estímulo discriminante que indica que la respuesta reforzada es “frenar”.

• Otro ejemplo: cuando el profesor entre en la clase los/las estudiantes dejan de conversar y prestan atención. El estímulo discriminate (profesor) al aparecer, indica que la respuesta reforzada es prestar atención.

Moldeamiento• Hasta ahora hemos considerado solo respuestas simples como “apretar” una

palanca, “frenar” a luz roja, etc. Pero pudiéramos preguntarnos cómo el aprendizaje operante propone que se aprende una respuesta mucho más compleja, como hacer que nuestra mascota nos traiga el periódico que está en el patio.

• “Moldeamiento” es el proceso en el cual se refuerzan respuestas cada vez más aproximadas a la respuesta que queremos que ocurra. El perro no sabe lo que queremos, por lo tanto tenemos que empezar con la respuesta más simple que es, que mire hacia el patio. Esto lo logramos reforzando al perro solo cuando estámirando hacia al patio (usaríamos un itinerario parcial, usando galletitas de perro como refuerzo). Cuando ya logramos que el perro mire hacia el patio consistentemente, dejamos de reforzar esa respuesta y ahora comenzamos a reforzar lo próxima aproximación, que sería, reforzar la respuesta de “caminar” hacia el patio. Cuando ya logramos que el perro camine hacia el patio, lo dejamos de reforzar y comenzamos a reforzar la próxima respuesta aproximada, que sería “pararse” sobre el periódico. Cuando ya logramos que el perro se pare sobre el periódico, comenzamos a reforzar el cogerlo con la boca. Cuando ya logramos que lo coga con la boca consistentemente, empezamos a reforzarlos por caminar hacia nosostros, y después, por soltar el periódico en nuestra mano. Así, paso a paso, la respuesta compleja de traernos el periódico del patio se acondiciona. De esta manera es como entrenan a los animales que vemos en las películas y programas de TV.

• Si ya leyó el material del texto y se siente preparado/a para el quiz, pase a cogerlo.

acondicionamiento operante

Documents

Transcript of acondicionamiento operante