Condicionament instrumental

Joan Sansa i Aguilar

Doctor en Psicologia per la Universitat de Barcelona. Actualment és professor del Departament de Psicologia Bàsica de la Universitat de Barcelona. La seva recerca se centra en l'estudi de l'aprenentatge associatiu.

PID_00273415

Quarta edició: febrer 2020
© Joan Sansa i Aguilar
Tots els drets reservats
© d'aquesta edició, FUOC, 2020
Av. Tibidabo, 39-43, 08035 Barcelona
Realizació editorial: FUOC

Cap part d'aquesta publicació, incloent-hi el disseny general i la coberta, no pot ser copiada, reproduïda, emmagatzemada o transmesa de cap manera ni per cap mitjà, tant si és elèctric com químic, mecànic, òptic, de gravació, de fotocòpia o per altres mètodes, sense l'autorització prèvia per escrit dels titulars dels drets.

Índex

Introducció
1.Definició de condicionament instrumental
- 1.1.La conducta emergent o voluntària. L'hedonisme com a mecanisme de la conducta voluntària
- 1.2.Comparació entre condicionament clàssic i instrumental
2.Preparacions experimentals: assajos discrets i conducta operant
- 2.1.Assajos discrets
- 2.2.Operant lliure
- 2.3.L'emmotllament
3.Procediments de condicionament instrumental
4.Elements del condicionament operant
5.Programes de reforçament
- 5.1.Programes de reforçament continu
- 5.2.Programes de raó
- 5.3.Programes d'interval
- 5.4.Comparació dels programes de raó i d'interval
- 5.5.Conducta d'elecció: programa concurrent i programa concurrent encadenat
  - 5.5.1.Programa concurrent
  - 5.5.2.Programa concurrent encadenat
6.Extinció de la resposta instrumental
- 6.1.Altres efectes de l'extinció sobre la resposta instrumental
7.Condicionament aversiu
- 7.1.Evitació i escapada
- 7.2.Càstig
8.Teories del condicionament instrumental
- 8.1.Estructura associativa del condicionament instrumental
  - 8.1.1.Associacions E-R
  - 8.1.2.Associacions R-C
  - 8.1.3.Associacions E-C
  - 8.1.4.Associacions jeràrquiques
- 8.2.Teories sobre la regulació de la conducta
9.Generalització i discriminació
10.Aprenentatge per observació
- 10.1.Teories de la imitació
  - 10.1.1.La imitació com a instint
  - 10.1.2.La imitació com una resposta instrumental
  - 10.1.3.La teoria de Bandura sobre l'aprenentatge per imitació
- 10.2.Factors que afecten la probabilitat de la imitació
  - 10.2.1.Característiques del model
  - 10.2.2.Característiques de l'aprenent
  - 10.2.3.Característiques de la situació
- 10.3.Influència de l'aprenentatge per observació en el desenvolupament cognitiu
Exercicis d'autoavaluació
Glossari
FAQ
Bibliografia

Introducció

L'objectiu d'aquest mòdul és proporcionar als estudiants coneixements sobre el condicionament instrumental, la generalització i la discriminació i l'aprenentatge per observació.

Al llarg del mòdul es presentaran procediments, fenòmens i teories relacionats amb la conducta instrumental o dirigida a una meta. Tota conducta que fem té un efecte sobre l'entorn físic o social. El condicionament instrumental estudia, doncs, com detectem els efectes que tenen les nostres conductes i com aquests efectes o conseqüències influeixen, al seu torn, en el nostre comportament. També es presenten nombrosos exemples de la vida quotidiana amb l'objectiu de facilitar la comprensió i la transferència dels conceptes teòrics a les situacions reals. En aquest sentit, és important que els estudiants facin un esforç per tal de trobar exemples diferents dels proposats en el mòdul per a poder assentar els coneixements assolits.

En l'apartat de generalització i discriminació, ens centrarem en aquells estímuls que arriben a controlar la conducta de les persones. És important per a la nostra adaptació poder generalitzar i discriminar entre estímuls. La generalització té avantatges evolutius clars. Al món real rarament trobem el mateix estímul dues vegades. Un exemple molt característic n'és el reconeixement de cares: aprenem a reconèixer una persona amb independència del seu pentinat, el tipus d'ulleres o la roba que porta.

És crucial, per tant, que la resposta no es produeixi exclusivament en presència de l'estímul concret que trobem al moment del condicionament. D'altra banda, els organismes també podem discriminar estímuls molt diferents. I, de vegades, estímuls molt semblants poden tenir conseqüències oposades, per la qual cosa convindrà aprendre a discriminar-los. L'aprenentatge de discriminació es produeix quan ens exposem a dos estímuls o més que, tot i ser molt similars, tenen com a conseqüència efectes radicalment oposats.

Finalment, el mòdul dedica un últim apartat a l'aprenentatge per observació. És important poder aprendre mitjançant la conducta dels altres. S'ha demostrat que veure les conseqüències dels comportaments d'altres persones regula el nostre propi comportament. Analitzarem, diverses característiques de l'aprenentatge per observació, i també les variables que influeixen en aquest aprenentatge. També estudiarem algunes de les teories que s'han proposat per a explicar l'aprenentatge per observació.

1.Definició de condicionament instrumental

1.1.La conducta emergent o voluntària. L'hedonisme com a mecanisme de la conducta voluntària

Fins ara hem estudiat diferents situacions en què els estímuls provocaven respostes en els organismes. En la resposta reflexa, la presència d'un estímul activa automàticament una resposta. D'aquesta manera, un tros d'aliment introduït dins la boca activarà la resposta de salivació.

També hem vist que la conducta reflexa pot ser modulada amb l'experiència: l'habituació i la sensibilització modifiquen la intensitat de la resposta, i la redueixen o la intensifiquen, respectivament. En el mòdul "Condicionament clàssic pavlovià" hem analitzat el condicionament clàssic. Si un estímul inicialment neutre, per exemple l'olor de pa acabat de fer, s'aparella sistemàticament amb la introducció del pa a la boca, ambdós estímuls, olor i pa, queden associats i l'estímul neutre és capaç de provocar una resposta que inicialment no provocava. En l'exemple, l'olor de pa pot provocar respostes com la salivació, moviments de la boca i d'altres. L'estímul de l'olor serveix de senyal que anticipa l'aliment i prepara l'organisme per a rebre'l. Des d'aquesta perspectiva, la conducta és una conseqüència de l'estímul. Però hi ha altres situacions en les quals la relació s'inverteix i són precisament els estímuls la conseqüència de la nostra conducta.

Un exemple simple servirà per a il·lustrar aquesta situació:

Si entrem en una habitació que és a les fosques podem manipular l'interruptor i fer que s'il·lumini. Aquí, doncs, primer executem una conducta i, després, apareix la conseqüència.

Podem dir que la nostra conducta és l'instrument que ens permet modificar l'entorn, ja sigui físic com social. Per aquest motiu, aquesta conducta rep el nom de conducta instrumental.

Una anàlisi més detallada d'aquesta situació ens permet adonar-nos que hem executat la conducta amb un objectiu: il·luminar la sala. Per això, sovint es defineix la conducta instrumental com a dirigida a una meta. Però, encara més, podríem no haver encès el llum.

Per exemple, si sabem que a l'habitació hi ha un bebè que s'acaba d'adormir, podríem decidir no encendre el llum per a no despertar-lo.

Per tant, la conducta instrumental pot encaixar perfectament en el que coneixem com a conducta voluntària.

Descartes va diferenciar entre la conducta involuntària i la conducta voluntària. El primer cas seria la conducta reflexa, això és, tot comportament provocat per un estímul i que estaria sotmès a uns principis mecanicistes com l'arc reflex. D'altra banda, la conducta voluntària no seria controlada per cap mecanisme, sinó que seria determinada pel lliure albir. Dit amb altres paraules, si encenem el llum d'una habitació és perquè volem i així ho decidim.

No obstant això, hi ha una explicació alternativa de la conducta voluntària que recorre a mecanismes deterministes. Hobbes va proposar que la conducta voluntària seguiria el principi de l'hedonisme segons el qual, i en sentit estricte, el plaer és l'únic o principal bé de la vida. Aplicat al control de la conducta voluntària, veurem que l'objectiu de la conducta és la cerca del plaer i la fugida del dolor.

Tornem a l'exemple que ens ocupa. Si en entrar a l'habitació a les fosques encenem el llum, aquest acte es pot explicar perquè amb la sala il·luminada podem evitar ensopegar amb mobles o objectes que no veiem i el dolor que ens podria causar. També, amb el llum podrem localitzar més ràpidament allò que hi hem anat a buscar. D'altra banda, podem no encendre el llum si a l'habitació hi dorm un nadó per a no despertar-lo i evitar les molèsties que podria causar.

Així, doncs, la conducta voluntària seria determinada per les conseqüències agradables i desagradables que origina.

De fet, i com veurem a continuació, els procediments de condicionament instrumental se centren en les conseqüències que té el nostre comportament sobre estímuls apetitius (agradables) i estímuls aversius (desagradables).

1.2.Comparació entre condicionament clàssic i instrumental

Ja hem apuntat les diferències entre el condicionament clàssic i el condicionament instrumental. Tots dos tipus de condicionament es basen en el mecanisme de l'associació i els seus principis.

La idea bàsica és que dos esdeveniments que es presenten contigus en el temps queden associats. Malgrat aquesta generalitat, avui es coneixen moltes condicions que modulen aquest mecanisme i moltes d'elles són aplicables als dos tipus de condicionament. En tot cas, la diferència bàsica entre condicionament clàssic i condicionament instrumental rau en la naturalesa dels elements que s'associen.

En el condicionament clàssic, els esdeveniments que queden associats són dos estímuls que l'organisme no pot manipular. Podem aprendre que un cel ennuvolat pot significar una probabilitat alta de pluja. En conseqüència, podem no sortir de casa o, en cas de sortir, agafar el paraigües. Aquestes conductes, però, en cap cas no alteraran la presentació dels estímuls.
En canvi, en el condicionament instrumental, els esdeveniment implicats són una conducta i un estímul de tal manera que la conducta alterarà aquest estímul, i el farà aparèixer si estava absent o el farà desaparèixer si estava present. Si es posa a ploure mentre anem pel carrer, obrir el paraigües impedirà que ens mullem.

Com a conseqüència d'aquestes característiques, el condicionament clàssic ens serveix per a anticipar fets importants o la seva absència, mentre que el condicionament instrumental ens serveix per a alterar el nostre entorn amb l'objectiu de fer-lo més agradable.

El primer investigador formalment acceptat dedicat a l'estudi del condicionament instrumental va ser Thorndike (1898, 1911). Els seus treballs tenien com a finalitat estudiar la intel·ligència animal i consistien a presentar a uns gats una sèrie de problemes per a estudiar com els solucionaven.

Va construir unes caixes de fusta que tenien una porta abatible subjectada per una balda o més. Les baldes podien ser manipulades per diversos mecanismes com, per exemple, directament amb la pota de l'animal o mitjançant un pedal al qual es lligava una corda. Quan Thorndike tancava un gat famolenc en una d'aquestes caixes, podia observar que el pobre animal no tenia la més mínima intuïció del que havia de fer per a poder escapar del seu confinament i accedir a un bol ple de menjar que era a l'exterior de la caixa. Com a mesura objectiva de l'evolució de l'animal, Thorndike cronometrava el temps que trigava a escapar de la caixa.

La "caixa problema"

No és estrany que en els primers assajos esgotés tot el temps (per exemple, cinc minuts) sense assolir amb èxit el seu objectiu. Però a mesura que Thorndike anava presentant el mateix problema als gats, va observar que el temps que necessitaven per a escapar-se disminuïa progressivament. Precisament, la reducció del temps d'escapada era la dada que indicava que els animals havien après com solucionar el problema, és a dir, quines respostes havien d'executar per a poder obrir la porta i accedir al menjar. Però, com s'explicava aquest aprenentatge? Segons Thorndike, no hi havia rastre de conducta intuïtiva, sinó que els gats anaven duent a terme diferents comportaments fins que algun d'ells proporcionava la solució del problema. Aquesta estratègia s'anomena assaig i error.

De fet, els animals feien moltes conductes, la majoria de les quals no tenien cap conseqüència. Però, de tant en tant, apareixia una conducta que permetia obrir la porta i accedir al menjar. Segons Thorndike, les conductes infructuoses tendien a desaparèixer mentre que se seleccionaven aquelles altres conductes que tenien èxit. Però, quin mecanisme era el responsable d'aquesta selecció? Seguint a Thorndike, quan un animal executa una conducta que va seguida d'un esdeveniment agradable, llavors els estímuls presents en el moment de la resposta i la resposta quedaven connectats de manera que en el futur la presència dels estímuls activava directament la resposta que tenien connectada. Si la conseqüència era aversiva, llavors la connexió es debilitava. Aquest mecanisme es coneix com llei de l'efecte.

Tingueu en compte que el paper de la conseqüència (agradable o desagradable) era més aviat secundari i servia per a enfortir o afeblir la connexió entre els estímuls i les respostes, però no quedava connectada a cap d'aquests elements. Aquesta manera d'explicar el condicionament instrumental era coherent amb l'explicació que es donava inicialment al condicionament clàssic seguint l'esquema E-R⁽¹⁾ (estímul-resposta) i que anys més tard van adoptar els psicòlegs dins l'enfocament conductista.

2.Preparacions experimentals: assajos discrets i conducta operant

2.1.Assajos discrets

En el procediment experimental de Thorndike, l'animal quedava tancat a la caixa problema fins que executava la conducta (o cadena de conductes) instrumental que l'alliberava i li permetia l'accés al menjar. Després de menjar, l'animal era retirat de la situació experimental fins a l'assaig següent. Aquest tipus de procediment rep el nom d'assajos discrets. Les principals característiques són que només es permet fer una vegada la resposta instrumental en cada assaig i un cop donada es retira l'animal de l'aparell. Actualment, hi ha unes quantes tasques d'assaig discret que s'han convertit en estàndards.

La tasca d'assaig discret més comunament utilitzada és la del laberint. Al començament del segle XX s'utilitzaven laberints molt complexes, però de mica en mica es van anar simplificant fins a arribar al corredor o laberint de passadís recte i als laberints en forma de T o Y. El corredor (vegeu la figura següent, b) té una caixa de sortida en un dels extrems i una caixa de meta a l'altre. Un assaig de condicionament comença col·locant l'animal (generalment, una rata) a la caixa de sortida. Seguidament, s'obre la porta que dóna accés al corredor i es permet que l'animal camini fins a arribar a la caixa meta on normalment trobarà el reforçador, menjar o aigua.

Esquema d'un laberint amb forma de T (a) i d'un corredor recte (b). S = caixa de sortida; PE = punt d'elecció; M1, M2 i M = caixes meta

El laberint en forma de T (vegeu la figura anterior, a) està dissenyat per a estudiar la conducta d'elecció, ja que conté un braç de sortida i dues caixes meta. Tingueu en compte que el punt d'unió entre el braç de sortida i els dos braços meta és el punt d'elecció. En aquest punt, l'animal ha de decidir a quina de les dues metes possibles es dirigirà. La manipulació experimental permet diverses alternatives.

Es pot posar menjar només en un dels braços però no en l'altre. També es podrien utilitzar dos tipus de reforçador, com, per exemple, una base d'aigua i farina en un dels braços i la mateixa base però endolcida a l'altre meta.

Als laberints es poden mesurar diverses variables. Al corredor s'acostuma a calcular la velocitat de carrera o la latència de la resposta –el temps que triga l'animal a iniciar el recorregut. La velocitat de carrera normalment augmenta a mesura que es repeteixen els assajos de condicionament, mentre que la latència de la resposta s'escurça. Al laberint en T la mesura més habitual és el percentatge d'elecció del braç crític. En tenir dues alternatives, un percentatge d'elecció del 50% indica que l'elecció és a l'atzar, mentre que percentatges per sobre del 50% indiquen que l'animal aprèn on hi ha el menjar (en cas que només hi hagi menjar en un dels braços) o una preferència per un dels dos menjars (en el cas d'utilitzar dos tipus diferents d'aliments).

2.2.Operant lliure

Ateses les característiques dels assajos discrets, la conducta de l'animal és restringida per les condicions programades per l'investigador. Skinner (1938) va crear un procediment que permetia l'estudi de la conducta d'una manera contínua. Si analitzem el comportament d'una persona o d'un animal ens podrem adonar que la conducta flueix constantment i sovint es fa difícil determinar clarament les diferents unitats de conducta. Skinner va resoldre aquest problema introduint el concepte de resposta operant, que es defineix a partir de l'efecte que té una conducta sobre l'entorn de l'animal.

Una resposta operant en un humà pot ser introduir unes monedes en una màquina i prémer el botó corresponent al refresc que es vol consumir.

Tot aquest patró de conducta serà una operant, ja que té la propietat de modificar l'entorn i fer accessible una beguda que abans de dur a terme la resposta no podíem prendre. Al laboratori s'estudia la resposta operant amb la caixa d'Skinner o caixa de condicionament (vegeu la figura següent).

La caixa de condicionament consta d'un espai en què se situa l'animal. Dins aquest habitacle hi ha diversos elements que serveixen per a executar respostes i presentar estímuls. Com a mecanismes de resposta es poden utilitzar diverses modalitats, però les més comunament emprades són la palanca de resposta, en el cas de les rates, i la tecla de resposta, en el cas dels coloms. La palanca és un mecanisme que l'animal pot prémer i un cop deixa de fer-hi pressió, retorna a la seva posició original. La tecla de resposta és un botó en què l'au pot picotejar. En ambdós casos, cada cop que s'executa la resposta s'enregistra en un ordinador. Normalment, quan l'animal executa la resposta operant activa un mecanisme que dispensa una mica de menjar. El menjar rep el nom de reforçador, ja que la seva presentació immediatament després de la resposta, reforça la conducta. No obstant això, en determinats experiments la resposta operant va seguida d'un estímul aversiu com pot ser una descàrrega elèctrica moderada que s'administra a la planta dels peus per un engraellat metàl·lic.

Esquema d'una caixa de condicionament o caixa d'Skinner

En una de les parets, hi podem trobar els mecanismes per a dispensar estímuls (altaveu, llums, menjadora). També hi trobem un mecanisme de resposta que, en el cas de les rates, acostuma a ser una palanca de resposta i, en el cas dels coloms, és una tecla de resposta.

La preparació d'operant lliure ens permet estudiar la conducta dins un continu. Però com mesurem la conducta operant? Partim de la base que és l'animal qui determina quan i en quina freqüència farà la conducta al llarg del temps, més que no pas l'experimentador. Skinner va proposar la mesura de la taxa de resposta per a analitzar la conducta operant.

La taxa de resposta és la freqüència amb què la conducta apareix per unitat de temps (un minut, per exemple).

La manera més habitual de mesurar la taxa de resposta és el registre acumulatiu de respostes (vegeu la figura següent).

Un registre acumulatiu és una manera de representar com es repeteix una resposta al llarg del temps.

Mostra el nombre total (o acumulat) de respostes que s'han produït fins a un moment concret. A l'hora de representar gràficament un registre acumulatiu situarem a l'eix d'abscisses el temps i a l'eix d'ordenades les respostes acumulades. Cada vegada que apareix una resposta (una pressió de palanca, per exemple) la corba que es dibuixa incrementarà una unitat en l'eix d'abscisses.

La figura mostra una gràfica d'un registre acumulat

Els pendents de les respostes acumulades (línies puntejades) indiquen la freqüència de la resposta: com més inclinat sigui el pendent, més alta és la freqüència de la resposta. Les ratlles obliqües que tallen el registre acumulat representen els reforçadors dispensats. El registre s'ha obtingut a partir d'una simulació amb la rata virtual Sniffy (Alloway, Wilson i Graham, 2006).

D'altra banda, cada unitat de temps que transcorri farà que la corba es desplaci en l'eix d'abscisses. Les variacions en les dues variables (temps i respostes acumulades) genera una corba que variarà en el seu pendent. Si la rata no executa la resposta operant, tindrem que el registre acumulatiu només creix en sentit horitzontal, ja que va transcorrent el temps, mentre que no hi ha canvis en l'eix d'ordenades, ja que no hi ha respostes per acumular. El resultat és que es dibuixa un pendent nul, és a dir, una línia completament horitzontal. A partir del moment en què es produeixen respostes i es van acumulant, la corba comença a mostrar un pendent. És precisament la inclinació del pendent el que ens dóna informació sobre la freqüència d'execució de la resposta operant. De manera que pendents suaus indiquen que la taxa de resposta és baixa mentre que pendents molt inclinats mostren taxes de resposta altes.

2.3.L'emmotllament

Quan situem per primera vegada una rata en una caixa de condicionament, rarament observarem que l'animal executa la resposta espontàniament. Cal ensenyar-li a prémer la palanca. Aquest entrenament passa per diverses fases. En primer lloc, cal que l'animal sàpiga quan ha obtingut el reforçador i on el trobarà. Aquest entrenament es basa en un condicionament clàssic.

El procediment consisteix a presentar reforçadors independentment de la conducta que estigui tenint la rata. Cal assenyalar que el dispensador de menjar fa un soroll característic cada vegada que es posa en marxa, fins i tot el menjar fa soroll en el moment de caure a la menjadora. Aquests sorolls actuen com a estímul condicionat, ja que queden associats a la presentació del menjar que actua com a estímul incondicionat. La resposta condicionada generada per aquest condicionament que ens interessa és l'apropament a la menjadora. Es tracta, doncs, d'un procediment del seguiment del signe, ja que apropar-se al lloc on es localitza el soroll l'apropa també al menjar. L'entrenament a la menjadora, que és com es coneix aquest entrenament, tindrà l'avantatge que el soroll un cop té les propietat d'estímul condicionat, també serveix com a reforçador. D'aquesta manera, quan l'animal executi la resposta operant i senti el soroll, la resposta serà reforçada immediatament, fins i tot si l'animal triga uns segons a apropar-se a la menjadora per a recollir el menjar.

Un cop l'animal ja ha rebut l'entrenament a la menjadora està en condicions d'aprendre la resposta operant volguda. En el cas de la rata que ha de prémer la palanca, ja dèiem que difícilment executarà la resposta d'una manera espontània. Això fa que haguem de programar aquest aprenentatge. La tècnica utilitzada normalment és l'emmotllament, que es defineix com el reforçament d'aproximacions successives a la resposta requerida.

Tota conducta, especialment les conductes complexes com prémer una palanca, poden desglossar-se en unitats simples. Si analitzem amb detall la resposta de prémer la palanca podrem identificar aquestes unitats. Per a executar la conducta, la rata ha d'atendre a la palanca, apropar-s'hi, posar-se dempeus, recolzar una mà sobre la palanca i fer força avall per tal que la palanca baixi. Si ens fixem bé en tota aquesta seqüència de moviments, ens adonarem que cada unitat per sí mateixa és fàcil d'observar en una rata d'una manera espontània: una rata inspecciona i atén a diferents objectes del seu entorn, es posa dreta sobre les potes del darrere, toca i manipula objectes amb les mans, es recolza sobre objectes o les parets de la caixa.

En definitiva, la conducta que cal emmotllar és nova quant al conjunt i patró de moviments que requereix, però no quant a les unitats de conducta que la componen.

Així, per a emmotllar la conducta de pressió de palanca en una rata podríem començar per reforçar cada vegada que l'animal es posa dret sobre les potes posteriors i amb independència del lloc de la cambra on ho faci. Podrem observar que amb l'entrenament necessari, aquest comportament apareix cada vegada amb més freqüència del que ho feia inicialment. El pas següent consistirà a restringir el reforçador a quan es posa dret però en una ubicació propera a la palanca i no el reforçarem per posar-se dret si es troba lluny de la palanca.

Veiem, aquí, una segona característica de l'emmotllament: no reforçar les formes de conducta més primerenques un cop s'hagin assolit.

Com abans, veurem que la rata cada vegada tendeix a localitzar-se més a prop de la palanca. Seguint amb l'emmotllament, podrem passar a reforçar només quan l'animal es posi dret just davant la palanca. Per acabar, podrem reforçar només si la rata toca la palanca quan es posa dreta o quan torna a la posició sobre les quatre potes. Si tot ha procedit correctament, veurem que l'animal passa força estona tocant la palanca i en algun moment farà prou força sobre la palanca com perquè aquesta baixi i accioni automàticament el mecanisme que li lliurarà el menjar. A partir d'aquest moment aturarem la nostra intervenció i deixarem que l'animal continuï manipulant la palanca pel seu compte.

La tècnica de l'emmotllament s'ha utilitzat amb èxit en molts camps diversos en els quals s'havien d'instaurar comportaments nous tant en humans com en altres espècies d'animals. Els ensinistradors d'animals ensenyen a dofins, llops marins, gossos, cavalls i tota mena d'animals a dur a terme conductes sorprenents tant per a espectacles com per a ajudar a persones amb determinades discapacitats.

3.Procediments de condicionament instrumental

Fins ara ens hem centrat en una situació molt concreta de condicionament instrumental: quan l'aparició de la resposta anava seguida de l'obtenció d'un estímul agradable com el menjar. No obstant això, hi ha moltes altres situacions de condicionament instrumental.

Alguns pares poden donar un gelat de postres al seu fill si s'ha menjat un plat de patates bullides amb bledes, o li poden prohibir veure la televisió durant una tarda si el nen ha pegat el seu germà. Una persona pot colpejar el seu gos si l'animal ensenya les dents agressivament a un veí. Podem treure les piles a un rellotge si el seu tic-tac no ens deixa dormir.

En tots aquests exemples, hi ha implicat un condicionament instrumental, és a dir, la resposta executada comporta una conseqüència. Dos dels exemples inclouen fets agradables (un gelat, veure la televisió). Un fet agradable l'anomenem estímul apetitiu. Els altres dos exemples inclouen fets desagradables (un cop, un soroll molest). Un fet desagradable l'anomenem estímul aversiu. A més, dos dels exemples exposats impliquen que la resposta provoqui la presentació de l'estímul que no era present abans de donar la resposta (grunyir el gos i menjar el plat de patates i bledes). En aquests casos, parlem d'una contingència positiva entre la resposta i l'estímul. Al contrari, algunes vegades la conducta instrumental fa que un estímul present abans de donar la resposta desaparegui quan aquesta es produeix (pegar el germà, treure les piles del rellotge). És a dir, en aquestes situacions la contingència entre resposta i estímul és negativa.

Per tant, els diferents procediments de condicionament instrumental es classifiquen en funció de la contingència positiva o negativa entre la resposta i l'estímul sobre el qual actua la resposta i per la naturalesa de l'estímul consegüent.

1) Reforçament positiu

Quan posem una moneda en una màquina i obtenim el refresc que ens ve de gust, quan cobrem el sou a final de mes, quan la parella ens fa un petó quan li fem un regal, tots són exemples de reforçament positiu.

En cadascun dels exemples exposats, una resposta ha provocat l'aparició d'un estímul apetitiu. Si es fa la resposta, l'estímul apetitiu apareix, si no hi ha la resposta, llavors l'estímul apetitiu no es presenta. Per tant, la contingència entre la resposta i l'estímul és positiva. Els efectes que té el reforçament positiu sobre la conducta és que incrementa la probabilitat d'aparició de la conducta.

2) Càstig positiu o, simplement, càstig

Si posem els dits en un endoll rebrem una descàrrega elèctrica, si toquem una cafetera just quan acabem de fer el cafè ens cremarem, si el gat s'esmola les ungles al sofà li cridem.

En cadascuna d'aquestes situacions la conducta ha provocat l'aparició d'un estímul aversiu i són exemples de càstig. La contingència entre la resposta i l'estímul aversiu és positiva, ja que l'estímul només es presenta si abans s'ha produït la resposta. Les conseqüències del càstig sobre la conducta és que provoca una tendència a desaparèixer o a disminuir.

3) Reforçament negatiu

Una persona que té fòbia als gossos pot sortir corrent si de cop i volta es troba davant un gos. Un conductor pot portar el cotxe al mecànic per fer una revisió abans d'un viatge llarg per a evitar una avaria.

Aquests són dos exemples del procediment de reforçament negatiu. En ambdós casos, s'estableix una contingència negativa entre la resposta i un estímul aversiu. La persona que fuig en presència d'un gos, pot aconseguir allunyar-se del gos. El conductor que porta el cotxe al mecànic pot evitar una avaria i les conseqüències aversives que té. Tot i que les dues situacions són pràcticament iguals, hi ha una diferència notable entre elles.

En el primer cas, la persona s'ha trobat directament amb l'estímul aversiu (el gos) i la resposta ha provocat la desaparició de l'estímul. En altres paraules, la persona ha escapat de la situació aversiva. Aquest procediment rep el nom de procediment d'escapada.
En el segon cas, l'estímul aversiu (l'avaria del cotxe) no s'ha arribat a produir, és a dir, la conducta es fa sense que sigui present l'estímul aversiu i impedeix que aparegui. Es tracta d'un procediment d'evitació. És important destacar que en el cas de l'evitació, hi ha d'haver algun fet que anticipi la possibilitat de la situació aversiva.

Si la persona amb fòbia als gossos passeja per un carrer i sent bordar un gos, pot canviar d'itinerari abans de trobar-se de cara amb l'animal i, en definitiva, està evitant l'animal. En el cas del conductor, podria haver experimentat en el passat una avaria del cotxe al bell mig dels Monegros de nit. El coneixement que ha de fer un viatge llarg podria anticipar la possibilitat d'una avaria, i fer la revisió del cotxe impediria o reduiria que es repetís en el futur.

Sigui com sigui, el reforçament negatiu provoca que la conducta es repeteixi en el futur.

4) Càstig negatiu o entrenament d'omissió

Un adolescent respon malament a un dels pares i aquest li retira el telèfon mòbil durant una setmana; la direcció de trànsit treu punts del carnet de conduir a un conductor que ha estat enxampat circulant a més de 140 km per hora.

Ambdós exemples mostren una contingència negativa entre una conducta i un estímul apetitiu. Si es produeix la conducta es retira un estímul agradable per a la persona. La conseqüència d'aquestes situacions sobre la conducta és que tendirà a desaparèixer. Els procediments d'entrenament d'omissió també reben el nom de reforçament diferencial d'altres conductes⁽²⁾.

Cal fer alguns comentaris finals sobre els termes utilitzats per a referir-se als procediments de condicionament instrumental.

En primer lloc, els termes positiu i negatiu no es refereixen a valoracions del procediment ni al tipus d'estímul implicat en el condicionament sinó que es refereix exclusivament a la contingència entre la resposta i l'estímul.

Un altre aclariment que ajudarà a comprendre els diferents procediments és que quan parlem de reforçament ens referim al fet que la conducta serà reforçada, és a dir, tendirà a incrementar la seva probabilitat d'aparició o es mantindrà. En canvi, quan parlem de càstig ens referim a aquells procediments que provocaran una reducció en la freqüència de la conducta.

Una confusió comuna és entre càstig i reforçament negatiu. Sovint trobem persones, fins i tot professionals de la psicologia, que utilitzen el terme reforçament negatiu com a sinònim de càstig, probablement en contraposició al terme reforçament positiu. Atenent a l'origen dels termes positiu i negatiu referits a la contingència i al significat del terme reforçament (increment de la conducta) i càstig (reducció de la conducta) aquesta confusió no s'hauria de produir.

	Tipus de conseqüència
Correlació resposta-conseqüència	Positiva	Reforçament positiu	Càstig positiu
Negativa	Càstig negatiu o entrenament d'omissió	Reforçament negatiu: 1) Escapada 2) Evitació

Tipus de conseqüència

Apetitiva

Aversiva

Correlació resposta-conseqüència

Positiva

Reforçament positiu

Càstig positiu

Negativa

Càstig negatiu o entrenament d'omissió

Reforçament negatiu:

1) Escapada

2) Evitació

4.Elements del condicionament operant

Un organisme està executant conductes d'una manera continuada. Algunes d'aquestes conductes poden coincidir amb un estímul reforçador. A més, les conductes es produeixen en un context en el qual hi ha una gran quantitat d'estímuls.

Imaginem que hem quedat amb uns amics i hem decidit anar a prendre uns refrescs a un bar. En aquesta situació, hi trobem molts estímuls presents: els mateixos amics amb qui hem quedat, la decoració del bar, l'època de l'any (si fa calor o fred), la roba que portem, la gent que ens envolta, l'hora del dia, entre d'altres. A més, al llarg de la trobada podem fer diverses conductes: podem fer un glop del refresc, parlar d'una anècdota, d'una notícia que ha aparegut als diaris, rascar-nos, somriure, escoltar, explicar un acudit, etc. A més, al llarg d'aquest flux de conductes en podem trobar algunes que van seguides d'un estímul reforçador, per exemple, si expliquem un acudit i la resta d'amics riu, i d'altres poden no tenir conseqüències, per exemple, si canviem de postura les cames probablement no tindrà conseqüències sobre els nostres amics. Com a resultat d'aquestes disposicions hi haurà conductes que es veuran seleccionades i d'altres no. Precisament les que van seguides del reforçador tindran més probabilitat de repetir-se que les que no van seguides del reforçador. Si hem explicat un acudit i els amics han rigut, és molt possible que nosaltres mateixos o altres companys expliquin un segon acudit, i fins i tot podem estar uns minuts fent gala del nostre coneixement d'aquestes historietes còmiques.

Però canviem d'escenari.

Ara som al tanatori per a donar el condol a un amic nostre per la mort del seu pare. És difícil pensar que en aquesta situació algú pugui explicar un acudit, però en canvi és molt més probable que apareguin comentaris sobre altres defuncions.

Les dues situacions il·lustren com els estímuls presents en una situació poden controlar la nostra conducta.

Per tant, per a arribar a la comprensió de la conducta instrumental s'han de tenir en compte els tres elements i les relacions que s'estableixen entre ells, el que es coneix com contingència de tres termes: els estímuls discriminants o antecedents, les respostes i les conseqüències.

4.1.L'estímul discriminant

L'estímul discriminant és el que apareix abans d'executar la conducta instrumental i que, per tant, és l'antecedent de la conducta instrumental.

Thorndike, en la seva llei de l'efecte⁽³⁾, considerava que l'estímul discriminant controlava totalment la conducta instrumental. Aquesta explicació porta a la concepció de la conducta instrumental com una reacció davant dels estímuls de l'entorn.

No obstant això, Skinner va demostrar que la conducta instrumental era controlada per l'estímul reforçador, és a dir, per les conseqüències que té la conducta.

Així, si donem menjar a una rata per prémer una palanca observarem que la taxa de la conducta incrementa i es manté en un nivell determinat. Però si deixem de donar el reforçador, llavors l'animal deixarà d'emetre la conducta. Si finalment tornem a introduir el reforçador cada cop que la rata pressiona la palanca, la conducta reapareixerà de bell nou.

Aquestes dades indiquen que la conducta instrumental és controlada per les seves conseqüències. Llavors, quin és el paper dels estímuls antecedents?

Una possible resposta és que tinguin un paper informatiu respecte a la disponibilitat o no del reforçador. D'aquesta manera, una situació determinada indicarà si la resposta pot ser reforçada o no ho serà, però, en última instància, qui controlarà que s'emeti o no s'emeti la conducta seran les seves conseqüències. Si els estímuls de l'entorn anticipen la disponibilitat del reforçador, i ens sentim prou motivats per a obtenir-lo, llavors durem a terme la conducta adequada per tal d'aconseguir el reforçador.

Diferència entre estímul discriminant i condicionat

Sovint s'ha fet èmfasi en indicar que un estímul discriminant no és un estímul condicionat, ja que els estímuls condicionats provoquen la resposta condicionada, és a dir, controlen directament la conducta condicionada, mentre que un estímul discriminant no provoca la resposta sinó que només indica la possibilitat del reforçador.

No obstant això, la distinció entre estímul discriminant i estímul condicionat de vegades no és tan clara.

Experiment de Bechterev

Per exemple, Bechterev va dur a terme un experiment en què un to precedia sistemàticament una descàrrega elèctrica que s'administrava a la planta d'un peu d'uns gossos. En aquest experiment, Bechterev va mesurar la resposta de flexió de pota en presència del to com una resposta condicionada i va observar que a mesura que avançava l'entrenament els animals flexionaven la pota en presència del to, la qual cosa comportava en la majoria dels assajos que els animals evitessin l'estímul aversiu.

La interpretació de Bechterev va ser que la flexió de pota era una resposta condicionada que s'activava quan apareixia el to. La disposició experimental permet una segona interpretació des del punt de vista del condicionament instrumental. Si l'animal donava la resposta de flexió de pota, llavors un estímul aversiu deixava de presentar-se o, dit amb altres paraules, la suposada resposta condicionada controlava la presentació de l'estímul. Des d'aquest punt de vista, Bechterev havia dissenyat una situació de reforçament negatiu.

Quina era la funció de l'estímul discriminant? Realment provocava la resposta de flexió de pota o només informava que es presentaria un estímul dolorós i la flexió de pota s'havia seleccionat perquè era útil per a evitar la descàrrega?

Si atenem al fet que en el condicionament clàssic l'organisme no té control sobre els estímuls, llavors hem d'acceptar que les dades de Bechterev s'ajusten més a la interpretació del condicionament instrumental, ja que els seus gossos controlaven la presentació o no de la descàrrega flexionant la pota. Centrem-nos ara en una altra situació comuna a molts experiments de condicionament clàssic en els quals la resposta condicionada és l'apropament a la menjadora. Si presentem un EC, com pot ser un to, i sistemàticament va seguit del lliurament de menjar a la menjadora, llavors podem observar que de mica en mica els animals posen el cap a la menjadora amb més freqüència durant el to que quan aquest no és present. La interpretació d'aquesta dada és que l'apropament a la menjadora és una RC provocada per l'EC. Com que en aquesta situació l'animal experimenta els dos estímuls, l'EC i l'EI i, en una primera anàlisi, cap dels dos estímuls no sembla estar sota el control de l'animal, els investigadors no han dubtat a classificar la resposta d'apropament a la menjadora com a resposta condicionada.

Tanmateix, podríem fer una nova interpretació de la situació: el to podria ser un estímul discriminant que assenyala la propera presentació del menjar i que la resposta d'apropament a la menjadora fos una resposta instrumental que permet a l'animal tenir accés al menjar. Si la rata no s'aproxima a la menjadora, no podrà obtenir el menjar. Tant la presentació de la descàrrega en l'experiment de Bechterev o la presentació del menjar són programats per l'experimentador. Aquests es presenten igualment a l'entorn, però que els animals els arribin a experimentar depèn, en darrera instància, del seu comportament: si flexionen la pota eviten rebre la descàrrega i si s'apropen a la menjadora es facilita l'accés al menjar.

La qüestió de fons és si l'estímul antecedent, el to en els dos exemples, provoca directament la resposta observada o provoca respostes tant emocionals, com pot ser la por en el cas d'anticipar un estímul aversiu, o "alegria" en el cas del menjar, com fisiològiques, per exemple, un increment de la taxa cardíaca quan s'anticipa una descàrrega o la salivació quan s'anticipa el menjar, que motiven l'animal per a executar la resposta que li permet controlar els canvis en l'entorn. Sigui com sigui, la qüestió roman sense resoldre, tot i que hi aprofundirem quan analitzem els mecanismes associatius implicats en el condicionament instrumental.

4.2.La resposta instrumental

El segon element que cal analitzar en el condicionament instrumental és la resposta. Una de les idees que podem tenir respecte al condicionament instrumental és que podem condicionar qualsevol conducta sempre que la reforcem. Res més lluny que això.

De la mateixa manera que en el condicionament clàssic en què determinades combinacions d'EC i EI eren més fàcils de condicionar que unes altres, en el condicionament instrumental trobem que hi ha conductes més fàcils de condicionar.

Alguns d'aquests límits estan relacionats en la preparació biològica dels organismes per a enfrontar-se a determinades situacions; d'altres, fan referència a la interferència de conductes innates amb les conductes que volem condicionar.

Thorndike va observar diferències en la facilitat de condicionar determinades conductes en els seus gats. Per exemple, quan va intentar condicionar respostes com rascar-se o badallar com a respostes instrumentals, va trobar que, malgrat que els animals aprenien a executar-les per tal d'obtenir el reforçador, la forma de les conductes variava al llarg de l'entrenament. A l'inici les respostes eren intenses, però en assajos posteriors eren només simulacres de rascades o de badalls.

Thorndike va proposar el concepte de pertinença per a explicar aquest comportament dels animals. Segons Thorndike, determinades conductes són coherents amb el reforçador per la història evolutiva de l'espècie. D'aquesta manera, manipular objectes, repenjar-se a les parets, etc. són comportaments naturals d'un gat quan està tancat en un espai. En canvi, rascar-se i badallar no són comportaments que permetin als animals escapar-se d'una situació de confinament. Probablement, la feblesa de les respostes de rascar-se i badallar observades per Thorndike es devia al fet que no eren pertinents per a escapar-se de la caixa on estaven tancats.

Els primers a publicar dades sobre la dificultat d'entrenar determinades conductes a partir dels principis del condicionament instrumental van ser els Breland (Breland i Breland, 1961) en l'article titulat "The Misbehavior⁽⁴⁾ of Organisms". Els Breland van ser estudiants d'Skinner i es van dedicar en la seva vida professional a entrenar animals d'espècies molt diverses perquè fessin conductes complexes. Entrenaven als animals per a zoològics, anuncis de televisió i altres actuacions públiques. Si bé tenien èxit amb moltes de les conductes que entrenaven, es van trobar amb la dificultat o impossibilitat d'entrenar-ne algunes en determinades espècies animals.

Experiment de Breland i Breland (1961)

Probablement, el cas més conegut és quan van voler que un ós rentador agafés unes monedes i les introduís dins d'una caixa. Al principi es va entrenar l'animal amb una sola moneda i va aprendre fàcilment a agafar la moneda i introduir-la dins la caixa, amb la qual cosa aconseguia menjar com a reforçador. Però quan se li van donar dues monedes simultàniament perquè les desés a la caixa, la conducta es va deteriorar marcadament. En lloc d'agafar les monedes i posar-les a la caixa (amb la qual cosa aconseguiria ràpidament el reforçador), l'ós rentador sostenia les monedes entre les mans durant uns minuts, sovint les fregava entre elles i de vegades les deixava a la caixa i les tornava a recollir immediatament.

Els óssos rentadors poden aprendre diverses conductes com, per exemple, encistellar una pilota. En canvi, va resultar difícil condicionar-los a introduir monedes en una guardiola.

Malgrat que aquestes conductes no es van reforçar mai, cada vegada apareixien amb més freqüència fins al punt que els Breland van haver de desistir en el seu intent d'entrenar-los. Es van trobar amb els mateixos problemes quan volien entrenar conductes similars en porcs. En un principi, els porcs aprenien a agafar una "moneda" de fusta i la ficaven en una caixa, però després de molts intents els animals començaven a alterar el seu comportament i mostraven respostes com deixar caure la moneda i barrigar, tornar-la a deixar caure i barrigar un altre cop. Evidentment, aquestes conductes no eren reforçades, però els animals mostraven una forta tendència per a dur-les a terme.

Com és possible que unes respostes que impedeixen la presentació del reforçador es mantinguessin amb tanta força? Els Brelands es van adonar que les conductes errònies eren les que els óssos rentadors i els porcs feien normalment com a part del seu repertori de conductes per a la recol·lecció de menjar. Com que aquestes conductes semblaven estar relacionades amb les respostes innates dels subjectes, les van anomenar derives instintives:

Amb una gran experiència, l'actuació dels subjectes s'allunya de les respostes reforçades vers les conductes instintives que apareixen quan l'animal està buscant el reforçador (en aquest cas, menjar) en el medi natural.

Un altre aspecte del condicionament instrumental és que la presentació del reforçador després d'una determinada resposta fa que aquesta se seleccioni en detriment d'altres respostes. Una conseqüència d'aquesta selecció és que el condicionament instrumental promou una reducció en el rang de respostes que executarà un individu. Efectivament, si l'única manera que té una rata famolenca d'obtenir menjar és prémer una palanca, veurem que aquesta conducta ocupa la major part del temps de l'animal, almenys mentre tingui gana.

Una qüestió important és si podem, per mitjà del condicionament instrumental, promoure un increment de la variabilitat en la conducta. En la majoria de procediments de condicionament instrumental l'investigador selecciona una resposta concreta i la reforça quan apareix. Però podrem condicionar un animal perquè executi cada vegada una resposta diferent per a aconseguir el reforçador?

Page i Neuringer (1985) van demostrar que el condicionament instrumental es podia utilitzar per a provocar una variabilitat en la conducta.

Experiment de Page i Neuringer (1985)

En la seva investigació van reforçar uns coloms amb menjar per a executar una seqüència de vuit cops de bec a dues tecles de resposta en una caixa de condicionament. Per a un dels grups, el grup de control, no es va posar cap restricció en la seqüència de les vuit respostes. Això és, cada cop que havia picotejat vuit vegades les tecles amb independència de quina tecla picotejava i en quin ordre ho havia fet, rebia el reforçador. Per al segon grup, el grup experimental, es va incloure una restricció per a rebre el reforçador. De fet, els animals del grup experimental només rebien menjar si la seqüència de cops de bec a les tecles de resposta era diferent de les seqüències de respostes que l'animal havia efectuat en els darrers 50 assajos.

La freqüència de respostes diferents (seqüències dreta-esquerra) durant els primers dies d'entrenament va ser del 50% en els dos grups. En canvi, al final de l'entrenament, mentre que els animals del grup control, sense cap restricció en la seqüència de respostes dreta-esquerra, van mostrar una tendència a fer la mateixa seqüència (el percentatge de seqüències diferents era de menys del 20%), els animals del grup experimental mostraven més del 75% de seqüències diferents.

Aquests resultats mostren clarament que si prenem com a resposta instrumental la variabilitat en la conducta, la podem reforçar i promoure d'aquesta manera que els organismes executin respostes diferents cada vegada.

4.3.L'estímul reforçador

El tercer element implicat en el condicionament instrumental és el reforçador. Habitualment, al laboratori s'utilitzen estímuls biològicament potents quan es treballa amb animals no humans. Podem utilitzar menjar per a reforçar conductes com prémer una palanca amb rates o picotejar una tecla amb coloms. Podem utilitzar igualment estímuls aversius com descàrregues.

No obstant això, podem trobar estímuls reforçadors que no entrarien en la categoria de biològicament potents.

Quan treballem amb humans podem reforçar una conducta indicant simplement que la resposta ha estat correcta o castigar una altra conducta informant que és incorrecta. Fora del laboratori, podem modular la conducta d'altres persones elogiant-les o criticant-les. Amb animals de companyia com gossos o gats podem pronunciar la paraula no perquè els animals deixin de fer alguna conducta (per exemple, entrar en una habitació) o parlar-hi afectuosament quan l'animal se'ns apropa.

Aquestes consideracions ens porten a dos aspectes dels reforçadors: primer, hi ha una àmplia varietat d'estímuls que poden funcionar com a reforçadors; i segon, hi ha reforçadors que inicialment eren estímuls neutres i amb un entrenament específic esdevenen reforçadors eficaços.

El primer punt ens fa buscar una definició de reforçador basada en els seus efectes i no pas en les seves característiques físiques. Tenint en compte això,

podem definir un reforçador com qualsevol conseqüència que presentada contingentment a una conducta, incrementa la probabilitat que la conducta es repeteixi en el futur. De la mateixa manera, podem definir un estímul punitiu com qualsevol conseqüència que presentada contingentment a una conducta prèvia redueix la probabilitat d'aparició d'aquesta conducta en el futur.

A partir d'aquestes definicions, ens adonem que no podem saber les propietats reforçadores (o punitives) d'un estímul a priori. Sabrem si un estímul és reforçador (o punitiu) pels efectes que observarem sobre la conducta, però no per les característiques intrínseques a l'estímul.

Podem pensar que un caramel és un reforçador poderós per als nens, i probablement així serà per a la majoria, però podem trobar algun infant a qui no li agraden els caramels i, en conseqüència, la llaminadura no tindrà propietats reforçants.

La definició de reforçador donada pels efectes sobre la conducta ens permet una classificació àmplia que inclou tant els estímuls biològicament potents com els estímuls no biològicament potents. Tanmateix, la definició és circular. Si donem menjar contingent a picotejar una tecla i observem que la conducta incrementa o es manté, podem afirmar que el menjar és un reforçador perquè incrementa la conducta contingent, però si preguntem què fa que el menjar provoqui un increment de la resposta contingent, respondrem que el motiu és que el menjar és un reforçador. És a dir, tornem a ser allà mateix.

Per a sortir d'aquest estancament, s'han proposat algunes definicions alternatives basades en la privació i l'estat de necessitat que genera aquesta privació.

Hull (1943) definia un reforçador no per les característiques de l'estímul sinó per les seves propietats a l'hora de reduir un estat de necessitat. Per exemple, si un animal ha passat hores sense menjar, l'aliment serà un reforçador eficaç perquè permet reduir un estat de necessitat. En canvi, si l'animal està saciat, el menjar deixarà de ser un reforçador eficaç. Aquesta definició ens permet predir quan un estímul serà un bon reforçador.
D'una manera similar, Premack (1959) defineix un reforçador no en termes d'estímuls sinó d'activitat. Si observem a quines activitats es dedica lliurement un nen quan arriba a casa després de l'escola, probablement observarem que passa estones menjant, mirant la televisió, jugant a la play station, fent deures o llegint. Evidentment, cadascuna d'aquestes activitats variarà en freqüència d'aparició i no serà excessivament imprudent predir que dedicarà molt de temps a mirar la televisió i a jugar a la play station, i menys temps a fer deures o llegir un llibre.

D'aquesta manera, Premack parteix del supòsit que el patró global d'activitat d'un subjecte es pot analitzar en funció de les seves activitats components. Probablement, quan no hi ha cap tipus de restricció, el subjecte distribuirà el temps entre les diferents activitats d'una determinada manera, i que aquesta distribució reflectirà la preferència del subjecte per a cadascuna de les activitats. Si el nen de l'exemple dedica més temps a mirar la televisió que a llegir, llavors podem afirmar que prefereix la primera conducta que la segona. Ara bé, la distribució de les conductes pot variar en funció dels estats motivacionals. Si el nen no ha menjat res des de l'hora de dinar, és més probable que quan arribi a casa es dediqui a menjar i no pas a mirar la televisió.

En definitiva, segons Premack, la preferència no depèn del nombre o tipus d'activitat, sinó de la taxa d'execució de l'activitat amb relació a les opcions disponibles. Quant a la relació de reforçament, Premack afirma que una activitat preferida reforçarà una activitat menys preferida si la primera és contingent a la segona. Per exemple, si observem que el nen de l'exemple dedica un 70% del temps a mirar la televisió, un 10% a fer deures, un 10% a menjar i el 5% restant a llegir un llibre, podrem reforçar la conducta de llegir (poc preferida) si la fem contingent a la conducta de mirar la televisió (molt preferida).

Fer contingents dues conductes implica, en primer lloc, restringir la conducta més preferida i, en segon lloc, establir que només hi tindrà accés si prèviament ha dedicat un cert temps a la conducta menys preferida. Així, podem privar el nen de veure la televisió si abans no llegeix un capítol d'un llibre. Amb aquesta relació contingent observarem dos efectes: un increment de la conducta menys preferida i una disminució de la conducta més preferida. El nen pot dedicar en aquesta nova disposició un 30% del temps a llegir i un 55% del temps a mirar la televisió, i mantenir constant la resta de conductes.

De la mateixa manera, podem explicar el comportament d'una rata en una caixa de condicionament. Si l'animal porta 16 hores sense menjar i la posem en una caixa de condicionament amb una palanca i accés lliure a menjar, probablement observarem que dedica el 90% del temps a menjar i el 10% a altres conductes. Però si restringim l'accés al menjar al fet que prèviament pressioni la palanca, observarem un increment d'aquesta conducta. El principi explicatiu és el mateix: la restricció d'una conducta preferida i contingent, com menjar, a una conducta poc preferida, com prémer una palanca, reforçarà la conducta menys preferida.

Una conseqüència d'aquesta anàlisi és que qualsevol conducta pot actuar com a reforçador d'una altra conducta si es compleixen aquestes condicions. Si posem una rata en una caixa on hi ha disponible una roda d'activitat i aigua, és possible que si l'animal està saciat dediqui més temps a córrer que a beure, però un animal assedegat dedicarà més temps a beure que a córrer. Segons Premack, en el primer cas, córrer podrà reforçar la conducta de beure si restringim l'accés a la roda i el fem contingent a la resposta de beure. En el segon cas, beure pot reforçar la conducta de córrer si restringim l'accés a l'aigua i el fem contingent a la conducta de córrer.

Amb aquesta discussió sobre la definició de reforçador, hem deixat de banda el fet que determinats estímuls que no són biològicament potents també tenen la capacitat de reforçar els comportaments amb els que són contingents. Un estímul corrent en la nostra cultura servirà per a il·lustrar aquest punt.

El treball diari que desenvolupem, siguem empleats o empresaris, té una conseqüència important: els diners. És evident que les monedes i els bitllets no són estímuls primaris, ja que no són biològicament potents com l'aigua, el menjar, el plaer sexual o el confort. Hi ha un procés d'aprenentatge a partir del qual els diners es converteixen en un reforçador eficaç per a modular el nostre comportament. Quin és aquest aprenentatge que fa que un estímul inicialment neutre esdevingui en un reforçador? Al llarg de la nostra infància anem associant els diners amb tots els béns que podem obtenir amb ells. Un nen pot bescanviar uns cèntims d'euro per caramels, per joguines i altres objectes que són reforçadors primaris. De més grans, podem invertir els diners en objectes i activitats molt diferents. Podem anar a la discoteca, comprar el menjar diari, pagar el gas, l'electricitat, l'aigua, adquirir una casa i un cotxe, etc. Així, doncs, treballar ens proporciona diners i els diners anticipen la possibilitat de satisfer la majoria de les nostres necessitats bàsiques.

És possible que un estímul condicionat clàssicament amb un EI pugui servir com a reforçador?

En el mòdul "Condicionament clàssic pavlovià" hem vist, quan hem estudiat el condicionament de segon ordre, que si un EC (com ara un llum) s'aparella sistemàticament amb un EI, aquest EC es pot utilitzar com a EI en el condicionament clàssic si l'aparellem amb un EC nou (per exemple, un to). Si aparellem el to amb el llum, el to començarà a provocar la resposta condicionada com si el to s'hagués aparellat directament amb l'EI.

En el condicionament instrumental, el paper de l'EI el fa el reforçador. El paper d'EC primari és l'estímul neutre que esdevindrà un reforçador condicionat o secundari després d'aparellar-lo amb el reforçador primari. Posteriorment, el reforçador secundari pot actuar com a substitut del reforçador primari per a reforçar una conducta amb la qual es lliura contingentment.

Skinner (1938) va publicar una de les primeres demostracions de la capacitat d'un reforçador secundari per a reforçar una conducta instrumental.

Experiment de Skinner (1938)

En una primera fase de l'experiment va presentar repetidament a unes rates un so aparellat amb menjar. Durant aquesta fase de l'experiment, els animals no havien de fer cap conducta per a obtenir menjar; per tant, es tractava d'un procediment de condicionament clàssic. En la segona fase de l'experiment, es va deixar de presentar el menjar, i malgrat això, els animals van aprendre a prémer la palanca quan aquesta conducta activava el so. Evidentment, com que el so no es va tornar a aparellar amb el menjar durant la segona fase, no ens ha de sorprendre que la resposta de pressió de la palanca no persistís durant gaire temps. Aquest aspecte és un paral·lelisme més amb el condicionament de segon ordre.

Un concepte similar al de reforçador condicionat és el que Skinner va anomenar reforçador generalitzat.

Un reforçador generalitzat no és res més que un tipus especial de reforçador condicionat que s'ha aparellat amb molts reforçadors primaris diferents.

L'exemple dels diners que hem vist més amunt, serveix per a il·lustrar què és un reforçador generalitzat. Els diners els tenim associats amb reforçadors primaris molt diferents i, per això, esdevé un reforçador tan potent. Però el seu poder depèn que segueixi associat amb els reforçadors primaris tal com demostrava l'experiment d'Skinner. Si els diners deixessin de ser útils per a intercanviar-los per reforçadors primaris, difícilment trobaríem algú que treballés per a obtenir un grapat de trossos de papers de diversos colors.

Hi ha algunes variables com la quantitat i la naturalesa del reforçador que determinen directament la taxa de la resposta instrumental.

Experiment de Hutt (1954)

Per exemple, Hutt (1954) va manipular la quantitat i qualitat del reforçador que unes rates obtenien per prémer una palanca. Diferents grups de rates obtenien quantitats petites, mitjanes o grans de menjar si duien a terme la resposta instrumental. El menjar consistia en una massa líquida d'aigua, llet i farina. Hutt va manipular la qualitat del menjar fent més agradable la massa bàsica afegint-hi sacarina, fent-la desagradable amb àcid cítric o deixant la massa bàsica sense additius.

Els resultats trobats per Hutt (1954) van ser que la taxa de resposta de pressió de palanca incrementava d'una manera directament proporcional a la quantitat i qualitat del reforçador. És a dir, la taxa de resposta era més gran quan proporcionava més quantitat de reforçador. També la taxa de la resposta era més gran quan la qualitat del reforçador millorava.

Vegem ara una situació diferent:

Imaginem que un bon dia que som a la feina ens crida el cap per a comunicar-nos que a partir del mes següent cobrarem un 50% més de sou per la mateixa feina i, efectivament, al final de més ens ingressen els diners tal com ens havien promès. Tindrà algun efecte sobre el nostre comportament amb relació a les tasques que fèiem habitualment (recordem que en aquest cas hipotètic no se'ns demana res a canvi)?. És molt probable que, a part de l'alegria i incredulitat que ens pot provocar l'inèdit fet, treballem amb més entusiasme, almenys, durant un temps.

Realment succeirà així? Al laboratori s'han estudiat situacions similars a la descrita en la situació presentada i els resultats confirmen aquestes prediccions.

Experiment de Crespi (1942)

Crespi (1942) va entrenar tres grups de rates a córrer per un corredor per a obtenir menjar. Durant una primera fase de l'experiment, cada grup rebia una quantitat diferent de reforçador quan arribava a la caixa meta. Un dels grups rebia quatre boletes de menjar, un altre grup rebia 16 boletes de menjar i el tercer grup rebia 64 boletes de menjar. Al final d'aquest primer entrenament, i tal com calia esperar, el grup que rebia la quantitat més petita de reforçador era el que corria més lentament (aproximadament, 1,5 peus per segon), mentre que el que rebia la quantitat més gran era el que corria més (aproximadament, 3,5 peus per segon). El grup que rebia una quantitat mitjana va mostrar una velocitat de carrera entre els altres dos grups (aproximadament, 2,5 peus per segon). El més interessant va ser la manipulació que va fer Crespi en una segona fase de l'experiment: va igualar la quantitat de boletes de menjar en els tres grups de manera que tots van rebre 16 boletes de menjar. Per tant, hi havia un grup que va passar de rebre quatre boletes a rebre'n 16, un altre grup que va passar de rebre'n 64 a rebre'n 16 i un tercer grup, el grup de control, que no va experimentar cap canvi en la quantitat de reforçador. Podem fer una primera predicció del comportament dels animals en aquesta segona fase.

Si la intensitat de la resposta instrumental depèn del valor absolut de la quantitat de reforçador, llavors els tres grups haurien de manifestar la mateixa velocitat de carrera durant la segona fase, ja que els tres grups van rebre la mateixa quantitat de reforçador.

En realitat, els resultats no es van ajustar a aquesta predicció. Evidentment, el grup de control que no va experimentar cap canvi en la quantitat de reforçador va mantenir la seva velocitat de carrera. En canvi, el grup que havia estat rebent la quantitat petita, va mostrar una velocitat de carrera superior a la del grup de control (entorn de 3,5 peus per segon), mentre que el que va veure reduïda la quantitat de reforçador en la segona fase va mostrar una velocitat de carrera inferior (aproximadament, 1,5 peus per segon) a la del grup de control.

Els canvis en la conducta observats quan s'incrementa la quantitat de reforçador s'anomenen contrast positiu, mentre que els canvis de conducta causats per una reducció de la quantitat habitual de reforçador reben el nom de contrast negatiu.

En definitiva, els efectes de contrast positiu i negatiu posen en relleu que els efectes de la quantitat (i també de la qualitat) d'un reforçador concret depenen de la quantitat (i qualitat) dels reforçadors que un individu ha experimentat en el passat.

Flaherty i els seus col·legues han estudiat quins mecanismes poden estar implicats en els efectes de contrast. Tot i ser lluny encara d'una resposta prou convincent, sembla que els mecanismes de cada efecte de contrast, positiu i negatiu, són mediats per mecanismes diferents (Flaherty, 1996). L'efecte de contrast negatiu és més robust que el de contrast positiu. Entre els diferents mecanismes responsables del contrast negatiu s'ha proposat que un canvi a una recompensa pitjor pot provocar un estat de frustració (Amsel, 1992). Flaherty (1996) proposa que el canvi a una recompensa petita provocaria canvis cognitius i de conducta. Inicialment, el fet de trobar una recompensa més petita que l'esperada activaria respostes de recerca de millors fonts d'alimentació. Quan aquestes conductes exploratòries no tenen èxit, llavors es produeixen canvis emocionals de desencís i la conducta s'adapta a la nova situació.

4.4.La relació resposta-reforçador: contigüitat temporal i contingència

Al llarg del mòdul estem presentant situacions en les quals la conducta produeix i és controlada per les seves conseqüències. La conducta flueix en un continu i al mateix temps al nostre voltant es produeixen infinitat d'estímuls. Tot plegat pot semblar caòtic, però els processos d'aprenentatge ens permeten extreure quines regularitats es produeixen al nostre entorn. Podem arribar a determinar si alguns estímuls depenen del nostre comportament i quins estímuls no es troben sota el nostre control.

També és cert que les relacions entre la nostra conducta i les conseqüències no són sempre determinants com la manipulació de l'interruptor i el llum, sinó que són probabilístiques.

El descobriment de totes les possibles relacions entre esdeveniments, i en el cas que ens ocupa en aquest mòdul, entre la conducta i les seves conseqüències, ens permet adaptar-nos a l'entorn en funció de les nostres necessitats. El nostre objectiu ara és analitzar quins mecanismes permeten als organismes detectar les regularitats entre el nostre comportament i les seves conseqüències.

Com hem vist en el mòdul "Condicionament clàssic pavlovià" a l'hora d'explicar com es detectaven les relacions entre estímuls, hi ha dos tipus de principis que s'han tingut en compte a l'hora d'explicar per què dos esdeveniments queden associats. El primer principi és el de la contigüitat temporal i el segon principi és el de la contingència.

1) Principi de la contigüitat temporal

La perspectiva tradicional del condicionament, tant clàssic com instrumental, és que la contigüitat temporal és la condició que determina si es formaran les associacions. Si quan entrem a una habitació que és a les fosques premem l'interruptor, el llum s'encén immediatament i podem detectar ràpidament la relació entre la conducta i la seva conseqüència. Però que succeiria si introduíssim una demora entre els dos esdeveniments? Serem capaços de detectar la relació entre resposta i reforçador? La investigació duta a terme en què es manipulava la demora entre la resposta i el reforçador ha mostrat que a mesura que s'incrementava la demora, l'aprenentatge era més feble.

Experiment de Dickinson, Watt i Griffiths (1992)

Dickinson, Watt i Griffiths (1992) van dur a terme un experiment en què les rates havien de prémer la palanca per a obtenir una boleta de menjar. La manipulació experimental consistia a introduir diferents demores entre la resposta i el reforçador. En quatre grups diferents d'animals es van utilitzar demores de 2, 4, 24 i 64 segons. Així, en el cas del grup amb una demora de dos segons, la pressió de palanca proporcionava el reforçador dos segons després que s'hagués produït la resposta i en el grup amb la demora de 64 segons, el reforçador apareixia 64 segons després d'executar cada pressió de palanca. Es va mesurar la taxa de pressió de palanca i es va obtenir que a mesura que s'incrementava la demora la taxa disminuïa. El grup que tenia una demora de dos segons, pressionava la palanca amb una taxa de 20 respostes per minut; el grup amb una demora de quatre segons responia set vegades per minut; el grup amb 64 segons de demora va respondre només una vegada per minut.

Sovint ens trobem amb situacions que no proporcionen la recompensa immediatament; no obstant això, aprenem les relacions entre la nostra conducta i el reforçador.

Si posem monedes en una màquina de refrescs i premem el botó adequat, el refresc cau amb una demora molt breu. Però succeeix el mateix amb una màquina de cafè? Normalment, les màquines de cafè dispensen la beguda amb una demora relativament llarga, el temps que es necessita per a moldre el gra de cafè i filtrar l'aigua pel cafè mòlt. Prémer el botó per a cridar un ascensor també inclou una demora si l'ascensor no es troba a la mateixa planta des d'on el cridem. Què fa que puguem aprendre la relació entre la resposta i el reforçador malgrat les demores que hi ha entre ells?

Si fem una anàlisi més acurada de les situacions de la màquina de cafè i de l'ascensor, ens adonarem que entre la resposta i el reforçador apareixen una sèrie d'estímuls. Per exemple, un cop hem premut el botó del cafè exprés es posen en marxa els mecanismes necessaris per a moldre el cafè i després la bomba que fa circular l'aigua. Tots aquests mecanismes produeixen un sons específics que es presenten immediatament després de la resposta i s'allarguen fins que el cafè està preparat. Seran aquests estímuls els responsables que puguem aprendre la relació entre la nostra conducta i el reforçador?

Experiment de Reed (1999)

En un treball de Reed (1999) va entrenar uns participants perquè escollissin una de dues tecles d'un teclat d'ordinador, la A i la L. Prémer la tecla A anava seguit el 75% de les vegades del parpelleig d'un triangle dibuixat a la pantalla, mentre que prémer la tecla L no provocava mai el parpelleig. Per a un dels grups (grup immediat), el parpelleig es produïa immediatament després de prémer la tecla A. En canvi, per a dos grups més, el parpelleig del triangle es produïa cinc segons després de la resposta. En un d'aquests dos grups amb demora, entre el moment de la resposta i el reforçador no passava res (grup no assenyalat), mentre que per a l'altre grup, immediatament després de prémer la tecla A, apareixien quatre X properes al triangle i desapareixien en el moment en què es presentava el parpelleig del triangle (grup assenyalat). Finalment, es demanava als participants que valoressin la relació entre prémer qualsevol de les tecles, A i L, amb la conseqüència. Tots els grups van assenyalar que la tecla L no tenia cap relació amb el parpelleig del triangle, però van discrepar en la relació donada entre la tecla A i el parpelleig. El grup immediat va ser el que va trobar una relació alta, entorn de 95 en una escala de 0 a 100. El grup no assenyalat va trobar una relació baixa, uns 30 punts. Finalment, el grup assenyalat va puntuar lleugerament per sobre dels 50 punts.

Els resultats van mostrar que quan s'assenyalava un reforçador demorat incrementava els judicis de la relació causal entre resposta i reforçador amb relació al moment quan el reforçador demorat no anava assenyalat. Però per què el senyal que omple la demora redueix els efectes perjudicials de la demora?

La resposta més habitual és que el senyal actua com a reforçador condicionat o secundari. Pel seu aparellament amb el reforçador, forma una associació clàssica amb aquest. Un cop formada aquesta associació, el participant pot relacionar la resposta amb el senyal que, al seu torn, indica la presentació del reforçador. Les persones que no detecten la relació entre la il·luminació de la tecla de l'ascensor un cop l'han presionada i la seva arribada, poden persistir en la resposta si l'ascensor triga més del que poden suposar raonable.

Un altre fenomen relacionat amb la demora del reforçador és el que s'anomena hipòtesi del marcatge.

Experiment de Lieberman, McIntosh i Thomas (1979)

Lieberman, McIntosh i Thomas (1979) van ser els primers a descriure aquest fenomen. Van utilitzar un aparell adaptat expressament als objectius del seu experiment. L'aparell consistia en una caixa de sortida que donava pas a la caixa d'elecció. A la paret del fons d'aquesta caixa hi havia dos passadissos que corrien paral·lels i que desembocaven en una caixa comuna de demora. Els dos passadissos es distingien pel color, ja que un era negre i l'altre era blanc. Finalment, la caixa de demora donava pas a la caixa meta on es proporcionava el menjar. Els subjectes experimentals van ser rates. Un assaig consistia a deixar una rata a la caixa de sortida. Després, s'obria la porta que comunicava amb la caixa d'elecció i un cop l'animal hi havia entrat havia d'escollir un dels dos passadissos possibles. Quan havia travessat el passadís escollit, l'animal entrava a la caixa de demora on quedava confinat durant 60 segons. Passats els 60 segons, s'obria la porta que donava accés a la caixa meta. Les rates trobaven menjar si en la seva elecció havien triat un braç concret, per exemple el de color blanc, però no hi havia menjar si havia escollit el braç negre. Per tant, una bona actuació dels animals era escollir el braç blanc en cada assaig. No obstant això, els animals entrenats en aquestes condicions escollien el braç correcte un 50% dels cops després de 50 assajos de condicionament, cosa que indicava que no havien après en absolut la relació entre escollir el braç blanc i trobar menjar a la caixa meta, la qual cosa constitueix un exemple més dels efectes perjudicials de la demora. L'experiment constava d'un segon grup que va rebre el mateix tractament excepte que un cop havien escollit qualsevol dels dos braços, era l'experimentador qui els agafava i els situava a la caixa de demora i, 60 segons després, els tornava a agafar i els deixava a la caixa meta on trobaven o no trobaven el reforçador en funció del braç triat.

Lieberman i els seus col·laboradors van designar aquesta manipulació experimental com un marcatge de la conducta clau. Com que el marcatge apareixia tant en les respostes correctes com incorrectes, no tenia possibilitats d'actuar com un reforçador secundari. A diferència del grup no marcat, el grup marcat va aprendre la discriminació i en els deu darrers assajos d'entrenament feien el 90% d'eleccions correctes.

L'explicació donada per Lieberman i els seus col·laboradors del fenomen del marcatge és que quan es produeix un efecte intens és marca la resposta que s'estava duent a terme en aquell moment. L'efecte del marcatge seria facilitar l'enregistrament a la memòria del que succeïa en el moment del marcatge i d'aquesta manera permetria associar millor aquestes respostes amb les conseqüències.

El fet que hi hagi un deteriorament del condicionament amb demores llargues en la presentació del reforçador no significa que no hi hagi situacions en què es pot obtenir aprenentatge quan es retarda el reforçador, malgrat que no hi hagi reforçadors condicionats ni el marcatge de la resposta instrumental.

Experiment de Williams (1975)

Per exemple, Williams (1975) va entrenar uns coloms en una caixa de condicionament perquè picotegessin una tecla de resposta que s'il·luminava durant cinc segons. Les respostes de picotejar la tecla es reforçaven amb la presentació de menjar nou o deu segons després que s'apagués la tecla il·luminada. Aquesta demora del reforçament no va impedir el condicionament: els animals van aprendre a picotejar la tecla il·luminada. L'experiment de Williams incloïa un segon grup de coloms. El tractament rebut va ser idèntic excepte que en finalitzar la demora i just abans que es presentés el menjar, s'il·luminava una segona tecla d'un color diferent. Aquesta simple manipulació experimental va donar com a resultat un descens dramàtic de la resposta instrumental de picotejar la primera tecla. Els subjectes van atribuir l'aparició del menjar a l'estímul que el precedia immediatament en lloc de fer-ho a les respostes donades alguns segons abans.

Sempre es pot argumentar que en l'experiment de Williams la segona tecla mantenia una contigüitat temporal millor amb el reforçador que no pas la resposta de picotejar la primera tecla i, per tant, s'ajusta, d'alguna manera, al principi de contigüitat. No obstant això, la resposta instrumental mantenia la mateixa contigüitat temporal en els dos grups de coloms (una demora de nou o deu segons) i, segons el principi de la contigüitat temporal per si sol, la presència d'un segon estímul no hauria d'haver interferit en l'aprenentatge resposta-reforçador.

Torres bessones

Un paral·lelisme als efectes del marcatge seria el fet que moltes persones podem recordar perfectament el que fèiem en el moment que ens vam assabentar dels atemptats contra les torres bessones o contra els trens de rodalies a Madrid. Aquests esdeveniments intensos van permetre enregistrar a la nostra memòria les conductes que fèiem en el moment d'assabentar-nos-en tot i que fossin irrellevants o rutinàries.

Experiment de Pearce i Hall (1978)

En un altre treball de Pearce i Hall (1978) es va entrenar unes rates a prémer la palanca per a obtenir menjar amb un programa d'interval variable (vegeu l'apartat següent sobre programes de reforçament; ara per ara només cal emfatitzar que aquest programa de reforçament és intermitent i fa que no totes les respostes vagin seguides de reforçador, és a dir, la relació resposta reforçador és imperfecta). A un dels grups es va presentar un predictor perfecte del menjar en disposar que les pressions de palanca reforçades també provoquessin un estímul extern, breu. Aquest estímul afegit que no apareixia en cap altre moment i, per tant, estava perfectament correlacionat amb el reforçador va interferir significativament amb l'establiment de les pressions de palanca, i presumiblement, amb l'aprenentatge de l'associació entre la pressió de palanca i el reforçador. En canvi, en els grups de control en els quals no apareixia aquest estímul extern o bé apareixia però d'una manera no correlacionada amb el reforçador, es va observar un bon condicionament de la resposta de pressió de palanca.

2) Principi de la contingència

Una conseqüència del principi de contigüitat temporal és que qualsevol resposta que fos seguida del reforçador hi quedaria associada. No obstant això, hem presentat prou exemples que indiquen que la contigüitat temporal no és suficient ni necessària per a l'establiment d'associacions, del contrari tindríem el cap ple d'associacions irrellevants.

Segons Mackintosh (1983) si la funció del condicionament és detectar les relacions causals entre esdeveniments, aquesta capacitat s'ha de basar en un mecanisme que impedeixi la formació de les associacions irrellevants.

Quin és aquest mecanisme que assegura un bon condicionament dels bons predictors del reforçador a expenses dels pitjors predictors? En estudiar el condicionament clàssic hem vist els experiments de Rescorla (1967, 1968), en els quals es demostrava que el condicionament depenia de la contingència entre l'EC i l'EI, és a dir, de la probabilitat que l'EI es presentés en presència de l'EC i en la seva absència. Aquest mecanisme també és responsable del condicionament instrumental?

Si recordem els procediments de condicionament instrumental, tindrem present que una de les variables que cal tenir en compte a l'hora d'estudiar aquest procediments és la relació positiva o negativa entre la resposta i l'estímul consegüent. Parlàvem d'una relació positiva quan l'estímul consegüent es presentava només si es produïa la resposta i dèiem també que la relació negativa implicava que la resposta feia desaparèixer un estímul rellevant. En termes de probabilitat resposta-reforçador, podem dir que tant en el reforçament com en el càstig positiu la probabilitat de l'estímul apetitiu i aversiu, respectivament, en presència de la resposta és 1, mentre que la probabilitat que apareguessin aquests estímuls en absència de la resposta és 0. En el cas del reforçament i del càstig negatiu, la relació s'inverteix de manera que la probabilitat de l'estímul aversiu i apetitiu, respectivament, en presència de la resposta és 0, mentre que la probabilitat que apareguessin aquests estímuls en absència de la resposta és 1.

D'altra banda, quan s'ha estudiat directament el paper de la contingència en el condicionament instrumental s'ha observat que aquest factor és més important que la contigüitat temporal.

Experiment de Hammond (1980)

En una investigació, Hammond (1980) va establir que el 5% de les respostes de pressió de palanca d'unes rates proporcionessin aigua com a reforçador. Formalment, la probabilitat del reforçador segons la resposta era de 0,05, o p(Rf/Rs) = 0,05, en què Rf és el reforçador i Rs, la resposta. El reforçador, però, no es presentava mai si abans no s'executava la resposta, és a dir, que la probabilitat del reforçador en absència de la resposta era igual a zero, o p(Rf/no-Rs) = 0. Aquesta disposició assegurava que els animals rebessin un reforçador cada 20 segons si, i només si, havien premut la palanca. En una segona fase, Hammond va introduir presentacions gratuïtes d'aigua de manera que la probabilitat d'obtenir aigua sense prémer la palanca igualava la probabilitat de rebre l'aigua quan executaven la resposta instrumental.

Els resultats van ser clars, quan l'única manera possible d'obtenir aigua era prémer la palanca, la taxa de resposta era alta, però quan el reforçador era igual de probable si es responia o no es responia, els animals van deixar de prémer la palanca. Els resultats demostren que els animals eren sensibles a les diferents contingències resposta reforçador i la seva actuació era controlada per aquestes contingències.

En un experiment amb estudiants universitaris, Chatlosh, Neunaber i Wasserman (1985) van trobar resultats similars.

Experiment de Chatlosh, Neunaber i Wasserman (1985)

En aquest cas, es va demanar als estudiants que en cada assaig premessin o no premessin una tecla. La tasca consistia a esbrinar si prémer la tecla tenia algun efecte sobre l'encesa d'un llum blanc. Finalment, els participants havien d'estimar el grau de relació entre la resposta i el llum blanc en una escala de –100 a +100 (un valor negatiu indicava que la resposta evitava que s'encengués el llum, mentre que puntuacions positives volia dir que la resposta feia encendre el llum). Els experimentadors van variar la contingència entre resposta i conseqüència que anava de –,75 a +,75.

Les dades van mostrar que les puntuacions estimades dels participants s'ajustaven a les contingències reals.

5.Programes de reforçament

Un programa de reforçament és el conjunt de criteris que determinen si una conducta serà seguida de reforçador o no.

Aquests criteris s'estableixen, bàsicament, en termes del nombre de respostes necessàries que s'han d'executar i de quant de temps ha de transcórrer des de l'últim reforçador perquè el següent estigui disponible. Si bé els programes de reforçament poden influir en l'adquisició de noves conductes, el seu estudi s'ha centrat en els efectes que tenen sobre el manteniment de conductes ja adquirides i, també, en l'efecte que tenen sobre l'extinció de conductes que es volen eliminar.

L'estudi dels programes de reforçament s'ha dut a terme principalment en situacions d'operant lliure que permeten veure la conducta al llarg del temps i s'ha trobat que els diferents programes simples de reforçament provoquen patrons de resposta ben definits i diferenciats.

5.1.Programes de reforçament continu

Pràcticament, tots els exemples que hem vist fins ara eren controlats per un programa de reforçament continu. Això significa que cada vegada que apareix la resposta operant va seguida del reforçador.

Si posem les monedes pertinents en una màquina de cafè i premem el botó corresponent a cafè exprés, sempre obtindrem la beguda. Si introduïm un got de llet al microones durant un temps apropiat, obtindrem la temperatura volguda per a prendre'ns la llet. Si manipulem un interruptor, s'encendrà el llum si estava apagat o s'apagarà si estava encès.

Un programa de reforçament serà útil per a mantenir la taxa de resposta. Ara bé, no totes les conductes que fem porten sempre a l'obtenció del reforçador.

Un jugador de bàsquet pot llançar a cistella diverses vegades durant un partit però no sempre obtindrà el resultat volgut, sinó que encistellarà només un percentatge dels seus llançaments. Podem trucar per telèfon, però no sempre aconseguim posar-nos en contacte amb la persona volguda, ja que de vegades comuniquen i de vegades no responen. Si ens trobem en un semàfor que canvia de vermell a verd i el cotxe de davant no avança, podem tocar la botzina i probablement el conductor despistat es posarà en marxa, però si ens trobem en un embús de trànsit per molt que toquem la botzina, els cotxes no es posaran en moviment.

En totes aquestes situacions, la resposta va seguida a vegades del reforçador i d'altres vegades, no. No obstant això, la resposta es manté. No deixarem de llançar a cistella si fallem uns llançaments, ni deixarem de fer trucades telefòniques tot i que no haguem pogut comunicar-nos amb la persona que ens interessava, ni deixarem de tocar la botzina quan ens trobem amb el cotxe del davant aturat. Aquests tipus de programes en què la resposta no va seguida sempre del reforçador reben el nom de programes de reforçament parcial o intermitent.

5.2.Programes de raó

L'únic criteri que defineix un programa de raó és que la resposta es produeixi un determinat nombre de vegades abans de proporcionar el reforçador. Quan el nombre de respostes necessari per a cada reforçador és constant rep el nom de raó fixa i s'abreuja RFn, en què n és el valor de la raó.

Una rata que està sotmesa a un programa de reforçament RF25 rebrà el reforçador cada 25 respostes, això és, les primeres 24 respostes no seran reforçades i la que fa 25 rebrà el reforçador. Un cop ha rebut el reforçador es torna a iniciar la raó.

Esquema d'un programa de reforçament de raó.

A la part superior es mostren les respostes produïdes al llarg del temps i els reforçadors obtinguts. En aquest cas, l'animal rep un reforçador cada cinc respostes i es tracta d'un programa de raó fixa 5 o RF5. A la part inferior, l'animal ha rebut un reforçador després de quatre, set, tres i sis respostes. En aquest cas, es tracta d'un programa de raó variable. Si calculem la mitjana aritmètica de les quatre raons obtindrem que l'animal ha necessitat una mitjana de cinc respostes per a cada reforçador, per això el programa és de RV5.

Fora del laboratori podem trobar exemples de programes de reforçament de raó fixa:

Una persona que ha de vendre un nombre determinat de productes per tal de cobrar els incentius, teclejar nou dígits per a establir una trucada telefònica o pujar els graons de l'escala fins al primer pis.

En tots aquests exemples, cal donar un nombre fix de respostes abans d'assolir el reforçador.

Un cas particular de programa de reforçament de raó fixa és l'RF1. Si el nombre de respostes necessàries per a cada reforçador és 1, llavors el programa és de reforçament continu, ja que cada resposta serà seguida del reforçador.

Els programes intermitents de raó fixa generen un patró de resposta característic. Si la raó és prou gran es pot observar que els animals deixen de respondre durant un temps cada vegada que reben un reforçador. La taxa zero que s'observa després de cada reforçador s'anomena pausa postreforçament. Després de la pausa, els animals inicien les respostes amb una taxa alta i estable fins que obtenen el reforçador següent. La taxa de respostes donades pels animals s'anomena carrera de la raó. Quan s'entrena un animal (o una persona) sota un programa de RF, es comença per raons baixes i progressivament es va incrementant la raó fins a arribar a la raó volguda. Cal tenir en compte, però, que els increments de la raó no poden ser excessivament grans si no volem que es deixi de respondre.

Efectivament, cada vegada que incrementem la raó d'una manera sobtada i significativa apareix un efecte que rep el nom de tensió de la raó que consisteix en el fet l'animal efectua pauses periòdiques durant la carrera de la raó. Si la tensió de la raó és extrema, llavors l'animal podria deixar de respondre. La pausa postreforçament s'ha explicat com un efecte de la predictibilitat del nombre de respostes necessàries per a cada reforçador. A més, se suposava que la durada de la pausa estava relacionada amb l'esforç requerit per la raó precedent, és a dir, la pausa postreforçament s'interpretava com un efecte directe de la conducta immediatament precedent. No obstant això, Baron i Herpolsheimer (1999) van trobar que la pausa postreforçament era controlada per la raó subsegüent més que per la raó immediatament prèvia.

La interpretació d'aquestes dades és que els animals no fan la pausa postreforçament per a descansar, sinó que més aviat estan avaluant l'esforç requerit per a assolir el reforçador següent.

Si completem un trencaclosques de 1.000 peces, és possible que deixem passar un cert temps abans no comencem a fer-ne el següent i que aquest temps serà més llarg si el trencaclosques següent és de 3.000 peces que si és de 1.000 peces.

Si la pausa fos determinada per l'esforç del trencaclosques que acabem de fer, la pausa seria la mateixa independentment del nombre de peces del trencaclosques següent.

D'altra banda, en els programes de reforçament de raó variable, el nombre de respostes requerides per a cada reforçador va canviant. Aquests programes s'abreugen RVn, en què n és el nombre mitjà de respostes donades per a aconseguir cadascun dels reforçadors.

Si fem una partida de billar en la qual hem d'introduir vuit boles als diferents forats, necessitarem un nombre diferent de tirades per a introduir cadascuna de les boles. Pot succeir que a la primera tirada encertem a introduir una bola en un dels forat o pot ser que necessitem diversos cops per a aconseguir-ho.

Si hem necessitat 2, 5, 10, 6, 9, 1, 10 i 5 cops per a introduir les vuit boles que ens corresponen, llavors haurem executat la nostra conducta sota un programa de RV6. Tingueu en compte que el valor 6 de la RV és la mitjana aritmètica del nombre de respostes requerides per a les vuit boles.

Més familiar pot ser l'exemple de les màquines escurabutxaques en les quals el jugador ha de dur a terme un conjunt de jugades per a rebre el reforçador però no sap mai quantes jugades ha de fer.

Com que en aquests programes la raó varia, no es pot predir el nombre de respostes necessàries per a cada reforçador, les pauses postreforçador desapareixen i, per tant, la taxa de respostes és molt més estable en els programes de RV que en els programes de RF.

5.3.Programes d'interval

A diferència dels programes de raó en els quals l'únic requisit per a obtenir el reforçador és donar un cert nombre de respostes, en els programes d'interval hi ha una segona condició que implica que ha d'haver transcorregut una determinada quantitat de temps des de l'últim reforçador perquè torni a estar disponible.

En els programes d'interval s'han de complir dos condicions per a obtenir el reforçador: executar la resposta instrumental i haver transcorregut una determinada quantitat de temps des de l'últim reforçador.

Si som afeccionats a les sèries televisives, per exemple Dr. House, podem ser reforçats si engeguem el televisor i sintonitzem el canal adequat el dia i l'hora d'emissió. Ara bé, un cop s'ha acabat el capítol de la setmana, engegar el televisor i sintonitzar el canal no produirà el reforçador. De fet, caldrà que transcorri una setmana fins que no torni a estar disponible la nostra sèrie preferida.

L'exemple fa referència a un període fix de temps (una setmana) i, per tant, parlarem de programa de reforçament d'interval fix una setmana o, d'una manera abreujada, IF1setmana. Al laboratori podem estudiar aquest tipus de programa i fer que un reforçador estigui disponible, per exemple, després de dos minuts que s'hagi obtingut el darrer reforçador. Això implica que, un cop s'ha dispensat un reforçador, durant els dos minuts següents no s'obtindrà un altre reforçador, tot i que l'animal respongui. Ara bé, un cop transcorreguts aquests dos minuts, el reforçador tornarà a estar disponible i la primera resposta que es doni serà reforçada i es tornarà a iniciar un altre interval de dos minuts. Cal tenir en compte que un programa d'interval no depèn només del temps, sinó que cal que l'organisme executi la resposta instrumental, del contrari el reforçador no es lliurarà. Si ja ha passat una setmana des de la darrera emissió de Dr. House, aquest estarà disponible una altra vegada, però no serem recompensats si no executem la resposta, això és, si no sintonitzem el canal apropiat.

Esquema

Esquema d'un programa de reforçament d'interval

A la part superior es mostren les respostes donades al llarg del temps i els reforçadors obtinguts. En aquest cas, l'animal rep un reforçador per la primera resposta que executa passats 60 segons des de la darrera resposta reforçada. Com que l'interval és constant, es tracta d'un programa d'interval fix 60 segons o IF60seg. A la part inferior, l'animal ha rebut un reforçador per la primera resposta donada després d'un interval de 45 segons i d'un interval de 75 segons. En aquest cas, es tracta d'un programa d'interval variable. Si calculem la mitjana aritmètica dels dos intervals, obtindrem un interval mitjà de 60 segons; per això, el programa és d'IV60seg.

Els programes d'IF generen un patró de respostes propi. Igual que els programes de RF, just després de rebre el reforçador, els organismes deixen de respondre, però a diferència dels programes de RF, quan es torna a respondre no es fa amb una taxa alta i estable, sinó que les respostes incrementen d'una manera exponencial. A mesura que transcorre l'interval, comencen a aparèixer algunes respostes tímidament, que van incrementant en la seva freqüència lentament fins que cap al final de l'interval la taxa de resposta es dispara. Això fa que el registre acumulatiu de respostes presenti una forma anomenada de fistó per la seva semblança a l'ornament de la vora d'alguns vestits o objectes que consisteix en un retallat en forma de dents corbes.

Per a exemplificar aquest patró de respostes fora del laboratori imaginem que anem a la parada de l'autobús i just quan hi estem arribant veiem que l'autobús marxa. Suposem que no portem cap rellotge, però sabem que l'autobús passa cada 20 minuts; per tant, mentre esperem el proper autobús seiem al banc i comencem a llegir un llibre. En aquesta situació la resposta instrumental és mirar carrer avall per tal de veure si arriba el proper autobús. El reforçador per a aquesta resposta és simplement veure arribar l'autobús. Pot semblar un reforçador massa feble, però un cop veus l'autobús, et pots posar dret i apropar-te a la via per a assegurar-te que el conductor et veu i s'atura. Al començament, la resposta de mirar carrer avall per tal de veure l'autobús pot no aparèixer en absolut, i podem llegir ininterrompudament durant cinc o deu minuts abans de donar el primer cop d'ull al carrer. La propera mirada al carrer pot aparèixer dos o tres minuts després i, a continuació, podem mirar cada minut. Després de 15 minuts d'espera, podem decidir deixar el llibre i mirar d'una manera continuada fins que arribi l'autobús.

Per què es produeix aquest patró fistonat de respostes? El primer aspecte important del patró de respostes observat en els programes IF és que els animals disposem d'algun mecanisme que ens permet mesurar el temps. Com que els intervals són fixos, els animals poden aprendre amb prou entrenament quina és la durada de l'interval. Així, un cop un animal acaba de rebre el reforçador, la probabilitat de rebre un nou reforçador és zero i, en conseqüència, no donarà respostes, però a mesura que va passant el temps, la probabilitat d'arribar al final de l'interval va incrementant i, per tant, també incrementa la probabilitat d'obtenir el reforçador. Com més temps passa, més alta és la probabilitat de rebre el reforçador i també la motivació per a respondre.

Una variant dels programes d'interval és fer que sigui imprevisible la durada de l'interval. En aquest cas, parlem de programes de reforçament d'interval variable o, abreujat, IV. Així, un programa d'IV2minuts indica que el temps mitjà dels intervals és de dos minuts, però en segons quins moments només caldrà esperar, per exemple, 30 segons perquè el reforçador estigui disponible i en altres moments l'espera serà més llarga, per exemple, tres minuts. El fet que la durada de l'interval sigui imprevisible fa que la taxa de resposta sigui més estable i, per tant, desaparegui el patró de resposta en forma de fistó.

Una situació que es trobaria sota un programa similar al d'interval variable és quan anem a buscar bolets. Si coneixem un racó on surten rovellons hi podem anar un dia qualsevol i collir tots els que hi trobem. Quan tornaran a estar disponibles més bolets no ho podem saber. De vegades, a l'endemà ja n'hi podem trobar, d'altres vegades potser no n'hem trobat fins al cap d'una setmana. Com que és imprevisible quan trobarem els rovellons, el més probable és que hi fem visites amb força freqüència.

En els programes d'interval simples, un cop que el reforçador està disponible, es manté disponible fins que s'executa la resposta instrumental, independentment de quan es dugui a terme. Si un colom està picotejant sota un programa IF2minuts, el reforçador estarà disponible passats dos minuts des de la darrera vegada que es va obtenir un reforçador. Si l'animal respon just en el moment que es compleixen els dos minuts rebrà el reforçador, però si s'esperen 20 minuts també serà reforçat. És a dir, un cop el reforçador està disponible ho estarà fins que es produeixi la resposta.

Si recuperem l'exemple de la sèrie televisiva Dr. House, ens podem adonar que hi ha una diferència important. Només serem reforçats si connectem el televisor durant l'hora següent a la que ha començat el programa, però passat aquest temps ja no es podrà veure.

Aquest tipus de restricció respecte a quant de temps estarà disponible el reforçador s'anomena espera limitada i es pot aplicar tant als programes d'interval fix com variable.

En la gràfica es mostren registres acumulats hipotètics generats pels quatre programes de reforçament simples. Es pot observar que els programes fixos (RF i IF) produeixen pauses postreforçament. D'altra banda, els programes de raó (RF i RV) produeixen taxes de resposta més elevades que els programes d'interval (IF i IV).

Lectura recomanada

Per a una revisió sobre l'habilitat de mesurar el temps:

J. Gibbon i R. M. Church (1992). Comparison of variance and covariance patterns in parallel and serial theories of timing. J. Exp. Anal. Behav. 05, 57(3): 393-406.

5.4.Comparació dels programes de raó i d'interval

Podem observar diverses similituds entre els programes de raó i d'interval. Ens els programes fixos, tant de raó com d'interval, s'observa una pausa després de rebre el reforçador. Aquestes pauses desapareixen quan els programes són variables. No obstant això, hi ha diferències notables respecte a la taxa de resposta que generen. Els programes de raó provoquen una taxa de resposta molt més alta que els programes d'interval.

Experiment de Reynolds (1975)

Reynolds (1975) va dur a terme un experiment en què va comparar un programa de RV amb un programa d'IV. Dos coloms van rebre menjar per picotejar una tecla de resposta. Un dels coloms va ser reforçat amb un programa de RV. La freqüència amb què obtenia menjar depenia de la taxa de resposta i del valor de la raó en cada moment. El segon colom va ser acoblat al primer de manera que cada vegada que aquest era reforçat, el reforçador quedava disponible per al segon colom sota el programa d'IV. Atès que el temps entre reforçadors del primer colom variava en funció del que trigava a donar les respostes necessàries per a obtenir cada reforçador, el segon colom estava sotmès a un programa d'IV. Aquesta tècnica de l'acoblament permetia que els dos coloms rebessin la mateixa quantitat de reforçadors i distribuïts d'una manera molt similar.

Els resultats de Reynolds (1975) van mostrar que la taxa de resposta del colom reforçat amb un programa de RV era molt més alta que la taxa de resposta del colom reforçat amb un programa d'IV. S'han trobat resultats similars en un estudi que va comparar els programes de RV i d'IV que utilitzava estudiants universitaris com a subjectes en lloc de coloms (Raia, Shillingford, Miller i Baier, 2000).

Per què els programes de raó provoquen taxes de resposta més elevades que els programes d'interval? Una primera resposta és que com que guanyar reforçadors a partir d'un programa de raó depèn exclusivament de l'actuació de l'organisme, mentre que en els programes d'interval el reforçador depèn a més a més del pas del temps, els primers provoquen més motivació que els segons.

En efecte, executar la resposta es troba completament sota el control de l'organisme, mentre que el pas del temps queda fora del seu control, de manera que en un programa de raó, com més es respongui més reforçadors es guanyen, mentre que en un programa d'interval no es reben més reforçadors per respondre més, sinó per respondre en el moment adequat.

Una explicació alternativa recorre a processos de reforçament en comptes de processos relacionats amb la motivació.

Però, què s'estaria reforçant d'una manera diferent en els programes de raó i d'interval que generés la diferència en la taxa de resposta observada? Una possibilitat és que en els programes de raó s'estigués reforçant temps entre respostes curts, mentre que en els programes d'interval es reforcessin temps entre respostes llargs. De fet, en un programa de raó com més ràpidament respongui el subjecte més reforçadors aconseguirà. Per tant, si l'organisme espera poc temps entre respostes, obté més reforçadors i s'estan afavorint temps entre respostes curts. En canvi, en un programa d'interval passa justament el contrari. Pensem en un programa d'IF1minut. Si l'animal respon amb una freqüència alta (temps entre resposta curt), pot executar moltes respostes durant l'interval que no seran reforçades (ni tampoc els temps entre respostes curts). D'altra banda, si l'animal s'espera prou temps entre una resposta i la següent, la probabilitat que el reforçador estigui disponible i, per tant, de rebre'l serà més alta. En conseqüència, el que s'estarà reforçant és que s'esperi un temps entre resposta i resposta, és a dir, es reforçaran temps entre respostes llargs.

5.5.Conducta d'elecció: programa concurrent i programa concurrent encadenat

Ja hem dit que la conducta és un continu i que a l'entorn s'esdevenen multitud de fets. Alguns d'aquest fets estan estretament relacionats amb les conductes i d'altres, no. A més, hi ha fets que mantenen una relació perfecta o determinant amb la conducta i d'altres, només una relació probabilística. També hem acceptat que els mecanismes d'aprenentatge ens permeten descobrir aquestes relacions. La qüestió que ara estudiarem és com distribuïm la nostra conducta en aquest continu.

És evident que constantment estem escollint què fer. Des de les eleccions més banals, com, per exemple, si mirem la televisió o si llegim una revista, fins a eleccions més importants com, per exemple, si establim una família o no. Cada alternativa que se'ns presenta té unes conseqüències concretes i, per tant, és molt possible que aquestes conseqüències influeixin en l'elecció final. Si analitzem els dos exemples que hem posat veurem que les eleccions que impliquen són diferents en el sentit que en el primer cas no exigeix cap compromís i podem anar canviant d'alternativa sempre que vulguem. Podem posar la televisió i mirar-la una estona i quan ens sembli podem llegir la revista, i a l'inrevés. En canvi, la segona elecció implica un compromís, almenys per a un determinat període de temps. Si decidim formar una família amb una parella, no serà massa comú canviar de parella i anar alternant amb la primera sempre que ens vingui de gust. Aquests dos tipus d'elecció s'han estudiat al laboratori utilitzant els procediments de programa concurrent i programa concurrent encadenat, respectivament.

5.5.1.Programa concurrent

La conducta d'elecció s'ha estudiat habitualment en laberints en forma de T, però actualment s'utilitza un procediment que permet estudiar la conducta en un continu.

En un experiment estàndard de programa concurrent, l'animal s'ubica en una caixa de condicionament on hi ha dos mecanismes de resposta, per exemple, dues palanques o dues tecles de resposta. Cadascuna d'aquestes alternatives està lligada a un programa de reforçament i les dues funcionen simultàniament. Els animals no tenen cap tipus de restricció i, per tant, poden anar alternant lliurement entre les dues opcions.

Com distribuiran les seves respostes entre les dues alternatives?

Abans de respondre a la pregunta hem de descriure amb més precisió el procediment i la mesura de la conducta d'elecció que s'utilitza en una situació com aquesta. Suposem que deixem un colom dins d'una caixa de condicionament on hi ha dues tecles de resposta. La que es troba a l'esquerra (tecla A) proporciona reforçament amb un programa, per exemple, d'IV30seg, i la que es troba a la dreta (tecla B), amb un programa de RV25. En aquesta situació, l'animal podrà respondre a la tecla de la dreta i de l'esquerra quan i com vulgui. Una manera de mesurar la resposta d'elecció és calcular la taxa relativa de resposta a cadascuna de les tecles. La taxa relativa de respostes a la tecla A, per exemple, es calcula dividint la taxa de resposta a la tecla A per la taxa de resposta total (la taxa en la tecla A més la taxa en la tecla B):

R_A/(R_A+R_B)

en què R_A és la taxa de resposta a la tecla A i R_B és la taxa de resposta a la tecla B.

Si un animal respon per igual a les dues alternatives, la taxa relativa de resposta a la tecla A serà igual a 0,5. Si mostra més tendència a respondre a la tecla A, llavors la taxa relativa de resposta a la tecla A serà més gran de 0,5, mentre que si mostra més tendència a respondre a la tecla B, llavors el valor de la taxa relativa de resposta a la tecla A serà més petita de 0,5.

Hem apuntat que l'elecció entre les alternatives serà influenciada pels reforçadors que es poden obtenir en cadascuna d'elles. Si tenim dos programes de reforçament IV30seg i IV60seg, els animals poden obtenir una quantitat de reforços diferent en cadascun d'ells. En el programa d'IV30seg es poden aconseguir dos reforçadors per minut, mentre que en el programa d'IV60seg només es pot aconseguir un reforçador per minut. És clar que el programa d'IV30seg és més avantatjós, i podríem pensar que el colom es dedicaria només a respondre a aquest programa. Però en tractar-se de dos programes d'interval, l'animal pot aconseguir, almenys teòricament, tots els reforçadors dels dos programes, si alterna d'una manera adequada entre les dues tecles de resposta. La taxa relativa de resposta ens donarà informació sobre la distribució de les respostes entre les dues alternatives.

Però també podrem calcular un altre paràmetre que ens permetrà veure si la distribució de respostes és influïda pel reforçament obtingut en cada alternativa. Aquest paràmetre és la taxa relativa de reforçament. Així, la taxa relativa de reforçament a la tecla A, per exemple, es calcula dividint la taxa de reforçament a la tecla A per la taxa de reforçament total (la taxa a la tecla A més la taxa a la tecla B):

r_A/(r_A + r_B)

en què r_A és la taxa de reforçament a la tecla A i r_B és la taxa de reforçament a la tecla B.

Herrnstein (1961) va estudiar sistemàticament com es distribuïen les respostes i els reforçadors en diferents combinacions de programes concurrents IV-IV. Va dissenyar diverses parelles de programes concurrents que permetessin entre els dos obtenir un màxim de 40 reforçadors en una hora. Per exemple, en un programa concurrent IV6min-IV2min, l'animal pot obtenir un màxim de deu reforçadors en una hora en el programa IV6min i un màxim de 30 reforçadors en el programa IV2min. Va treballar amb diversos coloms i va calcular les taxes relatives de respostes i de reforçadors en una de les tecles per a cada colom i en cada combinació de programes concurrents. Els resultats van ser sorprenents: els animals ajustaven la taxa relativa de respostes a una de les tecles de manera que s'apropava molt a la taxa relativa de reforçadors obtinguts en aquesta alternativa. Aquesta regularitat ha estat replicada moltes vegades i ha donat lloc a la llei de la igualació. Matemàticament, la llei de la igualació s'expressa de la manera següent:

R_A/(R_A + R_B) = r_A/(r_A + r_B)

en què R_A i R_B són les taxes de resposta a les tecles A i B, i r_A i r_B les taxes de reforçament a les tecles A i B.

El que estableix la llei de la igualació és, simplement, que les taxes relatives de resposta en una tecla determinada s'igualen a les taxes relatives de reforçament en la mateixa tecla.

La llei de la igualació s'ha mostrat vàlida per a altres paràmetres del reforçador com és la seva magnitud, immediatesa i qualitat, i també per a condicionament aversiu, o fins i tot per als programes simples de reforçament amb una única alternativa de resposta. S'han fet diferents adaptacions de l'expressió matemàtica de la llei de la igualació per a cadascun d'aquests paràmetres i situacions. No exposarem aquí totes aquestes reformulacions de la llei de la igualació, però sí que en presentarem un exemple quotidià.

Tothom està més o menys familiaritzat amb l'esport del bàsquet i les seves regles. Un jugador pot escollir al llarg del partit fer llançaments des de dins de la zona, amb la qual cosa s'aconsegueixen dos punts per cistella, o fer llançaments des de fora de la zona, amb la qual cosa s'aconsegueixen tres punts per cistella. Considerem els llançaments a cistella com la resposta instrumental, l'encistellada com el reforçador i els punts obtinguts amb cadascun dels dos tipus d'encistellada com la magnitud del reforçador. En la taula es mostra l'estadística de llançaments i encistellades de dos jugadors professionals de bàsquet de la Penya durant la temporada 2007-2008.

Jugador	Dos punts			Tres punts
Jugador	Encistellades	Punts	Llançaments	Encistellades	Punts	Llançaments
Rudy Fernández	105	210	177	90	270	220
Demond Mallet	37	74	82	88	264	207

Podem calcular la taxa relativa de llançaments de tres punts per a cadascun dels dos jugadors.

Rudy: R₃/(R₃ + R₂) = 220/(220 + 177) = 0,55
Mallet: R₃/(R₃ + R₂) = 207/(207 + 82) = 0,72

A continuació, calculem la taxa relativa de reforçament (encistellades) de tres punts dels dos jugadors:

Rudy: r₃/(r₃ + r₂) = 90/(90 + 105) = 0,46
Mallet: r₃/(r₃ + r₂) = 88/(88 + 37) = 0,70

I, finalment, calculem la taxa relativa de la magnitud del reforçador (punts) de tres punts:

Rudy: M₃/(M₃ + M₂) = 270/(270 + 210) = 0,56
Mallet: M₃/(M₃ + M₂) = 264/(264 + 74) = 0,78

Podem veure que la llei de la igualació es compleix en el primer jugador pel que fa a la magnitud del reforçador, mentre que per al segon jugador, la llei es compleix per a la freqüència del reforçament. Sembla ser que per a cadascun del dos jugadors l'elecció dels llançaments de dos o tres punts és determinada per diferents aspectes del reforçador: en el primer jugador és la magnitud del reforçador la que controla la seva elecció del tipus de llançament, mentre que per al segon jugador és la freqüència d'encistellades de cada tipus de llançament la que en controla les eleccions.

En l'exemple hem vist com s'aplica la llei de la igualació en una situació real. Les dades obtingudes s'ajusten d'una manera bastant precisa a les prediccions de la llei de la igualació. No obstant això, Baum (1974) va identificar tres errors sistemàtics en situacions d'elecció: biaixos, sobreigualació i infraigualació.

Els biaixos s'observen quan els subjectes tenen una preferència clara per una de les alternatives de resposta, per exemple, la palanca de la dreta. En aquests casos, la preferència per un dels mecanismes de resposta interfereix en els paràmetres de la recompensa i produeix un biaix respecte al que preveu la llei de la igualació.
La sobreigualació fa referència a una taxa de resposta superior per al millor dels dos programes amb relació al que prediu la fórmula de la igualació. Aquest error es produeix quan hi ha un cost addicional per a canviar d'una alternativa a l'altra. Per exemple, és comú que en un programa concurrent les primeres respostes després del canvi no siguin reforçades per a evitar que se'n reforci precisament l'alternança. Aquesta tècnica s'anomena temps fora i si és relativament llarg acostuma a produir la sobreigualació.
El tercer error que ha detectat Baum és la infraigualació i es refereix al fet que la taxa de resposta a l'alternativa millor és més baixa que la que cal esperar a partir de la llei de la igualació.

Per tal de tenir en compte aquests errors en la llei de la igualació, Baum (1974) va reformar l'equació de la llei introduint-hi dos paràmetres que corregissin els errors identificats:

R_A/R_B = k(r_A/r_B)^s

en què R_A, R_B, r_A i r_B són les respostes i les freqüències del reforçador en els programes A i B, respectivament; k és una constant que representa el biaix de resposta i s és un exponent que regula la sensibilitat del subjecte vers els dos programes.

Quan les dues constants, k i s, valen 1, llavors la llei de la igualació manté la seva formulació original. Si s té un valor superior a 1, llavors es produeix sobreigualació, i si té un valor inferior a 1, es produeix infraigualació.

Un altre problema de la llei de la igualació és que no es compleix si els programes de reforçament a les dues alternatives són de raó. Si presentem dues alternatives amb dos programes RV5 i RV15, la llei de la igualació prediu que s'escollirà el programa més favorable (RV5) el 75% del temps. En canvi, els animals escullen exclusivament el programa més favorable. En tractar-se de programes de raó, la situació canvia notablement respecte als programes d'interval, i, en aquesta nova situació, respondre al programa menys favorable (RV15) fa perdre reforçadors que s'haguessin guanyat si s'hagués dedicat el mateix nombre de respostes al programa més favorable.

La llei de la igualació només fa una descripció del comportament en situacions d'elecció concurrent però no explica per què es produeix aquesta alternança. S'han proposat diverses teories per a explicar la conducta d'elecció. Una d'elles és la que es coneix amb el nom de maximització.

La idea central és que els animals alternen entre dues fonts de reforçament per tal d'aconseguir el màxim de reforçadors.

En els programes concurrents IV-IV, la disponibilitat del reforçador depèn, a més a més de la resposta, del pas del temps. Això implica que encara que l'animal estigui responent a l'alternativa A, el temps també passa per l'alternativa B, amb la qual cosa la probabilitat que el reforçador torni a estar disponible a l'alternativa B incrementa. Imaginem que l'animal ha dedicat 50 segons a picotejar l'alternativa A fins a rebre el reforçador. A partir d'aquest moment la probabilitat de rebre el reforçador a l'alternativa A és molt baixa i probablement la probabilitat de rebre el reforçador en el programa B hagi augmentat, ja que ha passat més temps des que va rebre l'últim reforçador en aquest programa. Si això és així i l'animal vol maximitzar els reforçadors, el més avantatjós és canviar a l'alternativa B.

Tot i que la teoria de la maximització pot explicar l'alternança entre dos programes IV-IV i la dedicació al programa millor de dos programes RV-RV, no pot explicar per què les taxes relatives de resposta s'ajusten a la llei de la igualació. Per exemple, si un animal està sotmès a una elecció IV30seg-IV60seg, podria obtenir el màxim de reforçament si es dedica al programa IV30seg i cada 60 segons canvia al programa IV60seg. Però també obtindria el màxim de reforçadors si es dediqués al programa IV60seg i cada 30 segons provés en el programa IV30seg. Un altre problema es troba quan els individus estan sotmesos a una elecció concurrent RV-IV. La maximització passaria per respondre quasi exclusivament al programa RV i canviar al programa IV quan s'ha completat l'interval. No obstant això, tant animals com humans dediquen més temps al programa d'interval del que la maximització prediu.

Com a alternativa a la maximització s'ha proposat la teoria del millorament. En aquest cas, s'entén millorar en el sentit de fer que alguna cosa sigui millor que en el passat immediat. En aquest cas, els animals valorarien el seu rendiment cada cert temps avaluant les taxes de reforçament que reben en cada programa.

Fins ara hem parlat de les taxes de resposta en un sentit global, això és, els reforçadors obtinguts en una alternativa en tota la sessió. Si un animal obté 50 reforçadors en l'alternativa A en una sessió d'una hora, la taxa global és de 50 reforçadors per hora, però si ha dedicat només 15 minuts a aquesta alternativa, llavors podem calcular la taxa local de reforçadors a l'alternativa A: 50 reforçadors per 15 minuts o, el que és el mateix, 200 reforçadors per hora. Com que la taxa local només té en compte el temps que s'ha dedicat a una de les alternatives, la taxa local sempre serà més alta que la taxa global.

La teoria del millorament proposa que els animals aniran fent ajustaments a la distribució de les seves respostes fins que les taxes locals de les dues alternatives s'igualin, moment en què ja no es pot millorar la situació. El més interessant de la teoria és que prediu que les distribucions de les respostes s'ajustaran exactament al que prediu la teoria de la igualació.

Suposem un programa concurrent IV30seg-IV60seg. Durant la primera sessió d'una hora un animal pot distribuir el temps a parts iguals entre les dues alternatives i fer-ho de manera que obtingui el màxim de reforçadors teòricament disponibles a cada alternativa. Les taxes globals en cada alternativa serien de 120 reforçadors en una hora en el programa IV30seg i 60 reforçadors en el programa IV60seg. Les taxes locals serien 240 i 120 reforçadors per hora, respectivament. És evident que en aquesta situació és molt més avantatjós respondre durant més estona al programa IV30seg. És molt possible que per a millorar el rendiment, l'animal decideixi respondre més temps al programa d'IV30seg durant la segona sessió. Imaginem que l'animal dedica 45 minuts al programa IV30seg i obté tots els 120 reforçadors possibles i que dedica només 15 minuts al programa IV60seg i que obté també tots els 60 reforçadors disponibles en la sessió (hem de tenir en compte que els temps de dedicació a cada alternativa són acumulats al llarg de la sessió, és a dir, un animal anirà alternant d'una alternativa a l'altra diverses vagades i dedicarà petites quantitats de temps en cada alternativa, però que acumulades seran 45 i 15 minuts a cadascuna d'elles).

En aconseguir el màxim de reforçadors en les dues alternatives, la taxa global no variarà respecte a la primera sessió, però què passa amb les taxes locals? Si obté 120 reforçadors en 45 minuts en el programa IV30seg, obtindrem que la taxa local serà de 160 reforçadors per hora, mentre que en el cas del programa IV60seg la taxa local serà de 60 reforçadors per 15 minuts o, el que és el mateix, 240. Després de la segona sessió, l'animal percep que és més rendible dedicar més de 30 minuts al programa IV30seg (primera sessió) però menys de 45 minuts (segona sessió). D'acord amb això, a la tercera sessió podem trobar que l'animal ha dedicat 40 minuts al programa IV30seg i 20 minuts al programa IV60seg, i ha obtingut tots els reforçadors disponibles en ambdós programes. Ara les taxes locals de reforçament serien 120 reforçadors en 40 minuts, o 180 reforçadors per hora en el programa IV30seg, i 60 reforçadors en 20 minuts, o 180 reforçadors per hora. Ara s'han igualat les dues taxes de reforçament locals i, per tant, ja no es pot millorar la situació. Si calculem la llei de la igualació tindrem que la taxa relativa de respostes al programa IV30seg és 40 minuts/60 minuts = 0,67. De la mateixa manera, podem calcular la taxa de reforçament relativa en el programa d'IV30seg, 120 reforçadors/(120 reforçadors + 60 reforçadors) = 0,67. Podem veure, doncs, que la teoria del millorament aconsegueix predir exactament com es distribuiran les respostes entre els dos programes concurrents.

5.5.2.Programa concurrent encadenat

El segon tipus d'elecció que hem introduït més amunt era la que implicava un compromís. Si rebem dues ofertes de treball ens haurem de decidir per una d'elles. L'elecció implica un compromís perquè un cop feta l'elecció ens dedicarem, almenys un cert temps, a l'elecció escollida i renunciarem a l'alternativa. Com s'ha estudiat aquesta situació al laboratori?

En aquest cas, l'elecció es fa abans d'accedir a un programa de reforçament concret. La situació més simple és presentar dues alternatives de les quals l'animal n'haurà d'escollir una executant un nombre determinat de respostes (per exemple, tres picades amb el bec a la tecla de la dreta). Un cop escollida l'alternativa, l'animal te accés a un programa concret durant un període de temps, per exemple, un programa de RV25 durant 10 minuts. La característica més rellevant és que un cop escollit el programa de reforçament, ja no pot canviar fins que no hagi transcorregut el temps especificat i se li permeti una nova elecció.

Pensem en les situacions següents:

Som a casa disposats a estudiar per a l'examen que tenim d'aquí a 15 dies quan els amics ens telefonen i ens conviden a anar a la discoteca. Què farem en aquesta situació? El més probable és que anem a la discoteca.
Volem deixar de fumar. Sabem que després d'un temps sense fumar trobarem unes millores importants amb relació a la salut, no farem pudor de fum, no haurem de sortir del lloc de treball cada dos per tres per a fer la cigarreta, etc. En canvi, després de sis hores sense encendre cap cigarreta ens comencem a notar nerviosos, no ens concentrem en el que fem, mengem més sovint i el nostre humor s'ha tornat agre. Sabem que si fem una cigarreta tots aquests símptomes desapareixeran. Què farem en aquesta situació? La resposta més probable serà encendre la cigarreta.

Què tenen de comú les dues situacions?

En les dues tenim dues opcions i hem de decidir entre elles. Quan escollim una de les alternatives, perdem l'oportunitat de dedicar-nos a l'altra, almenys un cert temps. Però, a més, tenim que una de les opcions proporciona un reforçament gran però demorat, mentre que l'altra opció proporciona un reforçament petit encara que immediat. En efecte, estudiar ens permet aprovar un examen que, a la llarga, ens proporciona un ofici i la possibilitat de guanyar diners, mentre que anar a la discoteca ens dóna un plaer immediat però petit, ens ho haurem passat bé durant una estona però difícilment tindrà repercussions importants per a la nostra vida. No fumar (i dedicar-nos a altres activitats) proporciona una gran recompensa amb relació a la salut i socialment, però els seus efectes no els veurem fins passats uns dies o setmanes, mentre que fer una cigarreta ens elimina la síndrome d'abstinència d'una manera immediata.

Rachlin i Green (1972) van dissenyar un procediment al laboratori per estudiar aquestes situacions d'elecció. Van utilitzar un procediment d'elecció concurrent encadenat en què l'elecció inicial donava lloc o bé a un programa que proporcionava recompenses petites immediates, o bé a un altre programa que proporcionava recompenses grans demorades. Sempre que l'elecció impliqui l'accés directe al programa seleccionat, els coloms prefereixen l'opció que comporta recompenses petites però immediates. En el mateix treball, Rachlin i Green van introduir una nova variable que consistia a posposar l'accés al programa seleccionat un cert temps. El temps de demora entre el moment de l'elecció i l'accés al programa era el mateix per als dos casos. El més interessant és que en aquesta nova alternativa els coloms escollien preferentment el programa que donava una recompensa gran i demorada. En altres paraules, els coloms mostraven autocontrol. Resultats similars s'han trobat en diferents espècies animals, els humans inclosos (vegeu Logue, 1998).

Per què és preferible un reforçador immediat que un reforçador demorat? Amb la mateixa magnitud del reforçador és un fet que la immediatesa hi atorga més valor o, el que és el mateix, la demora treu valor a un reforçador. Aquest fet s'ha convertit en un principi general i els esforços s'han dirigit a establir com la demora redueix el valor del reforçador. Mazur (1987) ha proposat una funció matemàtica que representaria la pèrdua de valor del reforçador (V) en funció de la magnitud (M) i la demora en què es presenta (D):

V = M/(1 + KD)

en què K és la taxa de descompte del valor.

La fórmula matemàtica es coneix com funció del decaïment hiperbòlic. Si el reforçador es produeix sense demora, D val 0 i, en conseqüència, el valor del reforçador és determinat només per la seva magnitud. Però si el reforçament es demora, llavors el valor és reduït. Però, com funciona l'equació?

Quan la recompensa és immediata encara que petita, llavors el valor depèn exclusivament de la seva magnitud. En canvi, si el reforçador és gran, però es lliura amb una demora suficient, l'equació prediu que perdrà valor i si el resultat final dóna lloc a un valor més petit que el que té la recompensa petita immediata, llavors escollirem aquesta darrera. En el cas de l'autocontrol, tenim que s'introdueix una demora des del moment que es fa l'elecció fins que es té l'accés al reforçador. Aquesta demora permet a la recompensa petita perdre bona part del seu valor i, si és prou llarga, quedarà per sota del valor de la recompensa gran i demorada, per la qual cosa ara els subjectes preferiran la recompensa gran i demorada.

Tenint en compte aquesta funció del decaïment hiperbòlic de la recompensa, es recomana a les persones que volen deixar de fumar, o que volen perdre pes, que no tinguin reserves de tabac o menjar amb alt contingut calòric a casa. D'una banda, aquesta tècnica permet eliminar claus que podrien desencadenar el desig pel consum de tabac o menjar ric en calories, però, d'una altra banda, implicaria demorar l'accés a les recompenses petites, ja que la persona hauria de sortir de casa i desplaçar-se fins a la botiga. Aquesta demora faria perdre el valor de les recompenses petites i facilitaria l'autocontrol.

6.Extinció de la resposta instrumental

Els mecanismes d'aprenentatge proporcionen flexibilitat a la conducta i ens permeten adaptar-nos al nostre entorn. Fins ara, ens hem centrat en situacions relacionades amb l'adquisició i manteniment de conductes. En el condicionament instrumental, quan una conducta és seguida d'una conseqüència agradable es veurà reforçada i, en conseqüència, es mantindrà. Però si les circumstàncies canvien, per exemple, si la conducta deixa d'anar seguida del reforçador, llavors deixar d'executar la conducta serà el més adaptatiu.

Posem monedes en una màquina expenedora de cafè per obtenir-ne la beguda, però, si la màquina està espatllada i no ens proporciona el cafè insistirem i premerem el botó fins que ens convencem que no hi haurà reforçador i el deixem de prémer.

L'absència del reforçador esperat provoca l'extinció de la resposta instrumental. En la situació descrita, l'extinció es produirà ràpidament. Però que succeirà si s'espatlla una màquina escurabutxaques? En aquest cas, un jugador persistirà en la seva conducta durant molt de temps malgrat deixi de rebre el reforçador. Recordem que les màquines escurabutxaques funcionen a partir d'un programa de reforçament intermitent i és precisament aquesta característica del programa de reforçament la que fa que s'observi aquesta resistència a l'extinció.

Aquesta troballa s'anomena efecte del reforçament parcial. Però per què una resposta que ha estat reforçada només intermitentment mostrarà més resistència a l'extinció que una conducta que ha estat reforçada cada vegada que ha aparegut?

Les conductes reforçades amb programes intermitents són més difícils d'extingir que les conductes reforçades amb un programa continu.

Fase	Adquisició	Extinció
Procediment	Resposta → Reforçador	Resposta → Ø
Exemple	Pressió de palanca → menjar	Pressió de palanca → no menjar

Una explicació de l'efecte del reforçament parcial és la coneguda amb el nom de la hipòtesi de la discriminació (Mowrer i Jones, 1945).

La hipòtesi afirma que perquè un subjecte deixi d'executar la resposta un cop s'inicia l'extinció, el subjecte ha de ser capaç de discriminar el canvi en la contingència del reforçament.

Amb el reforçament continu, en què cada resposta és reforçada, el canvi a una situació d'extinció és fàcil de discriminar i, per això, la resposta desapareix ràpidament. En canvi, si estem actuant sota un programa de reforçament intermitent, ens serà difícil discriminar la situació d'extinció.

Tot i que la teoria és senzilla, actualment hi ha evidències experimentals a favor d'una teoria alternativa lleugerament diferent basada en el decrement de la generalització i proposada per Capaldi (1966, 1967). La hipòtesi del decrement en la generalització és el terme utilitzat per a anomenar el decrement de les respostes que s'observa en proves de generalització quan els estímuls de prova són cada vegada menys similars a l'estímul d'entrenament.

Si reforcem a un colom per picotejar una tecla il·luminada de color groc, observarem un decrement de la generalització (una freqüència més baixa de respostes) si el color de la tecla és blau durant la prova de generalització.

D'acord amb la hipòtesi del decrement en la generalització, s'observaran menys respostes durant l'extinció si els estímuls presents durant l'extinció són diferents dels que eren presents durant el reforçament. Ara bé, si els estímuls durant el reforçament i l'extinció són similars, llavors la taxa de respostes també serà similar.

Segons Capaldi, hi ha un decrement de la generalització més gran quan el programa de reforçament canvia d'un reforçament continu a l'extinció, ja que el subjecte no hauria experimentat mai una situació en què les seves respostes no fossin reforçades. En altres paraules, l'animal deixaria de respondre ràpidament, ja que no se l'hauria ensenyat mai a seguir responent quan les seves respostes no fossin reforçades. Si atenem ara a un programa intermitent, per exemple RV50, tenim que l'animal fa moltes respostes que no van seguides del reforçador, de mitjana, només un 2% de les respostes proporciona el reforçador. Si el programa de reforçament passa de RV50 a l'extinció, en què el 0% de respostes són reforçades, les dues situacions seran molt similars i el decrement de la generalització serà petit, és a dir, l'animal continuarà responent durant més temps. Un programa de reforçament parcial, doncs, pot haver ensenyat a l'animal a persistir en les seves respostes tot i que moltes no siguin reforçades perquè tard o d'hora rebrà el reforçador.

Si bé l'efecte del reforçament parcial és un fenomen robust, hi ha situacions en les quals no s'observa o, fins i tot, s'observa l'efecte contrari. Així, si s'entrena un colom amb un programa continu quan la tecla de resposta és de color groc i amb un programa RV10 quan la tecla de resposta és de color verd, quan s'introdueix l'extinció en ambdues situacions, s'observa més persistència en la resposta quan és present la tecla il·luminada de color groc (reforçament continu) que quan és il·luminada de color verd (reforçament RV10) (per exemple, Flora i Pavlik, 1990). Nevin (1988) ha proposat que quan un animal s'entrena en la situació descrita, el programa que proporciona més reforçadors adquireix més resistència al canvi, i això explicaria perquè en l'extinció se segueix responent més a ell.

6.1.Altres efectes de l'extinció sobre la resposta instrumental

L'efecte més estudiat de l'extinció sobre una resposta instrumental és la reducció de la resposta i la resistència a l'extinció dels programes de reforçament parcial. No obstant això, podem observar-hi altres efectes. Un afecta la conducta i l'altre l'estat emocional.

1) Amb relació a la conducta, si la resposta instrumental efectiva deixa de produir el reforçador, podrem observar un increment de la variabilitat de la conducta.

Si arribem a casa i s'ha espatllat l'ascensor i no ho sabem, premerem el botó per cridar-lo. Quan veiem que no arriba, probablement tornarem a prémer el botó. Com que l'ascensor no arribarà, podrem començar a provar noves estratègies com prémer repetidament el botó o mantenir la pressió sobre el botó més temps del necessari.

Aquest efecte de l'extinció sobre la variabilitat de la resposta instrumental ha estat estudiat experimentalment per Neuringer i els seus col·laboradors (Neuringer, Kornell i Olufs, 2001).

En línies generals, les rates de l'experiment havien d'executar una seqüència de tres respostes per a obtenir un reforçador. De fet, els animals podien prémer qualsevol de les dues palanques de resposta i/o una tecla de resposta. Qualsevol combinació podia ser reforçada durant l'entrenament i es va mesurar la variabilitat de la resposta. Quan no hi havia cap restricció sobre la variabilitat en la seqüència de tres respostes, es va observar que els animals desenvolupaven una preferència per una seqüència concreta i introduïen pocs canvis. Quan posteriorment es va dur a terme l'extinció, es va observar que el descens de la taxa de resposta anava acompanyat d'un increment de la variabilitat de la resposta. Les rates de Neuringer i col·laboradors provaven seqüències diferents de respostes quan les habituals van deixar de produir el reforçador.

2) L'altre efecte de l'extinció d'una resposta instrumental és la frustració. L'emoció de frustració es produeix quan no s'obté un reforçador que s'espera. Com a procés emocional, la frustració activa la conducta i en determinades situacions en què la frustració és viscuda severament pot generar una conducta agressiva.

Experiment d'Azrin, Hutchinson i Hake (1966)

En un experiment d'Azrin, Hutchinson i Hake (1966) van situar dos coloms en una caixa d'Skinner. Un dels subjectes rebia reforçadors per a picotejar una tecla de resposta, mentre que l'altre animal romania lligat en una cantonada de la caixa. Mentre el subjecte experimental era reforçat, ignorava completament el seu company. Quan es va introduir un programa d'extinció i la resposta ja no proporcionava el reforçador esperat, el subjecte experimental va mostrar una conducta agressiva vers el seu innocent company, que fins llavors havia estat un convidat de pedra.

Aquesta mateixa reacció agressiva induïda per l'extinció també s'ha observat en rates i persones (per exemple, Nation i Cooney, 1982; Tomie, Carelli i Wagner, 1993).

Resumint, l'extinció consisteix a deixar de proporcionar el reforçador un cop s'executa la resposta.

Imaginem una situació en què un bebè plora durant la nit i els pares l'agafen en braços. La conducta de plorar s'haurà vist reforçada pel fet que el passegin amunt i avall del passadís. Si volem que el bebè deixi de plorar de nit, haurem d'instaurar un procediment d'extinció que implicarà no agafar el nen en braços quan plora. És molt possible que les primeres nits, el bebè intensifiqui i allargui el plor a causa de la frustració de no rebre el reforçador. També és possible que el bebè doni cops de peu. Aquest comportament mostra els canvis en la resposta de plor (duració i intensitat) i la conducta agressiva que genera l'extinció. Si els pares resisteixen la temptació d'agafar el nen en braços, la resposta de plor desapareixerà. En canvi, si els pares cometen l'error d'agafar-lo en braços algunes vegades i d'altres no, estaran instaurant un programa de reforçament parcial. La conseqüència serà que l'extinció serà més difícil si finalment decideixen no agafar-lo més en braços.

7.Condicionament aversiu

La majoria de situacions que hem vist fins ara fan referència al reforçament positiu, és a dir, que la conducta fa que es presenti un estímul o situació agradables. No obstant això, quan parlàvem del procediments de condicionament instrumental hem definit dues situacions en què hi havia implicats estímuls o situacions aversives o desagradables. Si recordem, aquestes situacions eren el reforçament negatiu, en què l'execució de la resposta provocava l'acabament d'un estímul aversiu o n'impedia la presentació, i el càstig, en què la conducta feia aparèixer un estímul aversiu. En aquest apartat, veurem amb deteniment aquestes dues situacions.

7.1.Evitació i escapada

Solomon i Wynne (1953) van dur a terme un experiment que il·lustra moltes de les característiques del reforçament negatiu.

Experiment de Solomon i Wynne (1953)

Van treballar amb gossos i l'aparell era una caixa d'anada i tornada (de l'anglès shuttle box; vegeu la figura següent). Aquest aparell consta de dos compartiments separats per una tanca d'uns centímetres d'alçària. Un animal es pot desplaçar d'un compartiment a l'altre si salta la tanca. Cada compartiment té el terra de metall que es pot electrificar per a dispensar estímuls aversius (descàrregues elèctriques). Finalment, cal indicar que en cada compartiment hi ha una bombeta que pot il·luminar els dos compartiments independentment. En cada sessió experimental, un gos rebia deu assajos en els quals podia escapar o evitar una descàrrega si saltava a l'altre compartiment. Cada pocs minuts, s'apagava el llum del compartiment on hi havia l'animal, mentre que el llum de l'altre costat es mantenia encès. Si el gos es quedava en el compartiment a les fosques, després de deu segons el terra s'electrificava i l'animal rebia la descàrrega elèctrica que durava fins que l'animal saltava la barrera. D'aquesta manera, l'animal podia escapar de la descàrrega. El gos també podia evitar la descàrrega si donava la resposta abans que passessin els deu segons des que s'apagava el llum. En l'assaig següent es procedia de la mateixa manera però la resposta consistia a tornar al primer compartiment.

Esquema d'una caixa d'anada i tornada

L'animal s'ubica en un dels compartiments separats per la tanca. En un moment determinat es presenta un estímul visual o auditiu d'uns pocs segons de durada i, a continuació, s'electrifica la reixa del terra del compartiment on es troba l'animal, però no la del compartiment buit. Per a escapar-se de la descàrrega, l'animal ha de saltar la tancar per tal de passar al compartiment de seguretat. Amb l'entrenament, l'animal donarà respostes d'evitació, ja que canviarà de compartiment en el moment en què es presenta l'estímul discriminant i abans que s'electrifiqui el terra.

En cada assaig, Solomon i Wynne van mesurar el temps que trigava l'animal a canviar de compartiment a partir del moment en què el llum s'apagava. En els primers assajos van poder veure que els animals trigaven més de deu segons a saltar al compartiment del costat des de l'apagada del llum. Aquesta demora en la resposta provocava que els pobres animals rebessin la descàrrega i, per tant, les respostes eren d'escapada. Tanmateix, amb pocs assajos d'entrenament els animals canviaven de compartiment abans que passessin els deu segons i, en conseqüència, evitaven la descàrrega. Cap als 12 assajos de condicionament, la majoria de gossos evitava completament la descàrrega, ja que trigava de dos a tres segons a donar la resposta.

Els primers assajos de condicionament que consistien a escapar de la descàrrega no són difícils d'explicar pel condicionament instrumental, ja que la resposta modifica la situació en la qual es troba l'animal. Ara bé, els assajos d'evitació són problemàtics perquè cal explicar com un estímul que no es presenta (que l'animal no experimenta) pot reforçar la conducta.

En altres paraules, en impedir la presentació de la descàrrega, la situació no és modificada pel comportament (no hi ha descàrrega i continua igual després que l'animal respongui).

1) Teoria dels dos factors

Un dels primers investigadors que va intentar explicar per què es manté la conducta d'evitació va ser Mowrer (1947) amb la teoria dels dos factors. Els dos factors són el condicionament clàssic i el condicionament instrumental i tots dos han d'actuar per a poder explicar el condicionament d'evitació. Exposarem la teoria seguint l'experiment de Solomon i Wynner.

La descàrrega elèctrica és un EI que provoca una RI de por i és precisament aquesta resposta emocional la clau de la teoria. Mitjançant el condicionament clàssic, algun senyal acaba anticipant la descàrrega i provoca la resposta de por. En l'experiment de Solomon i Wynne, aquest EC eren els deu segons de foscor que precedien la descàrrega. Amb pocs assajos, els gossos podien aprendre que la foscor assenyalava la descàrrega i provocava por als animals.

El condicionament de por a un estímul inicialment neutre és el primer procés de la teoria.

La sensació de por és desagradable i, per tant, la reducció de la por serà reforçant per a qualsevol resposta que la precedeixi. D'aquesta manera, la resposta d'evitació el que fa és allunyar l'animal de l'estímul que provoca por i, a causa d'això, la por es redueix i reforça la conducta. En el cas de Solomon i Wynne, la resposta dels animals els portava a un compartiment il·luminat i, per tant, desapareixia la foscor que els provocava la por. Aquest és el segon factor de la teoria: el condicionament instrumental d'una conducta d'evitació per la reducció de la por quan l'EC que la provoca desapareix.

De fet, la teoria dels dos factors elimina la resposta d'evitació i la substitueix per una resposta d'escapada. En efecte, quan apareix l'EC activa la por i la resposta instrumental permet que l'animal s'escapi de l'EC aversiu. Es tracta, per tant, d'una resposta d'escapada i ja hem vist que aquest tipus de resposta no comporta cap inconvenient per a ser explicada des del condicionament instrumental.

Rescorla i LoLordo (1965) van dur a terme una sèrie experimental que donava suport a la teoria dels dos factors. Atès que la clau de la teoria es troba en el paper de l'estímul que prediu clàssicament l'EI aversiu, Rescorla i LoLordo van manipular el significat d'un EC en aparellar-lo amb la descàrrega (condicionament excitador) o amb l'absència de la descàrrega (condicionament inhibidor). Els resultats van mostrar que les presentacions de l'EC excitador en una situació d'evitació incrementava la intensitat de la resposta instrumental, mentre que si es presentava l'EC inhibidor atenuava la resposta d'evitació. Un EC inhibidor de la por s'anomena senyal de seguretat, ja que assenyala l'absència d'un EI aversiu (Weisman i Litner, 1969). L'eficàcia dels senyals de seguretat s'ha demostrat en diverses situacions. Per exemple, si es presenta un estímul explícit cada vegada que s'acaba una descàrrega, llavors la por dels animals a la situació experimental és atenuada (Mineka, Cook i Miller, 1984). D'altra banda, el condicionament d'evitació és més ràpid si es presenta un estímul cada vegada que l'animal duu a terme la resposta instrumental requerida (McAllister i McAllister, 1992).

Malgrat que aquests experiments, i d'altres similars, donen suport a la teoria dels dos factors, altres treballs han trobat dades que resulten un repte per a la teoria.

En primer lloc, s'ha observat que la resposta d'evitació apareix en situacions en què els animals no mostren signes de por. En el mateix experiment de Solomon i Wynne, els animals gemegaven, orinaven i tremolaven quan el llum s'apagava, comportaments que assenyalaven que els animals tenien por. Tanmateix, a mesura que avançava l'entrenament i els animals eren eficients amb la resposta d'evitació, aquestes manifestacions de por desapareixien. Si el que manté la resposta d'evitació és escapar de la por, com es pot mantenir la conducta si ja no hi ha por? És evident que aquestes dades aporten maldecaps per a la teoria.

Un segon problema de la teoria dels dos factors és la seva resistència a l'extinció. Si analitzem la situació, quan els animals són experts a evitar la descàrrega, ja no l'experimenten més i, per tant, la presentació del senyal de la descàrrega sense ella hauria de produir una extinció d'aquesta associació. Si es produeix l'extinció, llavors el senyal deixarà de provocar por i, si no hi ha por, l'animal hauria de deixar de respondre. Finalment, si deixa de respondre hauria de tornar a rebre les descàrregues i tornar a adquirir la por i la resposta d'evitació. No obstant això, aquest cicle que prediu la teoria dels dos factors no s'ha observat mai. Encara més, un cop adquirida la resposta d'evitació, aquesta mostra molta resistència a l'extinció. Solomon i Wynne van presentar centenars d'assajos d'extinció i alguns dels seus gossos hi continuaven responent.

2) Teoria d'un factor

Atesos els problemes de la teoria dels dos factors, no és estrany que apareguessin noves teories per a explicar el condicionament d'evitació. Una d'elles rep el nom de teoria d'un factor. Rep aquest nom ja que afirma que el condicionament clàssic de la por no és necessari perquè es produeixi la resposta d'evitació. En altres paraules, l'evitació de la descàrrega és en si mateixa el reforçador.

Sidman (1953) i Herrnstein (1969; Herrnstein i Hineline, 1966) van dissenyar procediments d'evitació sense necessitat de presentar senyals que prediguessin la descàrrega. No descriurem aquí els procediments, ja que són complexos, però sí que mencionarem que van treballar amb rates que rebien descàrregues elèctriques sense cap estímul explícit que les precedís. Si els animals premien una palanca, llavors la descàrrega s'enrederia o es reduïa la probabilitat en què apareixia. Aquests procediments permeten que els animals aprenguin a prémer la palanca per a evitar descàrregues, encara que l'actuació no és mai tan perfecta com en els procediments en què s'utilitza el senyal per a anticipar la descàrrega. Herrnstein (1969) defensa que perquè els animals actuïn amb èxit en una situació com aquesta, han de ser sensibles a la raó de descàrregues en presència i en absència de la resposta i que, justament la reducció en la raó de descàrregues rebudes, és suficient per a reforçar la conducta d'evitació. Per a Herrnstein, la presència del senyal de la descàrrega fa que siguin més discriminables les situacions amb diferent probabilitat de descàrregues, fet que facilitaria l'aprenentatge d'evitació. També pot explicar els efectes de l'extinció. Com que la resposta d'evitació comporta la reducció de la presència de descàrregues, hi haurà poca diferència entre aquesta situació i la d'extinció de manera que en no detectar el canvi entre el moment en què sí es presenten descàrregues i el moment en què no se'n presenten, els animals no fan cap ajustament a la seva conducta i continuen donant la resposta d'evitació.

3) Teoria cognitiva

Una segona alternativa a la teoria dels dos factors i, és clar, també per a la teoria d'un factor, és la teoria cognitiva que van proposar Seligman i Johnson (1973). La teoria cognitiva se centra en el principi de la discrepància entre el que succeeix i el que els organismes esperen que succeeixi. Aquesta perspectiva segueix els postulats de la teoria de Rescorla i Wagner (1972) estudiada en el mòdul "Condicionament clàssic pavlovià".

El model de Rescorla i Wagner se centra en dos elements principals: l'EI real que els animals experimenten i l'expectativa que tenen els animals de l'EI. Si hi ha una discrepància entre l'EI observat i l'esperat, llavors es produirà aprenentatge. Si no hi ha discrepància, llavors no hi haurà aprenentatge.

D'acord amb aquest principi de la discrepància, Seligman i Johnson afirmen que l'aprenentatge d'evitació es produirà quan hi hagi una discrepància entre el que s'espera i el que s'observa. Proposen que en l'aprenentatge d'evitació hi ha dues expectatives importants: 1) si es respon no hi haurà estímul aversiu, i 2) si no es respon es presentarà l'estímul aversiu. No serem agosarats si afirmem que la majoria d'organismes preferim la primera situació a la segona i, per tant, es produirà la resposta.

A més, la resposta es mantindrà mentre no es violi alguna d'aquestes expectatives, això és, mentre no es produeixi una discrepància entre el que s'espera i el que s'observa. Així, la teoria pot explicar molt fàcilment la resistència a l'extinció. Malgrat que en l'extinció es deixa de presentar la descàrrega, això no altera les expectatives dels animals, en altres paraules, si donen la resposta esperen no rebre la descàrrega i, com que en l'extinció ja no es presenta la descàrrega, es compleix l'expectativa. Si l'extinció no es produeix perquè no es vulnera cap expectativa, llavors què podem fer per a extingir una resposta d'evitació?

Si l'aprenentatge (i l'extinció) es produeix quan hi ha una discrepància entre el que esperem i el que observem, caldrà provocar aquesta discrepància. Una manera de fer-ho és impedint que els animals donin la resposta d'evitació en presència de les claus que activen l'expectativa de la descàrrega. Com hem dit abans, una de les expectatives de l'animal en una situació d'evitació és que la descàrrega es presentarà si no executa la resposta. El procediment que bloqueja la resposta d'evitació força els animals a tenir l'expectativa de la presentació de la descàrrega, però com que en l'extinció no es presenten descàrregues, es produeix una discrepància entre el que s'espera i el que s'observa. És justament aquesta discrepància la que n'afavoreix l'extinció. Page i Hall (1953) van ser dels primers a demostrar que aquest procediment que impedeix la resposta d'evitació n'accelerava l'extinció.

	Reforçament negatiu
	Escapada	Evitació
Contingència resposta-reforçador	Negativa	Negativa
Conseqüència de la resposta	Elimina un estímul aversiu	Impedeix un estímul aversiu
Resultat sobre la conducta	Es manté la conducta	Es manté la conducta
Teories	Condicionament instrumental	Teoria dels dos factors Teoria d'un factor (contingència) Teoria cognitiva (discrepància entre l'expectativa i la realitat)

7.2.Càstig

Quan una conducta va seguida d'un estímul aversiu podem observar un decrement de la conducta.

Si en arribar a la muntanya baixem del cotxe i freguem sense adonar-nos un ram d'ortigues, probablement les deixarem de tocar en el futur. La urticària que ens provoca la planta és un estímul aversiu prou intens per a inhibir la conducta de tocar-la amb la pell descoberta.

Seguint el nostre passeig pel Pirineu podem veure que un ramat de vaques pastura tranquil·lament en un prat. Per més que busquem, no hi trobem el pastor ni el gos d'atura, sinó un vailet elèctric que envolta el camp. Fa anys que els pastors utilitzen aquest mètode per a mantenir els ramats controlats sense haver-hi de ser present totes les hores del dia.

Com diu el nom, el vailet elèctric és un filferro electrificat que envolta el prat i si una vaca s'hi acosta i el toca rep una descàrrega. Els animals aprenen ràpidament que no han d'intentar superar els límits de prat assenyalats pel vailet. Ambdós casos són exemples de càstig.

Al laboratori es pot estudiar el càstig presentant una descàrrega elèctrica (o qualsevol altre estímul aversiu) quan una rata executa un conducta instrumental, per exemple, prémer la palanca.

Experiment d'Skinner (1938)

En un experiment clàssic d'Skinner (1938), es van entrenar durant tres dies dos grups de rates amb un programa IV per a obtenir menjar si premien una palanca. Després de l'entrenament es va introduir un procediment d'extinció durant dues sessions. L'única diferència entre els dos grups va ser que per a un dels grups, durant els deu primers minuts de la primera sessió d'extinció, quan l'animal pressionava la palanca, aquesta saltava enlaire i colpejava les potes de l'animal. Aquest càstig lleuger va ser suficient per a reduir la conducta d'una manera notable respecte al grup que rebia només extinció. Tanmateix, quan va desaparèixer el càstig, la resposta va tornar a aparèixer. Al llarg de la segona sessió les taxes de resposta dels dos grups van ser molt similars i es van acabar extingint al mateix ritme.

Skinner va concloure que el càstig tenia un efecte de supressió de la conducta, però que l'efecte era temporal.

Experiment d'Azrin (1960)

Azrin (1960) va dur a terme un experiment en el qual després d'entrenar unes rates a prémer la palanca per a obtenir menjar va introduir el càstig de manera que cada vegada que premien la palanca rebien una descàrrega suau. A l'inici, la taxa de resposta va disminuir dràsticament, però al llarg de diverses sessions, la resposta es va recuperar. Tanmateix, quan la descàrrega era prou intensa, el càstig produïa un descens o la desaparició completa de la resposta a llarg termini.

També s'ha estudiat la naturalesa de la supressió de la conducta, ja que hi ha altres procediments que també provoquen la supressió d'una conducta instrumental sense que aquesta conducta provoqui la presentació d'un estímul aversiu (per exemple, la supressió condicionada estudiada en el mòdul "Condicionament clàssic pavlovià").

Experiment de Schuster i Rachlin (1968)

Schuster i Rachlin (1968) van dur a terme un experiment en què uns coloms podien picotejar dues tecles de resposta per a obtenir menjar sota el mateix programa IV. En alguns moments, s'encenia la tecla de resposta ubicada a la dreta i picotejar-la proporcionava menjar. En d'altres, era la tecla de l'esquerra la que s'il·luminava i les respostes a aquesta tecla també eren reforçades. Un cop els animals van aprendre la tasca, es va introduir l'estímul aversiu. Concretament, quan s'il·luminava la tecla de la dreta, algunes de les picades dels coloms eren seguides d'una descàrrega. En canvi, quan s'il·luminava la tecla de l'esquerra, es presentava la descàrrega amb la mateixa freqüència però independentment de la resposta de picotejar. Els resultats van mostrar que els animals van deixar de respondre quan s'il·luminava la tecla de la dreta, però mantenien la resposta si s'il·luminava la tecla de l'esquerra. Els resultats mostren, doncs, que la supressió de la resposta durant el càstig es deu a la contingència entre la resposta i l'estímul aversiu (vegeu la figura següent).

Representació de les dades de Schuster i Rachlin (1968).

La descàrrega només reduïa la resposta de pressió de palanca quan era contingent a la resposta, però no quan no era contingent a la resposta.

D'acord amb el que hem exposat fins ara, podem concloure que el càstig positiu té els efectes oposats al reforçament positiu. Mentre que el reforçament provoca un increment de la resposta, el càstig en provoca un descens i aquests canvis es mantindran mentre es mantingui la contingència entre la resposta i l'estímul apetitiu o aversiu, respectivament.

Ara analitzarem alguns factors que influeixen en l'eficàcia del càstig positiu.

Si volem suprimir una conducta mitjançant el càstig cal que introduïm l'estímul aversiu amb la seva màxima intensitat des d'un bon començament. Ja hem comentat en analitzar l'experiment d'Azrin (1960) que els subjectes es poden habituar a un estímul aversiu suau i diversos estudis han mostrat que aquesta habituació es pot generalitzar a altres estímuls aversius més intensos. Azrin, Holz i Hake (1963) van trobar que uns coloms deixaven d'executar la conducta si aquesta produïa una descàrrega de 80 volts des del primer moment, però si la intensitat de la descàrrega començava amb una intensitat baixa en les primeres presentacions i s'anava incrementant a poc a poc al llarg de les sessions experimentals, els coloms continuaven responent fins i tot quan la resposta produïa descàrregues de 130 volts.
Un altre factor que interfereix en l'eficàcia del càstig és la immediatesa amb què es presenta l'estímul aversiu. Igual que en el reforçament la demora entre la conducta i el reforçador reduïa l'eficàcia del reforçador, en el càstig s'ha demostrat que la demora de l'estímul aversiu respecte a la conducta que es vol suprimir no té cap efecte. Tothom que té animals de companyia sap la inutilitat de castigar un gos o un gat per haver defecat enmig del menjador si el càstig no s'administra en el moment en què es produeix la conducta de l'animal. De la mateixa manera, advertir un infant que es porta malament pel carrer que quan arribem a casa el castigarem té pocs efectes.
Els programes de càstig, és a dir, el patró amb què s'administra el càstig també té repercussions sobre la seva eficàcia. La manera més efectiva d'eliminar una conducta és mitjançant un programa continu de càstig i no d'un programa intermitent. Abans de presentar els estudis que mostren alguns dels efectes dels programes de càstig cal recordar que en aquests experiments els animals aprenen a donar la resposta per a obtenir menjar i, posteriorment, s'introdueix el càstig de la mateixa conducta. Per tant, els animals estan altament motivats per a executar la conducta que es castiga. Amb aquest procediment, Azrin i col·laboradors (1963) van comparar diferents programes de càstig de RF que anaven des d'una raó igual a 1 a una raó de 1.000. Van trobar que com més petita era la raó, més eficaç era el programa per a reduir la conducta. També s'ha trobat (Azrin, 1956) que quan es castiga una conducta amb un programa d'IF60seg provoca un patró de respostes desaccelerat a mesura que s'acaba l'interval (just el patró oposat al que provoca el reforçament en què s'observa una acceleració cap al final de l'interval). Quan s'ha utilitzat un programa de RF20, els animals reduïen les respostes a mesura que s'apropava la resposta número 20 i que, just després de rebre el càstig, els animals tornaven a respondre amb una taxa alta (Hendry i VanToller, 1964). De bell nou, trobem un patró de resposta oposat al que provoca el reforçament amb programes de RF. Allà vèiem que l'RF provocava justament una pausa després del reforçament; en el càstig, la pausa es fa abans de rebre el càstig.

En recordar el procediment per a estudiar els programes de càstig hem dit que els animals estaven motivats per a dur a terme la resposta. Com influeix la motivació per respondre sobre l'eficàcia del càstig? Azrin i col·laboradors (1963) van demostrar que l'èxit de castigar una conducta mantinguda amb reforçament de menjar depenia del grau de privació de menjar dels animals. Si els animals portaven moltes hores sense menjar, l'eficàcia del càstig era mínima, però si només estaven lleugerament famolencs, llavors el càstig suprimia pràcticament la conducta. Tot i que aquesta relació no ha de sorprendre ningú, té implicacions importants si volem castigar una conducta altament motivada sense haver d'utilitzar estímuls aversius molt intensos. Cal identificar el reforçador que manté la conducta i devaluar-lo. Una manera de fer-ho és dispensant-lo d'una manera no contingent a la conducta que volem castigar. Un exemple deixarà clar aquest punt.

Imaginem uns pares que volen eliminar la conducta destructiva del seu fill. Sospiten que la conducta destructiva del nen persegueix la finalitat de captar l'atenció dels pares. Llavors, la manera de devaluar el reforçador seria prestar atenció al nen en altres moments diferents de quan es porta malament.

Relacionat amb aquest darrer punt, s'ha observat que proporcionar conductes alternatives a la conducta castigada que proporcionin el mateix reforçador augmenta l'eficàcia del reforçador. Continuem amb l'exemple del nen que trenca objectes per a obtenir l'atenció dels pares. Si realment és l'única manera que té el nen de rebre atenció, el càstig no tindrà cap efecte, ja que en si mateix implicarà l'atenció que busca el nen. Si prestem atenció al nen per altres comportaments acceptats, com llegir, llavors li podem proporcionar atenció i interessar-nos pel que llegeix o dedicar-li un temps al dia per a jugar.

Experiment d'Azrin i Holz (1966)

Azrin i Holz (1966) van presentar dades en què un colom que responia en un programa RF25 per a obtenir menjar (vegeu els programes de raó, secció 6.2 d'aquest mòdul) i va ser castigat amb una descàrrega lleu, va reduir la taxa de resposta només en un 10%. En canvi, un altre colom que disposava de dues tecles de resposta amb el mateix programa RF25 en cadascuna d'elles i que només es castigava el fet de respondre en una, però no en l'altra, van deixar de respondre completament a l'alternativa castigada.

Malgrat l'obvietat dels resultats, moltes persones fallen a l'hora de proporcionar i reforçar conductes alternatives acceptades a la conducta no volguda. En el camp de la modificació de la conducta sovint s'utilitzen tècniques basades en aquests resultats. Així, si un terapeuta decideix castigar la conducta de barallar-se amb els companys de l'escola, el més comú és que, a part de castigar la conducta no volguda, reforci una altra conducta alternativa i incompatible amb la no volguda, per exemple, el joc cooperatiu.

El darrer factor que veurem que afecta l'eficàcia del càstig fa referència al paper que té el càstig com a senyal del reforçador.

Experiment d'Holz i Azrin (1961)

Holz i Azrin (1961) van entrenar uns coloms perquè picotegessin una tecla de resposta per a obtenir el menjar. La peculiaritat del procediment era que el menjar només estava disponible quan es castigava la resposta de picotejar amb una descàrrega, però no en altres moments en què no es castigava la resposta. De fet, la descàrrega feia el paper d'un estímul discriminant que assenyalava la disponibilitat del menjar. No és estrany, doncs, que els pobres coloms estiguessin disposats a rebre descàrregues si era l'únic moment en què podien menjar.

Azrin i Holz (1963) van proposar que el comportament masoquista podria estar relacionat amb aquestes dades. Si una persona aprèn que l'única manera d'obtenir atenció dels altres és quan es fa mal, es possible que busqui aquestes situacions ja que li anticipen l'atenció que busca.

	Factors que afecten l'eficàcia del càstig
Incrementen l'eficàcia	Màxima intensitat de l'estímul aversiu. Contigüitat temporal resposta-estímul aversiu. Programa de càstig continu. Proporcionar alternatives per al reforçador.
Redueixen l'eficàcia	Nivell de motivació alt per al reforçador. Estímul aversiu com a senyal de la disponibilitat del reforçador.

Si es tenen en compte tots els factors que afecten l'eficàcia del càstig per a suprimir conductes, podem concloure que el procediment és tan eficaç com el reforçament per a modificar el comportament.

No obstant això, hi ha certs efectes secundaris del càstig que cal tenir en compte abans de decidir la seva utilització.

Primer, el càstig pot provocar determinades reaccions emocionals com la por o l'empipament. Aquestes emocions sovint interfereixen en l'aprenentatge i en l'execució. Balaban, Rhodes i Neuringer (1990) van presentar una tasca de memòria a uns estudiants. En un dels grups, se'ls castigava amb una descàrrega quan cometien un error i, en l'altre, se'ls castigava amb un to. Els resultats van ser que els estudiants treballaven més lentament i cometien més errors quan se'ls castigava amb la descàrrega que quan se'ls castigava amb el to.
Un segon aspecte que cal tenir en compte és que el càstig pot suprimir altres conductes diferents de la que es castiga.

Imagineu una aula on un estudiant fa una pregunta i el professor li respon, "aquesta és una pregunta poca-solta". Probablement, la intenció del professor sigui reduir les preguntes estúpides, però no seria estrany que al mateix temps reduís el fet de fer preguntes en general, les dolentes però també les bones.

En les situacions de la vida real, és molt difícil fer un seguiment complet de tota la conducta d'una persona, però especialment de les conductes que són susceptibles de ser castigades.

Si un nen és reforçat per endreçar l'habitació, ell mateix estarà interessat a fer notar als pares que ha posat en ordre l'habitació. Però si es castiga el nen per pegar el seu germà, procurarà fer-ho quan no hi hagi adults al davant i si el germà el delata, el més probable és que l'infractor ho negui per evident que sigui.

Relacionat amb el que acabem de dir, Azrin i Holz van descriure el comportament d'una rata força intel·ligent que rebia càstigs per algunes de les pressions de palanca que feia amb l'objectiu d'obtenir menjar. Concretament, aquest animal va aprendre a prémer la palanca posant-se panxa enlaire de manera que la pell l'aïllava de les descàrregues que es dispensaven des del terra. És evident que un delinqüent intentarà amagar totes les proves possibles dels seus delictes per tal d'escapar del càstig que comporten les seves accions.

Un altre problema del càstig és que tendeix a provocar conductes agressives cap a la persona que proporciona el càstig i també cap a altres persones que pugin ser a prop.

Com a conclusió, Azrin i Holz (1963) afirmen que el càstig no és recomanat, especialment si hi ha altres tècniques que permeten obtenir els mateixos resultats que el càstig però que fan servir una estimulació apetitiva.

Aquesta no és només una qüestió d'eficàcia, sinó ètica. No obstant això, hi ha moltes situacions en què podem aplicar el càstig i considerar-les normals. És evident que els governs poden regular el funcionament de les institucions per a eradicar el càstig de les institucions com la policia, les escoles, les presons, etc., però ja és més difícil controlar la utilització del càstig en les interaccions interpersonals del dia a dia entre pares i fills, entre esposos, etc. A més, el món físic és ple de situacions en què podem rebre un càstig. Només cal pensar en les conseqüències que pot tenir una distracció mentre conduïm, treballem o practiquem algun esport. Atès que aquestes situacions són inevitables, té sentit continuar estudiant els efectes del càstig sobre el nostre comportament.

Fins aquí, hem exposat els efectes del procediment de càstig i els factors que influeixen en la seva eficàcia. Però, com s'explica que el càstig redueixi la conducta?

La primera teoria que analitzarem rep el nom de teoria de l'evitació del càstig basada en la teoria dels dos factors.

Experiments de Dinsmoor (1954, 1955, 1977)

Dinsmoor (1954, 1955, 1977) va assumir que qualsevol resposta és constituïda per una cadena d'altres conductes. Prémer una palanca comença per apropar-se a l'estri, aixecar la pota, repenjar-la damunt la palanca i fer força avall. Quan el darrer element de la cadena provoca l'estímul aversiu, les baules prèvies de la cadena queden associades amb l'estímul aversiu i serveixen com a senyals clàssics per a evocar por. D'aquesta manera, apropar-se a la cadena pot activar la por de l'animal i qualsevol resposta que interrompi la por es veurà reforçada. Així, trencar la cadena i dedicar-se a altres conductes elimina la por i es veuen reforçades. En definitiva, els animals deixen d'executar la resposta castigada perquè es reforcen altres conductes incompatibles amb la conducta castigada.

Com a alternativa a aquesta explicació trobem la que es basa en la llei negativa de l'efecte (Thorndike, 1911; Rachlin i Herrnstein, 1969) o també coneguda com teoria del factor únic.

Bàsicament, la teoria postula que el càstig actua directament sobre la conducta castigada sense necessitat de recórrer al condicionament clàssic.

Tot i que és difícil poder comparar experimentalment les dues teories, la recerca ha aportat més dades a favor de la teoria del factor únic. No obstant això, els experiments més concloents a favor de la teoria del factor únic són bastant complexes i no els exposarem aquí.

8.Teories del condicionament instrumental

En la introducció de l'estudi de la conducta instrumental hem dit que aquesta reflectia el que tradicionalment s'entén com a conducta voluntària. També hem fet referència a un mecanisme molt elemental que s'havia proposat per a explicar la conducta instrumental basat en l'hedonisme: els organismes estem motivats per a executar respostes que ens proporcionen plaer i evitem el dolor. Encara que puguem estar d'acord amb aquest plantejament, cal una anàlisi més detallada dels mecanismes que controlen la conducta instrumental.

Per què el reforçador motiva el nostre comportament? I quins mecanismes fan que detectem la resposta apropiada per a obtenir el reforçador?

Respondre a les dues preguntes és important per a comprendre millor el nostre comportament. En la realitat, cadascuna d'aquestes preguntes ha generat la seva pròpia via de recerca i les seves teories.

Les qüestions motivacionals de la resposta instrumental s'han enfocat des de la perspectiva de la regulació de la conducta, més propera a l'enfocament d'Skinner i que preveu una anàlisi molar de la conducta. El seu interès principal és com el procediment de condicionament instrumental determina el flux de les activitats d'un organisme. Parteix de la base que la conducta persegueix metes i que els organismes se serveixen de la seva conducta per a aconseguir les metes. L'èmfasi es posa, doncs, en la funció de la conducta instrumental.

D'altra banda, els mecanismes que permeten descobrir les relacions entre el comportament i les seves conseqüències és el centre d'interès de la perspectiva associativa. Thorndike va ser el primer a intentar explicar el comportament instrumental per la formació d'associacions. Actualment, l'interès per l'enfocament associatiu és influenciat pels estudis en el camp del condicionament clàssic i pren una estratègia molecular.

La conducta instrumental s'estudia en referència als antecedents estimuladors i les conseqüències específiques de la conducta. Malgrat les diferències evidents, o precisament per aquestes diferències, ambdues perspectives s'han de prendre com a complementàries i no pas com a adversàries, si volem arribar a assolir un coneixement més ampli de la conducta instrumental.

8.1.Estructura associativa del condicionament instrumental

Thorndike va ser el primer que va descriure els elements implicats en el condicionament instrumental: la resposta (R), la conseqüència o reforçador (C) i els estímuls (E) en presència del quals es produeixen la resposta.

Des d'un punt de vista associatiu, l'existència dels tres elements permet pensar en la possibilitat de tres associacions diferents pel cap baix (vegeu la figura següent). Una associació entre els estímuls i la resposta (E-R), una associació entre la resposta i la conseqüència (R-C) i una associació entre els estímuls i les conseqüències (E-C).

Esquema de l'estructura associativa implicada en el condicionament instrumental

La fletxa discontínua mostra l'associació E-R corresponent a la llei de l'efecte formulada per Thorndike. Les fletxes contínues mostren les associacions entre l'estímul discriminant i la conseqüència (associació E-C) i l'associació entre la resposta i la conseqüència (associació R-C). (Vegeu el text per a una explicació detallada de cadascuna d'aquestes associacions.)

8.1.1.Associacions E-R

Com hem vist al començament del mòdul, Thorndike va formular la llei de l'efecte per a explicar el condicionament instrumental.

Segons la llei de l'efecte, quan es reforça una conducta es forma una associació entre els estímuls presents en el moment d'executar la resposta i la resposta.

El paper del reforçador és marginal en el sentit que no forma part de l'associació.

Seguint la llei de l'efecte, la presència d'un estímul que s'ha associat a una resposta seria suficient perquè es produís la resposta. La llei de l'efecte no preveu que un organisme pugui tenir una expectativa del reforçador, ja que en no estar associat ni als estímuls ni a la resposta, no se'n pot activar la representació mental. Aquesta idea va contra la intuïció.

Si premem el botó de l'ascensor és perquè esperem que l'ascensor vingui al pis on ens trobem; si introduïm unes monedes a la màquina expenedora de refrescos és perquè tenim l'expectativa del refresc.

No obstant això, les primeres teories entenien l'aprenentatge com una associació E-R.

Hull (1934, 1943, 1952) va desenvolupar un dels sistemes teòrics sobre l'aprenentatge més influents.

El nucli central de la teoria és que la conducta depèn de dos factors principals, l'hàbit o aprenentatge i l'estat motivacional.

Aquesta teoria és un dels primers intents des d'una perspectiva associativa de diferenciar entre conducta i aprenentatge. Efectivament, un dels principals problemes de l'enfocament conductista era la confusió entre aprenentatge i conducta, o dit d'una altra manera, la definició d'aprenentatge com un canvi en la conducta. La teoria de Hull, però, fa aquesta diferenciació i considera que sense hàbit o sense motivació no hi haurà comportament. Aquest aspecte de la teoria és rellevant, ja que hi pot haver aprenentatge però si no hi ha un estat motivacional, no es veurà reflectit en el comportament. El mateix es pot dir quant a la motivació. El fet d'acceptar dos factors que no es poden observar directament fa necessària la definició acurada d'aquestes variables.

1) Motivació

El primer concepte que cal definir és la motivació. Segons Hull, els organismes tenen necessitats biològiques com pot ser la gana, la set, la son. Qualsevol d'aquestes necessitats impulsarà o motivarà la conducta, en principi no apresa, que té per objectiu la reducció de la necessitat. Per tant, la motivació depèn estretament de l'estat de l'organisme.

Aquesta concepció de la motivació permet a Hull definir també el que és un reforçador. D'acord amb Hull, el que reforçarà la conducta no és l'estímul reforçador per si mateix, sinó la reducció de la necessitat que produeix el reforçador.

El menjar no seria un reforçador per si mateix, sinó el fet que en ingerir-lo permet eliminar o reduir la sensació de gana.

No obstant això, Hull acaba admetent que hi ha alguns aspectes dels estímuls reforçadors que poden influir en la conducta. Per exemple, veiem que la grandària o la qualitat del reforçador influïa directament en el comportament dels animals, de manera que estaven més disposats a treballar per un aliment dolç que per un aliment àcid. Doncs bé, Hull inclou aquestes propietats motivacionals del reforçadors amb el que anomena incentiu.

En resum, la motivació és definida per l'estat de necessitat de l'organisme però també per les propietats d'incentiu dels estímuls reforçadors.

2) Aprenentatge

El segon factor que Hull tenia en compte per a explicar el comportament és l'aprenentatge o hàbit.

Hull explica l'aprenentatge o la formació d'un hàbit de la manera següent:

Sempre que un organisme experimenta una seqüència estímul-resposta seguida d'una reducció del seu estat de necessitat o impuls (D, de l'anglès drive), llavors s'incrementa l'hàbit (_EH_R), que consisteix en una tendència a efectuar la resposta en presència de l'estímul.

La força de l'hàbit està relacionada amb el nombre de vegades que la seqüència estímul-resposta ha anat seguida de la reducció de l'impuls.

La definició que dóna Hull de l'aprenentatge segueix el model de la llei de l'efecte de Thorndike, és a dir, una associació entre els estímuls presents en el moment de la resposta i aquesta. Però a diferència de Thorndike, Hull inclou una explicació de la forma com actua el reforçador en aquest procés d'aprenentatge: la capacitat del reforçador per a reduir un estat de necessitat és la clau per a formar les associacions E-R.

Però quina evidència hi ha de la formació d'associacions E-R? Rescorla (1991, vegeu també Nevin, 1999) reconeix que l'evidència d'aquestes associacions és indirecta i es basen en el fet que, un cop hem après una resposta instrumental, no podem deixar de respondre totalment malgrat es devaluï completament el reforçador. Però per a entendre aquesta idea cal que primerament ens centrem en un segon tipus d'associació implicada en el condicionament instrumental: les associacions entre les respostes i les conseqüències o associacions R-C.

8.1.2.Associacions R-C

Les associacions E-R defensen que la conducta és controlada pels estímuls antecedents, de manera que si es presenta un determinat estímul, aquest activa la resposta amb la qual està associat. No obstant això, Skinner es va adonar que els estímuls consegüents també tenen control sobre el comportament. Així, si una rata prem la palanca i obté menjar, mantindrà el seu comportament, almenys mentre tingui gana. Si en un segon moment, es deixa de presentar el menjar, podrem observar que la conducta de prémer la palanca es redueix i fins i tot desapareix. Si es torna a presentar el menjar contingent amb la resposta, aquesta torna a aparèixer. Aquesta simple manipulació experimental permet assumir que la conducta és controlada pels estímuls consegüents. Però quin mecanisme permet explicar aquests canvis en la conducta que depenen dels estímuls consegüents?

Des de la perspectiva associativa cap la possibilitat que es formin associacions entre les respostes i les conseqüències.

Aquest tipus d'associacions permeten als organismes saber què han de fer per a produir determinats canvis en el seu entorn com, per exemple, obtenir menjar.

Quines evidències tenim de l'existència d'aquestes associacions? Ens centrarem en una recerca de Colwill i Rescorla (1985).

Experiment de Colwill i Rescorla (1985)

En aquest treball, un grup de rates van aprendre a obtenir dos reforçadors executant dues respostes diferents. Així, els animals obtenien boletes de menjar en prémer una palanca i sucrosa líquida si estiraven d'una cadena que penjava del sostre de la caixa de condicionament. L'entrenament amb cadascuna de les respostes es feia en dies alternatius. Per a evitar explicacions segons les dificultats en la manipulació dels mecanismes de resposta o el valor dels dos reforçadors utilitzats, es va disposar que, per a la meitat dels subjectes, les relacions entre les dues respostes i els dos reforçadors fossin les esmentades, però per a l'altra meitat dels animals aquestes relacions s'invertien, de manera que prémer la palanca proporcionava la sucrosa líquida, mentre que estirar de la cadena produïa les boletes de menjar. Un cop els animals havien après les relacions entre cada conducta i les seves conseqüències concretes, es va procedir a devaluar un dels reforçadors.

El concepte de devaluar fa referència a la manipulació experimental que fa que un determinat estímul reforçador canviï el seu valor hedònic. Per exemple, el menjar és un estímul apetitiu per a un animal famolenc, però deixa de ser apetitiu si l'animal està saciat o si el consum d'aquest menjar provoca un malestar gastrointestinal. En l'experiment de Colwill i Rescorla la devaluació va consistir a presentar, en dies alterns, els dos reforçadors. La ingestió d'un dels reforçadors era seguida d'un malestar provocat per una injecció de ClLi, mentre que el consum de l'altre reforçador no provocava cap malestar. Altre cop, per a evitar explicacions alternatives, a la meitat dels subjectes, se'ls va devaluar la sucrosa líquida i, a l'altra meitat, se'ls va devaluar les boletes de menjar.

Resumint el procediment, i independentment de les respostes i els reforçadors concrets, cada animal va aprendre que dues respostes, R₁ i R₂, proporcionaven cadascuna una conseqüència diferenciada, C₁ i C₂. Si es formen associacions R-C, llavors els animals haurien d'adquirir dues associacions, R₁-C₁ i R₂-C₂. La devaluació de C₁ permetria posar a prova si realment s'han adquirit aquestes associacions R-C. Colwill i Rescorla van dur a terme una darrera fase de prova després de la devaluació de C₁ que consistia en una sessió de 20 minuts en la qual estaven disponibles els dos mecanismes de resposta i, per tant, els animals podien escollir entre R₁ i R₂. Durant aquesta sessió, cap dels dos mecanismes no proporcionava el reforçador, per la qual cosa es tractava d'un procediment d'extinció. Si s'haguessin format les associacions R-C, llavors els animals poden anticipar un reforçador que provoca un malestar si executen la R₁, i un reforçador apetitiu si executen la R₂. Els resultats van ser clars, els animals preferien treballar en el mecanisme que proporcionava reforçadors no devaluats que en el mecanisme que proporcionava reforçadors devaluats. Durant els primers quatre minuts de la prova, els animals van respondre a R₂ amb una taxa de 6,7 respostes per minut, mentre que responien a R₁ amb una taxa d'1,8 respostes per minut. Aquests resultats només són possibles si els animals poden anticipar quina conseqüència té cadascuna de les seves accions i, per tant, donen suport a la formació d'associacions R-C.

Però tornem un moment enrere, quan hem dit que les proves de la formació d'associacions E-R només eren indirectes. Si ens fixem en la condició en què es devalua el reforçador, podem apreciar que els animals no van deixar de respondre totalment. Aquesta dada no és coherent si només es formessin associacions R-C, ja que els animals estarien invertint temps en una activitat que els portaria a un aliment nociu. Per què es continua responent a R₁? La resposta és que s'han format associacions E-R. Això és, les característiques físiques de cada mecanisme de resposta s'han associat amb la resposta corresponent, de manera que aquestes característiques físiques poden provocar la resposta dels animals.

8.1.3.Associacions E-C

En introduir l'anàlisi associativa del condicionament instrumental, hem postulat una tercera associació entre els estímuls antecedents i els estímuls consegüents. Tot i que aquesta associació és clàssica, ja que els dos elements associats són estímuls, pot tenir repercussions importants sobre la conducta instrumental. Penseu en la manipulació experimental següent: un animal pot obtenir menjar si pressiona la palanca, però només quan és present un to. Si no apareix el to, llavors la pressió de palanca no proporciona menjar. És evident que una bona conducta adaptada de l'animal és la que limita les respostes de pressió de palanca només en presència del to, ja que en la seva absència seria una despesa energètica inútil. Com veurem en l'apartat de discriminació i generalització, els animals no tenen gaire dificultat per a aprendre a limitar les respostes en presència de l'estímul antecedent o discriminant.

Si bé aquest comportament es pot explicar per una associació E-R, ja que la resposta ha estat seguida de reforçador només quan era present el to, hi ha una segona possibilitat: que els animals aprenguin una associació E-C entre el to i el menjar de manera que l'estímul discriminant anticipi la disponibilitat del reforçador.

Colwill i Rescorla (1988) van aportar dades a favor de l'existència d'aquestes associacions. En l'experiment que analitzarem es van utilitzar dos estímuls discriminants (un soroll i un llum), quatre respostes (empènyer amb el morro un botó, estirar d'una maneta, prémer una palanca i estirar d'una cadena) i dues conseqüències (boletes de menjar i sucrosa líquida).

Experiment de Colwill i Rescorla (1988)

En una primera fase es va entrenar els animals a executar l'R₁ per obtenir la C₁ en presència de l'E₁ i executar R₂ per a obtenir la C₂ en presència de l'E₂. Igual que en l'experiment que hem descrit anteriorment, les respostes, estímuls i conseqüències concretes es van contrabalançar d'una manera adequada. D'acord amb la formació d'associacions clàssiques entre l'estímul discriminant i les conseqüències (E-C), llavors el procediment hauria permès associacions entre l'E₁ i la C₁ i entre l'E₂ i la C₂. Per tal de posar a prova aquestes associacions, Colwill i Rescorla van dur a terme una segona fase en la qual els animals van aprendre dues respostes noves: l'R₃ que proporcionava la C₁, i l'R₄ que proporcionava la C₂. Durant aquesta fase no es va presentar cap dels dos estímuls discriminants. Finalment, es va dur a terme la fase de prova en la qual es presentaven assajos amb l'E₁ i assajos amb l'E₂. En cadascun d'aquests assajos els animals podien escollir entre les respostes R₃ i R₄.

Com que les respostes R₃ i R₄ no s'havien executat mai en presència dels estímuls discriminants, no s'havien pogut formar associacions E-R i, en conseqüència, els estímuls discriminants no podien activar cap de les dues respostes. D'altra banda, si l'E₁ s'hagués associat amb C₁ i l'E₂ s'hagués associat amb C₂, llavors E₁ i E₂ activarien l'expectativa de C₁ i de C₂, respectivament. Si els animals tenien l'expectativa de C₁ en presència d'E₁, llavors s'esperaria que executessin la resposta que els proporcionaria el reforçador esperat, això és, R₃, mentre que si tenien l'expectativa de C₂, llavors executarien l'R₄. En altres paraules, en presència d'un estímul discriminant determinat, els animals esperen que estigui disponible una conseqüència concreta i que, per tant, executin preferentment la resposta que proporciona aquesta conseqüència.

Els resultats van ser els següents. La prova va consistir en vuit assajos i es va obtenir una mitjana de 7,3 respostes per minut al mecanisme de resposta associat a la mateixa conseqüència que l'estímul discriminant present, mentre que la mitjana de respostes al mecanisme associat a la conseqüència diferent era de 5,1 respostes per minut. Per tant, l'estímul discriminant s'hauria d'haver associat amb la conseqüència, ja que la seva capacitat per a modular la conducta era més gran quan la conseqüència associada a l'estímul discriminant i la resposta era la mateixa.

8.1.4.Associacions jeràrquiques

Finalment, cal tenir en compte que si bé la naturalesa de l'associació E-C és clàssica, la conseqüència no es produirà si abans no apareix la resposta instrumental.

En altres paraules, l'estímul discriminant només marca l'ocasió per a la conseqüència, però aquesta no tindrà lloc tret que l'organisme executi la resposta adequada.

Aquesta situació ens porta a la necessitat d'avaluar una nova possibilitat: que l'estímul discriminant no solament s'associï amb cadascun dels altres elements, sinó que evoqui una representació de la relació que hi ha entre la resposta i el reforçador (Jenkins, 1977). Aquest tipus d'associació més complexa que la que relaciona dos elements simples, rep el nom d'associació jeràrquica. Aquesta estructura associativa implicaria que un estímul discriminant no provocaria la resposta directament mitjançant l'associació E-R, que com assenyala Mackintosh (1983) és factible quan la resposta instrumental s'ha convertit en un hàbit, ni es limitaria a activar una expectativa del reforçador mitjançant l'associació E-C, sinó que aportaria informació més concreta sobre el que ha de fer l'animal per a obtenir el reforçador, és a dir, activaria la representació de l'associació R-C. En els darrers anys s'han obtingut dades experimentals a favor d'aquestes associacions jeràrquiques (per exemple, Rescorla, 1990); no obstant això, la complexitat dels procediments experimentals utilitzats fa que la seva presentació quedi fora dels objectius d'aquest mòdul.

Per acabar amb l'anàlisi associativa del condicionament instrumental, exposarem la idea de Mackintosh (1983) que afirma que l'actuació instrumental és la conseqüència d'una instrucció que s'infereix d'una associació, en lloc de ser provocada directament per una associació.

L'exposició d'una contingència positiva entre les pressions de palanca i el menjar establirà una associació entre elles, o una proposició que les pressions de palanca proporcionen menjar. Si una rata té gana i el menjar és agradable, llavors el coneixement adquirit de la premissa que les pressions de palanca produeixen menjar, es combinarà amb una altra premissa que el menjar cal buscar-lo. A partir d'aquestes dues premisses es pot derivar la instrucció d'accionar la palanca.

8.2.Teories sobre la regulació de la conducta

L'anàlisi associativa del condicionament constitueix una explicació molecular del condicionament instrumental. Portat a l'extrem, els mecanismes associatius exposats permeten als organismes adquirir informació rellevant respecte a l'entorn, un coneixement en forma de premisses o proposicions que permetrà la combinació entre aquestes de manera que s'activi la conducta més apropiada en cada moment.

Tanmateix, l'anàlisi del condicionament instrumental també s'ha fet des d'una perspectiva molar, global. S'han proposat diverses teories que s'agrupen sota el títol de la regulació de la conducta. Algunes d'aquestes teories prenen supòsits del camp de l'economia per a intentar explicar de quina manera es regula el nostre comportament.

Quan hem exposat els elements del condicionament instrumental i, concretament, el reforçador, hem presentat la teoria de Premack.

Recordem que d'acord amb Premack, en qualsevol situació en la qual no hi ha restriccions, els organismes distribueixen el temps en diverses activitats en funció de les necessitats de l'animal i la disponibilitat de les diverses activitats.

Si seguim l'argument de Premack, una activitat que apareix en una freqüència alta pot servir per a reforçar una altra activitat de baixa freqüència sempre que es restringeixi la primera i es faci contingent amb la segona. Si una rata té gana (vegeu la figura següent), el més probable és que dediqui més temps a menjar que a córrer en una roda d'activitat. Si restringim l'accés al menjar i el fem contingent a donar unes voltes en la roda d'activitat podrem observar que la conducta de baixa freqüència incrementa i la d'alta freqüència disminueix. D'una manera simètrica, podem establir un procediment de càstig. En aquest cas, es fa contingent una conducta de baixa freqüència amb una altra conducta d'alta freqüència de manera que si apareix la segona, s'obliga l'execució de la primera. En tots dos casos, s'obté una redistribució en la freqüència d'aparició de les diverses conductes. El punt crític de la teoria de Premack és la probabilitat diferencial de les conductes instrumental i reforçadora.

Diagrama representatiu del principi de Premack

Si les rates estan privades de menjar, llavors menjar serà la conducta més freqüent i reforçarà la conducta de baixa freqüència córrer. Si els animals no estan privats de menjar, llavors les rates correran més i reforçarà la conducta de menjar.

Allison (1989, Timberlake i Allison, 1974) va proposar que el factor crític perquè una conducta en reforci una altra és la restricció de la conducta amb independència de la seva freqüència d'aparició. A favor d'aquesta hipòtesi, Timberlake i Allison (1974) van trobar que l'accés a una conducta de baixa probabilitat es podia utilitzar com a reforçador d'una altra conducta, amb l'única condició que els subjectes tinguessin la restricció de fer aquesta conducta.

La idea bàsica d'aquest punt de vista és que els organismes distribueixen les seves conductes, quan no hi ha restriccions, de manera més òptima per a ells. Aquesta distribució rep el nom de punt de complaença de la conducta.

En posem un exemple senzill en el qual només es tinguin en compte dues conductes en el cas d'un adolescent.

Imaginem que el noi o la noia dedica d'una manera espontània el 60% del temps entre l'acabament de l'institut i l'hora de sopar a veure la televisió i el 15% a estudiar (la resta del temps el dedicarà a altres activitats). Aquesta distribució constituiria el punt de complaença de la conducta. Tanmateix, en el moment en què s'introdueix una contingència resposta reforçador, s'altera aquest punt de complaença o, el que és el mateix, el punt d'equilibri.

Suposem que establim una contingència en la qual per cada 15 minuts d'estudi pot mirar la televisió durant 15 minuts. És evident que aquesta nova situació trenca l'equilibri de la distribució de les conductes i la conseqüència és que l'adolescent redistribuirà la seva conducta de manera que s'apropi el màxim al punt de complaença.

S'entendrà millor amb una representació gràfica (vegeu la figura següent). El punt de complaença de la conducta és representat pel cercle blanc, mentre que la contingència establerta entre les dues conductes es representa amb la línia negra. Qualsevol punt d'aquesta línia compliria el requisit de la contingència. En quin punt, però, se situarà la nova distribució de les dues activitats? D'acord amb la teoria, l'adolescent buscarà el punt que l'apropi més al punt de complaença, és a dir, el punt de la línia que es trobi més a prop del punt de complaença (Staddon, 1983). Suposem que l'adolescent disposa de dues hores des que arriba a casa i l'hora de sopar. En condicions normals, dedicaria 72 minuts a mirar la televisió i 18 minuts a estudiar. Si vol mantenir el màxim de dedicació a veure la televisió i d'acord amb el programa establert, l'obligaria a dedicar 60 minuts a estudiar per a poder veure 60 minuts de televisió. El més probable és que l'adolescent no estigui disposat a pagar un "preu" tan alt. Una altra opció és que no estigués disposat a estudiar més temps del que ja dedicava, però en aquest cas perd molt respecte a mirar la televisió, ja que només hi podria dedicar 18 minuts. Buscar el punt que millor s'ajusti al punt de complaença es converteix en la motivació de la conducta. En l'exemple que ens ocupa, una solució podria ser dedicar 37,5 minuts a cada conducta de manera que aconseguiria distribuir les dues conductes i s'allunyaria el mínim de l'equilibri. La nova distribució implica un increment del temps d'estudi i una reducció del temps dedicat a la televisió.

Distribució de les conductes de mirar la TV i d'estudiar

El punt blanc mostra el punt de complaença o la distribució òptima quan no hi ha restriccions. La línia mostra les diferents possibilitats de combinar les dues conductes quan s'introdueix un programa de reforçament en el qual es demana que l'estudiant dediqui la mateixa quantitat de temps a estudiar que a veure la tele. Com es pot observar, cap dels punts de la línia no passa pel punt de complaença. La conseqüència és que l'estudiant haurà de reajustar els dos comportaments d'acord amb el punt de la recta que és més a prop del punt de complaença (el triangle negre).

Un aspecte interessant de la teoria és que si restringim la conducta d'estudiar i la fem contingent amb la de veure la televisió podrem veure que la conducta d'estudi serviria per a reforçar la de veure la televisió. Si el nostre adolescent hagués de veure 90 minuts de televisió per a poder estudiar durant 10 minuts, llavors per a mantenir-se proper al punt de complaença hauria d'incrementar el temps de veure la televisió per a no perdre gaire temps d'estudi.

Teories del condicionament instrumental
Basades en els mecanismes	Basades en la motivació
Explicació molecular Mecanismes associatius Associacions E-R Associacions R-C Associacions E-C Associacions E-(R-C)	Explicació molar Regulació de la conducta Premack: les conductes d'alta probabilitat reforcen les conductes de baixa probabilitat. Punt de complaença: la restricció d'una conducta la converteix en reforçadora d'una segona conducta.

9.Generalització i discriminació

Al llarg del mòdul hem pogut veure que la conducta instrumental és governada pels estímuls antecedents i els estímuls consegüents. Els primers aporten informació sobre la disponibilitat o no-disponibilitat dels estímuls consegüents i sobre quines conductes els permeten controlar, mentre que els segons consisteixen en situacions agradables que procurem obtenir o desagradables que intentem aturar o impedir. En aquest apartat ens centrarem en les propietats dels estímuls que permeten controlar la conducta. Cal tenir en compte, però, que tot i que tractem d'aquest tema en el mòdul del condicionament instrumental, les característiques que veurem no es limiten a aquest tipus de condicionament, sinó que s'estenen també al condicionament clàssic. Així, doncs, el coneixement que tenim sobre la generalització i la discriminació dels estímuls afecta tant els estímuls condicionats com els estímuls discriminants.

Exposarem la idea del control de la conducta amb un experiment de Reynolds (1961) exposat a Domjan (2003).

Experiment de Reynolds (1961)

En aquest experiment es van entrenar dos coloms perquè picotegessin una tecla il·luminada de color vermell amb un triangle blanc al centre. L'entrenament consistia a proporcionar menjar si els coloms picotejaven la tecla sempre que estigués il·luminada amb aquest dibuix, però no rebien menjar si la picotejaven quan no estava il·luminada. Els animals van mostrar el seu aprenentatge, ja que van limitar la resposta als moments en què la tecla s'il·luminava. Podem afirmar que la il·luminació de la tecla controlava la resposta de picotejar dels coloms. Més interessant, però, va ser la prova que va dur a terme Reynolds amb els coloms un cop havien assolit l'aprenentatge. La prova consistia a presentar en alguns assajos el disc il·luminat de color vermell sense el triangle, i en altres assajos presentar el triangle blanc però sense el fons de color vermell. Durant la prova la resposta de picotejar la tecla no era seguida del reforçador. Quina característica de l'estímul original controlaria la resposta? Reynolds va trobar que mentre que un dels coloms responia a la tecla de color vermell i ignorava el triangle blanc, el segon colom responia bàsicament al triangle blanc i ignorava la tecla de color vermell.

Aquests resultats de la prova indiquen que de tots els estímuls o característiques dels estímuls, només alguns d'ells arriben a tenir el control de la conducta. D'altra banda, els resultats també il·lustren el fet que sense un entrenament explícit qualsevol característica pot arribar a adquirir el control de la conducta. En l'experiment de Reynolds, podria ser que un dels animals s'hagués fixat en el color vermell o la forma circular de la tecla durant l'entrenament, mentre que l'altre colom es podria haver fixat en el color blanc de la tecla o en la forma triangular de la figura blanca. Més encara, els resultats mostren que els animals discriminaven entre els dos estímuls de prova ja que responien d'una manera diferencial davant de cadascun d'ells. Al mateix temps, podem afirmar que els animals també generalitzaven entre l'estímul utilitzat durant l'entrenament original i un dels estímuls de prova, ja que hi continuaven responent en la seva presència, i discriminaven entre l'estímul original i l'altre estímul de prova, ja que no hi responien en la seva presència.

9.1.Generalització i discriminació

L'exemple que acabem d'exposar ens ha servit per a introduir els dos conceptes de què tractarem en aquest apartat i que cal definir formalment.

La generalització és la tendència a tractar dos estímuls diferents com si fossin iguals.
La discriminació és la tendència a respondre d'una manera diferencial a dos estímuls diferents.

Es fa evident que els dos fenòmens són complementaris, ja que si generalitzem entre dos estímuls, no estem discriminant entre ells; i d'altra banda, si discriminem entre dos estímuls, no generalitzem entre ells.

Lashley i Wade (1946) van afirmar que la generalització és una conseqüència de la incapacitat del subjecte per a diferenciar els estímuls. Lashley i Wade consideren que es generalitza perquè hi ha una confusió entre els estímuls de prova i l'estímul que s'ha utilitzat durant l'entrenament. D'aquesta afirmació de Lashley i Wade es desprèn que com més semblants siguin dos estímuls més confusió hi haurà entre ells i es produirà més generalització.

En altres paraules, la generalització és la relació sistemàtica entre la força de la resposta als estímuls generalitzats i la similitud d'aquests estímuls amb l'estímul utilitzat durant l'entrenament original. Aquesta relació sistemàtica s'anomena gradient de generalització.

9.2.Gradients de generalització

Una manera d'estudiar els gradients de generalització consisteix a dur a terme una fase d'entrenament en la qual s'ensenya els subjectes a respondre en presència d'un estímul determinat, per exemple, un llum d'un color determinat. Un cop finalitzat aquest entrenament, es duu a terme una fase de prova durant la qual es presenten d'una manera aleatòria l'estímul d'entrenament i altres estímuls nous que varien en el color. Durant la prova no s'administra el reforçador i s'enregistren les respostes davant de cada estímul de prova.

La primera demostració dels gradients de generalització la van aportar Guttman i Kalish (1956).

Experiment de Guttman i Kalish (1956)

En el seu experiment van manipular el color del llum d'una tecla de resposta mitjançant uns filtres cromàtics. L'entrenament inicial consistia a il·luminar la tecla de resposta d'un color determinat, concretament un llum amb una longitud d'ona de 580 nanòmetres. Durant els períodes de presentació de l'estímul, de 60 segons, els coloms tenien accés a menjar amb un programa de reforçament IV d'un minut. En els períodes en què la tecla estava apagada no es dispensava menjar als animals. En la prova de generalització, van presentar l'estímul d'entrenament durant períodes de 30 segons, a més d'altres deu estímuls amb una longitud d'ona inferior o superior en l'espectre cromàtic que variaven entre els 520 nm i els 640 nm de longitud d'ona. Els 11 estímuls es van presentar un total de 12 vegades cadascun. No es va administrar menjar durant les sessions de prova.

Els resultats van mostrar que els coloms van respondre amb la taxa de resposta més alta davant de l'estímul d'entrenament (580 nm de longitud d'ona). També van mostrar taxes de resposta molt altes enfront de longituds d'ona similars (570 i 590 nm). Les taxes de resposta van anar disminuint a mesura que la longitud d'ona dels estímuls de prova s'allunyava del valor de l'estímul original fins que els animals amb prou feines responien quan les longituds d'ona eren de 520, 540, 620 i 640 nm. En altres paraules, els gradients de generalització mostren com la generalització i la discriminació depenen del grau de similitud entre els estímuls.

La gràfica mostra un gradient de generalització similar al que van obtenir Guttman i Kalish

Es pot observar que la freqüència màxima de respostes es produeix en presència de l'estímul d'entrenament (580 nm). També es pot veure que els estímuls de prova (570 i 590 nm) similars a l'estímul d'entrenament provoquen una taxa de resposta molt alta, cosa que indica un grau de generalització alt. Finalment, els estímuls de prova allunyats de l'estímul d'entrenament provoquen taxes de resposta molt baixes, la qual cosa indica una bona discriminació respecte a l'estímul d'entrenament.

Com es pot veure en la figura anterior la forma d'un gradient de generalització és com la d'una campana. Generalment, els subjectes mostren el màxim de respostes en presència de l'estímul d'entrenament. Mentre que en presència dels estímuls de prova la taxa de resposta és més baixa. Podem trobar gradients de generalització molt estrets, cosa que hem d'interpretar com una discriminació molt fina, o gradients de generalització molt amples que ens indiquen molta generalització. El cas més extrem és del gradient de generalització pla que es produeix quan es generalitza completament entre els estímuls de prova i l'estímul d'entrenament.

9.3.Discriminacions extradimensionals i intradimensionals

L'experiment de Guttman i Kalish mostra un entrenament en el qual només s'utilitza un estímul durant l'entrenament per a indicar la disponibilitat del reforçador, mentre que la no-disponibilitat del reforçador queda assenyalada per l'absència de l'estímul discriminant. L'estímul discriminant rep el nom d'E+.

En altres procediments es poden utilitzar dos estímuls diferents per a indicar quan hi ha i quan no hi ha disponibilitat del reforçador. Per exemple, es poden presentar unes línies verticals com a senyal de la disponibilitat del reforçador i el color verd com a senyal que el reforçador no està disponible. L'estímul que assenyala el no-reforçament rep el nom d'E–. Com que els estímuls discriminants corresponen a dimensions d'estimulació diferents, la discriminació s'anomena extradimensional. D'altra banda, podríem fer la discriminació més difícil si demanem als subjectes que discriminin entre dos estímuls que pertanyen a la mateixa dimensió de l'estímul, per exemple, entre dos colors o dues freqüències sonores. En aquest cas, parlem de discriminacions intradimensionals. En la figura següent apareixen dos exemples d'aquestes discriminacions.

Exemples d'estímuls emprats en discriminacions extradimensionals (esquerra) i intradimensionals (dreta)

En la discriminació extradimensional, els subjectes han de discriminar entre ratlles verticals i el color verd. L'orientació de les ratlles i el color són dues dimensions diferents dels estímuls. En la discriminació intradimensional, els subjectes han de discriminar entre dos valors (colors) dins la mateixa dimensió estimular.

El tipus d'entrenament en discriminació utilitzat influirà notablement en els gradients de generalització. Jenkins i Harrison (1962) van entrenar tres grups de coloms a picotejar una tecla de resposta per a obtenir menjar. Per a un dels grups l'E+ era un to de 1.000 Hz, mentre que l'absència del to actuava com a E–, és a dir, picotejar la tecla era reforçat sempre que hi havia present el to, però no es reforçava mai la resposta en absència del to. Un segon grup va rebre el mateix entrenament que el primer grup excepte que l'E– era un altre to de 950 Hz. Finalment, el tercer grup era de control i no va rebre cap entrenament en discriminació. Concretament, en aquest grup de control, el to de 1.000 Hz sempre era present i els animals sempre rebien el reforçador per a picotejar la tecla.

Un cop es va acabar l'entrenament en els tres grups, es va procedir a la prova de generalització amb tons de diverses freqüències amb l'objectiu de veure fins a quin punt el to controlava la conducta. El grup de control va mostrar un gradient de generalització pla, és a dir, responia amb la mateixa taxa de resposta a qualsevol estímul de prova de manera que hi havia una generalització completa entre el to de 1.000 Hz i la resta de tons de prova. En canvi, els dos grups que havien rebut un entrenament en discriminació mostraven gradients de generalització. El gradient més estret corresponia al grup que havia rebut la discriminació intradimensional entre els dos tons. En altres paraules, l'entrenament amb una discriminació intradimensional va produir la discriminació més fina.

9.4.La transposició i el desplaçament del vèrtex

Experiment de Kohler (1939)

Kohler (1939) va entrenar uns pollets en una discriminació intradimensional en la qual presentava dos estímuls que variaven en la tonalitat de gris. Si els pollets s'apropaven al gris més clar, llavors tenien accés al menjar. Però si s'apropaven al gris més fosc, no rebien el reforçador. Aquest procediment rep el nom de discriminació simultània, ja que els dos estímuls són presents alhora i els pollets n'havien d'escollir un. Amb prou entrenament, els pollets van aprendre a apropar-se al color gris clar.

Com havien resolt aquest problema?

Molts psicòlegs pioners que estudiaven el comportament dels animals pensaven que els animals aprenien les associacions E-R en termes dels valors absoluts dels estímuls (per exemple, Morgan, 1894). En altres paraules, els pollets de Kohler s'apropaven al gris clar perquè aquesta tonalitat de gris, i no una altra, havia quedat associada amb la resposta d'apropament, ja que proporcionava el reforçador.

No obstant això, Kohler defensava que els animals podien manipular conceptes abstractes per a resoldre problemes com el de discriminació entre les dues tonalitats de gris. Segons Kohler els pollets haurien après a escollir el més clar entre els dos grisos. Cal tenir en compte que aquest aprenentatge seria relacional, ja que els animals haurien d'haver descobert la relació entre els dos grisos i que aquesta relació era la rellevant per a resoldre el problema. Més concretament, els animals haurien après a apropar-se al més clar dels dos grisos.

Evidentment, les dues explicacions poden explicar l'actuació dels pollets. Per tal de poder determinar quines de les dues explicacions, absoluta o relacional, era la més adequada, Kohler va idear una prova força original. Després de l'entrenament que hem descrit, Kohler va presentar als pollets una nova discriminació simultània entre el gris clar que havia estat l'E+ en la primera fase i un segon estímul nou més clar encara (vegeu la figura següent). Durant aquesta prova no es reforçava cap de les eleccions dels animals per a assegurar que la seva conducta depenia del que havien après durant l'entrenament inicial.

Estímuls utilitzats per Kohler (1939) en el seu experiment de transposició

Durant la prova, els pollets van escollir preferentment el gris més clar malgrat que havia estat el gris més fosc el reforçat durant l'entrenament de discriminació.

D'acord amb la teoria absoluta, els pollets continuarien apropant-se a l'E+, ja que les seves característiques físiques serien les que s'haurien associat amb la resposta d'apropament. En canvi, la posició de Kohler defensava que els pollets s'aproparien a l'estímul nou, ja que era el més clar. Els resultats que va obtenir Kohler van mostrar que els pollets preferien l'estímul nou, el més clar dels dos estímuls de prova, que l'E+ original, el més fosc dels dos grisos de prova.

Aquest fenomen va rebre el nom de transposició, perquè se suposava que els animals havien transferit la regla "escollir el gris més clar" apresa durant l'entrenament a la situació de prova.

Un fenomen relacionat amb la transposició és el desplaçament del vèrtex. Quan s'utilitzen discriminacions intradimensionals i s'avalua posteriorment la generalització en una fase de prova, es pot observar un fenomen força robust: el desplaçament del màxim o vèrtex del gradient de generalització.

El desplaçament del vèrtex consisteix en l'allunyament del màxim del gradient de generalització respecte a l'E+ original i en direcció oposada a l'E-.

Experiment de Hanson (1959)

Hanson (1959) va dur a terme un experiment en el qual es van entrenar diferents grups de coloms perquè discriminessin entre dos colors definits per la longitud d'ona. Tot i que l'experiment constava de cinc grups, aquí només n'analitzarem tres. En els tres grups es va utilitzar un color de 550 nm de longitud d'ona com a E+. En canvi, els tres grups diferien en el color de l'E–. Per a un del grups, l'E– era un llum de 590 nm de longitud d'ona; per a un altre grup, l'E– era un llum de 555 nm de longitud d'ona. El tercer grup era de control i l'E– consistia en l'absència del llum. En resum, el grup control havia de discriminar entre presència i absència de l'E+, i els altres grups havien de discriminar entre un E+ i un E–. Durant la fase de prova es van presentar llums de diferent longitud d'ona que variaven entre 480 nm i 620 nm. El grup de control va mostrar un gradient de generalització normal, és a dir, amb el màxim de respostes en presència de l'E+. En canvi, el grup que havia discriminat entre els dos llums de 550 i 590 nm va mostrar el màxim de respostes a la longitud d'ona de 540 nm, encara que la taxa de respostes a l'E+ era molt similar. Tanmateix, el desplaçament del vèrtex va ser més espectacular en el grup que va discriminar entre les longituds d'ona molt semblants, 550 i 555 nm. En aquest cas, les longituds d'ona que van provocar el màxim de respostes van ser les de 540 i 530 nm, però els animals pràcticament no van respondre en presència de l'E+. En la figura següent es pot veure que la línia amb quadrats negres dibuixa un gradient de generalització normal, mentre que les línies amb quadradets i triangles blancs tenen el màxim desplaçat respecte a l'E+ (550 nm) en direcció oposada als respectius E–.

Gràfica basada en les dades de Hanson (1959) en la qual es pot veure l'efecte del desplaçament del màxim.

Des del punt de vista de la posició absoluta, el desplaçament del vèrtex és un nou repte, ja que prediu que els animals haurien de continuar responent amb més intensitat davant de l'E+ durant la prova de generalització.

D'altra banda, la posició relacional tampoc ho pot explicar d'una manera clara les dades de Hanson. En la discriminació amb longituds d'ona de 550 i 555 nm, els colors són verd-groc, i la longitud d'ona de 550 nm és més verdosa. Segons l'aprenentatge relacional, en la prova els animals haurien de respondre a l'estímul més verd. Efectivament, les longituds d'ona de 540 i 530 nm són més verdoses que l'E+ i fins aquí els resultats concorden amb l'aprenentatge relacional. El problema és que les longituds d'ona compreses entre 500 i 520 nm són els verds purs i en l'experiment de Hanson no van provocar la taxa de resposta màxima com prediu l'aprenentatge relacional.

9.5.Teoria d'Spence (1936)

Spence (1936) va elaborar una teoria absoluta que pot explicar d'una manera elegant els fenòmens de la transposició i del desplaçament del vèrtex.

El punt de partida és que els subjectes aprenen només sobre els estímuls d'una manera individual i no aprenen res respecte a les seves relacions.

A partir d'aquest supòsit, Spence va proposar que en un entrenament intradimensional l'E+ adquiria força excitadora i l'E– adquiria força inhibidora. Això és, l'E+ activa la resposta, mentre que l'E– inhibeix la resposta.

Un segon supòsit d'Spence és que ambdues forces, excitadora i inhibidora, formen els seus respectius gradients de generalització excitador i inhibidor.

Guttman i Kalish van demostrar l'existència dels gradients de generalització excitadors, però ara cal presentar alguna evidència de l'existència de gradients de generalització inhibidors abans de continuar amb l'exposició de la teoria d'Spence i la seva aplicació als fenòmens de la transposició i del desplaçament del vèrtex.

Representació esquemàtica dels estímuls utilitzats en l'experiment de Honig et al. (1963). Vegeu el text per a una explicació de l'experiment.

Una demostració clàssica dels gradients de generalització inhibidors la trobem en el treball de Honig, Boneau, Burstein i Pennypacker (1963).

Experiment de Honig, Boneau, Burstein i Pennypacker (1963)

Aquests investigadors van entrenar dos grups de coloms en una discriminació visual. Un grup va rebre el reforçador per a respondre a la tecla de resposta quan estava il·luminada de color blanc amb una línia vertical sobreposada (E+), però no era reforçat quan es presentava el llum blanc sense la línia (E–). El segon grup va rebre el mateix entrenament en discriminació, però amb els estímuls intercanviats, això és, el llum blanc sol era l'E+ i el llum blanc amb la línia negra vertical era l'E–. Un cop els dos grups van aprendre la discriminació amb els respectius estímuls es va fer una prova de generalització en què es presentava la tecla de resposta il·luminada de color blanc i sobreposada una línia negra que diferia en l'angle d'inclinació respecte a la vertical (0°). L'angle d'inclinació de la línia variava de 30 en 30 graus de manera que les inclinacions de prova van ser de –90°, –60°, –30°, 0°, +30°, +60° i +90° (vegeu la figura anterior).

Els animals del grup en el qual la línia vertical actuava com a E+ van mostrar el màxim de resposta en presència de l'E+ i a mesura que la inclinació de la línia s'allunyava de la verticalitat les taxes de resposta van ser més baixes. Aquests resultats són una demostració més del gradient de generalització excitador. Pels nostres interessos actuals, són més interessants els resultats del grup en què la línia vertical actuava com a E–. Els animals d'aquest grup van respondre molt poc en presència de la línia vertical, però en el cas en què la línia apareixia inclinada respecte a la vertical, els animals responien amb taxes més elevades. Quan la línia apareixia horitzontal (condicions de prova –90° i +90°) els animals van mostrar les taxes de resposta més elevades. Aquesta és una evidència clara de l'existència dels gradients de generalització inhibidors que necessitaven per a continuar exposant la teoria d'Spence.

Havíem deixat l'exposició de la teoria d'Spence en el supòsit de l'existència dels gradients de generalització excitador i inhibidor entorn de l'E+ i de l'E–, respectivament. En el continu d'una dimensió d'un estímul, com el color, la grandària o la freqüència sonora, alguns valors de la dimensió es poden veure afectats tant per forces excitadores com per forces inhibidores simultàniament i, atesa la direcció oposada d'aquestes dues forces, és raonable assumir que es contrarestaran. En la figura següent es pot veure una representació gràfica d'aquests supòsits. La corba contínua representa la força excitadora neta al continu d'estímuls. Cal advertir que l'E+ mostra una força excitadora neta més baixa que altres estímuls nous com l'E₁ i l'E₂.

Representació gràfica dels gradients excitador i inhibidor entorn dels estímuls E+ i E–, respectivament (línies puntejades). La línia contínua representa la força excitadora neta que resulta de les forces excitadores i inhibidores.

Apliquem la teoria d'Spence a l'experiment de Hansen sobre el desplaçament del màxim. A partir de la fase d'entrenament en discriminació, s'haurà desenvolupat un gradient de generalització excitador entorn de l'estímul 550 nm i un gradient de generalització inhibidor entorn de l'estímul 555 nm. Tot i que l'estímul 550 nm tingui la força excitadora més gran, també rebrà molta força inhibidora de la longitud d'ona de 555 nm i, un cop contrarestades les forces excitadores i inhibidores, s'obtindrà una força excitadora neta més baixa que una longitud d'ona de 530 nm, la qual rep una força excitadora importat des de la longitud d'ona de 550 nm, però poca força inhibidora des de la longitud d'ona de 555 nm. D'acord amb la teoria d'Spence, la força excitadora neta de la longitud d'ona de 530 nm serà més gran que la força excitadora neta de la longitud d'ona de 550 nm i provocarà, en conseqüència, més respostes i donarà lloc al desplaçament del vèrtex. Recordem que la teoria relacional té dificultats per a explicar perquè les longituds d'ona de 500 o 520 nm no provoquen més respostes que la de 530 nm. En canvi, la teoria d'Spence no té dificultats per a explicar aquestes dades. La longitud d'ona de 520 nm està molt allunyada tant de l'E+ com de l'E–, la qual cosa implica que pot rebre una certa força excitadora generalitzada de l'E+ però molt poca o cap força inhibidora generalitzada des de l'E–. En tot cas, la teoria d'Spence pot assumir que la força excitadora neta de la longitud d'ona de 520 nm serà més baixa que la de 530 nm i, per tant, també serà inferior la taxa de resposta provocada.

El mateix raonament es pot aplicar al fenomen de la transposició. Durant la discriminació, el gris clar (E+) haurà adquirit força excitadora, mentre que el gris fosc (E–) haurà adquirit força inhibidora. Durant la prova l'E+ rebrà força inhibidora generalitzada des de l'E–, la qual cosa reduirà la seva força excitadora guanyada durant l'entrenament. En canvi, l'estímul nou presentat durant la prova de transposició rebrà força excitadora des de l'E+ però no rebrà força inhibidora de l'E–, ja que es troba més proper a l'E+ que a l'E–. Si la força excitadora neta de l'estímul nou resulta més gran que la de l'E+, llavors no és sorprenent que els animals escullin amb més freqüència l'estímul nou que l'E+.

L'anàlisi que acabem de fer mostra que la teoria d'Spence pot explicar els fenòmens de la transposició i del desplaçament del màxim sense problemes.

Això no obstant, veurem un experiment de Gonzalez, Gentry i Bitterman (1954) amb un procediment que rep el nom de problema de la grandària intermèdia.

Experiment de Gonzalez, Gentry i Bitterman (1954)

Van utilitzar nou estímuls que consistien en quadrats de diferents grandàries. El més petit tenia una àrea de nou polzades quadrades i el més gran tenia 27 polzades quadrades. Els estímuls es van numerar des de l'1 (el més petit) fins al 9 (el més gran). Durant l'entrenament, uns ximpanzés havien d'escollir entre els estímuls 1, 5 i 9. Els animals van rebre un reforçador sempre que escollissin el quadrat intermedi, el número 5. (Naturalment, la posició dels tres estímuls es va anar intercanviant aleatòriament amb l'objectiu que els animals no utilitzessin la posició com a estímul discriminant.)

Durant la prova, es van presentar als ximpanzés conjunts de tres estímuls i es va reforçar qualsevol de les seves eleccions. Suposem que en un assaig de prova es presenten els quadrats 4, 7 i 9. Des de la teoria relacional es prediu que si els animals han après la regla "escollir el quadrat de grandària intermèdia" ara escollirien el quadrat número 7. En canvi, la teoria d'Spence fa una predicció diferent. A causa de l'entrenament inicial, el quadrat número 5 tindria la màxima força excitadora que es generalitzaria a les altres grandàries, mentre que els quadrats 1 i 9 haurien adquirit força inhibidora que també es generalitzaria als quadrats propers.

Atesa la disposició de les forces excitadores i inhibidores, aquest procediment no hauria de provocar un desplaçament del màxim, sinó que els seus efectes serien fer més estret el gradient de generalització entorn de l'estímul número 5 (l'E+).

En definitiva, la teoria d'Spence prediu que en aquest problema s'escollirà sempre l'estímul més proper a l'E+ (el quadrat 4 en l'exemple).

Els resultats de Gonzalez i col·laboradors van afavorir la teoria relacional. Els ximpanzés van escollir habitualment l'estímul amb una grandària intermèdia en els assajos de prova amb independència de quin conjunt de quadrats se'ls presentava.

Ambdues teories, relacional i absoluta, tenen els seus punts forts i els seus punts febles. Això fa pensar que els animals poden aprendre a partir tant de les característiques absolutes dels estímuls com de les relacions que hi ha entre els estímuls que cal discriminar. La qüestió és determinar en quins moments s'imposarà una estratègia sobre l'altra. De fet, la teoria absoluta explica millor que la relacional el desplaçament del vèrtex, en què la discriminació original és seqüencial. Contràriament, la teoria relacional pot explicar millor el problema de la grandària intermèdia en què la discriminació inicial és simultània.

Una solució de compromís és que l'aprenentatge sobre les característiques absolutes dels estímuls s'afavoriria quan les discriminacions són seqüencials i en les quals és difícil determinar relacions entre els estímuls.

En canvi, la utilització de relacions seria més fàcil en les discriminacions simultànies en què són presents alhora els estímuls, de manera que és més senzill determinar la relació entre ells.

Malgrat que la solució plantejada per a fer compatibles les teories relacionals i absolutes de la discriminació i la generalització és coherent, Thomas (1993) ha plantejat, a partir de la seva recerca amb estudiants universitaris, un model relacional que pot explicar el fenomen del desplaçament del màxim i efectes relacionats.

Experiment de Thomas i Jones (1962)

Thomas i Jones (1962) van dur a terme un experiment en què mostraven als participants un llum de 525 nm de longitud d'ona durant 60 segons. Passat aquest minut es presentava un estímul de prova d'un conjunt de cinc estímuls (el mateix E+ i quatre estímuls diferents) i els participants havien de decidir si era o no era el mateix color que l'estímul original. L'experiment constava de cinc grups diferents que diferien en el conjunt d'estímuls de prova que rebien. Així, el grup de control rebia un conjunt simètric respecte a l'E+, és a dir, dos estímuls de prova amb longituds d'ona inferiors a l'E+ i dos estímuls amb longituds d'ona superiors a l'E+ (el cinquè estímul de prova era el mateix E+). Per a la resta de grups, els estímuls de prova es desplaçaven cap a valors inferiors respecte de l'E+ o cap a valors superiors. Per exemple, a un dels grups se li van presentar els quatre estímuls de prova generalitzat amb longituds d'ona que anaven des de 485 fins a 515 nm, i a un altre dels grups els estímuls de prova generalitzats se situaven entre 535 i 565 nm.

La teoria d'Spence prediu que independentment de quin sigui el conjunt d'estímuls de prova, els participants havien de donar més respostes davant de l'E+, i reduir les respostes a mesura que els estímuls generalitzats diferissin de l'E+. En canvi, els resultats de Thomas i Jones no confirmaven aquesta predicció, ja que els seus participants desplaçaven el màxim de respostes en la direcció del conjunt d'estímuls de prova. Això és, quan el conjunt d'estímuls de prova comprenia longituds d'ona entre 485 i 525 nm, el màxim de respostes s'obtenia en presència de l'estímul 515 nm, mentre que si el conjunt d'estímuls comprenia longituds d'ona entre 525 i 565 nm, el màxim de respostes s'obtenia en presència de l'estímul 535 nm (recordem que l'E+ era la longitud d'ona de 525 nm). De fet, l'únic grup que va mostrar un gradient de generalització d'acord amb les prediccions de la teoria d'Spence va ser el que va rebre un conjunt d'estímuls de prova simètric respecte a l'E+.

El model de Thomas és relacional ja que defensa que els subjectes jutgen els estímuls de prova respecte a un referent o representació subjectiva del valor mitjà dels estímuls que experimenten. Així, en l'experiment de Thomas i Jones, els participants del grup simètric van elaborar una representació de l'estímul de referència similar al mateix E+ i per aquesta raó van donar el màxim de respostes a l'E+. En canvi, quan els estímuls de prova tenien valors per sota de l'E+, la representació de referència tenia un valor per sota del valor de l'E+ i, per això, els participants van respondre més a la longitud d'ona de 515 nm. (Cal advertir que a l'experiment en cada assaig es mostrava l'E+ i després un dels estímuls de prova, cosa que implica que l'E+ es va mostrar més vegades que la resta d'estímuls i, per això, el desplaçament del màxim és moderat.) Aquest model fa prediccions contraintuïtives. Per exemple, si presentem una discriminació entre un E+ i un E–, i el conjunt d'estímuls de prova de la generalització es troba desplaçat cap a l'E–, llavors la representació mitjana de referència obtinguda de la mitjana dels estímuls experimentats se situaria més a prop de l'E– que de l'E+ i, per tant, s'hauria d'obtenir un desplaçament del màxim en direcció a l'E–, just el contrari que prediu la teoria d'Spence. Thomas, Mood, Morrison i Wiertelak (1991) van trobar precisament els resultats que prediu el model de Thomas. El que no sabem és per què els coloms mostren un desplaçament del màxim d'acord amb el que prediu la teoria d'Spence i els humans no.

9.6.Teoria de la discriminació basada en processos d'atenció

Sutherland i Mackintosh (1971) consideren que l'aprenentatge de discriminació depèn de dos processos. Qualsevol estímul és format per diverses dimensions com, per exemple, el color, la forma, la grandària, etc. Normalment, els experiments que hem vist fins aquí sobre discriminació i generalització manipulaven una dimensió i mantenien constant les altres dimensions. Tanmateix, a la naturalesa els estímuls que hem de discriminar no són tan purs i poden variar en més d'una dimensió.

Segons Sutherland i Mackintosh, un dels processos implicats en la discriminació és el procés d'atenció. Si un estímul presenta una dimensió més salient, com la brillantor o el color, llavors atendrem més a aquesta dimensió. D'altra banda, si en un moment determinat estem atenent a una dimensió concreta quan donem una resposta i som reforçats, llavors s'incrementarà la força d'aquesta dimensió i tendirem a atendre-la més.

Imaginem que mirem un estímul que ens crida l'atenció pel seu color, però si aquesta dimensió no és rellevant per a obtenir el reforçador, deixarem d'atendre al color i atendrem a una altra dimensió, per exemple, la forma. Si aquesta nova dimensió és rellevant per a obtenir el reforçador, llavors incrementarem l'atenció a aquesta dimensió.

El segon procés proposat per la teoria de Sutherland i Mackintosh és l'adquisició de la resposta. En el cas d'una discriminació la resposta seria l'elecció del valor de la dimensió que provoca el reforçament. Així, si rebem el reforçador quan escollim un estímul que té la forma quadrada i no som reforçats si escollim un estímul amb forma triangular, acabarem donant la resposta d'escollir la forma quadrada.

Un disseny experimental que aporta evidència a favor de la teoria de Sutherland i Mackintosh consisteix en els efectes dels canvis intradimensionals i extradimensionals en l'aprenentatge de discriminacions.

Experiment de Mackintosh i Little (1969)

Mackintosh i Little (1969) van dur a terme un experiment en què es presentaven dos problemes successius en els quals uns coloms havien de discriminar entre estímuls visuals (vegeu la figura següent). Els subjectes de la condició extradimensional eren entrenats en primer lloc per a discriminar segons l'orientació de dues línies (vertical i horitzontal). Les línies també tenien colors diferents (groc i vermell), però aquesta dimensió de l'estímul era irrellevant. De fet, en la meitat dels assajos, la línia vertical era groga i l'horitzontal era vermella i, en l'altra meitat dels assajos, els colors s'invertien. Un cop els coloms havien après la discriminació d'acord amb l'orientació de les línies, els animals havien d'aprendre una segona discriminació entre dos colors (blau i verd). En aquesta segona discriminació, els dos colors es presentaven en dues línies obliqües l'orientació de les quals (dreta i esquerra) era irrellevant per a resoldre el nou problema. Així, per a aquest grup, la dimensió orientació era rellevant en la primera discriminació, mentre que la dimensió color era irrellevant. El segon problema de discriminació implicava un canvi extradimensional, ja que la dimensió rellevant era el color i no l'orientació de la línia. Els subjectes de la condició intradimensional rebien un primer problema amb els mateixos estímuls que el grup extradimensional, però amb la diferència que la dimensió rellevant era el color i la irrellevant era l'orientació de la línia. El segon problema de discriminació era idèntic al del grup extradimensional. Per tant, per al segon grup, la dimensió color era rellevant en les dues discriminacions, mentre que la dimensió orientació de la línia era irrellevant (vegeu la figura següent).

Esquema del disseny experimental de Mackintosh i Little (1969). El grup G1 (grup extradimensional) rebia un canvi extradimensional entre les dues discriminacions. El grup G2 (grup intradimensional) rebia un canvi intradimensional entre les dues discriminacions.

La teoria de Sutherland i Mackintosh prediu que, com a conseqüència del primer problema, els animals del grup extradimensional haurien après a atendre a la dimensió orientació, ja que era la rellevant per a solucionar el problema i deixarien d'atendre al color, ja que és irrellevant. Aquest aprenentatge sobre la dimensió rellevant interferirà en la segona discriminació, ja que els animals continuaran atenent a la orientació al començament fins que s'adonin que aquí és irrellevant. Contràriament, per als animals del grup intradimensional, la dimensió color seria rellevant en els dos problemes, per la qual cosa la segona discriminació es veuria afavorida.

Resumint, un aprenentatge més ràpid en la condició de canvi intradimensional aportaria una bona evidència a favor de la teoria de Sutherland i Mackintosh. Els resultats van confirmar aquestes prediccions.

9.7.Aprenentatge perceptiu

Hem vist que l'entrenament de discriminació en què es presenten dos estímuls que varien en una dimensió provoca gradients de generalització força estrets, cosa que significa que la discriminació és molt acurada. Ara bé, aquest entrenament implicava reforçar una de les alternatives (E+) i no reforçar l'altra alternativa (E–). Un altre procediment que facilita l'adquisició d'una discriminació és ensenyar als subjectes quina és la dimensió de l'estímul rellevant per a resoldre el problema (Lawrence, 1949). Però, és necessari reforçar distintivament dos estímuls per a produir una bona discriminació?

Gibson i Walk (1956) van demostrar per primera vegada que la mera exposició a estímuls complexes com poden ser triangles i cercles és suficient per a facilitar la discriminació entre els estímuls.

Experiment de Gibson i Walk (1956)

Gibson i Walk van presentar cercles i triangles a unes rates a les seves gàbies des que van néixer fins que van complir 90 dies (edat en què una rata ja és adulta). Els animals van aprendre a discriminar entre aquests estímuls amb una quantitat significativament més petita d'errors que un grup de control que no va rebre l'exposició prèvia als estímuls.

Experiments posteriors molt més controlats han demostrat que l'efecte és robust i que no cal una exposició tan llarga ni que els animals siguin joves (per a una revisió vegeu Hall, 1989).

Aquesta facilitació de la discriminació entre estímuls complexos causada per l'exposició no reforçada als estímuls prèvia a l'entrenament de discriminació rep el nom d'aprenentatge perceptiu.

En el mòdul sobre condicionament clàssic hem vist que l'exposició no reforçada a un estímul que s'aparellarà amb l'EI provoca un retard en l'aprenentatge, una inhibició latent. Com és que un procediment similar pot produir un retard en el condicionament i una facilitació en la discriminació?

Gibson (1969) va proposar que el fet que els subjectes poguessin inspeccionar els estímuls abans de l'entrenament, els permetia diferenciar-los, ja que en podien extreure les característiques diferenciadores mitjançant un procés perceptiu.

McLaren, Kaye i Mackintosh (1989, McLaren i Mackintosh, 2000) han proposat una teoria associativa de l'aprenentatge perceptiu. Segons McLaren i col·laboradors, tot estímul, per simple que sigui, és format per diversos elements. En cada presentació de l'estímul es mostreja un determinat nombre d'elements que quedaran associats entre ells. Consideren, igual que les teories absolutes, que la generalització entre dos estímuls es deu a la quantitat d'elements en comú que tenen els estímuls. Quan dos estímuls comparteixen molts elements en comú, la discriminació entre ells serà molt difícil.

Si presentem un estímul compost AX i l'aparellem amb una conseqüència, EI, es formaran tres tipus d'associacions: una entre els elements de l'estímul A-X i dues entre cada element i l'EI. Si en una prova de generalització presentem un estímul diferent, però que comparteix una part d'elements en comú, BX, tindrem que X activarà la representació de l'EI per dues vies: una directa per l'associació X-EI i una indirecta per la cadena associativa X-A-EI. Per tant, es produirà una generalització entre AX i BX, més gran com més pes tinguin els elements en comú.

Com pot ajudar l'exposició no reforçada als estímuls a millorar la discriminació?

Segons McLaren i col·laboradors hi ha tres mecanismes que intervindrien duran l'exposició: la inhibició latent diferenciada dels elements en comú, les connexions inhibidores entre els elements únics i la unitització.

1) Inhibició latent diferenciada dels elements en comú

El mecanisme de la inhibició latent diferenciada dels elements en comú es basa en el fet que els elements en comú reben el doble d'exposició no reforçada. Atesos dos estímuls complexos, AX i BX, cadascun d'ells consta d'un element únic, A i B, respectivament, i a més comparteixen un element, X. Cada vegada que es presenta l'estímul AX, els elements que el formen, A i X, reben inhibició latent. De la mateixa manera, cada vegada que es presenta l'estímul BX, els elements que el formen, B i X, també reben inhibició latent. Així, si es fan deu presentacions de cada estímul, tindrem que al final s'han presentat deu vegades els elements únics, A i B, i en canvi, s'ha presentat 20 vegades l'element comú X. Per tant, la inhibició latent de l'element comú serà el doble que la dels elements únics. En la figura següent es mostra com els elements comuns s'exposen el doble que els elements únics. Quan després de l'exposició no reforçada es dugui a terme l'aprenentatge de discriminació, els elements únics tindran més facilitat d'entrar en associació amb les diferents conseqüències, mentre que els elements en comú no s'associaran i d'aquesta manera es reduirà la generalització entre els estímuls.

Esquema explicatiu del mecanismes de la inhibició latent diferenciada entre elements únics i comuns segons la teoria de McLaren, Kaye i Mackintosh (1989)

Experiment de Trobalon, Sansa, Chamizo i Mackintosh (1991)

Trobalon, Sansa, Chamizo i Mackintosh (1991) van dur a terme una sèrie experimental en la qual es manipulava la quantitat d'elements en comú que tenien dos braços d'un laberint en T. Per a dos grups de rates, els terres dels braços diferien en color i textura (elements únics), mentre que les parets dels braços eren del mateix color marró (elements en comú). Per tant, els estímuls que s'havien de discriminar eren AX i BX, en què A i B eren els terres i X, les parets. Per a uns altres dos grups es va reduir el nombre d'elements en comú pintant les parets d'un dels braços de color blanc i les de l'altre braç de color negre. Per tant, podem representar la discriminació entre dos estímuls complexos AX i BY, en què A i B serien els terres i X i Y serien les parets. Un grup en cada tipus de discriminació va ser exposat sense reforçar als dos braços, mentre que el segon grup de cada discriminació no va rebre l'exposició. Després de la fase d'exposició no reforçada es va fer un entrenament en el qual un dels braços, AX, contenia menjar com a reforçador, mentre que l'altre braç, BX o BY, en funció de la discriminació, no contenia menjar.

Com calia esperar, el grup de control en el qual els braços diferien en el terra i les parets, AX i BY, van aprendre la discriminació més ràpidament que el grup de control en el qual les parets dels braços eren del mateix color, AX i BX, ja que l'element X quedava associat amb el menjar quan els animals escollien el braç AX.

La dada més interessant, però, la van proporcionar els grups exposats prèviament als braços. Concretament, en els grups en què les parets dels braços estaven pintades de diferent color l'exposició va retardar la discriminació respecte al grup de control corresponent. Contràriament, l'exposició als braços que tenien les parets pintades del mateix color va facilitar la discriminació entre els dos braços.

Els resultats d'aquest experiment són coherents amb el mecanisme de la inhibició latent diferenciada dels elements en comú. Quan les parets i els terres dels braços eren diferents, l'exposició no reforçada va provocar una inhibició latent a tots els elements, AX i BY, i els animals van tenir dificultats per a aprendre les conseqüències de cada braç. En canvi, en la discriminació entre AX i BX, l'exposició prèvia no reforçada va reduir la capacitat d'associar-se de l'element X i, per tant, van ser els elements únics els que es van associar amb les respectives conseqüències. En comparació, en el seu grup de control no exposat, l'element en comú X va quedar associat al menjar quan les rates van escollir el braç AX. La presència de X en el braç BX activava la representació del menjar, cosa que provocava que els animals l'escollissin amb una alta proporció, almenys durant l'inici de l'entrenament.

En l'experiment de Trobalon i col·laboradors és va fer una exposició alternada dels dos braços que s'havien de discriminar. Aquest procediment alternat s'ha demostrat que és clau a l'hora d'obtenir l'efecte facilitador de l'exposició. Efectivament, Symonds i Hall (1995) van comparar el programa d'exposició alternada (AX, BX, AX, BX...) amb un altre procediment que anomenen per blocs i que consisteix a exposar, primerament, en un bloc un dels dos estímuls i, després, en un segon bloc l'altre estímul (AX, AX... – BX, BX...). La figura següent mostra d'una manera esquematitzada les presentacions alternades i per blocs utilitzades per Symonds i Hall.

Els resultats de l'experiment van mostrar que només s'obtenia un efecte d'aprenentatge perceptiu quan l'exposició era alternada, però no quan l'exposició era per blocs. La implicació d'aquesta troballa és que es contradiu amb el mecanisme de la inhibició latent diferenciada dels elements en comú. Tingueu en compte que independentment de l'ordre de presentació dels estímuls, els dos programes d'exposició garanteixen el doble d'exposició als elements en comú respecte als únics i, d'acord amb aquest mecanisme, en els dos procediments s'hauria d'obtenir l'efecte facilitador de l'exposició prèvia no reforçada.

Esquema de les exposicions alternada i per blocs

Els dos tipus de presentació dels estímuls garanteixen la mateixa quantitat d'exposició als dos estímuls compostos. L'única diferència és l'ordre en què es presenten els compostos.

2) Connexions inhibidores

El segon mecanisme proposat per McLaren i col·laboradors és la formació de connexions inhibidores entre els elements únics dels estímuls exposats. Recordem que durant les primeres presentacions dels estímuls se suposa que es formen associacions entre els elements que formen cada compost. Així, en presentar AX es formarà una associació A↔ X i en presentar BX es formarà una associació B↔ X. Un cop formades aquestes associacions, la presentació AX provocarà que l'element X evoqui la representació de l'element únic B. D'acord amb la teoria de McLaren i col·laboradors (vegeu també, McLaren i Mackintosh, 2000), l'activació associativa de B com que no és físicament present, és a dir, a partir de la seva associació amb X, permetrà una associació inhibidora entre A i B, (A–׀B). De la mateixa manera, les presentacions de BX activaran la representació de A a partir de l'associació X→ A i permetran la connexió inhibidora B–׀A. Quan després de l'exposició condicionem un dels estímuls compostos, AX, amb la conseqüència (EI), tant l'element A com l'element X quedaran associats amb l'EI. En la prova de generalització amb BX, X activarà la representació de l'EI, però B inhibirà la representació de A i com que està associat amb el mateix EI, aquest també es veurà inhibit. En definitiva, la representació de l'EI activada per X serà reduïda per la inhibició procedent de la connexió inhibidora B–׀(A→ EI). En conseqüència, BX no activarà la resposta i, per tant, no hi haurà generalització de AX a BX, respecte a un grup de control que no hagi rebut l'exposició prèvia a AX i BX, ja que en aquest grup B no podrà inhibir la representació de A i, en canvi, X activarà la representació de l'EI.

La demostració de connexions inhibidores entre els elements únics de dos estímuls exposats sense reforçament prové de l'efecte Espinet.

Experiment d'Espinet, Iraola, Bennett i Mackintosh (1995)

Espinet, Iraola, Bennett i Mackintosh (1995) van dur a terme una exposició alternada a dos compostos gustatius, AX i BX. Després van condicionar un dels compostos, AX, amb un malestar gastrointestinal i finalment van dur a terme les proves pròpies per a estudiar la inhibició condicionada (proves de retard estudiades en el mòdul del condicionament clàssic). En la prova de retard, es va aparellar el compost BX amb l'EI i el condicionament es va desenvolupar més lentament que un grup de control que havia rebut una exposició alternada només amb els elements únics, A i B. L'exposició dels elements únics en el grup de control assegurava la mateixa quantitat d'exposició a A i a B i, per tant, la mateixa quantitat d'inhibició latent, però l'absència de l'element comú, X, impedia la formació de connexions inhibidores entre A i B. Per a la prova de la sumació van utilitzar un altre gust, Q, aparellat amb el malestar gastrointestinal i durant la prova van presentar el compost QB. Si B inhibís la representació de l'EI mitjançant la seva associació inhibidora amb A, hauria de contrarestar l'activació del malestar provocada per la presència de Q. En el grup de control, el compost QB hauria d'activar la representació del malestar amb més força ja que B no la podria inhibir.

3) Unitització

El tercer mecanisme proposat per McLaren i col·laboradors per a explicar l'aprenentatge perceptiu és el que s'anomena unitització.

Aquest mecanisme proposa que les connexions entre els elements únics d'un estímul seran més fortes que les connexions entre els elements únics i els elements comuns.

L'argument es basa en el fet que quan es presenta un compost AX, es formen associacions entre els elements únics (a₁, a₂...) i entre els elements únics i comuns (a₁, a₂, x₁, x₂...). En canvi, en la presentació de BX, com que són presents els elements comuns però no els elements únics de A, es produirà una extinció de les associacions entre els elements únics de A i els elements en comú. El resultat d'aquest procés és que en presentar AX hi haurà una tendència central al fet que s'activin amb més força els elements únics de A que no pas els elements comúns X. El mateix succeirà amb el compost BX. D'aquesta manera, els elements únics tindran més oportunitat d'associar-se amb les conseqüències que els elements en comú, la qual cosa facilitarà la discriminació entre AX i BX. Tot i que el mecanisme és coherent, la seva demostració experimental resulta molt complicada de dur a la pràctica.

En resum, dels tres mecanismes proposats per McLaren i col·laboradors, el més potent i que té més dades que li donen suport és el de les connexions inhibidores entre els elements únics dels estímuls exposats.

Hall (2003) va proposar una explicació alternativa de l'aprenentatge perceptiu.

Segons Hall, l'exposició alternada a dos estímuls compostos que comparteixen elements en comú, AX i BX, interfereix en un procés d'habituació dels elements únics però no dels elements comuns. En altres paraules, la saliència dels elements únics es mantindria alta després d'una exposició alternada mentre que la saliència dels elements comuns es veuria reduïda significativament. Hall accepta que en les primeres exposicions dels compostos, AX i BX, es formen associacions entre els elements únics i comuns (A↔ X, B↔ X). Un cop formades aquestes associacions, la presentació de AX activarà la representació de B a partir de l'associació X→ B. L'activació associativa de B, estant físicament absent l'estímul B, evitarà l'habituació o, el que és el mateix, mantindrà alta la saliència de B. En els assajos en què es presenta BX, s'activarà la representació de A i serà aquest estímul el que en mantingui alta la saliència. Aquest procés no es produirà quan l'exposició sigui per blocs, ja que en presentar sempre AX, tant A com X perdran saliència, i el mateix quan es presenti el bloc BX, en què B i X perdran saliència. Quan es condicioni el compost AX, en el grup d'exposició alternada, A aombrarà fortament X, ja que té més saliència i X no s'associarà amb l'EI. En el grup que ha rebut una exposició per blocs, A serà poc salient i no podrà aombrà eficaçment X, cosa que en permetrà l'associació amb l'EI. Finalment, la prova de generalització en què es presenta BX, X no activarà l'expectativa de l'EI en el grup exposat alternadament, la qual cosa produirà una bona discriminació entre AX i BX, mentre que en el grup d'exposició per blocs, X sí que podrà activar la representació de l'EI, la qual cosa provocarà una generalització entre AX i BX.

Artigas, Prados, Sansa, Blair i Hall (2006) han aportat dades a favor del mecanisme proposat per Hall.

Experiment d'Artigas, Prados, Sansa, Blair i Hall (2006)

En un dels seus experiments van utilitzar dos grups de rates als quals exposaven a dos estímuls compostos amb un element en comú, AX i BX. En un dels grups l'exposició era alternada i en l'altre grup l'exposició era per blocs. Una característica de l'experiment era que un dels elements únics era el gust salat. La raó d'utilitzar aquest sabor és que el procediment usat consistia a provocar una necessitat de sal i poder utilitzar el sabor a sal com un EI potent. De fet, després de l'exposició, els dos grups van rebre un compost format pels dos sabors únics, AB. La idea és que si l'exposició alternada produeix connexions inhibidores entre els elements únics, A i B, com proposen McLaren i col·laboradors, llavors seria difícil formar una associació entre els dos elements únics. En canvi, seguint Hall, si l'exposició alternada manté alta la saliència dels elements únics, llavors es facilitaria l'associació entre els dos elements únics, A i B. En els dos casos, el retard o la facilitació seria respecte al grup de control que va rebre l'exposició per blocs. Per a poder mesurar la força de l'associació AB, aquests investigadors van provocar una necessitat de sal el dia previ a la prova i durant aquesta van presentar el sabor únic diferent de la sal.

Els resultats van mostrar una facilitació de l'associació AB en el grup alternat, cosa que dóna suport a la teoria de Hall i va en contra de les connexions inhibidores entre els elements en comú.

No obstant això, Artigas, Sansa i Prados (2006) també han trobat l'efecte Espinet després d'exposicions alternades però no després d'exposicions per blocs. Tanmateix, l'efecte Espinet només apareixia quan les exposicions eren llargues, però no quan eren curtes. Ja hem comentat que l'efecte Espinet és una bona demostració de l'existència d'associacions inhibidores entre els elements únics. D'altra banda, aquesta recerca va mostrar l'aprenentatge perceptiu tant en exposicions llargues com curtes. Les conclusions van ser que és possible que els dos mecanismes contribueixin al fenomen de l'aprenentatge perceptiu. El manteniment de la saliència tindria efectes a curt termini (i potser també a llarg termini), mentre que les connexions inhibidores implicarien un procés més lent i només es manifestarien després d'una exposició relativament llarga.

Taula resum de la generalització i la discriminació

Definicions	Generalització: tendència a respondre a un estímul nou similar a l'EC o als estímuls discriminants. Discriminació: consisteix a respondre d'una manera diferent a dos estímuls segons les seves diferències.
Fenòmens	Desplaçament del màxim Transposició Aprenentatge perceptiu
Teories de la discriminació i generalització	Gradients de generalització excitadors i inhibidors (Spence, 1936) Aprenentatge relacional (Köhler, 1939) Teoria de l'atenció (Sutherland i Mackintosh, 1971)
Teories de l'aprenentatge perceptiu	Connexions inhibidores (McLaren, Kaye i Mackintosh, 1989) Manteniment de la saliència (Hall, 2003)

10.Aprenentatge per observació

És indubtable que una proporció gran de l'aprenentatge humà es produeix no amb el condicionament clàssic o com a resultat del reforçament o del càstig, sinó per observació.

Bandura i Walters (1963) es van interessar per aquest tipus d'aprenentatge. El seu punt de partida era que la teoria tradicional de l'aprenentatge era incompleta, ja que no tenia en compte el paper de l'aprenentatge per observació. Al llarg del mòdul "Condicionament clàssic pavlovià" com d'aquest mòdul, hem estudiat formes d'aprenentatge que posen l'èmfasi en l'experiència individual: un individu executa una determinada conducta i experimenta les conseqüències que la segueixen. En canvi, Bandura i Walters afirmen que molts dels aprenentatges es produeixen mitjançant l'experiència dels altres i no per la nostra experiència personal.

Observem la conducta dels altres, n'observem les conseqüències i, posteriorment, n'imitem les conductes.

En poques paraules, Bandura i Walters afirmen que l'enfocament tradicional de l'aprenentatge, que emfatitza la pràctica i l'experiència personal, és insuficient –pot explicar alguns tipus d'aprenentatge però no tots.

Bandura i Walters estaven interessats a explicar com es desenvolupen les diferents personalitats. Accepten que algunes diferències en la personalitat de les persones es poden deure a factors hereditaris, però que la majoria són causades per les experiències personals d'aprenentatge. Consideren que la personalitat adulta està marcadament influenciada per les experiències en la primera infància i que aquestes experiències exerceixen la seva influència mitjançant els principis de la teoria de l'aprenentatge social.

Per teoria de l'aprenentatge social, Bandura i Walters entenen una combinació dels principis del condicionament clàssic i instrumental i dels principis de l'aprenentatge per observació o imitació.

De fet, no rebutgen en absolut els principis de l'aprenentatge per condicionament, sinó que hi afegeixen una nova manera d'aprendre.

Tot i que la teoria de Bandura i Walters ha estat la més influent respecte al paper que té la imitació en l'aprenentatge, no van ser els primers investigadors que van tractar del tema.

10.1.Teories de la imitació

10.1.1.La imitació com a instint

Alguns del primers psicòlegs (Baldwin, 1906; James, 1890; Morgan, 1896; McDougall, 1908) van suggerir que les persones i altres animals tenen una tendència innata a imitar el comportament d'altres individus. La idea que la imitació és innata prové, en part, de l'evidència que els bebès poden imitar els moviments dels adults. Per exemple, McDougall (1908) descrivia com el seu fill de quatre mesos d'edat treia la llengua quan un adult davant seu feia el mateix. Naturalment, hi ha la possibilitat que aquest comportament fos reforçat si els adults somreien o reien quan l'infant feia la conducta.

Experiments de Meltzoff i Moore (1977, 1983)

Meltzoff i Moore (1977, 1983) van dur a terme experiments controlats per tal de determinar si efectivament uns bebès de 12 a 21 dies d'edat podien imitar alguns moviments que feien els adults. Concretament, van utilitzar quatre moviments: treure els llavis enfora, obrir la boca, treure la llengua i el moviment seqüencial dels dits (vegeu la figura següent). Un model executava una de les conductes i esperava per a veure si l'infant la repetia. Les conductes dels infants van ser enregistrades en vídeo i puntuades per persones que desconeixien quin dels quatre gestos havia observat l'infant en un assaig determinat. Els investigadors van trobar que els infants realment mostraven una tendència a imitar el comportament que havien vist. Atesa l'edat dels bebès, era poc probable que aquests comportaments haguessin estat reforçats pels seus pares. De fet, els pares van indicar que no havien observat cap tipus d'imitació en els seus fills.

Representació de les conductes que havien d'imitar els nadons en l'experiment de Meltzoff i Moore (1977)

Els resultats de Meltzoff i Moore s'han replicat diverses vegades i avui dia queda bastant clar que els nadons tenen una tendència a imitar algunes gesticulacions dels adults, especialment treure la llengua. No obstant això, encara no hi ha un acord absolut sobre com s'han d'interpretar aquestes dades. Per exemple, Anisfeld (1991) ha proposat que treure la llengua (i possiblement altres conductes) és un patró d'acció fix innat (un reflex) que s'activa quan l'infant veu que una altra persona fa el mateix gest. Meltzoff i Moore (1989) no estan d'acord amb aquesta interpretació i mantenen que els nadons tenen la capacitat d'imitar moviments que veuen fer als adults. Si aquesta interpretació de Meltzoff i Moore és correcta, llavors té repercussions importants, ja que significaria que els humans naixem amb la capacitat d'associar determinades entrades sensorials (la visió d'un adult que fa un gest determinat) amb un conjunt de moviments musculars que permeten que l'infant faci el mateix moviment que veu. Cal tenir en compte que els nadons no tenen l'oportunitat de veure la seva pròpia cara quan obren la boca o treuen la llengua. Encara més, la majoria dels nadons estudiats per Meltzoff i Moore probablement no havia vist la seva cara reflectida en un mirall. Això és, aquests infants difícilment haurien tingut ocasió de practicar diferents postures enfront d'un mirall i associar determinats moviments amb les expressions facials a les quals donen lloc. Tanmateix, cal més recerca per a poder determinar si els nadons poden imitar un ampli rang de moviments o només uns quants, com ara treure la llengua.

Una segona qüestió sobre la capacitat d'imitar se centra en si es tracta d'una habilitat exclusivament humana o altres espècies animals també tenen la capacitat d'imitar.

Thorndike (1911) no va trobar cap evidència que els seus animals aprenguessin a resoldre problemes mitjançant l'observació d'altres individus. Això va reforçar la seva llei de l'efecte i que, per tant, els animals no humans aprenien a partir de les seves experiències directes. No obstant això, Robert (1990) ha recollit més de 200 estudis sobre l'aprenentatge per observació en animals. Les espècies estudiades són primats, gats, gossos, rosegadors, ocells i peixos. Les tasques apreses variaven en complexitat.

Thorpe (1963) va proposar tres categories d'aprenentatge per observació.

La categoria més simple proposada per Thorpe era la facilitació social, en què el comportament d'un individu provoca una conducta similar en un altre individu, però que la conducta ja es troba en el repertori de l'imitador.

Experiment de Wyrwicka (1978)

Un exemple d'aquesta facilitació social el trobem en un treball de Wyrwicka (1978) en el qual va entrenar unes gates perquè mengessin alguns aliments poc habituals com plàtans o patates xafades i va observar que les seves cries també van començar a menjar els mateixos aliments que les mares.

La segona categoria d'aprenentatge per observació proposada per Thorpe és l'augment local, en el qual la conducta d'un model dirigeix l'atenció de l'aprenent cap a un determinat objecte o lloc en l'entorn. Com a resultat es té que una conducta que es podria aprendre per assaig i error s'aprèn més ràpidament.

Experiment de Warden, Fjeld i Koch (1940)

Warden, Fjeld i Koch (1940) van entrenar unes mones a estirar d'una cadena per a obtenir menjar com a reforçador. A continuació, es va posar una mona sense entrenament en una caixa idèntica propera a la caixa de la mona entrenada. Els investigadors van poder constatar que la mona sense experiència observava el comportament de la que coneixia la resposta adequada i immediatament la imitava. Probablement, la mona ingènua hauria après la resposta per assaig i error, però el seu aprenentatge es va veure accelerat per l'observació de la conducta de la seva companya ensinistrada.

Aquest tipus d'aprenentatge per observació també s'ha trobat en aus (per exemple, Hogan, 1986) i, el que és més interessant, no cal que el model i l'aprenent siguin de la mateixa espècie. Bullock i Neuringer (1977) van trobar que uns coloms podien aprendre a executar una cadena de dues respostes (picotejar dues tecles en un ordre concret) si observaven la mà d'un humà que feia la seqüència correcta.

La tercera categoria d'aprenentatge per observació proposada per Thorpe rep el nom d'imitació autèntica i no és fàcil de distingir de la categoria anterior. Es refereix a la imitació d'un patró de conductes que és molt poc probable que aparegui en una determinada espècie i que rarament pot ser apresa per assaig i error.

Experiment de Kawai (1965)

Un exemple d'imitació autèntica la trobem en un estudi de Kawai (1965) que va observar el comportament d'un grup de mones que vivien en una illa del Japó. Quan els grans de blat s'escampaven per la platja, les mones els recollien d'un en un entre els grans de sorra i se'ls menjaven. Una de les mones va descobrir que si llançava un grapat de sorra amb el blat a l'aigua, la sorra s'enfonsava i el blat surava, cosa que facilitava la tasca de separar-los. Ràpidament altres mones van començar a imitar aquest comportament.

Imitació autèntica

És difícil trobar exemples de la imitació autèntica en altres espècies d'animals diferents dels primats, però s'han descrit casos anecdòtics que es poden entendre com una evidència d'una imitació autèntica en aus (Fisher i Hinde, 1947). El 1921, alguns habitants del sud d'Anglaterra es van adonar que alguns ocells havien començat a obtenir llet foradant les ampolles dipositades al llindar de les portes. Al llarg dels anys, aquest comportament de les aus es va estendre al llarg d'Anglaterra, Gales, Escòcia i Irlanda. A més, aquest comportament es va observar en diferents espècies d'ocells. Com que no té massa sentit pensar que tots aquests ocells van aprendre sobtadament aquest comportament per ells mateixos, devien aprendre i transmetre la conducta per mitjà de l'aprenentatge per observació.

10.1.2.La imitació com una resposta instrumental

Miller i Dollard (1941) van proposar que l'aprenentatge per observació no era un nou tipus d'aprenentatge diferent dels condicionaments clàssic i instrumental, sinó que era un cas especial d'aprenentatge instrumental. Ja hem vist que els estímuls discriminants tenien un paper important en el control de la conducta instrumental. Segons Miller i Dollar en l'aprenentatge per observació la conducta del model tindria el paper d'estímul discriminant amb la peculiaritat que la resposta reforçada seria la mateixa o molt similar a la que fa el model.

Experiment de Miller i Dollard (1941)

En un experiment de Miller i Dollar van treballar amb parelles de nens de primer cicle. En cada parella, un dels nens tenia el paper de model i l'altre, d'aprenent. En cada assaig els dos nens entraven en una habitació on hi havia dues cadires i en cadascuna una caixa. Abans de cada assaig es va indicar al nen que feia de model que es dirigís a una de les dues caixes on hi podia haver un caramel. L'aprenent podia veure l'elecció del model, però no si obtenia o no el caramel. A continuació, era l'aprenent el qui havia d'anar a una de les dues caixes on podia o no trobar el caramel. La meitat dels aprenents formaven part del grup d'imitació i eren reforçats si emetien la mateixa resposta d'elecció que el model. L'altra meitat d'aprenents eren del grup de no-imitació i obtenien el reforçadors si escollien la caixa que no havia escollit el model.

Els resultats d'aquest experiment són fàcilment previsible. Després d'uns quants assajos, els nens del grup d'imitació feien la mateixa elecció que el seu model, mentre que els nens del grup de no-imitació escollien la caixa contrària a la que havia escollit el model.

La interpretació de Miller i Dollar és que la imitació és produirà si es reforça un individu per imitar el model i, al contrari, la imitació no es produirà si es reforça l'individu per fer una conducta diferent de la del model. Aquesta anàlisi de l'aprenentatge per observació no necessita diferenciar-lo com a una forma diferent del condicionament instrumental.

Ara bé, cal ser prudents a l'hora d'acceptar aquesta explicació de l'aprenentatge per observació ja que només és viable en situacions en què l'aprenent observa el comportament del model, copia immediatament la conducta i rep reforçador per fer-ho. Moltes conductes apreses per observació no mostren aquest patró, com va assenyalar Bandura (1969).

Una nena petita veu que la seva mare li prepara un bol de llet amb cereals. La mare treu el bol d'un armari i a continuació agafa la bossa de cereals d'un altre armari i n'aboca una quantitat al bol. Acte seguit obre la nevera i pren una ampolla de llet i acaba d'omplir el bol. Probablement, la nena pot haver atès a tota aquesta cadena de conductes però no les executarà i, per tant, no serà reforçada. Tanmateix, l'endemà quan la mare no és a la cuina, la nena es prepara ella sola el bol de cereals amb més o menys èxit.

L'exemple il·lustra una situació d'aprenentatge per observació en el qual la conducta no ha estat prèviament practicada ni, en conseqüència, reforçada. Per tant, és difícil explicar aquest aprenentatge a partir del condicionament instrumental. Tanmateix, cal tenir en compte que els principis del condicionament instrumental tampoc no poden explicar per què una rata executa per primera vegada una pressió de palanca.

De totes maneres, podem explicar l'aparició de noves conductes si recorrem al concepte de generalització. De fet, moltes conductes noves són variacions de respostes similars reforçades prèviament.

Experiment de Lashley (1924)

En un experiment de Lashley (1924) es va entrenar unes rates perquè caminessin per un laberint cobert lleugerament d'aigua per a arribar a un punt on hi havia el reforçador. Quan es va inundar el laberint de manera que l'animal havia de nedar, les rates no van tenir cap problema per a arribar fins al reforçador.

Podem afirmar que la conducta de nedar va ser una generalització de la conducta prèviament reforçada de caminar per l'aigua.

Tornem a l'exemple de la nena que prepara el seu propi bol de cereals. És molt probable que els pares reforcin els seus fills per a imitar les seves conductes. Per exemple, podem pronunciar la paraula aigua davant del nen i si aquest emet un so similar (abua) és molt possible que riguem, el felicitem i li fem carícies, el que reforçarà la conducta d'imitació. D'altra banda, els components de la conducta de preparació d'un bol de cereals es poden haver reforçat en altres situacions. És molt probable que la nena hagués estat reforçada en el passat per a obrir armaris, o també hauria pogut rebre reforçadors per a omplir pots de sorra al parc o transvasar aigua d'un pot a un altre mentre jugava.

En definitiva, les conductes noves es poden produir a partir de la generalització d'altres conductes reforçades en el passat.

Experiment de Baer, Peterson i Sherman (1967)

Per exemple, Baer, Peterson i Sherman (1967) van reforçar alguns nens amb retard mental profund per a imitar diverses conductes executades pel professor (posar-se drets, assentir amb el cap, obrir una porta). Després de l'establiment de les respostes imitades (cosa que va necessitar diverses sessions), el professor feia ocasionalment conductes noves i els nens també les van imitar encara que no havien estat reforçats mai abans per a fer-les.

10.1.3.La teoria de Bandura sobre l'aprenentatge per imitació

Experiment de Bandura (1965)

Bandura (1965) va dur a terme un experiment sobre imitació de la conducta agressiva en nens de quatre anys d'edat. Els nens van participar en l'experiment d'una manera individual. Cada nen va veure primer de tot una pel·lícula curta en una pantalla de televisor en la qual un adult feia quatre conductes agressives diferents dirigides contra una nina de grans dimensions. Cada conducta era acompanyada de verbalitzacions específiques. Les conductes van ser:

1) Asseure's damunt la nina i colpejar-la a la cara.
2) Colpejar el cap de la nina amb un mall.
3) Donar-li puntades de peu.
4) Llançar pilotes de goma contra la nina.

Posteriorment, alguns nens van veure que l'agressor rebia alguns reforçadors d'un altre adult al temps que l'elogiava. Uns altres nens van veure que renyaven l'agressor. Finalment, per a un tercer grup de nens, el vídeo no mostrava cap conseqüència de la conducta agressiva del model.

Grup	Fase d'observació	Fase de prova 1	Fase de prova 2
Premi	Conducta agressiva del model → reforçament	Comuna als tres grups: els nens tenien accés a la nina amb la qual havia actuat el model d'una manera individual.	Comuna als tres grups: els nens van ser reforçats per a imitar al model d'una manera individual.
Càstig	Conducta agressiva del model → càstig
Sense conseqüència	Conducta agressiva del model → no-conseqüència

Immediatament després de veure la pel·lícula, cada nen entrava en una habitació on hi havia una nina idèntica a la mostrada en la pel·lícula juntament amb altres joguines i se l'animava que hi jugués. El nen romania sol a l'habitació però se l'observava per un mirall unidireccional. Durant el temps en què es van quedar sols a l'habitació, els nens van mostrar moltes conductes agressives contra la nina i moltes d'elles eren semblants a les del model. A més, els nens van mostrar més conducta agressiva que les nenes.

Aquests resultat poden ser els esperats per la teoria de la generalització de la imitació. No obstant això, Bandura va trobar dos aspectes de la conducta que no poden ser explicats per aquesta teoria. La primera troballa és que les conseqüències que rebien els models influïa en la conducta dels nens. Concretament, els nens que van observar que el model era recompensat exhibien més conducta agressiva que els nens que havien vist com castigaven el model. D'acord amb la teoria de la generalització de la imitació, els nens (i els adults) imiten altres persones perquè la conducta d'imitar ha estat reforçada anteriorment, però no diu res sobre com el reforçament o el càstig del model afectarà l'aprenent. La segona troballa fa referència a una fase final de l'experiment en què Bandura va oferir reforç als nens de tots els grups per a imitar el model de la pel·lícula. Amb aquest incentiu tots els nens dels tres grups van mostrar molta conducta agressiva i no diferien entre les condicions experimentals. Aquestes dades van fer que Bandura conclogués que el reforçador no és necessari per a l'aprenentatge per observació de noves conductes, però que l'expectativa de reforçament és essencial per a l'execució d'aquestes noves conductes. Segons Bandura hi ha una distinció clara entre aprenentatge i conducta, i és precisament la falta d'aquesta distinció el que impedeix que la teoria de la generalització de la imitació en pugui explicar els resultats.

A partir de les seves investigacions, Bandura (1969, 1986) va proposar la teoria cognitiva de l'aprenentatge per observació. Bandura diferencia quatre processos implicats en l'aprenentatge per observació:

1) Processos d'atenció. L'aprenent ha de prestar atenció a les característiques rellevants de la conducta del model.
2) Processos de retenció. És obvi que un individu ha de retenir informació adquirida mitjançant l'observació si després vol reproduir la conducta.
3) Processos de reproducció motora. Per a poder reproduir la conducta apresa mitjançant l'observació cal que l'aprenent tingui les capacitats motores mínimes per a dur a terme la conducta. Colpejar una nina no presenta problemes per a l'aprenent ja que té prou habilitat per a donar cops. Però un expert jugador de billar ens pot mostrar pas per pas com fer una carambola a tres bandes, però si l'observador no ha manipulat mai un tac, possiblement li serà com a mínim difícil, reproduir la conducta, encara que ens en pugui fer una descripció verbal perfecta.
4) Processos de motivació i d'incentiu. Segons Bandura els tres primers processos és tot el que es necessita per a adquirir la capacitat de fer una nova conducta, però aquesta nova conducta no es reflectirà si l'aprenent no rep l'incentiu adequat. Perquè la conducta s'executi, l'individu ha de tenir l'expectativa que serà reforçada. L'experiment de Bandura (1965) descrit més amunt proporciona un exemple del paper que té l'incentiu. Els nens que van veure com es castigava el model per agredir la nina, probablement van desenvolupar l'expectativa que aquesta conducta té conseqüències desagradables i, per tant, van mostrar menys conducta agressiva que els nens dels altres grups. En canvi, quan se'ls va oferir un reforçador per a imitar la conducta del model, les seves expectatives sobre les conseqüències de la conducta van canviar i van emetre la mateixa quantitat de conducta agressiva que els nens dels altres grups.

10.2.Factors que afecten la probabilitat de la imitació

Fins ara hem vist dos factors importants i evidents que fan més o menys probable que un observador imiti la conducta d'un model: les conseqüències que té el comportament sobre el model i les conseqüències sobre l'observador. Els infants són més propensos a imitar les conductes d'un model que han estat reforçades. Els infants també tenen més probabilitat d'imitar un model quan han estat reforçats per la seva imitació. Ara ens centrarem en altres factors que se sap que influeixen en la imitació.

10.2.1.Característiques del model

Els infants generalment tenen més contacte amb els seus pares que amb qualsevol altra persona, però això no treu que estiguin exposats a molts altres models en potència. Els germans, els companys de classe, els professors, els avis, personalitats de la televisió, personatges dels dibuixos animats, esportistes famosos, etc. Tanmateix, els infants no imiten per igual tots aquests possibles models. Què fa que uns models siguin més imitats que uns altres?

Una de les característiques que fa que un model tingui més probabilitat de ser imitat és la seva capacitat de reforçar els infants. En altres paraules, les persones que proporcionen més reforçament, tant afectiu com d'altres formes de reforçadors, tendeixen a ser més imitades.

Experiment de Bandura i Huston (1961)

Bandura i Huston (1961) van dur a terme un experiment en el qual una dona interactuava individualment amb uns nens de llar d'infants. La dona es va mostrar afectuosa amb la meitat dels nens i freda i distant amb l'altra meitat. Quan més tard es va permetre que els nens juguessin amb la dona, els qui la coneixien com a persona afectuosa van imitar significativament més les conductes del model que els infants que la coneixen com a persona distant.

Una segona característica del model és el poder que té sobre l'imitador. De fet, els pares exerceixen un gran control sobre els fills quan decideixen el que poden i el que no poden fer. Mischel i Grusec (1966) van posar a prova aquesta hipòtesi.

Experiment de Mischel i Grusec (1966)

A uns nens de llar d'infants els van presentar una dona com la nova professora, mentre que per a uns altres nens, la mateixa dona va ser presentada com una professora visitant. La idea era que els nens veurien la persona que seria la seva professora com una persona amb més poder que si només era una visitant que no tornarien a veure en el futur. La dona va passar una estona jugant amb cada grup per separat. Posteriorment, i quan no hi havia la dona present, es va deixar que els nens juguessin lliurement. Els resultats van mostrar més conducta d'imitació en els nens que pensaven que la dona seria la seva nova professora que en els nens que la veien només com una visitant.

El concepte de poder o control equival al concepte de dominància en els cas dels grups socials. Diversos estudis han mostrat resultats equivalents als que acabem de veure quan el model era un nen dominant a l'aula (Abramovitch i Grusec (1978) o una cheer-leader entre un grup de noies (McCullagh, 1986).

Una altra variable és la similitud entre el model i l'observador. Per exemple, s'ha demostrat que és molt més probable que un nen imiti un model que és del mateix sexe, edat o que sembla mostrar els mateixos interessos (Burnstein, Stotland i Zander, 1961; Davidson i Smith, 1982).

Una altra variable és la sinceritat del model. Klass (1979) va trobar que els nens imitaven més un model que semblava sincer que un altre que semblava poc sincer.

La llista de variables no és exhaustiva, però és fàcil veure que poden ser explicades sense dificultat per la teoria de Bandura i de la generalització de la imitació. Un nen pot haver après que una persona dominant el podrà reforçar si l'imita. Un nen també pot haver estat reforçat per a imitar altres persones del mateix sexe, edat, etc. i, en canvi, pot haver estat castigat per imitar persones de diferent sexe o edat. També és possible que un nen hagi après que és poc aconsellable imitar persones poc sinceres. D'acord amb la teoria de la generalització de la imitació, cadascuna d'aquestes variables reflecteix els efectes de l'experiència passada del nen; d'acord amb la teoria de Bandura, reflecteixen les expectatives que té el nen del reforçament futur.

10.2.2.Característiques de l'aprenent

Un altre focus d'interès ha estat descobrir les diferències individuals que es correlacionen amb la tendència d'una persona a imitar el comportament dels altres. Algunes d'aquestes característiques poden semblar òbvies, però d'altres no. Per exemple, Bandura (1965) va trobar que els nens tendeixen més a imitar conductes agressives que les nenes. Abramovitch i Grusec (1978) van trobar que els nens petits (quatre anys) imitaven més que nens més grans (nou anys). També van trobar que els nens dominants (a qui imiten més) resultaven mostrar més conducta imitativa.

Moltes d'aquestes característiques són específiques de la situació. Tanmateix, es pot fer una afirmació, tot i que intuïtiva, que les persones menys segures de si mateixes tendeixen a imitar més el comportament dels altres (Thelen, Dollinger i Kirkland, 1979). Molts estudis han manipulat el nivell de seguretat en presentar als participants tasques que podien o no podien resoldre.

Els resultats van mostrar més imitació d'un model en els nens que havien rebut la retroalimentació negativa.

En la mateixa línia, Jakubczak i Walters (1959) van trobar que els nens que mostraven independència a l'hora de resoldre un problema (això és, que no acceptaven l'ajuda malgrat que tinguessin dificultats per a resoldre els problemes) eren menys propensos a imitar un model que els nens que eren altament dependents (que acceptaven ajuda fins i tot quan no la necessitaven).

Experiment de Roberts, Boone i Wurtele (1982)

Roberts, Boone i Wurtele (1982) van treballar amb nens en edat preescolar i els van donar a fer una tasca de discriminació. La meitat dels nens rebia retroalimentació positiva i l'altra meitat va rebre retroalimentació negativa.

10.2.3.Característiques de la situació

Si les persones mostren més tendència a imitar quan estan insegures de la seva conducta, llavors les situacions ambigües també provocaran més inseguretat i per tant més imitació.

Experiment de Thelen, Paul i Dollinger (1978)

Thelen, Paul i Dollinger (1978) van manipular la incertesa d'una situació en presentar als participants, nens preadolescents, tasques que tenien dues opcions (condició d'incertesa baixa) o amb deu opcions possibles (condició d'incertesa alta). Els nens que es trobaven amb una situació d'incertesa alta imitaven més el model que nens que es trobaven en la condició de certesa baixa.

Una segona variable de la situació que afecta la imitació és la dificultat de la tasca encomanada. Harnick (1978) va trobar que infants entre catorze i vint-i-vuit mesos d'edat van imitar més un model quan s'enfrontaven amb tasques de dificultat mitjana que quan les tasques eren molt fàcils o molt difícils. Aquest comportament pot ser adaptatiu, ja que quan la tasca és molt fàcil no cal aprendre res per imitació i, d'altra banda, quan la tasca és molt difícil ni tan sols l'observació del model pot ajudar.

Contra el que es podria pensar, la manera de presentar el model no és una variable que afecti l'aprenentatge per observació. Bandura (1962) va comparar models vius, enregistrats en vídeo o en dibuixos animats, tots ells mostraven els mateixos comportaments agressius; tanmateix, no va observar diferències significatives quant a la imitació d'aquestes conductes per part dels nens.

Què podem aprendre mitjançant l'observació?

Bandura i Walters defensen que les formes característiques de respondre a les diferents situacions que tenen els individus, el que es pot entendre com a personalitat, es desenvolupa principalment al llarg de la infantesa a partir de les influències tant del condicionament instrumental com de l'aprenentatge per observació. Aquesta idea ha promogut abundant investigació i és remarcable en el camp de les fòbies, les addiccions i el desenvolupament cognitiu.

En el cas de les fòbies la recerca es basa principalment en estudis correlacionals, estudis de casos i informes retrospectius, cosa que no representa un suport gaire fort a la idea que l'aprenentatge per observació sigui la base del desenvolupament de les fòbies.

S'ha trobat que membres de la mateixa família mostren les mateixes fòbies, o que alguns aviadors de la Segona Guerra Mundial desenvolupaven fòbies després de veure la por d'alguns dels seus companys durant o després de les missions.

D'altra banda, es disposa de dades que suggereixen que la teoria de l'aprenentatge social o per observació pot explicar l'adquisició de conductes d'addicció al tabac, l'alcohol i les drogues. Ja hem vist que els principis de reforçament i càstig poden explicar el manteniment de la conducta d'addicció (vegeu la teoria de Solomon i Corbit) un cop ja s'ha desenvolupat. No obstant això, l'adquisició d'aquests comportaments es pot explicar per l'aprenentatge per observació.

La primera cigarreta que fuma una persona és una experiència aversiva, llavors, com és possible que la persona torni a fumar? De molt petitets molts nens han estat exposats a persones que fumaven: els pares, germans més grans, personalitats de la televisió i cinema, etc. La conseqüència de fumar sembla tenir algun aspecte positiu. Algunes persones han manifestat que van començar a fumar perquè els feia més madurs, sofisticats o atractius. Podria ser que aquests "avantatges" tinguessin més força que l'experiència aversiva de fumar. D'aquesta manera, les persones imitarien la conducta de fumar ja que els models són ben percebuts.

Aquestes idees van ser exposades per Kozlowski (1979). Avui dia, però, la conducta de fumar comença a ser mal valorada per una gran part de la societat i els governs de molts països han començat a restringir severament la conducta de fumar. Si el fumador es mostra com una persona que rep més càstigs que reforços, s'espera d'acord amb la teoria de l'aprenentatge per observació, que el nombre de joves que inicia l'hàbit es vegi reduït significativament.

També sembla que la teoria de l'aprenentatge per observació pot explicar el desenvolupament de l'alcoholisme. O'Leary, O'Leary i Donovan (1976) van trobar que hi havia una tendència que els pares de les persones alcohòliques s'ubiquessin en una de dues categories: o bé eren grans consumidors o bé tot el contrari, abstemis molt rígids. La idea d'O'Leary i col·laboradors era que en ambdós casos els pares eren mals models per a un consum moderat d'alcohol. Si els pares són grans bevedors, els fills poden imitar aquest comportament. Si els pares són abstemis, llavors els fills també poden imitar aquest comportament. Però imaginem que el fill d'uns pares totalment abstemis decideix començar a beure. Els pares no hauran mostrat mai al fill els hàbits que prevenen caure en l'alcoholisme (com, per exemple, beure només en ocasions especials, no beure mai abans del treball o deixar de consumir alcohol després d'una o dues begudes). Tret que els fills hagin après aquestes guies en un altre entorn, poden progressar d'una manera inadvertida cap al consum patològic d'alcohol.

10.3.Influència de l'aprenentatge per observació en el desenvolupament cognitiu

A continuació, analitzarem com l'aprenentatge social pot influir en el desenvolupament cognitiu.

Piaget (1926, 1929) va suggerir que a mesura que els infants creixen van passant per diferents etapes de desenvolupament cognitiu i que passar d'una etapa a l'altra depèn del creixement, de la maduració i de l'experiència personal. Els teòrics de l'aprenentatge social (per exemple, Rosenthal i Zimmerman, 1972, 1978) defensen que l'aprenentatge per observació és el principal mecanisme per al desenvolupament de les habilitats cognitives.

Per tal de posar-ne un exemple, analitzarem la tasca de conservació. En una de les seves versions, es mostra als infants tres recipients cilíndrics transparents. Dos d'ells són idèntics i contenen la mateixa quantitat d'aigua. La prova s'inicia en preguntar quin dels dos recipients conté més quantitat d'aigua i la resposta habitual és que en contenen la mateixa quantitat. A continuació i davant del nen, es traspassa l'aigua d'un dels recipients al tercer que és més prim i alt. Es torna a preguntar al nen quin dels dos recipients conté més aigua. Si el nen respon que en contenen la mateixa quantitat, llavors el nen ja ha assolit el concepte de conservació dels volums. Tanmateix, la majoria dels infants de menys de set anys d'edat respon que hi ha més aigua al recipient estret i alt. Sembla ser que aquests infants es deixen portar per l'alçària del nivell de l'aigua en cada recipient i ignoren altres característiques com, per exemple, el diàmetre de la base del recipient. Aquests infants encara no han après que els líquids mantenen el seu volum constant amb independència de la forma del recipient que els contingui.

Rosenthal i Zimmerman van intentar demostrar que l'adquisició del concepte de la conservació dels volums no depenia de la simple maduració i de l'experiència personal, sinó de l'aprenentatge per observació. En un dels seus experiments, uns nens que encara no havien adquirit el concepte de conservació dels volums, van observar com un model adult executava correctament la tasca. L'experiment constava de dos grups que diferien només en el fet que en un d'ells el model explicava per què els dos recipients contenien la mateixa quantitat d'aigua.

Posteriorment a l'observació del model, els dos grups van haver de resoldre diversos problemes relacionats amb la conservació dels volums. Els resultats van mostrar que els nens dels dos grups van millorar en la realització de la tasca, i els qui en rebien una explicació van mostrar una millora més gran.

Una crítica a aquests resultats és que els nens podien aprendre a canviar la seva resposta, però sense entendre el perquè (Kuhn, 1974). No obstant això, hi ha evidència que els nens poden resoldre problemes diferents dels que han vist resoldre als models. Per exemple, Rosenthal i Zimmerman van trobar que els nens eren capaços de resoldre un problema de conservació del nombre que implica la comprensió que el nombre d'objectes en una línia no varia si la línia es fa més llarga espaiant més els objectes. Els nens eren capaços de resoldre correctament aquesta nova tasca després d'haver vist actuar el model en la tasca de conservació de volums, però mai en la de conservació del nombre.

Bandura també ha proposat que l'aprenentatge per observació pot influir en el judici dels infants respecte a quines conductes són bones i quines són dolentes.

Un nen que observa un comportament honest en els seus pares quant a qüestions financeres, pot aprendre a comportar-se de la mateixa manera. En canvi, un nen que observa que els seus pares estafen, fan trampes en la declaració de la renda, deixen de pagar factures, poden aprendre que aquests comportaments són acceptats o fins i tot desitjables.

Experiment de Bandura i McDonald (1963)

En un experiment, Bandura i McDonald (1963) van presentar problemes sobre judicis morals desenvolupats inicialment per Piaget (1932). Es demanava a uns nens un judici sobre quina de dues situacions hipotètiques era una entremaliadura abans i després de veure un model en què es feien judicis similars. En cada parella d'històries, un protagonista provocava un dany més gran que un altre, però les seves intencions eren millors. Per exemple, en una situació un nen obeïa la seva mare que l'havia cridat a sopar i en obrir una porta colpejava una cadira i tirava per terra i trencava un munt de tasses de cafè que eren sobre la cadira. Aquest nen provocava un gran dany mentre obeïa la mare. La segona història mostrava un nen que trencava una tassa de cafè mentre intentava agafar un pot de galetes quan la seva mare no el veia. Aquest nen provocava un dany inferior mentre feia una entremaliadura. Els nens petits jutgen l'entremaliadura amb relació a la grandària del dany causat, mentre que els nens més grans tenen en compte les intencions de les persones quan fan els seus judicis. Després que els nens de l'experiment de Bandura i McDonald haguessin donat el seu judici, cadascun va observar un model adult que donava el judici contrari (independentment del tipus de decisió que havia pres cada nen). Els resultats van mostrar que els participants en l'experiment podien canviar els seus judicis en qualsevol direcció després d'haver vist el model. El fet que els judicis durant la prova eren sobre històries completament noves mostra que els nens havien après una regla general sobre els judicis morals.

Tot i que no entrarem en detalls, l'aprenentatge per observació s'ha utilitzat com una eina en les teràpies de conducta. Se n'ha observat l'eficàcia per a facilitar conductes amb baixa probabilitat d'aparició, l'adquisició de noves conductes, l'eliminació de pors i de conductes no desitjades.

Exercicis d'autoavaluació

Preguntes d'alternatives múltiples

Preguntes obertes

1) Compareu els mètodes d'operant lliure i d'assajos discrets en la recerca del condicionament instrumental (apartat 3).
2) Contrasteu el reforçament positiu i el negatiu (apartat 4).
3) Quins són els efectes de la demora en el reforçament i com es poden minimitzar? (apartat 5)
4) Compareu els programes de raó i d'interval (apartat 6).
5) Què ens indica la recerca amb programes concurrents i concurrents encadenats sobre la conducta d'elecció? (apartat 6)
6) Descriviu les diferents associacions que es poden inferir en el condicionament instrumental (apartat 9).
7) Compareu la teoria de Premack i les teories sobre regulació conductual (apartat 9).
8) Descriviu el gradient de generalització i els efectes que s'hi associen (apartat 10).
9) Com pot explicar la teoria d'Spence el desplaçament del màxim (apartat 10).
10) Quins mecanismes s'han proposat per a explicar l'aprenentatge perceptiu? (apartat 10)
11) Descriviu els processos implicats en l'aprenentatge per observació proposats per Bandura (apartat 11).

1. Segons Skinner (1938), un reforçador és un esdeveniment que...

a) redueix l'impuls.

b) produeix por.

c) redueix el nivell de dolor.

d) augmenta la probabilitat d'execució d'una resposta.

2. La llei de l'efecte de Thorndike proposa que...

a) la força de la connexió estímul-estímul pot augmentar amb l'experiència.

b) el subjecte en un experiment d'aprenentatge pot ser motivat per a formar una associació.

c) el reforç enforteix l'associació entre un estímul i una resposta.

d) l'aprenentatge es produeix només quan un estímul és seguit d'una resposta.

3. Què és un estímul discriminant?

a) És un estímul que assenyala la disponibilitat del reforçador.

b) És un estímul biològicament potent i que se sol denominar reforçador.

c) És un estímul que provoca una resposta reflexa que en el condicionament instrumental es dóna per suposada.

d) És un estímul intens indispensable per al condicionament instrumental.

4. En el procediment de REC, necessitem que els animals mostrin una taxa de resposta en la tasca instrumental alta i estable. Quin dels programes bàsics de reforç següents garanteix una taxa de resposta alta i estable?

a) Interval fix.

b) Raó variable.

c) Raó fixa.

d) Interval variable.

5. Retirar el permís de conduir a algú per conduir sota els efectes de l'alcohol és un exemple

a) de càstig.

b) d'entrenament de recompensa.

c) d'entrenament d'evitació.

d) d'entrenament d'omissió.

6. En el procediment d'omissió, l'execució de la resposta instrumental dóna lloc...

a) a l'aparició d'un estímul aversiu.

b) a la retirada d'un estímul aversiu.

c) a l'aparició d'un estímul apetitiu.

d) a la retirada d'un estímul apetitiu.

7. La resposta d'escapada consisteix en una resposta que es dóna per a...

a) impedir l'aparició d'un EI apetitiu.

b) fer desaparèixer un EI apetitiu.

c) fer desaparèixer un EI aversiu.

d) impedir l'aparició d'un EI aversiu.

8. En què s'assembla l'entrenament de càstig positiu al de reforçament negatiu (escapada-evitació)?

a) En els dos entrenaments es pretén instaurar una nova conducta.

b) En els dos entrenaments s'utilitzen EI aversius.

c) En els dos entrenaments es pretén suprimir una conducta en curs.

d) Els dos entrenaments s'emmarquen en el condicionament clàssic.

9. En què consisteix un programa d'interval variable (IV)?

a) El reforçament es presenta al subjecte per la primera resposta que fa un cop transcorreguda una quantitat fixa de temps des de l'últim reforçament.

b) El subjecte és recompensat per cada n respostes (prèviament fixades).

c) El subjecte és recompensat per cada n respostes, però el nombre de respostes requerit per a la presentació del reforç varia aleatòriament.

d) La recompensa està disponible un cop transcorregut un temps determinat, la duració del qual varia aleatòriament.

10. Què representa el pendent de la línia que es dibuixa en un registre acumulatiu?

a) La intensitat de les respostes.

b) La taxa de respostes.

c) Les aproximacions successives de les respostes.

d) El nombre d'errors de les respostes que mesurem.

11. Segons es pot observar en el gràfic, quin programa de reforçament pot estar reflectint?

a) RF10.

b) IF2''.

c) RV10.

d) Cap dels tres.

12. En què consisteix la tècnica de l'emmotllament?

a) En l'establiment d'una nova conducta aparellant-la a un reforç positiu.

b) En la imitació de la conducta d'un model que executa una resposta nova.

c) En l'establiment d'una nova pauta de conducta mitjançant el reforçament diferencial de conductes que s'aproximen successivament a la conducta volguda.

d) És una tècnica molt utilitzada a les perruqueries, però amb un interès escàs per a la psicologia.

13. La llei de la igualació reflecteix un fet fonamental de la conducta d'elecció entre dues alternatives A i B, i indica que...

a) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de respostes en l'alternativa B.

b) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de reforçaments en l'alternativa B.

c) la taxa relativa de respostes en l'alternativa A és igual que la taxa relativa de reforçaments per a aquesta alternativa.

d) la taxa relativa de reforçaments en l'alternativa A és igual que la taxa relativa de reforçaments en l'alternativa B.

14. Com podem observar en la figura, tenim una gallina sotmesa a dos programes concurrents de reforç. Segons la llei de la igualació, quina seria la distribució de resposta esperada en les dues tecles?

a) En la tecla VI 30 segons, el doble de respostes que en la tecla VI 60 segons.

b) En la tecla VI 60 segons, el doble de respostes que en la tecla VI 30 segons.

c) En les dues tecles igual.

d) No ho podem saber.

15. Què suposa per a la teoria d'Spence de l'aprenentatge discriminant el fet que es puguin presentar gradients d'excitació i d'inhibició entorn de l'E+ i entorn de l'E–?

a) Un problema per a la teoria.

b) Un gran suport a la teoria.

c) No suposa res.

d) No s'ha pogut demostrar mai l'existència de gradients de generalització inhibidors.

16. Imaginem que ensinistrem un grup de coloms a picotejar en presència d'un llum de 580nm de longitud d'ona i, posteriorment, els posem a prova en presència de llums d'altres colors. Els resultats que observem en la gràfica mostren que les seves respostes estan en funció del grau de semblança dels estímuls de prova amb l'estímul d'entrenament original. Aquest tipus de resultats constitueix...

a) un contrast de conducta.

b) un desplaçament del màxim.

c) un gradient de generalització.

d) un gradient pla de generalització.

17. En la gràfica es mostren dos gradients de generalització. Quin fenomen es pot observar?

a) Una discriminació extradimensional.

b) L'efecte de transposició en el grup G1.

c) Un gradient de generalització excitador en el grup G1 i un gradient de generalització inhibidor en el grup G2.

d) El desplaçament del màxim en el grup G2.

Exercicis d'autoavaluació

1. a) Incorrecte.
b) Incorrecte.
c) Incorrecte.
d) Correcte.

2. a) Incorrecte.
b) Incorrecte.
c) Correcte.
d) Incorrecte.

3. a) Correcte.
b) Incorrecte.
c) Incorrecte.
d) Incorrecte.

4. a) Incorrecte.
b) Correcte.
c) Incorrecte.
d) Incorrecte.

5. a) Incorrecte.
b) Incorrecte.
c) Incorrecte.
d) Correcte.

6. a) Incorrecte.
b) Incorrecte.
c) Incorrecte.
d) Correcte.

7. a) Incorrecte.
b) Incorrecte.
c) Correcte.
d) Incorrecte.

8. a) Incorrecte.
b) Correcte.
c) Incorrecte.
d) Incorrecte.

9. a) Incorrecte.
b) Incorrecte.
c) Incorrecte.
d) Correcte.

10. a) Incorrecte.
b) Correcte.
c) Incorrecte.
d) Incorrecte.

11. a) Correcte.
b) Incorrecte.
c) Incorrecte.
d) Incorrecte.

12. a) Incorrecte.
b) Incorrecte.
c) Correcte.
d) Incorrecte.

13. a) Incorrecte.
b) Incorrecte.
c) Correcte.
d) Incorrecte.

14. a) Correcte.
b) Incorrecte.
c) Incorrecte.
d) Incorrecte.

15. a) Incorrecte.
b) Correcte.
c) Incorrecte.
d) Incorrecte.

16. a) Incorrecte.
b) Incorrecte.
c) Correcte.
d) Incorrecte.

17. a) Incorrecte.
b) Incorrecte.
c) Incorrecte.
d) Correcte.

Glossari

aprenentatge relacional m: Concepció segons la qual la discriminació entre dos estímuls es basa en una relació entre ells.
associació jeràrquica f: Una associació entre un estímul i una relació resposta-conseqüència particular.
associació R-C f: Vegeu associació resposta-conseqüència.
associació resposta-conseqüència f: Una associació entre la conducta d'un individu i una conseqüència, per exemple, menjar.
sigla associació R-C
autocontrol m: Una condició que descriu la situació en la qual un individu escull l'opció d'una recompensa gran, però demorada en lloc d'una recompensa petita i immediata.
canvi extradimensional m: Procediment en què varia la resposta d'elecció correcta i la dimensió de l'estímul en què difereixen les possibles eleccions.
canvi intradimensional m: Procediment en què varia la resposta d'elecció correcta, però es manté la dimensió de l'estímul en què difereixen les possibles eleccions.
càstig m: Un procediment de condicionament instrumental en què una conducta és seguida d'un estímul aversiu.
condicionament instrumental m: Una forma d'aprenentatge en la qual un estímul és contingent a una resposta.
conducta maladaptada f: Conductes innates evocades pel reforçador i que interfereixen amb la conducta instrumental.
en misbehaviour
contigüitat temporal f: Immediatesa de la presentació del reforçador.
contingència f: Dependència de la presentació del reforçador de l'execució de la resposta instrumental.
contrast negatiu m: Una reducció de la resposta com a conseqüència d'una reducció del valor del reforçador.
contrast positiu m: Un increment de la resposta com a conseqüència d'un augment del valor del reforçador.
control per l'estímul m: El grau en què un estímul provoca la resposta.
desplaçament del màxim m: Un desplaçament del màxim del gradient de generalització respecte de l'E+ i en direcció oposada a l'E–.
sin. compl. desplaçament del vèrtex
desplaçament del vèrtex m: sin. desplaçament del màxim
discriminació f: Consisteix a respondre d'una manera diferent a dos estímuls segons les seves diferències.
efecte del reforçament parcial m: Dificultat d'extingir una resposta que ha estat reforçada parcialment.
emmotllament m: Un procediment per a enfortir una resposta instrumental, per mitjà de reforçar aproximacions successives a la resposta criteri final.
entrenament d'omissió m: Un procediment de condicionament instrumental en què la resposta és seguida de la retirada d'un estímul apetitiu.
escapada f: Un procediment de condicionament instrumental en què la resposta és seguida de la retirada d'un estímul aversiu.
estímul discriminant m: Estímul que informa de la disponibilitat del reforçador.
evitació f: Un procediment de condicionament instrumental en què la resposta impedeix la presentació d'un estímul aversiu.
força de l'hàbit f: Tendència a executar una resposta en presència d'un estímul determinat.
generalització f: Tendència a respondre a un estímul nou similar a l'EC o als estímuls discriminants.
gradient de generalització m: Relació entre la força de la resposta als estímuls de prova en funció de la seva similitud amb l'EC o amb els estímuls discriminants.
hipòtesi del marcatge f: Una teoria de la facilitació de l'aprenentatge, segons la qual la presentació d'una clau després d'una resposta d'elecció marca aquesta resposta en la memòria de l'animal.
imitació f: Reproducció d'una conducta observada en un altre individu.
impuls m: Un estat de l'organisme que correspon a un desequilibri biològic.
infraigualació f: Una taxa de resposta per al millor de dos programes de reforçament inferior a la que prediu la llei de la igualació.
llei de la igualació f: Un enunciat matemàtic que descriu la relació entre la taxa de resposta i la taxa de reforçament.
maximització f: Teoria de la igualació que afirma que la conducta de la igualació es produeix perquè l'animal pretén obtenir el màxim de reforçadors.
millorament m: Teoria de la igualació que afirma que la conducta de la igualació es produeix perquè l'animal escull contínuament l'opció amb la taxa de reforçament més gran en un moment determinat.
misbehaviour f: Vegeu conducta maladaptada.
pausa postreforçament f: Període posterior al reforçament en què l'individu deixa de respondre. S'observa en els programes de reforçament de raó i d'interval fixos.
programa de reforçament d'interval fix m: Un programa de reforçament intermitent en què el subjecte rep la recompensa per respondre després d'un període determinat de temps.
sigla programa IF
programa de reforçament d'interval variable m: Un programa de reforçament intermitent en què el subjecte rep la recompensa per respondre després d'un període de temps que varia d'un reforçador a un altre.
sigla programa IV
programa de reforçament de raó fixa m: Un programa de reforçament intermitent en què el subjecte rep la recompensa per respondre un determinat nombre de vegades.
sigla programa RF
programa de reforçament de raó variable m: Un programa de reforçament intermitent en què el subjecte rep la recompensa per respondre un determinat nombre de vegades, que varia entre un reforçador i el següent.
sigla programa RV
programa de reforçament continu m: Un programa de reforçament en què la conseqüència es presenta cada vegada que s'executa la resposta.
programa de reforçament intermitent m: Vegeu programa de reforçament parcial.
programa de reforçament parcial m: Un programa de reforçament en què la conseqüència no es presenta cada vegada que s'executa la resposta.
sin. compl. programa de reforçament intermitent
programa IF m: Vegeu programa de reforçament d'interval fix.
programa IV m: Vegeu programa de reforçament d'interval variable.
programa RF m: Vegeu programa de reforçament de raó fixa.
programa RV m: Vegeu programa de reforçament de raó variable.
punt de complaença m: La combinació preferida de dues activitats.
reforçador m: Estímul que contingent a la resposta fa que incrementi la taxa de la resposta.
reforçador condicionat m: Un estímul inicialment neutre que pel seu aparellament amb un reforçador primari adquireix la propietat de reforçar una conducta.
sin. compl. reforçador secundari
reforçament negatiu m: Un procediment del condicionament instrumental en què una resposta elimina o impedeix la presentació d'un estímul aversiu.
reforçament positiu m: Un procediment de condicionament instrumental en què la resposta és seguida de la presentació d'un estímul apetitiu.
reforçador secundari m: sin. reforçador condicionat
sobreigualació f: Una taxa de resposta per al millor de dos programes de reforçament superior a la que prediu la llei de la igualació.

FAQ

Després d'estudiar el mòdul de condicionament instrumental hauríeu de conèixer els mètodes d'operant lliure i d'assajos discrets utilitzats en la recerca sobre condicionament instrumental. També és important que es recordi tot el que té relació amb el reforçament positiu i reforçament negatiu, i també amb el càstig i l'entrenament per omissió. Cal conèixer també els efectes que té la demora en el reforçament sobre l'aprenentatge instrumental. Relacionat amb aquest darrer punt, és convenient conèixer la importància de la contingència entre resposta i reforçador.

Respecte als programes de reforçament és necessari conèixer els efectes que tenen sobre la conducta, pel que fa a la seva taxa i estabilitat. Quant a la llei de la igualació cal conèixer-ne la formulació i les teories que l'expliquen. També és interessant poder distingir entre els programes concurrents i els programes concurrents encadenats.

Amb relació a les teories sobre el condicionament cal tenir coneixement de les diferents associacions que es produeixen entre els estímuls discriminants, les respostes i les conseqüències. També és útil conèixer les teories sobre la regulació de la conducta.

Quant al control per l'estímul cal saber què és la discriminació i la generalització. Saber interpretar un gradient de generalització i quins factors en poden determinar la forma. Cal tenir coneixements sobre el desplaçament del màxim i com s'interpreta des de les perspectives absolutes i relacionals.

Pel que fa a l'aprenentatge observacional és necessari conèixer les bases de la conducta imitativa i les teories proposades per a explicar-la. És importat saber diferenciar entre la conducta imitativa com a resposta instrumental i el punt de vista de Bandura. A partir d'aquesta darrera teoria cal conèixer els diferents processos implicats en l'aprenentatge per observació i els factors relacionats amb el model i l'aprenent que influeixen en l'aprenentatge per observació.

Bibliografia

Bibliografia recomanada

Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.

Dickinson, A. (1984). Teorías actuales del aprendizaje animal (original anglès, 1980). Madrid: Editorial Debate.

Domjan, M. (2003). Principios de aprendizaje y conducta (original anglès, 2003). Madrid: Thomson.

Froufe, M. (2004). Aprendizaje asociativo. Madrid: Thompson.

Mackintosh, N. J. (1988). Condicionamiento y aprendizaje asociativo (original anglès, 1983). Madrid: Alhambra Universidad.

Maldonado, A. (1998). Aprendizaje, cognición y comportamiento humano. Madrid: Biblioteca Nueva.

Pearce, J. M. (1998). Aprendizaje y cognición (original anglès, 1997). Barcelona: Ariel.

Pellón, R. i Huidobro, A. (Ed.). (2004). Inteligencia y aprendizaje. Barcelona: Ariel.

Tarpy, R. M. (2000). Aprendizaje: Teoría e investigación contemporáneas (original anglès, 1997). Madrid: McGraw-Hill.

Referències bibliogràfiques

Abramovitch, R. i Grusec, J. E. (1978). Peer imitation in a natural setting. Child Dev., 03; 49(1), 60-65.

Alberts, E. i Ehrenfreund, D. (1951). Transposition in children as a function of age. J. Exp. Psychol., 01; 41(1), 30-38.

Allison, J. (1989). The nature of reinforcement. A S. B. Klein i R. R. Mowrer (Ed.), Contemporary learning theories: Instrumental conditioning theory and the impact of biological constraints on learning (pp. 13-39). Hillsdale, NJ, England: Lawrence Erlbaum Associates.

Alloway, T., Wilson, G., i Graham, J. (2006). Sniffy: La rata virtual. Madrid: Thompson.

Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Nova York, NY, EUA: Cambridge University Press.

Anisfeld, M. (1991). Neonatal imitation. Developmental Review, 03; 11(1), 60-97.

Artigas, A. A., Sansa, J., Blair, C. A. J., Hall, G., i Prados, J. (2006). Enhanced discrimination between flavor stimuli: Roles of salience modulation and inhibition. J. Exp. Psychol.: Anim. Behav. Processes, 04; 32(2), 173-177.

Artigas, A. A., Sansa, J., i Prados, J. (2006). The espinet and the perceptual learning effects in flavour aversion conditioning: do they depend on a common inhibitory mechanism? The Quarterly Journal of Experimental Psychology, 59, 471-481.

Azrin, N. H. i Holz, W. C. (1966). Punishment. A W. K. Honig (Ed.), Operant behavior: Areas of research and application. Englewood Cliffs, NJ: Prentice Hall.

Azrin, N. H., Holz, W. C., i Hake, D. F. (1963). Fixed-ratio punishment. J. Exp. Anal. Behav., 6(2), 141-148.

Azrin, N. H., Hutchinson, R. R., i Hake, D. F. (1966). Extinction-induced aggression. J. Exp. Anal. Behav., 9(3), 191-204.

Azrin, N. H. (1960). Effects of punishment intensity during variable-interval reinforcement. J. Exp. Anal. Behav., 3, 123-142.

Azrin, N. H. (1956). Some effects of two intermittent schedules of immediate and non-immediate punishment. Journal of Psychology: Interdisciplinary and Applied, 42, 3-21.

Baer, D. M., Peterson, R. F., i Sherman, J. A. (1967). The Development of Imitation by Reinforcing Behavioral Similarity to a Model. J. Exp. Anal. Behav., 10(5), 405-416.

Balaban, M. T., Rhodes, D. L., i Neuringer, A. (1990). Orienting and defense responses to punishment: Effects on learning. Biol. Psychol., 06; 30(3), 203-217.

Baldwin, J. M. (1906). Mental development, methods, and processes. Nova York: Macmillian.

Bandura, A. i Huston, A. C. (1961). Identification as a process of incidental learning. The Journal of Abnormal and Social Psychology, 09; 63(2), 311-318.

Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. Englewood Cliffs, NJ, EUA: Prentice Hall.

Bandura, A. (1969). Principles of behavior modification. Oxford, Anglaterra: Holt, Rinehart & Winston.

Bandura, A. (1965). Influence of models' reinforcement contingencies on the acquisition of imitative responses. J. Pers. Soc. Psychol., 06; 1(6), 589-595.

Bandura, A. (1962). Social learning through imitation. A M. R. Jones (Ed.), Nebraska Symposium on Motivation (pp. 211-274). Oxford, Anglaterra: Univer. Nebraska Press.

Bandura, A. i McDonald, F. J. (1963). Influence of social reinforcement and the behavior of models in shaping children's moral judgment. The Journal of Abnormal and Social Psychology, 09; 67(3), 274-281.

Bandura, A. i Walters, R. H. (1963). Social learning and personality development. Nova York: Holt Rinehart and Winston.

Baron, A. i Herpolsheimer, L. R. (1999). Averaging effects in the study of fixed-ratio response patterns. J. Exp. Anal. Behav., 03; 71(2), 145-153.

Baum, W. M. (1974). On two types of deviation from the matching law: Bias and undermatching. J. Exp. Anal. Behav., 07; 22(1), 231-242.

Breland, K. i Breland, M. (1961). The misbehavior of organisms. Am. Psychol., 11; 16(11), 681-684.

Bullock, D. i Neuringer, A. (1977). Social learning by following: An analysis. J. Exp. Anal. Behav., 01; 27(1), 127-135.

Burnstein, E., Stotland, E., i Zander, A. (1961). Similarity to a model and self-evaluation. The Journal of Abnormal and Social Psychology, 03; 62(2), 257-264.

Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. A K. W. Spence i J. T. (Ed.), The psychology of learning and motivation (I). Oxford, Anglaterra: Academic Press.

Capaldi, E. J. (1966). Partial reinforcement: A hypothesis of sequential effects. Psychol. Rev., 09; 73(5), 459-477.

Chatlosh, D. L., Neunaber, D. J., i Wasserman, E. A. (1985). Response-outcome contingency: Behavioral and judgmental effects of appetitive and aversive outcomes with college students. Learn. Motiv., 02; 16(1), 1-34.

Colwill, R. M. i Rescorla, R. A. (1988). Associations between the discriminative stimulus and the reinforcer in instrumental learning. J. Exp. Psychol.: Anim. Behav. Processes, 04; 14(2), 155-164.

Colwill, R. M. i Rescorla, R. A. (1985). Postconditioning devaluation of a reinforcer affects instrumental responding. J. Exp. Psychol.: Anim. Behav. Processes, 01; 11(1), 120-132.

Crespi, L. P. (1942). Quantitative variation of incentive and performance in the white rat. Am.J.Psychol., 55: 467-517.

Davidson, E. S. i Smith, W. P. (1982). Imitation, social comparison, and self-reward. Child Dev., 08; 53(4), 928-932.

Dickinson, A., Watt, A., i Griffiths, W. J. (1992). Free-operant acquisition with delayed reinforcement. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 10; 45(3), 241-258.

Dinsmoor, J. A. (1977). Escape, avoidance, punishment: Where do we stand? J. Exp. Anal. Behav., 07; 28(1), 83-95.

Dinsmoor, J. A. (1955). Punishment: II. An Interpretation of Empirical Findings. Psychol. Rev., 03; 62(2), 96-105.

Dinsmoor, J. A. (1954). Punishment: I. The avoidance hypothesis. Psychol. Rev., 01; 61(1), 34-46. Domjan

Espinet, A., Iraola, J. A., Bennett, C. H., i Mackintosh, N. J. (1995). Inhibitory association between neutral stimuli in flavor-aversion conditioning. Anim. Learn. Behav., 11; 23(4): 361-368.

Fisher, J. i Hinde, C. A. (1947). The opening of milk bottles by birds. British Birds, 42: 347-357.

Flaherty, C. F. (1996). Incentive relativity. Nova York, NY, EUA: Cambridge University Press.

Flora, S. R. i Pavlik, W. B. (1990). Conventional and reversed partial reinforcement effects in human operant responding. Bulletin of the Psychonomic Society, 09; 28(5), 429-432.

Gibbon, J. i Church, R. M. (1992). Comparison of variance and covariance patterns in parallel and serial theories of timing. J. Exp. Anal. Behav., 05; 57(3), 393-406.

Gibson, E. J. (1969). Principles of perceptual learning and development. East Norwalk, CT, EUA: Appleton-Century-Crofts.

Gibson, E. J. i Walk, R. D. (1956). The effect of prolonged exposure to visually presented patterns on learning to discriminate them. J. Comp. Physiol. Psychol., 06; 49(3): 239-242.

Gonzalez, R. C., Gentry, G. V., i Bitterman, M. E. (1954). Relational discrimination of intermediate size in the chimpanzee. J. Comp. Physiol. Psychol., 10; 47(5): 385-388.

Gulliksen, H. (1932). Studies of transfer of response: I. Relative versus absolute factors in the discrimination of size by the white rat. Journal of Genetic Psychology, 40: 37-51.

Guttman, N. i Kalish, H. I. (1956). Discriminability and stimulus generalization. J. Exp. Psychol., 01; 51(1): 79-88.

Hall, G. (2003). Learned changes in the sensitivity of stimulus representations: Associative and nonassociative mechanisms. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 56B(1): 43-55.

Hammond, L. J. (1980). The effect of contingency upon the appetitive conditioning of free-operant behavior. J. Exp. Anal. Behav., 11; 34(3): 297-304.

Hanson, H. M. (1959). Effects of discrimination training on stimulus generalization. J. Exp. Psychol., 11; 58(5): 321-334.

Harnick, F. S. (1978). The relationship between ability level and task difficulty in producing imitation in infants. Child Dev., 03; 49(1): 209-212.

Hendry, D. P. i Van-Toller, C. (1964). Fixed-ratio punishment with continuous reinforcement. J. Exp. Anal. Behav., 7(4): 293-300.

Herrnstein, R. J. (1969). Method and theory in the study of avoidance. Psychol. Rev., 01; 76(1): 49-69.

Herrnstein, R. J. (1961). Relative and absolute strength of response as a function of frequency of reinforcement. J. Exp. Anal. Behav., 4, 267-272.

Herrnstein, R. J. i Hineline, P. N. (1966). Negative reinforcement as shock-frequency reduction. J. Exp. Anal. Behav., 9(4), 421-430.

Hogan, D. E. (1986). Observational learning of a conditional hue discrimination in pigeons. Learn. Motiv., 02; 17(1), 40-58.

Holz, W. C. i Azrin, N. H. (1961). Discriminative properties of punishment. J. Exp. Anal. Behav., 4: 225-232.

Honig, W. K., Boneau, C. A., Burstein, K. R., i Pennypacker, H. S. (1963). Positive and negative generalization gradients obtained after equivalent training conditions. J. Comp. Physiol. Psychol., 02; 56(1), 111-116.

Hull, C. L. (1952). A behavior system: an introduction to behavior theory concerning the individual organism. New Haven, CT, EUA: Yale University Press.

Hull, C. L. (1943). Principles of behavior: an introduction to behavior theory. Oxford, Anglaterra: Appleton-Century.

Hull, C. L. (1934). Learning: II. The factor of the conditioned reflex. A Handbook of General Experimental Psychology (pp. 382-455). Worcester, MA, EUA: Clark University Press,.

Hutt, P. J. (1954). Rate of bar pressing as a function of quality and quantity of food reward. J. Comp. Physiol. Psychol., 06; 47(3), 235-239.

Jakubczak, L. F. i Walters, R. H. (1959). Suggestibility as dependency behavior. The Journal of Abnormal and Social Psychology, 07; 59(1), 102-107.

James W. Association (1980). A W. James (Ed.), The principles of psychology (I, pp. 550-604). Nova York, NY, EUA: Henry Holt and Co.

Jenkins, H. M. (1977). Sensitivity of different response systems to stimulus-reinforcer and response-reinforcer relations. A H. Davis i H. M. B. Hurwitz (Ed.), Operant-Pavlovian interactions. Hillsdale, NJ: Erlbaum.

Jenkins, H. M. i Harrison, R. H. (1962). Generalization gradients of inhibition following auditory discrimination learning. J. Exp. Anal. Behav., 5(4), 435-441.

Kawai, M. (1965). Newly acquired pre-cultural behavior of the natural troop of Japanese monkeys on Koshima islet. Primates,6, 1-30.

Klass, E. T. (1979). Relative influence of sincere, insincere, and neutral symbolic models. J. Exp. Child Psychol., 02; 27(1), 48-59.

Köhler, W. (1939). Simple structural function in the chimpanzee and the chicken. A W. D. Ellis (Ed.), A source book of gestalt psychology. Nova York: Harcourt Brace.

Kozlowski, L. T. (1979). Psychosocial influences on cigarette smoking. A N. A. Krasnegor (Ed.), The behavioral influences on cigarette smoking. NIDA Research Monograph 26. DHEW Publication No. (ADM) 79-882.

Kuhn, D. (1974). Inducing development experimentally: Comments on a research paradigm. Developmental Psychology, 10, 590-600.

Lashley, K. S. (1924). Studies of the cerebral functionin learning: V. The retention of motor habits after destruction of so-called motor areas in primates. Archives of Neurology and Psychiatry, 12, 249-276.

Lashley, K. S. i Wade, M. (1946). The Pavlovian theory of generalization. Psychol. Rev, 03; 53(2), 72-87.

Lawrence, D. H. (1949). Acquired distinctiveness of cues: I. Transfer between discriminations on the basis of familiarity with the stimulus. J. Exp. Psychol., 12; 39(6), 770-784.

Lawrence, D. H. i Derivera, J. (1954). Evidence for Relational Transposition. J. Comp. Physiol. Psychol., 12; 47(6), 465-471.

Lieberman, D. A., McIntosh, D. C., i Thomas, G. V. (1979). Learning when reward is delayed: A marking hypothesis. J. Exp. Psychol.: Anim.Behav.Processes, 07; 5(3), 224-242.

Logue, A. W. (1998). Laboratory research on self-control: Applications to administration. Review of General Psychology, 06; 2(2), 221-238.

Mackintosh, N. J. (1983). Conditioning and associative learning. Oxford: Oxford University Press.

Mackintosh, N. J. i Little, L. (1969). Intradimensional and extradimensional shift learning by pigeons. Psychonomic Science, 14(1), 5-6.

Mazur, J. E. (1987). An adjusting procedure for studying delayed reinforcement. A M. L. Commons, J. E. Mazur, J. A. Nevin i H. Rachlin (Ed.), The effect of delay and of intervening events on reinforcement value (pp. 55-73). Hillsdale, NJ, Anglaterra: Lawrence Erlbaum Associates.

McAllister, W. R. i McAllister, D. E. (1992). Fear determines the effectiveness of a feedback stimulus in aversively motivated instrumental learning. Learn. Motiv., 02; 23(1), 99-115.

McCullagh, P. (1986). Model status as a determinant of observational learning and performance. Journal of Sport Psychology, 12; 8(4), 319-331.

McDougall, W. (1908). An Introduction to Social Psychology. Nova York, NY, EUA: Methuen.

McLaren, I. P. L. i Mackintosh, N. J. (2000). An elemental model of associative learning: I. Latent inhibition and perceptual learning. Anim. Learn. Behav., 08; 28(3), 211-246.

McLaren, I. P. L., Kaye, H., i Mackintosh, N. (1989). J. An associative theory of the representation of stimuli: Applications to perceptual learning and latent inhibition. A R. G. M. Morris (Ed.), Parallel distributed processing: Implications for psychology and neurobiology (pp. 102-130). Nova York, NY, EUA: Clarendon Press/Oxford University Press.

Meltzoff, A. N. i Moore, M. K. (1989). Imitation in newborn infants: Exploring the range of gestures imitated and the underlying mechanisms. Dev. Psychol., 11; 25(6), 954-962.

Meltzoff, A. N. i Moore, M. K. (1983). Newborn infants imitate adult facial gestures. Child Dev., 06; 54(3), 702-709.

Meltzoff, A. N. i Moore, M. K. (1977). Imitation of facial and manual gestures by human neonates. Science, 10; 198(4312), 75-78.

Miller, N. E. i Dollard, J. (1941). Social learning and imitation. New Haven, CT, EUA: Yale University Press.

Mineka, S., Cook, M., i Miller, S. (1984). Fear conditioned with escapable and inescapable shock: Effects of a feedback stimulus. J. Exp. Psychol.: Anim. Behav. Processes, 07; 10(3): 307-323.

Mischel, W. i Grusec, J. (1966). Determinants of the rehearsal and transmission of neutral and aversive behaviors. J. Pers. Soc. Psychol., 02; 3(2), 197-205.

Morgan, C. L. (1986). Habit and Instinct. Nova York: E. Arnold.

Morgan, C. L. (1894). An introduction to comparative psychology. Londres, Anglaterra: Walter Scott.

Mowrer, O. H. i Jones, H. (1945). Habit strength as a function of the pattern of reinforcement. J. Exp. Psychol., 08; 35(4), 293-311.

Mowrer, O. H. (1947). On the dual nature of learning--a re-interpretation of 'conditioning' and 'problem-solving.'. Harvard Educational Review, 17, 102-148.

Nation, J. R. i Cooney, J. B. (1982). The time course of extinction-induced aggressive behavior in humans: Evidence for a stage model of extinction. Learn. Motiv., 02; 13(1), 95-112.

Neuringer. A., Kornell, N. i Olufs, M. (2001). Stability and variability in extinction. J. Exp. Psychol.: Anim. Behav. Processes, 01; 27(1), 79-94.

Nevin, J. A. (1999). Analyzing Thorndike's Law of Effect: The question of stimulus-response bonds. J. Exp. Anal. Behav., 11; 72(3), 447-450.

Nevin, J. A. (1988). Behavioral momentum and the partial reinforcement effect. Psychol.Bull., 01; 103(1), 44-56.

O'Leary, D. E., O'Leary, M. R., i Donovan, D. M. (1976). Social skill acquisition and psychosocial development of alcoholics: A review. Addict.Behav., 1(2), 111-120.

Page, H. A. i Hall, J. F. (1953). Experimental extinction as a function of the prevention of a response. J. Comp. Physiol. Psychol., 02; 46(1), 33-34.

Page, S. i Neuringer, A. (1985). Variability is an operant. J. Exp. Psychol.: Anim.Behav.Processes, 07; 11(3), 429-452.

Pearce, J. M. i Hall, G. (1978). Overshadowing the instrumental conditioning of a lever-press response by a more valid predictor of the reinforcer. J. Exp. Psychol.: Anim. Behav.Processes, 10; 4(4), 356-367.

Piaget, J. (1932). The moral judgment of the child. Oxford, Anglaterra: Harcourt, Brace.

Piaget, J. (1929). The child's conception of the world. Oxford, Anglaterra: Harcourt, Brace.

Piaget, J. (1926). The language and thought of the child. Oxford, Anglaterra: Harcourt, Brace.

Premack, D. (1959). Toward empirical behavior laws: I. Positive reinforcement. Psychol. Rev., 07; 66(4), 219-233.

Rachlin, H. i Green, L. (1972). Commitment, choice and self-control. J. Exp. Anal. Behav., 01; 17(1), 15-22.

Rachlin, H. i Herrnstein, R. J. (1969). Hedonism revisited: On the negative law of effect. A B. A. Campbell i R. M. Church (Ed.), Punishment and aversive behavior. Nova York: Appleton-Century-Crofts.

Raia, C. P., Shillingford, S. W., Miller, H. L. J., i Baier, P. S. (2000). Interaction of procedural factors in human performance on yoked schedules. J. Exp. Anal. Behav., 11; 74(3), 265-281.

Reed, P. (1999). Role of a stimulus filling an action-outcome delay in human judgments of causal effectiveness. J. Exp. Psychol.: Anim. Behav. Processes, 01; 25(1), 92-102.

Rescorla, R. A. (1991). Associative relations in instrumental learning: The Eighteenth Bartlett Memorial Lecture. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 02; 43(1), 1-23.

Rescorla, R. A. (1990). Evidence for an association between the discriminative stimulus and the response-outcome association in instrumental learning. J. Exp. Psychol.: Anim.Behav.Processes, 10; 16(4), 326-334.

Rescorla, R. A. (1968). Probability of Shock in the Presence and Absence of Cs in Fear Conditioning. J. Comp. Physiol. Psychol., 08; 66(1), 1-5.

Rescorla, R. A. (1967). Pavlovian Conditioning and its Proper Control Procedures. Psychol. Rev., 01; 74(1), 71-80.

Rescorla, R. A. i Lolordo, V. M. (1965). Inhibition of avoidance behavior. J. Comp. Physiol. Psychol., 06; 59(3), 406-412.

Rescorla, R. A. i Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. A A. H. Black i W. F. Prokasy (Ed.), Classical conditioning II: Current research and theory. Nova York: Appleton-Century-Crofts.

Reynolds, G. S. (1975). A primer of operant conditioning (rev. ed.). Oxford, Anglaterra: Scott, Foresman.

Reynolds, G. S. (1961). Attention in the pigeon. J. Exp. Anal. Behav., 4: 203-208.

Rivera, D. M. i Smith, D. D. (1987). Influence of modeling on acquisition and generalization of computational skills: A summary of research findings from three sites. Learning Disability Quarterly, 10(1), 69-80.

Robert, M. (1990). Observational learning in fish, birds, and mammals: A classified bibliography spanning over 100 years of research. Psychol. Rec., 40(2), 289-311.

Roberts, M. C., Boone, R. R., i Wurtele, S. K. (1982). Response uncertainty and imitation: Effects of pre-experience and vicarious consequences. British Journal of Social Psychology, 09; 21(3), 223-230.

Rosenthal, T. L. i Zimmerman, B. J. (1972). Modeling by exemplification and instruction in training conservation. Dev. Psychol., 05; 6(3), 392-401.

Rosenthal, T. L. i Zimmerman, B. J. (1978). Social learning and cognition. Nova York: Academic Press.

Schuster, R. i Rachlin, H. (1968). Indifference between punishment and free shock: Evidence for the negative law of effect. J. Exp. Anal. Behav., 11(6), 777-786.

Seligman, M. E. i Johnston, J. C. (1973). A cognitive theory of avoidance learning. A F. J. McGuigan i D. B. Lumsden (Ed.), Contemporary approaches to conditioning and learning. Oxford, Anglaterra: V. H. Winston & Sons.

Sidman, M. (1953). Two temporal parameters of the maintenance of avoidance behavior by the white rat. J. Comp. Physiol. Psychol., 08; 46(4): 253-261.

Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. Oxford, Anglaterra: Appleton-Century.

Solomon, R. L. i Corbit, J. D. (1974). An opponent-process theory of motivation: I. Temporal dynamics of affect. Psychol. Rev., 03; 81(2), 119-145.

Solomon, R. L. i Wynne, L. C. (1953). Traumatic avoidance learning: acquisition in normal dogs. Psychol. Monogr., 67(4), 19-19.

Spence, K. W. (1936). The nature of discrimination learning in animals. Psychol. Rev., 09; 43(5), 427-449.

Sutherland, N. S. i Mackintosh, N. J. (1971). Mechanisms of animal discrimination learning. Nova York: Academic Press.

Symonds, M. i Hall, G. (1995). Perceptual learning in flavor aversion learning: Roles of stimulus comparison and latent inhibition of common elements. Learning and Motivation, 26, 203-219.

Thelen, M. H., Dollinger, S. J., i Kirkland, K. D. (1979). Imitation and response certainty. Journal of Genetic Psychology, 09; 135(1), 139-152.

Thelen, M. H., Paul, S. C., Dollinger, S. J., i Roberts, M. C. (1978). Response uncertainty and imitation: The interactive effects of age and task options. Journal of Research in Personality, 09; 12(3), 370-380.

Thomas, D. R. (1993). A model for adaptation-level effects on stimulus generalization. Psychol. Rev., 10; 100(4), 658-673.

Thomas, D. R. i Jones, C. G. (1962). Stimulus generalization as a function of the frame of reference. J. Exp. Psychol., 07; 64(1), 77-80.

Thomas, D. R., Mood, K., Morrison, S., i Wiertelak, E. (1991). Peak shift revisited: A test of alternative interpretations. J. Exp. Psychol.: Anim. Behav. Processes, 04; 17(2), 130-140.

Thorndike, E. L. (1911). Animal Intelligence. Experimental Studies. Oxford, Anglaterra: 1911.

Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative processes in animals. Psychol. Monogr., 06; 2(4), 1-109.

Thorpe, W. H. (1963). Learning and instinct in animals (2a ed.). Londres: Methuen.

Timberlake, W. i Allison, J. (1974). Response deprivation: An empirical approach to instrumental performance. Psychol. Rev., 03; 81(2), 146-164.

Tomie, A., Carelli, R., i Wagner, G. C. (1993). Negative correlation between tone (S) and water increases target biting during S in rats. Anim. Learn. Behav., 11; 21(4), 355-359.

Trobalon, J. B., Sansa, J., Chamizo, V. D., i Mackintosh, N. J. (1991). Perceptual learning in maze discriminations. The Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 11; 43(4), 389-402.

Ulrich, R. E. i Azrin, N. H. (1962). Reflexive fighting in response to aversive stimulation. J. Exp. Anal. Behav., 5(4), 511-520.

Warden, C. J., Fjeld, H. A., i Koch, A. M. (1940). Imitative behavior in cebus and rhesus monkeys. Journal of Genetic Psychology, 56, 311-322.

Weisman, R. G. i Litner, J. S. (1969). Positive conditioned reinforcement of Sidman avoidance behavior in rats. J. Comp. Physiol. Psychol., 08; 68(4), 597-603.

Williams, B. A. (1975). The blocking of reinforcement control. J. Exp. Anal. Behav., 09; 24(2), 215-226.

Wyrwicka, W. (1978). Imitation of mother's inappropriate food preference in weanling kittens. Pavlov. J. Biol. Sci., 13(2), 55-72.

Zimmerman, B. J. i Blom, D. E. (1983). Toward an empirical test of the role of cognitive conflict in learning. Developmental Review, 03; 3(1), 18-38.