Saltar al contenido principal

Técnicas operantes

Conceptualización

Las técnicas operantes o técnicas de control de contingencias constituyen uno de los pilares básicos de la Terapia de Conducta. Sus fundamentos teóricos y empíricos los desarrolló Skinner (1953) bajo la influencia de las teorías de Pavlov sobre el condicionamiento clásico y de la Ley del Efecto formulada por Thorndike. A finales de los años 50 y principios de los 60, los métodos del condicionamiento operante se extendieron a la conducta humana fuera del laboratorio, dando lugar al análisis conductual aplicado.

Las conductas son operantes en la medida en que operan o influyen sobre el ambiente, y se fortalecen o debilitan en función de las consecuencias que les siguen. Los principios derivados del condicionamiento operante han generado numerosas técnicas vigentes hoy, agrupables en tres bloques:

  • Técnicas que sirven para adquirir, mantener o incrementar conductas
  • Técnicas dirigidas a reducir o eliminar conductas, y
  • Sistemas de organización de contingencias: economía de fichas, contratos, control de estímulos.

Fundamentos teóricos

Skinner y el condicionamiento operante

Burrhus Frederic Skinner (1904-1990) es considerado el psicólogo más influyente del siglo XX. Conductista por excelencia, consideraba la conducta como único objeto de estudio científico de la psicología, función de la historia de contingencias ambientales. Sus investigaciones fueron pioneras en psicología experimental y formularon los principios del condicionamiento operante, base del análisis experimental del comportamiento como ciencia natural de la conducta.

Según la Ley del Efecto de Thorndike, las respuestas seguidas (contigüidad) de consecuencias reforzantes se asociarán al estímulo y tendrán mayor probabilidad de ocurrir cuando el estímulo vuelva a aparecer.

Conceptos clave

El esquema básico es Estímulo → Respuesta → Consecuencias (E-R-C):

  • Respuesta operante: conducta emitida libremente por un sujeto que produce unas consecuencias en el medio, las cuales a su vez pueden controlar dicha conducta.
  • Antecedentes: situaciones en las que ocurre una conducta particular.
  • Consecuencias: impacto que tiene la conducta sobre las relaciones sociales o el entorno.
  • Contingencia: relación probabilística entre la conducta, sus antecedentes y sus consecuencias; la consecuencia aparece asociada a la conducta y no de forma independiente.
  • Control de estímulos: las consecuencias siguen a la conducta solo en presencia de unos estímulos antecedentes y no de otros.

Estímulos antecedentes

Los estímulos antecedentes informan al sujeto de las contingencias de reforzamiento vigentes:

  • Estímulo discriminativo (E^d^): estímulo presente en las situaciones en las que la conducta operante ha sido reforzada. Adquiere valor discriminativo y favorece la aparición de la conducta (señala la probabilidad de reforzamiento).
  • Estímulo delta (E^Δ^): estímulo antecedente asociado a la ausencia de reforzador (o presente cuando la respuesta ha sido sometida a extinción o castigo). Favorece la inhibición de la conducta.

Principios básicos

PrincipioProcedimiento y efecto
ReforzamientoPresentación de un estímulo positivo o retirada de uno negativo tras una respuesta que, a consecuencia de ello, incrementa su frecuencia o probabilidad
CastigoPresentación de un estímulo negativo o retirada de uno positivo tras una respuesta que, a consecuencia de ello, reduce su frecuencia o probabilidad
ExtinciónDejar de reforzar una conducta previamente reforzada, lo cual disminuye su frecuencia
Control de estímulosReforzar una conducta en presencia de un estímulo pero no en presencia de otros

Matriz contingencia × consecuencia

Combinando el tipo de contingencia (positiva = presentación; negativa = retirada; discontinuidad) con la naturaleza del estímulo (apetitivo / aversivo) se obtienen los seis procedimientos operantes básicos:

ContingenciaEstímulo apetitivoEstímulo aversivo
Positiva (presentación)Reforzamiento positivo (↑ conducta)Castigo positivo (↓ conducta)
Negativa (retirada)Castigo negativo (↓ conducta)Reforzamiento negativo (↑ conducta)
DiscontinuidadExtinción (↓ conducta)Recuperación (↑ conducta)

Refuerzo, reforzamiento y reforzador

  • Refuerzo: proceso de aprendizaje que tiene que ver con el aumento de la probabilidad de la conducta por su asociación con un cambio estimular tras su emisión.
  • Reforzamiento: procedimiento mediante el cual las consecuencias producen el aprendizaje (aumento de probabilidad). Puede ser positivo (introducción de un estímulo placentero) o negativo (retirada de un estímulo aversivo).
  • Reforzador: estímulo concreto (tangible, simbólico, etcétera) que se utiliza para producir el reforzamiento positivo o negativo.

Tipos de reforzadores

  • Por el origen:
    • Primarios: valor incondicionado o innato.
    • Secundarios: estímulos neutros que adquieren valor por asociación.
    • Generalizados: reforzadores condicionados que permiten acceder a otros reforzadores.
  • Por su naturaleza:
    • Materiales o tangibles: entidad física.
    • Sociales: interpersonales, lenguaje verbal y no verbal.
    • De actividad: conductas placenteras (Principio de Premack).
  • Por el proceso:
    • Extrínsecos: reforzamiento abierto y observable.
    • Intrínsecos: encubierto.
  • Por el administrador:
    • Externos: aplicados por otra persona.
    • Autorreforzadores: autoaplicados.
  • Por el receptor:
    • Directos: el sujeto recibe el reforzador.
    • Vicarios: observa cómo otro lo recibe.
  • Por su programación:
    • Naturales: alta probabilidad de presentarse en el ambiente.
    • Artificiales: se aplican bajo condiciones específicas.

Reforzadores primarios

Su valor reforzante suele estar asociado a necesidades básicas (comida, bebida). No siempre mantienen su valor reforzante: varía según las necesidades del individuo (si se tiene hambre, la comida opera como reforzador potente; si se está saciado, no).

Reforzadores sociales

Son las muestras de atención, valoración, aprobación y reconocimiento que recibe una persona por la realización de una conducta. Spiegler y Guevremont (2010) resaltan cuatro ventajas:

  1. Son fáciles de administrar (basta una persona).
  2. No tienen coste económico.
  3. Pueden administrarse inmediatamente tras la conducta.
  4. Son refuerzos naturales que se reciben habitualmente, por lo que la conducta puede mantenerse incluso cuando haya alcanzado los niveles deseados.

Principio de Premack

Premack (1965): si existen dos respuestas en el repertorio de un individuo, una de alta probabilidad y otra de baja probabilidad, puede utilizarse la primera como reforzador de la segunda (por ejemplo, recoger el cuarto antes de merendar).

Caso aplicado: Activación conductual en depresión (Lewinsohn)

La activación conductual derivada del modelo de Lewinsohn (1974)1 aplica directamente los principios operantes y el Principio de Premack al tratamiento de la depresión: el bajo estado de ánimo se mantiene porque la persona ha reducido drásticamente el contacto con reforzadores positivos contingentes a la respuesta.

El procedimiento sigue tres pasos.

  1. Primero, el paciente elabora una lista de actividades agradables mediante autorregistro o instrumentos como el Pleasant Events Schedule (pasear, llamar a un amigo, escuchar música, cocinar).
  2. Segundo, se construye una jerarquía de activación ordenando esas actividades de menor a mayor coste (de «hacer la cama» a «quedar con un grupo»).
  3. Tercero, se programan semanalmente dos o tres actividades de baja dificultad y se utilizan actividades de alta probabilidad (ducharse, tomar café) como reforzadores Premack de las de baja probabilidad (salir a caminar).

El objetivo es restablecer el contacto del paciente con el reforzamiento natural, lo que rompe el círculo de inactividad → anhedonia → más inactividad. Es uno de los componentes esenciales de la terapia cognitivo-conductual para la depresión y, en su versión breve (BA, Martell, Dimidjian y Herman-Dunn, 2010), ha mostrado eficacia equivalente a la TC de Beck.

Variables que influyen en la efectividad de los reforzadores

Características del reforzador

  • Tasa de reforzamiento: cantidad de veces que se suministra el reforzador por unidad de tiempo. A mayor tasa, mayor tasa de respuesta operante.
  • Cantidad: en general, cantidades mayores mantienen tasas de respuesta más altas.
  • Calidad: los reforzadores de mayor calidad son preferidos a los de menor calidad y son más efectivos.

Contingencias

Una contingencia de reforzamiento se define como la diferencia entre la probabilidad de que una conducta sea seguida por un determinado reforzador y la probabilidad de que ese mismo reforzador sea dispensado en ausencia de dicha conducta. Para que el reforzador sea eficaz, la primera probabilidad debe ser mayor que la segunda, deseablemente con la segunda igual a 0.

Contigüidad

  • Descuento por demora (delay discounting): la efectividad de un reforzador disminuye a medida que se demora su disponibilidad después de la conducta.
  • Asociado a problemas de adicciones y control de impulsos; es una medida de impulsividad.
  • Si el reforzador a largo plazo se incrementa mientras que el ofrecido a corto plazo se reduce, es probable que la persona impulsiva opte por el refuerzo a largo plazo, incrementándose así el autocontrol.

Operaciones de motivación

Son eventos contextuales, procedimientos o condiciones estimulares que afectan al organismo alterando temporalmente la efectividad reforzadora de otros eventos y la frecuencia de ocurrencia de la conducta. Establecer una operación lleva a incrementar la efectividad del reforzador y eliminarla a disminuirla. La deprivación de un estímulo incrementa su efectividad como reforzador; la saciación, la disminuye.

Técnicas para adquirir, mantener o incrementar conductas

Reforzamiento positivo y negativo

  • Reforzamiento positivo: introducción de un estímulo apetitivo o placentero tras la conducta, lo que incrementa su probabilidad. Un estímulo agradable solo se considera reforzador positivo si se observa que incrementa la conducta a la que sigue: no es sinónimo de recompensa o premio.
  • Reforzamiento negativo: incremento de la probabilidad de la conducta al retirar un estímulo aversivo inmediatamente después de su emisión. El reforzador negativo se define igualmente por su capacidad para incrementar la conducta a la que es contingente.

El reforzamiento negativo presenta dos modalidades según el momento temporal en que opera el estímulo aversivo:

  • Reforzamiento negativo de escape: la conducta elimina un estímulo aversivo que ya estaba presente (por ejemplo, tomar una aspirina elimina el dolor de cabeza que ya se padecía).
  • Reforzamiento negativo de evitación: la conducta impide que aparezca un estímulo aversivo anticipado (por ejemplo, abrigarse antes de salir a la calle para no pasar frío; estudiar para evitar suspender).
Diferencia clave — reforzamiento negativo vs. castigo

No es lo mismo reforzamiento negativo que castigo. El castigo se emplea para eliminar respuestas disruptivas o socialmente rechazadas; el reforzamiento negativo se utiliza para incrementar conductas deseadas o aceptadas socialmente pero que se dan con poca frecuencia. La principal desventaja del reforzamiento negativo es que debe estar presente un estímulo aversivo, lo que puede generar efectos colaterales de escape, evitación o agresividad.

Pregunta

Una madre le dice a su hijo que si aprueba todo el curso académico le exime de bajar la basura durante un mes, porque bajar la basura le resulta muy desagradable. ¿Está aplicando castigo negativo?

Programas de reforzamiento

Los programas de reforzamiento son las reglas que describen cómo se administra el reforzador una vez emitida la conducta. Existen dos tipos básicos:

  • Reforzamiento continuo (CRF): cada emisión de la conducta es reforzada. Es el más eficaz para la adquisición o instauración de nuevas conductas porque acelera el aprendizaje, pero produce rápida extinción cuando se retira el reforzador.
  • Reforzamiento intermitente: solo algunas emisiones de la conducta son reforzadas. Es el más eficaz para el mantenimiento y la generalización, ya que las conductas adquiridas con reforzamiento intermitente son mucho más resistentes a la extinción. Tiene dos criterios principales: programas de razón (atendiendo al número de respuestas) y programas de intervalo (atendiendo al tiempo transcurrido), cada uno con variantes fijas y variables.

Los cuatro programas básicos de reforzamiento intermitente

ProgramaCriterioPatrón de respuestaResistencia a la extinciónEjemplo
Razón Fija (RF)Refuerzo tras un número fijo de respuestas (RF-10 = cada 10 respuestas)Tasa alta y constante, con pausa post-reforzamientoModeradaCobrar a destajo (cada 100 piezas fabricadas)
Razón Variable (RV)Refuerzo tras un número variable de respuestas alrededor de un promedioTasa muy alta y sostenida, sin pausas — la persona no sabe cuándo llegará el refuerzoMuy alta (la más resistente)Máquinas tragaperras; pedir las cosas «por favor» y ser atendido en la 1.ª, 3.ª, 8.ª, 9.ª, 15.ª… ocasión
Intervalo Fijo (IF)Refuerzo de la primera respuesta tras un lapso temporal fijo (IF-5 min)Tasa baja al inicio del intervalo y aceleración conforme se acerca el final («festoneado» o scallop)Baja-moderadaMirar el buzón cuando se sabe la hora del cartero; cobrar el sueldo a fin de mes
Intervalo Variable (IV)Refuerzo tras un intervalo variable alrededor de un promedioTasa moderada y muy estableAltaComprobar cada cierto tiempo si el niño está estudiando (promedio 15 min)

Para iniciar una conducta nueva, refuerzo continuo (o de intervalo fijo según el manual); para mantener una conducta ya adquirida, refuerzo intermitente variable (previene la saciación y mantiene la motivación). El paso de continuo a intermitente debe hacerse de forma progresiva y gradual.

Los programas de intervalo pueden además clasificarse en intervalo simple (se refuerza la primera respuesta tras el lapso), de margen limitado (existe un margen finito de tiempo en el que el refuerzo está disponible) y de duración (el refuerzo se produce después de que la conducta haya persistido un tiempo determinado). Los distintos programas pueden además combinarse entre sí.

Pregunta

Las máquinas tragaperras ofrecen el premio en torno a un promedio de cada 15 tiradas (por ejemplo, cada 12, 16, 18, 20 tiradas). ¿Siguen un programa de reforzamiento intermitente de razón variable?

Moldeamiento (shaping)

El moldeamiento o aprendizaje por aproximaciones sucesivas consiste en reforzar diferencialmente las respuestas cada vez más parecidas a la conducta-meta, mientras se extinguen las respuestas previas que no se asemejan al objetivo. Se parte de una conducta que el sujeto ya emite (o que se asemeja a algún componente de la conducta final) y, mediante refuerzo selectivo, se acerca progresivamente al objetivo final.

Se puede moldear sobre cualquiera de las cuatro dimensiones de la conducta:

  • Topografía: configuración espacial o forma de la respuesta (por ejemplo, aprender a coger una cuchara).
  • Cantidad: frecuencia o duración de la conducta (vestirse cada vez con mayor rapidez, caminar todos los días, estudiar cada vez más horas).
  • Latencia: tiempo transcurrido entre la aparición de un estímulo y la emisión de la respuesta (tardar cada vez menos en vestirse).
  • Intensidad: fuerza física que requiere la respuesta (levantar cada vez más peso).

Pasos para aplicar correctamente el moldeamiento

  1. Definir de forma objetiva y precisa la conducta-meta, incluyendo todos los elementos que la componen.
  2. Evaluar el nivel de ejecución real del sujeto.
  3. Seleccionar la conducta inicial que servirá de punto de partida (ya presente en el repertorio).
  4. Definir las conductas intermedias o pasos hacia la conducta final.
  5. Determinar el tamaño de cada paso y el tiempo de permanencia en él (criterio progresivamente más exigente).
  6. Seleccionar los reforzadores que se utilizarán.
  7. Reforzar diferencialmente las aproximaciones más cercanas a la conducta-meta.
  8. Extinguir las fases anteriores cuando se consolida una nueva aproximación.

Se aplica para habilidades motoras, deportivas, verbales o intelectuales (en niños: hablar, caminar, comer, vestirse; en adultos: hábitos de estudio, solución de problemas, hábitos de higiene, habilidades sociales), en educación especial, biofeedback de rehabilitación o disfunciones sexuales.

Encadenamiento (chaining)

El encadenamiento crea una conducta compleja vinculando secuencialmente eslabones o conductas simples ya presentes en el repertorio del sujeto, mediante el reforzamiento de sus combinaciones. En el proceso, cada conducta funciona como estímulo discriminativo (E^d^) para la siguiente y como reforzador condicionado de la anterior, de modo que la cadena se mantiene aunque solo se entregue el reforzador primario al final.

Existen tres modalidades principales (Martin y Pear, 1999):

ModalidadProcedimientoIndicación preferente
Presentación de la tarea totalSe muestra la secuencia completa y se entrena al sujeto en todos los pasos en cada ensayo, desde el primero hasta el último, con reforzador al finalConductas sencillas o cuando el sujeto puede ejecutar todos los pasos con ayudas
Encadenamiento hacia delante (anterógrado)Se enseña primero el paso 1 y se refuerza; luego paso 1 + 2; luego 1 + 2 + 3; y así hasta completar la cadenaSigue el orden natural de la conducta
Encadenamiento hacia atrás (retrógrado o en retroceso)Se ayuda al sujeto a realizar todos los pasos excepto el último, que debe ejecutar solo (recibe el reforzador). Una vez consolidado el último paso, se añaden los anteriores en dirección al inicioEl más utilizado: el reforzador queda muy próximo a la conducta y el aprendizaje suele ser más rápido

Una vez consolidada la cadena (cerca del 80 % de ejecución correcta), se pasa a reforzamiento intermitente y se va retirando el programa. Se aplica en habilidades de autonomía doméstica (vestido, higiene, alimentación), desarrollo de la fluidez verbal, instrucción académica, recondicionamiento orgásmico o tareas que requieren cooperación entre varias personas.

Pregunta

El encadenamiento se utiliza para suprimir conductas.

Diferencias entre moldeamiento y encadenamiento

AspectoMoldeamientoEncadenamiento
Conducta finalNueva conducta en alguna dimensión física (topografía, frecuencia, latencia, intensidad); las conductas intermedias no se consideran finalesSecuencia compuesta por varios eslabones necesarios; todos los pasos forman parte de la conducta final
ProcedimientoNo requiere un ambiente estructurado; se aplica siempre hacia delanteRequiere un ambiente estructurado o semiestructurado; puede aplicarse hacia delante o hacia atrás
InstigadoresPueden usarse pero son mínimosSe utilizan con frecuencia (verbales, físicos, guía física, atenuación)
ExtinciónImplica la aplicación sucesiva de reforzamiento y extinción de las aproximaciones previasNormalmente requiere menos ensayos de extinción que el moldeamiento

Desvanecimiento (fading) e instigación-atenuación

El desvanecimiento o atenuación es el procedimiento sistemático de introducción de ayudas o instigadores para que el sujeto emita la conducta (fase aditiva) y posterior retirada gradual de esos apoyos una vez consolidada (fase sustractiva). El objetivo es que la conducta se mantenga en ausencia del instigador y bajo el control del estímulo discriminativo natural.

Los instigadores son estímulos antecedentes que ayudan a iniciar o ejecutar la respuesta:

  • Verbales (instrucciones, órdenes, reglas sociales).
  • Gestuales (señales, modelos).
  • Físicos o de guía manual (guiar las manos del niño).
  • Ambientales (disposición del entorno).

El desvanecimiento puede llevarse a cabo de tres maneras:

  • Disminuyendo la intensidad del instigador (de guía física a verbal, de verbal a gestual).
  • Demorando la ayuda o disminuyendo su extensión.
  • Con transferencia de un estímulo a otro: se presentan el E^d^ inicial y el E^d^ meta juntos; se aumenta gradualmente la intensidad del E^d^ meta y se disminuye la del E^d^ inicial, hasta que la respuesta sea evocada solo por el E^d^ meta.

El instigador se utiliza tanto en el moldeamiento como —sobre todo— en el encadenamiento, y puede constituir por sí mismo un procedimiento de intervención (por ejemplo, las órdenes, instrucciones y reglas sociales que guían determinadas conductas).

Ejemplo en un niño con TEA

Para enseñar a un niño con trastorno del espectro autista a vestirse de forma autónoma, el clínico combina las tres técnicas. Moldeamiento: se refuerza con un comestible y elogio social la conducta «coger la camiseta», después «meter la cabeza», luego «meter un brazo», etc., aproximaciones cada vez más cercanas a la conducta-meta. Encadenamiento inverso: el adulto realiza casi toda la secuencia (poner camiseta, sacar la cabeza, sacar un brazo) y se le pide al niño que ejecute solo el último eslabón (bajar la camiseta), reforzándolo al hacerlo; en sesiones sucesivas se añade un eslabón hacia atrás. Desvanecimiento: los instigadores físicos iniciales (guiar las manos) se sustituyen por instigadores verbales («ahora la cabeza») y estos, finalmente, por la mera presencia de la camiseta sobre la cama por la mañana.

Técnicas para reducir o eliminar conductas

Las técnicas reductoras deben aplicarse según un criterio de mínima intrusividad, comenzando por las menos aversivas:

Extinción → Reforzamiento diferencial → Coste de respuesta → Tiempo fuera → Saciación → Sobrecorrección → Castigo positivo

Extinción

Consiste en suprimir el reforzamiento de una conducta previamente reforzada. Es eficaz pero lento. Puede producir:

  • Estallido de extinción: incremento inicial en la frecuencia e intensidad de la conducta indeseada y variaciones importantes en su topografía.
  • Agresión inducida por la extinción: aumento de comportamientos agresivos o emocionales al implantar el procedimiento.
  • Recuperación espontánea: la conducta puede reaparecer tras un lapso de tiempo.

Variables que influyen en su eficacia: el programa de reforzamiento previo (la extinción es más rápida con reforzamiento continuo), la cantidad y tiempo del reforzamiento anterior, el esfuerzo necesario para emitir la respuesta y el uso combinado con refuerzo de conductas alternativas.

Recomendaciones para aplicar la extinción

  • Uso combinado con reforzamiento positivo de conductas alternativas.
  • Identificar el reforzador o reforzadores que mantiene la conducta y poder manipularlo.
  • La extinción debe ser constante, no intermitente.
  • Prevenir sobre: el incremento inicial, las posibles respuestas emocionales y la recuperación espontánea.
  • No utilizar la extinción como única técnica si se desea un cese inmediato de la conducta.

Pregunta

Un profesor altera continuamente las reuniones de departamento con quejas e imprecaciones. Sus compañeros, que hasta ahora intentaban hacerle 'entrar en razón', deciden no hacerle caso cuando emita estas conductas para no reforzárselas. ¿Están aplicando la técnica de desvanecimiento?

Reforzamiento diferencial

Procedimiento para eliminar o reducir conductas evitando su reforzamiento y, a cambio, reforzando conductas alternativas. Tipos:

  • RDI (Reforzamiento Diferencial de Conductas Incompatibles): reforzar una conducta físicamente incompatible con la conducta a eliminar (ambas no pueden ocurrir al mismo tiempo). Por ejemplo, reforzar mantener las manos sobre la mesa para eliminar arrancarse el pelo.
  • RDA (Reforzamiento Diferencial de Conductas Alternativas): cuando no es posible encontrar respuestas incompatibles, se refuerzan conductas alternativas que compiten con la conducta-problema sin ser incompatibles con ella.
  • RDE (Reforzamiento Diferencial de Conductas Funcionalmente Equivalentes): refuerzo de conductas alternativas que permiten alcanzar las mismas metas que la conducta-problema pero de forma más adecuada o adaptativa (por ejemplo, enseñar a pedir atención de forma verbal en lugar de hacerlo con rabietas).
  • RDTB (Reforzamiento Diferencial de Tasas Bajas): se utiliza cuando la frecuencia de la conducta inadecuada es muy alta o hay pocas conductas alternativas. No busca eliminar la respuesta sino reducirla, por lo que es útil para conductas adaptativas a una intensidad adecuada (por ejemplo, intervenir en clase con moderación). Sus tres variantes son:
    • RDTB de respuesta espaciada: se refuerza la conducta si se distancia de la emisión anterior por un tiempo mínimo (se refuerza el periodo entre respuestas).
    • RDTB de intervalo: se refuerza al final del intervalo si se emiten menos de un número determinado de respuestas durante ese intervalo.
    • RDTB de respuesta limitada o de sesión completa: el reforzador se administra al final de la sesión si el total de respuestas no supera el número especificado.
  • RDO (Reforzamiento Diferencial de Otras Conductas) o entrenamiento de omisión o reforzamiento diferencial de respuesta cero: se refuerza cualquier conducta que emita el individuo excepto la inapropiada (se refuerza la ausencia de respuesta durante un intervalo). Produce cambios rápidos y duraderos, pero existe el riesgo de reforzar conductas indeseables distintas a la conducta-problema.

El entrenamiento en reacción de competencia o inversión del hábito (Azrin y Nunn, 1987) es una extensión del RDI y constituye actualmente el tratamiento de elección en tics, tricotilomanía y onicofagia. Implica aprender a emitir una respuesta físicamente incompatible con el hábito nervioso. Sus cinco componentes son:

  1. Revisión de la inconveniencia del hábito.
  2. Entrenamiento en la conciencia del hábito.
  3. Entrenamiento en una respuesta que compita con el hábito.
  4. Apoyo social.
  5. Generalización del procedimiento.

De todos los componentes, la conciencia del hábito y el entrenamiento en respuesta incompatible parecen ser los elementos críticos.

Caso aplicado: Habit Reversal Training en tricotilomanía

Una paciente de 22 años acude por tricotilomanía (arrancamiento del cabello del cuero cabelludo) con áreas alopécicas visibles. El entrenamiento en inversión del hábito de Azrin y Nunn (1973)2 se aplica en cinco bloques.

  1. Revisión de la inconveniencia: la paciente enumera los costes del hábito (vergüenza, evitar piscinas, ocultar zonas con maquillaje).
  2. Conciencia del hábito: durante una semana lleva un autorregistro con la situación antecedente (estudiar de noche, ver televisión sola), las sensaciones pre-arrancamiento (picor, tensión en el cuero cabelludo) y la cadena motora completa (mano sube → tacto del cabello → tirón).
  3. Respuesta competitiva: cuando detecta el impulso o el inicio de la cadena, aprieta los puños sobre los muslos durante 60 segundos —respuesta físicamente incompatible, discreta socialmente y de fácil ejecución—.
  4. Apoyo social: la pareja le señala con una palabra clave neutra cuando le ve la mano cerca del pelo y la refuerza verbalmente cuando aplica la respuesta competitiva.
  5. Generalización: la paciente practica simbólicamente el procedimiento en distintos contextos (estudio, sofá, coche).

En seis a ocho semanas el HRT muestra reducciones del 75-90% en estudios controlados, manteniéndose en seguimiento de seis meses.

Castigo

Reduce la frecuencia futura de una conducta cuando, tras su emisión, se presenta un estímulo aversivo (castigo positivo) o se retira un estímulo positivo (castigo negativo). Solo se considera castigo si efectivamente se reduce la frecuencia.

Castigo positivo

Los estímulos aversivos pueden ser primarios o incondicionados (dolor físico, ruidos fuertes, productos químicos) o secundarios o condicionados (gestos, descalificaciones, insultos verbales). El carácter aversivo y el grado de malestar dependen de diferencias individuales, situación, agente, presencia de terceros y conducta que se pretende reducir.

El estímulo aversivo puede aplicarse de forma real, imaginada o encubierta (condicionamiento encubierto de Cautela) o de manera encubierta complementada (en imaginación añadiendo algún componente real). Los principales tipos de estímulos aversivos utilizados son: gustativos y químicos (eméticos como apomorfina, emetina o disulfiram, jugo de limón → alcoholismo, tabaquismo), eléctricos (descargas breves de 70-100 V → conductas agresivas, adicciones, sobreingesta), táctiles (goma elástica en la muñeca → pensamientos rumiativos, obsesiones), auditivos (ruido blanco, retroalimentación auditiva demorada → tartamudez), olfativos (bencilamina, ácido butírico → obesidad, parafilias), bloqueo facial (pantalla, autoagresión, tricotilomanía) y cognitivos (inducción de vergüenza → parafilias, exhibicionismo).

Efectos indeseados del castigo positivo

Su uso es polémico porque tiene connotaciones agresivas y, aplicado de forma inadecuada, puede producir: (a) deterioro de la relación entre la persona que lo recibe y quien lo aplica; (b) generalización a otros estímulos del contexto (por ejemplo, la escuela entera se vuelve aversiva); (c) conductas de huida o escape, incluido el abandono del tratamiento; (d) incremento de alguna conducta indeseada si va asociado a un reforzador (atención adulta); (e) modelado de la conducta castigadora; y (f) efecto sobre la autoestima del sujeto. Para aplicarlo con garantías debe especificarse la conducta castigada, aplicarse de forma intensa desde el principio (no gradual, por el riesgo de habituación), ser contingente, inmediato y consistente, no acompañarse de periodos largos de castigo, y combinarse siempre con reforzamiento positivo de una conducta alternativa.

Castigo negativo

El castigo negativo supone la retirada de consecuencias apetitivas. Sus dos modalidades clásicas son:

  • Coste de respuesta: retirada contingente de un reforzador positivo previamente entregado (por ejemplo, perder fichas o puntos). Su eficacia depende de la magnitud del reforzador retirado; debe aplicarse rápidamente, suponer una pérdida importante desde el primer momento (no aumentarse de forma gradual, que produciría adaptación) y combinarse con reforzamiento positivo de la conducta alternativa. Un subtipo es la prima del coste de respuesta: se entregan inicialmente reforzadores adicionales que se irán restando si aparece la conducta inadecuada.
  • Tiempo fuera de reforzamiento (TFR): retirada temporal del acceso a las fuentes de reforzamiento. Existen tres subtipos:
    • Tiempo fuera de aislamiento: se saca al sujeto fuera de la situación reforzante.
    • Tiempo fuera de exclusión: el sujeto permanece en el mismo lugar pero sin observar a los demás ni acceder al reforzador.
    • Tiempo fuera de no exclusión u observacional: igual que el anterior pero pudiendo observar a los demás teniendo acceso al reforzador.

Una variación especial es la «pantalla facial» de Lutzker (1978), indicada para conductas autoestimulatorias o autolesivas: cuando aparece la conducta, se le dice «NO» al sujeto y se le coloca una pantalla cubriéndole cara y cabeza durante 3-5 segundos desde que cesa la conducta.

Pregunta

A un niño le damos inicialmente 10 estrellas y cada vez que se porta mal en clase le vamos retirando 1 estrella. ¿Estamos aplicando la prima del coste de respuesta?

Pregunta

La retirada de puntos del carnet de conducir por cometer una infracción de tráfico es un ejemplo de coste de respuesta como procedimiento de castigo.

Condiciones para que el tiempo fuera sea efectivo (Spiegler y Guevremont, 2010)
  • La persona debe ser consciente de las razones por las que se le aplica el TFR y conocer su duración.
  • La duración debe ser breve: con niños menores de 5 años, 5 minutos o menos; con mayores, el criterio más utilizado es un minuto por cada año de edad.
  • No debe haber ningún reforzador presente durante el TFR.
  • No debe terminar hasta cumplirse el tiempo establecido y solo cuando el niño se está comportando adecuadamente (si se interrumpe mientras grita, esa conducta queda reforzada negativamente).
  • El TFR no debe servir como escape de una situación desagradable (por ejemplo, una tarea aburrida), pues se convertiría en reforzamiento negativo de la conducta-problema.

Aspectos para la aplicación del castigo (Spiegler y Guevremont, 2010)

  1. Debe ocurrir inmediatamente tras la conducta inadecuada.
  2. Debe administrarse cada vez que ocurre (el castigo continuo es mucho más efectivo que el intermitente).
  3. La persona debe ser consciente de la contingencia.
  4. El reforzamiento no debe administrarse muy a continuación del castigo (puede contrarrestar su efecto y reforzar la conducta inadecuada).
  5. Debe ir precedido por un aviso de advertencia para producir asociación entre conducta y consecuencia.

Sobrecorrección

La sobrecorrección exige al sujeto, tras emitir la conducta inadecuada, compensar en exceso sus consecuencias. Se distinguen dos modalidades, que pueden aplicarse por separado o combinadas:

  • Sobrecorrección restitutiva: corregir los efectos negativos de la conducta inadecuada, restaurando el ambiente a un estado mejor del que existía antes. Por ejemplo, a un niño que pinta sobre una pared se le pide no solo que borre su pintada, sino que limpie toda la pared.
  • Sobrecorrección de práctica positiva: practicar repetidamente, incluso de forma exagerada, una conducta adaptativa apropiada. Continuando con el ejemplo anterior, el niño deberá escribir en un papel una serie de normas sobre el cuidado del mobiliario.

A diferencia del castigo, la sobrecorrección cumple una función educativa porque incluye el entrenamiento en conductas alternativas o incompatibles. Es especialmente eficaz en conductas agresivas, enuresis, conductas poco cívicas o faltas de modales, y reduce al máximo las desventajas del castigo positivo enseñando a la vez la conducta adecuada.

Pregunta

A una joven la condenan, por hacer un dibujo en una persiana sin consentimiento del dueño, a limpiar las persianas de todo el barrio. ¿Es un ejemplo de sobrecorrección restitutiva?

Saciación

La saciación se basa en la pérdida del valor reforzante del estímulo o de la respuesta cuando estos se presentan de forma masiva. Fue utilizada por primera vez por Ayllon y Michael (1959) para eliminar comportamientos desadaptativos en personas hospitalizadas con esquizofrenia crónica. Existen dos modalidades:

ModalidadProcedimientoCaracterísticas
Saciación del estímulo (Ayllon, 1959)Se proporciona el reforzador que mantiene la conducta en tal cantidad o durante tanto tiempo que pierde su valor de recompensaRequiere identificar el reforzador. Útil cuando es barato y fácil de suministrar (especialmente reforzadores materiales). Menos útil si la conducta se mantiene por reforzadores múltiples o sociales
Saciación de respuesta o práctica masiva o negativa (Dunlap, 1932)El sujeto emite de forma recurrente y masiva la conducta que se desea eliminar hasta que se hace aversivaNo requiere identificar el reforzador. Útil en conductas que llevan implícito el refuerzo

Aplicaciones: tics, tartamudez, conductas de atesoramiento, encender cerillas (en niños pequeños) y programas para dejar de fumar (fumar rápido, retención del humo, saciación del gusto).

Sus efectos son inmediatos pero temporales (la conducta tiende a recuperar su atractivo), por lo que se utiliza para establecer un «periodo temporal de seguridad» que permita desarrollar conductas más adaptadas. No es aplicable si la respuesta es peligrosa (autolesiones, agresiones), y no se recomienda como técnica única: debe combinarse con reforzamiento de conductas alternativas.

Sistemas de organización de contingencias

Economía de fichas

Sistema motivacional combinado, desarrollado por Ayllon y Azrin (1968)3 para motivar a pacientes con patología mental crónica institucionalizados. Utiliza reforzadores condicionados generalizados (fichas, puntos, tickets) que el sujeto canjea posteriormente por reforzadores de apoyo. Se utiliza principalmente en instituciones (centros educativos, residencias, unidades de hospitalización), pero también en el ámbito familiar. Permite:

  • Reforzar de forma inmediata (entrega de la ficha) sin que la conducta dependa del valor concreto del reforzador final.
  • Conectar conductas distintas a un sistema motivacional unificado.
  • Establecer un programa estructurado de objetivos y refuerzos negociado con el paciente.
  • Aplicarse a grupos, estandarizar un ambiente y cuantificar la entrega de refuerzos.
  • Incorporar también coste de respuesta o tiempo fuera de gasto de fichas para reducir conductas-problema.

Los componentes concretos de un programa de economía de fichas son: (1) lista de las conductas específicas que se pretende modificar; (2) número de fichas que se pueden ganar por cada comportamiento; (3) menú de reforzadores de apoyo por los que se pueden intercambiar las fichas, procurando variedad; y (4) reglas claras sobre cuándo se entregan las fichas, cuántas fichas se pierden (en su caso) por cada conducta inadecuada, cuándo y dónde se canjean y el ratio o tasa de canje (cuántas fichas equivalen a cada reforzador de apoyo).

El programa se desarrolla en dos fases:

  1. Fase de implantación: identificación de las conductas objetivo, elección del tipo de fichas, selección de reforzadores de apoyo, establecimiento de las condiciones de canje, sistemas de penalización (si los hubiere) y registro para contabilizar las fichas. Inicialmente las fichas se entregan con alta frecuencia y baja demora y son fácilmente canjeables.
  2. Fase de desvanecimiento: progresivamente se aumenta el tiempo entre entregas, se incrementa el criterio para el canje, se reduce el número de fichas ganadas por conducta o se aumenta el número de fichas necesarias para obtener un reforzador. El objetivo es transferir el valor reforzante de las fichas al reforzamiento natural y social del entorno.

La supervisión continua del programa es imprescindible: se revisa periódicamente el valor de canje, se reorganizan los reforzadores ante saciación y se ajustan las contingencias según evoluciona la conducta. Sin un proceso adecuado de desvanecimiento, la conducta tiende a mantenerse solo mientras dure el programa.

Caso aplicado — Economía de fichas en una unidad de hospitalización

En una unidad de agudos de psiquiatría se implanta un programa para incrementar la autonomía de los pacientes con esquizofrenia crónica (programa inspirado en Paul y Lentz, 19774). Las conductas-objetivo se definen operativamente: levantarse antes de las 9:00 (2 fichas), asearse de manera autónoma (3 fichas), acudir a la terapia grupal (5 fichas), participar verbalmente en ella (2 fichas adicionales), hacer la cama (1 ficha). El menú de reforzadores de apoyo se construye con los propios pacientes: 5 fichas = café con leche extra; 10 fichas = 30 minutos de televisión en zona común; 20 fichas = salida acompañada al jardín; 40 fichas = visita ampliada de familiares. Las reglas son explícitas: las fichas se entregan inmediatamente después de la conducta por el personal de enfermería, se canjean en el «economato» tres veces al día y se aplica coste de respuesta (retirada de 3 fichas) ante agresiones verbales. A las 6-8 semanas se introduce un proceso de desvanecimiento: las fichas dan paso a un sistema de puntos semanal y, finalmente, al reforzamiento social natural.

Caso aplicado — Economía de fichas en el aula

Una maestra de 1.º de primaria implanta un programa para incrementar el tiempo en tarea y reducir las interrupciones. Cada alumno tiene una cartulina personal dividida en casillas. Cada 15 minutos de trabajo concentrado, la maestra coloca una pegatina (= ficha). Al final de la jornada, 5 pegatinas se canjean por 5 minutos extra de recreo; 20 pegatinas a la semana, por elegir el cuento del viernes; 80 pegatinas al mes, por un diploma y una llamada de felicitación a la familia. Las conductas-problema (gritar, levantarse sin permiso) se gestionan con coste de respuesta: se borra una pegatina del día (nunca de días anteriores, para evitar saldos negativos).

Pregunta

A un niño le pedimos que se ponga el pijama solo, se cepille los dientes sin ayuda y haga la cama por las mañanas. Ponemos cada conducta en un panel por días y, si la cumple, le damos una estrella; cuando consigue 10, puede canjearlas por una entrada de cine. ¿Estamos aplicando economía de fichas?

Contratos de contingencias

Acuerdo, por lo general escrito, en el que se especifican las conductas que se desean instaurar o eliminar y las consecuencias (positivas y negativas) que acompañarán a su emisión o no emisión. Es negociado entre dos partes (paciente y terapeuta, padres e hijos, pareja) y firmado por ambas. Resulta especialmente útil en problemas interpersonales y en sujetos con escasa capacidad de autorreforzamiento.

Elementos obligatorios del contrato:

  1. Enunciado detallado y operativo de la(s) conducta(s) a considerar (observables y medibles).
  2. Criterios sobre frecuencia o duración de las conductas.
  3. Contingencias por la emisión de las conductas (reforzadores positivos).
  4. Contingencias por la no emisión (penalización, generalmente coste de respuesta).
  5. Cómo y cuándo observar, medir y registrar la conducta.
  6. Momento de inicio, duración y revisión del contrato.
  7. Firmas de todas las partes implicadas.

Además pueden incluirse: cláusula de bonificación por superar el criterio pactado y sistema de registro.

Tipos de contrato

  • Unilaterales: implican a una sola persona.
  • Multilaterales: implican a varias personas. Entre ellos, los bilaterales (dos personas) admiten dos variantes:
    • Contratos quid pro quo: los reforzadores por el cambio de conducta de un miembro dependen de la modificación en la conducta del otro (son interdependientes).
    • Contratos paralelos: los cambios de conducta de una parte no se usan para reforzar el cambio de la otra; los reforzadores son independientes de los aspectos conflictivos de la relación.
Normas para fomentar la eficacia del contrato
  • Dejar claro el cambio concreto de conducta que se quiere obtener.
  • Especificar el límite de tiempo (es un error pedir un cambio de duración ilimitada).
  • Incluir consecuencias positivas por cumplimiento y consecuencias ligeramente aversivas por incumplimiento.
  • Incluir bonificación adicional si se supera el criterio.
  • Nunca contratar conductas no observables ni registrables («ser amable», «pensar más en los deberes»).
  • Administrar el reforzador tan pronto como se verifique su cumplimiento (la demora perjudica la adquisición).
  • Todas las partes deben cumplir siempre su parte.
Caso aplicado — Contrato de contingencias en terapia de pareja

Una pareja acude por conflictos recurrentes en torno al reparto de tareas domésticas y al tiempo de pantallas. Tras el análisis funcional, el terapeuta propone un contrato conductual bilateral inspirado en el principio de quid pro quo de Stuart (1969)5. El documento, firmado por ambos miembros, especifica: conductas observables y medibles de cada parte (ella se compromete a tener listo el menú semanal el domingo y dedicar dos noches sin móvil; él se compromete a encargarse de la compra el sábado y de bañar a los niños lunes y miércoles); reforzadores recíprocos pactados (cumplir la semana completa = cena en restaurante elegido por turno; el viernes); coste de respuesta (cada incumplimiento = 30 minutos de tareas adicionales de la pareja); periodo de revisión (15 días); y firmas de ambos cónyuges y del terapeuta como testigo. El contrato hace visibles las contingencias mutuas, reduce las atribuciones internas hostiles («es un vago») al transformarlas en discrepancias conductuales discretas, y promueve reforzamiento mutuo contingente en lugar del reforzamiento difuso típico de las parejas en conflicto.

Control de estímulos

Procedimiento que describe la situación en que existe una gran probabilidad de que una respuesta ocurra en presencia de un estímulo antecedente particular. Se basa en alterar los estímulos antecedentes que evocan la conducta-problema o favorecen la conducta deseada (por ejemplo, retirar comida tentadora en programas de pérdida de peso, evitar lugares asociados al consumo en adicciones, preparar el material de estudio antes de sentarse a estudiar).

Tiene como objetivo último la generalización del cambio conductual. Sus componentes son:

Entrenamiento en discriminación de estímulos

Procedimiento mediante el cual se aprende a emitir la respuesta apropiada en presencia de ciertos estímulos discriminativos (E^d^) y no en presencia de otros (E^Δ^). Es la base del control de estímulos y se logra reforzando la conducta solo cuando aparece en presencia del E^d^.

Generalización

TipoDefinición
Generalización del estímuloLa conducta se hace más probable en presencia de un estímulo o situación nuevos como resultado de haber sido reforzada en presencia de otro estímulo o situación con características similares
Generalización de la respuestaSe incrementa la probabilidad de una respuesta similar (aunque no idéntica a la entrenada) en presencia del estímulo o situación

La programación del control de estímulos se centra en tres áreas: la generalización del estímulo, la generalización de la respuesta y el mantenimiento de la conducta a largo plazo.

Control instruccional

Se da cuando la conducta apropiada está bajo el control de instrucciones o reglas verbales. Las instrucciones pueden funcionar como E^d^ siempre que se administren correctamente y que la respuesta apropiada esté en el repertorio del sujeto. Asimismo, los «instigadores imitativos» (procedimiento de show) — la imitación de respuestas de otros individuos — funcionan como E^d^ donde la conducta evocada es el acto imitativo. La eliminación gradual del E^d^ o del instigador (desvanecimiento) se realiza para que la respuesta quede bajo control de los estímulos naturales del entorno.

Aplicación y estudios de resultados

Las técnicas operantes se aplican con eficacia probada en:

  • Trastornos del desarrollo (autismo, discapacidad intelectual).
  • Trastornos del comportamiento infantil: trastorno por déficit de atención e hiperactividad, trastorno negativista desafiante, trastorno de conducta.
  • Adicciones: manejo de contingencias en programas de tratamiento.
  • Trastornos psicóticos: economía de fichas en rehabilitación de pacientes con esquizofrenia (programas de Paul y Lentz, clásicos).
  • Trastornos alimentarios, enuresis, fobias específicas, problemas de hábitos (tics, tricotilomanía, onicofagia).

Las técnicas operantes generadas durante la primera generación de la Terapia de Conducta se han mantenido hasta la actualidad y siguen plenamente vigentes, integradas en los programas de TCC contemporáneos.

Referencias

Footnotes

  1. Lewinsohn, P. M. (1974). A behavioral approach to depression. En R. J. Friedman y M. M. Katz (Eds.), The psychology of depression: Contemporary theory and research (pp. 157-178). Wiley.

  2. Azrin, N. H. y Nunn, R. G. (1973). Habit-reversal: A method of eliminating nervous habits and tics. Behaviour Research and Therapy, 11(4), 619-628. https://doi.org/10.1016/0005-7967(73)90119-8

  3. Ayllon, T. y Azrin, N. H. (1968). The token economy: A motivational system for therapy and rehabilitation. Appleton-Century-Crofts.

  4. Paul, G. L. y Lentz, R. J. (1977). Psychosocial treatment of chronic mental patients: Milieu versus social-learning programs. Harvard University Press.

  5. Stuart, R. B. (1969). Operant-interpersonal treatment for marital discord. Journal of Consulting and Clinical Psychology, 33(6), 675-682. https://doi.org/10.1037/h0028475