Juegos en forma normal o estratégica

  • Ignacio Sánchez-Cuenca

PID_00268972
Segunda edición: septiembre 2019
© Ignacio Sánchez-Cuenca
Todos los derechos reservados
© de esta edición, FUOC, 2019
Av. Tibidabo, 39-43, 08035 Barcelona
Realización editorial: FUOC
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico, químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita de los titulares de los derechos.

Introducción

Los juegos en forma normal sirven para analizar todas las situaciones estratégicas en las que los jugadores eligen simultáneamente, es decir, cada jugador toma su decisión sin saber qué han elegido los otros. Para no introducir complicaciones innecesarias, se analizarán solo juegos de dos jugadores. Además, en este módulo solo se consideran juegos en forma normal estáticos, es decir, que se juegan una única vez. En el módulo “Juegos repetidos” se abordará la cuestión de qué sucede cuando el juego se repite unas cuantas veces o indefinidamente.
No hay muchos modelos en el ámbito de las relaciones internacionales que se basen en juegos en forma normal estáticos. No obstante, conocerlos resulta imprescindible para entender algunos de los conceptos más básicos de la teoría de juegos, como el equilibrio de Nash o las estrategias mixtas. Por otro lado, en general los juegos en forma normal que se examinan aquí pueden representar situaciones ideales muy importantes para diferentes campos de la ciencia política. Así, por ejemplo, los problemas fundamentales de la teoría de la acción colectiva se pueden sistematizar con diferentes juegos en forma normal, según se muestra en el apartado «Los problemas de la cooperación con juegos en forma normal».
El módulo empieza con una caracterización precisa de los juegos en forma normal. A continuación se examina una situación especial, es decir, la posibilidad de resolver el juego con el criterio de dominación. Cuando esto es factible, la situación estratégica inicial se transforma en la práctica en una situación paramétrica, puesto que hay un procedimiento mecánico o algorítmico de resolución del juego que exime a los jugadores de tener que hacer conjeturas sobre el comportamiento del rival y sobre qué cuenta como elección racional dado el comportamiento del rival.
Como no siempre es posible resolver un juego en forma normal por dominación, en la sección tercera se presenta la teoría del equilibrio de Nash, que vale para cualquier juego. Un equilibrio de Nash es una combinación de estrategias de forma que ningún jugador tiene razones para cambiar de estrategia, ningún jugador puede mejorar su condición a cuenta de los otros. Hay juegos que tienen un único equilibrio de Nash y los hay con equilibrios múltiples. Lo que no hay son juegos sin equilibrios de Nash. Nash demostró que, si se prevé la posibilidad de que los jugadores utilicen estrategias mixtas (estrategias probabilísticas), todo juego tiene al menos un equilibrio. Este resultado es muy importante, puesto que garantiza que la teoría de juegos es capaz de determinar una solución racional para todo juego posible en forma normal.
En este módulo se da bastante importancia no solamente a los problemas de cálculo que surgen al analizar los juegos en forma normal, sino también a los fundamentos conceptuales y a la interpretación del equilibrio de Nash y de las estrategias mixtas.

Objetivos

El principal objetivo de este módulo consiste en familiarizarse con la idea de equilibrio de Nash en los juegos en forma normal. Esto es la base de la teoría de juegos. Para ello, tenéis que aprender lo siguiente:
  1. Saber caracterizar un juego en forma normal.

  2. Ser capaces de determinar si hay estrategias dominadas en un juego.

  3. Calcular los equilibrios de Nash de un juego, con estrategias puras y con estrategias mixtas.

  4. Conocer los juegos en forma normal más relevantes y más utilizados en el estudio de las relaciones internacionales.

1.Caracterización de un juego en forma normal

Empezamos el recorrido por la teoría de juegos examinando la situación estratégica más sencilla posible, aquella en la que no se especifica la secuencia u orden de jugadas de los jugadores. Simplemente se supone que hacen sus jugadas simultáneamente o, si se prefiere, que cada jugador hace sus elecciones sin conocimiento de las que han hecho los otros. Estos juegos se pueden representar habitualmente con una matriz de pagos y reciben el nombre de juegos en forma normal o juegos en forma estratégica. En un juego en forma normal, por lo tanto, tenemos diferentes jugadores o agentes con acciones interconectadas, en el sentido de que lo que haga cada uno depende de las expectativas que tenga sobre lo que harán los otros, y cada uno actúa sin saber qué han hecho los otros.
Podemos caracterizar formalmente un juego en forma normal a partir de los tres elementos siguientes:
  • Un conjunto de jugadores iI, I = {1, 2, ..., i, I}.

  • Un conjunto de estrategias Si para cada jugador i.

  • Funciones de utilidad (o funciones de pagos) Von Neumann-Morgenstern Ui(S) para cada combinación S = (S1, ..., SI) de estrategias.

Aunque no hay nada que impida que haya más de dos jugadores, de ahora en adelante nos limitaremos al caso más sencillo de juegos de dos jugadores (por lo tanto, I = 2), lo cual simplifica notablemente los cálculos y razonamientos.
Una estrategia se define técnicamente como un plan de acción completo. En un juego en forma normal, dado que las elecciones en la práctica son simultáneas, una estrategia coincide con el curso de acción que adopta el jugador. Como veremos en el módulo “Juegos en forma extensiva”, esta definición de estrategia se aplica plenamente cuando hay una secuencia de jugadas. De momento, basta con entender que una estrategia es un plan que especifica cómo hay que comportarse en el desarrollo del juego.

1.1.Representación de un juego en forma normal

En el cuadro 1 tenemos un juego de dos jugadores (los jugadores J1 y J2) representado con una matriz de tres filas y tres columnas. Cada fila representa una de las tres posibles estrategias de J1 (U, M o D) y lo mismo sucede con las columnas respecto a J2 (l, m o r). Cada jugador tiene, por lo tanto, tres estrategias diferentes y ha de elegir una sin saber qué ha elegido el otro. Seguiremos la convención de representar las estrategias de J1 con letras mayúsculas y las de J2 con minúsculas.
Cuadro 1

Un ejemplo de juego en forma normal

J2

l

m

r

J1

U

4, 3

5, 1

6, 2

M

2, 1

8, 4

3, 6

D

3, 0

9, 6

3, 8

Los números que aparecen en el interior de las celdas son los pagos de los jugadores, medidos en utilidad Von Neumann-Morgenstern. El primer número de cada celda es el pago que recibe el jugador en filas, J1, y el segundo es el pago que recibe el jugador en columnas, J2. Los pagos son, por lo tanto, las consecuencias medidas en utilidad de las diferentes combinaciones posibles de estrategias. Así, podríamos describir los pagos como se ilustra en estos ejemplos:
  • UJ1(M, m) = 8

  • UJ2(M, m) = 4

  • etc.

A pesar de que en la definición anterior se establece que los pagos del juego se miden como utilidades Von Neumann-Morgenstern y, por lo tanto, como utilidades cardinales, en ciertos contextos muy sencillos los pagos se pueden interpretar ordinalmente y reflejar tan solo el orden de preferencia sobre las diferentes combinaciones de estrategias posibles. Aun así, es conveniente ceñirse al supuesto de cardinalidad, puesto que solo así se pueden calcular estrategias mixtas en el juego (ver «Equilibrio de Nash con estrategias mixtas»).

2.Criterios de dominación

Hay algunos juegos en los que la configuración de pagos es de tal naturaleza que la propia condición estratégica del juego prácticamente se disuelve. Antes se ha visto que la característica de los juegos es que representan situaciones estratégicas, es decir, situaciones en las que la acción de cada uno depende de las expectativas que tenga sobre lo que los otros harán. Pero, excepcionalmente, esta dependencia se puede neutralizar, de modo que un jugador (o estado) tenga buenas razones para elegir una estrategia frente a otra al margen de lo que haga el otro jugador (o estado). A pesar de que formalmente nos encontramos en un contexto estratégico porque las consecuencias de nuestras acciones dependen de lo que los otros hagan, en realidad la elección del jugador es paramétrica, puesto que el jugador elige sin tener en consideración qué estrategia elegirá su contrincante. Esto solo es posible cuando al escoger una cierta estrategia siempre estamos mejor jugando esta estrategia que si elegimos otra, independientemente de la que elija el otro jugador. Cuando el juego se puede jugar, digámoslo así, paramétricamente, la resolución es más bien trivial.
A partir del juego del cuadro 2, J1 puede hacer el razonamiento siguiente: haga lo que haga J2, siempre estoy mejor escogiendo la estrategia D que la estrategia U. Si J2 elige l, entonces, si yo hago U, obtengo –1, pero si hago D obtengo 0. Si J2 elige r, entonces, si hago U, obtengo 2, mientras que si hago D obtengo 3. Dado que 0 es mejor que –1 y 3 es mejor que 2, haga lo que haga J2 me beneficia siempre escoger D. Por lo tanto, decimos que para J1 la estrategia D domina a la estrategia U. J1, a la hora de hacer su elección de estrategias, no tiene en cuenta qué pueda hacer J2, puesto que haga lo que haga él está mejor con D que con U. En cambio, J2 no tiene ninguna estrategia dominante: l le proporciona un pago más alto que r si J1 elige U, pero si J1 elige D, entonces r produce mejor pago que l.
Cuadro 2

Un ejemplo de juego con dominación

J2

l

r

J1

U

–1, 3

2, 1

D

0, 2

3, 4

En este juego, a pesar de que J2 no tiene una estrategia incondicionalmente mejor, sabe, por el análisis del juego, que J1 siempre escogerá D teniendo en cuenta que D domina a U. Por lo tanto, está seguro de que J1 elegirá D si supone que J1 es racional. Sabiendo esto, la elección de J2 también se vuelve paramétrica, en el sentido de que se limita a elegir entre los pagos de 2 (si hace l) y 4 (si hace r). Como 4 es mejor que 2, escogerá r. J1 jugará D, J2 jugará r y los pagos para cada uno serán 3 y 4, respectivamente. Hemos podido «resolver» el juego gracias a que la elección de cada jugador era, en última instancia, paramétrica. Si los jugadores son racionales, la predicción es que jugarán las estrategias D, r.

2.1.Tipos de dominación

Ahora podemos definir con algo más de precisión qué quiere decir que una estrategia domina a otra. Se tienen que distinguir dos tipos de dominación:
1) La fuerte
Empezamos por la definición de la dominación fuerte tomando como referencia, en la notación, J1, a pesar de que esto, obviamente, es irrelevante:
Una estrategia S1 domina fuertemente a otra estrategia S2 si, y solo si,
U J 1 ( S 1 , s j ) > U J 1 ( S 2 , s j ) , s j
Con palabras: a partir de cualquier estrategia de J2, S1 domina fuertemente a S2 si S1 siempre produce más utilidad que S2. En el juego del cuadro 2, D domina fuertemente a U porque
m7107_m3_07.gif
2) La débil
La definición de dominación débil es algo menos exigente:
Una estrategia S1 domina débilmente a otra de S2 si, y solo si,
U J 1 ( S 1 , s j ) U J 1 ( S 2 , s j ) , s j
y
m7107_m3_09.gif
Con palabras: S1 domina débilmente a S2 si en todos los casos S1 proporciona al menos tanta utilidad como S2, y como mínimo en un caso S1 proporciona más utilidad que S2. Dicho de otro modo, una estrategia domina débilmente a otra si las dos proporcionan la misma utilidad a partir de las estrategias del otro jugador pero al menos para una estrategia del otro jugador sucede que la primera estrategia es mejor que la segunda. En el juego del cuadro 1 se puede comprobar que D domina débilmente a M, puesto que, cuando J2 juega r, D y M proporcionan exactamente la misma utilidad, pero, cuando J2 juega l o m, D es mejor que M.

2.2.Eliminación de estrategias dominadas. Dominación repetida

Cuando en un juego nos encontramos con estrategias dominadas, tanto de manera fuerte como débil, las podemos eliminar, puesto que un jugador racional nunca tendrá buenas razones para elegir estrategias dominadas. A veces podemos llegar a una solución única del juego mediante este procedimiento de eliminación sucesiva de estrategias dominadas. Veremos cómo funciona este procedimiento en el caso del juego del cuadro 1. Es fácil darse cuenta de que r domina fuertemente a m. Por lo tanto, podemos eliminar m y ver qué sucede en el juego resultante que se representa en el cuadro 3.
Cuadro 3

El juego del cuadro 1 después de haber eliminado m

J2

l

r

J1

U

4, 3

6, 2

M

2, 1

3, 6

D

3, 0

3, 8

Una vez eliminado m, es evidente que ahora la estrategia U domina fuertemente a la estrategia M. Por lo tanto, eliminamos M, con la seguridad de que, si J1 es racional, nunca jugaría M. El juego así modificado aparece en el cuadro 4.
Cuadro 4

El juego del cuadro 1 después de haber eliminado m y M

J2

l

r

J1

U

4, 3

6, 2

D

3, 0

3, 8

En este juego reducido, todavía es posible ir más lejos. Ahora se puede eliminar D, puesto que U domina fuertemente D. El resultado aparece en el cuadro 5.
Cuadro 5

El juego del cuadro 1 después de haber eliminado m, M y D

J2

l

r

J1

U

4, 3

6, 2

Llegados a este punto, la resolución del juego es trivial: dadas las dos estrategias de J2, salta a la vista inmediatamente que l domina fuertemente a r, por lo cual el resultado final o solución del juego será la combinación de estrategias (U, l), con pagos de 4 para J1 y 3 para J2.
Cuando en un juego hay diferentes estrategias dominadas, se llega al mismo resultado final independientemente de por dónde empecemos el proceso de eliminación.
Este proceso de búsqueda por eliminación de estrategias dominadas de la solución del juego se denomina dominación repetida (iterated domination). Se trata de un proceso mecánico que funciona únicamente porque el juego, cuando hay estrategias dominadas, puede llegar a perder la condición estratégica y transformarse en un problema de elección paramétrica. Naturalmente, no todos los juegos se pueden resolver así.

3.Equilibrio de Nash

Más allá de las limitaciones que se acaban de señalar sobre el procedimiento de dominación repetida, el caso es que es aplicable de manera restringida, puesto que en muchos juegos no hay dominación (fuerte o débil) de estrategias. En este caso, ¿cómo se juega el juego? ¿Qué se considera una solución razonable?
La respuesta más general a estas cuestiones fue proporcionada por el matemático John Nash, que en 1951 publicó un artículo fundamental en el que generalizaba la idea de equilibrio que habían propuesto los fundadores de la teoría de juegos, Von Neumann y Morgenstern, para un ámbito muy concreto, los juegos de suma cero. Como ya se aclaró en la introducción, aquí no se explica nada sobre los juegos de suma cero porque raramente se encuentran en la realidad situaciones en las que las ganancias de un jugador sean las pérdidas del otro, y viceversa.
Nash definió su famosa noción de equilibrio a partir de la idea de «respuesta óptima» o «mejor respuesta posible» (best reply).
Una respuesta óptima se define como la estrategia que proporciona mejores resultados que todas las otras posibles ante una determinada estrategia del rival.
Esto se puede formalizar fácilmente. Si representamos con S el conjunto de estrategias de J1 sin incluir una estrategia concreta Si, podemos decir que Si es una respuesta óptima cuando
U J 1 ( S i , s j ) U J 1 ( S , s j )
Pues bien, un equilibrio de Nash se define simplemente como la combinación de estrategias tal que cada una es una respuesta óptima a la otra.
Como todos los jugadores utilizan sus respuestas óptimas, ninguno de ellos tiene razón alguna para cambiar de estrategia: si un jugador utiliza una estrategia que no sea una respuesta óptima, estarà peor. Dado que los jugadores no tienen razones para cambiar de estrategia, se dice que esta combinación de estrategias está en equilibrio, es decir, que es estable.
Formalmente, un par de estrategias (Si, sj) es un equilibrio de Nash cuando se cumple la doble condición de que Si es la respuesta óptima a sj y de que sj es la respuesta óptima a Si:
U J 1 ( S i , s j ) U J 1 ( S , s j ) U J 2 ( S i , s j ) U J 2 ( S i , s )
Al analizar un juego en forma normal, buscamos todas las combinaciones de estrategias que sean equilibrios de Nash. Hay juegos con un único equilibrio de Nash, con múltiples equilibrios de Nash y sin ningún equilibrio de Nash (aunque, como se explica en la próxima sección, siempre hay al menos un equilibrio de Nash con estrategias mixtas).

3.1.Ejemplo de juego con equilibrio de Nash

En el juego del cuadro 7, J1 tiene tres estrategias y J2 dos. Esto da lugar a seis resultados posibles. ¿Cómo podemos determinar cuál de estos resultados representa una combinación de estrategias que sea un equilibrio de Nash? Hay que comprobar si las estrategias son simultáneamente respuestas óptimas. Empezamos por el primer par, (S1, s1): ¿s1 es una respuesta óptima a S1? La respuesta es afirmativa, puesto que si J1 juega S1, J2 no puede mejorar cambiando de s1 a s2; por lo tanto, según la definición anterior, se cumple la condición de respuesta óptima. Sin embargo, es evidente que S1 no es la respuesta óptima a s1, puesto que J1 puede estar mejor cambiando a S2. Por lo tanto, (S1, s1) no puede ser un equilibrio de Nash. Continuamos con el proceso de búsqueda del equilibrio. Consideramos ahora el par (S1, s2). Se vuelve a cumplir que s2 es la mejor respuesta a S1. Pero ahora, además, es el caso de que S1 es la respuesta óptima a s2. Por lo tanto, el par (S1, s2) sí que es un equilibrio de Nash. Fijaos en que lo que es relevante no son los pagos, porque son idénticos en estos dos primeros casos, sino el criterio de respuesta óptima.
Cuadro 6

J2

s1

s2

J1

S1

1, 1

1, 1

S2

2, –1

–10, –2

S3

–1, –2

0, –1

No obstante, el análisis no acaba aquí: se tienen que continuar calculando respuestas óptimas hasta agotar todas las combinaciones de estrategias posibles. ¿(S2, s1) es un equilibrio de Nash? De momento, S2 es la mejor respuesta posible a s1, según hemos visto antes. Y s1 es a su vez la respuesta óptima a S2, puesto que, aunque dé utilidad negativa a J2, J2 está mejor jugando s1 frente a S2 que s2 frente a S2. Hemos identificado, por lo tanto, un segundo equilibrio de Nash dentro de este juego. ¿(S2, s2) es un equilibrio de Nash? Evidentemente no, puesto que acabamos de decir que la mejor respuesta de J2 a S2 es s1, no s2. ¿Y (S3, s1)? Tampoco, puesto que la respuesta óptima de J1 a s1 es S2, no S3. Finalmente, ¿es (S3, s2) un equilibrio de Nash? No, porque sabemos por razonamientos anteriores que la respuesta óptima a s2 es S1 y no S3. En suma: el juego del cuadro 6 tiene dos equilibrios de Nash: (S1, s2) y (S2, s1).

3.2.Ejemplo de juego sin equilibrio de Nash

Este mismo proceso de búsqueda se aplica en cualquier otro juego en forma normal, tanto si tiene uno, múltiples o ningún equilibrio de Nash. Es especialmente interesante el caso de juegos sin equilibrio de Nash, como el que aparece en el cuadro 7. Brevemente: la respuesta óptima de J2 a S1 es s2, la respuesta óptima de J1 a s2 es S2, la respuesta óptima de J2 a S2 es s1, la respuesta óptima de J1 a s1 es S1... y volvemos a empezar. No hay una combinación de estrategias que sean simultáneamente respuestas óptimas.
Cuadro 7

J2

s1

s2

J1

S1

1, 1

0, 4

S2

–1, 3

3, –5

La falta de equilibrios de Nash se produce cuando no hay estrategias dominadas para ninguno de los dos jugadores. Es evidente que la teoría de juegos no se puede conformar con constatar la ausencia de equilibrio, puesto que en este caso supondría reconocer que la teoría es incapaz de predecir cómo actuarán los agentes racionales en un juego con estas características. Con otras palabras, la teoría de juegos tiene el compromiso de determinar en todo juego posible qué cuenta como elección racional. Para poder resolver el problema de los juegos sin equilibrio, Nash demostró que en realidad todo juego siempre tiene al menos un equilibrio de Nash si se admiten estrategias mixtas. En la próxima sección se explica qué es una estrategia mixta y cómo se puede interpretar.

4.Equilibrio de Nash con estrategias mixtas

La idea de estrategia mixta no es en absoluto clara. Es más fácil aprender a manejar estrategias mixtas que entender realmente qué son.
Una estrategia mixta es una distribución de probabilidad sobre el conjunto de estrategias puras. Las estrategias puras son las que se han previsto hasta este momento, es decir, estrategias que consisten en elegir un curso de acción determinado.
Las estrategias mixtas incluyen diferentes cursos de acción (diferentes estrategias puras), cada una con una probabilidad determinada. Dado que una estrategia mixta es una combinación probabilística de estrategias puras, se puede decir que las estrategias mixtas expanden el conjunto de estrategias entre las cuales puede elegir el agente. Gracias a este aumento del conjunto de estrategias posibles, podremos encontrar equilibrios de Nash en juegos en los que, al examinarlos teniendo únicamente estrategias puras, no parecía que hubiera estos equilibrios.

4.1.El juego de pares o nones

Empecemos por un juego muy sencillo, el juego de pares o nones. Cada jugador saca con una mano tantos dedos como quiera, de 0 a 5, y después se suman. Un jugador gana cuando la suma de los dedos de los dos jugadores da un número par y el otro gana cuando dicha suma es impar. Supongamos que el jugador en filas gana si la suma de dedos es par y pierde si es impar, y a la inversa para el jugador en columnas. Saldrá un número par cuando los dos saquen cantidades pares o impares, y saldrá impar cuando uno saque pares y el otro nones.
Cuadro 8

El juego de pares y nones

J2 (nones)

Pares

Nones

J1 (pares)

Pares

1, –1

–1, 1

Nones

–1, 1

1, –1

Evidentemente, este juego no tiene un equilibrio de Nash con estrategias puras, que son o bien sacar un número de dedos par o bien sacar uno impar. Si J1 espera que J2 saque pares, J1 sacará pares, pero en este caso J2 preferirá sacar nones, y así sucesivamente. Para salir del embrollo, podemos considerar qué sucede si ampliamos el abanico de estrategias con estrategias mixtas, es decir, que cada jugador elija una combinación de estrategias puras mediante la cual elige con cierta probabilidad sacar pares y, con el resto de la probabilidad, sacar nones.
Antes de examinar la cuestión de cómo se establecen estas probabilidades, veremos cómo operan en la práctica. Supongamos que J1 juega pares la mitad de las veces y nones la otra mitad o, si se prefiere, que J1 elige pares con una probabilidad de 0,5 y nones con una probabilidad también de 0,5. En este caso, ¿qué pagos puede esperar J2 con sus estrategias puras? ¿Qué resultados sacará J2 jugando frente a la estrategia mixta de J1?
Si J2 juega pares, los pagos esperados para J2 a partir de la estrategia mixta de J1 serán los siguientes:
m7107_m3_13.gif
Es decir, si J1 juega pares y J2 juega pares, el resultado será pares (-1 de utilidad para J2) y, si J1 juega nones y J2 juega pares, el resultado será nones (1 de utilidad para J2). Pero J2 no sabe qué hará realmente J1, solo sabe que jugará con probabilidad ½ cada estrategia. Por lo tanto, los resultados esperados se tienen que ponderar por las probabilidades correspondientes. La utilidad esperada es, como se ve en la fórmula, 0.
Si J2 juega nones, los pagos esperados de J2 a partir de la estrategia mixta de J1 serán los siguientes:
m7107_m3_14.gif
La utilidad esperada vuelve a ser 0. Por lo tanto, si J1 juega su estrategia mixta, entonces, haga lo que haga J2, siempre sacará 0. Pero si la elección de las estrategias puras de J2 no introduce ningún cambio en el resultado final, esto significa que J2 es indiferente entre sus estrategias puras como consecuencia de la estrategia mixta de J1.

4.2.La combinación de estrategias

El propósito de las estrategias mixtas consiste precisamente en neutralizar la elección de estrategias puras del rival. El jugador que utiliza una estrategia mixta de equilibrio consigue que el rival sea indiferente entre sus estrategias puras. Ahora bien, si los dos jugadores hacen esto, es decir, si los dos juegan estrategias mixtas que neutralicen la elección de estrategias puras del rival, entonces ninguno de los dos tendrá incentivo alguno para dejar de jugar su estrategia mixta y, por lo tanto, nos encontraremos en una situación de equilibrio de Nash en la que cada estrategia mixta es la respuesta óptima a la otra estrategia mixta. Este argumento merece un análisis algo más detallado.
En el ejemplo de pares y nones, el juego es simétrico. Por lo tanto, si la estrategia mixta de equilibrio para J1 consiste en jugar pares con probabilidad ½ y nones con probabilidad ½, la estrategia mixta de J2 será idéntica (todavía no sabemos, sin embargo, cómo se llega a una estrategia mixta de equilibrio). Pues bien, es fácil demostrar que si J1 juega su estrategia mixta, cualquier estrategia (pura o mixta) de J2 es una respuesta óptima a la estrategia mixta de J1. Ya hemos visto que cualquier estrategia pura de J2 le proporciona un pago esperado de 0. Tan solo queda por confirmar que la estrategia mixta de J2 frente a la estrategia mixta de J1 también da 0 a J2:
m7107_m3_15.gif
Las probabilidades de ½ que aparecen por delante de los corchetes se refieren a las probabilidades de que J2 elija pares o nones, mientras que las probabilidades de ½ que aparecen dentro de los corchetes corresponden a la estrategia mixta de J1. En cualquier caso, el resultado vuelve a ser 0, lo cual demuestra que la estrategia mixta de J2 también es una respuesta óptima de J2 a la estrategia mixta de J1.
Sabiendo que cualquier estrategia de J2 es una respuesta óptima a la estrategia mixta de J1, ¿es un equilibrio de Nash que J1 juegue su estrategia mixta y J2 escoja como respuesta óptima la estrategia pura pares? La respuesta es negativa. Si J1 está seguro de que J2 elegirá pares, entonces J1 está mejor si él mismo elige pares que si juega su estrategia mixta. Por lo tanto, la combinación de estrategias de los dos jugadores ((1/2 pares, 1/2 nones), pares) no es un equilibrio de Nash. Lo mismo se puede decir respecto a ((1/2 pares, 1/2 nones), nones): tampoco es un equilibrio de Nash porque la mejor respuesta posible de J1 a nones no es la estrategia mixta, sino nones. En cambio, la combinación de estrategias ((1/2 pares, 1/2 nones), (1/2 pares, 1/2 nones)) sí que es un equilibrio de Nash porque ninguno de los dos jugadores tiene incentivos para cambiar de estrategia. Fijaos en que hay cierta circularidad en el argumento: J2 puede recurrir en equilibrio a una estrategia mixta porque J1 está, con su estrategia mixta, haciendo indiferente a J2 entre sus estrategias puras. Y a su vez J1 puede utilizar en equilibrio la estrategia mixta porque J2, con su estrategia mixta, está haciendo indiferente a J1 entre sus estrategias puras.
Ante una estrategia mixta, cualquier estrategia posible (pura o mixta) es una respuesta óptima. Pero una estrategia mixta solo es una respuesta óptima frente a otra estrategia mixta. Por lo tanto, el equilibrio de Nash con estrategias mixtas solo se produce cuando los dos las utilizan.
En principio, la idea de estrategia mixta parece suponer que los agentes toman decisiones por algún mecanismo aleatorio (si la estrategia mixta es hacer elegir una estrategia pura con probabilidad ½ y la otra con la ½ restante, basta con lanzar una moneda al aire). Esto puede parecer muy poco realista, puesto que casi nunca tomamos las decisiones probabilísticamente, sobre todo cuando el tema es un poco importante. Con todo, hay algunos casos en los que la interpretación literal de la estrategia mixta sí que tiene sentido: como cuando el Ministerio de Hacienda hace probabilísticamente inspecciones fiscales en el juego entre el Ministerio y los ciudadanos, o cuando se hacen controles aleatorios de sustancias prohibidas a los deportistas. Pero ¿qué sucede cuando no hay lugar para un mecanismo real de aleatorización? ¿Esto quiere decir que las estrategias mixtas son solo un artificio matemático para garantizar la existencia de equilibrios de Nash en todos los juegos posibles?
Desde una interpretación no racional, las probabilidades de una estrategia mixta se pueden entender simplemente como las frecuencias con las que en el pasado se han elegido las estrategias puras. Así, las estrategias mixtas solamente serían regularidades estocásticas.
Cuando la teoría de juegos se aplica en biología, a veces se considera que la estrategia mixta que utiliza una especie responde a un caso de «polimorfismo»: un 30 % de los miembros de la especie tienen una característica que los hace elegir una estrategia pura, mientras que el 70 % restante tienen otra característica que los hace elegir la otra estrategia pura. En estas circunstancias, un animal de otra especie sabe que al jugar con un miembro de esta especie se enfrenta a una estrategia mixta 0,3; 0,7.
Sin embargo, la interpretación más interesante no obliga a abandonar el supuesto de racionalidad, pero exige considerar que no hay información completa en el juego. La idea consiste en que J1 no está del todo seguro sobre la naturaleza de los pagos de J2. Si los pagos de J2 tienen ciertas características, entonces J2 actúa de una manera y, si tienen otras, actúa de otro modo. Sin duda, J2 conoce sus pagos y elige una estrategia pura. Pero para J1, que no tiene toda la información necesaria sobre los auténticos pagos de J2, la elección de una estrategia pura por parte de J2 se le presenta como una estrategia mixta, como una estrategia probabilística, puesto que con cierta probabilidad los pagos serán unos con su estrategia pura correspondiente, y con el resto de la probabilidad los pagos serán otros y J2 elegirá otra estrategia pura. Aquí la idea de estrategia mixta se traduce en incertidumbre por parte de un jugador sobre los verdaderos pagos del rival.
Igualmente, se puede considerar que la elección de una estrategia pura u otra depende de información privada relevante que solo conoce el jugador, pero no su rival. A pesar de que el jugador juegue eligiendo estrategias puras, su rival, al no tener esta información privada, actuará como si se enfrentara a una estrategia mixta.
Ejemplo 1
Supongamos, respecto al juego del cuadro 7, en el que hemos calculado las estrategias mixtas, que en realidad no hay información completa. J1 no está seguro de cuál de los dos juegos que aparecen en el cuadro 9 está jugando. En el primero, J2 tiene una estrategia pura dominante, elegir la primera columna; en el segundo, la estrategia dominante de J2 es elegir la segunda columna.
Cuadro 9

J2

s1

s2

J1

S1

1, 5

0, 4

S2

–1, 3

3, –5

J2

s1

s2

J1

S1

1, 1

0, 4

S2

–1, 3

3, 5

Si la creencia de J1 de estar jugando al primer juego es de 3/5 y la de estar jugando al segundo, de 2/5, entonces J1, aunque sepa que J2 elige en cada caso una estrategia pura, en la práctica se enfrenta a una estrategia mixta que lo hace indiferente entre las estrategias puras.
No hace falta, por lo tanto, considerar que una estrategia mixta implica un mecanismo real de aleatorización: puede ser también un reflejo de una incertidumbre subyacente que no se ha reflejado explícitamente en el juego. De este modo, se consigue una interpretación más plausible de estas estrategias.
Ejemplo 2
Otro ejemplo (tomado de Kydd, 2015)
En junio de 1944 los aliados estaban preparando la invasión de la Francia ocupada por los nazis. Había tres posibilidades para el desembarco: Calais, Normandía y Bretaña. Los dos bandos debían decidir dónde ubicar la mayoría de sus fuerzas militares. Si los aliados desembarcaban en una zona defendida por los nazis, perdían; si los aliados desembarcaban en una zona no defendida por los nazis, ganaban. Calais era la zona más próxima a la Gran Bretaña (desde donde se organizaría y partiría toda la logística de la invasión); en segundo lugar, estaba Normandía y en tercer lugar (el más lejano), estaba Bretaña. Debido a estas distancias relativas, la posibilidad de invasión en Normandía o en Bretaña suponía unos costes añadidos que la posibilidad de un ataque en Calais no tenía. Estos costes eran tales que cn < cb. La situación puede resumirse en el cuadro 10:
Cuadro 10. El día D

Jugador 2 (nazis)

Jugador 1 (aliados)

Defender Calais

Defender Normandía

Defender Bretaña

Atacar Calais (c)

0,1

1,0

1,0

Atacar Normandía (n)

1 – cn, 0

–cn, 1

1 – cn, 0

Atacar Bretaña (b)

1 – cb, 0

1 – cb, 0

–cb, 1

Para calcular el equilibro con estrategias mixtas, asignamos la probabilidad p1 a la posibilidad de que el jugador 1 ataque en algún sitio en concreto y la probabilidad p2 a que este sitio esté defendido por el jugador 2.
Las estrategias mixtas del jugador 1 (los aliados) tienen que hacer que al jugador 2 le sea indiferente defender cualquiera de las tres localizaciones. Por lo tanto:
Defender Calais = p1(c)1 + p1(n)(0) + p1(b)(0) =
Defender Normandía = p1(c)(0) + p1(n)1 + p1(b)(0) =
Defender la Bretaña = p1(c)(0) + p1(n)(0) + p1(b)1
Esto implica que
p1(c) = p1(n) = p1(b) = 1/3
por lo que el jugador 1 debería poder atacar las tres zonas con una misma probabilidad (o hacer creer a los nazis esta posibilidad). Por lo tanto, para los aliados era fundamental que los nazis se preguntaran por dónde se realizaría la invasión y que no tuvieran información segura sobre su localización exacta. De aquí la intensa campaña de desinformación que los aliados desarrollaron mediante sus espías: querían mantener a toda costa la incógnita del lugar del desembarco. Esta campaña surtió su efecto y confundió a los nazis hasta tal punto que, incluso tras el desembarco en Normandía, estos seguían creyendo que se trataba de un “señuelo” para “despistarlos” y, en consecuencia, mantuvieron el grueso de sus fuerzas defendiendo Calais (el lugar menos costoso, más “natural”, para la invasión debido a su mayor proximidad con Gran Bretaña) con la intención de estar preparados para repeler lo que pensaban que tendría que ser la invasión “principal”.
Por su parte, las estrategias mixtas de defensa del jugador 2 tienen que hacer que al jugador 1 le sea indiferente atacar cualquiera de los tres emplazamientos. Por lo tanto:
Atacar Calais = p2(c)(0) + p2(n)1 + p2(b)1
Atacar Normandía = p2(c)1 – cn + p2(n)(0 – cn) + p2(b)1 – cn
Atacar Bretaña = p2(c)1 – cb + p2(n)1 – cb + p2(b)(0 – cb)
O lo que es lo mismo
p2(c)(0) + p2(n)1 + p2(b)1 = [p2(c)1 + p2(n)(0) + p2(b)1] – cn = [p2(c)1 + p2(n)1 + p2(b)(0] – cb
Que se convierte en
p2(n) + p2(b) = [p2(c) + p2(b)] – cn = [p2(c) + p2(n)] – cb
Puesto que las probabilidades deben sumar uno, p2(c) + p2(b) + p2(n) = 1, aislando (por ejemplo) p2(b) tenemos que
p2(b) = 1 – p2(c) – p2(n). En la ecuación original sustituimos el término p2(b) por 1 – p2(c) – p2(n) para obtener
p2(n) + 1 – p2(c) – p2(n) = [p2(c) + 1 – p2(c) – p2(n)] – cn = [p2(c) + p2(n)] – cb
Una vez simplificada obtenemos
1 – p2(c) = [1 – p2(n)] – cn = [p2(c) + p2(n)] – cb.
Por definición sabemos que p2(n) = p2(c) – cn. Ahora en la igualdad entre el primer término (atacar Calais) y el tercero (atacar Bretaña) sustituimos p2(n) por p2(c) – cn para obtener
1 – p2(c) = [p2(c) + p2(c) – cn] – cb. Reordenando,
1 + cn + cb = p2(c) + p2(c) + p2(c), o lo que es lo mismo, p2(c) = 1 + cn + cb / 3
Ahora en la igualdad entre el término 1 (atacar Calais) y el término 2 (atacar Normandía)
1 – p2(c) = [1 – p2(n)] – cn sustituimos p2(c) por 1 + cn + cb / 3. De esta forma obtenemos
1 – [1 + cn + cb / 3] = 1 – p2(n) – cn. Aislando p2(n) tenemos
p2(n) = 1 – cn – 1 + [1 + cn + cb / 3], o lo que es lo mismo p2(n) = [1 + cn + cb / 3] – cn.
Finalmente, en la igualdad entre los términos 2 (atacar Normandía) y 3 (atacar Bretaña),
[ p2(c) + p2(b)] – cn = [ p2(c) + p2(n)] – cb sustituimos p2(n) por p2(c) – cn puesto que sabemos que p2(n) = p2(c) – cn. Así
[ p2(c) + p2(b)] – cn = [ p2(c) + p2(c) – cn] – cb. Reordenando obtenemos
p(b) – cn + cn = p2(c) + p2(c) – p2(c) – cb.
O, lo que es lo mismo, p(b) = p2(c) – cb. Ahora tan solo queda sustituir p2(c) por el valor que ya conocemos y se obtiene
p2(b) = [1 + cn + cb / 3] – cb.
En resumen,
p2(c) = 1 + cn + cb / 3
p2(n) = [1 + cn + cb / 3] – cn
p2(b) = [1 + cn + cb / 3] – cb.
De estas probabilidades, se puede inferir fácilmente que p2(c) > p2(n) > p2(b). Por lo tanto, para mantener a los aliados indiferentes entre las tres posibilidades de ataque, los nazis debían poner más empeño en defender Calais que Normandía, y más empeño en defender Normandía que Bretaña. Esto es lo que pasó realmente: los nazis concentraron el grueso de sus fuerzas defensivas en Calais, mientras que el desembarco en Normandía no iba más allá de un simple “señuelo”.
Este tipo de juegos que analizan dónde situar recursos defensivos ante posibles ataques enemigos (conocidos como juegos del Coronel Blotto) han sido muy utilizados en contextos militares y también en el ámbito de la lucha antiterrorista.

5.La interpretación del equilibrio de Nash

Ahora que sabemos que todo juego en forma normal tiene al menos un equilibrio de Nash si se admiten estrategias mixtas, conviene profundizar algo más en la idea de equilibrio que Nash propuso. De momento, es importante subrayar que la noción de equilibrio de Nash no se basa en ninguna teoría sobre cómo los jugadores logran el equilibrio. Lo único que establece la idea de equilibrio de Nash es que si los jugadores eligen estrategias que conjuntamente son las respuestas óptimas, entonces ninguno de los jugadores tendrá incentivos para cambiar de estrategia. Pero no dice nada sobre cómo los jugadores llegan a seleccionar estrategias que son conjuntamente respuestas óptimas unas respecto a otras.
En el artículo original de 1950 en el que Nash presentaba su idea de equilibrio no decía nada sobre cómo se logra.
Sin embargo, en la tesis doctoral que Nash había escrito antes y de la cual extrajo su artículo, sí que incluyó algunas observaciones sobre equilibrios. Concretamente, propuso dos mecanismos diferentes:
a) Mecanismo que incluye la racionalidad.
Mecanismo que incluye la racionalidad
De acuerdo con el primer mecanismo, el equilibrio de un juego coincide con la predicción racional de cómo se tendría que jugar. Los jugadores racionales son capaces de analizar la naturaleza del juego, establecer qué se considera como solución racional y anticipar que, dada la racionalidad del rival, la mejor opción posible es jugar para conseguir el equilibrio de Nash. Esto requiere suponer que los agentes son racionales, tienen toda la información relevante y son capaces de derivar la solución del juego incluso si no conocen el concepto de equilibrio de Nash. Como dice el propio Nash, «se trata de una interpretación racionalista e idealizadora».
b) Mecanismo que no incluye la racionalidad.
Mecanismo que no incluye la racionalidad
De acuerdo con el segundo mecanismo, los jugadores no se caracterizan por la racionalidad, no hay que suponer que entienden la estructura de incentivos del juego o que hacen cálculos mentales sobre cómo se tiene que jugar. Simplemente, acumulan experiencia sobre qué estrategias puras les proporcionan más ventajas. Se trata, por lo tanto, de un proceso de ensayo y error, de aprendizaje progresivo sobre las consecuencias de elegir una estrategia u otra.
Mientras que el primer mecanismo, el racionalista, es compatible con el supuesto de que el juego en forma normal se juega una sola vez el segundo, el del aprendizaje, solo tiene sentido si entendemos que el juego se juega una y otra vez, de modo que los resultados del pasado permiten que tenga lugar el aprendizaje o ajuste gradual.
Aquí no examinaremos los argumentos a favor y en contra de cada una de estas interpretaciones del equilibrio de Nash, puesto que esto nos llevaría a una discusión metodológica demasiado larga. Cuando aparezcan a partir de ahora equilibrios de Nash no se harán comentarios sobre cómo se tienen que entender, a pesar de que, en consonancia con lo que se ha explicado en el módulo “El principio de racionalidad y la teoría de la utilidad”, la interpretación natural será en muchos casos la racionalista, es decir, la de que los agentes son capaces de entender la estructura del juego y anticipar la solución racional, la que establece el equilibrio de Nash.
Recapitulando esta breve exploración de los fundamentos del equilibrio de Nash, se puede decir que hay dos interpretaciones del equilibrio: una no racionalista, basada en el aprendizaje, que exige que el juego se repita a lo largo del tiempo, y otra racionalista, compatible con la posibilidad de que el juego se juegue una sola vez, pero que solo resulta convincente cuando el equilibrio de Nash coincide con la manera «natural» de jugar el juego, lo cual sucede a menudo pero no en todos los casos (por ejemplo, no sucede cuando hay equilibrios múltiples). De todos modos, la propia idea de equilibrio de Nash es neutral respecto al proceso de consecución del equilibrio que se postule.

6.Los problemas de la cooperación con juegos en forma normal

Buena parte de las aplicaciones de los juegos en forma normal tienen que ver con el problema de la cooperación. Este problema surge siempre que para conseguir unas ganancias hace falta que los actores (dos o más) cooperen entre sí. En cierto modo, se pueden distinguir dos ámbitos:
  • el ámbito de lo que es bueno para todos y

  • el ámbito de lo que es bueno para cada uno.

Si los dos coinciden, si lo que es bueno para todos también lo es para cada uno, todos tendrán incentivos para cooperar. Pero lo más habitual en la sociedad es que el ámbito colectivo y el individual no coincidan completamente. En estos casos, surgen dilemas muy profundos sobre qué exige la racionalidad de los individuos.
La teoría de la acción colectiva, que analiza de manera exhaustiva el problema de la cooperación, se ha centrado en varios juegos en forma normal que representan las posibles modulaciones entre el ámbito de lo que es bueno para todos y el de lo que es bueno para cada uno.

6.1.Representación de un juego de cooperación genérico

Podemos representar un juego genérico de la cooperación para dos jugadores, como aparece en el cuadro 11. Cada jugador (o estado) tiene dos estrategias, cooperar (C) o defraudar (D). Los pagos están definidos con letras, no con números. Así, si los dos cooperan, el resultado es una recompensa para cada uno (R). Si ninguno coopera, los dos son penalizados (P). Si uno defrauda y el otro coopera, el primero recibe el pago de la tentación de engañar al otro (T) y el segundo, el pago de ser el sucker (hacer el primo, S). Lo que hay en el cuadro 11 no es tanto un juego como una estructura genérica de interacción que, dependiendo de cómo definamos el orden de los pagos, da lugar a unos juegos o a otros. Aquí solo consideraremos juegos simétricos, es decir, aquellos en los que los órdenes de preferencias de los jugadores sobre las consecuencias sean idénticos.
Cuadro 11

La estructura del juego de la cooperación

J2

C

D

J1

C

R, R

S, T

D

T, S

P, P

6.2.Tipos de juegos de cooperación

Se pueden definir al menos cuatro juegos posibles que tengan relevancia directa para el problema de la cooperación. Lo que distingue cada juego, según se refleja en el cuadro 12, son diferentes órdenes de preferencias.
Cuadro 12

Cuatro juegos de cooperación

Orden de preferencias

Juego resultante

T > R > P > S

Dilema del prisionero

R > T > P > S

La seguridad

T > R > S > P

El gallina

R > T > S > P

Privilegiado

6.2.1.Juego privilegiado
El juego más favorable para la cooperación, en el que no se produce ninguna tensión entre los ámbitos colectivo e individual, es el que a veces se denomina el juego privilegiado. Desde el punto de vista del colectivo, el mejor resultado se produce con la cooperación mutua; desde el punto de vista individual, cooperando. Hay un único equilibrio de Nash, con estrategias puras: la cooperación mutua, puesto que cooperar domina fuertemente a defraudar. En el cuadro 13 se ofrece un ejemplo en el que se han dado arbitrariamente valores numéricos a las preferencias. Es fácil advertir que el único equilibrio de Nash es (C, C).
Cuadro 13

El juego privilegiado

J2

C

D

J1

C

3, 3

1, 2

D

2, 1

0, 0

6.2.2.Dilema del prisionero
En el extremo opuesto se sitúa el famoso dilema del prisionero (DP). Recibe este nombre por la historia que se inventó originalmente para dar contenido concreto a la estructura de interacción que representa. En un DP se produce una contraposición total entre el ámbito individual y el colectivo. Lo que es bueno para el grupo es negativo para mí y al contrario. A pesar de que hay una posibilidad de que todo el grupo esté mejor si todos cooperan, la racionalidad los conduce a no cooperar con el otro y se acaba en un resultado subóptimo. Si se observa el cuadro 12, se verá que las relaciones de preferencia entre T y R, por un lado, y entre P y S, por otro, son inversas respecto al juego privilegiado. En el cuadro 14 se ofrece una representación con pagos numéricos. El DP tiene un único equilibrio de Nash (D, D), en el que los dos defraudan. Aunque son conscientes de que los dos podrían estar mejor cooperando, el par (C, C) no es un equilibrio. La razón es bien sencilla: la estructura de pagos es tal que defraudar domina fuertemente a cooperar. Así, si el otro coopera, lo mejor que puedo hacer es aprovecharme de su cooperación, defraudando yo mismo, y, si el otro defrauda, lo mejor que puedo hacer es defraudar también, puesto que si no, acabaré haciendo el primo, que es el peor resultado posible. Por lo tanto, haga lo que haga el otro siempre me compensa defraudar. La anomalía de este juego pasa por el hecho de que, siendo los dos conscientes de las ganancias de la cooperación, no tienen manera de obtenerlas, puesto que cada uno sabe que el otro no tiene incentivos para cooperar.
Cuadro 14

El dilema del prisionero

J2

C

D

J1

C

2, 2

0, 3

D

3, 0

1, 1

Ejemplo
Quizá el ejemplo más conocido de aplicación del juego del DP en las relaciones internacionales es el de la carrera armamentística (y la disuasión), en la que dos estados deben decidir si continuar con la carrera o desistir. Los países utilizan una política de disuasión cuando amenazan con represalias ante un posible ataque de otro país para, precisamente, evitar este primer ataque. Bajo estas circunstancias, la carrera armamentística es simplemente una consecuencia derivada del hecho de que los países deben hacer creíbles estas amenazas de respuesta. Los estados se sentirán más seguros si adquieren armas (aunque solo sea para reforzar su estrategia defensiva). Por otra parte, puesto que las armas también pueden ser utilizadas para un ataque, otro estado puede no estar seguro de las intenciones defensivas del primero, con lo que puede sentirse obligado a adquirir más armas con la intención de defenderse de un posible ataque del primero o –como mínimo– amenazar con una posible respuesta.
El cuadro 14 resume perfectamente esta situación. En este cuadro la estrategia cooperadora (C) significa dejar de comprar armas y la estrategia defraudadora (D) significa seguir con la carrera armamentística. En primer lugar (pago 3), los dos jugadores prefieren defraudar y que el otro jugador coopere (D,C), ya que de esta manera ganan seguridad y poder relativo (la capacidad militar del otro jugador se ve reducida). En segundo lugar (pago 2), ambos jugadores prefieren seguir una estrategia cooperadora (C,C): el poder relativo de ambos jugadores no cambia pero no tienen que asumir los costes económicos de la carrera de armamentos y pueden dedicar estos recursos a otras políticas. En tercer lugar (pago 1), los países prefieren adoptar una estrategia no cooperadora (D,D) con la que, pese a su coste, al menos su poder relativo se mantiene estable. En el último lugar (pago 0), los dos jugadores prefieren seguir una estrategia cooperadora mientras el otro país se arma (C,D), ya que, en esta situación, el país cooperador pierde poder relativo y, por lo tanto, su seguridad puede verse amenazada.
Pese a que ambos jugadores obtendrían un mejor resultado si cooperan y abandonan la carrera armamentística (3,3), los dos tienen fuertes incentivos para no seguir esta estrategia. En realidad, si alguna vez se alcanzaba la casilla (C,C) los dos jugadores pueden, de manera unilateral, abandonar esta estrategia cooperadora y defraudar siguiendo una estrategia no cooperadora (p. ej., comprando armas), lo que proporcionaría el mejor resultado posible al jugador no cooperador (que pasaría de un pago de 2 a uno de 3). En el mismo sentido, para los dos jugadores también resulta mejor seguir una estrategia no cooperadora en el caso de que el otro jugador siga una estrategia no cooperadora. En definitiva, la estrategia no cooperadora es una estrategia dominante para los dos jugadores (conduce a los mejores resultados haga lo que haga el otro jugador). Puesto que esta posibilidad resulta cierta para los dos jugadores, es presumible que los dos jugadores racionales elijan su estrategia dominante, de manera que el único equilibrio posible en la carrera armamentística es la casilla (D,D). Una vez alcanzado, ninguno de los dos jugadores tiene incentivos para modificar unilateralmente su estrategia puesto que lo conduciría a su peor resultado posible. ¿Bajo qué condiciones es posible que los jugadores confíen en los otros y adopten su estrategia cooperadora superando el DP? En general, se acepta que si un conflicto internacional presenta una estructura del DP y se juega únicamente una vez, el resultado pesimista (D,D) parece inevitable. Sin embargo, rara vez las relaciones entre los estados son “single shot games”: parece más sensato pensar que las relaciones internacionales se desarrollan en un contexto de repetición en el que los estados están continuamente en negociaciones (o en conflicto) unos con otros. En este caso, las estrategias de los estados pueden dejar de ser binarias (cooperar o defraudar) y pasar a ser continuas, con lo que la estructura del DP puede verse afectada. En el mismo sentido, la repetición puede inducir a los jugadores a “aprender” a adoptar una estrategia cooperadora que, en el caso de que sea compartida por el otro jugador, deriva unos resultados mejores que la estrategia defraudadora. Como veremos más adelante en el módulo “Juegos repetidos”, precisamente el paso del tiempo puede ser una variable clave para explicar de qué manera es posible escapar de un DP.
6.2.3.El juego de la seguridad
Entre el DP y el juego privilegiado hay dos juegos que presentan una tensión entre los ámbitos colectivo e individual más rebajada que en el DP, pero más acentuada que en el juego privilegiado. Por un lado, está el juego de la seguridad. Como se puede ver en el cuadro 12, este juego solo se distingue del DP en la ordenación de las dos primeras preferencias: mientras que en el DP se da que T > R, ahora R > T, es decir, el agente está mejor cooperando si el otro coopera que defraudando si el otro coopera. En el cuadro 15 aparece una ilustración numérica de este juego. No hay una ruptura completa entre el interés individual y el colectivo porque ahora el agente está dispuesto a cooperar si tiene confianza o seguridad en que el otro también cooperará. En el DP la seguridad de que el otro fuera cooperador inducía a defraudar. Con todo, si el jugador espera que su rival defraude, es mejor que también lo haga. Esto da lugar a dos equilibrios de Nash con estrategias puras, el equilibrio (C, C) y el equilibrio (D, D). Dado que en el equilibrio (C, C) los dos jugadores están mejor que en el equilibrio (D, D), lo lógico es que se seleccione el primero frente al segundo. La clave es que haya un mínimo de confianza entre los jugadores. Este juego tiene un tercer equilibrio de Nash con estrategias mixtas (comprobadlo en el ejemplo del cuadro 15), aunque dadas las características del juego resulta difícil encontrar una justificación en el uso de estrategias mixtas en este caso. Existe cierto consenso en considerar que el juego de la seguridad es el que representa mejor la mayoría de los ejemplos de acción colectiva, sobre todo en el ámbito de la política, en el que hay agentes a los que preocupa un cierto bien colectivo por el cual están dispuestos a cooperar con tal de que los otros también lo hagan.
Cuadro 15

El juego de la seguridad

J2

C

D

J1

C

3, 3

0, 2

D

2, 0

1, 1

Esta estructura del juego de la seguridad ha sido utilizada para analizar precisamente el dilema de la seguridad en el ámbito de las relaciones internacionales. Los estados pueden conseguir seguridad 1) cooperando en sus interacciones con otros estados o 2) siguiendo un comportamiento más competitivo. El equilibrio competitivo es peor para los dos jugadores (1,1), pero el equilibrio más cooperativo (3,3) puede resultar vulnerable si no hay suficiente confianza entre las dos partes.
Un caso específico de esta situación es la “guerra preventiva” (un concepto muy relacionado con la carrera armamentística y con la noción de disuasión: de hecho, la guerra preventiva podría considerarse un caso específico de disuasión).
La guerra preventiva está provocada por el miedo de que el otro jugador esté a punto de atacar, junto con el convencimiento de que hay ventajas si se ataca en primer lugar (hay elementos de carácter militar como el factor sorpresa, disponer de la iniciativa...).
El problema de la guerra preventiva puede ilustrarse como sigue:
Cuadro 16

Jugador 2

No atacar

Atacar

Jugador 1

No atacar

s1,s2

w1s , w2f

Atacar

w1f , w2s

w1,w2

Si ningún estado inicia el ataque, los dos reciben como pago el resultado de un statu quo en paz (s1, s2). Si los dos estados se atacan mutuamente, ambos reciben como pago el resultado de la guerra (w1, w2). Si únicamente uno de los dos estados ataca, el estado atacante tiene (supuestamente) ventaja y su pago aumenta hasta wif, mientras que el estado que debe responder al ataque recibe como pago wis. Se asume que wif > wi > wis para denotar la ventaja de atacar en primera instancia.
Si asumimos que wi < si, entonces los dos jugadores preferirán el statu quo a la guerra sin realizar un ataque unilateral. ¿Cuáles son los equilibrios de este juego? Si sucede que wif < si, entonces los dos jugadores preferirán no atacar si creen que la otra parte tampoco atacará (y los pagos se corresponderán al juego de la seguridad). Sin embargo, puesto que wi > wis, si un estado cree que el otro va a atacar, su preferencia será atacar de manera preventiva. Por lo tanto, si uno de los jugadores tiene esta creencia, el ataque mutuo resulta un punto de equilibrio y será el resultado final del juego. Dicho en otras palabras, si la condición o creencia según la cual wif < si no es aplicable a alguno de los jugadores, los pagos se corresponderán a los del dilema del prisionero y el único equilibrio posible será el del ataque mutuo y la guerra.
La decisión de atacar en primer lugar o de responder únicamente en caso de ser atacado fue particularmente importante durante la guerra fría entre Estados Unidos y la Unión Soviética. Y más teniendo en cuenta el desarrollo y el alcance de las armas atómicas del momento. Durante la época en la que la ventaja armamentística correspondía a Estados Unidos, se consideró seriamente la posibilidad de realizar un ataque nuclear contra la Unión Soviética como la mejor de las alternativas posibles. Sin embargo, cuando la Unión Soviética desarrolló la capacidad tecnológica para responder con armas nucleares al posible ataque nuclear norteamericano, la fuerza de este argumento (afortunadamente) se desvaneció puesto que wif < si. ¿Cuál era la ventaja para Estados Unidos de atacar primero si la respuesta a su ataque por parte de la Unión Soviética implicaba la destrucción total del planeta?
6.2.4.El juego del gallina
Finalmente, tenemos el juego del gallina, que es igual al DP pero se invierte el orden de las dos últimas preferencias. Si en el DP es mejor para un jugador que los dos defrauden frente a que uno coopere y el otro defraude, ahora esto cambia y es peor que no coopere ninguno de los dos. La imagen a la que siempre se recurre para ilustrar este juego, y de la cual recibe el nombre, son esas carreras de coches en las que dos conductores avanzan el uno contra el otro y el primero en retirarse pasa a ser considerado el gallina o cobarde. Evidentemente, si ninguno de los dos se retira, se produce un choque con consecuencias fatales. En estas condiciones, es mejor quedar como gallina que provocar el choque. Una versión numérica del juego aparece en el cuadro 17.
Cuadro 17

El juego del gallina

J2

C

D

J1

C

2, 2

1, 3

D

3, 1

0, 0

Este juego tiene dos equilibrios de Nash asimétricos con estrategias puras. Un equilibrio es asimétrico cuando los jugadores reciben pagos diferentes. En este caso, los equilibrios son (D, C) y (C, D). Si J2 asume que J1 defraudará, lo mejor que puede hacer es cooperar; igualmente, si J1 asume que J2 defraudará, J1 cooperará. Cuál de los dos equilibrios va a prevalecer no está claro, puesto que depende de factores que van más allá del juego, que no se pueden incorporar a la representación matricial: concretamente, depende de lo que se conoce como tecnologías de compromiso (commitment), es decir, maneras de hacer irrevocable un curso de acción para que no haya marcha atrás. El individuo que establece un compromiso (ver el módulo “Juegos en forma extensiva”) se ata las manos, como hizo Ulises atándose al palo del barco para evitar la tentación de irse con las sirenas. En el ejemplo anterior, un jugador podría establecer un compromiso arrancando el volante del coche, haciendo ver al contrario que no tiene manera de modificar su trayectoria. Si ninguno de los dos jugadores pudiera establecer un compromiso, la solución más lógica del juego pasa por un equilibrio con estrategias mixtas. Con los pagos ordinarios y arbitrarios del cuadro 17, el equilibrio con estrategias mixtas sería (½C, ½D; ½C, ½D) (comprobadlo). Este equilibrio es simétrico.
La estructura del juego del gallina sirve como analogía de algunas situaciones típicas de la escena internacional en las que la amenaza del uso de la violencia aparece como un elemento fundamental en las negociaciones. Veamos el siguiente ejemplo.
En 1962 la Unión Soviética instaló en Cuba misiles balísticos de medio alcance (y con capacidad nuclear). En plena guerra fría, estos misiles suponían una amenaza para la seguridad de Estados Unidos. Así pues, el principal objetivo de Estados Unidos era la retirada de los misiles y, para alcanzarlo, se consideraron dos posibilidades:
a) El bloqueo naval o “cuarentena” para evitar el envío y la instalación de más misiles, seguido de una acción más directa para provocar la retirada de los misiles que ya estaban instalados.
b) El ataque aéreo para destruir los misiles, seguido de la invasión de la isla.
Como es sabido, la estrategia seguida fue la del bloqueo. Ante este movimiento, los soviéticos podían decidir:
a) Retirar sus misiles.
b) Mantener sus misiles.
El cuadro 18 resume de manera muy esquemática las posibles estrategias y los posibles resultados de la situación: en realidad, las dos partes consideraron más alternativas de las que figuran en el cuadro (por ejemplo, los soviéticos pidieron la retirada de los misiles que los norteamericanos tenían en Turquía a cambio de la retirada de los misiles en Cuba) y, además, el cuadro simplifica la realidad histórica presentando la situación como un conflicto en el que los dos jugadores tomaban decisiones simultáneamente, cuando en realidad hubo negociaciones entre las dos partes durante los trece días que duró la crisis.

Unión Soviética

Retirar misiles

No retirar misiles

EE.UU.

Bloqueo naval

2,2

1,3

Ataque aéreo e invasión

3,1

0,0

La interpretación más común de los analistas es que las dos potencias nucleares estaban en una situación próxima al “choque de trenes”. Sin embargo, parece ser que ninguno de los jugadores quería dar pasos irreversibles y, en consecuencia, no se autoimpusieron límites a sus posibles estrategias. Aunque los hechos históricos pudieran hacer creer que Estados Unidos ganaron el juego (puesto que la solución final fue que se retiraron los misiles de Cuba), también es cierto que los soviéticos consiguieron la promesa de no invasión por parte de los americanos, lo que sugiere que hubo algún tipo de compromiso final (2,2). Entre otros elementos, la existencia de este compromiso entre las dos potencias se traduciría en la firma, en 1963, del Tratado de prohibición parcial de ensayos nucleares en la atmósfera, en el espacio exterior y bajo el agua. Por otra parte, el hecho de que, incluso después de bloquear la isla, los norteamericanos mantuvieran abierta la posibilidad de escalar el conflicto y de realizar un ataque aéreo y una invasión, señala que la decisión de Estados Unidos de optar por el bloqueo no era necesariamente la decisión final sino tan solo un paso en uno de los cursos de acción posibles. De esta manera, si después del bloqueo naval los soviéticos decidían mantener los misiles (1,3), rápidamente se podía pasar al ataque aéreo y a la invasión de la isla, una estrategia que conduciría a la casilla menos deseada por los jugadores (0,0). Esta amenaza abierta es la que posibilitó de alguna manera la estabilidad del resultado final (bloqueo naval, retirada de misiles).
En realidad, bajo el juego del gallina, un jugador racional siempre elige cooperar (es decir, “rendirse”) cuando se enfrenta a un oponente del que no es posible esperar que siga una estrategia cooperativa. En el juego del gallina (a diferencia del dilema del prisionero) no existe una “tragedia” o “círculo vicioso”: los jugadores no están en una posición en la que siempre sea mejor no cooperar por mucho que los jugadores “deseen” cooperar, no están “irreversiblemente condenados” a no cooperar. Obviamente, la razón de esto es que, a diferencia del caso del dilema del prisionero, en el juego del gallina el castigo por la mutua no cooperación es peor que el castigo derivado de una estrategia cooperativa que se viera explotada por la estrategia no cooperativa del otro jugador. En otras palabras, mientras que en el dilema del prisionero la credibilidad de los jugadores de que seguirán una estrategia cooperadora depende de la confianza, en el juego del gallina esta credibilidad depende de su capacidad de elevar amenazas creíbles, depende del miedo.
Los cuatro juegos analizados representan las variaciones posibles en la interacción estratégica que surge en los problemas de la acción colectiva. Cuál de los cuatro juegos será el apropiado para modelizar una situación empírica dependerá de las características propias de cada situación.

Resumen

Los juegos en forma normal corresponden a aquella situación estratégica en la que los jugadores eligen simultáneamente o eligen sin conocimiento de las elecciones del resto.
En ciertas condiciones, la resolución de un juego en forma normal es trivial: así se produce siempre que podemos llegar a un resultado único mediante la eliminación de estrategias dominadas (fuerte o débilmente). Se dice que una estrategia está fuertemente dominada por otra cuando esta siempre produce mejores pagos que aquella. Y está débilmente dominada cuando esta produce al menos pagos tan buenos y, al menos en un caso, pagos mejores. Cuando se puede aplicar el criterio de dominación hasta el final, el juego, a pesar de su naturaleza estratégica, tiene una solución paramétrica.
Si no se aplica el criterio de dominación, entonces la manera de resolver el juego es mediante la búsqueda de los equilibrios de Nash. Un equilibrio de Nash es una combinación de estrategias tal que ningún jugador gana nada cambiando su estrategia. Si solo se consideran estrategias puras, puede suceder que un juego tenga uno, varios o ningún equilibrio de Nash. Cuando también se admiten estrategias mixtas (combinaciones probabilísticas de estrategias puras), todo juego tiene al menos un equilibrio de Nash.
Una estrategia mixta de equilibrio es aquella que hace indiferente al rival entre sus estrategias puras. Si los dos jugadores utilizan sus estrategias mixtas de equilibrio, ninguno puede mejorar sus pagos cambiando de estrategia. No hay que suponer que una estrategia mixta requiere necesariamente un mecanismo de aleatorización. En realidad, se pueden reinterpretar las estrategias mixtas como manifestaciones de incertidumbre.
La teoría de juegos no explica cómo se llega a un equilibrio de Nash: tan solo dice que si los jugadores se encuentran en una situación de equilibrio, no cambiarán de estrategia. Esto no es muy satisfactorio, puesto que la teoría de juegos no puede saber qué sucederá cuando hay varios equilibrios de Nash. Y en principio los jugadores solo seleccionarán un equilibrio de Nash si este coincide con lo que ellos consideran que es la forma razonable de jugar el juego.

Bibliografía

Heckathorn, D. D. (1998). «Collective Action, Social Dilemmas, and Ideology». Rationality and Society (vol. 10, núm. 4, págs. 541-579).
Kreps, D. (1990a). A Course in Microeconomic Theory. Princeton: Princeton University Press.
Kreps, D. (1990b). Game Theory and Economic Modeling. Oxford: Oxford University Press.
Kydd, A. H. (2015). International Relations Theory. The Game-Theoretic Approach. Cambridge: Cambridge University Press.
Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.
Morrow, J. (1994). Game Theory for Political Scientists. Princeton: Princeton University Press.
Nash, J. F. (1996). Essays on Game Theory. Cheltenham: Edward Elgar.