Best Response
13 Mar 2022博弈论第四课. 接着第三课深入介绍了 BR (Best Responese) 策略, 首先是以罚点球 (Penalty Kick Game) 为例子讲了离散情况的 BR, 然后以 Partnership Game 为例子讲了连续情况下的 BR 并引出了纳什均衡.
罚点球博弈, 你作为罚球球员, 可以选择将球射向 左, 中, 右 三个方向, 守门员会选择 左 或者 右 来扑球. 如果你射向左, 守门员也扑向左, 那么你的 payoff 就会低, 如果你射向左, 守门员扑向右, 那么你的 payoff 就会高. 你射向右的情况也是类似的, 射向中间则会介于高和低两个 payoff 之间. 显然, 这里面是没有被支配的策略的, 根据守门员的策略, 你没有哪个策略是完全被支配的. 所以解决方案就是算期望, 假设守门员扑向左边的概率是 p
那么扑向右边的概率就是 1-p
, 基于这个就可以算出我们每一个策略的 payoff 的期望是多少, 是一个关于 p
的函数, 将每个策略的函数图像画在一起, 这样, 根据你认为的守门员的 p
值, 你就可以选择 payoff 期望最高的那个策略.
罚点球博弈中罚球员和守门员的可选择策略都是离散, 我们引入了 p
这个连续变量来辅助我们做决策. 如果博弈中双方可选的策略是连续的情况下我们怎么处理呢? 我们假设 A 和 B 选择的策略分别为 \(s_a\) 和 \(s_b\), A 的 payoff 是一个关于 \(s_a\) 和 \(s_b\) 的函数: \(u_a = f(s_a, s_b)\). B 的 payoff 也类似: \(u_b = g(s_b, s_a)\). 这时候怎么使用 BR 策略来决策呢? 其实很简单, 以 A 为例, 我们要做的就是假设 \(s_b\) 已经确定, 然后求使得 \(u_a\) 最大的 \(s_a\) 值, 也就是说, 求 \(f(s_a, s_b)\) 关于 \(s_a\) 的偏导数, 并令其等于 0, 即可求得在 \(s_b\) 确定情况下的 A 的 BR 策略 \(\hat{s_a}\), 为了确保此时求得的是最大值, 还要确保 \(\hat{s_a}\) 附近, 偏导数的偏导数的值为负 (否则可能求的是最小值). 这样我们就可以求得 A, B 双方在对方策略确定情况下的 BR 策略. 然后我们可能会发现, A, B 双方有些策略永远不可能是 BR 策略, 以 A 为例也就是说 \(\hat{s_a}\) 的取值范围是 \(S_a\) 的子集, 这样我们就可以把双方永远不可能是 BR 策略的策略删除, 进一步观察我们可能会发现在删除了永远不可能是 BR 策略的策略后, 双方剩下的策略中有些策略又不可能被选择, 如此下去, 我们最终得到的策略就是双方最后可选的策略. 课堂上教授给的例子双方最终只剩下一个策略可选, 这个情况下双方的策略互为对方的策略的 BR 策略, 这个情况就叫做纳什均衡.