Bayesian Bandits即贝叶斯老虎机问题,是多臂老虎机(Multi-armed Bandit,MAB)问题在贝叶斯框架下的一种解法,以下是关于它的详细介绍:
多臂老虎机问题
- 多臂老虎机问题是一个经典的决策问题,假设有$K$个老虎机(臂),每个老虎机在每次拉动时都有一个特定的概率$p_i$产生奖励,玩家每次只能选择拉动一个老虎机的臂,目标是在有限次的尝试内,通过合理的策略选择拉动哪个臂,以最大化累积奖励。
贝叶斯老虎机的解法思路
- 引入先验分布:在贝叶斯老虎机中,我们对每个臂的奖励概率$p_i$引入先验分布。例如,通常会选择 Beta 分布作为先验分布,因为它在处理概率参数的...
