一、从生活实例理解强化学习
想象一下,你养了一只可爱的小狗,你希望它学会 “坐下” 这个指令。最开始,小狗对这个指令毫无概念,它可能在你发出指令后四处乱跑、玩耍。但当它偶然间坐下时,你立即给予它美味的零食作为奖励,同时给予它热情的夸赞,比如 “你真棒”。在这个场景里,小狗就是智能体,它所处的周围环境,包括你、房间等,构成了环境。小狗原本随意的状态,在听到指令后转变为坐下,这就是状态的变化。小狗做出坐下的动作,就是一次决策行动。而你给予的零食和夸赞,则是环境给予小狗的奖励。
随着你不断重复这个过程,小狗逐渐明白了 “坐下” 这个动作与获得奖励之间的关联。它开始主动在听到指令时坐下,因为它知...