在连续空间作连续的决策; 多个Agent的存在给状态空间带来维数灾难; 环境的反馈延迟太长。 环境具有强实时性和动态性; 环境通讯带宽很窄; 环境有噪声; 环境具有部分可观性; 环境不具有马尔可夫性;
(2).对方球队的整体倾向。如对手是倾向于进攻还是倾向于防守。 (3).比赛的场上情况。比如说场上的比分,是落后还是领先。
(4).场上是否处于关键状态。如我们已经攻入对方禁区或对手攻入我方的
(1).整体策略指定了队伍的阵型以及其中队员的位置。更进一步,它可以决 定什么情况下应该采用什么样的阵型。
(2).整体策略定义了阵型中不同的角色,并把角色分配给不同位置的球员, 同时确定哪种异构球员适合哪种角色。
(3).对于每种类型的球员(后卫,中场,前锋等)球队策略应该根据它的角 色确定分配给他哪些相应的行为。如对一个防守队员来说,一般它应该比进 攻队员保守,它选择的动作也应该是偏向防守的。
(4).整体策略一般还包括球员应该如何根据场上形势来调整行为的信息。比 如在特定的策略下,一个球员在对自己的动作进行选择的时候应该考虑到位 置和位置所在的区域,同时还要考虑队友和对手的位置。
(5).整体策略应该指定如何协调各个球员的行为.因为不同的球员由于感知 的不同,在策略的执行上可能出现不协调。如何减小这种潜在不协调的危险 是策略的一部分。
实际上,机器人足球比赛中的动作选择可以看成是在一定的环境下 Agent在自己获取的世界状态(s)情况下的选择什么样的a,由于系统实 现的时候引入了噪音,因此环境不具有Markov性,也就是不可再现 性,原则上说他就不具有使用强化学习的可能。当如果简化这些影 响,也可以把这个过程看成马尔可夫过程,进而采用强化学习的方 法。
(6).整体策略还应该能够在比赛中合理的管理球员的体力。如球员在比赛中 如果自己的体力特别低,除非万不得已一般尽量减少跑动以恢复体力。
球能力强在传球的时候对传球的细节考虑就应该更细一点,对手弱,考 虑的就少一点,可以为追求更好的结果而采用更加冒险的传球。
强化学习的关键是Agent与环境的交互可以看成是一个马尔可夫模型, 也就是说,环境应该具有再现性。
在Robocup中,我们考虑“战术”任务是这样一种情况:进攻一方在一活动 范围内试图保持控球权,同时另一方试图夺回控球权。无论何时防守方获得 控球权或球离开此区域,这个时间段就结束,球员便放置到另一个时间段 (进攻方再次被给予控球权)。
SBSP是一个比较成功的球队整体策略的应用。它的基本思想是把场上状态 分为积极的和战略的。球员的策略也分积极的和战略的。当场上状态是积极 的时候,一般这是也就是关键的时候,如已经攻入了对方禁区,或进行战术 配合的时候,这时Agent就不在考虑在进行高层的决策直接采用反应式的方 式,如进入禁区面对守门员形成单刀,这是只有一个动作选择,那就是射门。 当场上状态进入战略状态的时候,如进攻时,控球队员是处于积极状态,它 进行动作的选择,其他队员都进入战略状态,这时它们的选择就是跑位,这 就是使用SBSP,跑到一个战略位置。防守时在考虑盯人、阻截球的情况下, 其他队员就要选择合适的位置进行跑位。这时使用的也是SBSP。
Strategic Positioning) 介绍了一个局部战术配合3Vs.2战术。 一般进攻体系的设计,主要包含进攻队员的动作选择,一般队员的
SBSP首先是由FC Portugal提出的,它是结合了Peter Stone在CMU球队里面的阵型和位置的概念,并在此基础 上面引入了战术、场上情况、队员类型等概念。
协同以及跑位。 一般防守体系的设计,涉及到防守点的选择,防守动作的评价、守
从足球比赛的角度来看,体现球队整体策略的就是球队的整体进攻和 防守体系,当所有球员都按照相同的决策框架来进行决策时,球员的 决策依据都相同,对其他队员的预测就比较准确,整个球队就能够体 现出一定的协调性了。当Agent间的意愿一致的时候他们就会进行协 作,当他们的意愿不一致的时候,就要进行协商,处理矛盾。Remco 在他的论文中对球队的整体策略进行了一下归纳。
区域设定为20M*20M的正方形,并总有3个进攻队员和2个防守队员。球员涉及的动作 主要有:
HoldBall( ):持球,持球保持静止并尽可能远离对手。 PassBall(f):传球,将球直接踢给f。 GotoBall( ):跑向球。 GetOpen( ):跑位,跑到一个空旷的位置,在这个位置能得到传出的球。 所有防守方都采用固定的策略GOTOBALL( ),也就是说他们试图阻截球,拿到球后用ballbet贝博