精华公布栏

发信人: sungirl (打抱不平), 信区: Robot
标  题: 基于BDI的足球agent和TH-soccer平台
发信站: 哈工大紫丁香 (2003年11月20日13:43:10 星期四), 站内信件

1　概　　述
机器人足球赛soccercup由agent组成两个球队进行足球比赛,需考虑agent的协商、协作
和对抗等问题.机器人足球赛中agent必须在资源有限的情况下,完成思考和行为规划.在
研究中,通常有如下制约:本方agent以行为等隐式通信方式为主;比赛中,agent间不存在
明显的层次控制关系;agent只具有有限的行为能力.
AI99的110卷为机器人足球赛专刊.MilindTambe等人认为国际象棋一直是AI的标准问题,
但国际象棋是回合制、静态和集中控制的,而soccercup是动态、实时和分布控制的,因此
可将AI和机器人研究统一于以soccercup为标准的测试床之上.在soccerserver中规定:P
layer可具有有限的预定义信息;Player的通信只能通过soccerserver完成,并具有范围限
制;Player的体力有限;由server传递给player的环境信息是有噪声的;比赛处于一个动态
和实时环境中.MilindTambe将其teamwork领域的工作应用于机器人足球队的构建中,并指
出独立的agent是无法在群体活动中完成任务的,它必须知道队友的角色和行为.Tambe还
引入了学习概念:(1)射门方向的学习;(2)抢断方向的学习.
在PeterStone和ManuelaVeloso的模型中,在有限通信的条件下(soccerserver为agent提
供的是一个单通道的不可靠的通信机制),agent为了完成teamgoal,必须有行为的自主性
.teamgoal在比赛前预先设定,存储于agent思维状态中.比赛中,agent根据当前阵容而扮
演不同的角色.每个agent内均具有locker-roomagreement模块,定义了teamworkstructu
re和内部通信协议.Teamworkstructure由3部分组成:1灵活的角色选取;2用角色构造阵容
;3基于角色的teamplans.
在实际系统中,阵容定义了其中各角色的位置和活动范围.阵容的动态变化有3种考虑:1不
变;2每个agent均设有一个相同的阵容评估函数;3由一个agent决定.
与主流观点不同,BarryBrianWerger继承了Brooks的理论[3],认为在soccercup中可用简
单行为构成高层次的复杂活动,无需外部环境的模型、显示的通信和大量的计算,而且推
理系统在某些场合比传统AI算法更为有效.但已有的机器人足球赛的工作较多集中于tea
mwork,对agent结构本身讨论较少,teamwork与个体行为的分离往往导致个体行为与team
行为选择的矛盾,进而降低系统灵活性和效率.
本文关于机器人足球赛的研究,主要集中于几个方面:构造TH-soccer测试床,并基于BDI实
现了足球agent,在模型上不仅实现了teamwork方法,还可解决个体与team行为选择矛盾的
问题,实现个体对抗,局部战术和全局战术等协商、协作和对抗,完成足球比赛.建立自己
的soccerserver平台,为构造实际的agent足球队,全面展开自主的机器人足球赛研究提供
了可能,也为各种MAS方法的深入研究提供了便利条件.基于BDI建立足球agent,可利用已
有的研究成果,并得到思维状态的产生以及相互演化的算法.
2　TH-soccer平台
本文建立的TH-soccer是一个标准的机器人足球赛运行环境.
它分为以下部分:规定标准的基本动作集合A={跑动,带球,踢球,断球,铲球,射门,扑救,掷
界外球,…}.不同的动作有不同的属性,如跑动属性有:速度、方向;踢球属性有:力量、角
度、高度等;扑救属性有:方向、距离等.标准动作的设定为agent设计提供了基础.
规定比赛规则:规定越位、任意球、点球、角球进球、中圈开球等规则,提供判定算法.
提供标准的环境感知机制:为agent提供标准的环境感知接口,利用接口,agent可实现感知
能力,并以此获得外部信息.实现中,测试床获得所有的agent和外部环境的信息,并按一定
的规则(agent的位置、角度)将不同的部分提供给各agent.
运行平台:提供比赛环境,控制比赛进行,执行agent产生的基本动作;设置环境的改变(ag
ent位置、足球的位置);按比赛规则,决定比赛事件的产生,如犯规、进球等.
通信机制:TH-soccer测试床严格将各agent分开,并消除中心控制存在的可能.提供3种环
境:(1)测试床中agent将无法进行显式的通信,agent间的信息交换,只能通过环境感知机
制进行;(2)测试床中agent可进行含有噪音的显式通信;(3)测试床中agent可进行无噪音
的显式通信.
系统的运行环境为WindowsNT4.0,开发环境为MicrosoftVC++5.0.系统由两部分构成:TH-
robo测试床,agent足球队,二者相互独立,agent运行于测试床之上.
3　agent结构
足球赛是典型的MAS问题,为有效表示agent思维状态和过程引入BDI模型.agent模型关键
还在于行为规划库P的表示.TH-soccer平台已规定了基本动作,但有效的组合动作可降低
问题搜索空间,因此也成为了agent模型的核心内容.
具体描述如下:P=Pp∩Pt,Pp={pi},pi={ai1,ai2,…,ain},n≥1,Pt={gi},B={fi},fi:(di
,E,GS)→R,D={di},di∈P,即D=P,I={ii},ii∈P,
其中,Pp是个体行为规划,Pt则是群体战术规划,pi是一个基本动作序列,gi为战术行为,定
义见第4节;B体现为判断规则和计算公式;D体现为各种具有潜在可能的比赛行为;I体现为
决定实施的比赛行为,E为环境,GS为全局战术参数.在agent思维过程中,利用B中的规则和
当前环境E以及当前全局战术GS,对D中的各种可能行为评估,得到最优解,并将其设为I,转
化为行动A.如:一个持球agent,它的可能行为有向队友传球、向区域传球、射门、带球移
动、战术执行等,利用B中的规则和公式对所有可能行为计算,得到最优行为,并执行.
了解对手是对抗活动的基本前提,建立对手模型也成为了机器人足球赛的一个基本问题.
基于BDI模型,在AnandSRao等人工作基础之上[5],实现了对手agent模型和相应算法,以达
到在动态开放环境下,实时跟踪对手的思维状态,为决策提供支持的目的.
将agent自身视为agent1,将被跟踪的agent视为agent2,则agent1所建立的agent2对手模
型元组描述为O=〈B,D,IS,IP,IW,H〉,O在agent1的BDI模型中应是一组Belief,即Bel(ag
ent1,O).各元组分别为B:任意Ψ∈B Bel(agent2,Ψ),集合B包含了agent1知道的agent2
所具有的Belief;D:任意Ψ,Des(agent2,Ψ) Ψ∈D,agent2实际的集合是D的一个子集,即
D包含了agent2所有可能的Desire;IS:任意Ψ∈IS Intention(agent2,Ψ),IS表示可以确
定的agent2的Intention,包括先验的Intention和通过观察、通信等手段获得的Intenti
on;IP:对手的可能Intention,通过已有BDI信息所推断出当前agent2可能具有但无法确定
的Intention;IW:IW表示在agent2所有可能的Intention中agent1所关心的部分,可将IW称
为Intention的观察窗口.对于该集合之外的Intention,模型不考虑;H:H={ai},ai表示ag
ent2在特定时间所执行的特定动作.H记录一定时间内的对手事件.
约定O中的B,D,IS满足典型的BDI约束关系;对于任意Ψ∈IP,B,D,IS+{Ψ}也满足典型的B
DI约束关系.但模型中,B,D,IP无须满足BDI约束,即IP集中的Intention可以相互矛盾.
模型的运行算法可划分为5步骤:Step1.初始化操作,将模型各元素置初始状态;随后,系统
按Step2至Step5顺序循环执行.Step2.获得外界信息,修正对手模型中的B,D,IS元素.Ste
p3.根据B,D,I的约束关系,修正IP,消除思维状态的内部矛盾.Step4.将可能的Intention
加入IP.Step5.在IP中存在多个对手Intention,它们均是不确定的,为了有效跟踪对手,应
对其进行排序,以便为自身决策提供依据.对可能意图的排序的方法应依不同具体情况而
定,通常,我们可考虑意图实现的代价和对手的历史信息等因素.在机器人足球赛中,对抗
双方有着基本一致的思维和行为方式,也意味着对对手有一定程度的了解,即B,D,IS与对
手BDI的实际情形会基本一致,这使得模型有效性得到保证,在实验中的结果也证明了这一
点.
4　战　　术
MAS的核心是协作和协商方法研究,机器人足球赛由多agent参与,战术配合也是一种协作
,更是完成比赛的重要手段,如何表示战术中agent关系以及战术形成、执行、调整也是机
器人足球赛的课题.比赛中,不存在明显的中心控制和显式的通信战术只存在于个自独立
的agent中,也是agent的思维活动的一部分.为解决战术的执行,目前多采用teamwork方法
,teamwork中预先设定角色,角色对应于teamplan中的相应动作,执行中角色可动态匹配于
不同的agent.teamworkstructure存储于不同agent知识中.为了提高求解速度,简化求解
过程,我们将战术分为两个层次:全局战术和局部战术,分别对应于比赛中的全队战术和小
组战术配合在局部战术中,我们利用基于BDI的agent模型实现了teamwork方法,使得在BD
I统一框架下,个人战术与局部战术和全局战术可以统一协调,不至产生矛盾.
(1)全局战术全局战术对应于可持续性team目标.实际系统中,赛前或中场休息时设定的,
对全队有效的战术即为全局战术,将其分为5种:比赛阵型(442、433352、532等);比赛策
略(进攻、攻守平衡、防守);比赛强度(全力投入、一般、消极);进攻方式(边路进攻、中
路进攻);传球方式(短传、长传).全局战术表现为B的GS,具体理解为公式和规则中各参数
变化.如:传球方式战术,在持球agent向各队员传球的可能行为评估值的基础上,根据目标
队员所在区域不同,增加区域附加值,如战术为边路进攻时,边路队员的值较大,中路队员
的值较小,这样全队战术就体现出来.
(2)局部战术局部战术中team组成和目标均为非持续性的.实际系统中局部战术表现为小
组配合,局部战术存储于思维状态的D中.战术的选取表现于B中一个战术要考虑双方球员
位置、球的状态等因素.但当多个战术选取时,与参与人员的构成密切相关,实际比赛中战
术多围绕球星进行,球星的位置和状态往往影响战术的选择.为此引入角色权重的概念,即
战术的选择还取决于参与战术的球员的指标,如头球好的球员在对方门前,则传中/射门战
术的值会增加,而脚法好的球员在对方门前,则短传渗透战术的值会增加.
有效的战术表示,可简化系统设计,将战术gi可表示为三元组{R,M,fw}.其中,R={ri},表示
参与战术的人员的角色构成;M={{ri,pi}},ri∈R,pi∈Pp,M是战术规划,表示为战术中各
角色的对应基本动作序列,fw是角色权重选择函数fw:(v1,v2,…,vk)→[0,1],vi表示各角
色的技术指标,通过fw可得到一个选择参数,以调整各战术的评估值.
一个实际的战术产生过程:感知信息;对应不同战术,按其表示,将不同的角色与一组agen
t建立对应关系,再对不同可能战术进行评估,得到最优战术后,对应战术中的个体角色,产
生个体意图和行为.
战术执行是一个协作问题,在没有显式通信的情况下,保证agent间的行为一致性是必须的
,由战术产生过程可知当agent的D和B及环境知识一致时,战术的选择也是一致的,反之,则
会存在差异.在soccercup中,D和B及环境知识的一致可由agent构造时得以保证.其实D与
B的一致也正是所谓的“默契”.
综合个体与战术行为的产生过程,agent的思维算法如下:Step1.对D中所有元素di,计算评
估值Vi;Step2.若di∈Pt,则利用fw,计算选择角色权重选择参数Si,并Vi=Vi×Si;Step3.
对Vi排序,得最大值Vk;Step4.若dk∈Pt,则由角色与行为的对应规则M,得到p′,令I={p′
};否则令I={dk};Step5.gotoStep1.

--
                     ○
                    /[]\
                    _||_


※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 218.10.59.34]