pysc2_maddpg

简介

pysc2_maddpg 这个项目是我在中科院自动化所的实习代码，主要是利用深度强化学习的MADDPG算法，应用到暴雪开源的SC2LE强化学习开发环境，来训练星际争霸2中一个简单的对抗环境。

功能

利用Open AI的MADDPG多智体联合算法，训练了星际争霸2——sc2le环境中最基本5v5对抗中的收割者。

当动作空间为3，初始态为攻击态时，胜率达到90%。
通过训练，收割者能够实现索敌靠近。
能够基本协同作战，以获得更高胜率。
考虑血量和己方的攻击力，选择作战攻略（目前还未实现）。

项目

Papers

papers是项目的理论支撑，包括项目的参考的论文。

DQN论文。
DDPG论文。
MADDPG论文。
sc2le论文。

Document

Document是前人文档。

maddpg

maddpg是代码的核心部分，包含maddpg算法和pysc2环境两个部分。

sc2_env是项目对于pysc2环境的接口，包含combined_action.py和runner.py两个文件。其中combined_action.py是动作空间文件，规定了动作个数，在在3动作空间会有更好的表现。runner.py将我们的agent接入了pysc2环境。
maddpg是项目调用的maddpg算法的部分，包含trainer，common和agent.py文件。其中trainer和common是MADDPG自带的部分，用于规定算法；agent.py文件是我们自己实现的agent类，具体可以实现一些特殊的动作，如选择单元、选择控制组、获得当前状态等等。

csv文件

项目的csv文件是数据记录文件，记录了实验的相关数据。

load文件

项目的load文件将会显示试验的结果。

load_win.py显示了胜率随着局数的变化。
load_loss.py显示了训练的loss曲线。

train_maddpg.py

train_maddpg.py训练总文件，配置好环境之后运行的文件。

设计思路

游戏采用最简单的5v5场景，为了让收割者们通过学习学到好的策略，设计采用condition-strategy-rewards的基本构架。

condition

为了让收割者们有更好的表现，我们需要让收割者们上场杀敌。杀敌的时候就需要考虑血量和攻击力两个方面。condition暂时还未实现，是未来工作的一部分。

假设我方还有m个幸存的收割者，血量分别是$$Hp_1, Hp_2,..., Hp_m$$，收割者的攻击力大体上相同，所以我方此时的攻击力为$$D=µm$$，µ是常数。同理，对方还剩下n个幸存者，血量分别是$$Hp'_1, Hp_2',..., Hp_m'$$，攻击力为$$D'=µn$$。那么敌我双方团灭时间大致为$$t_1=\frac{\sum{}Hp}{D'}$$和$$t_2=\frac{\sum{}Hp'}{D}$$。当我方团灭时间大于对方时候，$$m\sum{}Hp>n\sum{}Hp'$$时，攻击。

考虑pysc2内置的reward是当前帧减去前一帧的score，为了获得更大score，我们应该让$reaper_i=\arg\min_{reaper_i}(Hp_{reaper_i})$号收割者远离，并派遣其他收割者攻击。

其余情况均远离。

Github上可能无法加载condition，condition图片版点击此处。

strategy

采取攻击策略有助于提升胜率，但是盲目攻击又将带来损失，因此我们制定了一套该场景下的策略。

主动参兵有奖：设置distance，当我方收割者与离之最近的敌方收割者拉近距离时候会有奖励；若已经进入战场，不再通过distance增加reward。
支援队友有奖：当拉近距离之后，孤军奋战是不好的策略，因此当我们所有的收割者都执行攻击动作的时候，有一个相应的奖励。
战场杀敌有奖：此项由于涉及到score，是pysc2内设的，因此不予考虑。

rewards

rewards在agent.py，runner.py和train_maddpg.py中都有涉及，范围较广，暂时考虑了两种rewards，分别是pysc2内置的score带来的reward 和距离拉近带来的rew_d。

项目结果

代码截图

对战截图

结果截图

在初始化为攻击状态，动作空间为3个动作时，胜率可以达到90%多。
在初始化为任意状态，动作空间为3个动作时，胜率可以达到50%多。
在初始化为任意状态，动作空间为7个动作时，胜率只有20%左右。

参考

鸣谢

感谢导师对我工作的支持。
感谢Sherry，在背后默默对我代码工作和学习生活一贯的支持。

Name	Name	Last commit message	Last commit date
Latest commit LovelyBuggies Update README.md Feb 7, 2019 5e28bf3 · Feb 7, 2019 History 51 Commits
Documents	Documents	documents	Aug 17, 2018
Images	Images	images	Aug 27, 2018
Papers	Papers	papers	Aug 27, 2018
Wiki	Wiki	wiki	Aug 27, 2018
maddpg	maddpg	project1.1	Aug 27, 2018
papers	papers	papers	Aug 27, 2018
res	res	project1.0	Aug 17, 2018
tmp/policy	tmp/policy	project1.0	Aug 17, 2018
.DS_Store	.DS_Store	imagines	Aug 27, 2018
.gitattributes	.gitattributes	Initial commit	Aug 7, 2018
README.md	README.md	Update README.md	Feb 7, 2019
load_loss.py	load_loss.py	project1.1	Aug 21, 2018
load_win.py	load_win.py	project1.0	Aug 17, 2018
reapers_loss.csv	reapers_loss.csv	project1.0	Aug 17, 2018
reapers_win_pro.csv	reapers_win_pro.csv	project1.0	Aug 17, 2018
testFunc.py	testFunc.py	project1.0	Aug 17, 2018
train_maddpg.py	train_maddpg.py	project1.1	Aug 21, 2018
win_pro.csv	win_pro.csv	project1.0	Aug 17, 2018
win_pro1.csv	win_pro1.csv	project1.0	Aug 17, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pysc2_maddpg

目录

简介

功能

项目

Papers

Document

maddpg

csv文件

load文件

train_maddpg.py

设计思路

condition

strategy

rewards

项目结果

代码截图

对战截图

结果截图

参考

前人工作

参考网页

参考代码

鸣谢

About

Releases

Packages

Languages

LovelyBuggies/Python_MADDPG_SC2LE

Folders and files

Latest commit

History

Repository files navigation

pysc2_maddpg

目录

简介

功能

项目

Papers

Document

maddpg

csv文件

load文件

train_maddpg.py

设计思路

condition

strategy

rewards

项目结果

代码截图

对战截图

结果截图

参考

前人工作

参考网页

参考代码

鸣谢

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages