DQN的原理相当简单,只要将Q-Table换成人工神经网络就行,但如果想取得理想的效果,那就得讲究一点细节了。
首先要克服的,就是噪声、延迟和不稳定等问题。
江寒在虚拟空间里忙碌了三百多个小时,才终于弄出了一个比较完善的DQN算法。
接下来,就是漫长的训练过程。
好在这种算法最大的优点,就是不怎么需要人工干预,只要给“智能体”适当的环境,它就能自主学习、慢慢进步。
苏婉莹特地将阁楼清理出来,给大家做训练场地。
江寒让方源的五台机器人,给自己麾下的战车做陪练。
一开始,江寒的机器人看起来笨头笨脑的,和无头苍蝇差不多。
别说作战了,连路都跑不明白,经常卡在莫名其妙的地方,原地转圈圈。
看到这种情况,大家不免心里有点没底。
靳雪雯藏不住事儿:“江寒哥哥,这种办法真的行吗?”
苏婉莹直接吐槽:“江寒,你这几台战车,看起来不怎么聪明呀?”
夏雨菲也有点担忧,问江寒:“它们好像一直在乱转,这都半个下午了,是不是哪里出问题了?”
江寒淡淡一笑:“现在下结论还太早了点,过两天再看效果吧。”
这些战车机器人都是标准套装,性能还算不错,续航就比较马虎了。
通常能连续运作三个小时,就差不多到极限了。
为了解决这个问题,江寒不得不设计了一个磁吸式充电接口,让这些机器人电量消耗得差不多时,自己滚去充电……
江寒的五台战车机器人,每天都在缓慢地进步着。
从一开始什么也不懂,慢慢学会了走路、射击、躲闪……
三天后,训练效果渐渐体现了出来,至少与方源PK时,不再一面倒的被屠杀。
虽然处于下风的时候多,占据优势的时候少,取得胜利的次数,更是约等于0。
但这种其妙的现象,仍然引得苏婉莹、夏雨菲等人啧啧称奇。
她们之前的确没想到,这些“死”的机械,居然也能在实战中,不停地成长!
渐渐的,江寒的机器人学会了简单的战术配合,这样一来,再和方源PK,胜率就提高了不少。
又过了两天,方源的机器人,就彻底不是对手了。
没办法,方源的程序,是传统的逻辑推理型AI,成长性约等于没有,写成什么样,就是什么样。
而江寒这边,却是一个拥有学习能力的AI,只要有充足的时间,就可以愈练愈强!
这天,江寒和方源又进行了一场友谊赛。
开战不到3分钟,江寒这边就摧枯拉朽一般,将方源的队伍虐了个体无完肤。
“不玩了,不玩了。”方源用力摇头。
“老板,你的机器人进步太快了,我估计,等到下周比赛时,差不多能和遥控战车一较高下了。”
江寒却笑着摇了摇头:“只怕还不够。”
“你是说时间吗?”方源问。
江寒解释说:“不仅仅是时间的问题,我这个算法的上限,取决于陪练的战斗力,现在这种情况,只怕后面很难有大的进步了。”
方源若有所思,忽然问:“老板,就凭你这几台机器人的强度,差不多也够用了吧?”
他对自己的编程能力,还是相当自信的,正式比赛中的对手,不可能个顶个都比自己强……
江寒摇了摇头,平静的说:“其他队伍的情况,目前还不清楚,我们拿冠军的可能性,不能说没有,但还不够大。”
方源默默点头,忽然说:“可惜我的能力有限,弄不出战斗力更强的机器人,否则就能给你做陪练了……”
江寒心中一动,忽然想到了一个办法。
不如在方源的这几台机器人里,也写入训练好的DQN网络,然后,让两个DQN网络对战!
这样一来,这些已经达到瓶颈,很难取得进步的机器人,不就可以在对抗中,一起成长了吗?
然后,你成长一点,我成长一点……
江寒越想越觉得可行。