笔趣阁 > 都市小说 > 重生学神有系统 > 第420章 强化学习的威力

第420章 强化学习的威力(2 / 3)

夏雨菲想了想,说:“我和莹莹差不多,对机器人也基本上一窍不通,还是你们四个上吧,我和莹莹给你们做后勤。”

江寒和靳雪雯对视了一眼,一齐摊手。

这样“新寒江雪”战队便只有四名队员了。

接下来,江寒和方源开始研究AI算法。

能采用的算法很多,但要考虑到算法的强度,以及机器人本身的计算能力。

好在时间还算充裕,可以慢慢尝试。

江寒打算试一试机器学习中的“强化学习”。

这是一种非常独特的算法,可以让机器人“自学成才”,无需编写复杂的逻辑。

方源对此表示期待和喜闻乐见,但也有一些担忧。

关键问题是,在比赛之前,没法拿到场地的准确数据。

这样一来,事先训练好的机器人,也不知道到了赛场上,会不会适应不良?

江寒洒然一笑:“所以咱们要做两手准备。”

“哦?”方源眼神亮了起来。

江寒的想法很简单。

他和方源分别打造一套AI算法。

江寒尝试“强化学习”路线,方源则按照传统方式编程。

比赛之前,队伍内部先来次PK,谁的AI战斗力强,就派谁上场。

“这个办法好。”方源马上表示赞同。

接下来,两人就分头行动,各行其是。

另一边,靳雪雯等女孩子,将几个战车机器人的包装,全都拆了开来。

“哇,好漂亮!”小鱼儿惊叹了一声,随后拿起一台战车机器人,爱不释手地摆弄着。

“花了不少钱吧?”小鱼儿问。

靳雪雯嘻嘻一笑:“一共8万多,险些花光我的压岁钱。”

小鱼儿:“……”

意思是还没花光呗?

这天开始,靳雪雯每天都来苏家。

大家聚在一起玩玩闹闹、其乐融融,顺便训练、训练机器人,不亦乐乎?

江寒让靳雪雯又买了五台机器人,和方源每人选择五台,分头训练。

两人的程序很快都编好了。

由于方源采用了传统算法,程序调试完成后,直接烧录到机器人的ROM中,就可以运行了。

而江寒这边的“强化学习”,实现起来就没那么简单了。

程序本身就很不好弄,训练起来更加麻烦,需要相当多的时间。

“强化学习”在这个世界早就出现了,其中最重要的概念,就是智能体(Agent)。

在这个案例中,一台战车机器人,就是一个智能体。

训练的过程中,智能体可以得到所处环境的状态信息,并采取试探行动。

当环境对某个动作给与了正向反馈时,智能体将来就会更加倾向于这种举动。

反之,如果得到的是负面反馈,那么就减弱这种倾向。

这样,智能体就能在不断地试错中,一点一点地优化行动策略……

例如著名的Q-learning算法,江寒之前就有过一些研究。

在Q-learning中,用一个表格来保存状态和动作的Q值,称为Q-Table。

通过修改Q-Table的值,就能生成一个指引智能体行动的“纲领”。

然而,这种办法虽然简单、直观,易于实现,但也有着致命的缺陷,那就是只适合状态和动作空间是离散的,而且维数不太高的情况。

当状态和动作空间是连续的,或者维度很高时,再用Q-Table来表达,就有点力不从心了。

为了解决这个问题,江寒很自然地想到了DQN算法。

所谓DQN,全称是DeepQNetwork,实际上就是将深度学习和强化学习结合到一起的产物。

最新小说: 狂龙下山:我是国手仙医 徒儿你无敌了,快下山去吧 末世:求生游戏,我跟丧尸学斩仙 饥荒年,我囤货娇养了古代大将军 狱出邪龙 真千金她一抬眸,海城大佬齐低头 九阳绝脉:下山后我无敌了 无敌纨绔,归来祸乱天下! 我入狱五年,出狱已无敌 联姻多年后,她重生了