第420章强化学习的威力_重生学神有系统

夏雨菲想了想，说：“我和莹莹差不多，对机器人也基本上一窍不通，还是你们四个上吧，我和莹莹给你们做后勤。”

江寒和靳雪雯对视了一眼，一齐摊手。

这样“新寒江雪”战队便只有四名队员了。

接下来，江寒和方源开始研究AI算法。

能采用的算法很多，但要考虑到算法的强度，以及机器人本身的计算能力。

好在时间还算充裕，可以慢慢尝试。

江寒打算试一试机器学习中的“强化学习”。

这是一种非常独特的算法，可以让机器人“自学成才”，无需编写复杂的逻辑。

方源对此表示期待和喜闻乐见，但也有一些担忧。

关键问题是，在比赛之前，没法拿到场地的准确数据。

这样一来，事先训练好的机器人，也不知道到了赛场上，会不会适应不良？

江寒洒然一笑：“所以咱们要做两手准备。”

“哦？”方源眼神亮了起来。

江寒的想法很简单。

他和方源分别打造一套AI算法。

江寒尝试“强化学习”路线，方源则按照传统方式编程。

比赛之前，队伍内部先来次PK，谁的AI战斗力强，就派谁上场。

“这个办法好。”方源马上表示赞同。

接下来，两人就分头行动，各行其是。

另一边，靳雪雯等女孩子，将几个战车机器人的包装，全都拆了开来。

“哇，好漂亮！”小鱼儿惊叹了一声，随后拿起一台战车机器人，爱不释手地摆弄着。

“花了不少钱吧？”小鱼儿问。

靳雪雯嘻嘻一笑：“一共8万多，险些花光我的压岁钱。”

小鱼儿：“……”

意思是还没花光呗？

这天开始，靳雪雯每天都来苏家。

大家聚在一起玩玩闹闹、其乐融融，顺便训练、训练机器人，不亦乐乎？

江寒让靳雪雯又买了五台机器人，和方源每人选择五台，分头训练。

两人的程序很快都编好了。

由于方源采用了传统算法，程序调试完成后，直接烧录到机器人的ROM中，就可以运行了。

而江寒这边的“强化学习”，实现起来就没那么简单了。

程序本身就很不好弄，训练起来更加麻烦，需要相当多的时间。

“强化学习”在这个世界早就出现了，其中最重要的概念，就是智能体（Agent）。

在这个案例中，一台战车机器人，就是一个智能体。

训练的过程中，智能体可以得到所处环境的状态信息，并采取试探行动。

当环境对某个动作给与了正向反馈时，智能体将来就会更加倾向于这种举动。

反之，如果得到的是负面反馈，那么就减弱这种倾向。

这样，智能体就能在不断地试错中，一点一点地优化行动策略……

例如著名的Q-learning算法，江寒之前就有过一些研究。

在Q-learning中，用一个表格来保存状态和动作的Q值，称为Q-Table。

通过修改Q-Table的值，就能生成一个指引智能体行动的“纲领”。

然而，这种办法虽然简单、直观，易于实现，但也有着致命的缺陷，那就是只适合状态和动作空间是离散的，而且维数不太高的情况。

当状态和动作空间是连续的，或者维度很高时，再用Q-Table来表达，就有点力不从心了。

为了解决这个问题，江寒很自然地想到了DQN算法。

所谓DQN，全称是DeepQNetwork，实际上就是将深度学习和强化学习结合到一起的产物。

第420章 强化学习的威力（2 / 3）