夏雨菲想了想,说:“我和莹莹差不多,对机器人也基本上一窍不通,还是你们四个上吧,我和莹莹给你们做后勤。”
江寒和靳雪雯对视了一眼,一齐摊手。
这样“新寒江雪”战队便只有四名队员了。
接下来,江寒和方源开始研究AI算法。
能采用的算法很多,但要考虑到算法的强度,以及机器人本身的计算能力。
好在时间还算充裕,可以慢慢尝试。
江寒打算试一试机器学习中的“强化学习”。
这是一种非常独特的算法,可以让机器人“自学成才”,无需编写复杂的逻辑。
方源对此表示期待和喜闻乐见,但也有一些担忧。
关键问题是,在比赛之前,没法拿到场地的准确数据。
这样一来,事先训练好的机器人,也不知道到了赛场上,会不会适应不良?
江寒洒然一笑:“所以咱们要做两手准备。”
“哦?”方源眼神亮了起来。
江寒的想法很简单。
他和方源分别打造一套AI算法。
江寒尝试“强化学习”路线,方源则按照传统方式编程。
比赛之前,队伍内部先来次PK,谁的AI战斗力强,就派谁上场。
“这个办法好。”方源马上表示赞同。
接下来,两人就分头行动,各行其是。
另一边,靳雪雯等女孩子,将几个战车机器人的包装,全都拆了开来。
“哇,好漂亮!”小鱼儿惊叹了一声,随后拿起一台战车机器人,爱不释手地摆弄着。
“花了不少钱吧?”小鱼儿问。
靳雪雯嘻嘻一笑:“一共8万多,险些花光我的压岁钱。”
小鱼儿:“……”
意思是还没花光呗?
这天开始,靳雪雯每天都来苏家。
大家聚在一起玩玩闹闹、其乐融融,顺便训练、训练机器人,不亦乐乎?
江寒让靳雪雯又买了五台机器人,和方源每人选择五台,分头训练。
两人的程序很快都编好了。
由于方源采用了传统算法,程序调试完成后,直接烧录到机器人的ROM中,就可以运行了。
而江寒这边的“强化学习”,实现起来就没那么简单了。
程序本身就很不好弄,训练起来更加麻烦,需要相当多的时间。
“强化学习”在这个世界早就出现了,其中最重要的概念,就是智能体(Agent)。
在这个案例中,一台战车机器人,就是一个智能体。
训练的过程中,智能体可以得到所处环境的状态信息,并采取试探行动。
当环境对某个动作给与了正向反馈时,智能体将来就会更加倾向于这种举动。
反之,如果得到的是负面反馈,那么就减弱这种倾向。
这样,智能体就能在不断地试错中,一点一点地优化行动策略……
例如著名的Q-learning算法,江寒之前就有过一些研究。
在Q-learning中,用一个表格来保存状态和动作的Q值,称为Q-Table。
通过修改Q-Table的值,就能生成一个指引智能体行动的“纲领”。
然而,这种办法虽然简单、直观,易于实现,但也有着致命的缺陷,那就是只适合状态和动作空间是离散的,而且维数不太高的情况。
当状态和动作空间是连续的,或者维度很高时,再用Q-Table来表达,就有点力不从心了。
为了解决这个问题,江寒很自然地想到了DQN算法。
所谓DQN,全称是DeepQNetwork,实际上就是将深度学习和强化学习结合到一起的产物。