第394章超参数全自动搜索_重生学神有系统

但在开始训练之前，还有一点工作要做。

这个深度，所拥有的参数实在太多了，哪怕原始数据有足足12万多条，也很很容易发生过拟合。

所以，为了提升泛化能力，有必要做一下数据增广。

数据增广的方案有许多。

江寒思考了一下，选择了一种新方案。

原始图像是256×256的分辨率。

江寒设计了一个程序，从中随机扣出来224×224大小的区域。

每张原始图像，都有(256-224)^2=1024种不同的扣法，这样一来，就相当于将原始数据增广了1024倍！

接下来，他又将得到的图像，全都水平镜像一次，就得到了等于原始数据2048倍的超大数据集合。

增广完数据，江寒还觉得不够保险，为了进一步提高算法的效能，他决定对网络中用到的超参数，进行一些优化。

以前他也做过人工神经网络超参数的优化，但那时采用的手段，主要是手动修改超参数，然后人工分析、比对。

看修改了某个超参数后，网络的表现是上升了还是下降了，从而找出较为优秀的模型。

不用说，这种做法最大的缺陷，就是效率实在太低。

江寒在这次的比赛中，决定使用一种新技术。

这是他前一阵子，煞费苦心设计出来的方案，代码复杂度令人发指。

好在他的脑子够好用，在消耗了大量心血，吃掉了无数冰岛红极参之后，终于是开发成功了。

功能很简单，就是自动对超参数进行搜索、优化，以找到结构更合理、性能更好的人工神经网络。

江寒为这门技术取名ASSP（Autosearchforsuperparameters）。

当然，其实就是“搜索超参数”的英文直译……

ASSP的原理很简单，就是包装在人工神经网络模板外层的一个“壳”。

通过一个调度函数，在训练神经网络之前，先按照事先确定的规则，微调某些超参数。

每当完成一轮训练，还会按照既定的规则，从各个方面进行评分。

比如，在梯度下降的过程中，模型是否收敛、收敛速度如何？

不能收敛的网络，根本无法训练，也就毫无价值，如果收敛速度过慢，训练起来也会缺少效率。

此外，网络模型在验证集中的表现，泛化能力、识别准确度、网络的稳健性……

最后，将每次训练完成后，人工神经网络的综合得分，从高到低排一下序。

江寒通过最后生成的表格，就可以选取合适的超参数组合了。

为了让这个超参数搜索程序，获得更高的工作效率，需要先指定超参数的搜索范围。

范围太大的话，会导致搜索时间过长，可能会等不及出结果；如果范围太小，又很可能找不到合格的超参数取值。

这个搜索范围，可以看做SFSP的超参数，只能凭经验设定。

好在江寒已经训练过许多次人工神经网络，有着十分充足的经验。

他将ASSP和深度的代码融合之后，连同训练数据、验证数据，全都上传到了地下数据处理中心的服务器里。

差不多两天之后，ASSP就能得到初步的成果。

至于整个网络的训练，那可就有得等了。

原始数据是12万多条，增广到2048倍之后，就是2亿4千5百万余条数据！

数据量实在太庞大了，即使使用了GPU来提速，至少也需要5~7天，才能完成初步的训练。

江寒让程序跑起来之后，就走出了实验室。

打算回到游戏工作室里，休息一下，然后去主持面试。

刚喝了两口水，手机忽然响了起来。

来电是夏如虹的，江寒连忙接了起来，叫了声：“阿姨。”

“你在哪了？”夏如虹声音温婉。

“17楼办公室。”江寒回答。

夏如虹打这个电话，主要是讨论写字机器人的销量和分成。

写字机器人上市的时候，已经接近年底，所以截止2012年12月31日，只卖出了30多万台。

按照当初的约定，江寒将获得3.5%销售额的分成。

机器人的出厂价是每台558元，3.5%就是每台19.53元，30万台……

江寒随便心算了一下，就得出了答案：580多万。

这就比较让人愉快了。

有了这笔钱，星空那边的钱，暂时就不急着动用了。

这样也能避免不少汇兑、税费之类的损失……

第394章 超参数全自动搜索（2 / 2）

第394章超参数全自动搜索（2 / 2）