该模型具有以下层:
①标准化层(硬编码)除以127.5并减去1。
②3个卷积层,24个,36个,48个过滤器,5 * 5内核和2个步幅。
③2个卷积层,64个滤波器,3 * 3内核和步幅1。
④展平层
⑤3个完全连接的层,输出尺寸为100,50,10
⑥和输出转向角的最终输出层。
研究人员将使用Mean Squared Error(MSE)作为损失函数和优化器,并进行EarlyStopping回调。研究人员试图训练它40个epoch,它在36个epoch停止。
训练60个epoch的模型,结果如下:
突出的特点:
1. 在每个图层中,对要素图的激活进行平均。
2.最平均的地图按比例放大到下面图层的地图大小。使用反卷积完成放大。
3.然后将来自较高级别的放大的地图与来自下层的平均地图相乘。
4.重复步骤2和3直到达到输入。
5.具有输入图像大小的最后一个掩模被标准化为0.0到1.0的范围。
以下是可视化图,显示输入图像的哪些区域对网络的输出贡献最大。
在应用上述方法之后,下面是显著的特征结果:
图突出的车道标记
结论
PilotNet是一个非常强大的网络,从驾驶员学习输出正确的转向角度。对显著物体的检查表明,PilotNet学习了对人类“有意义”的特征,同时忽略了与驾驶无关的摄像机图像中的结构。此功能源自数据,无需手工标记。