L1 与 L2 Loss Function 的一些问题。给FC用的。但是我实际上不太懂。Quora答案和一篇博客挺有帮助的。
随机扔掉传向末尾FC层的信号,使得末尾FC层不能完全相信所得输入。这个方法神奇地提高了正确率。可以将其理解为一种 Week Learner Ensemble 的方法。
想深究的同学插这里
- 普通的 Gradient Descent
- Momentum Update
- Adam Update
还有其他的 Update。但是这三个足以把一些原则性的问题讲清楚,所以教程就选择了这三个。