返回课程
下一页
互动测验
测试你的知识!
1
经典梯度下降与随机梯度下降(SGD)的主要区别是什么?
A
经典梯度下降使用自适应学习率,而 SGD 使用固定学习率。
B
经典梯度下降计算整个数据集的损失,而 SGD 计算一个小批量数据的损失。
C
经典梯度下降使用动量,而 SGD 不使用。
D
经典梯度下降在大型数据集上比 SGD 更快。
2
在带动量的随机梯度下降中,添加动量项的主要作用是什么?
A
它允许在不损失性能的情况下减小小批量的大小。
B
它自动为模型的每个参数调整学习率。
C
它保留之前优化的方向以加速收敛并更有效地穿过平坦区域。
D
它完全消除了梯度下降轨迹中的振荡。
3
Adagrad 在训练模型时会遇到什么主要问题?
A
它需要调整大量超参数。
B
学习率可能变得过大,导致模型发散。
C
学习率持续减小,可能减缓收敛速度或阻止最终收敛。
D
它在噪声数据上表现不佳。
4
RMSProp 如何改进 Adagrad 优化器?
A
RMSProp 对梯度使用指数衰减平均,而不是累积和,以避免学习率过度减小。
B
RMSProp 添加了动量项以加速收敛。
C
RMSProp 完全消除了选择学习率的需求。
D
RMSProp 在每次训练步骤中计算整个数据集的损失。
5
为什么 Adam 经常被推荐为默认优化器?
A
因为它不需要任何超参数调整。
B
因为它结合了动量和 RMSProp 的使用,实现快速收敛并在噪声数据上表现良好。
C
因为它使用固定学习率来保证收敛。
D
因为它比经典随机梯度下降需要更少的内存。
Score: 0/5
得分: 0/5