Volver al curso
Página siguiente
Quiz Interactivo
¡Pon a prueba tus conocimientos!
1
¿Cuál es la principal diferencia entre el descenso de gradiente clásico y el descenso de gradiente estocástico (SGD)?
A
El descenso de gradiente clásico utiliza un
learning rate
adaptativo, mientras que SGD usa un
learning rate
fijo.
B
El descenso de gradiente clásico calcula la
loss
sobre el conjunto completo de datos, mientras que SGD calcula la
loss
sobre un
mini-batch
de datos.
C
El descenso de gradiente clásico utiliza
momentum
, mientras que SGD no lo usa.
D
El descenso de gradiente clásico es más rápido que SGD en grandes
datasets
.
2
¿Cuál es el efecto principal de añadir el término
momentum
en el descenso de gradiente estocástico con
momentum
?
A
Permite reducir el tamaño del
mini-batch
sin pérdida de rendimiento.
B
Adapta automáticamente el
learning rate
para cada parámetro del modelo.
C
Mantiene en memoria la dirección previa de la optimización para acelerar la convergencia y atravesar regiones planas de manera más eficiente.
D
Elimina completamente las oscilaciones en la trayectoria del descenso de gradiente.
3
¿Qué problema principal enfrenta Adagrad durante el entrenamiento de un modelo?
A
Requiere un gran número de hiperparámetros para ajustar.
B
El
learning rate
puede volverse demasiado grande, provocando la divergencia del modelo.
C
El
learning rate
disminuye continuamente, lo que puede ralentizar la convergencia o impedir la convergencia final.
D
No funciona bien con datos ruidosos.
4
¿En qué aspecto RMSProp mejora al optimizador Adagrad?
A
RMSProp utiliza un
exponentially decaying average
sobre los gradientes en lugar de su suma acumulativa para evitar que el
learning rate
disminuya demasiado.
B
RMSProp añade un término de
momentum
para acelerar la convergencia.
C
RMSProp elimina por completo la necesidad de elegir un
learning rate
.
D
RMSProp calcula la
loss
sobre el conjunto completo de datos en cada paso de entrenamiento.
5
¿Por qué Adam suele recomendarse como optimizador por defecto?
A
Porque no requiere ningún ajuste de hiperparámetros.
B
Porque combina el uso de
momentum
y RMSProp, permitiendo una convergencia rápida y un buen rendimiento incluso con datos ruidosos.
C
Porque utiliza un
learning rate
fijo que garantiza la convergencia.
D
Porque requiere menos memoria que el descenso de gradiente estocástico clásico.
Score: 0/5
Puntuación: 0/5