Retour aux cours
Page suivante
QCM Interactif
Testez vos connaissances !
1
Quelle est la principale différence entre la descente du gradient classique et la descente du gradient stochastique (SGD) ?
A
La descente du gradient classique utilise un
learning rate
adaptatif tandis que SGD utilise un
learning rate
fixe.
B
La descente du gradient classique calcule le
loss
sur l'ensemble des données alors que SGD calcule le
loss
sur un
mini-batch
de données.
C
La descente du gradient classique utilise le
momentum
alors que SGD ne l'utilise pas.
D
La descente du gradient classique est plus rapide que SGD sur de grands datasets.
2
Quel est l'effet principal de l'ajout du terme
momentum
dans la descente du gradient stochastique avec momentum ?
A
Il permet de réduire la taille du
mini-batch
sans perte de performance.
B
Il adapte automatiquement le
learning rate
pour chaque paramètre du modèle.
C
Il garde en mémoire la direction précédente de l'optimisation pour accélérer la convergence et traverser les régions plates plus efficacement.
D
Il élimine complètement les oscillations dans la trajectoire de la descente du gradient.
3
Quel problème majeur Adagrad rencontre-t-il lors de l'entraînement d'un modèle ?
A
Il nécessite un grand nombre d'hyperparamètres à régler.
B
Le
learning rate
peut devenir trop grand entraînant une divergence du modèle.
C
Le
learning rate
diminue continuellement, ce qui peut ralentir la convergence ou empêcher la convergence finale.
D
Il ne fonctionne pas bien sur des données bruitées.
4
En quoi RMSProp améliore-t-il l'optimizer Adagrad ?
A
RMSProp utilise un
exponentially decaying average
sur les gradients au lieu de leur somme cumulative pour éviter que le
learning rate
ne diminue trop.
B
RMSProp ajoute un terme de
momentum
pour accélérer la convergence.
C
RMSProp supprime totalement le besoin de choisir un
learning rate
.
D
RMSProp calcule le
loss
sur l'ensemble des données à chaque étape d'entraînement.
5
Pourquoi Adam est-il souvent recommandé comme optimizer par défaut ?
A
Parce qu'il ne nécessite aucun réglage d'hyperparamètres.
B
Parce qu'il combine l'utilisation du
momentum
et de RMSProp, permettant une convergence rapide et une bonne performance même sur des données bruitées.
C
Parce qu'il utilise un
learning rate
fixe qui garantit la convergence.
D
Parce qu'il nécessite moins de mémoire que la descente du gradient stochastique classique.
Score: 0/5
Score: 0/5
Score: 0/5
Score: 0/5