Retour aux cours
Page suivante
QCM Interactif
Testez vos connaissances !
1
Quel est le principal avantage du transfer learning en deep learning ?
A
Il permet de modifier librement l’architecture du modèle pré-entraîné.
B
Il permet d’entraîner un modèle à partir de zéro plus rapidement.
C
Il accélère l’entraînement et améliore les performances en réutilisant un modèle déjà entraîné.
D
Il nécessite toujours plus de données que l’entraînement classique.
2
Quelle est la différence principale entre transfer learning et fine-tuning ?
A
Le transfer learning entraîne un nouveau modèle sans utiliser de modèle pré-entraîné, le fine-tuning utilise un modèle pré-entraîné.
B
Le fine-tuning consiste à ré-entraîner seulement certaines couches d’un modèle pré-entraîné, tandis que le transfer learning peut ré-entraîner tout ou partie du modèle.
C
Le fine-tuning modifie l’architecture du modèle, le transfer learning non.
D
Le transfer learning ne peut être utilisé que sur des tâches identiques, le fine-tuning sur des tâches différentes.
3
En fine-tuning, comment choisir le nombre de couches à ré-entraîner ?
A
Toujours ré-entraîner toutes les couches pour de meilleures performances.
B
Plus on a peu de données, plus on ré-entraîne de couches.
C
Plus les tâches sont similaires, moins on ré-entraîne de couches.
D
Le nombre de couches ré-entrainées n’a aucune influence.
4
Quel dataset est souvent utilisé pour pré-entraîner des modèles de classification d’images en transfer learning ?
A
MNIST
B
CIFAR-10
C
ImageNet
D
COCO
5
Quel est l’objectif principal de la distillation des connaissances ?
A
Augmenter la taille du modèle pour améliorer la précision.
B
Transférer les connaissances d’un modèle performant (teacher) vers un modèle plus petit (student).
C
Entraîner un modèle sans utiliser de labels.
D
Réduire le nombre de couches dans un réseau profond.
6
Pourquoi la distillation des connaissances améliore-t-elle souvent la performance du modèle student ?
A
Parce que le student utilise uniquement les labels et pas les prédictions du teacher.
B
Parce que le student apprend une distribution de probabilité plus informative que les labels seuls.
C
Parce que le student est entraîné sans fonction de perte.
D
Parce que le teacher est plus petit que le student.
7
Dans la distillation des connaissances appliquée à la détection d’anomalies non supervisée, quel est le rôle principal du modèle student ?
A
Prédire directement la classe des images.
B
Apprendre à reproduire les représentations internes (feature maps) du modèle teacher sur des données sans défauts afin de détecter les anomalies par différence.
C
Générer des données synthétiques pour l’entraînement.
D
Être figé (non entraîné) pendant tout le processus.
8
Quelle est la particularité de l’architecture BERT par rapport à GPT ?
A
BERT est un transformer unidirectionnel, GPT est bidirectionnel.
B
BERT est basé sur le bloc encoder du transformer et est bidirectionnel ; GPT utilise le bloc decoder et est unidirectionnel.
C
BERT ne peut pas être fine-tuné, GPT oui.
D
BERT utilise uniquement des embeddings positionnels.
9
Quelle tâche d’entraînement BERT utilise-t-il pour apprendre les représentations linguistiques ?
A
Prédiction du prochain mot uniquement.
B
Prédiction des mots masqués (Masked Language Model) et prédiction de la prochaine phrase (Next Sentence Prediction).
C
Traduction automatique.
D
Classification d’image.
10
Dans la token-level classification avec BERT (exemple NER), pourquoi utilise-t-on un token [CLS] en début de séquence ?
A
Pour indiquer la fin de la séquence.
B
Pour extraire une représentation globale utile pour la classification au niveau de la phrase.
C
Pour masquer les tokens.
D
Pour remplacer tous les tokens par un seul.
Score: 0/10
Score: 0/10
Score: 0/10
Score: 0/10