QCM Interactif

Quel est le principal avantage du transfer learning en deep learning ?

Quelle est la différence principale entre transfer learning et fine-tuning ?

En fine-tuning, comment choisir le nombre de couches à ré-entraîner ?

Quel dataset est souvent utilisé pour pré-entraîner des modèles de classification d’images en transfer learning ?

Quel est l’objectif principal de la distillation des connaissances ?

Pourquoi la distillation des connaissances améliore-t-elle souvent la performance du modèle student ?

Dans la distillation des connaissances appliquée à la détection d’anomalies non supervisée, quel est le rôle principal du modèle student ?

Quelle est la particularité de l’architecture BERT par rapport à GPT ?

Quelle tâche d’entraînement BERT utilise-t-il pour apprendre les représentations linguistiques ?

Dans la token-level classification avec BERT (exemple NER), pourquoi utilise-t-on un token [CLS] en début de séquence ?

Score: 0/10