Quelle est la principale différence entre un modèle autoregressif (comme GPT) et un modèle encodeur (comme BERT) dans le traitement du langage naturel ?
2
Quel est le rôle des matrices Query (Q), Key (K) et Value (V) dans le mécanisme de self-attention d’un transformer ?
3
Dans l'architecture transformer, à quoi servent les connexions résiduelles entre les couches d'attention et de feed forward ?
4
Dans l’implémentation d’un modèle de langage bigramme, quelle est la principale limitation qui explique la mauvaise qualité des textes générés ?
5
Quelle est la différence principale entre la couche self-attention utilisée dans un décodeur et celle dans un encodeur transformer ?
6
Dans le Vision Transformer (ViT), comment sont traitées les images avant d’être passées dans le transformer ?
7
Quel est le but du "class token" dans le Vision Transformer ?
8
Quelle est l’innovation principale du Swin Transformer par rapport au Vision Transformer ?
9
Quel est l’intérêt de la position embedding relative dans le Swin Transformer ?
10
Quel est le principe d’entraînement du modèle CLIP associant texte et image ?