¿Cuál es la principal diferencia entre un modelo autorregresivo (como GPT) y un modelo codificador (como BERT) en el procesamiento del lenguaje natural?
2
¿Cuál es el rol de las matrices Query (Q), Key (K) y Value (V) en el mecanismo de autoatención de un transformer?
3
En la arquitectura transformer, ¿para qué sirven las conexiones residuales entre las capas de atención y de feed forward?
4
En la implementación de un modelo de lenguaje bigrama, ¿cuál es la principal limitación que explica la mala calidad de los textos generados?
5
¿Cuál es la diferencia principal entre la capa de autoatención utilizada en un decodificador y la de un codificador transformer?
6
En el Vision Transformer (ViT), ¿cómo se tratan las imágenes antes de pasarlas al transformer?
7
¿Cuál es el propósito del "class token" en el Vision Transformer?
8
¿Cuál es la innovación principal del Swin Transformer en comparación con el Vision Transformer?
9
¿Cuál es el interés del position embedding relativo en el Swin Transformer?
10
¿Cuál es el principio de entrenamiento del modelo CLIP que asocia texto e imagen?