Volver al curso
Página siguiente
Quiz Interactivo
¡Pon a prueba tus conocimientos!
1
¿Cuál es la principal ventaja del transfer learning en el deep learning?
A
Permite modificar libremente la arquitectura del modelo preentrenado.
B
Permite entrenar un modelo desde cero más rápidamente.
C
Acelera el entrenamiento y mejora el rendimiento al reutilizar un modelo ya entrenado.
D
Siempre requiere más datos que el entrenamiento clásico.
2
¿Cuál es la principal diferencia entre transfer learning y fine-tuning?
A
El transfer learning entrena un nuevo modelo sin usar un modelo preentrenado, el fine-tuning usa un modelo preentrenado.
B
El fine-tuning consiste en reentrenar solo ciertas capas de un modelo preentrenado, mientras que el transfer learning puede reentrenar todo o parte del modelo.
C
El fine-tuning modifica la arquitectura del modelo, el transfer learning no.
D
El transfer learning solo puede usarse en tareas idénticas, el fine-tuning en tareas diferentes.
3
En el fine-tuning, ¿cómo elegir el número de capas a reentrenar?
A
Siempre reentrenar todas las capas para obtener mejores resultados.
B
Cuantos menos datos se tengan, más capas se deben reentrenar.
C
Cuanto más similares sean las tareas, menos capas se deben reentrenar.
D
El número de capas reentrenadas no tiene ninguna influencia.
4
¿Qué conjunto de datos se usa a menudo para preentrenar modelos de clasificación de imágenes en transfer learning?
A
MNIST
B
CIFAR-10
C
ImageNet
D
COCO
5
¿Cuál es el objetivo principal de la destilación de conocimientos?
A
Aumentar el tamaño del modelo para mejorar la precisión.
B
Transferir los conocimientos de un modelo de alto rendimiento (teacher) a un modelo más pequeño (student).
C
Entrenar un modelo sin usar etiquetas.
D
Reducir el número de capas en una red profunda.
6
¿Por qué la destilación de conocimientos mejora a menudo el rendimiento del modelo student?
A
Porque el student usa únicamente las etiquetas y no las predicciones del teacher.
B
Porque el student aprende una distribución de probabilidad más informativa que las etiquetas solas.
C
Porque el student se entrena sin función de pérdida.
D
Porque el teacher es más pequeño que el student.
7
En la destilación de conocimientos aplicada a la detección de anomalías no supervisada, ¿cuál es el rol principal del modelo student?
A
Predecir directamente la clase de las imágenes.
B
Aprender a reproducir las representaciones internas (feature maps) del modelo teacher en datos sin defectos para detectar anomalías por diferencia.
C
Generar datos sintéticos para el entrenamiento.
D
Permanecer congelado (no entrenado) durante todo el proceso.
8
¿Cuál es la particularidad de la arquitectura BERT en comparación con GPT?
A
BERT es un transformer unidireccional, GPT es bidireccional.
B
BERT se basa en el bloque encoder del transformer y es bidireccional; GPT usa el bloque decoder y es unidireccional.
C
BERT no puede ser ajustado (fine-tuned), GPT sí.
D
BERT usa únicamente embeddings posicionales.
9
¿Qué tarea de entrenamiento usa BERT para aprender las representaciones lingüísticas?
A
Predicción de la siguiente palabra únicamente.
B
Predicción de palabras enmascaradas (Masked Language Model) y predicción de la siguiente oración (Next Sentence Prediction).
C
Traducción automática.
D
Clasificación de imágenes.
10
En la clasificación a nivel de token con BERT (ejemplo NER), ¿por qué se usa un token [CLS] al inicio de la secuencia?
A
Para indicar el final de la secuencia.
B
Para extraer una representación global útil para la clasificación a nivel de oración.
C
Para enmascarar los tokens.
D
Para reemplazar todos los tokens por uno solo.
Score: 0/10
Puntuación: 0/10