返回课程
下一页
互动测验
测试你的知识!
1
迁移学习在深度学习中的主要优势是什么?
A
它允许自由修改预训练模型的架构。
B
它能够从零开始更快地训练模型。
C
它通过重复使用已训练模型来加速训练并提升性能。
D
它总是需要比传统训练更多的数据。
2
迁移学习与微调(fine-tuning)的主要区别是什么?
A
迁移学习训练新模型时不使用预训练模型,微调则使用预训练模型。
B
微调仅重新训练预训练模型的某些层,而迁移学习可以重新训练模型的全部或部分。
C
微调会修改模型架构,迁移学习则不会。
D
迁移学习只能用于相同任务,微调则用于不同任务。
3
在微调过程中,如何选择需要重新训练的层数?
A
总是重新训练所有层以获得最佳性能。
B
数据越少,重新训练的层数越多。
C
任务越相似,重新训练的层数越少。
D
重新训练的层数没有任何影响。
4
在迁移学习中,哪个数据集常用于预训练图像分类模型?
A
MNIST
B
CIFAR-10
C
ImageNet
D
COCO
5
知识蒸馏的主要目标是什么?
A
增大模型规模以提高精度。
B
将高性能模型(teacher)的知识迁移到更小的模型(student)中。
C
在没有标签的情况下训练模型。
D
减少深度网络中的层数。
6
为什么知识蒸馏通常能提升学生模型(student)的性能?
A
因为学生模型仅使用标签,而不使用教师模型的预测。
B
因为学生模型学习到的概率分布比单纯使用标签更具信息量。
C
因为学生模型在没有损失函数的情况下训练。
D
因为教师模型比学生模型更小。
7
在应用于无监督异常检测的知识蒸馏中,学生模型的主要作用是什么?
A
直接预测图像的类别。
B
学习复现教师模型在无缺陷数据上的内部表示(特征图),通过差异检测异常。
C
生成用于训练的合成数据。
D
在整个过程中保持固定(不训练)。
8
BERT 与 GPT 的架构有何不同?
A
BERT 是单向 Transformer,GPT 是双向的。
B
BERT 基于 Transformer 的编码器块且是双向的;GPT 使用解码器块且是单向的。
C
BERT 无法进行微调,GPT 可以。
D
BERT 仅使用位置嵌入。
9
BERT 使用哪种训练任务来学习语言表示?
A
仅预测下一个词。
B
掩码语言模型(Masked Language Model)和下一句预测(Next Sentence Prediction)。
C
机器翻译。
D
图像分类。
10
在使用 BERT 进行令牌级分类(如 NER)时,为什么在序列开头使用 [CLS] 令牌?
A
表示序列的结束。
B
提取用于句子级分类的全局表示。
C
掩码令牌。
D
将所有令牌替换为一个令牌。
Score: 0/10
得分: 0/10