返回课程
下一页
互动测验
测试你的知识!
1
在自然语言处理中,自回归模型(如 GPT)与编码器模型(如 BERT)的主要区别是什么?
A
自回归模型预测句子中被掩码的词,而编码器模型预测下一个词。
B
自回归模型基于前面的 token 生成一个 token,而编码器模型同时考虑一个 token 的左右上下文。
C
编码器模型仅用于翻译,而自回归模型用于所有 NLP 任务。
D
自回归模型使用带有交叉注意力的完整架构,而编码器模型不使用。
2
在 Transformer 的自注意力机制中,Query(Q)、Key(K)和 Value(V)矩阵的作用是什么?
A
Q 表示每个位置寻找的内容,K 表示它包含的内容,V 是如果判断相关则提取的实际值。
B
Q 是输入的掩码版本,K 是归一化版本,V 是最终输出。
C
Q、K 和 V 是用于计算加权平均的相同矩阵。
D
Q 包含权重,K 包含偏置,V 包含网络的激活值。
3
在 Transformer 架构中,注意力层和前馈层之间的残差连接有什么作用?
A
它们允许在不改变深度的情况下增加模型的大小。
B
它们通过避免梯度消失,促进深度模型的训练。
C
它们在层之间对激活值进行归一化。
D
它们在解码器中掩码未来的 token。
4
在实现双语言模型时,导致生成文本质量差的主要限制是什么?
A
它仅根据一个上下文字符预测下一个字符。
B
它使用编码器架构而不是解码器架构。
C
它对未来 token 进行了错误的掩码。
D
它缺少层归一化(layer norm)。
5
Transformer 解码器和编码器中使用的自注意力层的主要区别是什么?
A
编码器层应用下三角掩码,解码器层不应用。
B
解码器层通过下三角矩阵掩码未来 token,而编码器层不掩码。
C
编码器层使用交叉注意力,解码器层不使用。
D
解码器层使用多头注意力,编码器层仅使用一个注意力头。
6
在 Vision Transformer(ViT)中,图像在输入 Transformer 之前是如何处理的?
A
图像被转换为单个像素的序列。
B
图像被切分为固定大小的 patch(例如 16x16),展平后投影到嵌入空间。
C
图像通过 CNN 转换为特征图后再输入 Transformer。
D
图像在处理前被转换为灰度图。
7
Vision Transformer 中的 'class token' 有什么作用?
A
允许从图像生成文本。
B
提供一个专用于分类的特殊 token,避免必须聚合 Transformer 的所有输出。
C
替代 Transformer 中的位置嵌入。
D
允许在图像中掩码 patch。
8
与 Vision Transformer 相比,Swin Transformer 的主要创新是什么?
A
在同一架构中使用编码器和解码器。
B
在分层的局部窗口上应用注意力,并使用滑动窗口。
C
从多头注意力转变为单头注意力。
D
完全使用卷积层而非前馈层。
9
Swin Transformer 中相对位置嵌入的优势是什么?
A
它替代了注意力机制。
B
它能更好地捕捉 patch 之间的空间关系,并使模型适应不同的图像分辨率。
C
它在窗口中掩码不相关的 patch。
D
它增加了模型处理大图像的能力。
10
CLIP 模型如何通过文本和图像的联合训练?
A
通过监督学习,对图像中的物体进行精确标注。
B
通过对比学习,利用正样本对(图像-描述)和负样本对最大化正确的相关性。
C
从文本描述生成图像。
D
从图像预测下一个文本 token。
Score: 0/10
得分: 0/10