返回课程
下一页
互动测验
测试你的知识!
1
在语言模型(LLM)的背景下,tokenizer 的主要功能是什么?
A
将文本转换为整数序列(tokens)
B
将文本从一种语言翻译成另一种语言
C
根据给定的上下文生成回答
D
评估语言模型的性能
2
为什么 LLM 在执行简单的字符串操作(如反转单词)时通常会遇到困难?
A
因为 LLM 不理解单词的语法
B
因为单词被分割为字符块而非逐个字符进行 token 化
C
因为语言模型不处理字符串
D
因为 LLM 的词汇量太小,无法包含所有单词
3
在构建 tokenizer 时,字节对编码(BPE)算法的主要优势是什么?
A
将词汇量减少到少于 100 个 tokens
B
允许增加词汇量的同时减少 token 化序列的长度
C
自动将文本翻译成英语
D
将每个单词替换为单个 Unicode 字符
4
为什么 GPT-2 的 tokenizer 会降低其处理 Python 代码的性能?
A
因为 Python 使用的特殊字符不被 GPT-2 识别
B
因为每个缩进空格被视为单独的 token,快速增加上下文大小
C
因为 GPT-2 不理解编程语言的语法
D
因为 GPT-2 无法正确 token 化数字
5
主要基于英语数据训练的 tokenizer 对 LLM 在其他语言上的性能有何主要影响?
A
模型在其他语言中表达相同句子时需要更多 tokens,限制了有效上下文的大小
B
模型在处理前自动将外文文本翻译成英语
C
tokenizer 会删除所有非英语字符
D
模型在日语上的表现优于英语
Score: 0/5
得分: 0/5