LLM Course documentation
標記器,回顧!
0. 安裝
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微調一個預訓練模型
4. 分享你的模型和標記器
5. 🤗 Datasets庫
6. 🤗 Tokenizers庫
本章簡介根據已有的 tokenizer 訓練新的 tokenizer快速標記器的特殊能力QA 管道中的快速標記器標準化和預標記化字節對編碼標記化WordPiece 標記化Unigram 標記化逐塊地構建標記器標記器,回顧!章末小測驗
7. 主要的 NLP 任務
8. 如何尋求幫助
9. 構建並分享你的模型
課程活動
標記器,回顧!
完成這一章,辛苦了!
在深入研究標記器之後,您應該:
- 能夠使用舊的標記器作為模板來訓練新的標記器
- 瞭解如何使用偏移量將標記的位置映射到其原始文本範圍
- 瞭解 BPE、WordPiece 和 Unigram 之間的區別
- 能夠混合和匹配 🤗 Tokenizers 庫提供的塊來構建您自己的標記器
- 能夠在 🤗 Transformers 庫中使用該標記器