LLM Course documentation
Giới thiệu
0. Cài đặt
1. Mô hình Transformer
2. Sử dụng 🤗 Transformers
3. Tinh chỉnh một mô hình huấn luyện trước
4. Chia sẻ các mô hình và tokenizer
5. Thư viện 🤗 Datasets
Giới thiệuNếu như dữ liệu của ta không trên Hub thì sao?Sắp xếp dữ liệuDữ liệu lớn? 🤗 Bộ dữ liệu để giải cứu!Tạo tập dữ liệu của riêng bạnTìm kiếm ngữ nghĩa với FAISS🤗 Datasets, kiểm tra nào!Đố vui cuối chương
6. Thư viện 🤗 Tokenizers
7. Các tác vụ NLP chính
8. Làm thế nào để yêu cầu giúp đỡ
9. Xây dựng và chia sẻ các demo
Sự kiện Khoá học
Giới thiệu
Trong Chương 3, bạn sẽ lần đầu được trải nghiệm thư viện 🤗 Datasets và thấy rằng có ba bước chính khi tinh chỉnh một mô hình:
- Tải tập dữ liệu từ Hugging Face Hub.
- Tiền xử lý dữ liệu với
Dataset.map(). - Tải và tính toán các chỉ số.
Nhưng đây chỉ là bề nổi của những gì 🤗 Datasets có thể làm! Trong chương này, chúng ta sẽ đi sâu vào thư viện. Trong hành trình này, chúng ta sẽ tìm câu trả lời cho những câu hỏi sau:
- Bạn làm gì khi bộ dữ liệu của bạn không có trên Hub?
- Làm thế nào bạn có thể chia một bộ dữ liệu? (Và điều gì sẽ xảy ra nếu bạn thực sự cần sử dụng Pandas?)
- Bạn sẽ làm gì khi bộ dữ liệu của bạn rất lớn và sẽ làm tràn RAM của máy tính xách tay của bạn?
- “Bản đồ bộ nhớ” và Apache Arrow là cái quái gì vậy?
- Làm cách nào bạn có thể tạo bộ dữ liệu của riêng mình và đẩy nó lên Hub?
Các kỹ thuật bạn học được ở đây sẽ giúp bạn chuẩn bị cho các tác vụ tinh chỉnh và tokenize nâng cao trong Chương 6 và Chương 7 - vì vậy hãy uống một ly cà phê và bắt đầu thôi!
Update on GitHub