LLM Course documentation
Токенизаторы, проверка!
0. Установка
1. Трансформеры
2. Использование 🤗 Transformers
3. Fine-tuning предобученной модели
4. Hugging Face Hub
5. Библиотека 🤗 Datasets
6. Бибилиотека 🤗 Tokenizers
ВведениеОбучение нового токенизатора на основе старогоОсобые возможности быстрых токенизаторовБыстрые токенизаторы в QA конвейереНормализация и предварительная токенизацияТокенизация Byte-Pair EncodingТокенизация WordPieceТокенизация UnigramСоздание токенизатора, блок за блокомТокенизаторы, проверка!Тест в конце главы
7. Основные задачи NLP
8. Как попросить о помощи
9. Создание и распространение демо
События курса
Глоссарий
Токенизаторы, проверка!
Отличная работа по завершению этой главы!
После этого глубокого погружения в токенизаторы вы должны:
- Уметь обучать новый токенизатор, используя старый в качестве шаблона.
- Понимать, как использовать смещения для сопоставления позиций токенов с их исходным положением в тексте
- Знать различия между BPE, WordPiece и Unigram.
- Уметь комбинировать блоки, предоставляемые библиотекой 🤗 Tokenizers, для создания собственного токенизатора
- Уметь использовать собственный токенизатор в библиотеке 🤗 Transformers