Описание курса⚓︎
Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух чатсей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы. As a result, students should:
Цели освоения курса⚓︎
- Изучение базовых задач и методов обработки и анализа текстов
- Изучение современных нейросетевых моделей для обработки и анализа текстов
- Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения⚓︎
- Знать и применять базовые методы обработки и анализа текстов
- Знать этические аспекты обработки текстов
- Уметь решать задачи, связанные с моделированием языка
- Уметь решать специализированные задачи на текстовых данных
Технические требования⚓︎
- Знакомство с фреймворком pytorch
Программа курса⚓︎
week 01 Введение в обработку естественных языков и предобработку текстовых данных⚓︎
- Круг задач NLP, ключевые концепции области.
- Токенизация, очистка текста, лемматизация
week 02 Векторные представления слов⚓︎
- Построение моделей векторного представления отдельных слов
- one hot encoding,
week 03 Классификация текстов⚓︎
- Задача классификации последовательности.
- Свёрточные нейронные сети в классификации текстов.
- Метрики качества классификации
week 04 Языковые модели⚓︎
- Задача Representation Learning
- Метрики качества языковых моделей
- Рекуррентные нейронные сети в обработке текстов
- LSTM и GRU ячейки
week 05 Модели Seq2Seq⚓︎
- Концепция внимания
- Рекуррентные сети с вниманием,
week 06 Модель Трансформер⚓︎
- Модель Трансформер
week 07 Модель BERT⚓︎
- Модель BERT
week 07 Извлечение информации и поиск⚓︎
- Извлечение информации и информационный поиск
week 08 Извлечение имен собственных⚓︎
- Извлечение имен собственных
week 09 Question answering⚓︎
- Вопрос-ответные системы для русского и английского языка
- Zero и Few shot learning
week 10 Суммаризация текстов⚓︎
- Суммаризация текстов, генеративная и абстрактивная модели
week 11 Сжатие моделей⚓︎
- Сжатие моделей, Pruning и дистиляция
week 12 Атаки на модели и интерпретация⚓︎
- Атаки на модели и интерпретация.
Оценивание по курсу⚓︎
Формула оценивания⚓︎
Итоговая оценка
= 0.3 среднее(Домашняя работа
) + 0.2 среднее(Квизы
) + 0.5Экзамен
.
- Правила округления – арифметические
- Предусмотрены ли автоматы. Да
- Условия для выставления автомата: Если = 0.3 среднее(Домашняя работа) + 0.2*среднее(Квизы) > 4, то выставляется автомат, при этом накопленная оценка удваивается.
- Особенности пересдачи. Нет
Литература⚓︎
Рекомендуемая основная литература⚓︎
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press.
Рекомендуемая дополнительная литература (обязательно)⚓︎
- Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers.
- Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning
- Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft)
- Delip Rao and Brian McMahan. Natural Language Processing with PyTorch