Skip to content

Описание курса⚓︎

Настоящая учебная дисциплина посвящена вопросам автоматической обработки текстов [natural language processing], области, находящейся на стыке таких дисциплин, как машинное обучение и лингвистика. Курс состоит из двух чатсей: базовой, в ходе которых будут введены основные концепции, и продвинутой, ориентированной на индустриальные технологии и на современные научные вопросы. As a result, students should:

Цели освоения курса⚓︎

  1. Изучение базовых задач и методов обработки и анализа текстов
  2. Изучение современных нейросетевых моделей для обработки и анализа текстов
  3. Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения⚓︎

  1. Знать и применять базовые методы обработки и анализа текстов
  2. Знать этические аспекты обработки текстов
  3. Уметь решать задачи, связанные с моделированием языка
  4. Уметь решать специализированные задачи на текстовых данных

Технические требования⚓︎

  1. Знакомство с фреймворком pytorch

Программа курса⚓︎

week 01 Введение в обработку естественных языков и предобработку текстовых данных⚓︎

  • Круг задач NLP, ключевые концепции области.
  • Токенизация, очистка текста, лемматизация

week 02 Векторные представления слов⚓︎

  • Построение моделей векторного представления отдельных слов
  • one hot encoding,

week 03 Классификация текстов⚓︎

  • Задача классификации последовательности.
  • Свёрточные нейронные сети в классификации текстов.
  • Метрики качества классификации

week 04 Языковые модели⚓︎

  • Задача Representation Learning
  • Метрики качества языковых моделей
  • Рекуррентные нейронные сети в обработке текстов
  • LSTM и GRU ячейки

week 05 Модели Seq2Seq⚓︎

  • Концепция внимания
  • Рекуррентные сети с вниманием,

week 06 Модель Трансформер⚓︎

  • Модель Трансформер

week 07 Модель BERT⚓︎

  • Модель BERT

week 07 Извлечение информации и поиск⚓︎

  • Извлечение информации и информационный поиск

week 08 Извлечение имен собственных⚓︎

  • Извлечение имен собственных

week 09 Question answering⚓︎

  • Вопрос-ответные системы для русского и английского языка
  • Zero и Few shot learning

week 10 Суммаризация текстов⚓︎

  • Суммаризация текстов, генеративная и абстрактивная модели

week 11 Сжатие моделей⚓︎

  • Сжатие моделей, Pruning и дистиляция

week 12 Атаки на модели и интерпретация⚓︎

  • Атаки на модели и интерпретация.

Оценивание по курсу⚓︎

Формула оценивания⚓︎

Итоговая оценка = 0.3 среднее(Домашняя работа) + 0.2 среднее(Квизы) + 0.5Экзамен. - Правила округления – арифметические - Предусмотрены ли автоматы. Да - Условия для выставления автомата: Если = 0.3 среднее(Домашняя работа) + 0.2*среднее(Квизы) > 4, то выставляется автомат, при этом накопленная оценка удваивается. - Особенности пересдачи. Нет

Литература⚓︎

Рекомендуемая основная литература⚓︎

  1. Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press.

Рекомендуемая дополнительная литература (обязательно)⚓︎

  1. Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers.
  2. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning
  3. Dan Jurafsky and James H. Martin. Speech and Language Processing (3rd ed. draft)
  4. Delip Rao and Brian McMahan. Natural Language Processing with PyTorch