Skip to content

Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ

Notifications You must be signed in to change notification settings

stefanrer/compling_nlp_hse_course

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)

Jupyter-ноутбуки курса

  1. Предобработка текста (Text preprocessing)
    Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel.
  2. Классификация текста (мешок слов) (Bag-of-words classification)
    TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста
  3. Поиск и исправление опечаток (Spellchecking)
    Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell.
  4. Базовое языковое моделирование (Basic Language Modelling)
    Вероятность слова, Ngram language model, перплексия, генерация текста.
  5. Тематическое моделирование (Topic modelling)
    Матричные разложения (SVD, NMF), LDA, перплексия, когерентность.
  6. Векторные представления слов (word2vec/fastext) (Word embeddings)
    CBOW, Skip-gram, negative sampling, deep learning basics, sigmoid, softmax.
  7. RNN и извлечение именованных сущностей (Named Entity Recognition)
    LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling.
  8. Трансформеры. Использование предобученных моделей (Transformers. Fine-tuning pretrained models)
    Transformer, BERT, HuggingFace, fine-tuning.
  9. Трансформеры. GPT. Генерация текста (Transformers. GPT. Text generation)
  10. Трансформеры. Seq2Seq. Машинный перевод (Transformers. Seq2Seq. Machine Translation)
  11. Трансформеры. Дообучение на инструкциях (Transformers. Instruct fine-tuning)
  12. Трансформеры. RLHF
  13. Трансформеры. PEFT

Архивные jupyter-ноутбуки

Jupyter-notebooks in English

About

Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 98.0%
  • HTML 2.0%