- Предобработка текста (Text preprocessing)
Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel, deduplication, lsh, minhash. - Классификация текста (мешок слов) (Bag-of-words classification)
TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста - Поиск и исправление опечаток (Spellchecking)
Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell. - Базовое языковое моделирование (Basic Language Modelling)
Вероятность слова, Ngram language model, перплексия, генерация текста, beam search. - Тематическое моделирование (Topic modelling)
Матричные разложения (SVD, NMF), LDA, перплексия, когерентность. - Векторные представления слов (word2vec/fastext) (Word embeddings)
cbow, skip-gram, negative sampling - Convolutional Neural Networks for text classification
CNN. - RNN и извлечение именованных сущностей (Named Entity Recognition)
LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling. - Трансформеры. BERT и GPT (Transformers. BERT and GPT) (BERT, GPT)
Transformer, BERT, HuggingFace, fine-tuning, text generation, sampling parameters (temperature, top_p, top_k) - Трансформеры. Seq2Seq. Машинный перевод (Transformers. Seq2Seq. Machine Translation)
multi-head attention, encoder-decoder model, bleu score - Трансформеры. Дообучение на инструкциях (Transformers. Instruct fine-tuning)
alpaca, dolly, flan-t5 - Трансформеры. PEFT
quantization, LoRA, QLoRA - Multimodality (text and images)
CLIP, BLIP, Idefics, Stable diffusion - Трансформеры. RLHF, DPO
human feedback, DPO + QLoRA
- NER с помощью грамматик (yargy)
- Few-shot NER (deep pavlov)
- Деревья зависимостей (Dependency trees)
- Тематическое моделирование в BigARTM
- Keyword extraction
- CNN (tf), CNN (pytorch)
- RNN (pytorch)
- Deep learning intro (tf), Deep learning intro (pytorch)
- Кластеризация (Clustering)
- Морфологическая дизамбигуация
- Использование предобученных моделей (pytorch)
- Viterbi/MEMM
- Sentence tokenization
- Relation extraction
- Semantic Role Labelling