Задача от Beeline

💼 Заказчик: Компания Beeline является одним из ведущих поставщиков телекоммуникационных услуг в России.

❓Описание задачи: Модель для бинарной классификации аудиофрагментов с целью определения качества их транскрибации. Модель должна определять, является ли транскрибация качественной, при условии, что псевдоразметка отличается от ручной разметки не более, чем на N пунктов коофициента ошибок в словах. Итоговая оценка качества модели будет проводиться с помощью метрики ROC-AUC.

Решение 💡

Было проведено масштабное тестирование комбинаций из четырех методов векторизации и 32 моделей классификации. Проведенные исследования собраны в директории research.

Наилучший результат по метрике ROC-AUC показал fine-tuning модели sbert_large_mt_nlu_ru для задачи классификации:

Дообучались 8 последних слоев энкодера и линейный слой (классификатор).
ROC-AUC на тестовой выборке: 0.804.

Пайплайн обучения модели находится в файле Bert fine-tuning.
Предобученная модель размещена на 🤗 HuggingFace.
Для удобства тестирования мы подготовили ноутбук Model inference.

🏁 Выводы:

Выбор подходящего метода векторизации имеет ключевое значение.
Для повышения качества классификации модель стоит обучать на большем количестве данных, чем были представлены в тренировочном датасете.
Данные в тренировочном датасете однородные (предобработанные), поэтому для них не потребовалась ручная нормализация. Кроме того, модель sbert самостоятельно обрабатывает заглавные буквы и взаимозаменяемость "ё" и "е". А вот знаки препинания и формат записи чисел (цифрами или текстом) на результат токенизации влияют, поэтому при оценке качества датасетов другого формата стоит предварительно привести текст к единообразному виду.

Name		Name	Last commit message	Last commit date
Latest commit History 93 Commits
research		research
static/img		static/img
DataSorcerers_Beeline_presentation.pdf		DataSorcerers_Beeline_presentation.pdf
Model inference.ipynb		Model inference.ipynb
README.md		README.md
Sbert fine-tuning.ipynb		Sbert fine-tuning.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Задача от Beeline

Решение 💡

👥 Состав команды

About

Releases

Packages

Languages

yaskova/ClarityAnalyzer

Folders and files

Latest commit

History

Repository files navigation

Задача от Beeline

Решение 💡

👥 Состав команды

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages