- Ссылка на статью: DSTC5
Уже несколько лет подряд проводят соревнование Dialog State Tracking Challenge (DSTC). Состояние диалога (dialog state) - это фрейм со слотами и значениями слотов. Основная задача соревнования - это определение состояния диалога на каждом его шаге.
2 основные особенности 5-й ревизии DSTC:
- train set на английском; dev, test - на китайском; предоставляется переведенный вариант сделанный машинным переводом и выравнивания слов.
- кроме основной задачи, было добавлено 4 дополнительных пилотных задачи.
Судя по всему 4-я ревизия была такой же, только без китайского.
- Данные представляют из себя диалоги побитые на под-диалоги и разбитые на топики.
- Они были получены из Skype разговоров туристов с гидами на английском и китайском.
Обучающая выборка:
- 35 английских диалога из DSTC 4 с разметкой;
- каждая реплика имеет top-5 переводов на китайский с выравниваниями слов.
Валидационная выборка:
- аналогично обучающей, но всего 2 диалога и на китайском.
Тестовая выборка:
- аналогично обучающей, но всего 10 диалогов (8 для пилотных задач) и на китайском.
- Вход: под-диалог на определенный шаг.
- Выход: заполенный фрейм.
Основная задача соревнования - это определение состояния под-диалога на каждом его шаге.
Диалог делится на под-диалоги. Есть 2 варианта (schedule) для заполнения фрейма и оценки качества:
- На каждом шаге диалога заполняем фрейм и считаем оценки качества
- Оценку качества считаем только в конце под-диалога
1-й вариант лучше имитирует настоящий диалог.
Пример размеченного под-диалога:
![Sub-dialogue] (dstc-5-main.png)
Оценки качества следующие:
- Accuracy - доля верно заполненных фреймов, когда выдача трекера совпадает с золотым стандартном.
- Precision - доля верно заполненных слотов-значений на выходе трекера.
- Recall - доля верно заполненных слотов-значений в золотом стандарте.
- F1 - среднее между Precision и Recall.
Замечания по Precision и Recall
В Precision участвуют True Positive и False Positive. False Positive здесь динамический, т.е. в одном случае на выходе трекера может быть 4 слота, в другом 10.
В Recall - True Positive и False Negative. Сумма True Positive и False Negative всегда одна и та же, т.к. количество слотов в золотом стандарте фиксированное.
Пример размеченного диалога для пилотных задач:
![Pilot] (dstc-5-pilot.png)
- Вход: реплики от гида и туриста.
- Выход: семантические теги (semantic tags) и разговорные акты (speech acts) для реплик.
Семантические теги размечаются с помощью BIO-нотации.
Оценки качества следующие:
- Precision.
- Recall.
- F1.
- Вход: реплика и разметка (семантические теги и разговорные акты) для одного участника диалога и только семантические теги для другого.
- Выход: разговорный акт для реплики другого участника диалога.
Оценки качества следующие:
- Precision.
- Recall.
- F1.
- Вход: семантические теги и разговорный акт для реплики.
- Выход: сгенерированная реплика.
Оценки качества следующие:
- BLEU - геометрическое среднее между совпадениями n-грамм.
- AM-FM - взвешенное среднее косинусной близостью между сгенерированной и истинной репликами и нормализованной n-gram probability.