Ссылка на статью: DSTC5

Общее описание

Уже несколько лет подряд проводят соревнование Dialog State Tracking Challenge (DSTC). Состояние диалога (dialog state) - это фрейм со слотами и значениями слотов. Основная задача соревнования - это определение состояния диалога на каждом его шаге.

2 основные особенности 5-й ревизии DSTC:

train set на английском; dev, test - на китайском; предоставляется переведенный вариант сделанный машинным переводом и выравнивания слов.
кроме основной задачи, было добавлено 4 дополнительных пилотных задачи.

Судя по всему 4-я ревизия была такой же, только без китайского.

Данные

Данные представляют из себя диалоги побитые на под-диалоги и разбитые на топики.
Они были получены из Skype разговоров туристов с гидами на английском и китайском.

Обучающая выборка:

35 английских диалога из DSTC 4 с разметкой;
каждая реплика имеет top-5 переводов на китайский с выравниваниями слов.

Валидационная выборка:

аналогично обучающей, но всего 2 диалога и на китайском.

Тестовая выборка:

аналогично обучающей, но всего 10 диалогов (8 для пилотных задач) и на китайском.

Задачи и оценка качества

Основная задача

Вход: под-диалог на определенный шаг.
Выход: заполенный фрейм.

Основная задача соревнования - это определение состояния под-диалога на каждом его шаге.

Диалог делится на под-диалоги. Есть 2 варианта (schedule) для заполнения фрейма и оценки качества:

На каждом шаге диалога заполняем фрейм и считаем оценки качества
Оценку качества считаем только в конце под-диалога

1-й вариант лучше имитирует настоящий диалог.

Пример размеченного под-диалога:

![Sub-dialogue] (dstc-5-main.png)

Оценки качества следующие:

Accuracy - доля верно заполненных фреймов, когда выдача трекера совпадает с золотым стандартном.
Precision - доля верно заполненных слотов-значений на выходе трекера.
Recall - доля верно заполненных слотов-значений в золотом стандарте.
F1 - среднее между Precision и Recall.

Замечания по Precision и Recall

В Precision участвуют True Positive и False Positive. False Positive здесь динамический, т.е. в одном случае на выходе трекера может быть 4 слота, в другом 10.

В Recall - True Positive и False Negative. Сумма True Positive и False Negative всегда одна и та же, т.к. количество слотов в золотом стандарте фиксированное.

Пилотные задачи

Пример размеченного диалога для пилотных задач:

![Pilot] (dstc-5-pilot.png)

Spoken language undestanding

Вход: реплики от гида и туриста.
Выход: семантические теги (semantic tags) и разговорные акты (speech acts) для реплик.

Семантические теги размечаются с помощью BIO-нотации.

Оценки качества следующие:

Precision.
Recall.
F1.

Speech act prediction

Вход: реплика и разметка (семантические теги и разговорные акты) для одного участника диалога и только семантические теги для другого.
Выход: разговорный акт для реплики другого участника диалога.

Оценки качества следующие:

Precision.
Recall.
F1.

Spoken language generation

Вход: семантические теги и разговорный акт для реплики.
Выход: сгенерированная реплика.

Оценки качества следующие:

BLEU - геометрическое среднее между совпадениями n-грамм.
AM-FM - взвешенное среднее косинусной близостью между сгенерированной и истинной репликами и нормализованной n-gram probability.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dstc5-hand.md

dstc5-hand.md

Общее описание

Данные

Задачи и оценка качества

Основная задача

Пилотные задачи

Spoken language undestanding

Speech act prediction

Spoken language generation

Files

dstc5-hand.md

Latest commit

History

dstc5-hand.md

File metadata and controls

Общее описание

Данные

Задачи и оценка качества

Основная задача

Пилотные задачи

Spoken language undestanding

Speech act prediction

Spoken language generation