Skip to content

Latest commit

 

History

History
112 lines (71 loc) · 5.47 KB

dstc5-hand.md

File metadata and controls

112 lines (71 loc) · 5.47 KB
  • Ссылка на статью: DSTC5

Общее описание

Уже несколько лет подряд проводят соревнование Dialog State Tracking Challenge (DSTC). Состояние диалога (dialog state) - это фрейм со слотами и значениями слотов. Основная задача соревнования - это определение состояния диалога на каждом его шаге.

2 основные особенности 5-й ревизии DSTC:

  • train set на английском; dev, test - на китайском; предоставляется переведенный вариант сделанный машинным переводом и выравнивания слов.
  • кроме основной задачи, было добавлено 4 дополнительных пилотных задачи.

Судя по всему 4-я ревизия была такой же, только без китайского.

Данные

  • Данные представляют из себя диалоги побитые на под-диалоги и разбитые на топики.
  • Они были получены из Skype разговоров туристов с гидами на английском и китайском.

Обучающая выборка:

  • 35 английских диалога из DSTC 4 с разметкой;
  • каждая реплика имеет top-5 переводов на китайский с выравниваниями слов.

Валидационная выборка:

  • аналогично обучающей, но всего 2 диалога и на китайском.

Тестовая выборка:

  • аналогично обучающей, но всего 10 диалогов (8 для пилотных задач) и на китайском.

Задачи и оценка качества

Основная задача

  • Вход: под-диалог на определенный шаг.
  • Выход: заполенный фрейм.

Основная задача соревнования - это определение состояния под-диалога на каждом его шаге.

Диалог делится на под-диалоги. Есть 2 варианта (schedule) для заполнения фрейма и оценки качества:

  1. На каждом шаге диалога заполняем фрейм и считаем оценки качества
  2. Оценку качества считаем только в конце под-диалога

1-й вариант лучше имитирует настоящий диалог.

Пример размеченного под-диалога:

![Sub-dialogue] (dstc-5-main.png)

Оценки качества следующие:

  • Accuracy - доля верно заполненных фреймов, когда выдача трекера совпадает с золотым стандартном.
  • Precision - доля верно заполненных слотов-значений на выходе трекера.
  • Recall - доля верно заполненных слотов-значений в золотом стандарте.
  • F1 - среднее между Precision и Recall.

Замечания по Precision и Recall

В Precision участвуют True Positive и False Positive. False Positive здесь динамический, т.е. в одном случае на выходе трекера может быть 4 слота, в другом 10.

В Recall - True Positive и False Negative. Сумма True Positive и False Negative всегда одна и та же, т.к. количество слотов в золотом стандарте фиксированное.

Пилотные задачи

Пример размеченного диалога для пилотных задач:

![Pilot] (dstc-5-pilot.png)

Spoken language undestanding

  • Вход: реплики от гида и туриста.
  • Выход: семантические теги (semantic tags) и разговорные акты (speech acts) для реплик.

Семантические теги размечаются с помощью BIO-нотации.

Оценки качества следующие:

  • Precision.
  • Recall.
  • F1.

Speech act prediction

  • Вход: реплика и разметка (семантические теги и разговорные акты) для одного участника диалога и только семантические теги для другого.
  • Выход: разговорный акт для реплики другого участника диалога.

Оценки качества следующие:

  • Precision.
  • Recall.
  • F1.

Spoken language generation

  • Вход: семантические теги и разговорный акт для реплики.
  • Выход: сгенерированная реплика.

Оценки качества следующие:

  • BLEU - геометрическое среднее между совпадениями n-грамм.
  • AM-FM - взвешенное среднее косинусной близостью между сгенерированной и истинной репликами и нормализованной n-gram probability.