Реализация статьи Deep Reinforcement Learning in Large Discrete Action Spaces для рекомендаций
К реализации алгоритма из статьи добавлена регуляризация критика по ближайшему соседу протодействия. В экспериментах показано улучшение в сравнении с бейзлайном.
На основе этого проекта была выполнена моя курсовая работа, где подробно описан симулятор для агента и результаты экспериментов.