Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001

Материал из DISCOPAL
Перейти к: навигация, поиск

«

Методы, основанные на функциях ценности, уже давно играют важную роль в обучение с подкреплением. Однако поиск лучшего следующего действия с учетом ценности функция произвольной сложности нетривиальна, когда пространство действия слишком большой для перечисления. Мы разрабатываем основу для глубокого обучение с подкреплением с комбинаторным пространством действий, в котором действие задача выбора явно формулируется как смешанно-целочисленная оптимизация проблема.

В качестве мотивирующего примера мы представляем применение этого фреймворка. к проблеме выбора маршрута транспортного средства (CVRP), комбинаторной оптимизации проблема, при которой набор местоположений должен быть покрыт одним транспортным средством с ограниченная вместимость.

В каждом случае мы моделируем действие как построение единственный маршрут, и рассмотрите детерминированную политику, которая улучшается за счет простой алгоритм итерации политики. Наш подход конкурентоспособен с другими методы обучения с подкреплением и достигает среднего разрыва 1,7% с современные методы ИЛИ для стандартных библиотек среднего размера.

…»

[ Хронологический вид ]Комментарии

(нет элементов)

Войдите, чтобы комментировать.