Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001 — различия между версиями

Текущая версия на 21:30, 9 декабря 2021

«Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001»^{скачать}

«

Методы, основанные на функциях ценности, уже давно играют важную роль в обучение с подкреплением. Однако поиск лучшего следующего действия с учетом ценности функция произвольной сложности нетривиальна, когда пространство действия слишком большой для перечисления. Мы разрабатываем основу для глубокого обучение с подкреплением с комбинаторным пространством действий, в котором действие задача выбора явно формулируется как смешанно-целочисленная оптимизация проблема.

В качестве мотивирующего примера мы представляем применение этого фреймворка. к проблеме выбора маршрута транспортного средства (CVRP), комбинаторной оптимизации проблема, при которой набор местоположений должен быть покрыт одним транспортным средством с ограниченная вместимость.

В каждом случае мы моделируем действие как построение единственный маршрут, и рассмотрите детерминированную политику, которая улучшается за счет простой алгоритм итерации политики. Наш подход конкурентоспособен с другими методы обучения с подкреплением и достигает среднего разрыва 1,7% с современные методы ИЛИ для стандартных библиотек среднего размера.

…»

Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001 — различия между версиями

Текущая версия на 21:30, 9 декабря 2021

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты