Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001 — различия между версиями

Материал из DISCOPAL
Перейти к: навигация, поиск
(Новая страница: «{{checked|}} {{arxivlink|arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001| Методы, основан…»)
 
(нет различий)

Текущая версия на 21:30, 9 декабря 2021

«

Методы, основанные на функциях ценности, уже давно играют важную роль в обучение с подкреплением. Однако поиск лучшего следующего действия с учетом ценности функция произвольной сложности нетривиальна, когда пространство действия слишком большой для перечисления. Мы разрабатываем основу для глубокого обучение с подкреплением с комбинаторным пространством действий, в котором действие задача выбора явно формулируется как смешанно-целочисленная оптимизация проблема.

В качестве мотивирующего примера мы представляем применение этого фреймворка. к проблеме выбора маршрута транспортного средства (CVRP), комбинаторной оптимизации проблема, при которой набор местоположений должен быть покрыт одним транспортным средством с ограниченная вместимость.

В каждом случае мы моделируем действие как построение единственный маршрут, и рассмотрите детерминированную политику, которая улучшается за счет простой алгоритм итерации политики. Наш подход конкурентоспособен с другими методы обучения с подкреплением и достигает среднего разрыва 1,7% с современные методы ИЛИ для стандартных библиотек среднего размера.

…»