Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001 — различия между версиями
StasFomin (обсуждение | вклад) (Новая страница: «{{checked|}} {{arxivlink|arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001| Методы, основан…») |
(нет различий)
|
Текущая версия на 21:30, 9 декабря 2021
«Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001»скачать
Методы, основанные на функциях ценности, уже давно играют важную роль в обучение с подкреплением. Однако поиск лучшего следующего действия с учетом ценности функция произвольной сложности нетривиальна, когда пространство действия слишком большой для перечисления. Мы разрабатываем основу для глубокого обучение с подкреплением с комбинаторным пространством действий, в котором действие задача выбора явно формулируется как смешанно-целочисленная оптимизация проблема.
В качестве мотивирующего примера мы представляем применение этого фреймворка. к проблеме выбора маршрута транспортного средства (CVRP), комбинаторной оптимизации проблема, при которой набор местоположений должен быть покрыт одним транспортным средством с ограниченная вместимость.
В каждом случае мы моделируем действие как построение единственный маршрут, и рассмотрите детерминированную политику, которая улучшается за счет простой алгоритм итерации политики. Наш подход конкурентоспособен с другими методы обучения с подкреплением и достигает среднего разрыва 1,7% с современные методы ИЛИ для стандартных библиотек среднего размера.
…»