Arxiv/Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001
«Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing 2020 2010.12001»скачать
Методы, основанные на функциях ценности, уже давно играют важную роль в обучение с подкреплением. Однако поиск лучшего следующего действия с учетом ценности функция произвольной сложности нетривиальна, когда пространство действия слишком большой для перечисления. Мы разрабатываем основу для глубокого обучение с подкреплением с комбинаторным пространством действий, в котором действие задача выбора явно формулируется как смешанно-целочисленная оптимизация проблема.
В качестве мотивирующего примера мы представляем применение этого фреймворка. к проблеме выбора маршрута транспортного средства (CVRP), комбинаторной оптимизации проблема, при которой набор местоположений должен быть покрыт одним транспортным средством с ограниченная вместимость.
В каждом случае мы моделируем действие как построение единственный маршрут, и рассмотрите детерминированную политику, которая улучшается за счет простой алгоритм итерации политики. Наш подход конкурентоспособен с другими методы обучения с подкреплением и достигает среднего разрыва 1,7% с современные методы ИЛИ для стандартных библиотек среднего размера.
…»
[ Хронологический вид ]Комментарии
Войдите, чтобы комментировать.