Arxiv/Learning Vehicle Routing Problems using Policy Optimisation 2020 2012.13269
Глубокое обучение с подкреплением (DRL) использовалось для изучения эффективных эвристик. для решения сложной комбинаторной задачи оптимизации через сети политик и показали многообещающие характеристики. Существующие работы сосредоточены на решении (транспортное средство) проблемы с маршрутизацией, поскольку в них есть хороший баланс между нетривиальностью и трудности.
Современные подходы изучают политику с помощью подкрепления обучения, а изученная политика действует как псевдо-решатель. Эти подходы имеют продемонстрировал хорошую производительность в некоторых случаях, но с учетом большого пространства поиска типичная комбинаторная проблема / проблема маршрутизации, они могут слишком быстро сходиться к плохим политика. Чтобы предотвратить это, в данной статье мы предлагаем подход под названием энтропия регуляризованное обучение с подкреплением (ERRL), которое поддерживает исследование предоставление большего количества стохастических политик, что улучшает оптимизацию.
Опытным путем, ERRL с низкой дисперсией обеспечивает быстрое и стабильное обучение RL. Мы тоже ввести комбинацию локальных поисковых операторов во время тестирования, что значительно улучшает решение и дополняет ERRL. Мы качественно продемонстрировать, что для проблем с маршрутизацией транспортных средств политика с более высокой энтропией может сделать оптимизационный ландшафт плавным, что упростит оптимизацию. В количественная оценка показывает, что характеристики модели сопоставимы с самыми современными вариантами.
В нашей оценке мы экспериментально иллюстрируют, что модель обеспечивает современную производительность на вариантах Проблемы с маршрутизацией транспортных средств, такие как проблема маршрутизации емкостных транспортных средств (CVRP), Множественная маршрутизация с фиксированными проблемами парка (MRPFF) и коммивояжером проблема.
…»
[ Хронологический вид ]Комментарии
Войдите, чтобы комментировать.