Arxiv/POMO — Policy Optimization with Multiple Optima for Reinforcement Learning 2020 2010.16011

Материал из DISCOPAL
Версия от 21:27, 9 декабря 2021; StasFomin (обсуждение | вклад) (Новая страница: «{{checked|}} {{arxivlink|arxiv/POMO — Policy Optimization with Multiple Optima for Reinforcement Learning 2020 2010.16011| В нейро-комбинаторн…»)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

«

В нейро-комбинаторной оптимизации (CO) обучение с подкреплением (RL) может превратить глубокую нейронную сеть в быстрый и мощный эвристический решатель NP-трудных проблемы. Этот подход имеет большой потенциал в практических приложениях, поскольку он позволяет находить почти оптимальные решения без помощи экспертов, вооруженных существенное знание предметной области.

Мы представляем оптимизацию политик с несколькими Optima (POMO), комплексный подход к созданию такого эвристического решателя. ПОМО применимо к широкому кругу проблем с CO. Он предназначен для использования симметрии в представлении решения CO. ПОМО использует модифицированный Алгоритм REINFORCE, который заставляет разнообразные развертывания для всех оптимальных решений.

Эмпирически базовый уровень POMO с низкой дисперсией делает обучение RL быстрым и стабильный, и он более устойчив к локальным минимумам по сравнению с предыдущими подходы. Мы также представляем новый метод вывода, основанный на расширении, который хорошо сопровождает ПОМО. Мы демонстрируем эффективность ПОМО, решая три популярных NP-сложных задачи, а именно: коммивояжер (коммивояжер), емкостной маршрутизация транспортных средств (CVRP) и рюкзак 0-1 (KP).

Для всех трех наш решатель на основе на POMO показывает значительное улучшение производительности по сравнению со всеми недавно изученными эвристика. В частности, мы достигаем разрыва оптимальности 0,14% с TSP100. при этом время вывода сокращается более чем на порядок.

…»

[ Хронологический вид ]Комментарии

(нет элементов)

Войдите, чтобы комментировать.