Просмотр исходного текста страницы Arxiv/POMO — Policy Optimization with Multiple Optima for Reinforcement Learning 2020 2010.16011

{{checked|}}
{{arxivlink|arxiv/POMO — Policy Optimization with Multiple Optima for Reinforcement Learning 2020 2010.16011|
В нейро-комбинаторной оптимизации (CO) обучение с подкреплением (RL) может превратить глубокую нейронную сеть в быстрый и мощный эвристический решатель NP-трудных проблемы. Этот подход имеет большой потенциал в практических приложениях, поскольку он позволяет находить почти оптимальные решения без помощи экспертов, вооруженных существенное знание предметной области. 

Мы представляем оптимизацию политик с несколькими Optima (POMO), комплексный подход к созданию такого эвристического решателя. ПОМО применимо к широкому кругу проблем с CO. Он предназначен для использования симметрии в представлении решения CO. ПОМО использует модифицированный Алгоритм REINFORCE, который заставляет разнообразные развертывания для всех оптимальных решений. 

Эмпирически базовый уровень POMO с низкой дисперсией делает обучение RL быстрым и стабильный, и он более устойчив к локальным минимумам по сравнению с предыдущими подходы. Мы также представляем новый метод вывода, основанный на расширении, который хорошо сопровождает ПОМО. Мы демонстрируем эффективность ПОМО, решая три популярных NP-сложных задачи, а именно: коммивояжер (коммивояжер), емкостной маршрутизация транспортных средств (CVRP) и рюкзак 0-1 (KP). 

Для всех трех наш решатель на основе на POMO показывает значительное улучшение производительности по сравнению со всеми недавно изученными эвристика. В частности, мы достигаем разрыва оптимальности 0,14% с TSP100. при этом время вывода сокращается более чем на порядок. 
}}
{{enddiv}}

[[Категория:ArxivArticles]]