5篇关于将强化学习与马尔可夫决策过程结合使用的论文推荐 5篇关于将强化学习与马尔可夫

文章图片

1、ReLLIE: Deep Reinforcement Learning for Customized Low-Light Image Enhancement Rongkai Zhang, Lanqing Guo, Siyu Huang, Bihan Wen
低光图像增强 (LLIE) 是一个普遍但具有挑战性的问题，因为：
1，低光测量可能会因实际情况中不同的成像条件而有所不同；
2，图像可能根据每个人不同喜好有不同的主观操作。
为了解决这两个挑战，本文提出了一种新的基于深度强化学习的方法，称为 ReLLIE。ReLLIE 通过将 LLIE 建模为马尔可夫决策过程，即按顺序和循环地估计像素级图像特定曲线。并且从一组精心设计损失函数计算的奖励，提出了一种轻量级网络来估计用于启发低光图像输入的曲线。由于 ReLLIE 学习的是策略而不是单一的图像翻译，因此它可以处理各种低光测量并通过在不同时间灵活应用策略来提供定制的增强输出。除此以外，ReLLIE 还可以通过使用即插即用的降噪器来增强具有噪声或图像缺失的真实世界图像。与最先进的方法相比，各种基准的广泛实验证明了 ReLLIE 的优势。
https://arxiv.org/pdf/2107.05...
2、Settling the Sample Complexity of Model-Based Offline Reinforcement Learning Gen Li, Laixi Shi, Yuxin Chen, Yuejie Chi, Yuting Wei
本片论文主要关注离线强化学习 (RL)，它使用预先收集的数据进行学习。有效的离线 RL 不需要进行探索，并且能够适应分布变化和有限的数据覆盖。先前的算法或分析要么存在次优的样本复杂性，要么在磨合到最优时会产生非常高的成本，这两个的问题会在样本匮乏的应用中对高效的离线 RL 构成障碍。而本篇论文证明了基于模型（或“插件”）的方法实现了极大极小最优样本复杂性，并且没有马尔可夫决策过程（MDP）的磨合成本问题。论文的摘要原文如下：

Concretely, consider a finite-horizon (resp. γ-discounted infinite-horizon) MDP with S states and horizon H(resp. effective horizon 11?γ), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient C?clipped. We prove that model-based offline RL yields ε-accuracy with a sample complexity of{H4SC?clippedε2(finite-horizon MDPs)SC?clipped(1?γ)3ε2(infinite-horizon MDPs)up to log factor, which is minimax optimal for the entire ε-range.

https://arxiv.org/pdf/2204.05...
3、Building Decision Forest via Deep Reinforcement Learning Guixuan Wen, Kaigui Wu
【5篇关于将强化学习与马尔可夫决策过程结合使用的论文推荐】分类器为决策树的集成学习方法通常属于 bagging 或 boosting。以前没有任何工作通过最大化长期回报来构建集成分类器。本文提出了一种基于深度强化学习的二元分类决策森林的构建方法MA-H-SAC-DF。首先，将构建过程建模为一个分散的部分可观察马尔科夫决策过程，由一组协作agent共同构建所有基础分类器。其次，基于父节点和当前位置信息定义全局状态和局部观察值; 最后，将目前最先进的深度强化方法Hybrid SAC扩展到CTDE架构下的多agent系统，以寻找最优的决策森林构建策略。实验表明，MA-H-SAC-DF在平衡数据集上的性能与随机森林、Adaboost和GBDT相同，在非平衡数据集上的性能优于它们。
https://arxiv.org/pdf/2204.00...
4、REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive Framework Flavio Corradini, Miichele Loreti, Marco Piangerelli, Giacomo Rocchetti
论文提出了一个能够根据操作环境变化调整其行为的软件系统的开发通用框架，并命名为 REPTILE。该框架依赖基于深度强化学习的agent对可能影响系统预期行为的事件（称为新奇事件）做出反应，并且可以以主动的方式进行工作。论文中提到了框架两个新颖的特性：与上下文/环境相关的新颖性和与物理架构本身相关的新颖性。该框架在这些新事物发生之前对其进行预测，提取环境的时变模型，并使用合适的马尔可夫决策过程来处理实时设置，agent会根据可能采取的行动而发展。
https://arxiv.org/pdf/2203.14...
5、Computationally efficient joint coordination of multiple electric vehicle charging points using reinforcement learning Manu Lahariya, Nasrin Sadeghianpourhamami, Chris Develder
当今电网面临的一个主要挑战是管理来自电动汽车 (EV) 充电的不断增加的负载。需求响应 (DR) 解决方案旨在利用其中的灵活性，即及时改变电动汽车充电的能力，从而避免过高的峰值或实现更好的平衡。尽管现有的大多数研究工作要么专注于单个 EV 充电器的控制策略，要么使用多步骤方法（例如，一个高级总体控制决策步骤和一个单个 EV 控制决策）。本论文提出了一个一次联合协调多个充电点的解决方案，通过使用强化学习 (RL) 解决可能限制其在实践中部署的计算挑战。更准确地说，论文设计了电动汽车充电协调过程的新马尔可夫决策过程 (MDP) 公式，该公式仅表现出线性空间和时间复杂度(而不是早期的二次空间复杂度)。在论文的案例研究中使用现实世界的 EV 充电会话数据在没有牺牲最终实现 DR 目标的性能（即在为 EV 完全充电）的情况下，与一切旧的策略相比，论文提出的 RL 解决方案使训练时间减少了 30%，并将充电需求协调的性能提高了 40-50%。
https://arxiv.org/pdf/2203.14...
https://www.overfit.cn/post/0be68dcea51b49fab80f69dcf1eeee06
作者：Monodeep