Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching | allainews.com

April 30, 2024, 4:46 a.m. | Robert Denkert, Huy\^en Pham, Xavier Warin

stat.ML updates on arXiv.org arxiv.org

arXiv:2404.17939v1 Announce Type: cross
Abstract: We propose a comprehensive framework for policy gradient methods tailored to continuous time reinforcement learning. This is based on the connection between stochastic control problems and randomised problems, enabling applications across various classes of Markovian continuous time control problems, beyond diffusion models, including e.g. regular, impulse and optimal stopping/switching problems. By utilizing change of measure in the control randomisation technique, we derive a new policy gradient representation for these randomised problems, featuring parametrised intensity policies. …

abstract application applications arxiv beyond continuous control diffusion enabling framework gradient math.oc policy reinforcement reinforcement learning stat.ml stochastic type

More from arxiv.org / stat.ML updates on arXiv.org

Filtered Partial Differential Equations: a robust surrogate constraint in physics-informed deep learning framework 13 hours ago | arxiv.org

abstract arxiv data deep learning +24

Long-term Causal Inference Under Persistent Confounding via Data Combination 13 hours ago | arxiv.org

abstract arxiv causal causal inference +18

Simplifying Debiased Inference via Automatic Differentiation and Probabilistic Programming 13 hours ago | arxiv.org

abstract algorithm arxiv audience +17

Mutual information and the encoding of contingency tables 13 hours ago | arxiv.org

abstract arxiv classification community +15

Entropic estimation of optimal transport maps 1 day, 13 hours ago | arxiv.org

abstract algorithm arxiv compute +15

Uniform Inference for Subsampled Moment Regression 1 day, 13 hours ago | arxiv.org

abstract algorithms arxiv class +15

Partial information decomposition as information bottleneck 1 day, 13 hours ago | arxiv.org

abstract arxiv cs.it information +6

Adaptive-TMLE for the Average Treatment Effect based on Randomized Controlled Trial Augmented with Real-World Data 1 day, 13 hours ago | arxiv.org

abstract arxiv control data +6

Nonlinear classification of neural manifolds with contextual information 1 day, 13 hours ago | arxiv.org

abstract analyze arxiv attributes +23

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net

Research Engineer

@ Allora Labs | Remote

View on ai-jobs.net

Ecosystem Manager

@ Allora Labs | Remote

View on ai-jobs.net

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net