Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric Models. (arXiv:2209.10064v1 [stat.ML]) | allainews.com

Sept. 22, 2022, 1:11 a.m. | Rui Miao, Zhengling Qi, Xiaoke Zhang

cs.LG updates on arXiv.org arxiv.org

We study the problem of off-policy evaluation (OPE) for episodic Partially
Observable Markov Decision Processes (POMDPs) with continuous states. Motivated
by the recently proposed proximal causal inference framework, we develop a
non-parametric identification result for estimating the policy value via a
sequence of so-called V-bridge functions with the help of time-dependent proxy
variables. We then develop a fitted-Q-evaluation-type algorithm to estimate
V-bridge functions recursively, where a non-parametric instrumental variable
(NPIV) problem is solved at each step. By analyzing this challenging …

arxiv decision evaluation markov non-parametric observable parametric policy processes

More from arxiv.org / cs.LG updates on arXiv.org

Training towards significance with the decorrelated event classifier transformer neural network 20 hours ago | arxiv.org

abstract analysis application arxiv +28

An adaptive standardisation methodology for Day-Ahead electricity price forecasting 20 hours ago | arxiv.org

abstract algorithms arxiv complexity +18

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems 20 hours ago | arxiv.org

abstract arxiv cs.cv cs.lg +17

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods 20 hours ago | arxiv.org

abstract algorithms arxiv augmentation +17

Description-Based Text Similarity 20 hours ago | arxiv.org

abstract arxiv cases cs.cl +14

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning 20 hours ago | arxiv.org

abstract algorithms applications arxiv +13

A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference 20 hours ago | arxiv.org

abstract applications arxiv as-a-service +26

Digital Over-the-Air Federated Learning in Multi-Antenna Systems 20 hours ago | arxiv.org

abstract arxiv communication computation +16

Bagging Provides Assumption-free Stability 20 hours ago | arxiv.org

abstract algorithm arxiv assumptions +15

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Senior Business Intelligence Developer / Analyst

@ Transamerica | Work From Home, USA

View on ai-jobs.net

Data Analyst (All Levels)

@ Noblis | Bethesda, MD, United States

View on ai-jobs.net