Variance Optimization For Continuous-time Markov Decision Processes

Posted on:2021-03-23

Degree:Master

Type:Thesis

Country:China

Candidate:Y Q Fu

Full Text:PDF

GTID:2370330647960024

Subject:Science

Abstract/Summary:

PDF Full Text Request

This paper considers the variance optimization problem of average reward in continuous-time Markov decision process(MDP).It is assumed that the state space is countable and the action space is Borel measurable space.The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space.Unlike the traditional Markov decision process,the cost function in the variance criterion will be affected by future actions.To this end,we convert the variance minimization problem into a standard(MDP)by introducing a concept called pseudo-variance.Further,by giving the policy iterative algorithm of pseudo-variance optimization problem,the optimal policy of the original variance optimization problem is derived,and by defining Variance difference formula,a sufficient condition for the variance optimal policy is given.Finally,we will demonstrate its application in queuing systems and birth-and-death processes with catastrophes.

Keywords/Search Tags:

Continuous-time Markov decision process, Variance optimality of average reward, Optimal policy of variance, Policy iteration

PDF Full Text Request

Related items

1	Optimal Control For Discrete-Time Markov Processes: New Optimality Conditions And Approaches
2	Discrete Time Markov Decision Processes Based On Variance Constraint
3	Continuous-time Markov Decision Processes In Random Environments
4	Reliability And Maintennance Replacement Policy Of Cold Standby Systems With Two Units
5	Optimal Control Of Discrete-Time Systems:Average-Reward-Based Reinforcement Learning Methods
6	Average optimality in infinite horizon optimization
7	Research On Sequence Planning Based On POMDPs
8	Approximate Policy Iteration Algorithms for Continuous, Multidimensional Applications and Convergence Analysis
9	Quantitative Analysis Of Security Effectiveness And Research Of Defense Decision Method On Dynamic Platform Techniques
10	Research On Optimal Policy Of Inventory System Based On Sensitivity Optimization Method