По материалам POMDP.org
Четыре компонента MDP-модели
- Состояние
- Действие
- Переход (изменение состояния в результате действия)
- Непосредственные вознаграждения
Решение MDP
Называется политика и определяет наилучшие действия для каждого из состояний. Цель - нахождение наилучшего соответствия между действиями и состояниями для заданного горизонта (кол-во дискретных периодов времени). Для заранее известных состояний на протяжении горизонта (полностью обозримые MDP) это не составляет труда, но если состояния неизвестны заранее (частично обозримые MDP, POMDP), то возникают определенные сложности.
Особенности POMDP
http://www.pomdp.org/tutorial/pomdp-solving.html