Закоулки мозга

По материалам POMDP.org

Четыре компонента MDP-модели

  1. Состояние
  2. Действие
  3. Переход (изменение состояния в результате действия)
  4. Непосредственные вознаграждения

Решение MDP

Называется политика и определяет наилучшие действия для каждого из состояний. Цель - нахождение наилучшего соответствия между действиями и состояниями для заданного горизонта (кол-во дискретных периодов времени). Для заранее известных состояний на протяжении горизонта (полностью обозримые MDP) это не составляет труда, но если состояния неизвестны заранее (частично обозримые MDP, POMDP), то возникают определенные сложности.

Особенности POMDP

http://www.pomdp.org/tutorial/pomdp-solving.html