Принятие решений в условиях неопределённости

2019-06-05

По материалам POMDP.org

Четыре компонента MDP-модели

Состояние
Действие
Переход (изменение состояния в результате действия)
Непосредственные вознаграждения

Решение MDP

Называется политика и определяет наилучшие действия для каждого из состояний. Цель - нахождение наилучшего соответствия между действиями и состояниями для заданного горизонта (кол-во дискретных периодов времени). Для заранее известных состояний на протяжении горизонта (полностью обозримые MDP) это не составляет труда, но если состояния неизвестны заранее (частично обозримые MDP, POMDP), то возникают определенные сложности.

Особенности POMDP

http://www.pomdp.org/tutorial/pomdp-solving.html

Закоулки мозга

Принятие решений в условиях неопределённости

Четыре компонента MDP-модели

Решение MDP

Особенности POMDP