fortsandmills / rl-theory-book Goto Github PK

View Code? Open in Web Editor NEW

258.0 15.0 19.0 82.66 MB

Reinforcement learning theory book about foundations of deep RL algorithms with proofs.

TeX 100.00%

reinforcement-learning deep-reinforcement-learning rl reinforcement-learning-algorithms theory book

rl-theory-book's Introduction

rl-theory-book's People

Contributors

Stargazers

Watchers

Forkers

krokha18 maximvegorov ilyushin vvs1984 khurrampirov kkramarenko ab1992ao raoufmamedov bnazh sorvachev datkhuzhev unclemokus mikello ivankunyankin crafterkolyan kharitonov-ivan flexhyphen charlesrichie pppavlov

rl-theory-book's Issues

Ошибка в теореме 51

Первое выражение в доказательстве выписано непонятно, перепутаны функция распределения и обратная к ней, и к тому же выражение зачем-то приравнено к нулю ещё до взятия градиента. Надо переделать всё доказательство.

Опечатка в KL-дивергенции

Добрый день!

Как мне кажется, на странице 32 в пункте 2.2.2 сразу после утверждения 3 в формуле есть ошибка. Первое слагаемое не зависит от лямбды, а зависит только от q(x). Об этом говорится и дальше буквально в следующем предложении.

Исправить это можно предположительно в следующей строчке -

RL-Theory-book/src/2.MetaHeuristics/2.2.EvolutionStrategies.tex

Line 55 in 8d2ab4c

 $$\KL(q(x) \parallel q(x \mid \lambda)) = \const(\lambda) - \E_{q(x)} \log q(x \mid \lambda) \to \min_\lambda$$ 

Ошибка в абзаце 1 на странице 45

Ошибка в абзаце 1 на странице 45: "Следовательно, мы, выбрав сейчас то действие a, на которых достигается максимум".

Ошибки и опечатки

Абзац 6, страница 18: "В зависимости от скорости работы среды, то есть времени, затрачиваемой на сбор данных" -> затрачиваемого.
Абзац 1, страница 45: "Следовательно, мы, выбрав сейчас то действие a, на которых достигается максимум" -> котором.
Абзац 5, страница 51: "Значит и вся сумма наград будет положительна для любого стартового состояния" -> неотрицательна.

Опечатка стр. 13

Здравствуйте! На странице 13 в сноске 6 опечатка в слове "качестве"

Согласованность термина "стратегия"

Здравствуйте!
Благодарю вас за прекрасный материал!

Во многих разделах книги переменная π (strategy) употребляется с разным переводом. Где-то "политика", а где-то "стратегия". На мой субъективный взгляд, вне зависимости от раздела термин следует употреблять один и тот же. Например, у издательства Цифра в книге Саттона и Барто такая согласованность соблюдается. Я думаю, их книгу можно считать достаточно авторитетной в плане согласованности с оригиналом.

Заранее спасибо!

Опечатка в уравнениях Беллмана

Добрый день!
В примере 44 на странице 41 расписаны уравнения Беллмана. В предпоследнем уравнении V^{pi}(B) в последней скобке есть слагаемое \gamma * V^{pi}(C). Кажется, что вместо него должно было находиться терминальное состояние, т.е. \gamma * 0.

Указание на формулу до её введения

5.1.6. Расцепление внешней и внутренней стохастики
Итак, давайте попробуем формально понять, из какого распределения приходят состояния в формуле градиента (5.12), и отличается ли оно от µπ(s). Для этого мы сейчас придумаем, как можно записывать функционалы
вида

Кажется, что там должна быть не 5.12, а наверное 5.7, но вообще точно я сказать не могу какая формула имеется в виду.

Кажется что ошибка в главе 6

Там, где описывается полный алгоритм DDPG (в рамочке) https://github.com/FortsAndMills/RL-Theory-book/blob/main/src/6.ContinuousControl/6.1.DDPG.tex , то там такое условие, что если t mod K == 0то обновляем веса актора и критика по формуле скользящего среднего, но такого нет в оригинальной статье https://arxiv.org/pdf/1509.02971.pdf (стр. 5), там просто на каждом шаге происходит обновление.

Опечатки

До главы 3:
Стр. 20, вторая строка "...проблему наши алгоритмА обучения..."
Стр. 21, пример "В общем случае MDP, заданное" --> -ый
Стр. 23, определение мета-эвристики, в английском названии, кажется, лишние буквы: "stochastic zeroth-order"
Стр. 23, после определения, 2 абзац, "В теории мета-эвристик опция «запросить оракул в одной и той же точке
несколько раз»". Что имеется в виду под запросить оракул? Может "запросить оракула значение"?
Стр. 27, орешек под графиком: "отвечающий за «силу мутаций», например дисперсия σ гауссовского шума в примере 33, а то есть тоже связанный ...". Запятая после "например", и непонятно выражение "а то есть"
Стр. 27, самое начало параграфа про эволюционные алгоритмы: "Нам, вообще говоря, на очередном
шаге нам доступна", нам
Стр. 29, Пример 36 с топологической мутацией: "и выход одного подаётся добавляется к входу", что-то одно лишнее
Стр. 29, второй абзац в Видовой специализации: "...выживать особям, оказавшихся в не исследующихся местах...", придирка, но "в не исследуемых местах" звучит лучше
Стр. 32, Оценка вероятности редкого события, второй абзац: "Под словами «редкое событие» подразумевается, что выражение в индикаторе не равно нулю с вероятностью, крайне близкой к нулю.". Имелось в виду, что сам индикатор этого выражения равен единице (не равен нулю) с малой вероятностью?
Стр. 34, абзац перед 2.2.4: "...Поскольку некоторая доля плохих точек было выкинуто из выборки..." - "доля ... была выкинута"
Стр. 38, последний абзац: "Если мы попробуем проделать с данным подходом (оптимизацией (2.5)) проделать тот" - проделать

fortsandmills / rl-theory-book Goto Github PK

rl-theory-book's Introduction

Reinforcement Learning Theory Book (rus)

rl-theory-book's People

Contributors

Stargazers

Watchers

Forkers

rl-theory-book's Issues

Recommend Projects

Recommend Topics

Recommend Org