Опечатки about rl-theory-book HOT 9 CLOSED

mrph2898 commented on May 25, 2024

Опечатки

from rl-theory-book.

Comments (9)

mrph2898 commented on May 25, 2024

Параграф 3.1:
3.1.1., первый абзац, "ограничения: марковость и станционарность"
3.1.6., Первое в пункте утверждение с неравенством, последний переход с переносом. Знак равно на предыдущей строке вместо \leq
3.1.7. Утверждение 15, формально, в формулировке теоремы ещё надо указать, что для любого действия
3.1.10. Теорема Критерий оптимальности Беллмана. В достаточности после подстановки QQ должны быть везде штрихи над состояниями и действиями (во втором переходе их нет)

from rl-theory-book.

FortsAndMills commented on May 25, 2024

БОЛЬШОЕ СПАСИБО!

P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D

from rl-theory-book.

mrph2898 commented on May 25, 2024

БОЛЬШОЕ СПАСИБО!

P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D

Уже прочитал всё, интересно же)
Я линейно иду (бандитов, может, только не посмотрю до экзамена)), если буду ещё находить опечатки, сюда запишу

from rl-theory-book.

mrph2898 commented on May 25, 2024

Параграф 3.2
3.2.1, второй абзац: "мы засэмплировали из траекторию s; a; s0; a0;" - "из" лишнее?
3.2.1, стр.50, третий абзац: "Так, если Qπ(s; a) = V π(s), то мы можем заключить, что выбор a не привёл ни к какой награде, которую мы не ожидаем в состоянии s. Если, например, r(s; a) + V π(s0) > Qπ(s; a)..." -
В первом предложении стоит, возможно, сказать, что для фиксированного состояния? Во втором ясно, что цель подвести к advantage разнице, но ведь правильнее сравнивать с r + \gamma V(s`), может, как-то по-другому здесь надо описать?
3.2.3. Рассуждения после теоремы: "Если эта нижняя оценка поднята выше V π1(s; a), то стратегию" - V^{\pi_1}(s) без действия
3.2.4. Беда с нумерациями сносок (внутри теоремы и за её пределами имеет один и тот же номер и он неправильный (возможно, после перекомпиляции оно исчезло))).

Параграф 3.3
3.3.1. В теореме Банаха тоже поехал номер сноски. И далее в 3.3.2, причём неясно, к чему привязана нумерация - ни к параграфу, ни к пункту. Может, я и до этого не замечал, но думал, что привязаны к странице номера (в основном, так и было)
3.3.3. Утверждение 25. В доказательстве первый переход должен быть равенством, там же x^{*} точный максимум
3.3.5. Почти конец, стр.61, "в таким ситуациях"

Параграф 3.4
3.4.1. Утверждение 31, не уверен, но ранее, вроде, не использовался термин learning rate. Понятно, что это alpha, по аналогии с SGD, но можно просто написать именно alpha_k (только в след. пункте явно прописано, почему так можно назвать)
3.4.8. стр. 72, после утверждения 34, "Мы могли бы, вообще говорять,"
3.4.8. стр.73, последний абзац, "Чтобы понять, что это влечёт", лучше - "Чтобы понять, к чему это приводит,"

Параграф 3.5
Ещё не до конца прошёлся

Параграф 4.1
4.1.2. стр.87, в несмещённой оценке градиента нет закрывающей скобки (формула 4.2)
Далее, теорема: "...семейством, а то есть табличкой" - лишнее?
4.1.3. первый абзац: ", то есть фиксированнию задачи регрессии."
стр.88 "может стать немножко «сломаться»" - лишнее слово

Параграф 4.2
4.2.5. конец первого абзаца: "головой об стенкой"
4.2.8. Нужно ли в формуле с \ Psi^{Retrace} в верхнем индексе произведения писать "i = "?

Параграф 4.3
4.3.1. третий абзац, " оговориться о противоречиях, связанной с" - ых
4.3.4. опр.66, 67, нумерация сносок совпадает, та же проблема, что и раньше(
4.3.6. опр.69, "p — набор из 51 числа, суммирующихся в единицу". Ясно, что дальше пойдёт C51, но в определении явно задаётся же индексация для p_i и заводится переменная под количество атомов

(по policy gradient тоже сделаю))

from rl-theory-book.

FortsAndMills commented on May 25, 2024

Снова спасибо! Всё поправил (пока только в исходниках).

from rl-theory-book.

mrph2898 commented on May 25, 2024

Параграф 5.1
5.1.2. Везде кажется, что должно быть V^{\pi_{\theta}}(s_0) вместо V^{\pi_{\theta}}(s).
Также утверждение 51, после самого последнего перехода сумма по t=0 -> t\geq0
5.1.3. орешек после утв.52, "можно считать некоей"
5.1.5. второй абзац после опр.73. "марковская цепь уже «разгорелась»" - может, всё же, "разогрелась" (хотя так тоже красиво ~~горит~~ звучит)?))
5.1.7. стр.129, единственная формула на странице, максимизация по \pi_{\theta} или по \theta должна быть, а не просто \pi

Параграф 7.2
7.2.1. теорема 81, "что для a0 неоптимально " возможно, "для"лишнее

Параграф 7.3
7.3.5. сноска 9, "ряд неприниципиальных" - лишнее

Параграф 7.4
7.4.4. стр.187, абзац после формул приближения, "в этой рассматриваемой задачи мы" -че

Параграф 8.1
8.1.1. Пример DAgger, "собрать набор тот состояний"
8.1.2. Первый абзац (почему-то сейчас решил указать на запятую)), "На самом деле в разных " - перед "в"
Ладненько, ещё пример 114 "Допустим для простоты, мы также знаем" - лишняя перед "мы", не хватает перед "для"
Далее "Что мы тогда можем о ней, имея на" - "о ней сказать", наверное
8.1.4. В формуле 8.17 перед энтропией с крышечкой должен быть минус (из доказательства следует, кажется)

from rl-theory-book.

mrph2898 commented on May 25, 2024

Остальные параграфы после экзамена уже))

from rl-theory-book.

mrph2898 commented on May 25, 2024

Параграф 5.2
5.2.1. Орешек: "Можно ли мы " - можем

from rl-theory-book.

FortsAndMills commented on May 25, 2024

Снова огромное спасибо! Очень благодарен! Всё поправил, включая запятые!

from rl-theory-book.

Опечатки about rl-theory-book HOT 9 CLOSED

Comments (9)

Related Issues (10)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent