Giter Club home page Giter Club logo

Comments (9)

mrph2898 avatar mrph2898 commented on May 25, 2024

Параграф 3.1:
3.1.1., первый абзац, "ограничения: марковость и станционарность"
3.1.6., Первое в пункте утверждение с неравенством, последний переход с переносом. Знак равно на предыдущей строке вместо \leq
3.1.7. Утверждение 15, формально, в формулировке теоремы ещё надо указать, что для любого действия
3.1.10. Теорема Критерий оптимальности Беллмана. В достаточности после подстановки QQ должны быть везде штрихи над состояниями и действиями (во втором переходе их нет)

from rl-theory-book.

FortsAndMills avatar FortsAndMills commented on May 25, 2024

БОЛЬШОЕ СПАСИБО!

P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D

from rl-theory-book.

mrph2898 avatar mrph2898 commented on May 25, 2024

БОЛЬШОЕ СПАСИБО!

P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D

Уже прочитал всё, интересно же)
Я линейно иду (бандитов, может, только не посмотрю до экзамена)), если буду ещё находить опечатки, сюда запишу

from rl-theory-book.

mrph2898 avatar mrph2898 commented on May 25, 2024

Параграф 3.2
3.2.1, второй абзац: "мы засэмплировали из траекторию s; a; s0; a0;" - "из" лишнее?
3.2.1, стр.50, третий абзац: "Так, если Qπ(s; a) = V π(s), то мы можем заключить, что выбор a не привёл ни к какой награде, которую мы не ожидаем в состоянии s. Если, например, r(s; a) + V π(s0) > Qπ(s; a)..." -
В первом предложении стоит, возможно, сказать, что для фиксированного состояния? Во втором ясно, что цель подвести к advantage разнице, но ведь правильнее сравнивать с r + \gamma V(s`), может, как-то по-другому здесь надо описать?
3.2.3. Рассуждения после теоремы: "Если эта нижняя оценка поднята выше V π1(s; a), то стратегию" - V^{\pi_1}(s) без действия
3.2.4. Беда с нумерациями сносок (внутри теоремы и за её пределами имеет один и тот же номер и он неправильный (возможно, после перекомпиляции оно исчезло))).

Параграф 3.3
3.3.1. В теореме Банаха тоже поехал номер сноски. И далее в 3.3.2, причём неясно, к чему привязана нумерация - ни к параграфу, ни к пункту. Может, я и до этого не замечал, но думал, что привязаны к странице номера (в основном, так и было)
3.3.3. Утверждение 25. В доказательстве первый переход должен быть равенством, там же x^{*} точный максимум
3.3.5. Почти конец, стр.61, "в таким ситуациях"

Параграф 3.4
3.4.1. Утверждение 31, не уверен, но ранее, вроде, не использовался термин learning rate. Понятно, что это alpha, по аналогии с SGD, но можно просто написать именно alpha_k (только в след. пункте явно прописано, почему так можно назвать)
3.4.8. стр. 72, после утверждения 34, "Мы могли бы, вообще говорять,"
3.4.8. стр.73, последний абзац, "Чтобы понять, что это влечёт", лучше - "Чтобы понять, к чему это приводит,"

Параграф 3.5
Ещё не до конца прошёлся

Параграф 4.1
4.1.2. стр.87, в несмещённой оценке градиента нет закрывающей скобки (формула 4.2)
Далее, теорема: "...семейством, а то есть табличкой" - лишнее?
4.1.3. первый абзац: ", то есть фиксированнию задачи регрессии."
стр.88 "может стать немножко «сломаться»" - лишнее слово

Параграф 4.2
4.2.5. конец первого абзаца: "головой об стенкой"
4.2.8. Нужно ли в формуле с \ Psi^{Retrace} в верхнем индексе произведения писать "i = "?

Параграф 4.3
4.3.1. третий абзац, " оговориться о противоречиях, связанной с" - ых
4.3.4. опр.66, 67, нумерация сносок совпадает, та же проблема, что и раньше(
4.3.6. опр.69, "p — набор из 51 числа, суммирующихся в единицу". Ясно, что дальше пойдёт C51, но в определении явно задаётся же индексация для p_i и заводится переменная под количество атомов

(по policy gradient тоже сделаю))

from rl-theory-book.

FortsAndMills avatar FortsAndMills commented on May 25, 2024

Снова спасибо! Всё поправил (пока только в исходниках).

from rl-theory-book.

mrph2898 avatar mrph2898 commented on May 25, 2024

Параграф 5.1
5.1.2. Везде кажется, что должно быть V^{\pi_{\theta}}(s_0) вместо V^{\pi_{\theta}}(s).
Также утверждение 51, после самого последнего перехода сумма по t=0 -> t\geq0
5.1.3. орешек после утв.52, "можно считать некоей"
5.1.5. второй абзац после опр.73. "марковская цепь уже «разгорелась»" - может, всё же, "разогрелась" (хотя так тоже красиво горит звучит)?))
5.1.7. стр.129, единственная формула на странице, максимизация по \pi_{\theta} или по \theta должна быть, а не просто \pi

Параграф 7.2
7.2.1. теорема 81, "что для a0 неоптимально " возможно, "для"лишнее

Параграф 7.3
7.3.5. сноска 9, "ряд неприниципиальных" - лишнее

Параграф 7.4
7.4.4. стр.187, абзац после формул приближения, "в этой рассматриваемой задачи мы" -че

Параграф 8.1
8.1.1. Пример DAgger, "собрать набор тот состояний"
8.1.2. Первый абзац (почему-то сейчас решил указать на запятую)), "На самом деле в разных " - перед "в"
Ладненько, ещё пример 114 "Допустим для простоты, мы также знаем" - лишняя перед "мы", не хватает перед "для"
Далее "Что мы тогда можем о ней, имея на" - "о ней сказать", наверное
8.1.4. В формуле 8.17 перед энтропией с крышечкой должен быть минус (из доказательства следует, кажется)

from rl-theory-book.

mrph2898 avatar mrph2898 commented on May 25, 2024

Остальные параграфы после экзамена уже))

from rl-theory-book.

mrph2898 avatar mrph2898 commented on May 25, 2024

Параграф 5.2
5.2.1. Орешек: "Можно ли мы " - можем

from rl-theory-book.

FortsAndMills avatar FortsAndMills commented on May 25, 2024

Снова огромное спасибо! Очень благодарен! Всё поправил, включая запятые!

from rl-theory-book.

Related Issues (10)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.