Comments (9)
Параграф 3.1:
3.1.1., первый абзац, "ограничения: марковость и станционарность"
3.1.6., Первое в пункте утверждение с неравенством, последний переход с переносом. Знак равно на предыдущей строке вместо \leq
3.1.7. Утверждение 15, формально, в формулировке теоремы ещё надо указать, что для любого действия
3.1.10. Теорема Критерий оптимальности Беллмана. В достаточности после подстановки QQ должны быть везде штрихи над состояниями и действиями (во втором переходе их нет)
from rl-theory-book.
БОЛЬШОЕ СПАСИБО!
P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D
from rl-theory-book.
БОЛЬШОЕ СПАСИБО!
P.S. Если что, там из главы 2 в курсе был только Кросс-энтропийный метод (CEM), поэтому остальное можно было не читать =D
Уже прочитал всё, интересно же)
Я линейно иду (бандитов, может, только не посмотрю до экзамена)), если буду ещё находить опечатки, сюда запишу
from rl-theory-book.
Параграф 3.2
3.2.1, второй абзац: "мы засэмплировали из траекторию s; a; s0; a0;" - "из" лишнее?
3.2.1, стр.50, третий абзац: "Так, если Qπ(s; a) = V π(s), то мы можем заключить, что выбор a не привёл ни к какой награде, которую мы не ожидаем в состоянии s. Если, например, r(s; a) + V π(s0) > Qπ(s; a)..." -
В первом предложении стоит, возможно, сказать, что для фиксированного состояния? Во втором ясно, что цель подвести к advantage разнице, но ведь правильнее сравнивать с r + \gamma V(s`), может, как-то по-другому здесь надо описать?
3.2.3. Рассуждения после теоремы: "Если эта нижняя оценка поднята выше V π1(s; a), то стратегию" - V^{\pi_1}(s) без действия
3.2.4. Беда с нумерациями сносок (внутри теоремы и за её пределами имеет один и тот же номер и он неправильный (возможно, после перекомпиляции оно исчезло))).
Параграф 3.3
3.3.1. В теореме Банаха тоже поехал номер сноски. И далее в 3.3.2, причём неясно, к чему привязана нумерация - ни к параграфу, ни к пункту. Может, я и до этого не замечал, но думал, что привязаны к странице номера (в основном, так и было)
3.3.3. Утверждение 25. В доказательстве первый переход должен быть равенством, там же x^{*} точный максимум
3.3.5. Почти конец, стр.61, "в таким ситуациях"
Параграф 3.4
3.4.1. Утверждение 31, не уверен, но ранее, вроде, не использовался термин learning rate. Понятно, что это alpha, по аналогии с SGD, но можно просто написать именно alpha_k (только в след. пункте явно прописано, почему так можно назвать)
3.4.8. стр. 72, после утверждения 34, "Мы могли бы, вообще говорять,"
3.4.8. стр.73, последний абзац, "Чтобы понять, что это влечёт", лучше - "Чтобы понять, к чему это приводит,"
Параграф 3.5
Ещё не до конца прошёлся
Параграф 4.1
4.1.2. стр.87, в несмещённой оценке градиента нет закрывающей скобки (формула 4.2)
Далее, теорема: "...семейством, а то есть табличкой" - лишнее?
4.1.3. первый абзац: ", то есть фиксированнию задачи регрессии."
стр.88 "может стать немножко «сломаться»" - лишнее слово
Параграф 4.2
4.2.5. конец первого абзаца: "головой об стенкой"
4.2.8. Нужно ли в формуле с \ Psi^{Retrace} в верхнем индексе произведения писать "i = "?
Параграф 4.3
4.3.1. третий абзац, " оговориться о противоречиях, связанной с" - ых
4.3.4. опр.66, 67, нумерация сносок совпадает, та же проблема, что и раньше(
4.3.6. опр.69, "p — набор из 51 числа, суммирующихся в единицу". Ясно, что дальше пойдёт C51, но в определении явно задаётся же индексация для p_i и заводится переменная под количество атомов
(по policy gradient тоже сделаю))
from rl-theory-book.
Снова спасибо! Всё поправил (пока только в исходниках).
from rl-theory-book.
Параграф 5.1
5.1.2. Везде кажется, что должно быть V^{\pi_{\theta}}(s_0) вместо V^{\pi_{\theta}}(s).
Также утверждение 51, после самого последнего перехода сумма по t=0 -> t\geq0
5.1.3. орешек после утв.52, "можно считать некоей"
5.1.5. второй абзац после опр.73. "марковская цепь уже «разгорелась»" - может, всё же, "разогрелась" (хотя так тоже красиво горит звучит)?))
5.1.7. стр.129, единственная формула на странице, максимизация по \pi_{\theta} или по \theta должна быть, а не просто \pi
Параграф 7.2
7.2.1. теорема 81, "что для a0 неоптимально " возможно, "для"лишнее
Параграф 7.3
7.3.5. сноска 9, "ряд неприниципиальных" - лишнее
Параграф 7.4
7.4.4. стр.187, абзац после формул приближения, "в этой рассматриваемой задачи мы" -че
Параграф 8.1
8.1.1. Пример DAgger, "собрать набор тот состояний"
8.1.2. Первый абзац (почему-то сейчас решил указать на запятую)), "На самом деле в разных " - перед "в"
Ладненько, ещё пример 114 "Допустим для простоты, мы также знаем" - лишняя перед "мы", не хватает перед "для"
Далее "Что мы тогда можем о ней, имея на" - "о ней сказать", наверное
8.1.4. В формуле 8.17 перед энтропией с крышечкой должен быть минус (из доказательства следует, кажется)
from rl-theory-book.
Остальные параграфы после экзамена уже))
from rl-theory-book.
Параграф 5.2
5.2.1. Орешек: "Можно ли мы " - можем
from rl-theory-book.
Снова огромное спасибо! Очень благодарен! Всё поправил, включая запятые!
from rl-theory-book.
Related Issues (10)
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from rl-theory-book.