Giter Club home page Giter Club logo

rl-theory-book's Introduction

Reinforcement Learning Theory Book (rus)

Full book on Arxiv: https://arxiv.org/abs/2201.09746

  • Ch. 1: Introduction
  • Ch. 2: Meta-heuristics
    • NEAT, WANN
    • CEM, OpenAI-ES, CMA-ES
  • Ch. 3: Classic theory
    • Bellman equations
    • RPI, policy improv. theorem
    • Value Iteration, Generalized Policy Iteration
    • Temporal Difference, Q-learning, SARSA
    • Eligibility Traces, TD-lambda, Retrace
  • Ch. 4: Value-based
    • DQN
    • Double DQN, Dueling DQN, PER, Noisy DQN, Multi-step DQN
    • c51, QR-DQN, IQN, Rainbow DQN
  • Ch. 5: Policy Gradient
    • REINFORCE, A2C, GAE
    • TRPO, PPO
  • Ch. 6: Continuous Control
    • DDPG, TD3
    • SAC
  • Ch. 7: Model-based
    • Bandits
    • MCTS, AlphaZero, MuZero
    • LQR
  • Ch. 8: Next Stage
    • Imitation Learning / Inverse Reinforcement Learning
    • Intrinsic Motivation
    • Multi-Task and Hindsight
    • Hierarchical RL
    • Partial observability
    • Multi-Agent RL

rl-theory-book's People

Contributors

crafterkolyan avatar fortsandmills avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

rl-theory-book's Issues

Ошибка в теореме 51

Первое выражение в доказательстве выписано непонятно, перепутаны функция распределения и обратная к ней, и к тому же выражение зачем-то приравнено к нулю ещё до взятия градиента. Надо переделать всё доказательство.

Опечатка в KL-дивергенции

Добрый день!

Как мне кажется, на странице 32 в пункте 2.2.2 сразу после утверждения 3 в формуле есть ошибка. Первое слагаемое не зависит от лямбды, а зависит только от q(x). Об этом говорится и дальше буквально в следующем предложении.

Исправить это можно предположительно в следующей строчке -

$$\KL(q(x) \parallel q(x \mid \lambda)) = \const(\lambda) - \E_{q(x)} \log q(x \mid \lambda) \to \min_\lambda$$

Ошибки и опечатки

  1. Абзац 6, страница 18: "В зависимости от скорости работы среды, то есть времени, затрачиваемой на сбор данных" -> затрачиваемого.
  2. Абзац 1, страница 45: "Следовательно, мы, выбрав сейчас то действие a, на которых достигается максимум" -> котором.
  3. Абзац 5, страница 51: "Значит и вся сумма наград будет положительна для любого стартового состояния" -> неотрицательна.

Опечатка стр. 13

Здравствуйте! На странице 13 в сноске 6 опечатка в слове "качестве"

Согласованность термина "стратегия"

Здравствуйте!
Благодарю вас за прекрасный материал!

Во многих разделах книги переменная π (strategy) употребляется с разным переводом. Где-то "политика", а где-то "стратегия". На мой субъективный взгляд, вне зависимости от раздела термин следует употреблять один и тот же. Например, у издательства Цифра в книге Саттона и Барто такая согласованность соблюдается. Я думаю, их книгу можно считать достаточно авторитетной в плане согласованности с оригиналом.

Заранее спасибо!

Опечатка в уравнениях Беллмана

Добрый день!
В примере 44 на странице 41 расписаны уравнения Беллмана. В предпоследнем уравнении V^{pi}(B) в последней скобке есть слагаемое \gamma * V^{pi}(C). Кажется, что вместо него должно было находиться терминальное состояние, т.е. \gamma * 0.

Указание на формулу до её введения

5.1.6. Расцепление внешней и внутренней стохастики
Итак, давайте попробуем формально понять, из какого распределения приходят состояния в формуле градиента (5.12), и отличается ли оно от µπ(s). Для этого мы сейчас придумаем, как можно записывать функционалы
вида

Кажется, что там должна быть не 5.12, а наверное 5.7, но вообще точно я сказать не могу какая формула имеется в виду.

Кажется что ошибка в главе 6

Там, где описывается полный алгоритм DDPG (в рамочке) https://github.com/FortsAndMills/RL-Theory-book/blob/main/src/6.ContinuousControl/6.1.DDPG.tex , то там такое условие, что если t mod K == 0то обновляем веса актора и критика по формуле скользящего среднего, но такого нет в оригинальной статье https://arxiv.org/pdf/1509.02971.pdf (стр. 5), там просто на каждом шаге происходит обновление.

Опечатки

До главы 3:
Стр. 20, вторая строка "...проблему наши алгоритмА обучения..."
Стр. 21, пример "В общем случае MDP, заданное" --> -ый
Стр. 23, определение мета-эвристики, в английском названии, кажется, лишние буквы: "stochastic zeroth-order"
Стр. 23, после определения, 2 абзац, "В теории мета-эвристик опция «запросить оракул в одной и той же точке
несколько раз»". Что имеется в виду под запросить оракул? Может "запросить оракула значение"?
Стр. 27, орешек под графиком: "отвечающий за «силу мутаций», например дисперсия σ гауссовского шума в примере 33, а то есть тоже связанный ...". Запятая после "например", и непонятно выражение "а то есть"
Стр. 27, самое начало параграфа про эволюционные алгоритмы: "Нам, вообще говоря, на очередном
шаге нам доступна", нам
Стр. 29, Пример 36 с топологической мутацией: "и выход одного подаётся добавляется к входу", что-то одно лишнее
Стр. 29, второй абзац в Видовой специализации: "...выживать особям, оказавшихся в не исследующихся местах...", придирка, но "в не исследуемых местах" звучит лучше
Стр. 32, Оценка вероятности редкого события, второй абзац: "Под словами «редкое событие» подразумевается, что выражение в индикаторе не равно нулю с вероятностью, крайне близкой к нулю.". Имелось в виду, что сам индикатор этого выражения равен единице (не равен нулю) с малой вероятностью?
Стр. 34, абзац перед 2.2.4: "...Поскольку некоторая доля плохих точек было выкинуто из выборки..." - "доля ... была выкинута"
Стр. 38, последний абзац: "Если мы попробуем проделать с данным подходом (оптимизацией (2.5)) проделать тот" - проделать

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.