В offline RL появилось множество разных алгоритмов за последние годы, но помимо алгоритмических идей они привносили и другие модификации, которые не подвергались достаточному анализу. В докладе я расскажу о том, как мы взяли часть этих модификаций, добавили их в самый простой оффлайн подход и получили state-of-the-art решение.
Подписывайтесь на Т-Банк
Код Желтый
Ютуб-канал
T-Crew
Блог на Хабре