Acerca de este Curso

55,548 vistas recientes

Resultados profesionales del estudiante

33%

comenzó una nueva carrera después de completar estos cursos

56%

consiguió un beneficio tangible en su carrera profesional gracias a este curso

33%

consiguió un aumento de sueldo o ascenso
Certificado para compartir
Obtén un certificado al finalizar
100 % en línea
Comienza de inmediato y aprende a tu propio ritmo.
Fechas límite flexibles
Restablece las fechas límite en función de tus horarios.
Nivel avanzado
Aprox. 26 horas para completar
Inglés (English)

Resultados profesionales del estudiante

33%

comenzó una nueva carrera después de completar estos cursos

56%

consiguió un beneficio tangible en su carrera profesional gracias a este curso

33%

consiguió un aumento de sueldo o ascenso
Certificado para compartir
Obtén un certificado al finalizar
100 % en línea
Comienza de inmediato y aprende a tu propio ritmo.
Fechas límite flexibles
Restablece las fechas límite en función de tus horarios.
Nivel avanzado
Aprox. 26 horas para completar
Inglés (English)

ofrecido por

Placeholder

National Research University Higher School of Economics

Programa - Qué aprenderás en este curso

Calificación del contenidoThumbs Up81%(2,258 calificaciones)Info
Semana
1

Semana 1

5 horas para completar

Intro: why should I care?

5 horas para completar
14 videos (Total 85 minutos), 6 lecturas, 3 cuestionarios
14 videos
Why should you care9m
Reinforcement learning vs all3m
Multi-armed bandit4m
Decision process & applications6m
Markov Decision Process5m
Crossentropy method9m
Approximate crossentropy method5m
More on approximate crossentropy method6m
Evolution strategies: core idea6m
Evolution strategies: math problems5m
Evolution strategies: log-derivative trick8m
Evolution strategies: duct tape6m
Blackbox optimization: drawbacks4m
6 lecturas
About the University10m
Rules on the academic integrity in the course10m
FAQ10m
Primers1h
About honors track1m
Extras10m
Semana
2

Semana 2

3 horas para completar

At the heart of RL: Dynamic Programming

3 horas para completar
5 videos (Total 54 minutos), 3 lecturas, 4 cuestionarios
5 videos
State and Action Value Functions13m
Measuring Policy Optimality6m
Policy: evaluation & improvement10m
Policy and value iteration8m
3 lecturas
Optional: Reward discounting from a mathematical perspective10m
External links: Reward Design10m
Discrete Stochastic Dynamic Programming10m
3 ejercicios de práctica
Reward design8m
Optimality in RL30m
Policy Iteration30m
Semana
3

Semana 3

3 horas para completar

Model-free methods

3 horas para completar
6 videos (Total 47 minutos), 1 lectura, 4 cuestionarios
6 videos
Monte-Carlo & Temporal Difference; Q-learning8m
Exploration vs Exploitation8m
Footnote: Monte-Carlo vs Temporal Difference2m
Accounting for exploration. Expected Value SARSA11m
On-policy vs off-policy; Experience replay7m
1 lectura
Extras10m
1 ejercicio de práctica
Model-free reinforcement learning30m
Semana
4

Semana 4

3 horas para completar

Approximate Value Based Methods

3 horas para completar
9 videos (Total 104 minutos), 3 lecturas, 5 cuestionarios
9 videos
Loss functions in value based RL11m
Difficulties with Approximate Methods15m
DQN – bird's eye view9m
DQN – the internals9m
DQN: statistical issues6m
Double Q-learning6m
More DQN tricks10m
Partial observability17m
3 lecturas
TD vs MC10m
Extras10m
DQN follow-ups10m
3 ejercicios de práctica
MC & TD10m
SARSA and Q-learning10m
DQN30m

Reseñas

Principales reseñas sobre PRACTICAL REINFORCEMENT LEARNING

Ver todas las reseñas

Acerca de Programa especializado: Aprendizaje automático avanzado

Aprendizaje automático avanzado

Preguntas Frecuentes

¿Tienes más preguntas? Visita el Centro de Ayuda al Alumno.