Acerca de este Curso

247,426 vistas recientes
Certificado para compartir
Obtén un certificado al finalizar
100 % en línea
Comienza de inmediato y aprende a tu propio ritmo.
Fechas límite flexibles
Restablece las fechas límite en función de tus horarios.
Nivel intermedio

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglés (English)
Subtítulos: Inglés (English)

Qué aprenderás

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Habilidades que obtendrás

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Certificado para compartir
Obtén un certificado al finalizar
100 % en línea
Comienza de inmediato y aprende a tu propio ritmo.
Fechas límite flexibles
Restablece las fechas límite en función de tus horarios.
Nivel intermedio

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglés (English)
Subtítulos: Inglés (English)

ofrecido por

Logotipo de Universidad de Alberta

Universidad de Alberta

Logotipo de Alberta Machine Intelligence Institute

Alberta Machine Intelligence Institute

Programa - Qué aprenderás en este curso

Calificación del contenidoThumbs Up93%(7,880 calificaciones)Info
Semana
1

Semana 1

1 hora para completar

Welcome to the Course!

1 hora para completar
4 videos (Total 20 minutos), 2 lecturas
4 videos
Course Introduction5m
Meet your instructors!8m
Your Specialization Roadmap3m
2 lecturas
Reinforcement Learning Textbook10m
Read Me: Pre-requisites and Learning Objectives10m
4 horas para completar

The K-Armed Bandit Problem

4 horas para completar
8 videos (Total 46 minutos), 3 lecturas, 2 cuestionarios
8 videos
Learning Action Values4m
Estimating Action Values Incrementally5m
What is the trade-off?7m
Optimistic Initial Values6m
Upper-Confidence Bound (UCB) Action Selection5m
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8m
Week 1 Summary3m
3 lecturas
Module 2 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1 ejercicio de práctica
Exploration/Exploitation45m
Semana
2

Semana 2

3 horas para completar

Markov Decision Processes

3 horas para completar
7 videos (Total 36 minutos), 2 lecturas, 2 cuestionarios
7 videos
Examples of MDPs4m
The Goal of Reinforcement Learning3m
Michael Littman: The Reward Hypothesis12m
Continuing Tasks5m
Examples of Episodic and Continuing Tasks3m
Week 2 Summary1m
2 lecturas
Module 3 Learning Objectives10m
Weekly Reading30m
1 ejercicio de práctica
MDPs45m
Semana
3

Semana 3

3 horas para completar

Value Functions & Bellman Equations

3 horas para completar
9 videos (Total 56 minutos), 3 lecturas, 2 cuestionarios
9 videos
Value Functions6m
Rich Sutton and Andy Barto: A brief History of RL7m
Bellman Equation Derivation6m
Why Bellman Equations?5m
Optimal Policies7m
Optimal Value Functions5m
Using Optimal Value Functions to Get Optimal Policies8m
Week 3 Summary4m
3 lecturas
Module 4 Learning Objectives10m
Weekly Reading30m
Chapter Summary13m
2 ejercicios de práctica
Value Functions and Bellman Equations45m
Value Functions and Bellman Equations45m
Semana
4

Semana 4

4 horas para completar

Dynamic Programming

4 horas para completar
10 videos (Total 72 minutos), 3 lecturas, 2 cuestionarios
10 videos
Iterative Policy Evaluation8m
Policy Improvement4m
Policy Iteration8m
Flexibility of the Policy Iteration Framework4m
Efficiency of Dynamic Programming5m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7m
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21m
Week 4 Summary2m
Congratulations!3m
3 lecturas
Module 5 Learning Objectives10m
Weekly Reading30m
Chapter Summary30m
1 ejercicio de práctica
Dynamic Programming45m

Revisiones

Principales revisiones sobre FUNDAMENTALS OF REINFORCEMENT LEARNING

Ver todos los comentarios

Acerca de Programa especializado: Aprendizaje por refuerzo

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
Aprendizaje por refuerzo

Preguntas Frecuentes

  • El acceso a las clases y las asignaciones depende del tipo de inscripción que tengas. Si tomas un curso en modo de oyente, verás la mayoría de los materiales del curso en forma gratuita. Para acceder a asignaciones calificadas y obtener un certificado, deberás comprar la experiencia de Certificado, ya sea durante o después de participar como oyente. Si no ves la opción de oyente:

    • es posible que el curso no ofrezca la opción de participar como oyente. En cambio, puedes intentar con una Prueba gratis o postularte para recibir ayuda económica.
    • Es posible que el curso ofrezca la opción 'Curso completo, sin certificado'. Esta opción te permite ver todos los materiales del curso, enviar las evaluaciones requeridas y obtener una calificación final. También significa que no podrás comprar una experiencia de Certificado.
  • Cuando te inscribes en un curso, obtienes acceso a todos los cursos que forman parte del Programa especializado y te darán un Certificado cuando completes el trabajo. Se añadirá tu Certificado electrónico a la página Logros. Desde allí, puedes imprimir tu Certificado o añadirlo a tu perfil de LinkedIn. Si solo quieres leer y visualizar el contenido del curso, puedes auditar el curso sin costo.

  • Si estás suscrito, obtienes una prueba gratis de 7 días, que podrás cancelar cuando desees sin ningún tipo de penalidad. Una vez transcurrido ese tiempo, no realizamos reembolsos. No obstante, puedes cancelar tu suscripción cuando quieras. Consulta nuestra política completa de reembolsos.

  • Sí, Coursera ofrece ayuda económica a los estudiantes que no pueden pagar la tarifa. Solicítala haciendo clic en el enlace de Ayuda económica que está debajo del botón “Inscribirse” a la izquierda. Se te pedirá que completes una solicitud. Recibirás una notificación en caso de que se apruebe. Deberás completar este paso para cada uno de los cursos que forman parte del Programa especializado, incluido el proyecto final. Obtén más información.

  • Este Curso no otorga crédito universitario, pero algunas universidades pueden aceptar los Certificados del curso para obtener crédito. Consulta con tu institución para obtener más información. Los Títulos en línea y los Certificados Mastertrack™ de Coursera brindan la oportunidad de obtener créditos universitarios.

¿Tienes más preguntas? Visita el Centro de Ayuda al Alumno.