Aprendizaje por refuerzo y temas avanzados

 Aprendizaje por refuerzos


El aprendizaje por refuerzos o Reinforcement Learning es un área del aprendizaje automático (machine learning). Su principal particularidad es que es capaz de funcionar sin grandes cantidades de datos de entrenamiento. Tan “sólo” necesita una serie de indicaciones para ir aprendiendo a través de prueba y error. A diferencia del aprendizaje supervisado basado en un conjunto de datos que le indica a la máquina qué debe hacer, aquí se utilizan recompensas para reforzar el comportamiento deseado.

La idea principal es que, para conseguir que nuestro agente aprenda de esta forma, los pasos a seguir serán:

El agente.

El agente trata de aprender una política π(a|s), o mapa de observaciones a acciones, con el objetivo de maximizar su suma de recompensas esperada

Algoritmo de política de gradiente

Estos algoritmos definen una política que decide las probabilidades de tomar cada acción para cada estado. Es decir, está función no nos dice cuánta recompensa recibirá el agente desde cada estado.

  1. Observación del entorno
  2. Decidir cómo actuar
  3. Actuar de acuerdo a esa decisión lo que modifica el entorno
  4. Recibir una recompensa o penalización
  5. Aprender de las experiencias y refinar la estrategia
  6. Iterar hasta que se encuentre la estrategia óptima

No hay comentarios:

Publicar un comentario