El espacio de Robótica del profe. RAY: Aprendizaje por refuerzo y temas avanzados

Aprendizaje por refuerzos

El aprendizaje por refuerzos o Reinforcement Learning es un área del aprendizaje automático (machine learning). Su principal particularidad es que es capaz de funcionar sin grandes cantidades de datos de entrenamiento. Tan “sólo” necesita una serie de indicaciones para ir aprendiendo a través de prueba y error. A diferencia del aprendizaje supervisado basado en un conjunto de datos que le indica a la máquina qué debe hacer, aquí se utilizan recompensas para reforzar el comportamiento deseado.

La idea principal es que, para conseguir que nuestro agente aprenda de esta forma, los pasos a seguir serán:

El agente.

El agente trata de aprender una política π(a|s), o mapa de observaciones a acciones, con el objetivo de maximizar su suma de recompensas esperada.

Algoritmo de política de gradiente

Estos algoritmos definen una política que decide las probabilidades de tomar cada acción para cada estado. Es decir, está función no nos dice cuánta recompensa recibirá el agente desde cada estado.

Observación del entorno
Decidir cómo actuar
Actuar de acuerdo a esa decisión lo que modifica el entorno
Recibir una recompensa o penalización
Aprender de las experiencias y refinar la estrategia
Iterar hasta que se encuentre la estrategia óptima

El espacio de Robótica del profe. RAY

Aprendizaje por refuerzo y temas avanzados

No hay comentarios:

Publicar un comentario

Denunciar abuso