Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2021/12/08 13:57] – [Le Hello World de l'Apprentissage Par Renforcement] Benjamin Labomedia
+++ apprentissage_par_renforcement [2022/02/10 07:52] (Version actuelle) – [Apprentissage Par Renforcement] serge
@@ Ligne 44: / Ligne 44: @@
   * [[https://github.com/aidudezzz/deepbots|commande de robots]]
-====Principe vulgarisé====
+====Principe vulgarisé d'une boucle PID===
-===Boucle PID===
   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:
@@ Ligne 53: / Ligne 52: @@
 {{ :media_14:correcteurpidclassique.jpg?500 |}}
-===Apprentissage par renforcement===
+====Principe vulgarisé de l'Apprentissage par Renforcement====
+**RL = Reinforcement Learning = Apprentissage par Renforcement**
 {{ :media_14:apprentissage-par-renforcement.png?400 |}}
 L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\
@@ Ligne 201: / Ligne 201: @@
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
-Avec du son ce serait encore plus génial !
 =====Quelques explications=====
 ====Relations scripts vs Blender====
@@ Ligne 273: / Ligne 271: @@
 Bullet est le moteur physique de Blender
-==== Création de votre propre environnement ====
-  * [[https://github.com/openai/gym/blob/master/docs/creating-environments.md|How to create new environments for Gym]] @  openai / gym\\
-L'étape suivante de la visualisation dans blender serait de créer un environnement spécifique pour ce my_cartpole et l'installer en dur. Puis d'utiliser gym en l'installant et supprimant les imports locaux de gym.
 ====Un cartpole réel documenté mais sans RL====