Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
apprentissage_par_renforcement [2021/12/08 13:57] – [Le Hello World de l'Apprentissage Par Renforcement] Benjamin Labomediaapprentissage_par_renforcement [2022/02/10 07:52] (Version actuelle) – [Apprentissage Par Renforcement] serge
Ligne 44: Ligne 44:
   * [[https://github.com/aidudezzz/deepbots|commande de robots]]   * [[https://github.com/aidudezzz/deepbots|commande de robots]]
  
-====Principe vulgarisé==== +====Principe vulgarisé d'une boucle PID===
-===Boucle PID===+
   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:
  
Ligne 53: Ligne 52:
 {{ :media_14:correcteurpidclassique.jpg?500 |}} {{ :media_14:correcteurpidclassique.jpg?500 |}}
  
-===Apprentissage par renforcement===+====Principe vulgarisé de l'Apprentissage par Renforcement===
 +**RL = Reinforcement Learning = Apprentissage par Renforcement**
 {{ :media_14:apprentissage-par-renforcement.png?400 |}} {{ :media_14:apprentissage-par-renforcement.png?400 |}}
 L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\ L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\
Ligne 201: Ligne 201:
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.  L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent. 
  
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ 
-Avec du son ce serait encore plus génial ! 
 =====Quelques explications===== =====Quelques explications=====
 ====Relations scripts vs Blender==== ====Relations scripts vs Blender====
Ligne 273: Ligne 271:
 Bullet est le moteur physique de Blender Bullet est le moteur physique de Blender
  
-==== Création de votre propre environnement ==== 
-  * [[https://github.com/openai/gym/blob/master/docs/creating-environments.md|How to create new environments for Gym]] @  openai / gym\\ 
  
-L'étape suivante de la visualisation dans blender serait de créer un environnement spécifique pour ce my_cartpole et l'installer en dur. Puis d'utiliser gym en l'installant et supprimant les imports locaux de gym. 
  
 ====Un cartpole réel documenté mais sans RL==== ====Un cartpole réel documenté mais sans RL====
apprentissage_par_renforcement.1638971829.txt.gz · Dernière modification : 2021/12/08 13:57 de Benjamin Labomedia