Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
apprentissage_par_renforcement [2021/06/01 11:19] – [Résultat du 1er essai] sergeapprentissage_par_renforcement [2022/02/10 07:52] (Version actuelle) – [Apprentissage Par Renforcement] serge
Ligne 23: Ligne 23:
 </WRAP> </WRAP>
 </WRAP> </WRAP>
-https://www.youtube.com/watch?v=2koXcs0IhOc+  * Rotary Inverted Pendulum: Swing Up and Stabilization https://www.youtube.com/watch?v=2koXcs0IhOc 
 +  * Double Inverted Furuta Pendulum https://www.youtube.com/watch?v=lwJ2jzVexaI 
 +  * Furuta Pendulum avec une belle finition https://www.youtube.com/watch?v=VVQ-PGfJMuA
 =====Apprentissage par renforcement===== =====Apprentissage par renforcement=====
   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.
Ligne 42: Ligne 44:
   * [[https://github.com/aidudezzz/deepbots|commande de robots]]   * [[https://github.com/aidudezzz/deepbots|commande de robots]]
  
-====Principe vulgarisé==== +====Principe vulgarisé d'une boucle PID===
-===Boucle PID===+
   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:
  
Ligne 51: Ligne 52:
 {{ :media_14:correcteurpidclassique.jpg?500 |}} {{ :media_14:correcteurpidclassique.jpg?500 |}}
  
-===Apprentissage par renforcement===+====Principe vulgarisé de l'Apprentissage par Renforcement===
 +**RL = Reinforcement Learning = Apprentissage par Renforcement**
 {{ :media_14:apprentissage-par-renforcement.png?400 |}} {{ :media_14:apprentissage-par-renforcement.png?400 |}}
 L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\ L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\
Ligne 165: Ligne 167:
  
 ====Résultat du 1er essai==== ====Résultat du 1er essai====
-{{ vimeo>503157923?medium }} + 
-{{ :media_14:cartpole_avec_blender_game_engine.mp4 |}}+{{ :media_14:cartpole_avec_blender_game_engine.mp4?500 |}}
  
 Avec un apprentissage de quelques heures .... Avec un apprentissage de quelques heures ....
Ligne 199: Ligne 201:
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.  L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent. 
  
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ 
-Avec du son ce serait encore plus génial ! 
 =====Quelques explications===== =====Quelques explications=====
 ====Relations scripts vs Blender==== ====Relations scripts vs Blender====
Ligne 271: Ligne 271:
 Bullet est le moteur physique de Blender Bullet est le moteur physique de Blender
  
-==== Création de votre propre environnement ==== 
-  * [[https://github.com/openai/gym/blob/master/docs/creating-environments.md|How to create new environments for Gym]] @  openai / gym\\ 
  
-L'étape suivante de la visualisation dans blender serait de créer un environnement spécifique pour ce my_cartpole et l'installer en dur. Puis d'utiliser gym en l'installant et supprimant les imports locaux de gym. 
  
 ====Un cartpole réel documenté mais sans RL==== ====Un cartpole réel documenté mais sans RL====
apprentissage_par_renforcement.1622546343.txt.gz · Dernière modification : 2021/06/01 11:19 de serge