Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
Prochaine révisionLes deux révisions suivantes
apprentissage_par_renforcement [2021/06/01 11:18] – [Relèvement du pendule appelé Swing-up] sergeapprentissage_par_renforcement [2021/09/07 16:18] – [Le Hello World de l'Apprentissage Par Renforcement] Benjamin Labomedia
Ligne 23: Ligne 23:
 </WRAP> </WRAP>
 </WRAP> </WRAP>
-https://www.youtube.com/watch?v=2koXcs0IhOc+  * https://www.youtube.com/watch?v=2koXcs0IhOc 
 +  * Double Inverted Furuta Pendulum https://www.youtube.com/watch?v=lwJ2jzVexaI
 =====Apprentissage par renforcement===== =====Apprentissage par renforcement=====
   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.
Ligne 165: Ligne 166:
  
 ====Résultat du 1er essai==== ====Résultat du 1er essai====
-{{ vimeo>503157923?medium }} 
-{{ :media_14:cartpole_avec_blender_game_engine.mp4 |}} 
  
-{{ :media_14:cubemos_skeleton_blender.mp4 |}}+{{ :media_14:cartpole_avec_blender_game_engine.mp4?500 |}} 
 Avec un apprentissage de quelques heures .... Avec un apprentissage de quelques heures ....
  
Ligne 195: Ligne 195:
 Les sources sont dans le dossier **[[https://github.com/sergeLabo/balance/tree/main/redressement|redressement]]** de balance. [[https://github.com/sergeLabo/balance/blob/main/redressement/swing_avec_reprise.py|Training ou Rendu]] en modifiant le script ligne 47.L'import de my_gym est réalisé avec un chemin absolu, pour tester il faut adapter ce chemin à votre cas.\\ Les sources sont dans le dossier **[[https://github.com/sergeLabo/balance/tree/main/redressement|redressement]]** de balance. [[https://github.com/sergeLabo/balance/blob/main/redressement/swing_avec_reprise.py|Training ou Rendu]] en modifiant le script ligne 47.L'import de my_gym est réalisé avec un chemin absolu, pour tester il faut adapter ce chemin à votre cas.\\
 Ce pendule a été construit dans l'**Atelier du C01N de mon salon**: Ce pendule a été construit dans l'**Atelier du C01N de mon salon**:
-{{ vimeo>510756033?large }} 
-L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.  
  
 {{ :media_14:swingup_dans_le_blender_game_engine.mp4?500 |}} {{ :media_14:swingup_dans_le_blender_game_engine.mp4?500 |}}
 +
 +L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent. 
  
 La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge