Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2021/02/11 10:40] – [Comment a été amélioré le SwingUp ?] serge
+++ apprentissage_par_renforcement [2022/02/10 07:52] – [Apprentissage Par Renforcement] serge
@@ Ligne 6: / Ligne 6: @@
 **[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]**
 </WRAP>
-{{ :media_14:cartpole.gif |}}
+{{ :media_14:cartpole.gif?300 |}}
 ===== Le Hello World de l'Apprentissage Par Renforcement =====
@@ Ligne 23: / Ligne 23: @@
 </WRAP>
 </WRAP>
+  * Rotary Inverted Pendulum: Swing Up and Stabilization https://www.youtube.com/watch?v=2koXcs0IhOc
+  * Double Inverted Furuta Pendulum https://www.youtube.com/watch?v=lwJ2jzVexaI
+  * Furuta Pendulum avec une belle finition https://www.youtube.com/watch?v=VVQ-PGfJMuA
 =====Apprentissage par renforcement=====
   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.
@@ Ligne 42: / Ligne 44: @@
   * [[https://github.com/aidudezzz/deepbots|commande de robots]]
-====Principe vulgarisé====
+====Principe vulgarisé d'une boucle PID===
-===Boucle PID===
   * [[https://fr.wikipedia.org/wiki/R%C3%A9gulateur_PID|Régulateur PID]] sur Wikipedia. 2 images de l'article:
@@ Ligne 51: / Ligne 52: @@
 {{ :media_14:correcteurpidclassique.jpg?500 |}}
-===Apprentissage par renforcement===
+====Principe vulgarisé de l'Apprentissage par Renforcement====
+**RL = Reinforcement Learning = Apprentissage par Renforcement**
 {{ :media_14:apprentissage-par-renforcement.png?400 |}}
 L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, par contre l'auteur est intelligent sinon il n'aurait jamais réussi à faire un truc pareil!\\
@@ Ligne 165: / Ligne 167: @@
 ====Résultat du 1er essai====
-{{vimeo>503157923?medium }} Avec un apprentissage de quelques heures ....\\
+{{ :media_14:cartpole_avec_blender_game_engine.mp4?500 |}}
+Avec un apprentissage de quelques heures ....
 =====Comment est définit l'objectif à atteindre=====
@@ Ligne 189: / Ligne 193: @@
 Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle.
 ===== Relèvement du pendule appelé Swing-up=====
 Les [[https://gym.openai.com/envs/Pendulum-v0/|exemples de Gym]] proposent Pendulum, il faut redresser le pendule en applicant un couple sur l'axe. Ici nous déplaçons le chariot pour le Swing. Cet exemple est construit à partir de[[https://github.com/TTitcombe/CartPoleSwingUp|CartPoleSwingUp]]. Il y a beaucoup d'autres dépôts sur GitHub sur ce problème.\\
 Les sources sont dans le dossier **[[https://github.com/sergeLabo/balance/tree/main/redressement|redressement]]** de balance. [[https://github.com/sergeLabo/balance/blob/main/redressement/swing_avec_reprise.py|Training ou Rendu]] en modifiant le script ligne 47.L'import de my_gym est réalisé avec un chemin absolu, pour tester il faut adapter ce chemin à votre cas.\\
 Ce pendule a été construit dans l'**Atelier du C01N de mon salon**:
-{{ vimeo>510756033?large }}
-L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h.\\Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
-Avec du son ce serait encore plus génial !
+{{ :media_14:swingup_dans_le_blender_game_engine.mp4?500 |}}
+L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
 =====Quelques explications=====
 ====Relations scripts vs Blender====
@@ Ligne 251: / Ligne 255: @@
 =====Ressources complémentaires=====
+====Quels sonts les défauts de Gym ?====
+Gym impose un cadre pour tous les chercheurs de RL, ce qui permet de faire des comparaisons entre les solutions.\\
+Mais cela empêche de trouver des solutions originales. En Intelligence Artificielle, trop de méthodes sont empiriques et pifométriques. Il y a certainement des solutions innovantes à inventer.
 ====Réflexions philosophiques====
   * Ce type d'apprentissage s'appelle la carotte **et** le bâton: management très pratiqué. On promet des carottes mais on ne donne que des coups de bâtons.
   * Encore pratiqué dans l'enseignement en France, alors que les pays nordiques considèrent les apprenants comme des êtres humains responsables.
-  * ...
 ====Gym CartPole Ressources====
@@ Ligne 264: / Ligne 271: @@
 Bullet est le moteur physique de Blender
-==== Création de votre propre environnement ====
-  * [[https://github.com/openai/gym/blob/master/docs/creating-environments.md|How to create new environments for Gym]] @  openai / gym\\
-L'étape suivante de la visualisation dans blender serait de créer un environnement spécifique pour ce my_cartpole et l'installer en dur. Puis d'utiliser gym en l'installant et supprimant les imports locaux de gym.
 ====Un cartpole réel documenté mais sans RL====