Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2021/02/12 10:06] – [Résultat du 1er essai] serge
+++ apprentissage_par_renforcement [2021/05/09 08:38] – [Le Hello World de l'Apprentissage Par Renforcement] serge
@@ Ligne 23: / Ligne 23: @@
 </WRAP>
 </WRAP>
+https://www.youtube.com/watch?v=2koXcs0IhOc
 =====Apprentissage par renforcement=====
   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.
@@ Ligne 189: / Ligne 189: @@
 Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle.
 ===== Relèvement du pendule appelé Swing-up=====
 Les [[https://gym.openai.com/envs/Pendulum-v0/|exemples de Gym]] proposent Pendulum, il faut redresser le pendule en applicant un couple sur l'axe. Ici nous déplaçons le chariot pour le Swing. Cet exemple est construit à partir de[[https://github.com/TTitcombe/CartPoleSwingUp|CartPoleSwingUp]]. Il y a beaucoup d'autres dépôts sur GitHub sur ce problème.\\
 Les sources sont dans le dossier **[[https://github.com/sergeLabo/balance/tree/main/redressement|redressement]]** de balance. [[https://github.com/sergeLabo/balance/blob/main/redressement/swing_avec_reprise.py|Training ou Rendu]] en modifiant le script ligne 47.L'import de my_gym est réalisé avec un chemin absolu, pour tester il faut adapter ce chemin à votre cas.\\
@@ Ligne 196: / Ligne 195: @@
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
+{{ :media_14:swingup_efficiency.png?300 |}}
+La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
 Avec du son ce serait encore plus génial !
 =====Quelques explications=====