Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2021/02/13 12:42] – [Relèvement du pendule appelé Swing-up] serge
+++ apprentissage_par_renforcement [2021/05/09 08:38] – [Le Hello World de l'Apprentissage Par Renforcement] serge
@@ Ligne 23: / Ligne 23: @@
 </WRAP>
 </WRAP>
+https://www.youtube.com/watch?v=2koXcs0IhOc
 =====Apprentissage par renforcement=====
   * **[[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement|Apprentissage par renforcement @ fr.wikipedia.org]]**. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.
@@ Ligne 195: / Ligne 195: @@
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
-{{ :media_14:swingup_efficiency.png?400 |}}
+{{ :media_14:swingup_efficiency.png?300 |}}
 La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
 Avec du son ce serait encore plus génial !