Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement [2022/02/05 17:41] – [Création de votre propre environnement] serge
+++ apprentissage_par_renforcement [2022/02/10 07:52] – [Apprentissage Par Renforcement] serge
@@ Ligne 6: / Ligne 6: @@
 **[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]**
 </WRAP>
-{{ :media_14:cartpole.gif |}}
+{{ :media_14:cartpole.gif?300 |}}
 ===== Le Hello World de l'Apprentissage Par Renforcement =====
@@ Ligne 201: / Ligne 201: @@
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\
-Avec du son ce serait encore plus génial !
 =====Quelques explications=====
 ====Relations scripts vs Blender====