Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
Dernière révisionLes deux révisions suivantes
apprentissage_par_renforcement [2022/02/05 17:41] – [Création de votre propre environnement] sergeapprentissage_par_renforcement [2022/02/10 07:52] – [Apprentissage Par Renforcement] serge
Ligne 6: Ligne 6:
 **[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]** **[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]**
 </WRAP> </WRAP>
-{{ :media_14:cartpole.gif |}}+{{ :media_14:cartpole.gif?300 |}}
  
 ===== Le Hello World de l'Apprentissage Par Renforcement ===== ===== Le Hello World de l'Apprentissage Par Renforcement =====
Ligne 201: Ligne 201:
 L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent.  L'apprentissage a duré 88 heures, 17 millions de steps, plus plusieurs semaines de recherches et d'ordinateurs qui calcule 24h/24h. Le fichier de poids fonctionne sur Xubuntu 18.4 mais pas sur Debian 10: il doit y avoir une version d'une des librairies qui diffèrent. 
  
-La récompense augmente plus vite à partir de la suppression de la récompense RV. Il faudrait faire un enregistrement du model quand la récompense est élevée.\\ 
-Avec du son ce serait encore plus génial ! 
 =====Quelques explications===== =====Quelques explications=====
 ====Relations scripts vs Blender==== ====Relations scripts vs Blender====
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge