Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement_d_un_pendule_de_furuta

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
apprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:04] – [Apprentissage par renforcement d'un pendule de Furuta] sergeapprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:06] (Version actuelle) – supprimée serge
Ligne 1: Ligne 1:
-====== Apprentissage par renforcement d'un pendule de Furuta page à revoir complétement====== 
-<WRAP center round box 60% centeralign> 
-**[[intelligence_artificielle|Intelligence Artificielle]]**     **[[http://translate.google.com/translate?hl=&sl=auto&tl=en&u=https%3A%2F%2Fressources.labomedia.org%2Fintelligence_artificielle|English Version]]** 
-</WRAP> 
  
-<WRAP center round box 60% centeralign> 
-**{{tagpage>bestiaire_ia|Toutes les pages sur le Bestiaire Intelligence Artificielle}}** 
-</WRAP> 
-<WRAP center round box 60% centeralign> 
-**Cette page fait suite à [[intelligence_du_pendule_de_furuta]]** 
-**Affichage de l'efficacité d'un apprentissage par renforcement** 
-</WRAP> 
-===== Ressources ===== 
-    * **[[https://pythonprogramming.net/saving-and-loading-reinforcement-learning-stable-baselines-3-tutorial/?completed=/introduction-reinforcement-learning-stable-baselines-3-tutorial/|Reinforcement Learning in Python with Stable Baselines 3 : How to save and load models]]** 
- 
-  * Notre **<del>Intelligence</del>** **apprentissage statistique** **[[https://github.com/sergeLabo/furuta_rl|furuta sur github]]** 
- 
-=====Suivi de l'efficacité de l'apprentissage avec tensorboard===== 
-====Installation, utilisation==== 
-tensorboard est dans les requirements.\\ 
-Voir **[[https://github.com/sergeLabo/furuta_rl/blob/main/furuta_soft/train_test.py|train_test.py]]** pour l'implémentation.\\ 
-Dans le dossier du projet, qui contient le venv=mon_env, lancer en terminal: 
-  ./mon_env/bin/tensorboard --logdir=logs 
-   
-Dans un navigateur: 
-  http://localhost:6006/ 
-   
- 
- 
-====Des exemples==== 
-{{ :media_15:tb_00.png?900 |}} 
- 
-{{:media_15:tb_03.png?900|}} 
-{{:media_15:tb_04.png?300|}} 
-{{:media_15:tb_01.png?300|}} 
-====Moyenne des récompenses==== 
-Permet d'apprécier l'efficacité de l'apprentissage\\ 
-avec rollout/ep_rew_nean 
-{{ :media_15:tb_10.png?300 |}} 
- 
- 
-=====Tableau d'Optimisation des Paramètres du Pendule de FURUTA===== 
-{{:media_15:tb_11.png?900|}} 
- 
-{{:media_15:tb_12.png?120 |}} 
-**Parameter Optimization** 
-^Numéro                          ^   06    ^   07     08     09    ^   10    ^   11    ^   14    ^   15      ^ 
-|Learning Rate en 10<sup>-4</sup>  10    |   50     20     20    |    7    |   12    |          8      | 
-|Ent Coef en 10<sup>-3</sup>      1      |      |      |                            1      | 
-|Vf Coef                          0.55    0.55  |  0.55  |  0.55    0.51    0.55    0.5    |   0.55    |  
-|Nombre de steps                 | 276 000 | 82 000 | 614 000| 307 000 | 307 000 | 512 000 | 307 000 | 1 000 000 | 
-|Note d'efficacité sur 10        |            |      |                                   | 
- 
-**Le nombre de steps doit être d'au moins 1 millions pour commencer à noter la rapidité d'un apprentissage** 
-L'apprentissage par renforcement passe par des phase de progrès et de chaos. Ces chaos permettent d'explorer tous les situations. 
-La récompense est le produit de la récompense du chariot par la récompense du balancier. Il faut beaucoup de temps pour que le model intègre cette notion. 
- 
-=====On peut faire dire n'importe quoi aux chiffres===== 
-Mon efficience à moi, la courbe des moyennes de Récompenses par cycle, avec un lissage de 7. 
- 
-{{ :media_15:mon_efficience.png?900 |}} 
- 
-**<WRAP center round info 60% centeralign> 
-**La tendance est nettement à la progression** 
-</WRAP> 
- 
- 
-{{tag>apprentissage_automatique bestiaire_ia ia python sb pytorch tensorboard}}