Différences

Ci-dessous, les différences entre deux révisions de la page.

--- apprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:04] – [Apprentissage par renforcement d'un pendule de Furuta] serge
+++ apprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:06] (Version actuelle) – supprimée serge
@@ Ligne 1: / Ligne 1: @@
-====== Apprentissage par renforcement d'un pendule de Furuta page à revoir complétement======
-<WRAP center round box 60% centeralign>
-**[[intelligence_artificielle|Intelligence Artificielle]]**     **[[http://translate.google.com/translate?hl=&sl=auto&tl=en&u=https%3A%2F%2Fressources.labomedia.org%2Fintelligence_artificielle|English Version]]**
-</WRAP>
-<WRAP center round box 60% centeralign>
-**{{tagpage>bestiaire_ia|Toutes les pages sur le Bestiaire Intelligence Artificielle}}**
-</WRAP>
-<WRAP center round box 60% centeralign>
-**Cette page fait suite à [[intelligence_du_pendule_de_furuta]]**
-**Affichage de l'efficacité d'un apprentissage par renforcement**
-</WRAP>
-===== Ressources =====
-    * **[[https://pythonprogramming.net/saving-and-loading-reinforcement-learning-stable-baselines-3-tutorial/?completed=/introduction-reinforcement-learning-stable-baselines-3-tutorial/|Reinforcement Learning in Python with Stable Baselines 3 : How to save and load models]]**
-  * Notre **<del>Intelligence</del>** **apprentissage statistique** **[[https://github.com/sergeLabo/furuta_rl|furuta sur github]]**
-=====Suivi de l'efficacité de l'apprentissage avec tensorboard=====
-====Installation, utilisation====
-tensorboard est dans les requirements.\\
-Voir **[[https://github.com/sergeLabo/furuta_rl/blob/main/furuta_soft/train_test.py|train_test.py]]** pour l'implémentation.\\
-Dans le dossier du projet, qui contient le venv=mon_env, lancer en terminal:
-  ./mon_env/bin/tensorboard --logdir=logs
-Dans un navigateur:
-  http://localhost:6006/
-====Des exemples====
-{{ :media_15:tb_00.png?900 |}}
-{{:media_15:tb_03.png?900|}}
-{{:media_15:tb_04.png?300|}}
-{{:media_15:tb_01.png?300|}}
-====Moyenne des récompenses====
-Permet d'apprécier l'efficacité de l'apprentissage\\
-avec rollout/ep_rew_nean
-{{ :media_15:tb_10.png?300 |}}
-=====Tableau d'Optimisation des Paramètres du Pendule de FURUTA=====
-{{:media_15:tb_11.png?900|}}
-{{:media_15:tb_12.png?120 |}}
-**Parameter Optimization**
-^Numéro                          ^   06    ^   07   ^   08   ^   09    ^   10    ^   11    ^   14    ^   15      ^
-|Learning Rate en 10<sup>-4</sup>|   10    |   50   |   20   |   20    |    7    |   12    |   3     |    8      |
-|Ent Coef en 10<sup>-3</sup>     |  1      |   1    |   1    |   2     |   1     |   1     |   0     |    1      |
-|Vf Coef                         |  0.55   |  0.55  |  0.55  |  0.55   |  0.51   |  0.55   |  0.5    |   0.55    |
-|Nombre de steps                 | 276 000 | 82 000 | 614 000| 307 000 | 307 000 | 512 000 | 307 000 | 1 000 000 |
-|Note d'efficacité sur 10        |   6     |   0    |   3    |   1     |   2     |   5     |   5     |           |
-**Le nombre de steps doit être d'au moins 1 millions pour commencer à noter la rapidité d'un apprentissage**
-L'apprentissage par renforcement passe par des phase de progrès et de chaos. Ces chaos permettent d'explorer tous les situations.
-La récompense est le produit de la récompense du chariot par la récompense du balancier. Il faut beaucoup de temps pour que le model intègre cette notion.
-=====On peut faire dire n'importe quoi aux chiffres=====
-Mon efficience à moi, la courbe des moyennes de Récompenses par cycle, avec un lissage de 7.
-{{ :media_15:mon_efficience.png?900 |}}
-**<WRAP center round info 60% centeralign>
-**La tendance est nettement à la progression**
-</WRAP>
-{{tag>apprentissage_automatique bestiaire_ia ia python sb pytorch tensorboard}}