apprentissage_par_renforcement_d_un_pendule_de_furuta
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédente | |||
apprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:04] – [Apprentissage par renforcement d'un pendule de Furuta] serge | apprentissage_par_renforcement_d_un_pendule_de_furuta [2022/05/24 19:06] (Version actuelle) – supprimée serge | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ====== Apprentissage par renforcement d'un pendule de Furuta page à revoir complétement====== | ||
- | <WRAP center round box 60% centeralign> | ||
- | **[[intelligence_artificielle|Intelligence Artificielle]]** | ||
- | </ | ||
- | <WRAP center round box 60% centeralign> | ||
- | **{{tagpage> | ||
- | </ | ||
- | <WRAP center round box 60% centeralign> | ||
- | **Cette page fait suite à [[intelligence_du_pendule_de_furuta]]** | ||
- | **Affichage de l' | ||
- | </ | ||
- | ===== Ressources ===== | ||
- | * **[[https:// | ||
- | |||
- | * Notre **< | ||
- | |||
- | =====Suivi de l' | ||
- | ====Installation, | ||
- | tensorboard est dans les requirements.\\ | ||
- | Voir **[[https:// | ||
- | Dans le dossier du projet, qui contient le venv=mon_env, | ||
- | ./ | ||
- | | ||
- | Dans un navigateur: | ||
- | http:// | ||
- | | ||
- | |||
- | |||
- | ====Des exemples==== | ||
- | {{ : | ||
- | |||
- | {{: | ||
- | {{: | ||
- | {{: | ||
- | ====Moyenne des récompenses==== | ||
- | Permet d' | ||
- | avec rollout/ | ||
- | {{ : | ||
- | |||
- | |||
- | =====Tableau d' | ||
- | {{: | ||
- | |||
- | {{: | ||
- | **Parameter Optimization** | ||
- | ^Numéro | ||
- | |Learning Rate en 10< | ||
- | |Ent Coef en 10< | ||
- | |Vf Coef | ||
- | |Nombre de steps | 276 000 | 82 000 | 614 000| 307 000 | 307 000 | 512 000 | 307 000 | 1 000 000 | | ||
- | |Note d' | ||
- | |||
- | **Le nombre de steps doit être d'au moins 1 millions pour commencer à noter la rapidité d'un apprentissage** | ||
- | L' | ||
- | La récompense est le produit de la récompense du chariot par la récompense du balancier. Il faut beaucoup de temps pour que le model intègre cette notion. | ||
- | |||
- | =====On peut faire dire n' | ||
- | Mon efficience à moi, la courbe des moyennes de Récompenses par cycle, avec un lissage de 7. | ||
- | |||
- | {{ : | ||
- | |||
- | **<WRAP center round info 60% centeralign> | ||
- | **La tendance est nettement à la progression** | ||
- | </ | ||
- | |||
- | |||
- | {{tag> |