apprentissage_par_renforcement
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteDernière révisionLes deux révisions suivantes | ||
apprentissage_par_renforcement [2021/02/11 10:40] – [Comment a été amélioré le SwingUp ?] serge | apprentissage_par_renforcement [2022/02/10 07:52] – [Apprentissage Par Renforcement] serge | ||
---|---|---|---|
Ligne 6: | Ligne 6: | ||
**[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]** | **[[les_pages_intelligence_artificielle_en_details|Les Pages Intelligence Artificielle en détails]]** | ||
</ | </ | ||
- | {{ : | + | {{ : |
===== Le Hello World de l' | ===== Le Hello World de l' | ||
Ligne 23: | Ligne 23: | ||
</ | </ | ||
</ | </ | ||
+ | * Rotary Inverted Pendulum: Swing Up and Stabilization https:// | ||
+ | * Double Inverted Furuta Pendulum https:// | ||
+ | * Furuta Pendulum avec une belle finition https:// | ||
=====Apprentissage par renforcement===== | =====Apprentissage par renforcement===== | ||
* **[[https:// | * **[[https:// | ||
Ligne 42: | Ligne 44: | ||
* [[https:// | * [[https:// | ||
- | ====Principe vulgarisé==== | + | ====Principe vulgarisé |
- | ===Boucle | + | |
* [[https:// | * [[https:// | ||
Ligne 51: | Ligne 52: | ||
{{ : | {{ : | ||
- | ===Apprentissage par renforcement=== | + | ====Principe vulgarisé de l'Apprentissage par Renforcement==== |
+ | **RL = Reinforcement Learning = Apprentissage par Renforcement** | ||
{{ : | {{ : | ||
L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, | L'IA (Intelligence Artificielle) dont nous parlons ici n'est pas intelligente, | ||
Ligne 165: | Ligne 167: | ||
====Résultat du 1er essai==== | ====Résultat du 1er essai==== | ||
- | {{vimeo> | ||
+ | {{ : | ||
+ | |||
+ | Avec un apprentissage de quelques heures .... | ||
=====Comment est définit l' | =====Comment est définit l' | ||
Ligne 189: | Ligne 193: | ||
Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | Ici, il y a une récompense si le pendule est au-dessus du diamètre horizontal. Plus il est près de la position verticale, plus la récompense est grande. Sinon la récompense est nulle. | ||
===== Relèvement du pendule appelé Swing-up===== | ===== Relèvement du pendule appelé Swing-up===== | ||
- | |||
Les [[https:// | Les [[https:// | ||
Les sources sont dans le dossier **[[https:// | Les sources sont dans le dossier **[[https:// | ||
Ce pendule a été construit dans l' | Ce pendule a été construit dans l' | ||
- | {{ vimeo> | ||
- | L' | ||
- | Avec du son ce serait encore | + | {{ : |
+ | |||
+ | L' | ||
=====Quelques explications===== | =====Quelques explications===== | ||
====Relations scripts vs Blender==== | ====Relations scripts vs Blender==== | ||
Ligne 251: | Ligne 255: | ||
=====Ressources complémentaires===== | =====Ressources complémentaires===== | ||
+ | ====Quels sonts les défauts de Gym ?==== | ||
+ | Gym impose un cadre pour tous les chercheurs de RL, ce qui permet de faire des comparaisons entre les solutions.\\ | ||
+ | Mais cela empêche de trouver des solutions originales. En Intelligence Artificielle, | ||
+ | |||
====Réflexions philosophiques==== | ====Réflexions philosophiques==== | ||
* Ce type d' | * Ce type d' | ||
* Encore pratiqué dans l' | * Encore pratiqué dans l' | ||
- | * ... | ||
====Gym CartPole Ressources==== | ====Gym CartPole Ressources==== | ||
Ligne 264: | Ligne 271: | ||
Bullet est le moteur physique de Blender | Bullet est le moteur physique de Blender | ||
- | ==== Création de votre propre environnement ==== | ||
- | * [[https:// | ||
- | L' | ||
====Un cartpole réel documenté mais sans RL==== | ====Un cartpole réel documenté mais sans RL==== |
apprentissage_par_renforcement.txt · Dernière modification : 2022/02/10 07:52 de serge