Outils pour utilisateurs

Outils du site


apprentissage_par_renforcement

Ceci est une ancienne révision du document !


Apprentissage Par Renforcement

Le Hello World de l'Apprentissage Par Renforcement

Linéaire:

Rotatif:

Flying:

Double pendule:

Documenté mais sans RL

Apprentissage par renforcement

  • Apprentissage par renforcement @ fr.wikipedia.org. En intelligence artificielle, plus précisément en apprentissage automatique, l'apprentissage par renforcement consiste, pour un agent autonome (robot, etc.), à apprendre à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps, positive ou négative. En répétant les expériences, le robot progresse.

Directeur Semour Skinner

Le directeur de l'école des enfants Simpson s'appelle Seymour Skinner, inspiré de Burrhus Frederic Skinner, inventeur de la Boîte de Skinner

Ressources

Frameworks

Q-learning

Ressources

Frameworks possibles

Gym de OpenAI

fr.wikipedia.org OpenAI est une entreprise à « but lucratif plafonné » en intelligence artificielle, basée à San Francisco. En 2019, OpenAI a reçu a 1 000 000 000 $ de Microsoft. OpenAi utilise le super Calculateur de Micro$ pour ses apprentissages.
Avant mars 2019, elle était reconnue association à but non lucratif. L'objectif de cette société était de promouvoir et développer une intelligence artificielle à visage humain qui bénéficierait à toute l'humanité. L'objectif actuel est de se faire des $.

Tensorforce

sudo pip3 install tensorforce
Successfully installed matplotlib-3.3.3 msgpack-1.0.2 msgpack-numpy-0.4.7.1 tensorboard-2.4.0 tensorflow-2.3.1 tensorflow-estimator-2.3.0 tensorforce-0.6.2 tqdm-4.55.0

Stable Baselines

git clone https://github.com/hill-a/stable-baselines && cd stable-baselines
pip install -e .[docs,tests,mpi]
Successfully installed apipkg-1.5 attrs-20.3.0 coverage-5.3.1 execnet-1.7.1 importlab-0.5.1 iniconfig-1.1.1 livereload-2.6.3 ninja-1.10.0.post2 pluggy-0.13.1 py-1.10.0 pytest-6.2.1 pytest-cov-2.10.1 pytest-env-0.6.2 pytest-forked-1.3.0 pytest-xdist-2.2.0 pytype-2020.12.23 sphinx-autobuild-2020.9.1 sphinx-rtd-theme-0.5.0 stable-baselines typed-ast-1.4.2

“To sum up, Stable Baselines is a library with a great set of algorithms and awesome documentation. You should consider using it as your RL tool.”

Le jeu du pendule dans Blender

La modélisation d'un pendule dans Blender avec le moteur physique intégré (Bullet) est délicate.

Un axe static et un cube Rigid Body avec un trou

Le pendule fini rapidement par se décrocher de l'axe, si un vertex du trou est dans l'axe sur une frame, la physics va le faire tomber dans l'infini de l'espace.

Constraint Rigid Body Joint

Axe

Rigid Body Joint

Pendule

Cette 2ème solution permet de bien faire tourner le pendule, par contre le stabiliser verticalement est corriace.

Gym CartPole Ressources

Observation

Liste de 4 items:

Num Observation Min Max
0 Cart Position -2.4 2.4
1 Cart Velocity -Inf Inf
2 Pole Angle ~ -41.8° ~ 41.8°
3 Pole Velocity At Tip -Inf Inf

pybullet

,
apprentissage_par_renforcement.1610121309.txt.gz · Dernière modification : 2021/01/08 15:55 de serge