tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Ceci est une ancienne révision du document !
Table des matières
TAL Traitement Automatique du Langage avec des Fables de La Fontaine
Cette page est la suite de Text Processing and Machine Learning TAL
Sources
Ressources
- Analysez vos données textuelles sur OpenClassrooms. L'exemple est trop compliqué pour expliquer des notions simples. De plus, l'exemple n'est pas fourni, le code est partiel (avec des erreurs et un mauvais respect du PEP8, des “;” en python !!). C'est en français et ça a le mérite d'exister.
Récupération des datas
Les fables de Jean de La Fontaine sont récupérées sur le site mesfables.com Merci à son auteur.
Méthode
- Aspiration du site
wget --mirror --convert-links --html-extension -o log http://www.mesfables.com/all.html
- Suppression de les dossire et fichiers pour ne conserver que les dossiers livre-i avec i = 1 à 12
- Dans chaque livre-i suppression des dossiers css et js
Du coup, il ne reste que des fichiers html, un par fables.
Récupération des fables et enregistrement dans des fichiers .txt dans fables_txt
python3 get_fables.py
Création d'un json des fables corpus.json
python3 fables_to_json.py
Le json est un dict:
# title, livre, fable sont des str corpus = {title: [livre, fable], ...}
Installation
sudo pip3 install pandas
Etape 1: Exploration du texte
Récupération du corpus
Exploration
Etape 2: Nettoyez et normalisez les données
Script etape_2.py
Suppression des stopwords
Si je n'ai pas fais d'erreur, Monsieur Jean De La Fontaine écrit une poésie avec peu de bla bla: les mots sont toujours riches !
S
Etape 3
Etape 4
Etape 5
Etape 6
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.1590835271.txt.gz · Dernière modification : 2020/05/30 10:41 de serge