Outils pour utilisateurs

Outils du site


tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine

Ceci est une ancienne révision du document !


TAL Traitement Automatique du Langage avec des Fables de La Fontaine

Sources

Tout le code utilisé ici se trouve à:

Les liens de code pointent directement à la ligne du github.

Ressources

  • Analysez vos données textuelles sur OpenClassrooms. L'exemple est trop compliqué pour expliquer des notions simples. De plus, l'exemple n'est pas fourni, le code est partiel (avec des erreurs et un mauvais respect du PEP8, des “;” en python !!). C'est en français et ça a le mérite d'exister.

Récupération des datas

Les fables de Jean de La Fontaine sont récupérées sur le site mesfables.com Merci à son auteur.

Méthode

  • Aspiration du site
wget --mirror --convert-links --html-extension -o log http://www.mesfables.com/all.html
  • Suppression de les dossire et fichiers pour ne conserver que les dossiers livre-i avec i = 1 à 12
  • Dans chaque livre-i suppression des dossiers css et js

Du coup, il ne reste que des fichiers html, un par fables.
Récupération des fables et enregistrement dans des fichiers .txt dans fables_txt

python3 get_fables.py

Création d'un json des fables corpus.json

python3 fables_to_json.py

Le json est un dict:

# title, livre, fable sont des str
corpus = {title: [livre, fable],
          ...}

Installation

sudo pip3 install pandas

Etape 1: Exploration du texte

Récupération du corpus

Exploration

Etape 2: Nettoyer et normaliser les données

Script etape_2.py

Suppression des stop words ou Mot vide

En recherche d'information, un mot vide (ou stop word, en anglais) est un mot qui est tellement commun qu'il est inutile de l'indexer ou de l'utiliser dans une recherche.
Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: Sac de mots

Si je n'ai pas fais d'erreur, Monsieur Jean De La Fontaine écrit une poésie avec peu de bla bla: les mots sont toujours riches !

Racinisation (Stemming en EN)

En linguistique, la racinisation ou désuffixation est un procédé de transformation des flexions en leur radical ou racine. Contrairement au lemme qui correspond à un terme issu de l’usage ordinaire des locuteurs de la langue, la racine ne correspond généralement qu’à un terme résultant de ce type d’analyse.

Etape 3

Etape 4

Etape 5

Etape 6

tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.1590843782.txt.gz · Dernière modification : 2020/05/30 13:03 de serge