Cette page est la suite de Text Processing and Machine Learning TAL
La page suivante est Générer du texte en python avec textgenrnn
Tout le code utilisé ici se trouve à:
Les liens de code pointent directement à la ligne du github.
Les fables de Jean de La Fontaine sont récupérées sur le site mesfables.com Merci à son auteur.
wget --mirror --convert-links --html-extension -o log http://www.mesfables.com/all.html
Du coup, il ne reste que des fichiers html, un par fables.
Récupération des fables et enregistrement dans des fichiers .txt dans fables_txt
python3 get_fables.py
Création d'un json des fables corpus.json
python3 fables_to_json.py
Le json est un dict:
# title, livre, fable sont des str corpus = {title: [livre, fable], ...}
sudo pip3 install pandas
Les fables sont reproupées par livre, numéroté livre-i (i de 1 à 12), voir la Chronologie.
Script etape_2.py
En recherche d'information, un mot vide (ou stop word, en anglais) est un mot qui est tellement commun qu'il est inutile de l'indexer ou de l'utiliser dans une recherche.
Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: Sac de mots
Si je n'ai pas fais d'erreur, Monsieur Jean De La Fontaine écrit une poésie avec peu de bla bla: les mots sont toujours riches !
En linguistique, la racinisation ou désuffixation est un procédé de transformation des flexions en leur radical ou racine. Contrairement au lemme qui correspond à un terme issu de l’usage ordinaire des locuteurs de la langue, la racine ne correspond généralement qu’à un terme résultant de ce type d’analyse.
Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn et qui soit juste, et comme c'est inutile pour la suite, je passe (en python pass).
Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d'apprentissage impliquant ces mots, puisque moins soumis au fléau de la dimension.
Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir Word2vec