tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2020/05/29 06:38] – serge | tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine [2022/02/08 15:59] (Version actuelle) – Tag0 Removed: text_gen serge | ||
---|---|---|---|
Ligne 10: | Ligne 10: | ||
</ | </ | ||
+ | <WRAP center round box 80% centeralign> | ||
+ | **La page suivante est [[archives: | ||
+ | </ | ||
+ | |||
+ | ===== Sources ===== | ||
+ | Tout le code utilisé ici se trouve à: | ||
+ | * **[[https:// | ||
+ | Les liens de code pointent directement à la ligne du github. | ||
===== Ressources ===== | ===== Ressources ===== | ||
- | * [[https:// | + | |
+ | |||
+ | * **[[https:// | ||
+ | ===== Récupération des datas ===== | ||
+ | Les fables de **[[https:// | ||
+ | Merci à son auteur. | ||
+ | |||
+ | ====Méthode==== | ||
+ | * Aspiration du site | ||
+ | |||
+ | wget --mirror --convert-links --html-extension -o log http:// | ||
+ | |||
+ | * Suppression de les dossire et fichiers pour ne conserver que les dossiers livre-i avec i = 1 à 12 | ||
+ | * Dans chaque livre-i suppression des dossiers css et js | ||
+ | |||
+ | Du coup, il ne reste que des fichiers html, un par fables.\\ | ||
+ | Récupération des fables et enregistrement dans des fichiers .txt dans fables_txt | ||
+ | python3 get_fables.py | ||
+ | Création d'un json des fables corpus.json | ||
+ | python3 fables_to_json.py | ||
+ | Le json est un dict: | ||
+ | <code python> | ||
+ | # title, livre, fable sont des str | ||
+ | corpus = {title: [livre, fable], | ||
+ | ...} | ||
+ | </ | ||
+ | |||
+ | =====Installation==== | ||
+ | sudo pip3 install pandas | ||
+ | ===== Etape 1: Exploration du texte ===== | ||
+ | ==== Récupération du corpus ==== | ||
+ | |||
+ | * [[https:// | ||
+ | |||
+ | Les fables sont reproupées par livre, numéroté livre-i (i de 1 à 12), [[https:// | ||
+ | ==== Exploration ==== | ||
+ | <WRAP group> | ||
+ | <WRAP half column> | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | </ | ||
+ | |||
+ | <WRAP half column> | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | * [[https:// | ||
+ | {{: | ||
+ | </ | ||
+ | </ | ||
+ | |||
+ | ===== Etape 2: Nettoyer et normaliser les données ===== | ||
+ | Script | ||
+ | ====Suppression des stop words ou Mot vide==== | ||
+ | En recherche d' | ||
+ | Chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document: [[https:// | ||
+ | |||
+ | * [[|words_frequency_without_stopwords]] | ||
+ | {{ : | ||
+ | Si je n'ai pas fais d' | ||
+ | |||
+ | ====Racinisation (Stemming en EN)==== | ||
+ | En linguistique, | ||
+ | |||
+ | * [[https:// | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | ===== Etape 3 Représentation du corpus en bag of words ===== | ||
+ | ====Cooccurrence==== | ||
+ | * **[[https:// | ||
+ | ====Bi-gram ==== | ||
+ | * **[[https:// | ||
+ | ====TF-IDF==== | ||
+ | * * **[[https:// | ||
+ | ====Représentation du TF-IDF==== | ||
+ | Cette fonction est secrète: en fait, je n'ai pas trouvé de code utilisant sklearn et qui soit juste, et comme c'est inutile pour la suite, je passe (en python pass). | ||
+ | |||
+ | ===== Plongement de mots - word embedding ===== | ||
+ | ====Wikipedia==== | ||
+ | * Le **[[https:// | ||
+ | |||
+ | Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. | ||
+ | La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d' | ||
+ | |||
+ | Comprendre: transformer le teste en matrice de nombre de taille limitées pour être traitées avec un apprentissage automatique. Voir **[[https:// | ||
+ | |||
+ | Une image uniquement pour faire joli et épater en société ! | ||
+ | {{ : | ||
+ | ====Gensim==== | ||
+ | * Voir **[[https:// | ||
+ | |||
+ | |||
+ | ===== Réseaux de neurones ===== | ||
+ | * **[[archives: | ||
+ | |||
+ | |||
+ | {{tag> apprentissage_automatique python tal }} | ||
- | {{tag> |
tal_traitement_automatique_du_langage_avec_des_fables_de_la_fontaine.1590734314.txt.gz · Dernière modification : 2020/05/29 06:38 de serge