Outils pour utilisateurs

Outils du site


aitextgen

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
aitextgen [2020/06/24 18:34]
serge [Configuration]
aitextgen [2020/07/02 19:10] (Version actuelle)
serge [OpenAI]
Ligne 28: Ligne 28:
  
 ====OpenAI==== ====OpenAI====
-  * **[[https://​fr.wikipedia.org/​wiki/​OpenAI|OpenAI sur Wikipedia]]**:​ OpenAI est une entreprise à « but lucratif plafonné » en intelligence artificielle,​ basée à San Francisco. L'​objectif de cette société est de promouvoir et développer une intelligence artificielle à visage humain qui bénéficiera à toute l'​humanité. OpenAI a mis au point une intelligence artificielle nommée **[[https://​fr.wikipedia.org/​wiki/​OpenAI#​GPT2|GPT2]]** capable d'​écrire des articles de presse et des œuvres de fiction. Reposant sur un générateur de texte qui assimile les mots reçus et détermine la suite la plus logique qu'​elle retransmet dans le même style, elle s'​avère particulièrement performante,​ à tel point qu'il est impossible de faire la différence avec un texte écrit par un être humain7.\\ Les chercheurs retardent la publication de leurs recherches car ils estiment que **GPT2 a un potentiel « trop dangereux »**, étant donné que cette IA pourrait à terme servir à des actes mal intentionnées comme générer des avis négatifs ou positifs sur des produits, des spams, des textes complotistes,​ voire des fausses ​nouvelles8.  ​+  * **[[https://​fr.wikipedia.org/​wiki/​OpenAI|OpenAI sur Wikipedia]]**:​ OpenAI est une entreprise à « but lucratif plafonné » en intelligence artificielle,​ basée à San Francisco. L'​objectif de cette société est de promouvoir et développer une intelligence artificielle à visage humain qui bénéficiera à toute l'​humanité. OpenAI a mis au point une intelligence artificielle nommée **[[https://​fr.wikipedia.org/​wiki/​OpenAI#​GPT2|GPT2]]** capable d'​écrire des articles de presse et des œuvres de fiction. Reposant sur un générateur de texte qui assimile les mots reçus et détermine la suite la plus logique qu'​elle retransmet dans le même style, elle s'​avère particulièrement performante,​ à tel point qu'il est impossible de faire la différence avec un texte écrit par un être humain.\\ Les chercheurs retardent la publication de leurs recherches car ils estiment que **GPT2 a un potentiel « trop dangereux »**, étant donné que cette IA pourrait à terme servir à des actes mal intentionnées comme générer des avis négatifs ou positifs sur des produits, des spams, des textes complotistes,​ voire des fausses ​nouvelles.  ​
  
 ====Controverse sur GPT-2==== ====Controverse sur GPT-2====
Ligne 224: Ligne 224:
  
 ai.generate(n=1,​ prompt=prompt,​ max_length=100,​ temperature=0.8,​ return_as_list=True) ai.generate(n=1,​ prompt=prompt,​ max_length=100,​ temperature=0.8,​ return_as_list=True)
-"""​ 
-See this article by Huggingface engineer Patrick von Platen for how sampling and 
-these parameters are used in practice. 
- 
-n: Number of texts generated. 
-max_length: Maximum length of the generated text (default: 200; for GPT-2, the maximum is 1024.) 
-prompt: Prompt that starts the generated text and is included in the generate text. (used to be prefix in previous tools) 
-temperature:​ Controls the "​craziness"​ of the text (default: 0.7) 
-top_k: If nonzero, limits the sampled tokens to the top k values. (default: 0) 
-top_p: If nonzero, limits the sampled tokens to the cumulative probability 
- 
-Some lesser-known-but-still-useful-parameters that are unique to Transformers:​ 
- 
-num_beams: If greater than 1, executes beam search for cleaner text. 
-repetition_penalty:​ If greater than 1.0, penalizes repetition in a text to avoid infinite loops. 
-length_penalty:​ If greater than 1.0, penalizes text proportional to the length 
-no_repeat_ngram_size:​ Token length to avoid repeating given phrases. 
- 
-input_context = 'The dog' 
-input_ids = tokenizer.encode(input_context,​ return_tensors='​pt'​) ​ # encode input context 
-"""​ 
 </​code>​ </​code>​
  
Ligne 271: Ligne 250:
 ai.train(data,​ batch_size=32,​ num_steps=150000) ai.train(data,​ batch_size=32,​ num_steps=150000)
 </​code>​ </​code>​
 +
 +=====Victor Hugo=====
 +Toutes l’œuvre de Victor Hugo est libre, et comme Victor a beaucoup écrit et particulièrement bien, cela fournit de bonnes datas pour l'​apprentissage.
 +
 +Toutes sont oeuvre a été téléchargée sur [[http://​www.bouquineux.com/​index.php?​ebooks=36&​Hugo&​page=1|bouquineux.com]] au format epub.
 +
 +Conversion de *.epub vers *.txt avec pypandoc, puis regroupement de tous les poèmes dans poesie.txt et tous les romans dans roman.txt
 +
 +===Nettoyage des datas===
 +Les sauts de lignes, les sommaires ... doivent être nettoyés: avec clean_txt.py
 +
 +Le nettoyage des datas est très important, ce n'est pas drôle, il faut vérifier le résultat obtenu en tapant au hasard dans le texte, ça prend un temps fou ...
 +
 +La génération de texte est une représentation fidèle du texte d'​apprentissage:​ par exemple si il y a beaucoup de saut de ligne, le texte généré aura aussi plein de saut de ligne.
 +
 +====Poésie====
 +
 +===Config===
 +<​code>​
 +vocab_size=10000
 +n_positions=1024
 +n_ctx=1024
 +n_embd=768
 +n_layer=12
 +n_head=12
 +bos_token_id=0
 +eos_token_id=0
 +max_length=1024
 +dropout=0.0
 +batch_size=32 ​
 +num_steps=180000
 +
 +temps de training 26:37:34
 +Encoding 50,741 sets of tokens from ./​poesie_clean.txt
 +debut Loss: 6.521 — Avg: 8.438 — GPU Mem: 5174 MB
 +fin   Loss: 0.140 — Avg: 0.141
 +</​code>​
 +====Roman====
  
  
aitextgen.1593016494.txt.gz · Dernière modification: 2020/06/24 18:34 par serge