aitextgen
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
aitextgen [2020/07/01 14:27] – [Configuration] serge | aitextgen [2020/07/02 17:10] – [OpenAI] serge | ||
---|---|---|---|
Ligne 28: | Ligne 28: | ||
====OpenAI==== | ====OpenAI==== | ||
- | * **[[https:// | + | * **[[https:// |
====Controverse sur GPT-2==== | ====Controverse sur GPT-2==== | ||
Ligne 224: | Ligne 224: | ||
ai.generate(n=1, | ai.generate(n=1, | ||
- | """ | ||
- | See this article by Huggingface engineer Patrick von Platen for how sampling and | ||
- | these parameters are used in practice. | ||
- | |||
- | n: Number of texts generated. | ||
- | max_length: Maximum length of the generated text (default: 200; for GPT-2, the maximum is 1024.) | ||
- | prompt: Prompt that starts the generated text and is included in the generate text. (used to be prefix in previous tools) | ||
- | temperature: | ||
- | top_k: If nonzero, limits the sampled tokens to the top k values. (default: 0) | ||
- | top_p: If nonzero, limits the sampled tokens to the cumulative probability | ||
- | |||
- | Some lesser-known-but-still-useful-parameters that are unique to Transformers: | ||
- | |||
- | num_beams: If greater than 1, executes beam search for cleaner text. | ||
- | repetition_penalty: | ||
- | length_penalty: | ||
- | no_repeat_ngram_size: | ||
- | |||
- | input_context = 'The dog' | ||
- | input_ids = tokenizer.encode(input_context, | ||
- | """ | ||
</ | </ | ||
Ligne 282: | Ligne 261: | ||
Les sauts de lignes, les sommaires ... doivent être nettoyés: avec clean_txt.py | Les sauts de lignes, les sommaires ... doivent être nettoyés: avec clean_txt.py | ||
- | Le nettoyage des datas est très important, ce n'est pas drôle, il faut vérifier le résultat obtenu en tapant au hasard dans le texte. | + | Le nettoyage des datas est très important, ce n'est pas drôle, il faut vérifier le résultat obtenu en tapant au hasard dans le texte, ça prend un temps fou ... |
La génération de texte est une représentation fidèle du texte d' | La génération de texte est une représentation fidèle du texte d' | ||
Ligne 302: | Ligne 281: | ||
batch_size=32 | batch_size=32 | ||
num_steps=180000 | num_steps=180000 | ||
+ | |||
+ | temps de training 26:37:34 | ||
+ | Encoding 50,741 sets of tokens from ./ | ||
+ | debut Loss: 6.521 — Avg: 8.438 — GPU Mem: 5174 MB | ||
+ | fin Loss: 0.140 — Avg: 0.141 | ||
</ | </ | ||
- | |||
- | |||
====Roman==== | ====Roman==== | ||
aitextgen.txt · Dernière modification : 2022/02/08 15:59 de serge