DALL-E utilise une version à 12 milliards de paramètres3 du modèle de langage GPT-31 pour interpréter les entrées (commandes) en langage naturel (telles que par exemple : « un sac à main en cuir vert en forme de pentagone » ou « une vue isométrique d'un capybara triste »), et générer les images demandées.