DALL-E

algoritmo di IA capace di generare immagini a partire da descrizioni testuali

DALL-E, nella forma stilizzata DALL·E, è un algoritmo di intelligenza artificiale capace di generare immagini a partire da descrizioni testuali attraverso la sintografia. Sviluppato da OpenAI, viene presentato il 5 gennaio 2021[1].

DALL-E
Immagine generata con l'intelligenza artificiale di DALL-E, raffigurando il logo di Wikipedia.
ClasseTransformer

Sviluppo modifica

A seguito della pubblicazione dei modelli NLP GPT e GPT-2,[2] OpenAI decide di applicare l'architettura dei transformer alla generazione delle immagini. A tal proposito, nel giugno 2020 pubblica ImageGPT, il quale utilizzando lo stesso codice di GPT-2 produce immagini coerenti.[3]

Il 5 gennaio 2021, OpenAI presenta sul suo blog il modello DALL-E, capace di generare immagini a partire da una didascalia che l'utente inserisce. DALL-E mostra di comprendere fedelmente le istruzioni della descrizione testuale rendendosi capace di apprendere concetti spaziali e temporali.

Malgrado le capacità di DALL-E siano state ampiamente mostrate nel blog di OpenAI e nelle relative pubblicazioni, il codice del modello non è mai stato rilasciato interamente, fatto che ha favorito il rilascio di numerosi modelli testo-immagine: Cogview, DALL-E Mini, ruDALL-E.[4][5]

Caratteristiche modifica

DALL-E produce immagini in risoluzione massima di 1024 x 1024 pixel[6] a partire da un testo in linguaggio naturale (è supportata la lingua inglese). DALL-E è capace di generare immagini e fotografie adeguandosi a vari stili come ad esempio la pixel art, lo stile cartoon, il rendering 3d. È anche capace di produrre immagini foto realistiche.

DALL-E, dopo un primo periodo di accesso solo tramite invito, è adesso aperto a tutti e offre 50 crediti all'iscrizione e 15 crediti al mese per la generazione delle immagini. Con ogni credito è possibile generare 4 immagini.

È anche possibile chiedere a DALL-E di produrre immagini, al posto che partendo da un testo, fornendo un'immagine. DALL-E in tal caso produrrà immagini visivamente simili ispirate all'immagine di partenza.

Nel settembre 2023 viene lanciata la versione 3.0 che è in grado di sviluppare dettagli molto complessi e si integra per la prima volta con ChatGPT (solo la versione Plus, ovvero a pagamento.), consentendo la generazione di immagini all'interno di una conversazione testuale, funzionalità già introdotta da Microsoft Bing Chat nel marzo dello stesso anno[7] e poi da Bing Image Creator e Bing.com.[8]

Immagini generate da DALL-E modifica

DALL-E 3 è molto più avanzato di DALL-E 2, riuscendo a generare immagini di alta qualità e riuscendo a scrivere anche lettere, anche se ha difficoltà nello scrivere parole o frasi di senso compiuto.

Inoltre in DALL-E 3 su ChatGPT Plus non è presente la filigrana, cosa che su DALL-E 2 è presente. Anche se quest'ultima può essere tolta senza che i termini e condizioni vengano infranti.[9]

COMPARAZIONE TRA IMMAGINI GENERATE DA DALL-E 3 E DALL-E 2
PROMPT: IMMAGINE GENERATA CON DALL-E 3 IMMAGINE GENERATA CON DALL-E 2
[10]
 
 
[11]
 
 
[12]
 
 
  1. ^ DALL-E Creating Images from Text, su OpenAI Blog.
  2. ^ GPT-2: 1.5B Release, su OpenAI Blog.
  3. ^ Image GPT, su OpenAI Blog.
  4. ^ DALL-E Mini, su wandb.ai.
  5. ^ ruDALL-E, su rudalle.ru.
  6. ^ DALL-E: L'intelligenza artificiale crea immagini e foto da un testo, su net-parade.it.
  7. ^ OpenAI presenta DALL-E 3: ora è più potente e si integra con ChatGPT, su hdblog.it, 22 settembre 2023.
  8. ^ La tecnologia DALL-E 3 per la creazione di immagini è ora disponibile per tutti in Bing Chat e Bing.com, su hwupgrade.it, 4 ottobre 2023.
  9. ^ (EN) DALL·E, su labs.openai.com. URL consultato il 17 ottobre 2023.
  10. ^ Foto in bianco e nero che cattura un momento del passato, dove una famiglia di quattro persone con membri di diverse discendenze si trova orgogliosamente su un terrazzo a Milano. Alle loro spalle si erge maestoso il Duomo. Il padre, di origine mediorientale, tiene in mano una macchina fotografica vintage, la madre, di origine europea, tiene un parasole, la figlia, di origine dell'Asia meridionale, stringe un libro e il figlio, di origine africana, tiene in mano un aereo giocattolo. L'atmosfera è calma e serena.
  11. ^ Giocatore di scherma viene sconfitto da un giocatore di basket in un torneo su un ring.
  12. ^ Prompt basato sul logo di Wikipedia.

Voci correlate modifica

Altri progetti modifica

Collegamenti esterni modifica

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica