Apakah DALL·E 2?

DALL·E 2 ialah program kecerdasan buatan yang mencipta imej daripada penerangan teks, didedahkan pada hari Khamis oleh OpenAI, sebuah syarikat penyelidikan.

Ia menggunakan versi latihan parameter 12 bilion model pengubah GPT-3 untuk mentafsir input bahasa semula jadi dan menjana imej yang sepadan. Contohnya, apabila diberikan ayat 'foto hitam putih anjing kecil,' ia menghasilkan imej hitam putih Chihuahua dengan betul.

Sistem ini tidak sempurna — kadangkala menghasilkan imej yang sukar untuk ditafsirkan, atau benar-benar meleset. Sebagai contoh, apabila diminta untuk menjana imej 'seseorang menunggang unicycle di atas tali tegang di atas gunung berapi,' ia menghasilkan imej (cantik, pada pendapat saya) tetapi tidak berkaitan sama sekali imej matahari terbenam di atas air dengan figura kecil di latar depan. .

Namun, hasilnya mengagumkan, dan OpenAI mengatakan bahawa DALL·E 2 'adalah model AI pertama yang menjana imej daripada penerangan teks yang boleh menandingi kualiti artis manusia profesional.'

Sistem ini dilatih pada set data pasangan imej teks, yang terdiri daripada kira-kira 1.3 juta imej dan kapsyen daripada Internet yang dikikis dan dipilih susun oleh OpenAI. Data latihan kemudiannya digunakan untuk memperhalusi model GPT-3 supaya ia boleh menjana imej daripada penerangan teks.

OpenAI mengatakan bahawa sistem itu boleh menjana imej 'berkualiti tinggi' daripada pelbagai huraian teks, termasuk yang abstrak, konkrit, atau pun puitis.

Sebagai tambahan kepada contoh Chihuahua, contoh imej lain yang dihasilkan oleh DALL·E 2 termasuk potret Adolf Hitler yang diberikan dengan betul, imej naga yang diperbuat daripada sayur-sayuran dan imej Mona Lisa yang diperbuat daripada roti bakar.

Sistem ini juga mampu menghasilkan imej benda yang tidak wujud, seperti 'floof' (haiwan yang dibuat-buat) atau 'tulpa' (bentuk pemikiran).

Secara keseluruhan, hasilnya mengagumkan, dan OpenAI mengatakan bahawa sistem 'membuka kemungkinan baharu untuk menjana imej daripada penerangan teks.'

DARI E 2 ini CLIP-sistem menukar maklumat teks kepada maklumat visual. Ini ialah paradigma penyahkod pengekod, yang bermaksud bahawa apabila teks input disediakan, ia mula-mula ditukar kepada input mesin, kemudian diproses oleh sistem, dan akhirnya dihantar kepada penyahkod, yang menukar data yang dikodkan kepada imej.

Apakah DALL E 2

Apakah DALL·E 2?

Ini ialah generasi terbaru DALL·E, model bahasa generatif yang menggunakan frasa untuk mencipta kesan visual yang baharu sepenuhnya. DALL E 2 ialah model 3.5V yang besar, walaupun tidak sebesar GPT-3. Menariknya, ia juga lebih ringan daripada pendahulunya (12B). Dari segi penjajaran perihalan dan fotorealisme, DALL·E 2 adalah 70% lebih baik daripada DALL·E 2 walaupun saiznya lebih besar.

DALL.E 2- penerangan untuk pemula dengan contoh

Khususnya, DALL·E 2 ialah model sintesis imej teks bersyarat hierarki yang menggabungkan pembelajaran mendalam untuk pemprosesan bahasa semula jadi dengan penglihatan komputer untuk penjanaan imej. Matlamatnya adalah untuk melatih dua model, dan set latihan terdiri daripada gambar dan penerangan berpasangan. Yang pertama ialah a priori yang, diberi tajuk bertulis, boleh dilatih untuk menjana benam imej CLIP. Kami kemudiannya mempunyai penyahkod yang, apabila membenamkan imej CLIP (dan kapsyen, jika ada), boleh menjana imej terlatih.

DALLE 2 dilatih menggunakan ratusan juta foto dengan kapsyen daripada Internet, dan beberapa imej tersebut dialih keluar dan dirombak untuk menukar perkara yang dipelajari oleh model. Ia mendapatkan semula berbilang pilihan imej lampiran CLIP dan kemudian menggunakannya penyahkod lalui setiap daripada mereka. Ia kemudian mencipta gabungan menarik semua maklumat yang diberikan input pengguna.

Contoh DALL IS 2

Mari kita bermain sedikit untuk memahami DALL·E. Mari kita pecahkan kepada tiga langkah seterusnya.

Bayangkan pelangi, awan dan unicorn terbang di langit biru. Bayangkan bagaimana rupa gambar dalam imaginasi anda. Orang adalah perkara yang paling hampir dengan analog yang sempurna bagi sesuatu benam imej, dan gambar yang muncul di kepala anda ialah contoh yang sempurna untuk itu. Anda hanya boleh meneka tentang produk akhir, tetapi anda mempunyai idea yang baik tentang apa yang perlu disertakan. Model a priori membawa pembaca daripada perkataan dalam frasa kepada adegan dalam imaginasinya.
Sekarang anda boleh mula melukis. Apa yang unCLIP lakukan ialah menukar gambaran mental anda kepada lakaran sebenar. Kini anda boleh mencipta semula watak lain dengan tepat daripada perihalan yang sama, dengan statistik asas yang sama, tetapi dengan gaya visual yang benar-benar baharu. DALL·E 2 juga boleh menjana imej unik daripada imej sedia ada yang dibenamkan dengan cara ini.
Perhatikan lakaran yang anda buat. Inilah yang berlaku apabila anda melakar perihalan 'unicorn di tengah-tengah awan, dan pelangi naik ke langit.' Sekarang periksa imej dan teks untuk menentukan apa yang terbaik menggambarkan yang lain (matahari, rumah, pokok, dll.) dan apa yang paling menggambarkan perkara subjek, gaya, warna, dll. Apa yang CLIP lakukan ialah mengekodkan ciri. teks dan imej.

Sekarang setelah kita tahu apa itu DALL-E, mari kita teruskan ke bahagian seterusnya dan fahami ciri-cirinya.

Petua: Cara mencipta imej realistik dengan perkhidmatan AI DALL-E-2

Mempunyai DALL E 2

Di bawah ialah spesifikasi DALL·E 2.

Variasi
mewarna
Perbezaan Teks

Mari kita bercakap tentang mereka secara terperinci.

cara membuat kad nama dalam perkataan 2010

1] Variasi

DALL·E 2 melampaui sekadar menterjemah ayat kepada imej. OpenAI boleh bereksperimen dengan proses generatif, menghasilkan hasil yang berbeza untuk tandatangan yang diberikan terima kasih kepada pembenaman CLIP yang mantap. Apa yang CLIP 'lihat' dalam 'fikirannya' ialah perkara yang dianggap penting daripada input (kekal sama untuk semua imej) dan apa yang boleh diganti (yang berubah untuk imej yang berbeza). Apabila boleh, DALL·E 2 akan mengekalkan kedua-dua 'maklumat bermakna...dan aspek estetik'.

2] Mewarna

DALL·E 2 boleh mengubah suai foto sedia ada dengan isian automatik. Dalam contoh berikut, imej kiri ialah imej asal, dan foto tengah dan kanan mempunyai elemen yang dilukis di tempat yang berbeza. DALL·E 2 memadankan elemen tambahan kepada Gaya Gambar. Ia juga mengemas kini tekstur dan pantulan untuk mencerminkan elemen baharu.

Baca : Apa yang boleh anda lakukan dengan ChatGPT

3] Perbezaan teks

DALL·E 2 menukar imej menggunakan perbezaan teks. DALL·E 2 juga mempunyai keupayaan interpolasi lanjutan yang membolehkan anda mengubah suai objek. Seorang pengguna Twitter dapat 'menyalahkan' iPhonenya. twitter.com untuk menyemaknya.

Jika anda menyukai ciri ini, anda hanya perlu pergi ke openai.com dan kemudian mendaftar. Anda boleh membuat akaun baharu atau menggunakan akaun Microsoft atau Google sedia ada anda untuk mendaftar. Sebaik sahaja anda melakukannya, anda akan mendapat beberapa kredit percuma, jika anda mahu lebih, anda perlu membayarnya.

Ini adalah beberapa ciri DALL·E 2, ia mempunyai banyak kes penggunaan yang hebat, namun ia sentiasa disyorkan untuk tidak terlalu bergantung pada alatan AI. Lagipun, mereka hanyalah alat yang digunakan untuk menyelesaikan kerja, mereka tidak boleh menggantikan kecerdasan emosi seseorang.

Baca juga: Apl, Perisian dan Tapak Web Deepfake Terbaik.