September 27, 2022

Artikel ini awalnya ditampilkan di Fotografi Populer.

Corgi akut tinggal di rumah yang terbuat dari sushi. Buah naga mengenakan sabuk karate di salju. Sebuah otak mengendarai kapal roket menuju bulan. Ini hanyalah beberapa dari gambar yang dihasilkan AI yang dihasilkan oleh model difusi teks-ke-gambar Google Imagen, dan hasilnya sangat akurat—terkadang begitu lucu. Para peneliti dari Google baru-baru ini mengungkapkan hasil ini dalam sebuah makalah yang diterbitkan bulan lalu—dan membahas dampak moral yang datang dengan menggunakan teknologi terbaru ini.

Google’s Imagen mengalahkan kompetisi

Dalam makalah penelitian mereka, ilmuwan komputer Google mengkonfirmasi bahwa model bahasa besar yang telah dilatih sebelumnya berkinerja cukup baik dalam membuat gambar dari input teks. Dengan Imagen, mereka hanya meningkatkan ukuran model bahasa dan menemukan bahwa itu menghasilkan hasil yang lebih akurat.

Skor FID Imagen berperingkat jauh di atas synthesizer teks-ke-gambar lainnya. Riset Google, Tim Otak

Untuk mengukur hasil, Imagen menggunakan kumpulan data Common Objects in Context (COCO), yang merupakan ringkasan sumber terbuka dari kumpulan data visual tempat perusahaan dan peneliti dapat melatih algoritme AI mereka dalam pengenalan gambar. Model menerima skor Frechet Inception Distance (FID), yang menghitung akurasinya dalam merender gambar berdasarkan petunjuk dari kumpulan data. Skor yang lebih rendah menunjukkan bahwa ada lebih banyak kesamaan antara gambar nyata dan yang dihasilkan, dengan skor sempurna adalah 0,0. Model difusi Imagen Google dapat membuat gambar sampel 1024 x 1024 piksel dengan skor FID 7,27.

Menurut makalah penelitian, Imagen menduduki puncak tangga lagu dengan skor FID-nya jika dibandingkan dengan model lain termasuk DALL-E 2, VQ-GAN+CLIP, dan Model Difusi Laten. Temuan menunjukkan bahwa Imagen juga disukai oleh penilai manusia.

Mengapa Anda belum dapat menggunakan Imagen generator text-to-image Google yang mengesankan
Buah naga yang mengenakan sabuk karate hanyalah salah satu dari banyak gambar yang mampu diciptakan Imagen. Riset Google, Tim Otak

“Untuk fotorealisme, Imagen mencapai tingkat preferensi 39,2% yang menunjukkan kualitas gambar yang dihasilkan tinggi,” ilmuwan komputer Google melaporkan. “Di lokasi syuting tanpa orang, ada peningkatan dalam tingkat preferensi Imagen menjadi 43,6%, menunjukkan kemampuan Imagen yang terbatas untuk menghasilkan orang yang fotorealistik. Pada kesamaan teks, skor Imagen setara dengan gambar referensi asli, menunjukkan kemampuan Imagen untuk menghasilkan gambar yang selaras dengan teks COCO.”

See also  Angkatan Laut AS menguji printer 3D cair-logam besar di kapal

Selain kumpulan data COCO, tim Google juga membuat sendiri, yang mereka sebut DrawBench. Benchmark terdiri dari skenario ketat yang menguji kemampuan model yang berbeda untuk mensintesis gambar berdasarkan “komposisi, kardinalitas, hubungan spasial, teks bentuk panjang, kata-kata langka, dan petunjuk yang menantang,” melampaui petunjuk COCO yang lebih terbatas.

Mengapa Anda belum dapat menggunakan Imagen generator text-to-image Google yang mengesankan
Meski menyenangkan, teknologi menghadirkan dilema moral dan etika. Riset Google, Tim Otak

Implikasi moral dari Imagen dan perangkat lunak teks-ke-gambar AI lainnya

Ada alasan mengapa semua gambar sampel tidak memiliki orang. Dalam kesimpulan mereka, tim Imagen membahas potensi dampak moral dan dampak sosial dari teknologi, yang tidak selalu yang terbaik. Sudah, program ini menunjukkan bias dan sudut pandang Barat. Meskipun mengakui bahwa ada potensi kreativitas tanpa akhir, sayangnya, ada juga orang yang mungkin mencoba menggunakan perangkat lunak untuk tujuan yang merugikan. Karena alasan inilah, antara lain, Imagen tidak tersedia untuk penggunaan umum—tetapi itu bisa berubah.

“Di sisi lain, metode generatif dapat dimanfaatkan untuk tujuan jahat, termasuk pelecehan dan penyebaran informasi yang salah, dan menimbulkan banyak kekhawatiran tentang pengucilan dan bias sosial dan budaya,” tulis para peneliti. “Pertimbangan ini menginformasikan keputusan kami untuk tidak merilis kode atau demo publik. Dalam pekerjaan di masa depan, kami akan mengeksplorasi kerangka kerja untuk eksternalisasi yang bertanggung jawab yang menyeimbangkan nilai audit eksternal dengan risiko akses terbuka yang tidak terbatas.”

Mengapa Anda belum dapat menggunakan Imagen generator text-to-image Google yang mengesankan
Para peneliti mengakui bahwa lebih banyak pekerjaan diperlukan sebelum Imagen dapat dirilis secara bertanggung jawab ke publik. Riset Google, Tim Otak

Selain itu, para peneliti mencatat bahwa karena kumpulan data yang tersedia di mana Imagen dilatih, program ini menunjukkan bias. “Audit kumpulan data telah mengungkapkan kumpulan data ini cenderung mencerminkan stereotip sosial, sudut pandang yang menindas, dan asosiasi yang menghina, atau berbahaya, terhadap kelompok identitas yang terpinggirkan.”

See also  Mengapa memukul lalat sangat sulit

Meskipun teknologinya pasti menyenangkan (siapa yang tidak ingin memunculkan gambar gurita alien yang melayang melalui portal saat membaca koran?), jelas bahwa itu membutuhkan lebih banyak pekerjaan dan penelitian sebelum Imagen (dan program lainnya) dapat digunakan. dirilis ke publik secara bertanggung jawab. Beberapa, seperti Dall-E 2, telah menerapkan perlindungan, tetapi kemanjurannya masih harus dilihat. Imagen mengakui tugas besar, meskipun perlu, untuk mengurangi konsekuensi negatif secara menyeluruh.

“Meskipun kami tidak secara langsung mengatasi tantangan ini dalam pekerjaan ini, kesadaran akan keterbatasan data pelatihan kami memandu keputusan kami untuk tidak merilis Imagen untuk penggunaan umum,” mereka menyelesaikan. “Kami sangat berhati-hati terhadap penggunaan metode pembuatan teks-ke-gambar untuk alat apa pun yang dihadapi pengguna tanpa perhatian dan perhatian yang cermat terhadap konten set data pelatihan.”