
SAN FRANCISCO — Dünyanın en iddialı yapay zeka laboratuvarlarından biri olan OpenAI’de araştırmacılar, sadece görmek istediklerinizi tanımlayarak dijital görüntüler oluşturmanıza olanak tanıyan teknolojiler geliştiriyorlar.
Otonom bir robot hakkındaki 2008 animasyon filmi “WALL-E”ye ve sürrealist ressam Salvador Dalí’ye selam vererek DALL-E olarak adlandırıyorlar.
Microsoft’tan bir milyar dolarlık fonla desteklenen OpenAI, teknolojiyi henüz halkla paylaşmıyor. Ancak geçtiğimiz günlerde, sistemin arkasındaki araştırmacılardan biri olan Alex Nichol, sistemin nasıl çalıştığını gösterdi.
“Avokado şeklinde bir çaydanlık” istediğinde, bu kelimeleri büyük ölçüde boş bir bilgisayar ekranına yazarak, sistem 10 farklı görüntü oluşturdu. koyu yeşil bir avokado demliği, bazılarında çekirdekli ve bazılarında olmayan. Bay Nichol, “DALL-E avokadoda iyidir,” dedi.
Yazdığında “Satranç oynayan kediler”, damalı bir oyun tahtasının iki yanına iki tüylü kedi yavrusu koydu, aralarında 32 satranç taşı vardı. “Su altında trompet çalan bir oyuncak ayıyı” çağırdığında, bir görüntüde ayının trompetinin ucundan suyun yüzeyine doğru yükselen minik hava kabarcıkları görülüyordu.
DALL-E fotoğrafları da düzenleyebilir. Bay Nichol, oyuncak ayının trompetini silip onun yerine bir gitar istediğinde, tüylü kolların arasında bir gitar belirdi.
Yedi araştırmacıdan oluşan bir ekip, OpenAI’nin sonunda grafik sanatçıları gibi insanlar için bir araç olarak sunmayı planladığı teknolojiyi geliştirmek için iki yıl harcadı ve dijital görüntüler oluşturup düzenlerken yeni kısayollar ve yeni fikirler sağladı. Bilgisayar programcıları, yazılım kodu parçacıkları oluşturmak için OpenAI’nin benzer teknolojisine dayalı bir araç olan Copilot’u zaten kullanıyor.
Ancak birçok uzman için DALL-E endişe verici. Bu tür bir teknoloji gelişmeye devam ettikçe, 2016 başkanlık seçimlerini sallamaya yardımcı olabilecek türden çevrimiçi kampanyaları besleyerek internette dezenformasyonun yayılmasına yardımcı olabileceğini söylüyorlar.
“Bunu iyi şeyler için kullanabilirsiniz, ancak kesinlikle her türlü çılgın, endişe verici uygulama için kullanabilirsiniz ve buna derin sahtekarlıklar da dahildir.” Arizona Eyalet Üniversitesi’nde bilgisayar bilimi profesörü olan Subbarao Kambhampati, yanıltıcı fotoğraflar ve videolar gibi olduğunu söyledi.
Avokado çaydanlık görüntülerini oluşturan DALL-E’nin bir videosu. Kredi Kredi… Openai tarafından
Yarım on yıl önce, dünyanın önde gelen yapay zeka laboratuvarları, dijital görüntülerdeki nesneleri tanımlayabilen ve hatta çiçekler, köpekler, arabalar ve yüzler dahil olmak üzere kendi görüntülerini oluşturabilen sistemler geliştirdi. Birkaç yıl sonra, aynı şeyi yazılı dilde, makaleleri özetleyerek, soruları yanıtlayarak, tweet’ler üreterek ve hatta blog yazıları yazarak yapabilen sistemler kurdular.
Şimdi, araştırmacılar yeni AI formları oluşturmak için bu teknolojileri birleştiriyor DALL-E, hem dili hem de görüntüleri dengelediği ve bazı durumlarda ikisi arasındaki ilişkiyi kavradığı için ileriye doğru kayda değer bir adım.
Seattle’daki bir yapay zeka laboratuvarı olan Allen Yapay Zeka Enstitüsü’nün başkanı Oren Etzioni, “Artık daha iyi ve daha iyi teknoloji yaratmak için birden çok, kesişen bilgi akışını kullanabiliriz” dedi.
Teknoloji mükemmel değil. Bay Nichol, DALL-E’den “Eyfel Kulesi’ni aya koymasını” istediğinde, bu fikri tam olarak kavrayamadı. Ay’ı kulenin üzerinde gökyüzüne yerleştirdi. “Kumla dolu bir oturma odası” istediğinde, oturma odasından çok bir şantiyeye benzeyen bir sahne ortaya çıktı.
Ancak Bay Nichol, burada veya orada birkaç kelime ekleyerek veya çıkararak isteklerini biraz değiştirdiğinde, istediğini sağladı. “Kumla dolu bir oturma odasında bir piyano” istediğinde, görüntü daha çok oturma odasındaki bir kumsala benziyordu.
DALL-E Yapay zeka araştırmacılarının, beyindeki nöronlar ağı üzerinde gevşek bir şekilde modellenen matematiksel bir sistem olan sinir ağı dediği şeydir. Bu, akıllı telefonlarda konuşulan komutları tanıyan ve sürücüsüz arabalar şehrin sokaklarında gezinirken yayaların varlığını tanımlayan teknolojinin aynısıdır.
Bir sinir ağı, büyük miktarda veriyi analiz ederek becerileri öğrenir. Örneğin, binlerce avokado fotoğrafındaki desenleri saptayarak bir avokadoyu tanımayı öğrenebilir. DALL-E, milyonlarca dijital görüntüyü ve her görüntünün neyi tasvir ettiğini açıklayan metin başlıklarını analiz ederken kalıpları arar. Bu sayede görseller ve kelimeler arasındaki bağlantıları tanımayı öğrenir.
Birisi DALL-E için bir görüntüyü tanımladığında, bu görüntünün içerebileceği bir dizi temel özellik oluşturur. Bir özellik, bir trompetin kenarındaki çizgi olabilir. Bir diğeri, bir oyuncak ayının kulağının tepesindeki eğri olabilir.
Ardından, difüzyon modeli adı verilen ikinci bir sinir ağı, görüntüyü oluşturur ve bu özellikleri gerçekleştirmek için gereken pikselleri üretir. DALL-E’nin Çarşamba günü sistemi açıklayan yeni bir araştırma makalesiyle tanıtılan en son sürümü, çoğu durumda fotoğrafa benzeyen yüksek çözünürlüklü görüntüler üretiyor.
DALL-E, genellikle birinin ne tanımladığını anlamakta başarısız olsa ve bazen ürettiği görüntüyü karıştırsa da, OpenAI teknolojiyi geliştirmeye devam ediyor. Araştırmacılar, daha büyük miktarlarda veri besleyerek bir sinir ağının becerilerini sıklıkla geliştirebilirler.
Aynı kavramları yeni veri türlerine uygulayarak daha güçlü sistemler de kurabilirler. Allen Enstitüsü kısa süre önce, görüntü ve metnin yanı sıra sesi de analiz edebilen bir sistem oluşturdu. Ses parçaları ve altyazılar da dahil olmak üzere milyonlarca YouTube videosunu analiz ettikten sonra, TV şovlarında veya filmlerde havlayan bir köpek veya kapanan bir kapı gibi belirli anları belirlemeyi öğrendi.
Uzmanlar, araştırmacıların bu tür sistemleri geliştirmeye devam edeceğine inanıyor. Sonuç olarak, bu sistemler şirketlerin arama motorlarını, dijital asistanları ve diğer yaygın teknolojileri geliştirmesine ve grafik sanatçıları, programcılar ve diğer profesyoneller için yeni görevleri otomatikleştirmesine yardımcı olabilir.
Ancak bu potansiyele dair uyarılar var. Yapay zeka sistemleri, kısmen becerilerini muazzam çevrimiçi metin, resim ve önyargı gösteren diğer veri havuzlarından öğrendikleri için kadınlara ve beyaz olmayan insanlara karşı önyargı gösterebilir. Pornografi, nefret söylemi ve diğer rahatsız edici materyaller oluşturmak için kullanılabilirler. Ve birçok uzman, teknolojinin sonunda dezenformasyon yaratmayı çok kolaylaştıracağına inanıyor, insanlar çevrimiçi gördükleri hemen hemen her şeye şüpheyle yaklaşmak zorunda kalacaklar.
“Sahte metin yapabiliriz. Birinin sesine metin koyabiliriz. Görüntüler ve videolar oluşturabiliriz,” dedi Dr. Etzioni. “Çevrimiçi zaten dezenformasyon var, ancak endişe, bu dezenformasyonun yeni seviyelere taşınmasıdır.”
OpenAI, DALL-E üzerinde sıkı bir tasma tutuyor. Yabancıların sistemi kendi başlarına kullanmasına izin vermezdi. Oluşturduğu her görüntünün köşesine bir filigran koyar. Laboratuvar, sistemi bu hafta test kullanıcılarına açmayı planlasa da, grup küçük olacak.
Sistem ayrıca, kullanıcıların uygunsuz bulduğu görüntüleri oluşturmasını engelleyen filtreler içerir. “Koyun başlı domuz” istendiğinde, bir görüntü üretmeyi reddetti. Laboratuvara göre, “domuz” ve “kafa” kelimelerinin birleşimi büyük olasılıkla OpenAI’nin zorbalık karşıtı filtrelerini tetikledi.
OpenAI’nin araştırma başkanı Mira Murati “Bu bir ürün değil” dedi. “Fikir, yetenekleri ve sınırlamaları anlamak ve bize azaltmayı geliştirme fırsatı vermektir.”
OpenAI, sistemin davranışını bazı şekillerde kontrol edebilir. Ancak dünyanın dört bir yanındaki diğerleri, aynı güçleri neredeyse herkesin eline veren benzer bir teknolojiyi yakında yaratabilir. Houston’da bağımsız bir araştırmacı olan Boris Dayma, DALL-E’nin erken bir sürümünü açıklayan bir araştırma makalesinden yola çıkarak teknolojinin daha basit bir sürümünü oluşturmuş ve yayınlamıştır.
“İnsanların gördükleri görüntülerin gerçek olmayabileceğini bilmeleri gerekiyor” dedi.
The New York Times haberinden çevrildi ve haberleştirildi.

