Cin Lambadan Çıktı: Dile Benden Ne Dilersen!

0
1195

Yapay zekaya dayalı görsel oluşturma araçları, aklınıza gelebilecek hemen her şeyi görsel olarak yorumlayıp karşınıza getiriyor. Peki bu sistemler nasıl çalışıyor, hangi tartışmalara yol açıyor?
LEVENT DAŞKIRAN

Bundan daha birkaç yıl öncesine kadar bilgisayarlar görsel işleme konusunda insan becerisine kolay kolay yetişemez, beyaz yorgan altındaki beyaz kediyi ayırt etmekte zorlanır derken son aylarda ne olduysa bir şeyler oldu. DALL-E, Midjourney, Stable Diffusion gibi araçlar ortaya çıkıp sadece yazdığınız tariflerden hareketle son derece gerçekçi görseller çizmeye başladılar. New York sokaklarında paten kayan kedi çiz diyorsunuz çiziyorlar, ay yüzeyine spor ayakkabısıyla dolaşan basketbol oyuncusu çiz diyorsunuz çiziyorlar, yaşlı ve kederli bir erkek profili çiz ama tarz olarak Leonardo Da Vinci’nin çizimlerine benzesin diyorsun hemen diyorlar. Üstelik daha ortaya çıkmalarının üzerinden bir yıl bile geçmeden yaptıkları işi o kadar ilerlettiler ki, insanlar geçtiğimiz aylarda bu araçlarla hazırlanan şişme mont giymiş papa, gözaltına alınan Trump gibi görselleri gerçek sanıp sosyal medyada milyonlarca kez paylaştılar. Peki nasıl oluyor da bunu yapabiliyorlar? Aslında tüm bu sistemler arka planda yıllardır biriken çok büyük veri setlerinden besleniyor. Bu veri setleri internetten, sanat galerilerinin arşivlerinden ve diğer kaynaklardan toplanmış milyarlarca görselin yanı sıra, bu görsellere ait detaylı tanımlardan oluşuyor. Örneğin bu veri tabanında sadece koşan bir atın fotoğrafı değil, fotoğrafın beyaz renkli koşan bir ata ait olduğu, fonda yeşil bir çayırın yer aldığı, fotoğrafın geniş açı objektifle çekildiği gibi mümkün olduğunca detaylı tanımlar yer alıyor. Bu sayede sistem, sorgularınızın sonucunu kurgularken neyi nerden alabileceği konusunda önceden fikir sahibi olarak yola çıkıyor.

Bundan sonrası oldukça ilginç. Öncelikle yapay zeka her bir görselin üzerine adım adım gren yerleştirerek bunları orijinaliyle pek de ilgisi olmayan, ancak kendi çözümleyebileceği birer veri setine dönüştürüyor. Bunu kağıt üzerinde anlatmak zor ama en kaba haliyle yapılan işi görüntüyü minicik parçalara ayırıp tuzlukların içine doldurmak gibi düşünebilirsiniz. Sisteme çok sayıda görsel öğenin bir araya geldiği bir senaryo sipariş ettiğinizde, mesela ilk verdiğimiz örnekte olduğu gibi New York sokaklarında paten kayan fareyi çiz dediğinizde sistem tanıma uyan öğeleri veri tabanından topluyor ve üst üste serperek bir karışım ortaya çıkarıyor. Daha sonra bu grenli yapıyı tekrar netleştirmeye koyuluyor.

Netleştirme işi sonuçlandığında kullanıcının karşısına genellikle dört veya daha fazla alternatif seriliyor. Kullanıcının bunlardan birine tıklayıp büyütmesi veya indirmesi, sunulan alternatiflerden hangisinin beklenen sonuca en yakın olduğunu gösteren bir parametre olarak bundan sonraki kararları etkileyecek bir geri bildirim şeklinde kenara yazılıyor.

MUSLUĞUN SUYU NEREDEN GELIYOR?

Bu iş öyle bir hale geldi ki pek çok sanatçı olasılıklarıyla ilgilenmeye başladı, bazı stok görüntü servisleri yapay zeka yardımıyla oluşturulmuş görselleri portföyünün bir parçası haline getirdi. Hatta işi yalnızca sabit görseller hazırlamaktan çıkarıp yazdığınız tarife uygun videolar üretmeye çalışan girişimler de var.

Bununla birlikte yapay zekaya dayalı görsel oluşturucuların yaygın olarak kullanılmaya başlaması bu teknolojinin ne gibi sonuçlara neden olabileceğine dair tartışmaları da beraberinde getiriyor. Tıpkı yapay zekanın diğer alanlarında olduğu gibi bu sistemlerin de beslendikleri veri setinin içindeki önyargıları sonuçlarına yansıtması ve başkalarının imajına zarar verecek içerikler üretmek için kullanılması mümkün. Bu alandaki en önemli tartışma konularından biri ise beslendikleri veri tabanlarının içeriği. Bu amaca hizmet eden veri tabanlarının neredeyse tamamı, araştırma projesi adı altında, kâr amacı gütmeyen kuruluşlar olarak kendilerini gri bölgede konumlandırıyor internet ve diğer kaynaklardan sanatçıların haberi ve rızası olmadan topladıkları milyarlarca görselin içeriğini ve tarzını çalışmalarına yansıtıyor. Üstelik kendileri için farklı gelir modelleri yaratırken, ilham aldıkları kaynaklara herhangi bir pay ödemiyor.

Özetle bu sistemler sanatçıların işlerini elinden alacak bir tehdit olmakla kalmıyor, bunu sanatçının bizzat kendi eserlerini kullanarak ve rızası olmadan yapıyor. Ticari ürünlerin ticari olmayan veri tabanlarından beslenmesini bazıları “veri aklama” olarak adlandırıyor.

Tabii burada rızası olmayan sadece sanatçılar değil. Sosyal medyada herkesin görebileceği şekilde paylaştığınız fotoğrafların, sizi yaşlandıracağım komik surat yapacağım diyerek eğlence niyetine fotoğrafınızı çeken uygulamaların topladığı verilerin bu gibi veri tabanlarına aktarılmış olması da büyük ihtimal.

LABORATUVARLARIN KORIDORLARINDAN PARMAKLARINIZIN UCUNA

Ortaya koydukları becerilere ve şaşırtıcı sonuçlara rağmen yapay zekaya dayalı görsel oluşturma metotlarının henüz insana özgü yaratıcılığın tam olarak yerini alabildiğini söyleyemeyiz. Çoğu
görsel göze hoş görünse de özellikle farklı yüz ifadelerini ve ellerin biçimini yansıtmakta genel olarak zorlanıyor. Ayrıca bu yolla elde edilen görsellerin neredeyse tamamı usta bir sanatçının sonradan müdahalesi olmadığı sürece insanın içinde bir yerlerde ‘işte budur’ dedirten o derin hissi yakalamaktan uzak. Diğer yandan sadece son bir yılda geldikleri noktanın şaşırtıcı olduğunun hakkını vermek lazım. Yapay zeka modellerinin gelişmesi, yeni algoritmaların ortaya çıkması özellikle foto gerçekçiliğe ulaşmada hızla yol almalarına neden oldu.

Netice olarak yapay zekaya dayalı konuşma modelleri ve görsel oluşturma araçları herkesin ulaşabileceği bir noktaya geldi. Bundan birkaç yıl önce laboratuvarlarda gezinen kavramlar parmaklarımızın ucuna kadar indi. Bing Image Creator, DALL-E, Dream, Craiyon, Midjourney, Stable Diffusion ve daha nicelerine bireysel olarak erişmeniz ve denemeniz mümkün.

Peki ya biz? Yapay zekanın en son yaratıcılığa dayalı işleri elimizden alacağına inanırken, ilk sırada yaratıcılığı kurban veriyoruz. Tıpkı Twitter’da denk geldiğim şu söz gibi: “İnsanlar düşük gelirli işlerde çalışırken, bilgisayarların resim çizip şiir yazdığı bir gelecek hayal etmemiştik.” Cin lambadan çıktı bir kere. Bundan sonrasını kim bilebilir?