Nöral ağlar görüntüleri ayırt etmede son derece başarılı. Ancak süper akıllı yazılım sıra sözcüklere geldiğinde duraksıyor; iş dünyasının temel aracı olan elektronik tabloları çözemiyor. Oysa bilgisayarlara bu tabloları okutabilmek, son derece kârlı fırsatların önünü açabilir.
Jonathan Vanian
ELEKTRONİK TABLOLAR yaklaşık 50 yıldır kullanımda. Bu akılcı yenilik ilk başta salt muhasebeyi dijital ortama taşımayı amaçlıyordu. Ancak yazılım, araştırmacıların ve iş insanlarının dağınık verileri kapsayan sonsuz sayıdaki satır ve sütunu bir araya getirip, bilgisayar yardımıyla bilgileri analiz edebilmelerini sağladı. Uygulama o kadar standart hale geldi ki, öğrenciler bu ücretsiz dijital tabloları neredeyse bütçe yönetiminde tabloları kullanan finans analistleri kadar benimsediler.
Ancak elektronik tabloların yapamadığı bir şey var: Düşünmek. Bu yeti, nöral ağlar olarak adlandırılan, insan beyninin bilişsel süreçlerini taklit etmek amacıyla tasarlanmış daha yeni ve daha güçlü karmaşık yapay zeka programlarına özgü. Son yıllarda ise, salt nöral ağların geliştirilmesiyle ilgili gerekçelerden dolayı, yapılandırılmış veriler, metin ve rakamların yer aldığı sütun ve satırlardan çok görüntüler yapay zeka araştırmacılarının odak noktası oldu. Başka bir deyişle, güçlü bilgisayarlar kedilerin özelliklerini anlayabilmek için milyonlarca kedi fotoğrafını tarayabiliyor. Ancak aynı yazılım basit bir elektronik tabloyu çözümlemede yetersiz kalıyor.
Bu durum, yapılandırılmış verilerin temel unsur olduğu tıbbi araştırma, finans ve operasyonlar gibi alanlardaki veri bilim insanlarını derin bir hayal kırıklığına uğrattı. Araştırmacılar, bu yeniliğin özelliklerine olduğu kadar soruna da odaklandıklarını belirtiyorlar. Finans kuruluşu Capital One’dan uygulamalı makine öğrenimi araştırmacısı Bayan Bruss, “Çalıştığımız verilerin çoğu yapılandırılmış durumda ya da biz onlara bazı yapılar uygulamışız” diyor. “Derin öğrenmedeki ilerlemelerle mevcut veriler arasında büyük bir kopukluk var. Biz bu farkı kapatmaya çalışıyoruz.”
Nitekim bir dizi şirket bu aradaki kopukluğu ortadan kaldırmak için yeni yeni projeler geliştirmeye başladı. Örneğin, veri bilim insanları biyoteknolojinin güç merkezi sayılan Genentech’te kısa süre önce, 55 bin kanser hastasının sağlık bilgilerini ve genom verilerini içeren elektronik bir tablo hazırlamak için aylarca çalıştılar. Buradaki alanlar yaş, kolesterol düzeyi ve kalp atımları gibi genel bilgilerin dışında moleküler profiller ve genetik anormallikler gibi daha sofistike özellikler de içeriyor. Genentech, bu bilgileri nöral bir ağa aktararak, hastanın sağlık durumuyla ilgili bir harita çıkarabilmeyi amaçlıyor. Hedef ise, her hastaya özel, potansiyel olarak benzersiz bir ilaç ortaya koymak.
Sorun şu ki, araştırmacılar ancak şimdilerde Genentech’in oluşturduğu elektronik tablolara benzer yapılandırılmış verilerin nasıl tüketileceğini nöral ağlara öğretmeye başladılar. Genetech’te kişiselleştirilmiş sağlık veri bilimi analitiği global başkanı Ryan Copping, “İster klinik deneylerden ister elektronik sağlık kayıtlarından gelsin, verilerimizim büyük bir bölümü yapılandırılmış veri” diyor. Copping’e göre, bilgisayar ağları hasta profilleri arasındaki benzerlikleri analiz edebiliyor ve kendi çıkarsamalarını yapabiliyorsa o halde, “sonuçlara bakmaya başlayabilir ve hangi hastaları hangi tedavilerle hedefleyebileceğinizi düşünebilirsiniz. İşte bu, şimdiye kadar karşılanmamış bir gereksinim.”
Bu uygulamanın sunduğu fırsatlar ise sağlığın çok daha ötesine uzanıyor. Araştırma kuruluşu IDC, ticari sektörün bu yıl satış tahminleri, müşteri verileri gibi datalardan oluşan 5,8 zettabayt üretkenlik verisi ortaya koyacağını öngörüyor. Bir zettabayt bilgi, kabaca dünyadaki tüm plajların kum tanelerinin toplamına eşdeğer. Her yıl üretilen veri miktarını ölçen IDC Global DataSphere Başkanı John Rydning’e göre bu miktar oldukça çok.
Bu da, her tür işin verileri, nöral ağların bir şeyler öğrenebilecekleri bir biçime sokabilmesi halinde, kârlı bir fırsat yakalayabileceğini gösteriyor. Gıda devi PepsiCo’nun baş strateji ve dönüşüm sorumlusu Athina Kanioura, “Doğruluk faktörüne bir seviye daha eklenmesi milyonlarca dolar elde edilmesi anlamına gelir” diyor.
Bir sonraki zorlu sınav ise, araştırmacıların iş dünyasına en çok yarar sunabilecek verilerle çalışmalarını sağlayabilmek. Stanford Üniversitesi’nde profesör ve aynı zamanda, şirketler için analitik araçlar geliştiren Silikon Vadisi StartUp’ı Sisu Data’nın CEO’su Peter Bailis, “Son derece cool derin ağlar, otomobillerimiz ve online tweet’lerden duyguları anlayabilmemiz için gerçekten mükemmel şeyler yapabiliyorlar” diyor. “Ama eğer verilerimiz tablolarda saklanıyorsa, risk ya da müşteri memnuniyeti gibi şeyleri anlamamıza yardımcı olmuyorlar.” Herhangi bir iş insanını ilgilendirebilecek soru ise yanıtlanmayı bekliyor: Yapay zeka Excel sorununu alt edebilir mi?
ÖRAL AĞLARLA İŞ APLİKASYONLARININ kullanımında ilerleme olabilmesi için programların görüntüler kadar sözcükleri de etkili bir şekilde anlayabilmelerini sağlamak gerekiyor. Bu amaçla, araştırmacılar word2vec denilen bir yönteme odaklandılar (vektörü tanımlayan “vec”, nöral ağın en iyi tanıdığı birimi oluşturuyor.) 2013 yılında bir grup Google araştırmacısı tarafından bulunan ve açık-kaynak yazılım projesi olarak yayımlanan word2vec, bilgisayarların bazı sözcükler arasındaki ilişkilerin haritasını çizmelerini sağlıyor. Bu da, örneğin “car” (otomobil) sözcüğünü Kraft Heinz gibi bir gıda şirketinden çok BMW ya da Nissan gibi otomobil üreticileriyle ilişkilendiren daha güçlü dil sistemlerinin ortaya çıkışını sağladı.
Word2vec’in bilişim mucizesi, sözcükleri nöral ağların anlayabileceği bir dizi rakama çevirerek bu bağlantıları çözebilme becerisinden kaynaklanıyor. İlave metinle öğrenme egzersizleri yaptıran nöral ağ zamanla, sözcüklerin hangi sıklıkta yan yana geldiklerini ölçen puanlara göre sözcükleri gruplandırıyor. Bu daha yeni sistemler, doğal dil işleme teknolojileri olarak adlandırılan daha eski versiyonlarla karşılaştırıldığında, tipik olarak insan düşüncesiyle ilişkilendirilen örnek tanıma özelliklerinde ilerleme sağlıyorlar.
Bilgisayar destekli sözcük ilişkilendirme oyunundan, örneğin, dijital tablodaki sütun ve satırlarda birikenleri anlamlandırma kapasitesi ortaya çıkıyor. Bu işlem nöral ağ için bir tür Mors kodu yaratıyor: Program “günler” yazan sütuna sahip bir satış tablosuyla karşılaştığında, açıkça belirtilmemiş olmasa bile bazı tatillerin belli bir mevsimde satışları etkileyebileceğini, yeterince veriyle öğrenebiliyor. San Francisco Üniversitesi, Uygulamalı Veri Etiği Merkezi direktörü ve Fast.ai adlı, kâr amacı gütmeyen eğitim girişiminin ortak kurucusu Rachel Thomas, “Buna esas fikir diyebiliriz” sözleriyle açıklıyor. “Nöral ağlar belli örnek biçimlerini modelleyerek, öğrenme için bu sonsuz esnek yapıyı sunuyorlar” diyor.
Yatırım dünyası sözcükleri analiz edecek fırsatlarla dolu. Goldman Sachs’ta bir grup araştırmacı, aile içi gayrimenkul devriyle ilgili sözcüklere bakması için nöral ağı eğitti. Bu tür ticari olmayan işlemler evin gerçek değerini saptayamaz; yazılım programına ticari olan ve olmayan işlemleri ayırt etmeyi öğretmek, bankanın analizini iyileştirebilir. Kısa süre öncesine kadar Goldman için makine öğrenme projelerine öncülük eden San Diego, Kaliforniya Üniversitesi’nde uzun zamandır bilişim bilimi profesörü olan Charles Elkan, “Böylece nöral bir ağı, bu kategorideki bir işleme daha az dikkat etmesi için eğittik” diyor.
Sofistike sözcük bağlantıları da lojistik operatörleri açısından paha biçilmez değerde. San Francisco merkezli market ürünleri teslimat startup’ı Instacart algoritmalarının, özellikle de talep edilen ürünler mevcut olmadığında, müşteri tercihlerini öngörmelerini sağlayacak word2vec’in bir türevini kullanıyor. Program süpermarket envanterinin sözcüklerini nöral ağların işleyebileceği sayısal verilere dönüştürüyor. Ağ daha sonra maddeleri bir araya getirerek, örneğin, karışık çerezin kahveden çok kuru meyve ya da kabuklu kuru yemişle ortak özelliklere sahip olduğunu anlayabilmesini sağlıyor. Instacart’ın makine öğrenim direktörü Sharath Rao, sonucun para ve zaman tasarrufu sağladığını belirtiyor. “Aksi takdirde tüm olası eşleşmeleri hesaplayıp, (manuel) bir tablo oluşturmalısınız” diyor.
APILANDIRILMIŞ VERİDE derin öğrenmenin kullanılmasına hız verilmesine rağmen engeller ortadan kalkmış değil. Birincisi, bu fikir o kadar yeni ki, daha konvansiyonel istatistiksel yöntemlerle karşılaştırıldığında bu yöntemlerin ne kadar iyi olduğunu değerlendirecek denenmiş ve doğruluğu saptanmış bir yol yok. Yapay zeka yazılımını işleten çipleri üreten Nvidia’nın veri bilimcisi Even Oldridge, “Bu şimdilerde yanıtlanmayı bekleyen bir soru” diyor.
Nitekim, nöral ağların eğitilmesinin maliyeti göz önüne alındığında, kendi içlerinde yapay zeka uzmanlığına sahip olmayan şirketler açısından daha eski veri analitik yöntemleri yeterli olabilir. PepsiCo yöneticisi ve yapay zeka uzmanı Kanioura, “Her şirket için her sorunu çözecek mucizevi bir çözüm olduğunu sanmıyorum” diyor. İşte Amazon, Microsoft ve Google gibi bulut hizmet devleri bu konudaki girişimlerini de bu argümanla destekliyor: Potansiyel olarak kademeli artan getiriler için büyük harcamalar yapmak yerine yapay zeka hizmetlerini bizden alın.
Öte yandan, insanların bilgisayarlara nasıl “düşünecekleri”ni öğretmeyi amaçladıkları herhangi bir projede olduğu gibi, yaşayan organizmaların ön yargıları projeyi tehdit ediyor. Derin öğrenme sistemleri yalnızca eğitildikleri veriler kadar iyidir; belli veri noktalarının çok fazla ya da çok az olması yazılımın tahminlerini çarpıtabiliyor. Örneğin, Genentech’in veri dizisi 15 yıl öncesine ait kanser hastalarının klinik verilerine sahip. Bununla birlikte, elektronik tablosunda kullandığı genom test verileri sekiz yıllık; bu da, bundan önceki hasta verilerinin araştırmacıları tatmin edecek kadar karşılaştırılabilir olmadığı anlamına geliyor. Genentech’ten Copping, “Eğer bu veri dizilerini anlamazsak, asla güvenilmeyen modeller ortaya çıkabilir” diyor.
Bununla birlikte Copping’e göre, tüm bu elektronik tabloların analizini güçlendirmenin, belli bir tedaviyle, “hastanın ne kadar yaşayabileceğini tahmin edebilme” gibi azımsanmayacak potansiyel bir değeri var. Bu da, bir demet satır ve sütun için fena sayılmaz.