Dilin Ötesine Geçen Yeni Nesil Framework

Yapay Zeka
03:39, Oca 12
Arda Kara
348 Okunma
0 Yorum

Birden fazla modalitenin merceğinden görülen bir çift portakal, her bir dilim bu sahneyi algılamanın ve anlamanın farklı bir yolunu gösteriyor

Açık kaynaklı framework, çok modlu yapay zeka eğitim yeteneklerini geliştirmek için dilin ötesine geçiyor.

EPFL araştırmacıları, dilin ötesine geçen çok yönlü ve ölçeklenebilir çok modlu temel modelleri eğitmek için yeni nesil, açık kaynaklı bir framework olan 4M'yi geliştirdiler.

OpenAI'nin ChatGPT'si gibi büyük dil modelleri, birçoğumuzun bazı günlük görevlerimizi yerine getirme şeklini çoktan değiştirdi. Bu üretken yapay zeka sohbet robotları, internetten 'kazınan' yüzlerce terabaytlık metin ve milyarlarca parametre ile eğitiliyor.

İleriye bakıldığında, birçok kişi, üretici yapay zekayı yönlendiren 'motorların' yalnızca metin üzerinde eğitilen değil, aynı zamanda görüntüler, video, ses ve biyolojik veya atmosferik veriler gibi diğer alanlardan gelen modaliteler de dahil olmak üzere çeşitli diğer bilgi modalitelerini işleyebilen çok modlu modeller olacağına inanmaktadır.

Ancak yakın zamana kadar, çok çeşitli modaliteleri (girdiler ve görevler) işlemek için tek bir modeli eğitmek önemli zorluklarla karşılaşıyordu. Örneğin, eğitim genellikle tek görevli modellere kıyasla performansta düşüşe neden oluyor ve tipik olarak kalite kayıplarını azaltmak ve doğruluğu en üst düzeye çıkarmak için dikkatli stratejiler gerektiriyordu.

Buna ek olarak, bir ağın büyük farklılıklar gösteren dil, görüntü veya video gibi farklı modaliteler veya girdiler üzerinde eğitilmesi ek karmaşıklıklar ortaya çıkarmış ve belirli modalitelerdeki temel bilgiler genellikle model tarafından yanlış bir şekilde göz ardı edilmiştir.

Multimodal modelleme

Bilgisayar ve İletişim Bilimleri Fakültesi'ndeki (IC) Görsel Zeka ve Öğrenme Laboratuvarı'ndan (VILAB) EPFL araştırmacıları, Kaliforniya'daki Apple'ın desteğiyle yürütülen çok yıllı bir projede, geniş ve çeşitli görev ve modaliteleri ele almak için dünyanın en gelişmiş tek sinir ağlarından biri olan 4M'yi (Massively Masked Multimodal Modeling) geliştirdiler.

Araştırmacılar, Aralık ayında NeurIPS 2024, Yıllık Sinirsel Bilgi İşleme Sistemleri Konferansı'nda sundukları 4M hakkındaki son araştırma makalelerinde, mevcut modellerin yeteneklerini çeşitli şekillerde nasıl genişlettiğini açıklıyorlar. Çalışma arXiv ön baskı sunucusunda yayınlandı.

“4M ile artık dilden daha fazlasını yorumlayabilen zengin bir modelimiz var. Peki bu neden önemli? LLM'lere yönelik yaygın eleştirilerden biri, eğitim verilerinin yalnızca dille sınırlı olması nedeniyle bilgilerinin temellendirilememesidir,” diyor VILAB Başkanı Yardımcı Doçent Amir Zamir.

“Multimodal modellemeye geçtiğimizde kendimizi dille sınırlamak zorunda kalmıyoruz. Sensörler de dahil olmak üzere diğer modaliteleri de işin içine katıyoruz. Örneğin, bir portakalı tıpkı dil modellerinde olduğu gibi 'portakal' kelimesiyle, ama aynı zamanda portakalın nasıl göründüğü anlamına gelen bir piksel koleksiyonuyla veya portakala dokunmanın nasıl bir his olduğunu yakalayan dokunma duyusuyla da iletebiliriz.

“Çeşitli modaliteleri bir araya getirirseniz, modellemeye çalıştığımız fiziksel gerçekliğin daha eksiksiz bir kapsüllemesine sahip olursunuz” diye devam etti.

Geniş kullanım için açık kaynaklı, genel bir modele doğru

Bu etkileyici ilerlemelere rağmen Zamir, 4M'nin geliştirilmesinin, modelin modaliteler arasında gerçekten birleşik bir temsil geliştirmemesi de dahil olmak üzere bazı ilgi çekici zorluklar ortaya çıkardığını ve bunun nedenine ilişkin kendi teorisine sahip olduğunu söylüyor.

“Modellerin gizlice, kaputun altında hile yaptığını ve küçük bir bağımsız modeller topluluğu oluşturduğunu düşünüyoruz. Bir parametre seti bir sorunu çözüyor, başka bir parametre seti başka bir sorunu çözüyor ve toplu olarak genel sorunu çözüyor gibi görünüyorlar. Ancak bilgilerini, dünyaya iyi bir portal olacak çevrenin kompakt bir ortak temsilini sağlayacak şekilde gerçekten birleştirmiyorlar.”

VILAB ekibi, iklim modellemesi veya biyomedikal araştırma gibi diğer alanlardaki uzmanların kendi özel ihtiyaçlarına göre uyarlamalarına olanak tanıyan açık kaynaklı, genel bir mimari geliştirmek amacıyla 4M'de daha fazla yapı ve birleştirme oluşturmak için çalışmaya devam ediyor. Ekip ayrıca ölçeklenebilirliği daha da artırmak ve modellerin dağıtım bağlamlarına göre özelleştirilmesine yönelik yöntemler gibi diğer önemli hususları ele almak için de çalışıyor.

“Açık kaynak kullanımının tüm amacı, insanların kendi verileri ve kendi spesifikasyonları ile modeli kendileri için uyarlayabilmeleridir. 4M doğru zamanda geliyor ve özellikle diğer alanların kendi özel kullanım durumları için bu modelleme çizgisini benimsemeleri konusunda hevesliyiz. Bunun bizi nereye götüreceğini görmek bizi heyecanlandırıyor. Ancak hala birçok zorluk var ve daha yapılacak çok şey var” diyor VILAB'da doktora asistanı ve makalenin ortak yazarları Oğuzhan Fatih Kar ve Roman Bachmann.

Zamir, ekibin 4M'yi geliştirme deneyimine ve üzerinde çalışmaya devam ettikleri ilgi çekici sorunlara dayanarak, temel modellerin gelecekteki gelişimiyle ilgili bazı ilginç sorular olduğuna inanıyor.

“İnsanlar olarak beş temel duyuya sahibiz ve bunun da ötesinde, bu diğer duyularla zaten temellendirilmiş olan bilgiye etiketler ve yapı ekleyen dili etkin bir şekilde öğreniyoruz. Mevcut yapay zekada ise durum tam tersi; dünyaya duyusal erişimi olmayan ancak devasa veri ve hesaplama kaynakları kullanılarak eğitilen dil modellerimiz var.

“Amacımız, çok modluluğun rolünü incelemek ve sonraki kullanımlar için etkin bir şekilde kullanılabilecek temelli bir dünya modelini verimli bir şekilde geliştirmektir.”

0 Yorum