Alibaba Marco-o1'i Duyurdu!

Yapay Zeka
09:47, Kas 29
Onur Kara
400 Okunma
0 Yorum

Alibaba Marco-o1: LLM akıl yürütme yeteneklerinin geliştirilmesi.

Alibaba, hem geleneksel hem de açık uçlu problem çözme görevlerinin üstesinden gelmek için tasarlanmış büyük bir dil modeli (LLM) olan Marco-o1'i duyurdu.

Alibaba'nın MarcoPolo ekibinden Marco-o1, özellikle matematik, fizik, kodlama ve net standartların bulunmadığı alanlarda yapay zekanın karmaşık muhakeme zorluklarının üstesinden gelme becerisinde bir başka ileri adımı temsil ediyor.

OpenAI'nin o1 modeliyle gerçekleştirdiği muhakeme ilerlemelerini temel alan Marco-o1, Düşünce Zinciri (CoT) ince ayarı, Monte Carlo Ağaç Arama (MCTS) ve yeni yansıtma mekanizmaları dahil olmak üzere çeşitli gelişmiş teknikleri bir araya getirerek farklılaşıyor. Bu bileşenler, modelin çeşitli alanlardaki problem çözme yeteneklerini geliştirmek için uyum içinde çalışmaktadır.

Geliştirme ekibi, Open-O1 CoT Veri Kümesinin filtrelenmiş bir versiyonu, sentetik bir Marco-o1 CoT Veri Kümesi ve özel bir Marco Talimat Veri Kümesi dahil olmak üzere birden fazla veri kümesi kullanarak kapsamlı bir ince ayar stratejisi uygulamıştır. Eğitim derlemi toplamda 60.000'den fazla özenle seçilmiş örnekten oluşmaktadır.

Model, çok dilli uygulamalarda özellikle etkileyici sonuçlar ortaya koymuştur. Testlerde Marco-o1, İngilizce MGSM veri kümesinde %6,17 ve Çince muadilinde %5,60 oranında kayda değer doğruluk iyileştirmeleri elde etmiştir. Model, özellikle konuşma diline özgü ifadeler ve kültürel nüansları ele alırken çeviri görevlerinde özel bir güç göstermiştir.

Modelin en yenilikçi özelliklerinden biri, MCTS çerçevesi içinde değişen eylem ayrıntılarının uygulanmasıdır. Bu yaklaşım, modelin geniş adımlardan 32 veya 64 jetonluk daha hassas “mini adımlara” kadar farklı ayrıntı düzeylerinde muhakeme yollarını keşfetmesine olanak tanır. Ekip ayrıca modelin kendi kendini değerlendirmesini ve muhakemesini yeniden gözden geçirmesini sağlayan ve karmaşık problem çözme senaryolarında doğruluğu artıran bir yansıtma mekanizması da geliştirdi.

MCTS entegrasyonunun özellikle etkili olduğu kanıtlanmış, modelin MCTS ile geliştirilmiş tüm versiyonları temel Marco-o1-CoT versiyonuna göre önemli gelişmeler göstermiştir. Ekibin farklı eylem ayrıntılarıyla yaptığı deneyler ilginç modeller ortaya çıkardı, ancak en uygun stratejiyi belirlemenin daha fazla araştırma ve daha kesin ödül modelleri gerektirdiğini belirtiyorlar.

Geliştirme ekibi, modelin mevcut sınırlamaları konusunda şeffaf davranarak Marco-o1'in güçlü muhakeme özellikleri sergilemesine rağmen hala tam olarak gerçekleştirilmiş bir “o1” modelinin gerisinde kaldığını kabul etmiştir. Bu sürümün bitmiş bir üründen ziyade sürekli bir iyileştirme taahhüdünü temsil ettiğini vurguluyorlar.

İleriye dönük olarak Alibaba ekibi, Marco-o1'in karar verme yeteneklerini geliştirmek için Sonuç Ödül Modellemesi (ORM) ve Süreç Ödül Modellemesi (PRM) dahil olmak üzere ödül modellerini dahil etme planlarını açıkladı. Ayrıca modelin problem çözme yeteneklerini daha da geliştirmek için takviyeli öğrenme tekniklerini de araştırıyorlar.

Marco-o1 modeli ve ilgili veri kümeleri, kapsamlı belgeler ve uygulama kılavuzlarıyla birlikte Alibaba'nın GitHub deposu aracılığıyla araştırma topluluğunun kullanımına sunuldu. Sürüm, hem doğrudan model kullanımı hem de FastAPI aracılığıyla dağıtım için kurulum talimatları ve örnek komut dosyaları içeriyor.

0 Yorum