Sakana AI araştırma laboratuvarı, tabiattan ilham alan algoritmalar üzerine çalışan bir yapay zekâ şirketi olarak, yeni bir kendini uyarlayan lisan modeli olan Transformer-Squared’i tanıttı. Bu model, rastgele bir ek eğitime gerek kalmadan, yeni vazifeleri öğrenebiliyor. Matematiksel yeniliklerle kullanıcı isteklerine nazaran yüklerini dinamik olarak ayarlayan model, inference (çıkarım) sırasında yüksek performans sunuyor.
Transformer-Squared, büyük lisan modellerinin (LLM) farklı alanlardaki günlük uygulamalarda daha kullanışlı hale gelmesini sağlayan bir dizi teknolojinin son halkası olarak öne çıkıyor.
Yapay zekânın lisan ihtilali: Büyük Lisan Modelleri (LLM) nedir?
DİNAMİK TARTI AYARLAMA NEDİR?
Klasik tekniklerde, lisan modellerinin yeni bir misyona ahenk sağlaması için kapsamlı bir fine-tuning (ince ayar) sürecine muhtaçlık duyuluyor. Bu süreç hem kıymetli hem de vakit alıcı. Alternatif bir usul olan LoRA (Low-Rank Adaptation) ise sırf modelin gaye misyonla ilgili parametrelerini değiştirerek maliyeti azaltıyor. Fakat LoRA’nın parametreleri, eğitimin akabinde sabit kalıyor.
Transformer-Squared ise iki etaplı bir dinamik ayarlama sistemi kullanarak bu sıkıntılara tahlil getiriyor. Birinci olarak gelen isteği tahlil eden model, misyonun gerekliliklerini belirliyor. Akabinde, z-vektör ismi verilen özelleştirilmiş parametre ayarlarını devreye sokarak o vazifeye özel cevap üretiyor.
TRANSFORMER-SQUARED NASIL ÇALIŞIYOR?
Modelin temel yeniliği, yük matrislerini Singular Value Decomposition (SVD) sistemiyle parçalayıp her bir maharete ilişkin bileşenleri tanımlamasıdır. Eğitim sırasında, bu bileşenlerden öğrenilen z-vektörler, muhakkak misyonların optimize edilmesi için düğme fonksiyonu görüyor.
Inference sırasında ise model, gelen isteği tahlil ederek gereken maharetleri belirliyor ve z-vektörleri güncelleyerek çıktıyı şahsileştiriyor. Araştırmacılar, bu metodu Llama-3 ve Mistral modellerinde test ederek Transformer-Squared’in, LoRA’ya kıyasla daha az parametreyle daha âlâ sonuçlar verdiğini gözlemledi.
YENİ OLASILIKLAR
Transformer-Squared’in enteresan bir öteki özelliği, bir modelde öğrenilen z-vektörlerin öteki modellere aktarılabilmesidir. Örneğin, Llama’da oluşturulan z-vektörler, benzeri mimariye sahip Mistral modellerinde kullanılabiliyor. Bu, farklı sistemler ortasında bilgi paylaşımı için yeni bir kapı aralıyor.
Sakana AI, Transformer-Squared bileşenlerinin eğitim kodlarını GitHub üzerinden paylaştı ve bu yeniliğin sektörel dönüşümü hızlandıracağını belirtti.
İNFERENCE TEKNİKLERİNİN GELECEĞİ
Sakana AI’nin yeniliği, inference sırasında özelleştirme tekniklerine odaklanan bir trendin kesimi. Google’ın Titans mimarisi üzere projeler de, yapay zekâ modellerinin çıkarım sürecinde öğrenme ve hafıza oluşturma kapasitesini artırmayı hedefliyor.
Transformer-Squared, sırf AI araştırmaları için değil, işletmelerin bilgi odaklı tahlillerinde de büyük bir potansiyel taşıyor. Bu çeşit yenilikler, yapay zekâyı daha esnek, şahsileştirilmiş ve aktif hale getirerek çoklu alanlarda çığır açmaya devam edecek.