Dün itibariyle ChatCPT'nin pabucunu dama attı! Dünyayı sallayan yapay zeka DeepSeek nedir?

Yapay zeka alanına süratli ve çarpıcı bir giriş yapan Çinli yapay zeka uygulaması DeepSeek, adeta teknoloji dünyasını ters-düz etti. Tüm teknoloji meraklılarının takip ettiği ve hakkında merak ettikleri hususların bulunduğu DeepSeek için Yeniçağ olarak bilinmesi gerekenleri sizler için derledik. DeepSeek hakkında en çok merak edilen bahisler ortasında “DeepSeek fiyatlı mi?, DeepSeek fiyatsız mi?, DeepSeek nedir?, DeepSeek yapay zeka uygulaması mıdır?” üzere sorular teknoloji kullanıcılarının arama motorlarından karşılığını aradığı sorular içinde yer aldı. İşte DeepSeek yapay zeka aracı hakkında merak edilenler ve tüm gelişmeler…

Çin‘in yapay zeka alanındaki son atılımı olan DeepSeek, süratle global bir talep ile ilgi odağı oldu. Gelişmiş teknolojisi ve kullanıcı dostu tasarımı ile ön plana çıkan yapay zeka uygulaması, ChatGPT üzere rakiplerini adeta ekarte ederek, en çok indirilen yapay zeka uygulaması oldu.

Hatta Çin‘in fiyatsız yapay zeka uygulanması Deepseek, benchmarklarda Openai-o1’i dahi geride bıraktı.

DEEPSEEK NEDİR?

Yeni yapay zeka uygulaması DeepSeek, Çin merkezli bir yapay zeka uygulaması olarak kısa müddette global bir popülerlik kazandı ve yapay zeka teknolojisinde büyük bir ihtilale imza attı.

Diğer rakiplerine oranla daha düşük maliyetle ve daha az sayıda çip kullanılarak geliştirilen bu teknolojik model, sunduğu üstün özelliklerle ChatGPT üzere ABD merkezli rakiplerini geçmeyi başardı.

iPhone‘larda en çok indirilen yapay zeka asistanı olmayı başaran DeepSeek, kullanıcı dostu arayüzüyle geniş bir kullanıcı kitlesini kendine hayran bıraktı.

İşte özetle sekiz soruda DeepSeek:

1. Nereden çıktı bu DeepSeek?

Çin’in Hangzhou kentindeki şirket, Temmuz 2023’te Zhejiang Üniversitesi mezunu, bilgi ve elektronik mühendisi Liang Wenfeng tarafından kuruldu. Liang’ın 2015’te kurduğu bir fon olan High-Flyer’ın kuluçka programında yer aldı. Liang da kesimin öteki ileri gelen isimleri üzere, çeşitli misyonlarda insanlara yetişebilen yahut onları geçebilen “yapay genel zeka” düzeyine ulaşmayı hedefliyor.

Bağımsız faaliyet gösteren DeepSeek’in finansman modeli, dış yatırımcıların baskısı olmadan argümanlı yapay zeka projelerini sürdürmesine ve uzun vadeli araştırma ve geliştirmeye öncelik vermesine imkan tanıyor. DeepSeek grubu, Çin’in en düzgün üniversitelerinden mezun genç ve yetenekli şahıslardan oluşuyor ve yenilikçilik kültürünü teşvik ediyor. Şirketin işe alım sürecinde iş tecrübesinden çok teknik marifetlere öncelik veriliyor. Hülasa yapay zeka modelleri geliştirme sürecinde yeni bir bakış açısına sahip olduğu düşünülüyor.

DeepSeek’in seyahati, Kasım 2023’te kodlama vazifeleri için tasarlanmış açık kaynaklı bir model olan DeepSeek Coder’ın piyasaya sürülmesiyle başladı. Bunu, başka büyük lisan modelleriyle rekabet etmeyi amaçlayan DeepSeek LLM izledi. Mayıs 2024’te piyasaya sürülen DeepSeek-V2, güçlü performansı ve düşük maliyeti nedeniyle ilgi gördü. ByteDance, Tencent, Baidu ve Alibaba üzere öteki büyük Çinli teknoloji devlerini de yapay zeka modellerinin fiyatlarını düşürmeye zorladı.

2. DeepSeek modellerinin kapasitesi ne durumda?

DeepSeek-V2, daha sonra 236 milyar parametreye sahip daha gelişmiş bir model olan DeepSeek-Coder-V2 ile değiştirildi. Karmaşık kodlama istemleri için tasarlanan model 128.000 token’a varan yüksek bir bağlam penceresine sahip. 128.000 token’lık bağlam penceresi, modelin tıpkı anda işleyebileceği azamî giriş metni uzunluğunu tabir ediyor.

Daha geniş bir bağlam penceresi, bir modelin daha uzun metinleri anlamasına, özetlemesine yahut tahlil etmesine imkan tanır. Bu, örneğin uzun dokümanlar, kitaplar yahut karmaşık diyaloglar üzerinde çalışırken büyük bir avantaj sağlar.

Token ise metindeki bir ünite manasına geliyor. Bu ünite ekseriyetle söz, söz parçacığı (örneğin “yapay” ve “zeka” gibi) yahut hatta bir karakter olabilir. Örneğin: “Yapay zeka harika!” cümlesi dört tokendan oluşabilir: “Yapay,” “zeka,” “harika,” “!”.

Şirketin en son modelleri DeepSeek-V3 ve DeepSeek-R1 ise pozisyonunu daha da sağlamlaştırdı. 671.000 parametreli bir model olan DeepSeek-V3, akranlarından kıymetli ölçüde daha az kaynak gerektirirken başka markalarla çeşitli kıyaslama testlerinde etkileyici bir performans sergiliyor. Ocak 2025’te piyasaya sürülen DeepSeek-R1 de akıl yürütme, kodlama ve matematik üzere karmaşık misyonlara odaklanıyor. Bu alandaki yetenekleriyle ChatGPT’nin son modellerinden biri olan o1’e meydan okuyor.

DeepSeek kısa müddette değerli bir muvaffakiyet yakalamış olsa da Forbes, şirketin öncelikli olarak araştırmaya odaklandığını ve yakın gelecekte ticarileştirmeye yönelik ayrıntılı planları olmadığını yazdı.

3. Son kullanıcı için fiyatsız mi?

DeepSeek’in ilgi çekmeyi başarmasının temel nedenlerinden biri son kullanıcılar için fiyatsız olması. Hatta bu, kullanıcılara fiyatsız olarak sunulan bu kadar gelişmiş birinci yapay zeka sistemi. OpenAI o1 ve Claude Sonnet üzere öbür güçlü sistemler fiyatlı abonelik gerektiriyor. Hatta birtakım aboneliklerde bile kullanıcılara kota konuyor.

Google Gemini da fiyatsız olarak sunuluyor, fakat fiyatsız sürümleri eski modellerle sonlu. DeepSeek’in şimdilik rastgele bir sınırlaması yok.

4. Nasıl kullanılır?

Kullanıcılar, son kullanıcı için geliştirilen DeepSeek sohbet arayüzüne “chat.deepseek” adresinden erişebiliyor. Buradaki chat ekranına komutları girmek ve internette arama yapmak için “search” butonuna basmak kâfi oluyor.

Herhangi bir mevzuyla ilgili daha detaylı bilgiler elde etmek içinse “deep think” seçeneği var. Bu seçenek kullanıcıların istemlerine daha ayrıntılı karşılıklar sunarken, arama motorunda da daha fazla sitede arama yapabiliyor. Lakin yalnızca belli kaynaklara güvenerek arama yapan ChatGPT’nin tersine bu özellik, birtakım ufak sitelerdeki yanlış bilgileri de kullanıcıların karşısına çıkarabilir. Bu yüzden kullanıcıların bu sohbet botunda da elde ettikleri bilgileri teyit etmesi gerek.

5. İnançlı mi?

DeepSeek kullanımıyla ilgili bir değerli soru başlığı da inançlı olup olmadığı. DeepSeek de tıpkı öteki hizmetlerde olduğu üzere kullanıcının datalarını istiyor ve bunlar muhtemelen Çin’deki sunucularda saklanıyor.

Kullanıcıların rastgele bir LLM’de olduğu üzere burada da sohbet botuna hassas bilgilerini vermemesi kıymetli.

DeepSeek de açık kaynaklı olduğu için bağımsız araştırmacılar modelin kodlarına bakıp inançlı olup olmadığını belirlemeye yönelik çalışmalar yapabilir. Güvenlik konusundaki tasalara yönelik daha detaylı bilgilerin ilerleyen günlerde çıkması bekleniyor.

6. Açık kaynak kodlu olması ne manaya geliyor?

DeepSeek-R1 dahil olmak üzere modeller, büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM’i kişiselleştirebiliyor. Eğitim dataları ise patentli.

Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda yalnızca kullanıcılara bile aylık 20 ila 200 dolarlık paketlerle satıyor.

7. ABD kısıtlamalarına karşın nasıl bu türlü bir model üretti?

Şirket teknolojik yeteneklerini ve pazar erişimini geliştirmek için stratejik iştirakler da kurdu. Dikkat çeken iş birliklerinden biri, ABD’li çip firması AMD ile yapıldı. Forbes’a nazaran DeepSeek, bilhassa DeepSeek-V3 için model geliştirmenin temel evrelerinde AMD Instinct GPU’larını (grafik süreç birimleri) ve ROCM yazılımını kullandı.

MIT Technology Review dergisi ise ABD’den Çin’e yönelik çip yaptırımlarının gelmesinden çok evvel Liang’ın, şu anda Çin’e ihracatı yasaklanmış bir çeşit olan Nvidia A100 çiplerinden kıymetli ölçüde stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla ünite olduğunu varsayım ediyor. Kimileri bu sayının 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından değerini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.

Ancak burada kıymetli olan bir nokta da Liang’ın az sayıda kaynakla ehil modeller inşa etmenin yolunu bulmuş olması. ABD’nin çip ihracat kısıtlamaları, DeepSeek geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha güç verimli algoritmalar oluşturmaya zorladı. ChatGPT’nin eğitim datalarını işlemek için 10.000 Nvidia GPU’ya gereksinim duyduğu düşünülüyor. DeepSeek mühendisleri yalnızca 2.000 GPU ile benzeri sonuçlara ulaştıklarını söylüyor.

8. DeepSeek’in yenilikçi teknikleri neler?

DeepSeek’in başarısı birkaç kıymetli yeniliğe bağlanabilir.

Pekiştirmeli öğrenme: Teknolojist Janakiram MSV’ye nazaran, büyük ölçüde gözetimli ince ayara dayanan klasik formüllerin tersine, DeepSeek saf RL kullanıyor. Gözetimli ince ayar sisteminde ince ayar yapılmadan evvel, model çoklukla geniş bir data kümesi üzerinde eğitilmiştir. Saf RL kullanmak ise bir yapay zeka sisteminin sadece pekiştirmeli öğrenme metotlarını kullanarak eğitilmesi manasına gelir. Bu, modelin insan tarafından ayıklanmış datalar yahut gözetimli öğrenme prosedürleri olmaksızın, sırf ödül ve ceza düzenekleri üzerinden öğrenmesi demek. Bu yaklaşım, DeepSeek-R1’in muhakeme yeteneklerini geliştirmede bilhassa tesirli.

MoE mimarisi: Açılımıyla Mixture of Experts, yani Uzmanlar Karışımı mimarisi yapay zeka modellerinde farklı uzmanlardan oluşan yenilikçi bir sistem. Burada kullanıcının girdisi için en uygun birkaç uzman seçiliyor ve yalnızca onlar çalışıyor. Bu sayede hem büyük modellerin performansı artırılıyor hem de süreç maliyeti düşürülüyor. Bunu her biri farklı bir alanda uzmanlaşmış bir uzman takımı olarak düşünmek mümkün. Bir vazifeyle karşı karşıya kaldığında, sırf ilgili uzmanlar çağrılıyor ve kaynakların ve uzmanlığın verimli kullanımı sağlanıyor.

Multi-Head Latent Attention: Bu prosedür, bir modelin farklı dikkat başlıklarını kullanarak saklı temsiller ile girişler ortasındaki münasebetleri öğrenmesini sağlıyor. Bilgiyi daha esnek, güçlü ve detaylı halde işlemek için kullanılıyor. Bunu, girdi datalarının farklı kısımlarına odaklanabilen ve modelin bilgiyi daha kapsamlı biçimde anlamasını sağlayan birden fazla “dikkatli kafa” olarak düşünmek mümkün.

Damıtma: DeepSeek, daha büyük modellerin bilgi ve yeteneklerini daha küçük, daha verimli olanlara aktarmak için damıtma tekniklerini kullanıyor. Bu, bir öğretmenin bilgisini bir öğrenciye aktarmasına benziyor. Öğrencinin misal yeterlilikteki misyonları lakin daha az tecrübe yahut kaynakla gerçekleştirmesine imkan tanıyor. DeepSeek’in damıtma süreci, daha küçük modellerin daha büyük muadillerinin gelişmiş akıl yürütme ve lisan sürece yeteneklerini devralmasını sağlayarak onları daha çok istikametli ve erişilebilir hale getiriyor.

Kısacası DeepSeek, RL ve MoE üzere verimli mimarileri kullanarak eğitim için gereken hesaplama kaynaklarını kıymetli ölçüde azaltıyor ve daha düşük maliyetlerle tamamlayabiliyor. Örneğin DeepSeek-V3, Meta’daki modellerin maliyetinin çok daha az bir kısmıyla eğitildi.

OpenAI ve Google üzere kıymetli oyuncuların yapay zeka modellerine eğitim dataları sağlayan ScaleAI firmasının CEO’su Alexandr Wang, perşembe günü İsviçre’nin Davos kentinde düzenlenen Dünya Ekonomik Forumu’nda (WEF) yaptığı konuşmada DeepSeek’in eserini “dünyayı sarsacak bir model”diye nitelendirdi.

DEEPSEEK, CHATGPT’Yİ RESMEN EKARTE ETTİ

Çinli geliştirici DeepSeek’in yapay zeka aracı 18 gün üzere kısa bir müddet içinde, ChatGPT’yi geride bırakarak, dün ABD uygulama mağazalarında en çok indirilen uygulama oldu.

10 Ocak’ta kullanıma açılan ve “R1” ismini taşıyan açık kaynak kodlu akıl yürütme modelini bir sohbet robotuyla entegre eden model, OpenAI’ın sürdüğü ChatGPT’den daha fazla indirilerek büyük bir muvaffakiyet yakaladı.

NASDAQ’TA SÜREÇ GÖREN YAPAY ZEKA ÖNCÜLERİNİ SARSTI! DEEP SEEK FİYATLI Mİ?

OpenAI’ın O1 entegre uygulaması 200 dolarlık fiyatla satılırken, DeepSeek’in fiyatsız ve açık kaynak kodlu olarak kullanıma açılması, yapay zeka alanında büyük yatırımlar yapan teknoloji şirketlerinin NASDAQ Borsası’ndaki paylarının bedel kaybetmesine kadar vardı.

DeepSeek’in sohbet robotu, Apple’ın Çin mağazasında en çok indirilen uygulama olurken, ByteDance’in “Doubao” ve Moonshot AI’ın “Kimi” isimli yapay zeka asistanları Çinli öncüyü takip etti.

DeepSeek’in R1 akıl yürütme modeli, California Üniversitesi’nin yapay zeka uygulamalarının performansını derecelendirdiği Chatbot Arena‘da, Google’ın Gemini ailesinden iki modelin sonrasından gelerek üçüncü sırada yerini alırken, OpenAI‘ın O1 modelini geride bırakmayı başarmıştı.

DEEPSEEK UYGULAMASINA AĞIR İLGİ VAR

Türkiye’de ve dünyada uygulamayı kullanmak isteyenler, ağır talep sebebiyle günlerdir birtakım vakit aralıklarında uygulamaya erişemiyor. Yoğunluk sebepli erişilememe probleminin ilerleyen süreçte çözülmesi beklenirken, DeepSeek aracının popülerliğinin ve kendisine olan talebin giderek arttığı da açıkça gözlemleniyor.