Bugün herkesin bildiği ChatGPT veya Gemini gibi yapay zekaları eğitmek için milyarlarca gerçek dünya verisi (resim, ses, video, metin vb.) kullanıldı. Musk’a göre ise bu araçlara güç veren modelleri eğitmek için kullanılan gerçek dünya verilerinin tükendi. Musk, Mark Penn ile canlı yayınlanan bir sohbet sırasında, “Artık yapay zeka eğitiminde insanlığın sahip olduğu bilginin kümülatif toplamını tükettik. Bu esasen geçen yıl oldu.” dedi.
Çözüm var mı?
Elbette onlarca şirketin milyarlarca dolar yatırım yaptığı bir sektörün kullanacak veri kalmaması nedeniyle çökeceğini düşünmek yanlış olur. Ve aslında bir süredir konuşan bir çözüm de var. Musk’ın vurguladığı çözüm, giderek daha fazla şirketin benimsediği bir yöntem: Sentetik veri.
Bu yaklaşım, gerçek dünya verilerinin eksik kaldığı durumlarda, yapay zeka modellerinin kendi ürettiği verilerle eğitilmesini içeriyor. Musk, bu süreci “Sentetik verilerle ... yapay zeka kendi kendini derecelendirecek ve bu kendi kendine öğrenme sürecinden geçecek.” şeklinde tanımladı.
Microsoft, Meta, OpenAI ve Anthropic gibi devler, sentetik veriyi hali hazırda eğitim süreçlerinde kullanıyor. Gartner’ın tahminlerine göre, 2024’te yapay zeka ve analiz projelerinde kullanılan verilerin yüzde 60’ı sentetik olarak üretildi. Örneğin, Microsoft’un Phi-4 modeli ve Meta’nın Llama serisi, gerçek dünya verileriyle birlikte sentetik veriyle de eğitildi.
Sentetik verinin en büyük avantajlarından biri, maliyetleri ciddi oranda düşürmesi. Örneğin, yapay zeka girişimi Writer’ın Palmyra X 004 modeli neredeyse tamamen sentetik kaynaklarla geliştirildi ve 700 bin dolara mal oldu. Buna karşın, benzer boyuttaki bir OpenAI modelinin geliştirme maliyeti 4,6 milyon dolar olarak hesaplanıyor.
Her ne kadar sentetik veri umut vaat etse de, beraberinde ciddi riskler de getiriyor. Araştırmalar, sentetik veriyle eğitilen modellerde yaratıcılık kaybı ve işlevsellikte bozulma gibi sorunların ortaya çıkabileceğini gösteriyor. Özellikle, kullanılan sentetik verilerdeki önyargıların modele taşınması, uzun vadede ciddi bir “çöküş” riskini beraberinde getiriyor.
filozoflar gib düşünmeyi öğretsinler. düşünerek, eldeki verileri işleyerek yeni veriler üretsin. kitabı oku, anladım de ama kitapta anlatılanlardan etkilenerek yeni düşünceler üreteme. anladığım kadarıyla yapay zeka bu durumda.
Tez, antitez, sentez. Tüm mesele bu ama yapay zeka bu konuda fıs. Sadece ezbere bilgi üretiliyor, bu bilgiler de ordan burdan aldığı bilgilerin derlemesi.