Bunlar arasında gerçek zamanlı video anlama yeteneklerine sahip artırılmış gerçeklik uygulamaları, görselleri içeriğe göre kategorilere ayıran görsel arama motorları ve uzun metin pasajlarını yoğunlaştıran belge analiz araçları yer alıyor. Meta, Llama 3.2'yi geliştiriciler için kullanıcı dostu olacak ve minimum kurulum gerektirecek şekilde tasarladı.
Meta'nın Üretken Yapay Zeka Başkan Yardımcısı Ahmad Al-Dahle, yaptığı açıklamada, geliştiricilerin tek yapması gerekenin "bu yeni çok modluluğu entegre etmek ve Lama görüntülerini gösterip onun iletişim kurmasını sağlamak" olduğunu söyledi.
Bu özellik Meta'yı, geçen yıl çok modlu modellerini kullanıma sunan OpenAI ve Google gibi diğer yapay zeka geliştiricileriyle aynı seviyeye getiriyor. Llama 3.2'ye görüş desteğinin eklenmesi, Meta'nın Ray-Ban Meta gözlükleri gibi cihazlardaki yapay zeka yeteneklerini geliştirmeye devam etmesi nedeniyle stratejik bir hamle.
Model, sırasıyla 11 milyar ve 90 milyar parametreye sahip iki adet görme modeli ile her biri bir milyar ve üç milyar parametreye sahip iki adet hafif, yalnızca metin tabanlı modelden oluşuyor. Bu daha küçük modeller Qualcomm, MediaTek ve diğer Arm donanımlarında çalışacak şekilde tasarlandı.
Llama 3.2'nin tanıtılmasına rağmen, Temmuz ayında piyasaya sürülen selefi Llama 3.1'in hala oynayacağı bir rol var. Eski modelde 405 milyar parametreli bir versiyon yer alıyor ve bu da teorik olarak yeni sürüme kıyasla daha üstün metin oluşturma yetenekleri sağlıyor.