|
FLUX: Bu yapay zeka insan ellerini hatasız bir şekilde oluşturuyor
-
-
Lan nereye gidecek bu ai resim video ses olayı. Bir kaç yıl sonra filmleri vs her şeyi bütçe gerektirmeden yapacakar gibi. Gerçekliği sorgulatacaklar ciddi ciddi.
< Bu ileti Android uygulamasından atıldı > -
Diğerleri insan elini oluştururken neden saçmalıyor peki, olay ne? Kodlar mı karışık?
Yani kafayı veya yüzü oluşturuyor ama ellerde neden saçmalıyor, mesela neden saçları oluştururken saçmalamıyor da eller? İzah ediniz.
-
Bunun nedenlerinden biri insan elinin kendi karmaşıklığında yatıyor. Çeşitli şekil ve boyutlarda birden fazla öğeden oluşan ellerin yapısı inanılmaz derecede karmaşıktır, biz insanlar bunu hafife alsak da durum bu. Parmaklar, avuç içleri, eklemler, tendonlar ve diğer bileşenler birbirine bağımlı olarak hareket ediyor. Elleri gerçekçi bir şekilde çizmek için, modelin elin parçalarındaki doğal varyasyonların geniş yelpazesini öğrenmesi ve tıpkı insanlar gibi bu öğeler arasındaki mekansal ilişkileri anlaması gerekir. İnsan eli tokalaşma sırasında farklı, bir bardağı tutarken farklı, bir çay kaşığını tutarken farklı varyasyonlarda olabiliyor. Yapay zeka modelleri bu desenleri öğrenebilir ancak unutmayın, insan eli dediğimiz olguyu anlayamaz, kavrayamaz.
Bir diğer etken ise ellerin kişiden kişiye değişkenliği. Farklı bireylerin farklı el oranları, boyutları ve hatta şekilleri var. Dolayısıyla her el tipini bir modele öğretmek muazzam bir veri kümesi gerektirir. Buna bir de modelin esasında herhangi bir şey bilmediğini ekleyin. Yani modeller insan elinin aslında 5 tane parmaktan oluştuğunu bile gerçekte bilmiyor.
Midjourney, Dall-E veya Flux esasında bir difüzyon modelidir. Difüzyon modelleri, veri üreterek ya da dönüştürerek yapay zeka modellerinin içerik üretmesine olanak tanıyan bir yaklaşım olarak düşünülebilir. Bu modeller, veriyi adım adım iyileştirerek ya da gürültü ekleyip çıkararak hedef veriyi üretir. Bu üretimin kalitesi de modelin eğitim kümesiyle doğrudan ilişkili. Bildiğiniz gibi modeller genellikle internetteki görseller üzerinde eğitiliyor. Bu görsellerde insan yüzleri, gövdesi veya saçları oldukça barizdir. Ancak insan elleri görsellerde süreli olarak farklı pozisyon ve açılarda olabiliyor. Bu da insan eli gibi nesnelerin temsillerinin sınırlı olmasına neden oluyor.
Dediğimiz gibi Difüzyon modelleri, genellikle veriyi adım adım dönüştürerek çalışır. Bu süreçte eklenen veya çıkarılan gürültü, karmaşık ve ince detaylı yapılar üzerinde bozulmalara neden olabilir. İnsan eli, parmak izi desenlerinden tırnaklara, damarlardan eklemlere kadar inanılmaz bir detay seviyesine sahip. Difüzyon modelleri, bu kadar ince detayları tutarlı bir şekilde üretmekte henüz tam olarak başarılı olamıyor. Dolayısıyla eller bozulma konusuna eğilimliler.
Bir elin sadece bir nesne değil, aynı zamanda bir kavram olduğunu unutmamak gerekiyor. Bir el, bir nesneyle etkileşime girdiğinde, o nesnenin özelliklerine göre şekil değiştirir. Bu tür anlamsal kavramayı modellere öğretmek maliyetli bir süreç. İmkansız mı? Elbette değil. En basit çözümü veri kümesini büyütmek. Ayrıca 2D görüntülerin yanı sıra 3D modelleme verileri de kullanılabilir. El hareketlerinin fiziksel simülasyonları kullanılabilir.
-
gdh.digitalGörsel yapay zeka araçları neden el ve ayak çizemiyor?https://gdh.digital/gorsel-yapay-zeka-araclari-neden-el-ve-ayak-cizemiyor-74286
-
O kadar doyurucu bir cevap kaleme almışsın ki , keşke yapay zeka hakkında
(DH 'de Yapay Zeka haberleri sekmesi altında bu teknolojinin tarihçesi ,metotları ,terminolojisi ve mantığı hakkında wiki tarzında...) bir kaynakça olsa da bunu sen yapsan diye beklenti oluştu .
Yok artık diyeceksin ancak , böyle karmaşık sayılabilecek bir konuyu gayet sarih bir şekilde açıklamak her editörün harcı değil ...
Teşekkürler.
-
Yorumunuz için çok teşekkürler, onore ettiniz. Aslında haklısınız, özellikle terminoloji tarafını doldurmak gerekiyor. Not alayım bunu :)
-
10 seneden fazladır bu forumdayım, şunun gibi kaliteli izahat - hem de kusursuz bir imla ile - görmedim, teşekkür ediyorum Yasir hocam, saygılar.
-
Yalnız bütün görseller o kadar iyi ki...
En Beğenilen Yanıtlar
Tüm Yanıtları Genişlet
Bunun nedenlerinden biri insan elinin kendi karmaşıklığında yatıyor. Çeşitli şekil ve boyutlarda birden fazla öğeden oluşan ellerin yapısı inanılmaz derecede karmaşıktır, biz insanlar bunu hafife alsak da durum bu. Parmaklar, avuç içleri, eklemler, tendonlar ve diğer bileşenler birbirine bağımlı olarak hareket ediyor. Elleri gerçekçi bir şekilde çizmek için, modelin elin parçalarındaki doğal varyasyonların geniş yelpazesini öğrenmesi ve tıpkı insanlar gibi bu öğeler arasındaki mekansal ilişkileri anlaması gerekir. İnsan eli tokalaşma sırasında farklı, bir bardağı tutarken farklı, bir çay kaşığını tutarken farklı varyasyonlarda olabiliyor. Yapay zeka modelleri bu desenleri öğrenebilir ancak unutmayın, insan eli dediğimiz olguyu anlayamaz, kavrayamaz. Bir diğer etken ise ellerin kişiden kişiye değişkenliği. Farklı bireylerin farklı el oranları, boyutları ve hatta şekilleri var. Dolayısıyla her el tipini bir modele öğretmek muazzam bir veri kümesi gerektirir. Buna bir de modelin esasında herhangi bir şey bilmediğini ekleyin. Yani modeller insan elinin aslında 5 tane parmaktan oluştuğunu bile gerçekte bilmiyor. Midjourney, Dall-E veya Flux esasında bir difüzyon modelidir. Difüzyon modelleri, veri üreterek ya da dönüştürerek yapay zeka modellerinin içerik üretmesine olanak tanıyan bir yaklaşım olarak düşünülebilir. Bu modeller, veriyi adım adım iyileştirerek ya da gürültü ekleyip çıkararak hedef veriyi üretir. Bu üretimin kalitesi de modelin eğitim kümesiyle doğrudan ilişkili. Bildiğiniz gibi modeller genellikle internetteki görseller üzerinde eğitiliyor. Bu görsellerde insan yüzleri, gövdesi veya saçları oldukça barizdir. Ancak insan elleri görsellerde süreli olarak farklı pozisyon ve açılarda olabiliyor. Bu da insan eli gibi nesnelerin temsillerinin sınırlı olmasına neden oluyor. Dediğimiz gibi Difüzyon modelleri, genellikle veriyi adım adım dönüştürerek çalışır. Bu süreçte eklenen veya çıkarılan gürültü, karmaşık ve ince detaylı yapılar üzerinde bozulmalara neden olabilir. İnsan eli, parmak izi desenlerinden tırnaklara, damarlardan eklemlere kadar inanılmaz bir detay seviyesine sahip. Difüzyon modelleri, bu kadar ince detayları tutarlı bir şekilde üretmekte henüz tam olarak başarılı olamıyor. Dolayısıyla eller bozulma konusuna eğilimliler. Bir elin sadece bir nesne değil, aynı zamanda bir kavram olduğunu unutmamak gerekiyor. Bir el, bir nesneyle etkileşime girdiğinde, o nesnenin özelliklerine göre şekil değiştirir. Bu tür anlamsal kavramayı modellere öğretmek maliyetli bir süreç. İmkansız mı? Elbette değil. En basit çözümü veri kümesini büyütmek. Ayrıca 2D görüntülerin yanı sıra 3D modelleme verileri de kullanılabilir. El hareketlerinin fiziksel simülasyonları kullanılabilir. |
Bu mesaj IP'si ile atılan mesajları ara Bu kullanıcının son IP'si ile atılan mesajları ara Bu mesaj IP'si ile kullanıcı ara Bu kullanıcının son IP'si ile kullanıcı ara
KAPAT X