dunyadan
Aktif Üye
Stability AI, DeepFloyd IF AI görüntü oluşturucuyu kullanıma sunuyor
Mevcut nesil AI destekli görüntü oluşturucular harika şeyler yapıyor, ancak bazı eksiklikleri de var ve bunlardan biri, bir binada “bar ve restoran” veya “otel, boş yer yok” gibi görüntülerde yazılar oluşturuyor. AI laboratuvarı DeepFloyd, tam olarak bunu anlaması gereken AI görüntü oluşturucu If’yi geliştirdi. Yazılı fotogerçekçi temsillere ek olarak, logo tasarımı gibi grafik görevler için de uygun olmalıdır.
DeepFloyd, geliştirdiği görüntü oluşturucu Stable Diffusion ile tanınan yazılım üreticisi Stability AI tarafından desteklenmektedir. Adı, 1965’te kurulan İngiliz rock grubu Pink Floyd’u anımsatıyor. Algoritmanın adı If, aynı adlı Pink Floyd hitinden de ödünç alındı. Görüntü oluşturucu için değiştirilmiş şarkı sözleri şöyle diyor: “Ben bir model olsaydım, açık kaynak olurdum.” Aynı stüdyo, aynı adlı görüntü oluşturucunun Rusça kopyası olan RU Dall-E’yi de geliştirdi.
Rol model Google Imagen
If, Google’ın yayınlanmamış yapay zeka görüntü oluşturucusu Imagen’i temel alır ve Stable Diffusion’dan tamamen farklı bir mimariye sahiptir. Görüntü oluşturucu, basamaklı bir piksel difüzyon modeline bağlı bir büyük dil modeli (LLM) içerir.
Dil modeli olarak T5-XXL-1.1 kullanıldı ve Google Research, İngilizce LLM’yi açık kaynak olarak yayınladı. Dondurulmuş metin kodlayıcı, istemi daha iyi anlamaya yardımcı olmak için tasarlanmıştır, ancak anahtar sözcükler eklemez, bunun yerine difüzyon modeline girdi olarak daha anlamlı bir vektör üretir. Diğer görüntü oluşturucular, çok modlu mimariye sahip AI modeli CLIP’e (Contrastive Language-Image Pretraining) dayanır.
ben model olsam
İlk olarak If, istemden 64 x 64 piksel boyutlarında bir görüntü oluşturur. Farklı sayıda parametreye sahip üç temel model vardır: IF-I 400M, IF-I 900M ve IF-I 4.3B. Bunu, 256 x 256 piksel ara adım yoluyla 1024 x 1024 piksel doğal çözünürlüğe ulaşana kadar daha fazla ayrıntı aldığı iki süper çözünürlüklü çalışma adımı takip eder.
İlk süper çözünürlük seviyesi için iki model IF-II 400M ve IF-II 1.2B mevcuttur.; ikinci aşama için IF-III 700M modeli. Ekteki sayılar, milyon (M) veya milyar (B) cinsinden parametre sayısını ifade eder.
If mimarisi: Başında Google’ın Büyük Dil Modeli T5 XXL var. Ardından, görüntü oluşturucunun üç difüzyon modeli gelir.
Görüntü oluşturucu, toplam 4,3 milyar parametreli LAION-A veri seti ile eğitildi. LAION-5B veri setinden yaklaşık 1,2 milyar görüntü içerir. Karşılaştırma için: Üreticiye göre, Midjourney V5 eğitimi sırasında 5 milyar görüntü parametresi ve Stable Diffusion XL için 2,1 milyar parametre kullanıldı.
Lisans ve Kullanılabilirlik
Şimdiye kadar Deepfloyds IF kullanan çevrimiçi bir görüntü oluşturucu yoktur. Yazılım Github’dan indirilebilir. Önceki lisans, ticari amaçlar için değil, yalnızca araştırma için kullanıma izin verir.
(akr)
Haberin Sonu