c’ 3003: Karalamanız güzel | ControlNet ile Stabil Difüzyon

dunyadan

Aktif Üye
Açık kaynaklı görüntü oluşturucu Stable Diffusion genellikle şaşırtıcı derecede iyi “fotoğraflar” üretir – ancak çoğu zaman üretmez. Görüntülerin kalitesi şans meselesi, deneme yanılma olmadan çok uzağa gidemezsiniz. ControlNet uzantısı ile şans faktörü en aza indirilmiştir. c’t 3003 detayları açıklıyor.


videonun transkripti


(Not: Yukarıdaki videoyu izleyemeyen veya izlemek istemeyen kişiler için hazırlanmış bonus içeriktir. Video parça bilgisi transkripte yansıtılmamaktadır.)

Bakın, buradaki kağıda bir çilek karaladım, fotoğrafını çektim ve buradaki yazılıma attım. Sonra, evet, çizimi gerçekçi bir fotoğrafa, pop art’a, sevimli bir canavara, Elden Ring karanlık fantazisine veya bir terminal bloğu modeline dönüştürün dedim. Evet, oldukça harika, değil mi? Ve tabii ki bu, herhangi bir şablonla, insanlarla, binalarla (bu arada, burası Hannover’deki Haberler binası), memlerle, reklam logolarıyla, Ernie’yle, Bert’le çalışır.

Bir fotoğrafı şablon olarak yüklemeniz ve ardından oluşturulacak görüntüde görünmesi gerekenleri yazmanız yeterlidir. Ardından yazılım, görüntü şablonundan ve açıklayıcı metinden tamamen yeni bir şey hesaplar. Örneğin, bu karalama çiziminden bir fotoğraf veya Susam Sokağı’ndan Finchen’den bir keno.

Ve her şey, bilgisayarımda yerel olarak çalışan açık kaynaklı yazılımlarla. Spesifik olarak, Stabil Difüzyon, Automatic1111 ve ControlNet ile birliktedir. Bu videoda size bunu nasıl çalıştıracağınızı gösteriyorum. Kalın grafik kartı olan bir bilgisayarınız yoksa, bunu iPhone’larda veya iPad’lerde yerel olarak veya bulutta bile yapabilirsiniz. Bizi izlemeye devam edin.

Sevgili bilgisayar korsanları, sevgili İnternet sörfçüleri, hoş geldiniz…

Evet, Dall-E, Midjourney ve Stable Diffusion gibi görüntü oluşturucular aslında modası geçmiş durumda. Yani sadece birkaç ay var. Öyle bir şekilde çalışıyorlar ki, buraya ne görmek istiyorsanız onu giriyorsunuz, örneğin bir programlama kaplumbağası.


Evet, o zaman aşağı yukarı iyi hesaplanır. Sözde bir modeli kendiniz de eğitebilir ve ardından, örneğin, kendiniz hesaplayarak resimlere dönüştürebilirsiniz. Bunun nasıl yapılacağı hakkında zaten bir video yaptık.

Dolayısıyla, bu tür bir görüntü oluşturmayla ilgili sorun şu ki, süper harika şeyler olabilse de, aynı zamanda çok fazla şans ve deneme yanılma söz konusu.

Bununla bir şeyler yaptığımda, her iyi resim için yaklaşık on berbat resim var.

Ve bu kontrolsüzlüğe karşı artık ControlNet devreye giriyor. ControlNet, kesinlikle harika bir isim. Bu, Stanford Üniversitesi’ndeki iki araştırmacı tarafından geliştirilen bir gelişmedir ve bu açık kaynaktır. Ve her şey açık kaynak ve birkaç haftadır GitHub’da mevcut. Kuruş harcamaktan çekinmiyorsanız, ControlNet’i kontrol etmenin çok hızlı ve kolay bir yolu rundiffusion.com’da. Bu, bulutta ControlNet dahil olmak üzere bir dizi uzantıya sahip tam olarak kurulmuş kararlı bir difüzyondur. Yani bunu süper yavaş bir patates bilgisayarla da kullanabilirsiniz, çünkü evet, bulut.

Ucuz 50 sentlik sürüm, bir görüntüyü ek işlem sonrası işlem yapmadan yaklaşık üç saniye içinde hesaplar. Yeterince hızlı, derdim. Stable Diffusion, ControlNet ile iOS cihazlarda yerel olarak da çalışır ve ayrıca ücretsiz DrawThings AI Generation uygulamasıyla kurulumu çok kolaydır. Ancak bir iPhone 13 Pro’da bir resim 45 saniye sürer. Evet ve en az 8 gigabayt video belleğine sahip bir Nvidia grafik kartınız varsa, ControlNet’i Automatic1111 grafik kullanıcı arabirimi ile Stable Diffusion’da yerel olarak da kullanabilirsiniz.

Windows için bir grafik yükleyici var, bağlantı açıklamada.

Ayrıca komut satırında Git aracılığıyla kolayca kurabilirsiniz. Resmi yol bu, tabiri caizse. Otomatik 1111, Linux ve Windows altında sorunsuz çalışır, ancak ne yazık ki MacOS altında birkaç sınırlama vardır. Otomatik1111 çalışıyorsa, yine de ControlNet’i kurmanız gerekir ve bu gerçekten çok kolaydır. Buradan, Uzantılar’a tıklayın, ardından Kullanılabilir, Şuradan yükle’ye ve ardından SD Web UI ControlNet, Yükle’ye tıklayın.

Ve sonra bu Hugging Face ControlNet Modellerinden en az birini indirmelisiniz. Link de açıklama kısmında.

Sekiz modelin tümünü almak en iyisidir. Nedenini birazdan söyleyeceğim. Ancak, her birinin boyutu 5,7 gigabayttır. Yani en az 46 gigabayt boş depolama alanına ihtiyacınız var.

Bu modelleri Automatic1111 kurulumunuzun “Models/ControlNet” klasörüne koyduğunuzdan emin olun. Ardından Automatic1111’i yeniden başlatın ve bum, ControlNet alanı burada “txt2img”de görünür. Bu arada, bundan sonraki her şey artık buluttaki rundiffusion.com için de geçerli, çünkü bu sadece ağdaki bir Automatic1111 kurulumudur.

ControlNet’in yanındaki oka tıklayarak ve buradaki seçenekleri genişleterek başlıyorsunuz. Çok önemli, unutması kolay, önce Etkinleştir’i tıklayın.

Ve sonra alana tıklayın ve şablon resmini arayın.

Burada bir 3003 videosundan ekran görüntüsü alıyorum. Evet ve artık ControlNet’in görüntüyü nasıl yorumlamasını istediğiniz konusunda birçok seçeneğiniz var. Ve bu yöntemler için sekiz farklı modeli de indirdiniz.

Varsayılan yöntem Canny’dir. Bunu yapmak için, Canny yazan girişe Önişlemci ve Model’e gidin. Canny, 80’lerde Bay Canny tarafından icat edilen bir kenar algılama yöntemidir.

Aşağıdaki Annotator Sonucunu Önizleme’ye tıklarsanız, her zaman görüntünüzün ilgili yorumunu görürsünüz: “Derinlik” derinlik haritasıdır, bu nedenle bir derinlik haritası oluşturulmaya çalışılır, burada örnekte görebilirsiniz. orada durmak Canny’den daha fazla ilgili. “HED” de bir kenar algılama yöntemidir, ancak Canny’den daha yumuşaktır. HED, orijinal görüntünün çoğunu korur, bu nedenle siyah beyaz görüntüleri renklendirmek veya fotoğrafları stilize etmek için iyidir. “MLSD” düz çizgileri bulur ve bu nedenle iç ve dış mimari görüntüler için çok uygundur. “Normal_Map”, normal denilen bir harita oluşturur. Bu, Derinlik haritasına benzer, ancak normal haritalar burada geometriyi biraz daha iyi koruyor gibi görünüyor. “Karalama”, karalanmış bir çizimi şablon olarak kullanmak istediğinizde kullandığınız moddur. Ve “Fake_scribble”, kendiniz karalamak istemiyorsanız bir fotoğrafı karalamaya dönüştürür.

OpenPose gerçekten harika. OpenPose, vücut pozlarını bilgisayar tarafından okunabilir hale getirmek için bir tür standarttır. Örneğin burada ekran görüntüsünü alıp önişlemci ve model için OpenPose dersem yazılım duruşumu tanır. Açıklayıcı Sonucu Önizle’ye tıklayarak bunun işe yarayıp yaramadığını görebilirsiniz. Böyle bir çöp adam varsa, evet, o zaman işe yaradı.

Ve sonra, örneğin Pixar karakterlerini oraya girebilirsiniz ve sonra karakterlerin bu duruşta olduğu Pixar sahneleri elde ederim. Deli, değil mi?

Evet, ve o artık çizgi film karakterlerine dönüştürülmüş gerçek bir insandı, ama elbette bunun tersi de geçerli. Örneğin, gerçek dünyada memlerin veya herhangi bir çizgi film karakterinin nasıl görüneceğini görmek istiyorsanız, evet, bu her şeye uyar.

Ve tabii ki hareketli görüntülerle de çalışabilirsiniz ama bu varili şu an açmayacağım, sanırım kendi başına bir video.

Evet, ama yine de birkaç pratik ipucum var. Bu nedenle, şablon resminizin en boy oranını her zaman kabaca ayarlamalısınız, o zaman sonuçlar daha iyi olacaktır. Burada, yeni hesaplanan görüntüye atıfta bulunan üst kısımdaki genişlik ve yükseklik ve şablon görüntüsüne atıfta bulunan tuval genişliği ve yüksekliği. Çoğunlukla manzara için 768 x 512 ve portre için 512 x 768 kullanıyorum.

Buradaki Ağırlık kaydırma çubuğu da çok önemlidir, görüntünüz şablona çok benziyorsa sola, şablona çok benzemiyorsa sağa taşıyın.

Otomatik1111, varsayılan olarak 20 “Örnekleme Adımı” olarak ayarlanmıştır. Deneyimlerime göre, iyi sonuçlar için bu biraz fazla. Genelde 30 adım kullanıyorum ve bu videoda yüzlerin genellikle biraz tuhaf göründüğünü fark etmişsinizdir. Bunun için “Yüzleri Geri Yükle” diye bir seçenek var. İnsan yüzleriyle çalışırken bunu her zaman kullanmalısınız. Ve henüz bilmiyorsanız: “Toplu Sayım” ile arka arkaya birkaç görüntüyü kolayca oluşturabilirsiniz. Bunu her zaman kullanıyorum, çünkü dediğim gibi, yalnızca her onuncu resim gerçekten iyi ve bu yüzden her zaman aynı anda birkaç tane oluşturdum.

Benim sonucum. Evet, vay canına, ControlNet ile bu görüntü oluşturma tekniği kesinlikle gelecekte standart yaratıcı yazılıma dahil edilecek, çünkü böylesine süper belirsiz bir çizimi bir şekilde bir yere tükürmek ve sonra basitçe şunun bir resmini çek demek elbette süper pratiktir. . Veya mevcut tüm görüntüleri tamamen yeniden karıştırın. Bu, ve gerçekten ciddiyim, yaratıcı süreçte bir devrim. Ancak bunun, örneğin illüstratörler gibi bazı insanlar için de büyük bir sorun olduğu açıktır – çünkü teknoloji ne kadar iyi olursa, artık illüstratörlere ihtiyaç duymayabileceğiniz daha fazla uygulama olacaktır.

Ve tabii ki en büyük sorun, bu yeni görüntülerin gerçek insanların yaratıcı çıktılarından üretilmesi. Yani Stable Diffusion and Co. internetten milyarlarca görüntü ile eğitildi. Ve bu fotoğrafları çeken yaratıcı insanlar maalesef bundan hiçbir şey anlamıyor. Kararlı Difüzyon yapımcıları şimdi sorunu en azından biraz çözüyorlar. Videonun yayınlandığı 3 Mart 2023 tarihine kadar haveibeentrained.com adresinden kendi görsellerinizin Stable Diffusion’ın yakında çıkacak olan 3.0 sürümünde kullanılamayacağını bildirebilirsiniz. Yani bu en azından küçük bir adım ama tabii ki sorunu çözmeye bile başlamayacaktır. Her neyse, AI gelişiminin bu baş döndürücü hızının zaten pek çok tartışmaya ve soruna yol açacağını varsayıyorum.

AI ile güncel kalmak istiyorsanız, bu kanala buradan abone olabilirsiniz. Çünkü konu kesinlikle bize biraz daha uzun süre eşlik edecek. Hoşçakal!


c’t 3003, c’t’in YouTube kanalıdır. c’t 3003’teki videolar bağımsız içeriktir ve c’t dergisindeki yazılardan bağımsızdır. Editörler Jan-Keno Janssen ve Lukas Rumpler ile video yapımcıları Şahin Erengil ve Pascal Schewe her hafta bir video yayınlıyor.



c't Magazine'den daha fazlası



c't Magazine'den daha fazlası




(jkj)



Haberin Sonu