Çalışma: AI “Minecraft” daki elmasları azaltıyor

dunyadan

Aktif Üye
“Minecraft”, yapay zeka (AI) için bir meydan okuma olarak uzun zamandır satranç, poker veya “Starcraft” dan farklı olarak – idi. Açık simülasyon oyunu, dünyasını bilgisayarda şans eseri üretir. Bu yüzden her seferinde farklı görünüyor ve bir AI algoritması hedefe giderken birkaç sabit eylem dizisinden daha fazlasını hatırlamak zorunda. Google DeepMind liderliğindeki bir ekip, AI testlerinde tasarlanmış bir “Minecraft” araştırma dünyasında elmasları azaltan Dreamerv3 ile bir program rutini sundu. Bu performans, oyun için özel eğitim almadan ve insan verilerini kullanmadan gerçekleştirilir.

Uzmanlara göre, deneyimli insan oyuncularının bile bir elmas spitz çapası oluşturmak için 20 dakikadan fazla ve yaklaşık 24.000 “girdiye” ihtiyacı var. Yazarlar “Minecraft” araştırma versiyonunu Malmo ve Minerl KI yarışmasından gelen ortamları şimdi Nature Journal'da açıklanan deney için kullandılar. Çalışmanın bağımsız araştırmacılar tarafından henüz okunmamış ilk versiyonu, 2023'te ön hazırlık sunucusu ARXIV'te zaten ortaya çıkmıştı. Açık kaynak çözümü Dreamerv3 bu nedenle takviye öğrenmeye (RL) dayanmaktadır. Bu “cesaret verici” yöntem, insanların deneyler ve hatalar yoluyla hedeflere ulaştıkları öğrenme sürecini taklit eder.

“Dreamer, bölgenin bir modelini öğrenir ve gelecekteki senaryoları tanıtarak davranışlarını iyileştirir.” “Normalleştirme, denge ve dönüşümlere dayanan sağlam teknikler, alanlarda istikrarlı öğrenmeyi mümkün kılar.” Algoritmanın üçüncü versiyonu derhal “Minecraft'taki elmasları insan verileri veya müfredat olmadan sıfırdan” toplayan ilk kişiye hemen uygulanır. Programcılar daha önce AI'nın matematiksel işlevleri kullanarak öğrenme prosedürünün bir parçası olarak ödül olarak ne anladığını belirler. Dreamerv3 biraz yardım aldı: Hammadde madenciliği için karakter tekrar tekrar bir bloğa çarpmalı. Bu kampanya için yazarlar minimum miktarda vuruş belirttiler.



Bağımsız araştırmacılarla bölünmüş yankı


RL'ye dayalı birçok AIS, ödül fonksiyonunun uyarlandığı belirli bir alanda özellikle iyidir. Çalışmaya göre, Dreamerv3'ün çeşitli ortamlarda ikna etmesi gerekiyor: çeşitli oyun ve görevlerde algoritma, çeşitli alana özgü modellerden büyük ölçüde büyük ölçüde kesildi. Bu, farklı alanlar için de tasarlanan Openai'den bilinen Algoritma Proksimal Politika Optimizasyonu (PPO) için de geçerlidir. 2022'de ChatGPT üreticisi, “Minecraft” da bir elmas çapa üretebilmesi gereken Maden-RL yarışmasının bir parçası olarak Video Pret Training (VPT) modelini test etti. Analize göre, Dreamerv3 dünya modeli ile birlikte birkaç ardışık eylemi simüle ediyor ve böylece özel görevleri çözmek için bir strateji geliştiriyor.

“Çalışma birinci sınıf ve çığır açıyor,” diye övgüde bulunuyor. Model tabanlı RL, uzun zamandır umut verici bir yöntem olarak işlem görmüştür. Ancak sadece bu makale “çok geniş ve verimli bir şekilde kullanılabileceğini” göstermektedir. Senaryolar, çok sayıda video oyunundan AI ajanlarına, basitleştirilmiş robot kontrolüne kadar değişiyordu. Dreamerv3 ile ilgili özel şey, aynı ayarlarla (“hiperparametre”) tüm problemleri çözmesidir. Bu, algoritmanın yeni sorunlarla çalıştığı ve uyarlanması gerekmediğinin bir göstergesi olarak geçerlidir. TU Darmstadt'ta akıllı sistem profesörü Jan Peters daha az ikna olmuştur: kullanılan sezgisel başparmak kuralları etkileyici ampirik sonuçlar elde etti, ancak “entelektüel olarak tatmin edici değil”. “Muhtemelen gerçek dünyada çok az şey” kullandılar ve sadece simülasyonlarda mantıklı geldiler.


(Dahe)