LEVENT ASLAN

BİLİMSEL

UÇANGÖZ ROBOT VE ONU PROGRAMLAMAK İSTEYEN SİZ

Bir robotu eğitmek nasıl olur? Yapay zeka ile robot nasıl programlanır? LLM Nedir? ChatGPT Nedir? Microsoft'un geliştirdiği LLM Large Language Model Büyük Dil Modeli Droneunuzu (bundan sonra uçangöz olarak adlandırılıacak TDK'ya göre) robotunuzu programlamada kullanılan bir platform üstelik sözel komutlara da açık.

Aslında hepimiz robotlara tıpkı filmlerdeki gibi kendi sözümü dinletmek, sözlerimizin üzerine aksiyon almasını emirlerimizi yerine getirmesini istemişizdir. Örneğin, “Pertev, lütfen yemeğimi ısıtır mısın?” demek hepimizin içinden geçmiştir. Pertev tabii ki işin esprisi. Dadı dizisinin efsenevi uşak karakteri Pertevi oynayan Haldun Dormen’e de saygı ve sevgilerimi gönderiyorum.

Daha da ileri gidip fırını kendisinin bulmasını isteyebilirsiniz. Harika olurdu değil mi?

Karşınızda bir insan olsaydı dil iletişim kurabilmek için en sezgisel yol olabilirdi. En sezgisel en somuta en kolay anlaşılıra yakın yani. Ama karşınızda bir robot varsa durum değişiyor. Hala programlama kodlarına ihtiyaç duyuyoruz. Tabi dünyanın bir taraflarında bu gerçekleri değiştirmek çaba sarfeden bir çok grup bilim insanı var. Yapay zeka işte bu çalışmalardan ortaya çıktı. Şimdi de Microsoft mühendisleri OpenAl’in yeni dil modeli olan ChatGPT’i kullanarak insan robot etkileşimlerini nasıl gerçekleştirebileceklerini araştırıyorlar.

ChatGPT, geniş bir metin ve insan etkileşimi külliyatı üzerinde çalışılmış bir dil modelidir ve çok çeşitli istemlere ve sorulara tutarlı ve dilbilgisi açısından doğru yanıtlar üretmesine olanak tanır. MicroSoft bu araştırmadaki amaçlarının, robotik görevlerde yardımcı olması için ChatGPT'nin metnin ötesinde düşünüp düşünemeyeceğini ve fiziksel dünya hakkında akıl yürütüp yürütmeyeceğini görmek olduğunu belirtti. Karmaşık programlama dilleri veya robotik sistemlerle ilgili ayrıntıları öğrenmeye ihtiyaç duymadan robotlarla daha kolay etkileşim kurabilmek. Bu hedefe dair temel zorluk, ChatGPT'ye fizik kanunlarını, çalışma ortamının içeriğini ve robotun fiziksel eylemlerinin dünyanın durumunu nasıl değiştirebileceğini göz önünde bulundurarak problemleri nasıl çözmesi gerektiğini öğretmektir.

ChatGPT kendi başına çok şey yapabilecek bir dil, ancak yine de biraz yardıma ihtiyacı var MS mühendislerine gore. MS’un teknik makalesi, dil modellerini robotik görevleri çözmeye yönlendirmek için kullanılabilecek bir dizi tasarım ilkesini açıklamaktadır. Bunlar, özel yönlendirme yapılarını, üst düzey API'leri ve metin yoluyla insan geri bildirimini içerir ve bunlarla sınırlı değildir. MS iddialı, çalışmalarının, robotik sistemleri nasıl geliştirdiği konusunda bir değişimin sadece başlangıcı olduğuna inanıyor ve diğer araştırmacılara bu heyecan verici alana gelmeleri için ilham vermeyi umuyor.

Biraz da teknik detaya ne dersiniz?

ChatGPT günümüz robot teknolojisindeki zorluklara karşı nasıl yardımcı olabilir?

Mevcut sistemlerde robot üretim hattı, görevin gereksinimlerini sistem koduna çevirmesi gereken bir mühendis veya teknik kullanıcı ile başlar. Mühendis döngüde oturuyor, yani robotun davranışını düzeltmek ve yeni özellikler eklemek için yeni kod yazmaları gerekiyor. Genel olarak, bu süreç yavaştır (kullanıcının düşük seviyeli kod yazması gerekir), pahalıdır (robot bilimi konusunda derin bilgiye sahip çok yetenekli kullanıcılar gerektirir) ve verimsizdir (işlerin düzgün çalışması için birden fazla etkileşim gerektirir).

ChatGPT, yeni bir robot değerler dizisinin kilidini açıyor. Burada en önemli nokta robotun performansını izlerken büyük dil modeline (LLM – Large Language Model) üst düzey geri bildirim sağlayan (potansiyel olarak teknik olmayan) bir kullanıcının döngüde oturmasına izin vermesidir. Microsoft’a göre tasarım ilkelerini izleyerek, ChatGPT robotik senaryolar için kod üretebiliyorsunuz. Herhangi bir ince ayar yapmadan, çeşitli görevler için farklı robot form faktörlerini kontrol etmek için LLM'nin bilgisinden yararlanabiliyorsunuz. Çalışmda, robotik bulmacaları çözen ChatGPT'nin çok sayıda örneğini ve ayrıca manipülasyon, hava ve navigasyon alanlarındaki karmaşık robot dağıtımları gösteriliyor.

ChatGPT ile Robot Teknolojisi: İlkelerin Tasarımı

LLM'leri (Büyük Dil Modeli) yönlendirmek oldukça ampirik (tecrübeye, gözleme dayanan) bir bilimdir. Bu yüzden MS mühendisleri deneme yanılma yoluyla hem robotik görevleri yürütecek hem de bilgi istemi için bir metodoloji ve tasarım ilkeler seti oluşturdular. Şöyle ki;

İlk olarak, bir dizi üst düzey robot API'si veya işlev kütüphanesi tanımlanır. Bu kütüphane, belirli bir robota özgü olabilir ve robotun kontrol yığınından ya da algı kitaplığından gelen mevcut düşük seviyeli uygulamalarla eşleşmelidir. ChatGPT'nin davranışları hakkında akıl yürütmesi üst düzey API'ler için açıklayıcı adlar kullanmak suretiyle olur ve bu çok önemlidir;
Ardından, ChatGPT için görev hedefini açıklayan ve aynı zamanda üst düzey kitaplıktan hangi işlevlerin kullanılabileceğini açıkça belirten bir metin istemi geliyor. Bilgi istemi, görev kısıtlamaları hakkındaki bilgileri de içerebilir. Veya ChatGPT'nin yanıtlarını nasıl oluşturması gerektiği (yardımcı ayrıştırma öğeleri kullanılarak özel kodlama dili);
Kullanıcı, doğrudan inceleme yoluyla veya bir simülatör kullanarak ChatGPT'nin kod çıktısını değerlendirmek üzere döngüde kalır. Gerekirse kullanıcı, yanıtın kalitesi ve güvenliği hakkında ChatGPT'ye geri bildirim sağlamak için doğal dili kullanır.
Kullanıcı çözümden memnun kaldığında, son kod robota gönderilir.

Microsoft’un bir deneyinden aktarılanlar aşağıda. LLM’in nasıl çalıştığı hakkında ciddi fikir verecek.

ChatGPT'ye gerçek bir insansız hava aracını kontrol eden işlevlere erişim sağladık ve bunun, teknik olmayan kullanıcı ile robot arasında son derece sezgisel, dil tabanlı bir arayüz olduğu kanıtlandı. ChatGPT, kullanıcının talimatları belirsiz olduğunda açıklama soruları sordu ve drone için rafları görsel olarak incelemek için zikzak deseni gibi karmaşık kod yapıları yazdı. Nasıl selfie çekileceğini bile anladı!

https://youtu.be/i5wZJFb4dyA

ChatGPT'yi ayrıca Microsoft AirSim simülatörüyle simüle edilmiş bir endüstriyel denetim senaryosunda kullandık. Model, drone'u doğru bir şekilde kontrol etmek için kullanıcıların üst düzey amaçlarını ve geometrik ip uçlarını etkili bir şekilde ayrıştırmayı başardı.

https://youtu.be/38lA3U2J43w

Döngü Üzerindeki Kullanıcı: Karmaşık Görevler İçin Bir Konuşma Gerektiğinde

Ardından, ChatGPT'yi robot kollu manipülasyon senaryosunda kullandık. Modele orijinal olarak sağlanmış API'leri daha karmaşık üst düzey işlevlerle nasıl bir araya getireceğini öğretmek için konuşma geri bildirimini kullandık: Konuşma geri bildirimi ChatGPT’nin kendisi tarafından kodlanmıştır. Eğitim programına dayalı bir strateji kullanan model, blokları istifleme gibi işlemleri gerçekleştirmek için bu öğrenilen becerileri mantıksal olarak zincirlemeyi başardı.

Ek olarak model, Microsoft logosunu tahta bloklardan oluşturma görevi verildiğinde metinsel ve fiziksel alanlar arasında köprü kurmanın büyüleyici bir örneğini sergiledi. Logoyu yalnızca dahili veri tabanından geri çağırmakla kalmadı, logoyu "çizebildi" (SVG kodu olarak) ve ardından yukarıda öğrenilen becerileri kullanarak mevcut robot eylemlerinin fiziksel biçimini oluşturabileceğini anladı.

https://youtu.be/wLOChUtdqoA

Ardından, ChatGPT'ye bir uçangözün uzayda bir hedefe, engellere çarpmadan ulaşması için bir algoritma yazması görevini verdik. Modele bu dronun ileriye dönük bir mesafe sensörüne sahip olduğunu söyledik ve ChatGPT, algoritma için temel yapı taşlarının çoğunu hemen kodladı. Bu görev, insanla biraz konuşma gerektirdi ve ChatGPT'nin yalnızca dil geri bildirimini kullanarak yerelleştirilmiş kod iyileştirmeleri yapma becerisinden etkilendik.

https://youtu.be/Vn6NapLlHPE

Algı-eylem döngüleri: harekete geçmeden önce dünyayı hisseden robotlar

Bir şey yapmadan (eylem) önce dünyayı (algılama) hissetme yeteneği, herhangi bir robotik sistem için temeldir. Bu nedenle, ChatGPT'nin bu kavramla ilgili anlayışını test etmeye karar verdik ve ondan, kullanıcı tanımlı bir nesne bulana kadar bir ortamı keşfetmesini istedik. Modele nesne algılama ve nesne mesafesi API'leri gibi işlevlere erişim sağladık ve ürettiği kodun bir algı-eylem döngüsünü başarıyla uyguladığını doğruladık.

Deneysel karakterde, ChatGPT'nin gerçek zamanlı olarak sensör geri bildirimine dayanarak robotun nereye gitmesi gerektiğine karar verip veremeyeceğini değerlendirmek için ek deneyler yaptık (ChatGPT'nin bu kararları veren bir kod döngüsü oluşturmasının aksine). İlginç bir şekilde, sohbete her adımda kamera görüntüsünün metinsel bir açıklamasını ekleyebileceğimizi doğruladık ve model, robotu belirli bir nesneye ulaşana kadar nasıl kontrol edeceğini çözebildi.

https://youtu.be/p0fDH9zZm_c

Robotları laboratuvarlardan çıkarıp dünyaya getirmek

Robotları daha geniş bir kitleye ulaştırmak amacıyla bu teknolojileri piyasaya sürmekten heyecan duyuyoruz. Dile dayalı robotik kontrolünün, robotları bilim laboratuvarlarından çıkarıp günlük kullanıcıların eline geçirmek için temel olacağına inanıyoruz.

Bununla birlikte, ChatGPT çıktılarının dikkatli bir analiz yapılmadan doğrudan robotlara dağıtılmasının amaçlanmadığını vurguluyoruz. Kullanıcıları, bu algoritmaları olası gerçek yaşam dağıtımlarından önce değerlendirmek için simülasyonların gücünden yararlanmaya ve her zaman gerekli güvenlik önlemlerini almaya teşvik ediyoruz. Çalışmamız, robotik alanda çalışan büyük dil modellerinin kesişiminde mümkün olanın yalnızca küçük bir kısmını temsil ediyor ve gelecek işlerin çoğuna ilham vermeyi umuyoruz.

Kaynak : Microsoft Autonomous Systems and Robotic Groups