Microsoft - Microsoft telah memperkenalkan VASA-1, sistem AI inovatif untuk pembuatan video yang menciptakan avatar hiper-realistis hanya dari satu foto.

Stanford HAI - Menurut laporan Indeks AI terbaru dari Institut Kecerdasan Buatan yang Berpusat pada Manusia di Universitas Stanford, AI telah melampaui manusia dalam berbagai tolok ukur kinerja.

Google - Google telah mengembangkan model AI baru yang disebut SEEDS (Scalable Ensemble Envelope Diffusion Sampler), yang secara signifikan meningkatkan akurasi dan efektivitas biaya prakiraan cuaca jarak menengah.

Sistem pembuatan video AI VASA-1 dari Microsoft dapat membuat avatar seperti nyata yang berbicara banyak dari satu foto

Video yang dihasilkan AI sudah menjadi kenyataan, dan sekarang pemain lain telah bergabung: Microsoft . Tampaknya, raksasa teknologi tersebut telah mengembangkan sistem AI generatif yang dapat menghasilkan avatar berbicara yang realistis dari satu gambar dan klip audio. Alat tersebut diberi nama VASA-1, dan alat ini lebih dari sekadar meniru gerakan mulut; itu dapat menangkap emosi yang nyata dan juga menghasilkan gerakan yang tampak alami.

Sistem ini menawarkan penggunanya kemampuan untuk memodifikasi gerakan mata subjek, jarak persepsi subjek, dan emosi yang diungkapkan. VASA-1 adalah model pertama yang dikabarkan sebagai serangkaian alat AI , dan MSPowerUser melaporkan bahwa model tersebut dapat menampilkan ekspresi wajah tertentu, menyinkronkan gerakan bibir hingga tingkat tinggi, dan menghasilkan gerakan kepala mirip manusia.

Ini dapat menawarkan beragam emosi untuk dipilih dan menghasilkan kehalusan wajah, yang sepertinya bisa memberikan hasil yang sangat meyakinkan.

Cara kerja VASA-1 dan kemampuannya

Tampaknya memperhatikan cara kerja animator dan pemodel 3D manusia , VASA-1 memanfaatkan proses yang disebut 'penguraian', yang memungkinkan sistem mengontrol dan mengedit ekspresi wajah, posisi kepala 3D, dan fitur wajah secara independen satu sama lain. dan inilah yang memperkuat realisme VASA-1.

Seperti yang mungkin sudah Anda bayangkan, hal ini mempunyai potensi yang sangat besar, menawarkan kemungkinan untuk mengubah secara total pengalaman kita dalam menggunakan aplikasi dan antarmuka digital. Menurut MSPowerUser, VASA-1 dapat menghasilkan video yang berbeda dengan video yang pernah dilatihnya. Rupanya, sistem ini tidak dilatih mengenai foto artistik, suara nyanyian, atau pidato non-Inggris, namun jika Anda meminta video yang menampilkan salah satu dari hal-hal tersebut, sistem tersebut akan memenuhinya.

Peneliti Microsoft di balik VASA-1 memuji efisiensi real-time-nya, dengan menyatakan bahwa sistem dapat membuat video beresolusi cukup tinggi (512×512 piksel) dengan frame rate tinggi. Kecepatan bingkai, atau bingkai per detik (fps), adalah frekuensi di mana serangkaian gambar (disebut bingkai) dapat diambil atau ditampilkan secara berurutan dalam suatu media. Para peneliti mengklaim bahwa VASA-1 dapat menghasilkan video dengan 45fps dalam mode offline, dan 40fps dengan generasi online.

Anda dapat memeriksa status VASA-1 dan mempelajarinya lebih lanjut di halaman web khusus Microsoft untuk proyek tersebut . Terdapat beberapa demonstrasi dan menyertakan tautan untuk mengunduh informasi mengenai hal tersebut, diakhiri dengan bagian berjudul 'Risiko dan pertimbangan AI yang bertanggung jawab.'

Berfungsi seperti sihir - tapi apakah itu mantra keajaiban atau resep bencana?

Di bagian refleksi terakhir ini, Microsoft mengakui bahwa alat seperti ini memiliki banyak ruang untuk disalahgunakan, namun para peneliti mencoba untuk menekankan potensi positif dari VASA-1. Mereka tidak salah; Teknologi seperti ini dapat berarti pengalaman pendidikan tingkat lanjut yang tersedia bagi lebih banyak siswa dibandingkan sebelumnya, bantuan yang lebih baik bagi orang-orang yang mengalami kesulitan berkomunikasi, kemampuan untuk memberikan pendampingan, dan peningkatan dukungan terapi digital.

Meski begitu, sangatlah bodoh jika mengabaikan potensi kerugian dan kesalahan dalam hal seperti ini. Microsoft menyatakan bahwa saat ini mereka tidak memiliki rencana untuk membuat VASA-1 tersedia dalam bentuk apa pun kepada publik sampai mereka yakin bahwa “teknologi tersebut akan digunakan secara bertanggung jawab dan sesuai dengan peraturan yang tepat.” Jika Microsoft tetap berpegang pada etos ini, saya rasa penantiannya akan lama.

Secara keseluruhan, menurut saya semakin sulit untuk menyangkal bahwa alat video AI generatif akan menjadi lebih umum dan hitungan mundur ketika alat tersebut memenuhi kehidupan kita telah dimulai. Google telah mengerjakan sistem AI analog dengan moniker VLOGGER , dan baru-baru ini menerbitkan makalah yang merinci bagaimana VLOGGER dapat membuat video realistis tentang orang-orang yang bergerak, berbicara, dan memberi isyarat dengan masukan satu foto.

OpenAI juga menjadi berita utama baru-baru ini dengan memperkenalkan alat pembuat video AI miliknya, Sora , yang dapat menghasilkan video dari deskripsi teks. OpenAI menjelaskan cara kerja Sora di halaman khusus, dan memberikan demonstrasi yang mengesankan banyak orang - dan bahkan lebih mengkhawatirkan.

Saya khawatir dengan apa yang dapat kita lakukan melalui inovasi ini, dan saya senang bahwa, sejauh yang kami tahu, ketiga alat baru ini masih dirahasiakan. Saya pikir secara realistis, penghalang terbaik yang kita miliki terhadap penyalahgunaan teknologi seperti ini adalah peraturan yang ketat, namun saya ragu bahwa semua pemerintah akan mengambil langkah-langkah ini pada waktunya.