Video yang dihasilkan AI sudah menjadi kenyataan, dan sekarang pemain lain telah bergabung: Microsoft . Tampaknya, raksasa teknologi tersebut telah mengembangkan sistem AI generatif
yang dapat menghasilkan avatar berbicara yang realistis dari satu
gambar dan klip audio. Alat tersebut diberi nama VASA-1, dan alat ini
lebih dari sekadar meniru gerakan mulut; itu dapat menangkap emosi
yang nyata dan juga menghasilkan gerakan yang tampak alami.
Sistem
ini menawarkan penggunanya kemampuan untuk memodifikasi gerakan mata
subjek, jarak persepsi subjek, dan emosi yang diungkapkan. VASA-1
adalah model pertama yang dikabarkan sebagai serangkaian alat AI , dan MSPowerUser melaporkan
bahwa model tersebut dapat menampilkan ekspresi wajah tertentu,
menyinkronkan gerakan bibir hingga tingkat tinggi, dan menghasilkan
gerakan kepala mirip manusia.
Ini
dapat menawarkan beragam emosi untuk dipilih dan menghasilkan kehalusan
wajah, yang sepertinya bisa memberikan hasil yang sangat meyakinkan.
Cara kerja VASA-1 dan kemampuannya
Tampaknya memperhatikan cara kerja animator dan pemodel 3D
manusia , VASA-1 memanfaatkan proses yang disebut 'penguraian', yang
memungkinkan sistem mengontrol dan mengedit ekspresi wajah, posisi
kepala 3D, dan fitur wajah secara independen satu sama lain. dan inilah
yang memperkuat realisme VASA-1.
Seperti
yang mungkin sudah Anda bayangkan, hal ini mempunyai potensi yang
sangat besar, menawarkan kemungkinan untuk mengubah secara total
pengalaman kita dalam menggunakan aplikasi dan antarmuka digital.
Menurut MSPowerUser, VASA-1 dapat menghasilkan video yang berbeda dengan
video yang pernah dilatihnya. Rupanya, sistem ini tidak dilatih
mengenai foto artistik, suara nyanyian, atau pidato non-Inggris, namun
jika Anda meminta video yang menampilkan salah satu dari hal-hal
tersebut, sistem tersebut akan memenuhinya.
Peneliti Microsoft
di balik VASA-1 memuji efisiensi real-time-nya, dengan menyatakan bahwa
sistem dapat membuat video beresolusi cukup tinggi (512×512 piksel)
dengan frame rate tinggi. Kecepatan bingkai, atau bingkai per detik
(fps), adalah frekuensi di mana serangkaian gambar (disebut bingkai)
dapat diambil atau ditampilkan secara berurutan dalam suatu media.
Para peneliti mengklaim bahwa VASA-1 dapat menghasilkan video dengan
45fps dalam mode offline, dan 40fps dengan generasi online.
Anda dapat memeriksa status VASA-1 dan mempelajarinya lebih lanjut di halaman web khusus Microsoft untuk proyek tersebut
. Terdapat beberapa demonstrasi dan menyertakan tautan untuk
mengunduh informasi mengenai hal tersebut, diakhiri dengan bagian
berjudul 'Risiko dan pertimbangan AI yang bertanggung jawab.'
Berfungsi seperti sihir - tapi apakah itu mantra keajaiban atau resep bencana?
Di
bagian refleksi terakhir ini, Microsoft mengakui bahwa alat seperti ini
memiliki banyak ruang untuk disalahgunakan, namun para peneliti mencoba
untuk menekankan potensi positif dari VASA-1. Mereka tidak salah;
Teknologi seperti ini dapat berarti pengalaman pendidikan tingkat lanjut
yang tersedia bagi lebih banyak siswa dibandingkan sebelumnya, bantuan
yang lebih baik bagi orang-orang yang mengalami kesulitan berkomunikasi,
kemampuan untuk memberikan pendampingan, dan peningkatan dukungan
terapi digital.
Meski
begitu, sangatlah bodoh jika mengabaikan potensi kerugian dan kesalahan
dalam hal seperti ini. Microsoft menyatakan bahwa saat ini mereka
tidak memiliki rencana untuk membuat VASA-1 tersedia dalam bentuk apa
pun kepada publik sampai mereka yakin bahwa “teknologi tersebut akan
digunakan secara bertanggung jawab dan sesuai dengan peraturan yang
tepat.” Jika Microsoft tetap berpegang pada etos ini, saya rasa
penantiannya akan lama.
Secara
keseluruhan, menurut saya semakin sulit untuk menyangkal bahwa alat
video AI generatif akan menjadi lebih umum dan hitungan mundur ketika
alat tersebut memenuhi kehidupan kita telah dimulai. Google telah mengerjakan sistem AI analog dengan moniker VLOGGER
, dan baru-baru ini menerbitkan makalah yang merinci bagaimana VLOGGER
dapat membuat video realistis tentang orang-orang yang bergerak,
berbicara, dan memberi isyarat dengan masukan satu foto.
OpenAI juga menjadi berita utama baru-baru ini dengan memperkenalkan alat pembuat video AI miliknya, Sora , yang dapat menghasilkan video dari deskripsi teks. OpenAI menjelaskan cara kerja Sora di halaman khusus, dan memberikan demonstrasi yang mengesankan banyak orang - dan bahkan lebih mengkhawatirkan.
Saya
khawatir dengan apa yang dapat kita lakukan melalui inovasi ini, dan
saya senang bahwa, sejauh yang kami tahu, ketiga alat baru ini masih
dirahasiakan. Saya pikir secara realistis, penghalang terbaik yang kita
miliki terhadap penyalahgunaan teknologi seperti ini adalah peraturan
yang ketat, namun saya ragu bahwa semua pemerintah akan mengambil
langkah-langkah ini pada waktunya.