Kecepatan pengembangan AI sedang menuju titik di luar pemahaman manusia. Sistem text-to-video Sora OpenAI hanyalah teknologi AI terbaru yang mengejutkan dunia dengan segala sesuatunya terjadi lebih cepat dari perkiraan siapa pun.
Apa itu OpenAI Sora?
Seperti alat AI generatif lainnya seperti DALL-E dan MidJourney, Sora mengambil perintah teks dan mengubahnya menjadi media visual. Namun,tidak seperti generator gambar AI yang disebutkan di atas, Sora membuat klip video lengkap dengan gerakan, sudut kamera berbeda, arah, dan segala hal lain seperti video produksi tradisional.
Melihat contoh di situs Sora, hasilnya sering kali tidak dapat dibedakan dari video asli yang diproduksi secara profesional. Mulai dari rekaman drone kelas atas hingga produksi film bernilai jutaan dolar. Lengkap dengan aktor yang dihasilkan AI dengan efek khusus.
Sora tentu saja bukan teknologi pertama yang melakukan hal ini. Hingga saat ini, pemimpin yang paling menonjol di bidang ini adalah RunwayML yang menawarkan layanannya kepada publik dengan biaya tertentu. Namun video Runway lebih mirip dengan gambar diam MidJourney generasi awal. Tidak ada stabilitas pada gambar, fisika tidak masuk akal, dan saat saya menulis ini, durasi klip terpanjang adalah 16 detik.
Sebaliknya, keluaran Sora sangat stabil dengan fisika yang terlihat tepat dan klipnya bisa berdurasi hingga satu menit. Klipnya sama sekali tidak bersuara, tetapi sudah ada sistem AI lain yang dapat menghasilkan musik, efek suara, dan ucapan. Jadi saya yakin alat-alat itu dapat diintegrasikan ke dalam alur kerja Sora atau sulih suara dan foley tradisional.
Tidak dapat dilebih-lebihkan betapa besarnya lompatan Sora dari rekaman video AI setahun sebelum demo Sora. Saya pikir ini merupakan kejutan besar bagi sistem dibandingkan ketika pembuat gambar AI dari sekadar lelucon menjadi memberikan ketakutan eksistensial bagi seniman visual.
Sora kemungkinan akan berdampak pada seluruh industri video, mulai dari pembuat rekaman yang dilakukan oleh satu orang hingga ke tingkat proyek anggaran besar Disney dan Marvel. Saya rasa hal ini benar karena Sora tidak harus membuat sesuatu secara utuh, namun dapat mengerjakan materi yang sudah ada seperti menganimasikan gambar diam. Ini mungkin merupakan awal sebenarnya dari industri film sintetik.
Bagaimana Cara Kerja Sora?
Kami akan membahas sedikit tentang Sora sejauh yang kami bisa, tetapi tidak mungkin untuk membahasnya secara mendetail. Pertama karena OpenAI tidak terbuka tentang cara kerja teknologi mereka.
Itu semua adalah hak milik dan saus rahasia yang membedakan Sora dari pesaingnya yang tidak kita ketahui secara rinci. Kedua, saya bukan ilmuwan komputer, jadi kita hanya bisa memahami cara kerja teknologi ini secara umum.
Kabar baiknya adalah ada penjelasan Sora yang sangat bagus oleh Mike Young di Medium, berdasarkan laporan teknis dari OpenAI yang dia uraikan untuk kita pahami sebagai manusia biasa. Meskipun kedua dokumen tersebut layak dibaca, kami akan mengekstrak fakta terpentingnya di sini.
Sora dibangun berdasarkan pembelajaran yang telah dipelajari perusahaan seperti OpenAI saat menciptakan teknologi seperti ChatGPT atau DALL-E. Sora berinovasi dalam cara melatihnya pada video sampel dengan memecah video tersebut menjadi tambalan yang analog dengan token yang digunakan oleh model pelatihan ChatGPT. Karena semua token ini berukuran sama, hal-hal seperti panjang klip, rasio aspek, dan ukuran resolusi tidak menjadi masalah bagi Sora.
Sora menggunakan pendekatan transformator luas yang sama yang mendukung GPT serta metode difusi yang digunakan generator gambar AI. Selama pelatihan, ia melihat token patch yang tersebar sebagian dan dari sebuah video mencoba memprediksi seperti apa tampilan token yang bersih dan bebas noise.
Dengan membandingkan hal tersebut dengan kebenaran dasar, model mempelajari bahasa video. Itulah sebabnya contoh dari situs Sora terlihat sangat otentik.
Terlepas dari kemampuannya yang luar biasa ini, Sora juga memiliki keterangan yang sangat detail yang disertakan untuk bingkai video yang dilatihnya. Ini merupakan alas an kenapa ia dapat memodifikasi video yang dihasilkannya berdasarkan perintah teks.
Kemampuan Sora secara akurat mensimulasikan fisika dalam video tampaknya merupakan fitur yang muncul yang dihasilkan hanya dari pelatihan jutaan video yang berisi gerakan berdasarkan fisika dunia nyata. Sora memiliki ketetapan objek yang sangat baik, bahkan ketika objek meninggalkan bingkai atau terhalang oleh sesuatu yang lain di dalam bingkai, objek tersebut tetap ada dan kembali tanpa gangguan.
Namun terkadang masih terdapat masalah saat hal-hal dalam video berinteraksi, dengan kausalitas, dan dengan pembuatan objek secara spontan. Dan juga, Sora nampaknya bingung antara kiri dan kanan dari waktu ke waktu. Meskipun demikian, apa yang telah ditunjukkan sejauh ini bukan hanya sudah dapat digunakan, namun juga benar-benar canggih.