Lompat ke konten Lompat ke sidebar Lompat ke footer

Google meluncurkan VLOGGER AI multimodal

Di bidang AI, Google kembali melakukan lompatan signifikan dengan memperkenalkan inovasi terbarunya – VLOGGER AI. Sebagai bagian dari model Gemini baru Google, teknologi baru ini dirancang untuk mengubah cara kita berinteraksi dengan avatar dan konten multimedia. Google baru-baru ini menerbitkan postingan blog di halaman GitHub yang memperkenalkan model AI VLOGGER. Pengguna hanya perlu mengirimkan konten potret dan audio. Model dapat “menggerakkan” karakter tersebut dan memiliki ekspresi wajah. Gambar dapat membacakan konten audio dengan keras.

VLOGGER AI

Asal Mula VLOGGER AI

VLOGGER AI Google adalah pionir yang memungkinkan pengguna mengubah rekaman statis menjadi avatar yang hidup dan terkontrol. Model inovatif ini dibangun pada arsitektur terdistribusi yang dikenal dengan kemampuannya dalam pemodelan teks-ke-gambar, video, dan 3D. Dengan menggabungkan metode kontrol tambahan, VLOGGER membawa konsep pembuatan avatar ke tingkat yang lebih tinggi.

Memahami fungsi VLOGGER

Pada intinya, VLOGGER bekerja dengan memproses file audio dan gambar diam melalui serangkaian langkah kompleks. Ia menggunakan proses pembuatan gerakan 3D yang diikuti dengan model “difusi temporal” untuk menentukan waktu dan gerakan. Model tersebut kemudian menyempurnakan hasilnya dan meningkatkannya untuk menciptakan model akhir yang realistis. Dengan memprediksi gerakan berdasarkan ekspresi wajah, gerak tubuh, dan lainnya, VLOGGER menghidupkan avatar dengan akurasi luar biasa.

VLOGGER AI adalah model distribusi multimodal yang cocok untuk potret virtual. Ia dilatih menggunakan database MENTOR, yang berisi lebih dari 800.000 potret dan lebih dari 2.200 jam video. Hal ini memungkinkan VLOGGER menghasilkan gambar dari berbagai ras dan usia. Itu juga dapat menghasilkan video potret dalam berbagai pakaian dan pose. Kata perusahaan itu.

Berita Gizchina minggu ini

“Dibandingkan model multimodal sebelumnya, keunggulan VLOGGER adalah tidak perlu dilatih pada setiap orang, tidak bergantung pada deteksi wajah dan cropping, serta dapat menangkap gambar utuh (tidak hanya wajah atau bibir). Identitas subjek) dengan pertimbangan.

PENGUNGKAPAN BATASAN VLOGGER

Meskipun VLOGGER mewakili kemajuan luar biasa dalam teknologi AI, penting untuk menyadari keterbatasannya. Berdasarkan tinjauan penelitian, VLOGGER mungkin tidak selalu meniru gerakan alami seseorang secara akurat. Modelnya, meskipun canggih, mungkin menghadapi tantangan dalam menangani pergerakan besar, lingkungan yang beragam, dan video berdurasi panjang. Keterbatasan ini menyoroti perlunya perubahan dan peningkatan berkelanjutan di bidang AI.

VLOGGER AI

Menjelajahi masalah penggunaan VLOGGER

Peneliti Google membayangkan banyak sekali aplikasi untuk VLOGGER AI. Salah satu kasus penggunaan utama yang diidentifikasi adalah kemampuan untuk beralih antar platform komunikasi seperti Teams atau Slack. Dengan memungkinkan pengguna membuat avatar animasi dari gambar diam, VLOGGER membuka jalan baru untuk interaksi yang dipersonalisasi dan menarik di ruang virtual.

Google melihat VLOGGER sebagai langkah menuju “chatbot universal”, sebuah AI yang secara alami dapat berkomunikasi dengan manusia melalui suara, gerak tubuh, dan kontak mata.

Skenario penerapan VLOGGER juga mencakup pelaporan, bidang akademik, dan narasi. Itu juga dapat mengedit video yang ada. Jika Anda kurang puas dengan deskripsi dalam video, Anda dapat melakukan penyesuaian.

Ringkasan: Membuka jalan bagi inovasi berbasis AI

Kesimpulannya, peluncuran AI VLOGGER multi-modal Google dalam model Gemini mewakili kemajuan besar dalam teknologi AI. Inovasi ini mengantarkan era baru pengalaman berbasis AI, mulai dari menciptakan avatar yang nyata hingga meningkatkan pemahaman bahasa dan persepsi visual. Seiring Google terus mendorong batas-batas kemampuan AI, masa depan memberikan harapan besar bagi aplikasi transformatif di berbagai domain.

Penafian: Kami mungkin mendapat kompensasi dari beberapa perusahaan yang produknya kami bicarakan, tetapi artikel dan opini kami selalu merupakan opini jujur ​​kami. Untuk lebih jelasnya, Anda dapat memeriksa pedoman editorial kami dan mempelajari cara kami menggunakan tautan afiliasi.

Link Sumber: https://www.gizchina.com

Posting Komentar untuk "Google meluncurkan VLOGGER AI multimodal"