Obrolan Visual Multimodal Sumber Terbuka Microsoft ChatGPT

Riset Microsoft Sumber terbuka baru-baru ini Obrolan video, sistem chatbot yang dapat menghasilkan dan memanipulasi gambar sebagai tanggapan atas perintah teks manusia. Sistem ini menggabungkan ChatGPT OpenAI dengan 22 Visual Foundation Models (VFM) yang berbeda untuk mendukung interaksi multimedia.

itu Sistem dijelaskan Dalam makalah penelitian yang diterbitkan di arXiv. Pengguna dapat berinteraksi dengan bot dengan mengetik teks atau mengunggah gambar. Bot juga dapat membuat gambar, baik dari awal berdasarkan perintah teks, atau dengan memanipulasi gambar sebelumnya di riwayat obrolan. Modul utama dalam bot adalah Prompt Manager, yang mengubah teks mentah dari pengguna menjadi prompt “rangkaian pemikiran” yang membantu ChatGPT menentukan apakah alat VFM diperlukan untuk melakukan tugas gambar. Menurut tim Microsoft, Visual ChatGPT adalah:

Sistem terbuka yang menyertakan VFM berbeda dan memungkinkan pengguna berinteraksi dengan ChatGPT di luar format bahasa. Untuk membangun sistem seperti itu, kami dengan cermat merancang serangkaian petunjuk untuk membantu menyuntikkan informasi visual ke dalam ChatGPT, sehingga pertanyaan visual yang kompleks dapat diselesaikan langkah demi langkah.

ChatGPT dan model bahasa besar (LLM) lainnya telah menunjukkan kemampuan pemrosesan bahasa alami yang luar biasa; Namun, mereka dilatih untuk menangani hanya satu mode masukan: teks. Alih-alih melatih model baru untuk menangani input multimedia, tim Microsoft Prompt Manager merancang untuk menghasilkan input teks ke ChatGPT yang menghasilkan output yang dapat memanggil VFM seperti CLIP atau Stable Diffusion untuk melakukan tugas visi komputer.

Arsitektur obrolan video GPT. Sumber gambar: https://github.com/microsoft/visual-chatgpt

Manajer prompt berbasis prompt langchain Agen, VFM didefinisikan sebagai Agen LangChain peralatan. Untuk menentukan apakah alat tersebut diperlukan, agen menggabungkan masukan dari permintaan pengguna dan dari riwayat percakapan, yang menyertakan nama file gambar, lalu menerapkan awalan dan akhiran langsung. Awalan termasuk teks:

Visual ChatGPT tidak dapat membaca gambar secara langsung, tetapi memiliki daftar alat untuk menyelesaikan berbagai tugas visual. Setiap gambar akan memiliki nama file yang dikonfigurasi sebagai “image/xxx.png”, dan Visual ChatGPT dapat memanggil berbagai alat untuk memahami gambar secara tidak langsung.

Teks tambahan di awalan menginstruksikan ChatGPT untuk bertanya pada dirinya sendiri “Apakah saya perlu menggunakan alat?” Untuk menangani tugas yang diinginkan pengguna, dan jika demikian, nama alat harus ditampilkan bersama dengan input yang diperlukan, seperti nama file gambar atau deskripsi teks dari gambar yang akan dibuat. Agen akan secara rekursif memanggil alat VFM, dan mengirimkan gambar yang dihasilkan ke obrolan, hingga tidak perlu menggunakan alat. Pada titik ini, keluaran teks terakhir yang dibuat akan dikirim ke obrolan.

READ Apple Menambahkan UPI, RuPay, dan Net Banking untuk Pembayaran App Store di India: Laporkan

Dalam berita peretas topik tentang pekerjaan, seorang pengguna memperhatikan bahwa VFM menggunakan lebih sedikit memori daripada model bahasa, dan bertanya mengapa. Pengguna lain menjawab:

Model gambar bisa sangat mati dan tetap memberikan hasil yang memuaskan. Perlu diingat bahwa saya benar-benar dapat secara acak menggeser semua piksel dalam gambar sebesar 10% dan Anda hanya akan melihatnya dengan kualitas yang sedikit lebih rendah tetapi gambar yang koheren sempurna. Model bahasa tidak seberuntung itu, masalah yang mereka coba selesaikan adalah cara yang “lebih halus”, dan sangat mudah bagi hasil mereka untuk benar-benar salah jika hanya sedikit melenceng. Jadi, Anda memerlukan model yang jauh lebih besar untuk mendapatkan tingkat “ketajaman” teks yang memadai. “

itu Kode sumber untuk Visual ChatGPT Tersedia di github.

About The Author

Reyhan Rizk

“Pembuat masalah. Perintis web yang rajin. Pemikir. Spesialis musik. Pecandu zombie umum.”

See author's posts

Reyhan Rizk

“Pembuat masalah. Perintis web yang rajin. Pemikir. Spesialis musik. Pecandu zombie umum.”

Obrolan Visual Multimodal Sumber Terbuka Microsoft ChatGPT

About The Author

Reyhan Rizk

Tinggalkan Balasan Batalkan balasan

AMD Umumkan Prosesor Ryzen PRO Terbaru Untuk Ramaikan Pasar AI PC! • Manadopedia

Samsung Akan Membawa Ponsel Terbaru One UI 6.1 ke Galaxy S22 dan S21 pada Mei 2024 – ANTARA Riau

Samsung Siap Merilis Smartwatch Terbaru, Samsung Galaxy Watch FE, Lihat Fitur dan Spesifikasi Lengkapnya – Manadopedia

Samsung Siap Rilis Galaxy S24 FE Pertengahan 2024, Didampingi Galaxy Z Fold 6?

Cara Menggunakan 2 Akun WhatsApp di Satu Perangkat – Manadopedia

Samsung Menjadi Andalan dengan Galaxy S24 Ultra untuk Mendorong Transaksi saat Momen Ramadan Lebaran – Teknologi – Berita Terbaru Harga dan Spesifikasi Handphone, Info Fitur Smartphone, Komputer dan Laptop

About The Author

Reyhan Rizk

Tinggalkan Balasan Batalkan balasan

You may also like

AMD Umumkan Prosesor Ryzen PRO Terbaru Untuk Ramaikan Pasar AI PC! • Manadopedia

Samsung Akan Membawa Ponsel Terbaru One UI 6.1 ke Galaxy S22 dan S21 pada Mei 2024 – ANTARA Riau

Samsung Siap Merilis Smartwatch Terbaru, Samsung Galaxy Watch FE, Lihat Fitur dan Spesifikasi Lengkapnya – Manadopedia

Samsung Siap Rilis Galaxy S24 FE Pertengahan 2024, Didampingi Galaxy Z Fold 6?

Cara Menggunakan 2 Akun WhatsApp di Satu Perangkat – Manadopedia

Samsung Menjadi Andalan dengan Galaxy S24 Ultra untuk Mendorong Transaksi saat Momen Ramadan Lebaran – Teknologi – Berita Terbaru Harga dan Spesifikasi Handphone, Info Fitur Smartphone, Komputer dan Laptop