Obrolan Visual Multimodal Sumber Terbuka Microsoft ChatGPT

Obrolan Visual Multimodal Sumber Terbuka Microsoft ChatGPT

Riset Microsoft Sumber terbuka baru-baru ini Obrolan video, sistem chatbot yang dapat menghasilkan dan memanipulasi gambar sebagai tanggapan atas perintah teks manusia. Sistem ini menggabungkan ChatGPT OpenAI dengan 22 Visual Foundation Models (VFM) yang berbeda untuk mendukung interaksi multimedia.

itu Sistem dijelaskan Dalam makalah penelitian yang diterbitkan di arXiv. Pengguna dapat berinteraksi dengan bot dengan mengetik teks atau mengunggah gambar. Bot juga dapat membuat gambar, baik dari awal berdasarkan perintah teks, atau dengan memanipulasi gambar sebelumnya di riwayat obrolan. Modul utama dalam bot adalah Prompt Manager, yang mengubah teks mentah dari pengguna menjadi prompt “rangkaian pemikiran” yang membantu ChatGPT menentukan apakah alat VFM diperlukan untuk melakukan tugas gambar. Menurut tim Microsoft, Visual ChatGPT adalah:

Sistem terbuka yang menyertakan VFM berbeda dan memungkinkan pengguna berinteraksi dengan ChatGPT di luar format bahasa. Untuk membangun sistem seperti itu, kami dengan cermat merancang serangkaian petunjuk untuk membantu menyuntikkan informasi visual ke dalam ChatGPT, sehingga pertanyaan visual yang kompleks dapat diselesaikan langkah demi langkah.

ChatGPT dan model bahasa besar (LLM) lainnya telah menunjukkan kemampuan pemrosesan bahasa alami yang luar biasa; Namun, mereka dilatih untuk menangani hanya satu mode masukan: teks. Alih-alih melatih model baru untuk menangani input multimedia, tim Microsoft Prompt Manager merancang untuk menghasilkan input teks ke ChatGPT yang menghasilkan output yang dapat memanggil VFM seperti CLIP atau Stable Diffusion untuk melakukan tugas visi komputer.

Arsitektur obrolan video GPT. Sumber gambar: https://github.com/microsoft/visual-chatgpt

Manajer prompt berbasis prompt langchain Agen, VFM didefinisikan sebagai Agen LangChain peralatan. Untuk menentukan apakah alat tersebut diperlukan, agen menggabungkan masukan dari permintaan pengguna dan dari riwayat percakapan, yang menyertakan nama file gambar, lalu menerapkan awalan dan akhiran langsung. Awalan termasuk teks:

Visual ChatGPT tidak dapat membaca gambar secara langsung, tetapi memiliki daftar alat untuk menyelesaikan berbagai tugas visual. Setiap gambar akan memiliki nama file yang dikonfigurasi sebagai “image/xxx.png”, dan Visual ChatGPT dapat memanggil berbagai alat untuk memahami gambar secara tidak langsung.

Teks tambahan di awalan menginstruksikan ChatGPT untuk bertanya pada dirinya sendiri “Apakah saya perlu menggunakan alat?” Untuk menangani tugas yang diinginkan pengguna, dan jika demikian, nama alat harus ditampilkan bersama dengan input yang diperlukan, seperti nama file gambar atau deskripsi teks dari gambar yang akan dibuat. Agen akan secara rekursif memanggil alat VFM, dan mengirimkan gambar yang dihasilkan ke obrolan, hingga tidak perlu menggunakan alat. Pada titik ini, keluaran teks terakhir yang dibuat akan dikirim ke obrolan.

Dalam berita peretas topik tentang pekerjaan, seorang pengguna memperhatikan bahwa VFM menggunakan lebih sedikit memori daripada model bahasa, dan bertanya mengapa. Pengguna lain menjawab:

Model gambar bisa sangat mati dan tetap memberikan hasil yang memuaskan. Perlu diingat bahwa saya benar-benar dapat secara acak menggeser semua piksel dalam gambar sebesar 10% dan Anda hanya akan melihatnya dengan kualitas yang sedikit lebih rendah tetapi gambar yang koheren sempurna. Model bahasa tidak seberuntung itu, masalah yang mereka coba selesaikan adalah cara yang “lebih halus”, dan sangat mudah bagi hasil mereka untuk benar-benar salah jika hanya sedikit melenceng. Jadi, Anda memerlukan model yang jauh lebih besar untuk mendapatkan tingkat “ketajaman” teks yang memadai. “

itu Kode sumber untuk Visual ChatGPT Tersedia di github.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *