
San Francisco, 25 Mac 2025 – OpenAI hari ini melancarkan ciri terbaharu dalam teknologi AI generatif menerusi Images in ChatGPT, iaitu fungsi baharu yang membolehkan pengguna menjana imej berkualiti tinggi secara langsung dalam platform ChatGPT. Bermula hari ini, semua pengguna ChatGPT — termasuk pengguna percuma, Plus, Pro dan Team — boleh mengakses keupayaan penjanaan imej ini yang dipacu oleh GPT-4o, model multimodal paling canggih dari OpenAI setakat ini.
Pelancaran ini menandakan satu lonjakan besar dalam bidang kecerdasan buatan kreatif, menawarkan pengalaman penjanaan imej yang lebih pintar, intuitif dan tepat. Pasukan penyelidik OpenAI menyifatkan model ini sebagai satu “perubahan ketara” berbanding alat terdahulu seperti DALL·E.
Kemajuan Besar dalam Kreativiti dan Ketepatan AI
Berbeza dengan model sebelumnya, GPT-4o dibangunkan berdasarkan asas “omnimodal” — yang berupaya memproses dan menjana teks, imej, audio serta video. Menurut ketua penyelidik OpenAI, Gabriel Goh, model ini meningkatkan ketepatan dalam penjanaan imej secara signifikan, terutamanya dalam mengekalkan hubungan visual yang betul antara pelbagai unsur — cabaran utama dalam model terdahulu.
Sebagai contoh, jika sebelum ini sistem mudah keliru dalam membezakan warna atau bentuk apabila diminta menjana lebih daripada satu objek, kini model baharu ini mampu mengikat atribut sehingga 15 hingga 20 objek dengan ketepatan tinggi. Keupayaan ini memastikan hasil imej benar-benar mencerminkan kehendak pengguna.
Kemajuan besar juga dapat dilihat dalam aspek rendering teks — yang sebelum ini menjadi kelemahan utama alat seni AI. Kini sistem ini mampu menghasilkan teks yang boleh dibaca dengan jelas, tanpa kesalahan ejaan atau cacat huruf, sekali gus menjadikan poster, komik dan infografik lebih praktikal dan boleh digunakan. Walaupun teks bersaiz kecil masih mencabar, OpenAI menyatakan peningkatan ini dicapai hasil berbulan-bulan proses penambahbaikan secara berterusan.
Penjanaan Autoregresif Berasaskan Pengetahuan Dunia
Sistem ini menggunakan pendekatan autoregressive, iaitu menjana imej secara berurutan — dari kiri ke kanan, atas ke bawah — seakan-akan cara manusia menulis. Kaedah ini berbeza daripada teknik diffusion yang digunakan oleh kebanyakan penjana imej lain seperti DALL·E yang menjana keseluruhan imej sekaligus. OpenAI percaya pendekatan ini menyumbang kepada ketepatan susun atur dan kedudukan teks yang lebih baik.
Dalam sesi taklimat sebelum pelancaran, OpenAI mempersembahkan demonstrasi yang menunjukkan kebolehan sistem ini menjana gambarajah saintifik seperti eksperimen prisma Newton lengkap dengan label yang betul, komik berbingkai pelbagai panel dengan watak dan dialog yang konsisten, serta bahan promosi seperti logo, menu restoran dan pelekat latar lutsinar yang boleh terus digunakan.
“Model ini bukan sekadar melukis — ia membawa bersama pengetahuan dunia,” jelas Jackie Shannon, ketua produk multimodal ChatGPT. “Kita tidak perlu menjelaskan secara terperinci seperti maksud eksperimen prisma Newton — model ini sudah faham konteksnya.”
Akses Meluas dengan Tanggungjawab Keselamatan
Ciri ini kini boleh diakses oleh semua pengguna ChatGPT, namun had penggunaan bagi pengguna percuma adalah sama seperti had terdahulu DALL·E 3 (sekitar tiga imej sehari), dan mungkin berubah mengikut permintaan semasa. Pengguna Pro menikmati akses lebih luas dengan had yang lebih tinggi.
Walaupun imej yang dijana tidak mempunyai tera air yang kelihatan, semua hasil imej daripada ChatGPT akan mengandungi metadata C2PA — tanda digital yang menandakan imej tersebut dijana oleh OpenAI. Di peringkat dalaman, OpenAI juga mempunyai alat untuk mengesan dan mengesahkan asal-usul imej tersebut.
Menjawab kebimbangan berhubung penyalahgunaan, Shannon menegaskan komitmen OpenAI terhadap keselamatan. “Sistem ini mempunyai kawalan keselamatan yang kukuh,” katanya, sambil menyatakan bahawa sistem ini menyekat cubaan menjana kandungan eksplisit, menghilangkan tera air, atau mencipta imej eksploitasi seperti deepfake.
Walaupun mengakui tiada sistem yang sempurna, beliau menambah, “Ini adalah permulaan — kami terus menambah baik langkah keselamatan sambil memberikan kuasa penuh kepada pengguna untuk memiliki dan menggunakan imej yang dijana, selagi ia mematuhi garis panduan penggunaan kami.”
Mendefinisikan Semula Proses Kreativiti
Dengan Images in ChatGPT, OpenAI bukan sekadar memperkenalkan fungsi baharu — ia sedang membentuk semula cara manusia berinteraksi dengan kreativiti, imaginasi dan ilmu pengetahuan dalam satu antara muka yang lancar. Sama ada untuk menghasilkan bahan pendidikan, reka bentuk profesional, atau sekadar meneroka idea visual, kini segalanya boleh dilakukan hanya dengan menaip permintaan.
Ketika sempadan antara teks dan visual kian kabur, masa depan kreativiti berasaskan AI sedang dibentuk — satu imej pada satu masa.
#Prezcom