Blog

Google Luncurkan Gemini 2.5 “Computer Use”: Model AI yang Mampu Menjelajah Web Layaknya Manusia

Google kembali mengguncang dunia teknologi kecerdasan buatan dengan pengumuman model terbaru mereka, Gemini 2.5 “Computer Use”, yang menandai langkah besar menuju AI yang benar-benar dapat menggunakan komputer dan menjelajahi web seperti manusia. Dengan kemampuan membuka browser, menavigasi halaman, mengisi formulir, hingga mengklik atau drag elemen UI secara mandiri, model ini menunjukkan bagaimana AI kini bukan sekadar “asisten digital,” tetapi “pengguna komputer” yang cerdas dan aktif.

Peluncuran Gemini 2.5 Computer Use ini menjadi bagian dari strategi besar Google DeepMind dalam mengintegrasikan AI otonom dengan ekosistem Google Workspace dan Chrome, sekaligus menyaingi kemampuan agentic AI seperti OpenAI’s GPT-5’s Agent dan Anthropic’s Claude 3.5 Sonnet, yang mulai memperlihatkan kemampuan eksekusi tindakan dunia nyata.

Evolusi Gemini: Dari Chatbot ke Agen Komputer Pintar

Gemini awalnya dikenal sebagai penerus Bard — chatbot berbasis bahasa alami yang berfokus pada interaksi percakapan. Namun, Google tampaknya memiliki visi yang jauh lebih besar. Dalam versi Gemini 2.5, kemampuan AI ini kini berkembang menjadi “computer use agent”, di mana sistem dapat secara aktif menjalankan perintah di dalam lingkungan komputer layaknya seorang pengguna.

Dengan teknologi reinforcement learning from human-computer interactions (RLHCI), Gemini kini bisa:

  • Membuka situs web, menelusuri tautan, dan membaca isi halaman secara visual.
  • Mengisi formulir otomatis (misalnya formulir registrasi atau survei online).
  • Melakukan tindakan antarmuka pengguna seperti click, scroll, drag, hingga memilih menu.
  • Melakukan perbandingan harga, pemesanan tiket, atau pencarian informasi dengan konteks visual UI.

Peningkatan ini membawa Gemini ke level yang benar-benar baru bukan hanya menjawab teks, tapi juga berinteraksi dengan dunia digital secara langsung.

Teknologi di Balik Gemini 2.5 Computer Use

Menurut rilis resmi Google DeepMind, Gemini 2.5 dikembangkan dengan pendekatan multimodal + action-based training, yang memungkinkan model memahami layout halaman web, struktur HTML, hingga komponen interaktif seperti tombol, formulir, dan menu dropdown.

“Model ini tidak sekadar membaca kode halaman,” jelas Demis Hassabis, CEO Google DeepMind, “tetapi memahami konteks visual dan fungsional dari elemen UI, lalu mengambil keputusan tindakan yang paling sesuai, sama seperti manusia.”

Hal ini dicapai melalui kombinasi beberapa teknologi kunci:

  • Visual Transformer untuk Web Context Recognition: memungkinkan AI mengenali elemen halaman secara visual dan semantik.
  • Action Policy Model: algoritma yang melatih AI untuk menentukan tindakan optimal berdasarkan konteks halaman dan tujuan pengguna.
  • Reinforcement Fine-Tuning: model terus disempurnakan melalui jutaan simulasi interaksi dengan situs web nyata, di bawah pengawasan manusia.

Selain itu, Google memastikan Gemini 2.5 beroperasi dalam sandbox environment yang aman artinya AI tidak memiliki akses bebas ke data sensitif atau perangkat pengguna tanpa izin eksplisit.

Potensi Besar di Dunia Nyata

Kemampuan baru ini membuka banyak peluang di berbagai sektor:

  1. Produktivitas Kantor dan Otomasi Web
    Gemini dapat membantu profesional bisnis dengan otomatisasi tugas berbasis web seperti mengisi laporan online, memperbarui dashboard, atau mengunggah data ke sistem manajemen proyek tanpa campur tangan manual.
  2. E-commerce dan Penelitian Pasar
    Dengan kemampuannya menavigasi situs e-commerce, Gemini bisa mencari produk tertentu, membandingkan harga, dan bahkan menyusun laporan tren pasar.
  3. Aksesibilitas untuk Penyandang Disabilitas
    Google menyoroti bahwa fitur ini dapat membantu pengguna tunanetra atau pengguna dengan keterbatasan mobilitas, karena AI dapat “mengklik” dan “menavigasi” situs atas nama pengguna melalui perintah suara.
  4. Dukungan Pengembangan Software
    Developer kini dapat melatih Gemini untuk menguji antarmuka aplikasi web secara otomatis, melakukan UI testing dengan tingkat keakuratan tinggi dan waktu lebih cepat.

Tantangan Etika dan Privasi

Meski terobosan ini memukau, tidak sedikit pakar keamanan dan etika AI yang menyuarakan kekhawatiran. AI yang mampu mengakses browser dan mengisi formulir berpotensi disalahgunakan misalnya untuk web scraping, phishing automation, atau eksploitasi data.

Untuk itu, Google menegaskan bahwa setiap aktivitas Computer Use akan melalui sistem izin eksplisit (user consent). AI hanya dapat melakukan tindakan di situs atau halaman yang disetujui pengguna, dan seluruh aktivitasnya akan direkam untuk audit keamanan.

Selain itu, Gemini 2.5 dirancang agar tidak dapat mengeksekusi tindakan finansial seperti pembayaran atau transfer dana tanpa otorisasi manual.

“Kami membangun Gemini 2.5 dengan prinsip ‘safe-first automation’ di mana AI dapat bertindak mandiri, tapi selalu dalam batas yang dapat dipantau manusia,” ujar Hassabis.

Persaingan Ketat dengan OpenAI dan Anthropic

Peluncuran ini terjadi hanya beberapa minggu setelah OpenAI dikabarkan menguji ChatGPT Agent Mode, fitur serupa yang memungkinkan GPT-5 membuka file dan menavigasi antarmuka pengguna. Namun, kemampuan web-level interactivity milik Gemini 2.5 tampaknya melangkah lebih jauh, karena integrasinya langsung dengan Google Chrome dan Workspace.

Sementara itu, Anthropic dengan Claude 3.5 Sonnet juga telah menunjukkan kemampuan membaca dokumen dan berinteraksi dengan sistem file lokal, namun belum memiliki integrasi browser sekuat Gemini.

Dengan keunggulan ekosistem yang luas, Google kini memiliki peluang besar untuk menjadi pemimpin di bidang agentic AI, AI yang tidak hanya berpikir, tetapi juga bertindak.

Masa Depan: AI Sebagai Pengguna Komputer Sejati

Gemini 2.5 Computer Use menandai pergeseran besar dalam paradigma interaksi manusia dan mesin. AI tidak lagi hanya “menjawab” perintah, tetapi mulai berpartisipasi dalam eksekusi tugas digital secara aktif.

Dalam beberapa bulan mendatang, Google berencana memperluas kemampuan ini ke Google Workspace (Docs, Sheets, dan Drive) serta sistem operasi ChromeOS, memungkinkan pengguna mengandalkan Gemini untuk mengelola pekerjaan sehari-hari dari menyiapkan presentasi, merapikan spreadsheet, hingga mengatur jadwal rapat otomatis.

Jika berhasil diimplementasikan secara luas, Gemini 2.5 bisa menjadi fondasi dari era baru AI yang benar-benar menjadi “co-worker digital” manusia.

Kesimpulan

Peluncuran Google Gemini 2.5 “Computer Use” adalah bukti nyata bagaimana kecerdasan buatan kini semakin mendekati kemampuan kognitif dan motorik manusia dalam dunia digital. Dengan teknologi yang memungkinkan AI berinteraksi langsung dengan situs web, sistem UI, dan aplikasi dunia nyata, Google menempatkan dirinya di garis depan revolusi agentic AI.

Meski masih ada tantangan etika dan keamanan yang perlu diatasi, tidak dapat dipungkiri bahwa inovasi ini membuka jalan bagi masa depan di mana AI tidak hanya menjadi alat bantu tetapi rekan kerja sejati dalam kehidupan digital manusia.

Ingin terus update tentang informasi digital lainnya? Temukaan inspirasi teknologi harian di instagram @wesclic  dan lihat bagaimana inovasi mendorong industri bergerak lebih maju. 

Bila tertarik menerapkan solusi digital serupa, webklik juga menyediakan layanan pembuatan website professional yang dapat disesuaikan dengan kebutuhan bisnis atau instansi anda hubungi langsung kami di WhatsApp untuk informasi lebih lanjut atau konsultasi layanan.

Leave your thought here

Read More

Rigetti Computing Umumkan Roadmap Kuantum 150+ Qubit: Langkah Besar Menuju Era Komputasi Masa Depan

alya 12/11/2025

Dunia teknologi komputasi kembali dikejutkan dengan kabar dari Rigetti Computing, salah satu pionir di bidang komputasi kuantum. Dalam laporan pendapatan kuartal ketiga (Q3) 2025 yang…

Tekanan Raksasa Teknologi AS, Uni Eropa Revisi Regulasi AI Act: Antara Inovasi dan Kekhawatiran Etika

alya 12/11/2025

Uni Eropa kembali menjadi sorotan dunia teknologi setelah kabar bahwa European Commission berencana merampingkan beberapa…

ClearPro Perkenalkan Teknologi Film Proteksi Otomotif Generasi Baru di SEMA 2025: Revolusi Baru dalam Dunia Coating dan Keamanan Kendaraan

alya 12/11/2025

Gelaran SEMA Show 2025 di Las Vegas kembali menjadi sorotan dunia otomotif, dan tahun ini…

Clear Blue Technologies dan Eutelsat Pamerkan Inovasi “Pico Smart Off-Grid”: Solusi Energi Pintar untuk Telekomunikasi dan IoT di Pasar Berkembang

alya 12/11/2025

Dalam ajang AfricaCom 2025, salah satu konferensi teknologi dan telekomunikasi terbesar di benua Afrika, Clear…

Palantir Technologies Diproyeksikan Untung Besar dari Lonjakan Permintaan Big Data: Saat Analitik Jadi “Otak” Ekonomi Digital Dunia

alya 12/11/2025

Dalam beberapa tahun terakhir, dunia teknologi mengalami transformasi besar-besaran akibat ledakan data digital. Setiap detik,…

Feedback
Feedback
How would you rate your experience?
Do you have any additional comment?
Next
Enter your email if you'd like us to contact you regarding with your feedback.
Back
Submit
Thank you for submitting your feedback!