Blog

Google Luncurkan Gemini 2.5 “Computer Use”: Model AI yang Mampu Menjelajah Web Layaknya Manusia

Google kembali mengguncang dunia teknologi kecerdasan buatan dengan pengumuman model terbaru mereka, Gemini 2.5 “Computer Use”, yang menandai langkah besar menuju AI yang benar-benar dapat menggunakan komputer dan menjelajahi web seperti manusia. Dengan kemampuan membuka browser, menavigasi halaman, mengisi formulir, hingga mengklik atau drag elemen UI secara mandiri, model ini menunjukkan bagaimana AI kini bukan sekadar “asisten digital,” tetapi “pengguna komputer” yang cerdas dan aktif.

Peluncuran Gemini 2.5 Computer Use ini menjadi bagian dari strategi besar Google DeepMind dalam mengintegrasikan AI otonom dengan ekosistem Google Workspace dan Chrome, sekaligus menyaingi kemampuan agentic AI seperti OpenAI’s GPT-5’s Agent dan Anthropic’s Claude 3.5 Sonnet, yang mulai memperlihatkan kemampuan eksekusi tindakan dunia nyata.

Evolusi Gemini: Dari Chatbot ke Agen Komputer Pintar

Gemini awalnya dikenal sebagai penerus Bard — chatbot berbasis bahasa alami yang berfokus pada interaksi percakapan. Namun, Google tampaknya memiliki visi yang jauh lebih besar. Dalam versi Gemini 2.5, kemampuan AI ini kini berkembang menjadi “computer use agent”, di mana sistem dapat secara aktif menjalankan perintah di dalam lingkungan komputer layaknya seorang pengguna.

Dengan teknologi reinforcement learning from human-computer interactions (RLHCI), Gemini kini bisa:

  • Membuka situs web, menelusuri tautan, dan membaca isi halaman secara visual.
  • Mengisi formulir otomatis (misalnya formulir registrasi atau survei online).
  • Melakukan tindakan antarmuka pengguna seperti click, scroll, drag, hingga memilih menu.
  • Melakukan perbandingan harga, pemesanan tiket, atau pencarian informasi dengan konteks visual UI.

Peningkatan ini membawa Gemini ke level yang benar-benar baru bukan hanya menjawab teks, tapi juga berinteraksi dengan dunia digital secara langsung.

Teknologi di Balik Gemini 2.5 Computer Use

Menurut rilis resmi Google DeepMind, Gemini 2.5 dikembangkan dengan pendekatan multimodal + action-based training, yang memungkinkan model memahami layout halaman web, struktur HTML, hingga komponen interaktif seperti tombol, formulir, dan menu dropdown.

“Model ini tidak sekadar membaca kode halaman,” jelas Demis Hassabis, CEO Google DeepMind, “tetapi memahami konteks visual dan fungsional dari elemen UI, lalu mengambil keputusan tindakan yang paling sesuai, sama seperti manusia.”

Hal ini dicapai melalui kombinasi beberapa teknologi kunci:

  • Visual Transformer untuk Web Context Recognition: memungkinkan AI mengenali elemen halaman secara visual dan semantik.
  • Action Policy Model: algoritma yang melatih AI untuk menentukan tindakan optimal berdasarkan konteks halaman dan tujuan pengguna.
  • Reinforcement Fine-Tuning: model terus disempurnakan melalui jutaan simulasi interaksi dengan situs web nyata, di bawah pengawasan manusia.

Selain itu, Google memastikan Gemini 2.5 beroperasi dalam sandbox environment yang aman artinya AI tidak memiliki akses bebas ke data sensitif atau perangkat pengguna tanpa izin eksplisit.

Potensi Besar di Dunia Nyata

Kemampuan baru ini membuka banyak peluang di berbagai sektor:

  1. Produktivitas Kantor dan Otomasi Web
    Gemini dapat membantu profesional bisnis dengan otomatisasi tugas berbasis web seperti mengisi laporan online, memperbarui dashboard, atau mengunggah data ke sistem manajemen proyek tanpa campur tangan manual.
  2. E-commerce dan Penelitian Pasar
    Dengan kemampuannya menavigasi situs e-commerce, Gemini bisa mencari produk tertentu, membandingkan harga, dan bahkan menyusun laporan tren pasar.
  3. Aksesibilitas untuk Penyandang Disabilitas
    Google menyoroti bahwa fitur ini dapat membantu pengguna tunanetra atau pengguna dengan keterbatasan mobilitas, karena AI dapat “mengklik” dan “menavigasi” situs atas nama pengguna melalui perintah suara.
  4. Dukungan Pengembangan Software
    Developer kini dapat melatih Gemini untuk menguji antarmuka aplikasi web secara otomatis, melakukan UI testing dengan tingkat keakuratan tinggi dan waktu lebih cepat.

Tantangan Etika dan Privasi

Meski terobosan ini memukau, tidak sedikit pakar keamanan dan etika AI yang menyuarakan kekhawatiran. AI yang mampu mengakses browser dan mengisi formulir berpotensi disalahgunakan misalnya untuk web scraping, phishing automation, atau eksploitasi data.

Untuk itu, Google menegaskan bahwa setiap aktivitas Computer Use akan melalui sistem izin eksplisit (user consent). AI hanya dapat melakukan tindakan di situs atau halaman yang disetujui pengguna, dan seluruh aktivitasnya akan direkam untuk audit keamanan.

Selain itu, Gemini 2.5 dirancang agar tidak dapat mengeksekusi tindakan finansial seperti pembayaran atau transfer dana tanpa otorisasi manual.

“Kami membangun Gemini 2.5 dengan prinsip ‘safe-first automation’ di mana AI dapat bertindak mandiri, tapi selalu dalam batas yang dapat dipantau manusia,” ujar Hassabis.

Persaingan Ketat dengan OpenAI dan Anthropic

Peluncuran ini terjadi hanya beberapa minggu setelah OpenAI dikabarkan menguji ChatGPT Agent Mode, fitur serupa yang memungkinkan GPT-5 membuka file dan menavigasi antarmuka pengguna. Namun, kemampuan web-level interactivity milik Gemini 2.5 tampaknya melangkah lebih jauh, karena integrasinya langsung dengan Google Chrome dan Workspace.

Sementara itu, Anthropic dengan Claude 3.5 Sonnet juga telah menunjukkan kemampuan membaca dokumen dan berinteraksi dengan sistem file lokal, namun belum memiliki integrasi browser sekuat Gemini.

Dengan keunggulan ekosistem yang luas, Google kini memiliki peluang besar untuk menjadi pemimpin di bidang agentic AI, AI yang tidak hanya berpikir, tetapi juga bertindak.

Masa Depan: AI Sebagai Pengguna Komputer Sejati

Gemini 2.5 Computer Use menandai pergeseran besar dalam paradigma interaksi manusia dan mesin. AI tidak lagi hanya “menjawab” perintah, tetapi mulai berpartisipasi dalam eksekusi tugas digital secara aktif.

Dalam beberapa bulan mendatang, Google berencana memperluas kemampuan ini ke Google Workspace (Docs, Sheets, dan Drive) serta sistem operasi ChromeOS, memungkinkan pengguna mengandalkan Gemini untuk mengelola pekerjaan sehari-hari dari menyiapkan presentasi, merapikan spreadsheet, hingga mengatur jadwal rapat otomatis.

Jika berhasil diimplementasikan secara luas, Gemini 2.5 bisa menjadi fondasi dari era baru AI yang benar-benar menjadi “co-worker digital” manusia.

Kesimpulan

Peluncuran Google Gemini 2.5 “Computer Use” adalah bukti nyata bagaimana kecerdasan buatan kini semakin mendekati kemampuan kognitif dan motorik manusia dalam dunia digital. Dengan teknologi yang memungkinkan AI berinteraksi langsung dengan situs web, sistem UI, dan aplikasi dunia nyata, Google menempatkan dirinya di garis depan revolusi agentic AI.

Meski masih ada tantangan etika dan keamanan yang perlu diatasi, tidak dapat dipungkiri bahwa inovasi ini membuka jalan bagi masa depan di mana AI tidak hanya menjadi alat bantu tetapi rekan kerja sejati dalam kehidupan digital manusia.

Ingin terus update tentang informasi digital lainnya? Temukaan inspirasi teknologi harian di instagram @wesclic  dan lihat bagaimana inovasi mendorong industri bergerak lebih maju. 

Bila tertarik menerapkan solusi digital serupa, webklik juga menyediakan layanan pembuatan website professional yang dapat disesuaikan dengan kebutuhan bisnis atau instansi anda hubungi langsung kami di WhatsApp untuk informasi lebih lanjut atau konsultasi layanan.

Leave your thought here

Read More

SoftBank Akuisisi Divisi Robotik ABB Senilai US$5,4 Miliar: Strategi Besar Menuju Dominasi Era AI & Otomasi Global

alya 10/10/2025

Jakarta, Oktober 2025 Dunia teknologi kembali dihebohkan oleh langkah strategis terbaru dari raksasa investasi asal Jepang, SoftBank Group Corp, yang resmi mengumumkan kesepakatan akuisisi divisi…

Saham Teknologi Melejit di Oktober 2025: Investor Global Ramai-ramai Bidik Perusahaan Berbasis Inovasi Digital

alya 10/10/2025

Jakarta, Oktober 2025 Pasar saham global kembali berdenyut kencang seiring meningkatnya minat investor terhadap saham-saham…

Relativity Fest 2025: Era Baru Dunia Hukum Dimulai, Generative AI Resmi Jadi Fitur Standar di Platform Relativity

alya 10/10/2025

Chicago, Oktober 2025 Dunia hukum global tengah memasuki babak baru dengan diumumkannya langkah besar dari…

Intel Siap Ungkap Chip “Panther Lake”: Lompatan Teknologi 18A yang Siap Ubah Peta Industri Semikonduktor Dunia

alya 10/10/2025

Jakarta, Oktober 2025 Raksasa teknologi Intel Corporation kembali menjadi sorotan dunia setelah mengonfirmasi rencana pengumuman…

Mattel Gandeng OpenAI Hadirkan “Sora 2”: Revolusi Kreativitas Desain Mainan Lewat Teknologi Video AI

alya 10/10/2025

Perusahaan mainan legendaris Mattel kembali membuat gebrakan besar di dunia industri kreatif. Kali ini, Mattel…

Feedback
Feedback
How would you rate your experience?
Do you have any additional comment?
Next
Enter your email if you'd like us to contact you regarding with your feedback.
Back
Submit
Thank you for submitting your feedback!