Xiaomi Pecahkan Rekor AI: 1.000 Token per Detik dengan MiMo-V2.5-Pro

Maria Renata

10-06-2026, 00:30 WIB

Xiaomi Pecahkan Rekor AI: 1.000 Token per Detik dengan MiMo-V2.5-Pro — Xiaomi Pecahkan Rekor AI: 1.000 Token/detik dengan MiMo-V2.5-Pro!

A A Ukuran Teks16px

Xiaomi kembali mengejutkan dunia, kali ini di bidang kecerdasan buatan.

Perusahaan asal Tiongkok itu berhasil mencapai kecepatan inferensi model AI dengan parameter 1 triliun lebih dari 1.000 token per detik.

>>> Trailer The Bear Season 5 Rilis, Carmy Kembali ke Restoran

Semua itu dijalankan hanya dengan server komoditas 8-GPU standar, tanpa chip khusus atau infrastruktur eksotis.

Bekerja sama dengan mitra inferensi TileRT, Xiaomi meluncurkan MiMo-V2.5-Pro. Model ini merupakan versi terbaru dari keluarga model besar MiMo.

Dalam demo internal, kecepatan puncak mencapai 1.200 token per detik.

Ini menjadikannya model pertama di dunia yang menembus ambang 1.000 token per detik pada skala triliunan parameter.

Pencapaian ini tidak bergantung pada perangkat keras proprietary seperti Google TPU atau NVIDIA Blackwell khusus.

Mengapa 1.000 Token per Detik Itu Revolusioner?

Untuk memahami signifikansi angka ini, bandingkan dengan model AI terkemuka saat ini.

Claude Opus 4.6 mencapai sekitar 71 token per detik, Claude Haiku sekitar 98 token per detik, dan Gemini Flash sekitar 192 token per detik.

>>> Jun Ji-hyun Bicara Perannya di 'Colony' dan Pujian atas Penampilannya

Sementara itu, MiMo-V2.5-Pro dalam mode UltraSpeed berjalan di atas 1.000 token per detik. Artinya, kecepatannya 5 hingga 14 kali lebih cepat dari pesaing terdekat.

Kecepatan ini bukan hanya soal respons lebih cepat. Ia mengubah kelayakan teknis dari seluruh kelas aplikasi AI.

Contohnya deteksi penipuan real-time dalam transaksi keuangan, sinyal perdagangan otomatis berbasis analisis pasar mikrodetik, rantai penalaran paralel untuk simulasi kompleks, dan loop multi-agent AI yang berinteraksi dalam waktu nyata.

Semua kasus ini memiliki batas latensi keras, biasanya di bawah 100 milidetik. Dengan kecepatan 70 token per detik, sistem tidak mampu menyelesaikan tugas dalam jendela waktu tersebut.

Tapi dengan 1.000+ token per detik, batas itu akhirnya bisa dilewati.

Xiaomi dan TileRT mencapai angka ini dengan tiga lapisan optimasi yang saling melengkapi. Salah satunya adalah FP4 Quantization pada expert layers.

>>> 5 Rekomendasi Drakor Serupa Teach You a Lesson, dari Juvenile Justice hingga Judge from Hell

Detail teknis lebih lanjut masih terus dikembangkan.

Tim Redaksi

Penulis: Maria Renata