MiMo-V2-Flash mampu menghasilkan respons dengan kecepatan 150 token per detik dan diklaim hanya memakan biaya 2,5% dari harga inferensi Claude.
Xiaomi menetapkan harga API sebesar $0,1 per juta token input dan memberikan akses gratis untuk waktu terbatas saat peluncuran.
Model ini juga memperkenalkan teknik Multi-Token Prediction (MTP) yang memungkinkan model menghasilkan dan memverifikasi beberapa token sekaligus.
MiMo-V2-Pro: Flagship Triliunan Parameter
Pada Maret 2026, Xiaomi meluncurkan model paling ambisius mereka, MiMo-V2-Pro. Model ini memiliki total lebih dari satu triliun parameter dengan 42 miliar parameter aktif per langkah.
MiMo-V2-Pro mendukung jendela konteks satu juta token, yang berarti dapat memproses setara beberapa novel panjang dalam satu percakapan.
Xiaomi mengatakan model ini dirancang khusus untuk tugas "agentic" yang kompleks dan memerlukan perencanaan serta eksekusi tanpa input manusia terus-menerus.
Menariknya, model ini pertama kali muncul di OpenRouter secara anonim dengan nama "Hunter Alpha" dan langsung menduduki puncak papan peringkat.
Model ini memproses lebih dari 1,5 triliun token sebelum Xiaomi secara resmi mengakui kepemilikannya.
Bersamaan dengan MiMo-V2-Pro, Xiaomi juga merilis dua model pendamping: MiMo-V2-Omni (multimodal yang dapat memproses teks, gambar, audio, dan video) serta MiMo-V2-TTS (model text-to-speech untuk pipeline agen).
MiMo-V2.5 dan V2.5-Pro: Arsitektur Terpadu
Pada akhir April 2026, Xiaomi menggabungkan yang terbaik dari keluarga V2 ke dalam satu arsitektur.
MiMo-V2.5-Pro adalah model dengan 1,02 triliun parameter yang menangani teks, gambar, audio, dan video dalam satu kesatuan.
Model ini berjalan pada kecepatan 60 hingga 80 token per detik untuk tugas kompleks, sementara MiMo-V2.5 yang lebih ringan mencapai 100 hingga 150 token per detik.
V2.5-Pro juga menduduki peringkat model open-source teratas untuk kemampuan agentic pada tolok ukur Artificial Analysis saat peluncuran.