小米創(chuàng)辦人、董事長(zhǎng)兼CEO雷軍宣布,小米團(tuán)隊(duì)的多篇最新研究成果成功入選國際人工智能頂級(jí)會(huì)議ICLR 2026。ICLR由圖靈獎(jiǎng)得主Yoshua Bengio和Yann LeCun于2013年創(chuàng)立,是深度學(xué)習(xí)領(lǐng)域最具權(quán)威性的學(xué)術(shù)會(huì)議之一。

本次入選的研究成果涵蓋多模態(tài)推理、強(qiáng)化學(xué)習(xí)、GUI Agent、端到端自動(dòng)駕駛及音頻生成等前沿方向,共計(jì)11篇論文。在多模態(tài)推理領(lǐng)域,Shuffle-R1框架通過數(shù)據(jù)層面的動(dòng)態(tài)重組顯著提升強(qiáng)化學(xué)習(xí)訓(xùn)練效率,解決優(yōu)勢(shì)坍縮和軌跡沉默等長(zhǎng)期難題;ThinkOmni框架則實(shí)現(xiàn)將文本推理能力零成本遷移至全模態(tài)場(chǎng)景。在GUI Agent方向,MobileIPL框架通過迭代偏好學(xué)習(xí)增強(qiáng)移動(dòng)智能體的思考過程,在多個(gè)主流基準(zhǔn)上取得SOTA成績(jī);SMAN-Bench構(gòu)建了跨系統(tǒng)、多維度的移動(dòng)Agent評(píng)估基準(zhǔn),解決在線環(huán)境不穩(wěn)定與離線軌跡單一的評(píng)測(cè)難題。
自動(dòng)駕駛相關(guān)研究占據(jù)重要比重。ReCogDrive提出融合視覺語言模型、擴(kuò)散式軌跡規(guī)劃與強(qiáng)化學(xué)習(xí)的端到端自動(dòng)駕駛框架;WorldSplat實(shí)現(xiàn)前向4D駕駛場(chǎng)景生成,解決3D一致性與新視角合成難題;Dream4Drive框架重新審視世界模型在感知任務(wù)中的應(yīng)用價(jià)值,證明高質(zhì)量合成數(shù)據(jù)而非數(shù)據(jù)規(guī)模是提升感知性能的關(guān)鍵。此外,F(xiàn)utureMind為小語言模型注入戰(zhàn)略性思維先驗(yàn),F(xiàn)low2GAN提出混合流匹配與GAN的音頻生成框架,DIPOLE算法實(shí)現(xiàn)穩(wěn)定可控的擴(kuò)散策略優(yōu)化。

CONTACT US
ICC APP