Tag
当我第一次在 GitHub 上刷到「Rex‑Omni 」这只 3B 参数的多模态巨兽时内心像被一阵春风拂过:它把视觉、语言、定位等任务统一进了一个“下一点预测”的框架,听起来既酷炫又充满挑战。于是我决定把这段好奇心写进代码里、写进笔记里也写进今天这篇文章。 一、为何说 Rex‑Omni 是“新”时代的标配? 传统的多模态系统往往是「视觉 + 文本」两条平行线,各自训练后再拼接;而
查看更多 2026-05-07
Demand feedback