Tag
大模型的具身智能决策能力,终于有系统的通用评估基准了。李飞飞吴佳俊团队新提出的评估框架,对具身智能决策的四项关键子能力来了个全面检查。这套基准已经被选为了NeurIPS数据和测试集(D&B)专栏Oral论文,同时也被收录进了PyPI,只要一行代码就能快速调用。该框架名为EmbodiedAgentInterface(简称EAI),提供了连接不同模块和基准环境的标准接口。
查看更多 2026-06-20
Demand feedback