|

新车测评网
2000活跃值=1元

首页 > 汽车生活 > 汽车生活 > 北大新作EvoVLA：大幅降低机器人幻觉，长序列成功率暴涨10%

北大新作EvoVLA：大幅降低机器人幻觉，长序列成功率暴涨10%

发布时间：2025-11-30 20:39:50

具身智能的「ChatGPT时刻」还没到，机器人的「幻觉」却先来了？在需要几十步操作的长序列任务中，现有的VLA模型经常「假装在干活」，误以为任务完成。针对这一痛点，北京大学团队提出自进化VLA框架EvoVLA。该模型利用Gemini生成「硬负样本」进行对比学习，配合几何探索与长程记忆，在复杂任务基准Discoverse-L上将成功率提升了10.2%，并将幻觉率从38.5%大幅降至14.8%。

具身智能（Embodied AI）正处于爆发前夜。

从谷歌的 RT-X 到开源社区的 OpenVLA，通才机器人策略（Generalist Robot Policies）展现出了惊人的零样本泛化能力。然而，当我们将目光从简单的「抓取-放置」转向需要数十个步骤的长程操作任务（Long-horizon Manipulation）时，现有的 VLA 模型却暴露出一个尴尬的致命弱点：

它们学会了「作弊」。

在长序列任务中，VLA模型经常会出现一种被称为「阶段性幻觉」（Stage Hallucination）的现象。

简单来说，就是机器人「明明没做完，却以为自己做完了」。

例如，在搭建积木桥时，只要机械臂移动到了目标附近，即便方块滑落、没对齐或者根本没夹住，基于视觉语言模型（VLM）的评估系统往往会因为视觉上的相似性（"看起来像是在操作"），给出一个很高的预测分数。

这种「高分低能」的现象，导致机器人自信地跳过当前步骤进入下一阶段，最终导致整个任务的崩溃。这就好比一个学生只写了「解：」字，就以为自己做完了整道大题。

针对这一痛点，来自北京大学的研究团队（第一作者：刘择霆，杨子达，指导老师：唐浩，张泽宇）提出了一种全新的自监督VLA框架EvoVLA。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“新车测评网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:低至7.49万元起，长安启源全新Q05开启“超级购车季”

上一篇:荣耀充电分离适配计划公布，支持Magic5、数字300系列等机型

汽车生活更多>>

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构北汽极狐公布高端产品系列问道首款MPV定名问道V9 只买适合不买贵，关键性价比超高哈弗枭龙MAX最高优惠1.91万提供限时新春礼星光730上市80天销量破26000台首款量产L3级SUV 岚图泰山黑武士版将于今年3月登场 AI的尽头是硅钢片！A股硅钢片相关公司主要有7家，4家股价低于5元 4.07版固件的作用是什么？华擎：解决AM5平台无法启动的问题 Navitas纳微推出10kW全GaN DC-DC电源平台，效率高达98.5% 莱森光学携高光谱技术出席“智能生态监测网”技术交流会库克称iPhone 17等兼容机型用户正“积极利用”苹果牌AI IDC发布最新数据：OPPO系手机全球销量猛增，挤进前三！特斯拉财报会议万字实录|马斯克意外官宣停产Model S/X；直言只有中国机器人配做对手【智库声音】上观新闻 | 张虎祥等：社群运营：上海社区商业的新玩法抖音电商：年货节期间品牌年货礼盒销量增长3倍对话九识CEO孔旗：我们已实现业务现金流和毛利率正向增长千问迭代，是阿里的又一次 AI 战略选择哈工大系闯出人形机器人黑马：成立不到一年，全栈开源3m/s原型机新能源车的「硬核」战事，2026年卷向何处？贾国龙再发声：西贝从来不存在“两岁的西蓝花”，现在标准是一个月内使用完毕 ARR达2.4亿美元，可灵能带快手起飞吗？世界级工厂按斤卖，观致常熟工厂是如何被人为做空的两部门：对公租房建设期间用地及公租房建成后占地，免征城镇土地使用税华住，比携程还会捞金？追觅科技俞浩：生态链基金已获募资数量和规模双料第一国泰海通证券：维持农夫山泉“增持”评级料下半年提速盈利继续乐观国泰海通证券：维持优然牧业(09858)“增持”评级大股东定增彰显信心新一代奥迪Q5L卖30.98万起！盘盘优缺点，我推荐购买吗？ Agent时代，为什么多模态数据湖是必选项？索尼与本田联手造车了？AFEELA 1亮相，车内可远程操控PS游戏机尺寸全面升级！哈弗猛龙加长版要来了，造型硬朗气派，搭1.5T插混

Copyright 2017-2025 新车测评网版权所有京ICP备18049689号-26