科技瞭望|具身智能:探索未来的科技浪潮
栏目:推荐 来源: 科普中山 发布:2025-03-06

 

具身智能:探索未来的科技浪潮

2025年政府工作报告首次提出

2025 年政府工作报告中,重点提出“建立未来产业投入增长机制,培育生物制造、量子科技、具身智能、6G 等未来产业。“具身智能”作为一个新名词出现在了报告里。

图片

什么是具身智能?

具身智能是一种基于物理实体进行感知和行动的智能系统。它通过智能体与环境的交互来获取信息、理解问题、作出决策并执行行动,从而展现出智能行为和适应性。传统的人工智能通常依赖于抽象的符号计算,而具身智能更强调通过物理身体的感知、运动以及与外部环境的交互来实现认知。

许多人容易将具身智能等同于机器人,但二者是有本质区别的。

具身智能并不是简单的“机器人+大模型”,而是一个更复杂的系统,涉及感知、认知、行动三者的高度融合。

图片

具身智能强调智能与身体的协同:传统机器人通常采用模块化设计,感知、决策、执行是相对独立的,而具身智能机器人则是一个整体,其身体不仅是执行命令的工具,更是感知、认知和学习的重要载体。例如,iCub 机器人会像儿童一样,通过触摸、观察和操作物体来学习技能。
具身智能具有主动学习能力:具身智能机器人不会只依赖预设程序,而是能够自主探索环境、积累经验,并优化自身策略。例如,它们可以通过试错学习如何操控物体,而不是预先设定好固定动作。
具身智能与环境交互更紧密:机器人往往需要依赖精确的环境建模,而具身智能则强调实时交互和适应性。具身智能机器人可以在不确定环境中做出反应,而不仅仅依靠预设指令行动。

具身智能的应用与发展

2024年,国内外科研机构和企业在具身智能领域取得了重要进展,成功推出了多款具身智能机器人,能够在不确定的环境中进行自主感知和决策。同时,具身智能在自动驾驶中的应用也得到了进一步深化,特别是在动态交通环境中的感知与决策能力显著提升,无人驾驶汽车实现了城市级的应用落地。借助具身智能的多模态感知技术,手术机器人在复杂的医疗环境中实现了更加精准的判断和操作。随着相关技术的不断成熟,具身智能将进一步推动各行各业的转型升级,为未来智能化社会的建设提供重要支撑。

具身智能的行业认可

2025年1月,“具身智能”入选“2024年度十大科技名词”。

具身智能的技术基础与创新

具身智能是人工智能产业发展的重要方向之一。英伟达近期发布人形机器人通用基础模型Project GR00T,希望能让机器人拥有更聪明的“大脑”。由Project GR00T驱动的机器人能够理解自然语言,并通过观察人类行为来模仿人类动作。在特斯拉2023股东大会上,马斯克也向大众展示了人形机器人Optimus的全新型号。这些都是具身智能驶入发展快车道的缩影。

AI技术的集大成者

1950年,图灵在他的一篇论文中首次提出了具身智能的概念。“具身智能是人工智能的一个重要分支,它强调智能体与其所处的物理环境紧密交互,通过人形机器人等智能实体实现感知、决策和行动。”赛迪顾问人工智能与大数据研究中心常务副总经理邹德宝向科技日报记者介绍,“这种结合让人工智能可通过摄像头、传感器等理解环境,并通过机械臂、轮子等执行器作用于物理世界,在物理空间中学习、适应并完成指令任务。”这是一个包含人工智能几乎所有技术的领域,可以说是AI的集大成者。

技术进步和挑战并存

依托大规模数据和强大算力的大模型,为机器理解世界提供了前所未有的能力。它与具身智能的结合,预示着机器人的未来将更加智能化、互动化。去年11月,工业和信息化部印发《人形机器人创新发展指导意见》,提出人形机器人集成人工智能、高端制造、新材料等先进技术,发展潜力大、应用前景广,是未来产业的新赛道。

具身智能的市场与挑战

技术突飞猛进之下,具身智能市场活跃。头部厂商不仅在技术研发上取得显著进展,还在商业应用和拓展市场方面取得了突破。特斯拉宣布,其旗下擎天柱人形机器人的首个商业化场景将是自家公司汽车生产车间。人形机器人(上海)有限公司联合行业头部企业成立的新型研发机构,致力于建设贯穿创新链、产业链、资金链和人才链的人形机器人创新生态系统。联想创投作为联想集团旗下的全球科技产业基金,通过投资和支持具身智能技术公司,推动该技术的商业化应用。然而,难题和挑战也如影随形。

未来人工智能发展的重要方向

英伟达创始人兼CEO黄仁勋曾表示,人工智能发展的下一个浪潮是具身智能,是能理解、推理、并与物理世界互动的智能系统。“具身智能对人工智能产业发展意义重大,对实现AGI(通用人工智能)具有不可忽视的价值。”邹德宝认为,从当前技术趋势和市场动态来看,具身智能极有可能成为人工智能发展的下一个重要方向。

具身智能的技术实现

这些类人的能力又是如何实现的?“源自三个部分:感知、规划、执行。”王鹤说,从技术实现角度,如果拿人来类比,不仅需要人类智慧的核心大脑,也关系到负责运动控制的小脑。人形机器人的“大脑”负责感知、理解、规划。“当我们对机器人说‘我渴了’,机器人首先会理解并拆解意图,然后分步骤进行规划设计:比如,第一步寻找水在哪里,第二步思考如何打开冰箱门、从冰箱中取出水、关上冰箱门,第三步递送到我们面前。这每一步,包括理解语义、任务规划,都在‘大脑’中进行。”王鹤举例说。人形机器人“小脑”的使命则是运动控制、任务执行。王鹤进一步解释,“例如,如何找到冰箱位置、避开路障走过去,用多大的力去伸手拉门、冰箱门开到多大,以及行走的每一步如何调动四肢与躯干、实现手眼脚协调运动,‘小脑’实现的任务是当前研发的难点。”

具身智能的演化与未来

“技术路线上,今天的人形机器人已经越来越接近人类思考、决策、执行的过程。”熊友军说,过去的认知是通过语音交互、视觉识别,以自然语言理解的方式或传统的人工智能方式实现,现在则使用VLA(视觉语言动作)这样的多模态大模型来完成“大脑”功能。过去的运动控制是通过模型优化的方式,而现在人形机器人的跑、跳则更多是基于强化学习、模仿学习来实现“小脑”与“躯干”的功能。大模型的迭代为机器人带来的革命性变化在于,它不仅应用于“大脑”的理解、推理、规划之中,也将融入到“小脑”“躯干”参与的感知与执行过程。人形机器人拥有更加强大的泛化能力后,将更好地与物理世界交互,进一步降低部署成本、应用门槛,这也是具身智能前进的方向。“具身智能强调智能体与物理世界的交互与反馈,服务于现实场景,解决人类的实际诉求。”焦继超说。

具身智能的挑战与解决方案

演化——“入户”十年可期。人形机器人以“洪荒之力”模仿并复刻人类智能,但它终究不是人类。莫拉维克悖论指出,人类独有的高阶智慧对机器而言只需要极少的运算,如推理,而人类无意识的技能与直觉却需要机器耗费极大的运算能力,如接住抛物。“眼下,人形机器人的能力瓶颈并非在于‘大脑’的感知、理解、判断,而恰恰是缺乏类似人类‘小脑’的泛化执行能力。”王鹤说,这一瓶颈导致的问题就是人形机器人“干活”不够快、不够敏捷。这一瓶颈的根源是高质量数据的匮乏。“机器人‘大脑’所需数据可从互联网的文本、图像中获得,而‘小脑’所需的数据少之又少。有限的来源之一是国外部分企业采取的人工遥控机器训练的方式,采集到的数据既难、又贵、且慢。”王鹤说。高精度模拟真实世界的物理场景、于仿真环境里合成的数据不失为一种有效的解决方案。比如,合成灵巧手模拟真实世界抓取物体进行训练采集到的数据,然后在真实环境里测试、泛化,能破解机器人“小脑”所需的数据“投喂”问题。还有专家指出,实时性、推理速度也是当前具身智能面临的另一瓶颈。目前,基于大模型的机器人控制在线决策至少需50毫秒,一般延迟为1至5秒,无法满足工业场景3至10毫秒的需要。“人形机器人是一块难啃的硬骨头,它的突破一定需要时间的积累和技术的沉淀。大规模量产、商业化也都是挑战。”多位受访者表示,尽管人形机器人的成长速度肉眼可见,但距离产业爆发的“iPhone时刻”还有距离。“可以确定的是,人形机器人率先在工业场景落地,接下来是应用于商业场景,最后是进入千家万户。其中,工业场景的落地最快今年或明年就能在部分试点实现,人形机器人‘入户’在10年左右实现。”熊友军说。


 

素材来源:整理自学习强国。仅作科普用途,如有侵权,请联系删除。

 

科普中山编辑部

版面:薛昀宴

一审:李   琼 陈少驰
二审:高   峥
三审:胡子冠

 

 

 条评论
查看更多评论

推荐阅读

“中山+”狂撒2万元红包雨!速来
61105人浏览   2025-04-28
原创 18563人浏览   2025-04-26
祝贺!中山5人在京接受表彰
12295人浏览   2025-04-28