人工智能考研(人工智能考研考哪些科目)




人工智能考研,人工智能考研考哪些科目

大家好,我是小胡。这期内容我们来聊聊具身智能机器人,并分享产业链相关的股票池。

人工智能是第四次科技革命最为重要的技术之一,人类对人工智能技术和应用的探索从未停歇,今年以ChatGPT代表的生成式AI(AIGC)走红全球,深刻影响着内容创作行业,将带来效率的极大提升。

而人工智能的应用远不止于此,从决策式AI到生成式AI,类人“大脑”变得越来越聪明,应用也越来越广泛,但始终是抽象的,是放在云端的“大脑”。

如果将其具象化,给这个大脑赋予“身体”,那么就会是另一种形态,比如AI+汽车=智能汽车,AI+机器人=具身智能机器人,再或者,在未来某个时点AI+汽车+机器人=变形金刚也是有可能的。

人工智能应用潜力很大,市场空间广阔。

什么是具身智能?

具身智能指的是,有身体并支持物理交互的智能体,比如智能机器人、自动驾驶汽车。

具身智能机器人是能够像人类一样与环境交互、感知、规划、决策、行动、执行任务的机器人,它包含了人工智能领域几乎所有的技术。

比如自然语言理解、逻辑推理、运动控制、机械控制、机器学习、机器视觉、博弈伦理等,横跨多个学科、是人工智能的集大成者。

具身智能机器人技术原理包括感知、交互和运动三大层级。

英伟达创始人黄仁勋在 ITF World 2023 半导体大会上表示,具身智能(Embodied AI)是能理解、推理、并与物理世界互动的智能系统,是人工智能的下一个浪潮,同时,黄仁勋还公布了Nividia VIMA多模态具身视觉语言模型。

现有机器人的学习模式为“旁观型学习”,训练数据来自互联网,只能学到数据中心的固定模式而非现实世界的第一人称视角,无法从真实世界中直接学习,也无法适应真实的世界。

具身智能是通往通用人工智能的关键钥匙,赋予机器人实践学习的能力,如上图中的主动猫,可以在环境中自由行动,学习走路的能力。

实践性学习是机器人像人一样,通过物理身体与环境的互动来学习,主动感知或通过做任务的方式来感知世界,具身智能机器人将是人工智能的终极形态。

具身智能的实现路径

AI域是具身智能机器人未来发展的重要趋势,无论是工业机器人、服务机器人,还是特种机器人,AI域是赋能千行百业的前提。

非拥有AI域的机器人在流程上主要分为编程、行动、生成指令集、执行控制,通过执行已配置的业务逻辑完成固定的任务。

拥有AI域的机器人在流程上主要分为感知、评估、规划和执行控制,主要通过机器学习和神经网络不断进行迭代训练,理解人类语言指令、完成物体识别、规划完成任务路径、在最低能效下完成任务。

两者的主要区别,我们可以理解为功能机器人和智能机器人的差异,是否具有执行个性化任务的能力,是否注入“灵魂”。

微软的实现路径

目前机器人的应用基础是代码,工程师需要经常编写代码和规范来控制机器人的行为,过程缓慢、昂贵且低效。

在微软研究院发布“ChatGPT for Robotics” 的文章中,研究者使用ChatGPT大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人,ChatGPT带来了一种新的机器人应用范例。

目前已经能够通过给ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”(可乐),以及一面供无人机自拍的镜子。

另外,由Open AI牵头,联合老虎基金、挪威投资者财团,投资人形机器人公司1X合计2350万美金,正式进军机器人行业。

谷歌的实现路径

今年3月,谷歌与德国柏林工业大学的一组人工智能研究人员公布了视觉语言模型PaLM-E(Pathways Language Model with Embodied),集成了5400亿参数量的PaLM模型和220亿参数量的视觉ViT(Vison Transformer)模型,总参数量达到5620亿,是目前已知的最大的视觉-语言模型。

PaLM-E模型具备多模态能力,能够观察物理实体世界的信息,由大模型进行分析理解,再将决策结果反馈至物理世界,由此沟通物理和虚拟两个世界。

该模型在多任务中表现了强大的感知能力,机器人可以在要求下从抽屉里拿东西,然后走过去递给人;研究人员要求机器人将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆件,也能完成任务。

同时,PaLM-E通过分析来自机器人摄像头的数据来实现对高级命令的执行,而无需对场景进行预处理,这消除了人类对数据进行预处理或注释的需要,并允许更自主的机器人控制。

此外,UC Berkeley、波兰华沙大学联合谷歌机器人团队发表论文《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》,该模型结合了大语言模型(LLM)、视觉和语言模型(VLM)、视觉导航模型(VNM)。

从用户语言指令识别,到将指令与机器人视觉感知的外部环境相关联,再到任务执行时导航,全程无需用户注释即可执行自然语言指令。

特斯拉的实现路径

2023年特斯拉股东大会上,人形机器人“擎天柱”再次进化,可以实现多个机器人同时行走,并边走边发现、记忆周边环境。

除了行走之外,马斯克还展示了人形机器人电机转矩控制的能力,能做到控制力道不打碎鸡蛋,灵活抓取放下物体,各种物体均可拿捏自如。

特斯拉人形机器人是特斯拉自动驾驶的集大成者,马斯克透露,特斯拉已经打通了FSD和机器人的底层模块,机器人的核心与智能驾驶共用FSD系统,实现了一定程度的算法复用。

FSD是特斯拉全自动驾驶(Full Self-Driving)系统所采用的算法,通过对实时传感器(如摄像头、激光雷达等)获取的数据进行处理和分析,并从中提取有关道路、车辆、行人和障碍物等信息,进而实现车辆的环境感知、决策和控制。

特斯拉利用大规模的数据集训练模型,可以提高算法在复杂环境下的性能,并认为自动驾驶的本质就是机器人。

特斯拉依托自身优势,将自动驾驶算法应用于具身智能机器人,实现算法复用,比较而言,确实具有新意。

具身智能机器人的三个受益方向

通过以上梳理,个人认为具身智能机器人有三个受益方向,

人工智能考研(人工智能考研考哪些科目)

赞 (0)