日本媒体人:美中AI竞赛白热化,通用模型正吊打专用数据,日本怎么办?

栏目:互联网 | 来源:风向观察 | 2026-06-14 15:51

近日,《日经Robotics》主编进藤智则(Tomonori Shindoh)在个人社交平台上发文称,日本国内围绕“Physical AI”(具身AI/物理AI)的讨论日益热烈,出现了诸如“中美领先,日本真的没问题吗?”“日本的现场数据能否成为优势?”“能否解决人手不足?”等声音,但同时也存在混乱乃至相互矛盾的说法。为此,他在《日经Robotics》7月号上策划并撰写了大型特集《フィジカルAI 日本の処方箋》(Physical AI 日本的处方笺),从宏观角度系统梳理了Physical AI的本质、日本应如何应对等问题,并采访了多位相关人士。

进藤智则认为,物理AI并非简单的“在物理空间运行的AI”,而是能够生成机器人行动的基础模型,其价值在于泛用性(可覆盖多种任务、行业和国家)。美中已投入数千亿日元抢占先机,而日本普遍存在“曾为机器人强国,如今是否安全”的危机感。他指出:物理AI是典型的高风险・高回报技术,开发资金需求巨大且不确定,即便技术突破后还需克服安全、量产、全球竞争等社会实装障碍。

日本常流传“现场数据是致胜关键”,但最新研究(如Meta FAIR)表明:通用数据比任务特化数据更能提升性能,特化数据只需1%便已足够——通用模型正在打败专用模型。日本并不缺资金(个人金融资产约2350万亿日元),缺的是将低回报资金转化为风险投资的机制。政府已拨款3873亿日元,但最理想的资金供给方应是初创企业生态系统。

以下是原文译文:

「应如何应对和面对物理AI?」——在过去半年到一年左右的时间里,日本国内许多场合都掀起了这样的讨论。这个话题引发了包括以制造业为中心的大企业、AI及机器人技术人员/研究人员、行业团体、初创企业、行政部门等各方各面的关注,成为一个广受瞩目的议题。

美国和中国的物理AI初创企业,有的已筹集了高达数千亿日元的资金,并投入包括GPU等计算资源在内的大量资源,全力推进开发(图1)。在美中两国在物理AI和人形机器人领域领跑的背景下,曾被誉为机器人强国的日本是否真的没问题?物理AI能否依靠日本的现场数据成为致胜关键?物理AI本应成为缓解人手不足的对策?日本没有美中那样的资源,所以整个国家应该团结一致来战斗?——各种观点和意见层出不穷。

人们发现,以大规模语言模型为代表的生成AI技术,似乎也可以用于机器人的行动生成。人们期待着,生成AI领域在2022年发生的「ChatGPT时刻」是否也会在不久的将来发生在机器人领域?一旦机器人的大脑实现突破,将会给制造业为首的物理世界带来巨大冲击,或许将彻底改变产业的面貌。这是对未来物理AI的期待,也可以说是日本社会许多地方掀起讨论的原因。

本刊从2015年创刊之初就以「机器人与AI的融合」(即现在的物理AI)为主题,积极解说和报道面向机器人的AI技术。本文将趁着物理AI讨论的热潮,从包括资金在内的宏观视角,梳理日本应如何应对。我们不仅采访了机器人和AI研究者,还采访了支撑物理AI的各方利益相关者。

危机感蔓延

可以说,最近围绕物理AI的讨论,其背后都带有一种「日本真的没问题吗?」的危机感。在过去一年里,身为主编的笔者也收到了不少来自各类企业和行业团体关于这一主题的讨论邀请。尽管立场不同,但许多人共同的微妙感受是:「虽然感到危机,但却苦于找不到有效的对策」。

首先,我们来大致梳理一下如何参与物理AI。不同的参与方式,对待物理AI的态度也会完全不同。大致可以分为两类。

一类是作为「用户」的立场,即希望在自己公司的业务中使用物理AI。例如,在制造业的工厂或服务业的现场,能否用新的物理AI来实现以往用非AI机器人技术难以自动化的作业和任务。另一类则是作为「供应商」的立场,即将物理AI作为自家产品/服务的一部分销售给其他公司。这包括将物理AI嵌入机器人或各种机械设备后销售(含硬件)的供应商;通过API等方式将物理AI作为服务提供的供应商;以及将物理AI作为模型或软件栈提供给其他公司的供应商。

对于前者的用户立场,可以说现阶段操之过急地导入物理AI是不太合适的。正如本刊多次解说的,物理AI目前仍处于研究阶段,存在诸多课题,并非马上就能达到用户视角下的实用水平。如上期介绍的物理AI初创公司——美国Generalist AI的「GEN-1」所示,物理AI确实正在使一些以往机器人技术不可能完成的作业变为可能,技术确实在进步。但研究层面的技术进步与能在用户现场实际使用,完全是两回事。

诚然,日本的人手不足问题很严重,但遗憾的是,问题严重并不意味着AI技术的基础研究层面会突然出现突破。对于目前仍在研究层面存在课题的物理AI,即便尝试在用户现场进行测试,也只能实际感受到其与实用化之间的巨大差距,或摸索一下公司内部是否有勉强能用的业务。但单凭一家用户公司的力量,是无法大幅提升物理AI作为产品的附加价值的。以大规模语言模型为例,即使在GPT-1时代,用户企业反复进行GPT-1在其自身业务上的概念验证(PoC),也无法将大规模语言模型的性能提升到实用水平,只能等待供应商方(美国OpenAI)自身的努力。

那么,作为物理AI的供应商,情况又如何呢?在这种情况下,需要充分认识到物理AI是一项极高风险、高回报的技术(图2)。任何新技术的研究开发和业务开拓都有风险,但可以说物理AI的风险程度比通常的技术开发更高。

供应商致力于物理AI开发时,高风险来自两个因素(图3)。其一,虽然我们知道开发需要巨额投资,但没人能准确知道这笔投资最终会膨胀到多大规模。首先,当前物理AI的核心技术群,大多源于大规模语言模型和图像生成模型(扩散模型)等主流生成AI,在技术层面相当接近。长期(如数月)运行云上的GPU,尝试各种超参数和条件,才能获得合适的模型,这一点也是共通的。

既然与主流生成AI相近,或许有人认为开发所需投资额可以参考后者,但这并不准确。在物理AI领域,虽然我们知道尽可能多的学习数据更好,但需要收集什么类型的数据?收集多少?以什么比例、按什么课程和顺序提供?关于有效学习方法的「配方」或正确答案,在物理AI领域尚不明确。这与已进入实用化阶段的大规模语言模型等有着本质区别。

目前,物理AI使用的模型,考虑到在机器人上运行时的实时性和延迟,通常比主流生成AI模型规模更小(数十亿到数百亿参数)。仅看这一点,或许有人认为投资规模可以比主流生成AI少。但是,与处理文字等压缩离散符号的大规模语言模型不同,物理AI需要在把握和理解复杂现实世界的基础上,在输入和输出两侧处理与物理空间相对应的连续量。即使在最终安装到机器人上时,通过蒸馏、量化等处理使用保证实时性的轻量化模型,但在学习、开发能够正确理解现实世界并生成恰当行动的通用物理AI时,可能需要数千亿到数万亿参数的大规模模型容量,也就需要 frontier model 级别的巨额资金。此外,通常的生成AI与物理AI的界限可能变得模糊,进而融合。美国致力于物理AI的初创企业虽然筹集了数千亿日元的资金(图1),但这仅仅是目前已筹集的金额,没有任何保证将物理AI最终推向商用水平所需的资金会控制在这个范围内。

也就是说,物理AI的开发不仅因为单纯需要巨额投资而风险高,更因为「不知道会增加到什么程度」,这种高度的不确定性才是风险的核心。一位从事面向机器人的物理AI开发的AI研究者将这种心境描述为:「感觉就像朝着墙壁猛冲过去」。每月消耗数亿至数十亿日元用于学习用GPU,同时全力推进开发。没有人知道终点在哪里,前方可能突然出现一堵看不见的混凝土墙——这就是他们的心境。

长期以来,机器人技术的瓶颈在于大脑部分,几十年来一直未能创造出足以充分满足社会期望的价值。随着大规模语言模型的出现,以及人们发现它似乎也能应用于机器人的行动生成,技术提升的速度可以说比以前有所提高(图3)。如图3中的区间X部分。然而,尽管物理AI的技术有所提升,如前所述,与实用化所需的技术水平仍有差距。而且,「实用化所需的技术水平」究竟有多高,其本身是未知的。如果该技术水平如图3中的阈值A那样,那么只要继续收集机器人学习数据,几年后就有可能迎来物理AI领域的ChatGPT时刻(「情景A」)。但另一方面,该技术水平也可能远高于当前人类的想象,即如图3中的阈值B那样的「情景B」。

供应商致力于物理AI开发时,另一个可能的高风险因素在于物理AI迎来ChatGPT时刻之后的阶段。如图3右侧的区间Y部分。即使物理AI达到了作为「机器人大脑」相当可用的水平,只要将其嵌入机器人等硬件并在现实世界中运行,就无法与安全性等问题绝缘。在网络空间运行的通常生成AI,也可能通过与人交流言语给人类造成心理负担,或让人们相信虚假事实。而对于在物理空间运行的物理AI,则有可能对人类或周围环境造成物理伤害。应如何良好地控制这一点?目前尚未形成堪称妙计的对策或框架。如果在工厂等特定环境中,通过安全围栏与人工作区域隔离,安全性问题比较容易解决。但那样就无法充分发挥物理AI原本的能力,可用的场景和市场规模将受限。

除了安全性,对于像人形机器人那样轴数(执行器数量)多的通用机器人,搭载物理AI时还需要确保可靠性、降低成本、与初始客户反复进行PoC、处理例外情况、建立量产体制、获取各种认证、作为产品进行分发和营销、建立全球市场的支持体系等。作为涉及硬件的产品,必须克服的课题堆积如山。将物理AI视为替代人类体力劳动的手段时,与通常的生成AI不同,它几乎没有日语等语言障碍,可以在全球范围内通用销售。但这意味着必须与全球的供应商在红海中竞争,预计竞争将非常激烈。这是与存在日语壁垒的通常生成AI不同的、物理AI特有的性质。除了作为AI正常发挥作用所需的上述第一类风险(区间X),物理AI在社会实装阶段还面临着堆积如山的第二类风险(区间Y)。

高回报的依据是什么?

尽管是这样高风险的技术,为什么全球对物理AI的关注度不断提高,作为供应商致力于开发的企业也在增加呢?

这是因为物理AI具备「基础模型」的特性,其通用性可应用于众多用途和领域,有望带来巨大回报。说到回报巨大,可能会让人觉得这是有保证的,但如前所述,物理AI在基础研究和商业层面都课题堆积如山,并未保证任何成果。然而,一旦迎来ChatGPT时刻,由于其广泛性,有可能获得「巨大果实」。正是因为关注到这块蛋糕的巨大,全球范围内的开发热情才日益高涨。

在具体探讨物理AI的通用性和广泛性之前,先梳理一下物理AI指的是什么。目前,物理AI有着各种不同的定义,但本文将之解释为:「在把握和理解现实世界的基础上,生成机器人行动的基础模型」(图4)。将机器人的功能大致分类,可分为三类:用双手抓取物体或进行复杂作业的「操作」;对于有腿机器人,良好控制其行走的「移动」;以及将整个机器人移动到特定场所的「导航」。其中,当前物理AI的瓶颈在于上半身的操作。

手需要处理各种各样的物体和工具,规划抓取什么、做什么需要大量的知识和常识。要成功完成动作本身,也需要毫米级的灵巧度和微妙的力量调节。为了让机器人能够自主应对这些多样化局面,基础模型的通用性被认为将大有裨益。至于下半身的移动技术,已经基本确立,面向实用化的障碍不大(图5)。移动(步行/步态稳定化)的目的明确且单纯,不需要基础模型那样的多任务性和通用性,也没有必要通过语言与人进行指示交流。通过「Sim-to-real」方法(在计算机模拟器上通过强化学习进行试错来获取模型),已经能够制作出实用水平的模型。但其中使用的并非基础模型那样的大规模模型,大多是RNN或浅层MLP(甚至难以称为深度学习)。从驱动机器人的神经网络角度,将其纳入物理AI范畴是合理的。但考虑到模型不需要高级知识、技术已经确立、以及轮式机器人不需要移动功能等因素,本文将不把下半身的移动纳入物理AI,而主要聚焦于上半身的操作。

正是通用性和广泛性才具价值

物理AI之所以被期待带来高回报,并不仅仅因为市场规模预测巨大,而是因为可以预见,未来的「理想物理AI」应具备基础模型的特性。受其名称影响,物理AI总是容易让人只关注「在物理空间运行的AI」这一点,但其价值的源泉恰恰在于通用性和广泛性,其技术依据正是「物理AI = 基础模型」。基础模型是指:通过在各种各样、广泛的数据上对模型进行预训练,使其在使用(推理)时,只需少量额外设置、少量示例(few-shot)或仅通过提示(zero-shot),就能当场适应多样化的任务(即具备上下文学习能力)。大规模语言模型之所以能无需额外开发,当场一次性响应用户的各种提问和指示,正是因为它具备基础模型的特性。物理AI的目标就是在机器人上实现同样的事情。

重申一遍,这种理想的操作用基础模型/物理AI严格来说尚未完成。但是,一旦完成,从基础模型的定义和宗旨来看,预计它将在多种用途、领域和国家发挥作用。正因如此,全球开发才如此活跃。并非因为它是在物理空间运行的AI才让世界狂热,也并非因为人形机器人在跳舞才让世界狂热。

实际上,基础模型的价值从用户的角度很难衡量,只有从供应商的角度才能正确把握(详细后述)。这也是日本围绕物理AI的讨论容易混乱和分歧的原因所在。

图6概念性地展示了基础模型的广度。横轴示意性地表示该模型可适用的任务广度。从低层次看,机器人完成的任务有时可以用机器人所处环境的状态(s:state)和在该状态下采取何种行动(a:action)来解释。横轴表示由s和a组合而成的任务空间。任务空间本是多维空间,无法用一维图示,这里仅作说明示意。纵轴表示物理AI执行该任务(s, a)的性能水平,相当于执行敏捷性(速度或吞吐量)和任务成功率等。最近,由于物理AI性能提升,任务成功率趋于饱和,难以测量技术进化差异,因此吞吐量常被用作性能指标。

作为基础模型的物理AI,可以说是图中广度极大的模型(图6右半部分)。若类比频谱,它就像是宽带的「超宽带」一样。通过使用海量数据进行预训练,覆盖了广泛的任务空间。但是,如果水平虚线代表「实用化所需性能水平」,那么当前的物理AI在许多任务点(s, a)上还存在不足和差距。虽然在物流现场进行集装箱搬运、分拣等有限任务时,似乎已有实用案例(图中深绿色区域),但还远未达到基础模型原本应有的、在广泛任务中通过few-shot/zero-shot适应的状态。

未来,通过物理AI供应商的研发努力,基础模型的性能在广泛领域整体提升,当深绿色区域的总面积扩大到业务成立的级别时,物理AI将首次迎来ChatGPT时刻。在超过虚线之前,是渐进式的进化,但一旦在广泛领域超过这条虚线,由于其分布的广度,社会将看到非连续性的冲击突然发生。各种任务和行业将突然产生机器人变聪明的效果。此外,基础模型在任务空间中的分布形状应有凹凸起伏,即使在迎来ChatGPT时刻之后,仍未达到实用水平的任务也会在一段时间内继续存在。

与这种具有广泛性的基础模型相比,非AI的传统机器人技术相当于任务空间中极其狭窄的「棒状」(图6左侧)。类比频谱,就是具有极窄峰值的「窄带」。技术人员针对特定用途/任务专门制作动作,完成后当然能达到「实用化所需性能水平」,但仅限于在特定的狭窄状况(s, a)下运行,几乎没有灵活性,用于其他场合则需要每次都进行开发。这是传统机器人技术仅能在工厂、物流等极其有限行业的有限任务中实现实用化的根本原因。从原理上讲,通过个别制作,可以在各种行业/任务中准备这种「窄棒」,但那样投资回报率不符,无法广泛渗透社会。

现场数据是致胜关键吗?

围绕物理AI,经常有「日本企业拥有的现场数据是致胜关键」的说法(参照「日本物理AI的9个误解」)。不仅在行政文件中出现类似表述,一些大企业高管和政治家也时有类似主张。这究竟是否属实呢?

诚然,提升物理AI性能需要数据,这一点没错。但如前所述,在物理AI领域,需要准备什么类型的数据、多少量、以何种比例,有效预训练的配方尚不明确。对于「仅凭现场数据是否真的具有意味着『在全球市场获胜』、『作为平台商获胜』的附加价值」,需要再次慎重考虑。

极端来说,如果像当前下半身的移动那样,仅靠计算机上的Sim-to-real就能获得实用化模型,那么像现场数据这样麻烦的东西可能完全不需要。仅靠合成数据就能使模型达到实用水平,这种情况的可能性并非为零。Sim-to-real与动员大量GPU在计算机上制作合成数据(即前述的s, a数据)同义,它蕴藏着使现场数据变得完全不必要的破坏性威力。中国制造的人形机器人之所以能华丽跳舞、流畅打功夫,并非因为有大量现场数据,而是通过Sim-to-real,灵活运用计算资源制作合成数据,并采用无需标注的强化学习,从而获得了鲁棒的模型。

目前,Sim-to-real面向单任务倾向较强。对于上半身以多任务为前提的操作,虽然不会如此极端,但各企业拥有的现场数据在基础模型时代的物理AI中能发挥多大价值,并非显而易见。

首先,现场不仅存在于日本,而是存在于全球各国。美国、中国、欧洲、亚洲都有很多产业。它们都同样拥有现场数据。如果说「现场数据是致胜关键」,那么不仅日本,其他国家也基本一样,这并不能成为致胜战略。经常听到「GAFAM等科技巨头虽擅长AI技术,但没有现场数据。在物理AI领域,日本企业拥有的现场数据将成为相对于科技巨头的优势,是致胜关键」的说法。这也可以说是过于乐观了。首先,即便是科技巨头,美国的Amazon等公司在全球拥有大量物流现场,并且多年来一直自行开发面向这些现场的机器人,在物理AI领域处于极其有利的位置。考虑到现场普遍存在于许多国家而不仅是日本,如果像Google这样擅长AI技术的公司,通过购买本国企业的现场数据,或通过并购吸收整个企业等方式获取数据,那么「科技巨头没有现场数据」的前提也轻易瓦解。过度依赖这种轻易就会瓦解的「致胜关键论」并非良策。

不过,日本在制造业方面实力雄厚是事实,从物理AI供应商的角度看,拥有丰富的潜在客户,这可能是一个有利条件。

Preferred Networks 共同创始人、代表董事社长冈野原大辅指出:「日本企业拥有的现场数据要在物理AI领域成为决定性差异很难。」但他同时指出:「另一方面,日本产业集聚,容易收集各种现场数据;物理AI的数据收集设计、验证对象、导入对象众多,容易形成改进循环,在这方面(比其他国)或许有比较优势。」

若以提高生产力为目的则妥当

「自家拥有的现场数据具有巨大价值,是致胜关键」的说法,如果是作为用户的立场,其实并不错。因为作为基础模型的物理AI,即使在迎来ChatGPT时刻之后,其在任务空间上的性能分布也并非均匀,而是有凹凸的。当自家业务中存在即使借助基础模型也略微达不到实用水平的任务时,可以利用该用户企业拥有的现场数据,修正那个「不足的凹坑」,使其超过实用水平。特别是对于企业特有的业务、基于独特习惯的业务,再强大的基础模型也难以通过zero-shot应对,需要该企业拥有的独特数据来填补最后不足的1%或0.1%。这种提升不一定仅限于再学习,也可能以RAG(检索增强生成)的形式,即准备这些现场数据作为外部数据库,让作为基础模型的物理AI访问并参照。在大规模语言模型中,同样经常在仅靠基础模型的知识或zero-shot难以应对的情况下使用RAG。

用户企业只要自身业务能实现效率化即可,如果将通过提高自身业务的生产性来改善利润率解释为「胜利」,那么「现场数据是致胜关键」就是正确的。此外,当日本各行各业的诸多企业现场遭遇这种基础模型的「不足凹坑」时,如果能灵活运用各自拥有的现场数据,将有助于提高日本整体的生产性。东京大学研究生院教授松尾丰的研究室,虽然不是物理AI,但通过将普通AI导入日本的各个现场,估算出有望将日本的实际GDP增长率最高提升约1.6个百分点。可以认为物理AI也有望带来类似效果,如果将这些经济增长效果解释为「胜利」,那么「日本的现场数据是致胜关键」也确实是一个真理。

旧AI言论的影响?

「日本现场数据是致胜关键」的说法容易出笼,可能也受到过去关于AI的言论影响。虽然不是面向机器人的物理AI,但在大约十年前深度学习技术兴起时,还不存在当前基础模型这样广泛的模型,当时常说:「如果精度不够,自家收集现场数据,对其进行标注,再让神经网络重新学习,就能在现场使用」(图6左起第二张图)。这主要在使用CNN的图像识别、外观检查等领域被提及。图像识别领域有像「ImageNet」这样的预训练数据,但其广度相当狭窄,与当前的基础模型有天壤之别。就这样,深度学习刚出现时的说法作为AI的定式印象残留下来,即使在基础模型全盛的现在,也可能演变成了「有自家数据就能实用」→「自家数据是致胜关键」。

「现场数据致胜关键论」可以说是「你公司拥有稀缺宝贵的数据,这是其他国家企业没有的,所以你公司能在全球取胜」这样的信息。极端情况下,容易被扩大解释为「你已经处于有利地位,所以维持现状取胜概率也很高,什么都不做也没问题」。这种说法听起来顺耳,容易无抵抗地被接受,因此得以广泛传播。可以说是一种「神话」。

这种赞美日本的「现状肯定派言论」并非始自今日,可以说是以往在日本产业界讨论国际竞争力时屡屡出现的「经典言论」。近乎神话的说法容易因为「大家都说」、「旁边的人也说」而像滚雪球般膨胀,仿佛成了真理。当行业干部和权威人物反复发出这种信息时,政治家和媒体等外部层面也会将其作为「专家见解」接受,神话将进一步巩固。一旦神话破灭,由于这不是某个人首倡的说法,容易以「是大家都在说」为由逃避责任。在扣分主义盛行的日本社会,这对谁来说都很方便,是不易被质疑的便利说法。听起来顺耳的说法能给人以心理上的安心感,具有产生积极情绪的正面效果。但过度扩大解释则会歪曲事实,可能对战略制定产生负面影响。

基础模型的效应是立方的

作为基础模型的物理AI的广度(宽带特性),不仅体现在图6所示的「任务空间」,在「行业/领域」、「销售地区/国家」方面也能放大回报(图7)。甚至有极端预测,例如美国Morgan Stanley估算,搭载物理AI的通用机器人到2050年将形成超过汽车市场的约790万亿日元规模。从当前技术水平难以想象,但如果作为基础模型的物理AI能够通过zero-shot实现目前只能由人完成的烹饪、家务等任务的自动化,那么每家一台也并非不可能。与日语大规模语言模型或面向日本的SaaS不同,物理AI及搭载它的通用机器人几乎不受日语等语言限制(在接受指示的部分语言仍相关),是全球市场均可销售的商品。虽然附加了「物理AI若能真正迎来ChatGPT时刻」这一条件,但TAM(总可寻址市场)和SAM(可服务可获市场)都可能变得极其巨大。物理AI备受关注,市场规模之大也是原因之一。利用任务空间、领域、国家这三个轴,可以「立方」地发挥其宽带特性、广泛性。即便市场可以全球化,但任务空间狭窄、领域容易局限单一行业,这与非AI的现有技术有着截然不同的规模性。

当前的机器人,除了图像和三维识别部分,大多由非AI技术驱动,能做到的事情有限,仅在工厂/FA(工厂自动化)和物流等极其有限的领域普及。导入时大多需要委托系统集成商进行个别系统开发,否则无法使用。非AI技术由于通用性低(如图6的「窄棒」),必须针对个别用途进行开发,导致开发成本高昂。类比计算机历史,相当于昂贵、仅部分行业/部分企业能导入的昔日大型机全盛时代。另一方面,如果作为基础模型的物理AI得以完成,则几乎不需要额外的个别开发,只需最少的追加设置、现场的few-shot示例,或仅靠提示(zero-shot)就能实现所要求的任务。即使在基础模型直接使用时,距离用户要求的实用水平仅差1%的情况下,也可以通过在现场利用强化学习针对该特定任务提升性能(这种情况下,由于通过自主试错学习,无需准备现场数据),或通过RAG等外部数据库补充让物理AI能够参照该企业特有的业务流程/业务知识,从而在许多情况下无需大规模的追加开发。类比计算机历史,相当于廉价、谁都能轻松使用的PC或智能手机时代。

在推测这种性质迥异的巨大新市场动向时,过度依赖以个别系统构建为常识/前提的非AI机器人行业的意见和见解并非良策。以工业机器人为代表的当前机器人行业的见解,往往偏向工厂/FA领域。例如,常有人说为普及机器人「急需培养系统集成商」。作为基础模型的物理AI的宗旨和定义,是要在使用时无需大规模每次都开发。如果培养系统集成商成为瓶颈,那就不足以称为基础模型。如果仅仅将物理AI理解为「在物理空间运行的AI」,轻视其作为基础模型的本质,就容易陷入这种讨论。为了将基础模型与现有业务系统良好联动而进行的开发,以及硬件方面的一定治具开发/基础设施侧改进等,在图3区间Y的时代可能仍有必要。由于市场本身的蛋糕变大,预计系统集成商在这方面的业务总量会增加。但以非AI机器人现状为前提,讨论基础模型时代系统集成商的定位,可以说是不自然的。

在硬件方面,对于双臂移动操作器、人形机器人等,其宗旨是尽可能不改变人类使用的工具、装置和环境,直接加以利用。预计在迎来ChatGPT时刻后,物理AI将变得足够智能和高度化,能够良好地运用这些人类用的工具。反过来说,如果不轻松超过这样的阈值,物理AI的ChatGPT时刻就永远不会到来。在图3中,这相当于一直停留在情景B。

专用型被通用型击败

当将物理AI视为基础模型时,其预训练的有效配方、性质、作用等,在研究层面尚未明确。

为什么会连这种基础性的东西都还不清楚呢?因为要分析包含机器人行动、相机图像/视频等多模态基础模型的性质,需要准备多个在条件、模式上略有变化的巨大模型和数据,在GPU上长期学习并比较性能。仅一项实验就需要学习/比较多个这样的巨大模型,而要阐明基础模型预训练的性质,还需要从更多角度进行大量实验,这绝非花点GPU费用就能解决。虽然可以用小型模型进行预备实验,但基础模型存在达到100亿参数等一定规模后才出现的特性,因此仅使用小型模型的实验无法弄清物理AI基础模型预训练的真正性质。而且,这类实验属于非常基础的研究,其结果未必能直接作为投资回报对现有业务有所帮助。甚至可能根本得不到任何有益的分析结果。这也是物理AI高风险的原因之一。结果,许多企业犹豫不决,难以看清真相。无论是普通生成AI还是物理AI,近年来的大规模AI开发很大程度上具有实验科学的性质,无论聚集多么优秀的研究者,也有「不学习一个月就不知道结果」的方面。虽然可以在「总觉得这样似乎可行」、「应该可行」的预判和信念下推进物理AI开发,大多数企业也是这种态度。但这与科学地、冷静地验证分析「预训练的作用是什么?」、「什么在起作用?」完全是两回事。

不过,最近这种奥秘的一角也开始隐约可见。例如,美国Meta Platforms的研究机构「Meta FAIR」和纽约大学在2026年3月发表的论文就是典型代表。这是一项雄心勃勃的研究,利用机器人行动、图像、视频、文本等广泛的多模态数据,分析了基础模型中预训练的特性和效果,在AI研究者中引发了热议。

这篇论文中Meta的分析结果甚至具有冲击性(图8)。Meta针对某个机器人任务调查了预训练的效果。结果发现,与给予大量该任务专用化数据的模型相比,给予与该任务无直接关系的通用化数据的模型,在该特定任务上的性能反而更好。并非多样实验平均值上通用型获胜,而是在该特定任务——用图6来说就是「窄棒」这种窄带任务——的评价中,通用模型击败了专用模型(图8b)。通用模型被给予的任务特有数据比专用模型更少,但仍超过了专用模型。这可以说是反直觉的结果。通常,要完成特定任务,会认为收集大量该任务专用化数据(即所谓的现场数据)的模型会获胜。但结果恰恰相反。

Meta为了进一步调查专用型数据可以少到什么程度,在预训练数据中改变了专用型数据的比例,并测量了各自的性能。图8c显示了令人惊讶的结果:专用型数据只需要占预训练数据整体的1%就足够了,再增加也几乎不贡献性能提升,趋于饱和。考虑到Meta的这一研究成果,「日本现场数据是致胜关键」的说法就更加可疑了。

Meta使用的是预测世界模型式动态的任务「NWM(导航世界模型)」。它假设了机器人的移动任务(导航)。给定机器人相机图像的时间序列,当在该状态下执行某种机器人行动(action)(移动)时,会生成/预测下一时刻的相机图像——即预测图像帧(图8a)。任务专用型数据正是这种时间序列图像与机器人行动配对的数据。而通用数据则是与该任务无关的网络上的普通视频、或图像及其说明文本的配对。

Meta的实验中,环境是静态的,并且并非未来物理AI主角的上半身操作任务(环境是动态的),因此不能直接全盘接受其结果。但是,正如本刊2026年3月号解说的美国NVIDIA的「Cosmos Policy」、4月号解说的「DreamZero」所示,在聚焦于操作的物理AI前沿研究中,也显示增加视频等通用数据比增加机器人遥控操作数据等任务专用型数据更能提高性能,这与Meta的研究结果方向一致。此前,物理AI领域以基于大规模语言模型的VLA(视觉-语言-行动)模型为主流,但以Cosmos Policy和DreamZero等视频生成模型为基础的世界模型式方法正作为有前途的方法崛起,在性能上逼近。所谓「现场数据」,往往应该是针对某种业务的特化数据。Meta的研究、NVIDIA的Cosmos Policy和DreamZero等近几个月的最新研究显示,大量只有这种「专用型数据」并不有效。基于这一点,「现场数据是致胜关键」的说法也不应照单全收。

现场数据含义的变化

首先,「现场数据」究竟指什么?通常认为日本企业有优秀劳动者支撑的「良好现场」,但常被指未能将其「以能用于AI的形式数据化」。

如果现场劳动者的素质好,那么通过模仿学习等方式收集这些人的动作,可以为制作良好的物理AI模型打下基础。但能以可被AI使用的形式拥有这种人的动作数据的企业恐怕很少。且不论「现场数据是否致胜关键」,「现场数据」本身很可能就不太存在。

也有说法称,由于日本制造业强大,因此「积累了机床和工厂等设备的运转数据」。但当前技术正在发展的物理AI,基本上根植于人的体力劳动。因为现有设备和装置周边无法交由机器完成的作业,目前仍必须由人完成,否则无法自动化。所以潮流是收集人体力劳动的轨迹,将其变为物理AI模型,让通用机器人去做。

明明是在为设备和装置难以自动化的、被赶到设备和装置「外部」的「琐碎无名的体力劳动」的自动化而苦恼,即便积累了「设备和装置内部」的运转数据,也无法作为面向通用机器人的物理AI来使用。这些「设备内部运转数据」对于IoT中的设备故障预测和预兆保全很有用,但似乎人们将之与物理AI混为一谈了。这一点也容易因为物理AI「在物理空间运行的AI」的侧面被单独强调,而与IoT混淆,产生「因为是物理空间,所以设备/装置的运转数据也相关」的误解。由于「物理AI」这个名称,难免被误解为包含了IoT等设备/装置,因此干脆取一个能直接让人联想到人体体力劳动的名称,比如「体力劳动AI」、「劳动AI」可能更准确。如果是预兆保全,无需拿出基础模型这样的大规模工具,用现有的机器学习技术应对就好。

目前,物理AI的学习数据,经常使用人远程操作机器人的数据(表1)。使用远程操作用的专用设备和机器人本体,记录远程操作时的手部姿势/关节坐标的时间序列,以及此时的机器人相机视频等。据说在中国,设置了大量被称为「数据收集工厂」的场所,在那里配置大量机器人和远程操作员,在模拟家庭内、店铺内的环境中收集数据。受此影响,经常有人指出日本也需要建立数据收集工厂来追赶。

然而,数据收集手段和数据类型正朝着轻量化的方向发展。典型代表是本刊上期介绍的美国Generalist AI的「GEN-1」。它主要使用名为「UMI(通用操作接口)」的手持设备收集数据。这就像只把机器人的手腕和手部相机切出来的装置,由人手持着执行和记录任务。由于不需要昂贵的机器人本体和远程操作用设备,收集效率高,在相同资源和资金下能制作更多数据。正因如此,Generalist AI才能用GEN-1实现高性能。代他们发言的话,可能会认为「用数据收集工厂进行机器人远程操作来制作数据是落后且毫无意义的」。在日本,人们往往过于关注数据收集工厂这样的有形硬件和基础设施,而对AI中本质的无形软件技术关注不足。

如前所述,如果在半身操作中,像Sim-to-real这样在计算机上进行大量试错的方法也达到实用水平,那么甚至连通过远程操作或UMI收集的数据,在物理AI中变得几乎不需要的可能性也并非为零(表1)。目前虽然在接触力模拟精度等方面有困难,但不能说没有解决的可能性。那样的话,就无需特意用模拟手段和实时时间费时费力地收集人的动作,通过GPU上的强化学习探索,甚至可能自动发现人类都想不到的优秀动作和隐性知识。在GPU上的模拟中,由于可以并行且比实时更快地推进时间,甚至可以运行以万年为单位的试错。这样一来,是否拥有现场数据就无关紧要了,能调动大量计算资源的企业才更有利。这对于认为「现场数据是优势」的一方来说,是一个非常难以接受且不利的局面。

又是苦涩的教训?

人类总是容易认为,自己长年积累的创意、智慧以及专家的高度知识应该有用,不可能没用。然而,在AI/机器学习领域,这种「专家见解」败给计算资源的规模化/探索的事态已屡次发生,这种现象甚至已经有了名字。

它的名字就是「苦涩的教训」(图9)。这是由奠定强化学习领域基础的巨匠Richard Sutton提出的,对AI研究者而言是非常著名的警句。

研究者试图运用自身高级知识,设计优秀的算法、方法和特征量,但最终,人类随意设计的方法,屡屡败给从海量数据中灵活运用计算资源推导出的方法。从研究者立场看,这是一种「悔恨」的苦涩。当前物理AI的「收集人类动作是好的」、「特定任务数据有用」等配方,或许也只是人类一厢情愿的想法,不能否认它可能成为苦涩教训的又一个事例。

那么,应该怎么办?

至此,我们了解了当前物理AI的性质。那么,日本应如何应对物理AI这一主题呢?

考虑到物理AI具有「立方」效应的高回报性,即使高风险也应该挑战。否则,将无法在未来巨大市场中分得一杯羹。虽然也可以采取等到了图3区间Y阶段再追赶的战略,但国家战略不应局限于一种,最好持有几个选项。应该也实施尽早投身于这场竞争的战略。

那么,能够覆盖这种高风险、高回报投资主题的资金是什么呢?这里常听到的说法是「日本没有资金」。

的确,日本的研究者和技术人员在现场常常缺乏足够的开发资金,从技术人员的微观感受来说,这无可奈何。但「日本没有资金」是另一个问题。日本曾是全球第二大经济体,由于其过去的辉煌,至今仍拥有约2350万亿日元的个人金融资产,企业留存收益总计达630万亿日元(图10)。这在全球也是顶级的规模。从宏观层面看,完全不能说「日本没有资金」,应该说资金非常充裕。

问题在于,这些资金的大部分被固定在低回报率上,没有作为「产业血液」、作为风险资金有效循环。例如,个人金融资产的约5成是低利率的银行存款/现金,它们被用于企业融资或国债等。在「安心安全」被视为美德、人们强烈追求这一点的日本,追求高回报而承担高风险的态度容易被指责为「贪婪」、「失败了怎么办」、「太鲁莽」。结果,社会的各种利益相关者害怕「被扣分」、「被谴责」,决策容易趋向于「低回报率」。但面对物理AI这样巨大的机遇,即便只是一部分,也有必要加以改变。即使只有少数人敢于逆潮流挑战,一旦成功,一定会成为转变风气的契机。只要出现一个本垒打级别的成果,社会就可能以之为榜样而改变。物理AI领域的「未来NVIDIA」出自日本,也并非不可能。

能为物理AI所需数千亿至数万亿日元提供资金的主体有三个(表2):①日本政府(一般会计和特别会计等);②大企业的研发投资;③初创企业生态系统。

首先关于①,随着高市政权上台并转向积极财政,AI相关预算得到扩充。2026年3月,政府也出台了「AI机器人战略」,针对物理AI,2026年度预算将拨出3873亿日元(正式项目名称为「着眼于AI机器人/物理AI的多模态基础模型开发项目」)。据说,由软银、NEC、本田等出资的「日本AI基础模型开发」企业计划申请该项目。这是资金规模可期的举措,但考虑到物理AI未来的市场规模,不应仅限于国家项目支援企业,应该出现更多的挑战者。国家项目可能因使用政府资金而需要顾及公平性,以及众多利益相关者参与导致协调和决策速度滞后等缺点。

关于②,大企业存在创新困境,难以投资高风险、高回报的新业务。拥有630万亿日元的巨额留存收益,反过来也说明它们多年对风险资金投资消极,资本效率低下。日本的「失落的20年」正是这种消极态度的佐证。即使是大型投资,如果是像工厂建设这样容易说明投资回报率的项目,企业容易迈出一步。但像物理AI这样不确定性高、与现有业务的协同效应也难以说明的项目,门槛就更高了。尤其像大企业,因为拥有某些现有业务,其视角容易偏向特定业务或领域,作为用户的立场,可以说难以充分发挥基础模型本来的广泛性和通用性。

鉴于这种情况,最适合为物理AI提供风险资金的是③初创企业生态系统。初创企业生态系统本就是为了提供风险资金而设计的机制,最适合像物理AI这种高风险、高回报、不确定性高的投资项目。它不受现有业务束缚,能充分发挥作为基础模型的广泛性。

那么,日本的初创企业生态系统能否支撑物理AI这一紧迫的投资主题呢?在后篇中,我们将详细探讨这一点。

日本物理AI的9个误解

误解1 「GAFAM没有的现场数据是日本的致胜关键」

这取决于对「现场数据」的定义,但现场并非只存在于日本。日本以外的国家和地区也有无数现场数据。美国、中国、欧洲、亚洲都有很多产业,都同样拥有现场数据。快餐厨房、厕所清洁、物流现场、农作业遍布全球。最好先摒弃「日本特殊」的前提。而且,即使日本拥有强大的现场,如果不能将其数字化为物理AI可用的形式,也没有意义。「现场数据是日本致胜关键」这一说法,对于容易对物理AI这类新市场/新技术犹豫不决的日本大企业,能起到赋予积极勇气的效果,作为鼓舞国内企业的口号是出色的,但其内容本身可以说是过于乐观且简化了。

误解2 「将匠人技艺、职人艺术转化为物理AI是日本的致胜关键」

物理AI的实用化顺序应该是:先从「多数人谁都能完成的低难度任务/动作」开始事业化和普及,然后在技术相当进化之后,才终于能将「匠人技艺」AI化。考虑到Meta Platforms的Meta FAIR关于多模态基础模型的论文结果等,用人类自我中心视频等广泛的多模态数据预训练的物理AI,未来即使没有「日本优势的现场数据」,也可能通过zero-shot或few-shot完成「任何人能做的任务」。劳动力市场上充斥着像兼职打工那样的「无经验者OK」的任务和工作。目前由于物理AI技术水平不成熟,机器人难以完成,这些任务由人来做。但一旦物理AI迎来「ChatGPT时刻」,预计首先实现机器人化的将是无需高级知识的打工类任务(用最近的流行语来说,是「Timee先生」完成的那种任务),然后在那里占据份额的供应商,将以其赚取的资金为优势,进军职人技艺/匠人艺术。因此,目前在日本流传的「将职人技艺/匠人艺术转化为物理AI是日本致胜关键」的说法,其顺序很可能是反的,可以说没有正确理解基础模型的特性/定义。

误解3 「物理AI的波及效应是渐进的」

诚然,在研究层面,通过踏实的改进积累,会渐进地改善。但是,像物理AI、大规模语言模型/生成AI这样的基础模型,其社会冲击力在技术水平超过某个阈值的瞬间,有突然增强的倾向。也就是说,即使技术进化是渐进的,社会冲击看起来却是非连续发生的,这是基础模型的特性。这是因为基础模型是指向「通用性」——即可使用局面(状态)分布广泛——的AI。大规模语言模型的ChatGPT时刻正是如此。在技术水平超过这个阈值之前(如GPT-1时代),用户无论如何反复进行PoC,也很难在现场使用,作为产品的附加价值也很低。然而,一旦超过阈值,就会突然影响广泛的用途和产业(虽然能否实际使用还需要克服安全性等课题,但任务在技术上变得可能,这本身就是巨大冲击)。我们需要摆脱深度学习兴起初期、CNN主流时代常说的「自家收集现场数据并标注,微调ImageNet等就能用于自家业务」这种旧AI印象。基础模型的定义和宗旨,正是无需再学习,仅凭zero-shot、few-shot或最少的追加开发就能适应广泛任务的模型,其核心正是通用性。用户往往只对自己公司的任务感兴趣,倾向于用个别任务的性能(纵向)来评价基础模型,但其本质价值在于这种广泛性(横向)。基础模型的宗旨是致力于横向扩展而不是纵向高度,以此来增加面积,产生作为事业的附加价值。如果每次都需要用「我公司引以为豪的现场数据」进行微调才能使用,那虽然是AI,但不是基础模型。当今世界关注物理AI,并非因为它是「能在物理空间使用的AI」,而是期待「具有基础模型特性的AI也能在物理空间使用」。一旦物理AI作为基础模型在物理空间实现实用化,除非是部分非常特殊的职人艺术或困难任务,否则无论产业或用途,都只需最少的追加设置/构成,就能应用于广泛的用途。正因如此,它才会对社会产生非连续性的影响。当前的生成AI在个别用途上虽有限制,但无需个别开发和微调就能在广泛用途上发挥作用。情况类似。在深度学习普及的5-10年前(基础模型出现之前)与现在,AI的特性已完全不同。但不熟悉AI的日本大企业等,往往至今仍相信深度学习初期流传的说法。

误解4 「物理AI在研究层面的课题已经解决,剩下的只是社会实装」

目前,物理AI在基础研究层面仍有许多课题,认为「研究层面的课题已经解决」是不太正确的。关于预训练的效果/配方、有效预训练的方法等,对人类整体来说还有很多未知因素。要打破这些基础研究层面的课题,只能靠拥有机器学习高级知识的全球众多研究者激烈竞争、暗中摸索、寻求突破。遗憾的是,苦于人手不足的用户企业,无论现在在现场如何想办法寻找用途,也无法直接帮助打破这些基础研究层面的根本性课题。如果要打破研究层面的根本课题,就必须像GAFAM和世界各地的初创企业那样,自身拥有大量具备高级知识的机器学习研究者,做好进行数百至数千亿日元规模高风险投资的觉悟,投身于这场世界级的竞争。

误解5 「物理AI是人手不足的救世主」

长期来看,这可能是正确的,但附加条件是物理AI能顺利迎来ChatGPT时刻。预测何时到来极其困难。它可能在数年内到来,也可能因为将技术提升到能产生作为产品或服务的附加价值需要出乎意料地长的时间,大约10年后才终于迎来物理AI的ChatGPT时刻。自动驾驶在10多年前曾备受关注,但在之后的10年里苦于实用化,同样的事情也可能发生在物理AI上。基于基础模型的特性,物理AI一旦ChatGPT时刻到来,将给社会带来巨大回报(高回报),但ChatGPT时刻是否真的到来、何时到来,不确定性极高(高风险)。它是典型的「高风险、高回报」技术,但需要留意的是,其风险程度(开发所需资金规模)以及一旦成功后的通用性/分布广泛程度(回报),都与通常技术有着天壤之别。

误解6 「日本没有资金,因此难以与美中正面较量」

日本的研究者和技术人员经常因自身开发项目资金不足而苦恼,容易将这种现场感觉直接外推到宏观层面,发牢骚说「日本没有资金」。但这种见解是错误的。日本曾是全球第二大经济体,至今个人金融资产仍约2350万亿日元,企业留存收益合计约630万亿日元。即使日本最近经历了「失落的20年」,这笔资金积累在全球来看也是顶级的。并非「日本没有资金」,而是这些资金没有作为「产业血液」有效循环。各个现场感到「没有资金」是无可奈何的,但从日本整体宏观来看,可以说资金相当充裕。日本人害怕风险的保守倾向、以及挑战失败后会被「看我说什么来着」责备的扣分主义风气等,将这笔巨额资金的大部分固定在了低回报率上,阻碍了部分「血液」作为风险资金循环。实际上,个人金融资产的约5成是低利率的银行存款/现金,大部分流向大企业融资或国债。企业拥有630万亿日元的留存收益,但许多大企业陷入创新困境,对于工厂建设等与现有业务有明确协同效应的投资,容易说明投资回报率而做出决策。但像物理AI开发这样,如果不广泛横向扩展到现有业务以外的新市场就难以收回投资的项目,作为供应商来看风险高,难以迈出一步。像物理AI这样的高风险、高回报投资主题,本应由初创企业来应对。但如后篇所述,日本至今未能向初创企业生态系统输送足够量的风险资金和人才。「日本资金本身是有的」,因此只要改善资金循环的机制和动机,日本一定能改变。考虑到物理AI的竞争与机遇,剩下的时间不多了。现在正是应该行动的时候。

误解7 「日本使用美国制造的物理AI即可」

除了经济安全保障和安全的语境,单纯从作为供应商涉足物理AI的个别企业视角来看,将物理AI这种「机器人的大脑」要素依赖其他企业,在事业上并非理想战略(仅作为用户使用物理AI的企业另当别论,此处除外)。最终取决于个别企业的事业战略和商业模式,虽然可能有依赖其他企业也能成立事业的情况。但考虑到今后在机器人和机器人服务的附加价值中,AI和后台系统等软件侧的比重会增加,能够自身内部控制可能成为附加值核心的物理AI,自由度会更高。目前虽然有部分开放的物理AI模型发布,但无法保证会一直持续。一旦物理AI迎来ChatGPT时刻,很可能像普通生成AI的前沿模型一样,走向封闭化方向。届时,昔日的开放模型将因过时而无法使用。在机器人领域,为了确保实时性,需要在本地(边缘侧)运行模型,但能够隐匿模型参数的「可信执行环境」和「机密计算」框架未来也可能不仅限于云端GPU,还扩展到边缘GPU。此外,物理AI上位侧的模型关于云端通过API执行可能就足够了。这样一来,与当前生成AI一样,机器人行动生成(物理AI)也将以全球平台商的按量付费为主(即使本地执行亦然),每次通用机器人进行智能动作时,支付给平台商的费用就会增加。结果,可以预见,仅从事机器人硬件本身,事业的吸引力将减弱。在物理AI领域,与其只做硬件侧,不如能自己制作出可成为全球平台商的、前沿模型级别的产品。

误解8 「与人形机器人相比,工业机器人速度慢,因此在工厂/FA中无法使用」

工厂内也有很多不需要速度的作业和任务。正因为如此,当前的工厂内根据工序不同无法完全无人化,有大量人员。在那里,人们并非像工业机器人那样以肉眼无法捕捉的速度飞速运转。一旦物理AI迎来ChatGPT时刻,它带来冲击的方式将是完成人们从事的无数「无名任务」、「繁杂任务」的集合。物理AI的价值并非仅仅因为它是「在物理空间运行的AI」,而是因为它具备基础模型的特性。将物理AI安装到人形机器人或通用的双臂移动操作器上时,其价值也不在于特定任务的绝对速度,而在于无需特别开发就能完成的任务的广泛性。即使在工厂内,工业机器人之所以被使用,也往往是因为其可编程性、灵活性等能应对的任务具有一定广泛性。如果追求绝对的生产性或速度,为特定任务构建没有可编程性的专用机会更快。实际上,在畅销、需要大量生产的产品的制造中,常常跳过工业机器人这一选项,采用仅面向该产品的专用机,追求极致生产性。为了享受可编程性这种广泛性/通用性,当前的工业机器人已经接受了速度逊于专用机的事实。工业机器人与通用机器人之间的关系也类似于此。乍看动作比工业机器人慢,但如果由于物理AI技术成熟,其灵巧性、广泛性、通用性超过阈值,作为事业就有足够价值。原本,物理AI和通用机器人的最终主战场就不是工厂/FA等特定领域。主战场是目前机器人技术难以自动化、不得不由人进行的广泛任务/作业,乃至一般家庭内的任务。速度当然是越快越好,但只要能实现与人同等程度的速度,就有足够价值。特别是在没有安全围栏、与人共用同一空间运行这类通用机器人时,反而速度超过人是危险的,因为难以确保安全。可以说,「比工业机器人慢所以没用」的指摘是不得要领的。

误解9 「把握、识别物理空间也是物理AI」

虽然物理AI需要这类要素,但仅「把握、识别物理空间」不构成物理AI。如果只关注「把握、识别物理空间」,这一领域更应被称为「空间AI」或「空间智能」。仅因为处理物理空间,就将单纯的三维重建或Gaussian splatting等技术领域视为物理AI,有些过度扩大解释。同样,构建元宇宙三维环境或数字孪生的举措,仅此而已也很难说是物理AI。有了精确的三维环境,虽然容易实施Sim-to-real等,推理时也容易进行行动规划,但这终究只是环境建模的一种。将单纯的数字孪生或IoT视为物理AI,只会强调物理AI的物理侧面,而轻视、贬低了其本质——作为基础模型的侧面。无论是VLA模型、视频行动模型,还是世界模型,其核心在于不仅限于把握、识别,而是伴随着行动等某种「生成」——这正是当前技术进步、被世界所期待的领域。

← 返回首页