GPT-5临近上线,中美AI差距悬殊?这个国产方案「弯道超车」抢先狙击
文章来源:新智元
【导读】GPT-5「如来」,网上的小道消息已经传得漫天飞。然而,无论是GPT-4.5还是GPT-5,实际上未必适用于所有场景。
GPT-5真来了?
昨天开始,这张图传得满天飞。
Copilot Pro的付费会员,竟然可以用GPT-5了?
虽然点进详情页之后发现大概率是「手抖」打错了,且目前已经被修正,但看得出来,大家都在期待OpenAI赶快发布新模型。
与此同时,网友最近还发现,一款号称是GPT-4.5 Turbo的模型,竟然同时出现在了多个搜索引擎的结果里!
也不怪大家这样满城风雨,Altman本人都下场暗示了:OpenAI在前方还有「重要任务」,自己已经「迫不及待想展示我们的下一步计划了」。
3月9日那天,Altman回复Jimmy Apples说:「耐心些,Jimmy,等待是值得的」
GPT系列的飞速迭代,让我们看到了AGI的「曙光」。
最近,OpenAI CEO Sam Altman、英伟达CEO黄仁勋都认为,AGI将在五年内实现。而这两天轰动全网的全自动AI软件工程师Devin,也被认为是AGI智能体的雏形。
这其中就有不少唱衰的声音——国内外的差距,果然越来越大了吗?
其实不然——GPT-5的快,只是在通用模型上,然而AI究竟如何真正产品化、成为生产力,现在谁都没有一个确切的答案。
不过,许多业内人士有这样一个共识:在这方面中国很可能弯道超车,实现全球领先。
为何?
首先,我国拥有全球最丰富的业务场景,全球最全的制造业。
另外,我国还有着最大规模的创新队伍,拥有最多的AI人才。
前不久发布的全球AI人才报告显示,全世界顶尖AI人才中,几乎每两人中就有一人是中国培养出的人才
坐拥这样的人才宝库,同时还手握着大把丰富场景,我们很可能会在大模型的行业应用落地上后发制人,赶超国外。
弯道超车的秘诀,就在下面这篇文章里。
企业,真需要「大」模型吗?
大家都知道,ChatGPT和Sora,都可谓是「力大砖飞」的产物。
不过,这种大力出奇迹的暴力美学,恐怕在企业侧却并不一定适用。
对于企业来讲,大模型之「大」可能并不是唯一的诉求,甚至可能恰恰跟客户所需南辕北辙。
通用大模型的过人之处,在于跨领域的通用,以及追求通用的过程中涌现出来的能力,如很强的推理能力、逻辑能力。
ChatGPT是什么新鲜事物吗?显然,在图灵奖巨头Yann LeCun看来,它在技术上并不新。
那究竟是什么,推动了GPT现象级的成功?
答案很简单,就是庞大的高质量语料——它们才是模型迈向更深层次智能的关键。
如果说有什么是全世界没有一个人做到、只有OpenAI想到且做到的,那就是他们系统性地将多源、复杂、信息密度差异巨大的知识「原料」,转为了让模型成长的教科书。
人工和自动化相结合的策略,让「原料」通过「数据飞轮」源源不断地转了起来,最终造就了GPT这个性能巨兽。
而企业所需要的行业大模型则需要垂直且可靠。
比如你可以让通用模型帮你写诗,帮你画画,这些都属于通识。
相比之下,煤矿企业往往需要远程采煤运煤,这就需要煤矿大模型看得懂采、掘、机、运、通、洗、选七大作业面的场景。
而气象大模型,则需要掌握历史天气数据,从而更好得预报天气。
从力大砖飞,到现实落地
不过,对于大型政企客户而言,大模型的真正落地,却仍然困难重重。
1. 数据安全:
企业要想模型用得好,私有数据不能少。
但是企业私有数据离开本地数据中心,上载外网给大模型厂家去训练,对政企来说存在安全风险,也不符合监管政策要求。
2. 开发迭代:
既然公有云上的大模型不能用,那么企业能不自己建一个呢?
但是,大模型是目前为止人类最复杂的IT系统工程,如果企业想从0到1,靠自己训练出大模型,即便有充分的高质量数据集,但所需耗费的资金、算力、人才依然是一笔巨大且长期的投入,显然是非常不经济划算的选择;与此同时,直接使用开源模型,也存在着诸多问题。
因此,最好的办法就是找靠谱的商业大模型和成熟工程化能力的供应商,提供一站式的建设、部署、训练等解决方案,自身聚焦到业务创新和场景结合。而且,这个供应商最好还能有成熟的工程化服务。
3. 算力问题:
大模型落地,远不止大模型本身,还包括一系列配套的领域,尤其是算力。
算力的缺口未来会越来越大,在这个背景下,用好有限算力的重要性就不言而喻了。
因此,一个能同时满足本地部署、简单易用、性能优异的行业大模型,就显得非常必要了。
本地or上云,二者不可兼得?
我们都知道,大型政企客户的生产场景复杂多样,传统AI方案开发的模型复制到其他生产单位后,通常都会出现识别精度断崖式下降,无法推广复制的问题。
因此,把企业的用户数据、行业数据,甚至图谱或规则,放到大模型里继续训练,就能解决好行业问题,还能克服很多幻觉。
尤其在政企场景下,存在海量生产碎片化的情况,而工业生产推理因时延要求和带宽限制,需要在生产边缘部署管理。
例如在煤矿,一个大型的煤矿集团通常都需要将大模型能力部署到分布在各地的大量矿井,部署点位通常可以达到数千个。
如何高效部署、更新、持续收集异常样本成为企业规模化、集约化使用AI的一个难题。
而且工业生产普遍缺少负样本数量,原始模型精度往往有限,需要在使用过程中,边用边学,把新发现的异常样本及时上传到中心帮助大模型持续迭代,并及时把最新的能力快速的发放到海量的边缘,从而实现问题的精准监测,越用越聪明。
那怎么解决这些问题呢?
基于这个需求,一种全新的方案被提了出来——基于本地部署具备边云协同、软硬协同的混合云,来构建大模型。
具体来说就是,依托公有云上丰沛的算力资源,打造预训练基础大模型,利用混合云架构将大模型同步到企业本地,用企业私有数据对基础大模型来进行微调,然后推送到边缘做推理。
如此一来,既能满足业务创新诉求,也能缓解企业对数据安全和隐私的担忧,同时还能避免大量资金和人力的投入,实现大模型能力的快速建设。
而这无疑是政企实现智能化的更优选择。同时,也将成为未来行业大模型的重要部署形态。
开源大模型,还是商用大模型?
对于上面的第二个问题,如果想要从0设计开发大模型,所需的不仅仅是上亿元的巨额投资,往往还得准备一个至少由十数名AI博士组成的专业人才团队,最后还不一定能达到预期效果。
显然,对于企业的应用来说,这种「费力不讨好」的重复造轮子,是完全没有必要的。
那么,我们是否可以借助现成的开源大模型,来构建专属大模型呢?
对不起,很难……
首先,企业选出来的大模型,从参数规模到准确率,再到泛化性等层面,最终能否满足业务场景的需求,实际上是一个未知数。
其次,大模型的开发和部署是一个系统性工程,而开源大模型往往缺乏完善的工具链支撑。如果企业想要对模型进行二次开发或者精调,面临的将会是一连串非常复杂的挑战。
第三,在整个过程中,企业不仅需要自主选择AI算力、框架,还有模型的部署模式等等。如果缺乏必要的软硬结合的调优能力,将难以充分发挥算力潜能。
如此看来,相比起看似「0成本」的开源大模型,商用大模型显然更适合企业们的体质。
正如之前所讨论的,数据的质量,决定了我们能不能微调出可以真正解决实际问题的专属大模型。
而这里就涉及到的,便是模型供应商的数据工程能力了。
在企业中,数据样本散落在生产的各个环节里,收集起来非常困难。
在这里,供应商必须具有从获取、清洗、标注到管理的全链路专业服务能力,才能保障企业客户的高质量样本数据供给。
并且,还需要了解行业Know-how,让模型紧密结合行业经验知识。
因此,成熟的、工程化能力强的商用大模型,将会是企业应用的首选。
建设大模型,更要建设算力
曾经的LLM大战,Meta迟迟没有动作。后来被外媒曝出个中原因,竟是因为GPU成本太高,于是一直在用CPU跑AI。
而决定重点科技树的Meta,即将在今年年底部署总共约60万颗的GPU来运行和训练AI系统。但后果就是,他们必须费老大劲重组数据中心,来适应这些新的GPU。
如今,算力紧缺已是不争的事实,如何高效利用有限算力,已成为大模型角逐的关键。
因此,选择合适的基础算力架构,对于大模型的商用来说至关重要。
机器学习先驱Rich Sutton经典文章《苦涩的教训》前一阵再次爆火:AI如果想要长期获得提升,利用强大的算力才是王道
在这里,最核心的底层技术点,主要有两个:算力靠GPU,协同靠网络。
那么问题来了,对于算力:
- 由于历史批次采购、硬件设备持续演进等原因,如何在超异构集群环境下实现大模型训练的加速。(其中通常包括不同型号GPU、不同型号服务器、不同型号NPU等)。
- 在政企场景下,如何在众多街道、厂区边缘场景部署安装的少量推理算力资源上,最大化接入更多的推理(视频)数据进行分析。
对于网络:
- 当分布式AI模型训练节点规模不断增大时,参数同步带来的通信开销比重也会随之大幅增长。
- 大模型训练平台网络的有效带宽、时延抖动、可靠性是提升训练效率的关键因素。然而,当前的智算中心网络却面临着链路负载不均衡、拥塞控制机制、集群网络性能受限等非常严峻的挑战。
为了解决这些问题,几个可行的方向是:
- 优化技术架构和算子
- 减少计算图的大小和复杂度
- 降低计算时延
- 减少模型的存储空间
- 降低模型的部署成本
- 高效、可靠地实现深度学习应用
在此基础之上,通过更强的网络和调度算法,我们就可以让同样的GPU算力,发挥出200%的性价比。
还有很重要的一点,就是让AI模型无感地兼容不同的架构、不同厂商的算力,无需担心硬件适配能力。
这是因为,由于现在并没有业界通用的方案,不同厂家的协同很容易出现问题。
因此,在算力的解决上,需要软硬件协同的整体方案,做到软硬配合,才能让算力发挥更高的价值。
要知道,基础架构的调优过程,是一个自上而下的过程——
由训练软件提出具体的性能指标和可靠性要求,再在IaaS基础设施层针对各种调度优化场景,进行相应的设计优化,软件+硬件的共同配合调优,才能达到最佳。
在这种情况下,拥有全栈产品的厂家,才能拥有更大的优势。
问题何解?
正如前文所说,既能兼顾本地部署,又能实现深度用云,还能保证数据安全和模型性能的方案,就是「混合云+大模型」了。
根据《深度用云展望2025》报告预测,中国人工智能市场空间到2025年将超过4000亿元。其中,75%的企业将会使用AI大模型,而基于混合云的AI大模型占比将达到38%。
在这个赛道中,华为云Stack称得上是行业佼佼者。
从2019年开始,华为云就下场大模型研发。盘古大模型从一开始,就是为行业而生,赋能行业创新。
而华为混合云也是专为大型政企客户,量身定制的解决方案,历经了多年的市场和政企用户的打磨。
可以说,从基础设施、到算力、算法、开发框架等全栈的AI能力,华为为整个行业打造了一款智能的AI云底座。
为政企而生的大模型和混合云
2023年7月,华为云发布了面向行业的系列大模型——盘古大模型3.0,包括「5+N+X」三层架构:
其中,L0层包括盘古视觉大模型、自然语言大模型、预测大模型、多模态大模型和科学计算大模型。参数量涵盖100亿、380亿、710亿和1000亿,能匹配不同场景、不同时延、不同响应速度的行业多样化需求。
L1层是面向煤炭、政务、金融、电力、油气、交通、制造等行业提供的行业大模型。
L2层是客户/第三方运营公司基于L1行业大模型并针对业务开发的场景化模型,做到了「开箱即用」。
盘古大模型最大的特点是,采用了完全的分层解耦设计,能快速适配、快速满足行业的多变需求。
客户不仅可以为大模型加载独立的数据集,也可以单独升级基础模型,以及单独升级能力集。
基于L0和L1基础模型,客户凭借大模型行业开发套件,可对自有数据二次训练,便可以定制专属自己的行业大模型。
此外,2023年11月,华为云Stack面向政企客户重磅推出了业界首个大模型混合云,可以帮助一站式打造完整的AI生产链。
具体讲,它提供了坚实的算力底座,通过完整的AI生产链,以及云服务,可以实现一卡多用,千卡大规模训练30+天不中断。
华为云Stack将软硬协同、云边协同、安全合规等优势全部呈现,能够解决传统方案的供应风险和数据安全问题。
华为云Stack目前,已经在10+行业已经落地大模型混合云,提供了从规划、建设、开发、培训、运营端到端专业服务。
比如,承担了市级公共数据授权运营职责的上海数据集团,就选择了华为云Stack。
双方联合构建了数据授权运营平台,完成了全市3000+公共数据汇聚。并发布了普惠金融3.0,服务33家金融机构,为产业标准、确权定价、流通交易、安全保障提供了最佳实践案例。
山东能源也基于华为混合云平台,构建了一个矿山大模型,让矿山的AI开发模式从「作坊式」向「工业化」升级,实现了煤炭行业「模」力蜕变。
它采取的正是公有云测试、混合云部署的路线。这不仅更好地平衡「安全」与「懂行」的矛盾,而且还满足了「数据不出企」的安全底线。
如今,已经有40多个AI应用场景基于盘古矿山大模型开发出来。构建的AI配煤系统,可以为年消耗量成百上千万吨煤的炼焦厂每年节省成百万到上千万。
而急需从「制造」向「智造」转变的长安汽车,就依托依托华为云Stack打造了集团+工厂的云边端协同架构,把渝北新工厂重构为了一座智慧工厂。
现在,工厂的12000多台设备全部连接到了数字底座上,实现了「冲、焊、涂、总、电池、一体压铸」六大整车工艺、七大车间生产过程数据的实时融合分析和全息质量追踪。
借助工业软件aPaaS,将人、机、料、法、环、全域数据进行了统一的建模。
在政务服务领域,各地政府通过政务大数据平台建设,已经实现了政务一网通办。
基于大模型的政务服务助手,已经学习了12345热线、政策法规、办事流程等数十万政务数据。
如今民众办事不再需要跑多次,就要在手机上动动手指就能办了。
看来,在华为云Stack的加持下,AI应用落地、产品化的难题,很可能要在中国率先解决了。
参考资料:
https://www.huaweicloud.com/product/huaweicloudstack.html