腾讯、红杉投资的无问芯穹,公布首个大模型算力平台
文章来源:钛媒体
钛媒体App获悉,3月31日上午,腾讯、百度投资的国内大模型领域AI Infra公司无问芯穹在上海发布无穹Infini-AI大模型开发与服务平台。
无问芯穹表示,Infini-AI大模型开发与服务平台包括一站式AI平台,以及兼容infini-megrez、Llama、ChatGLM等多个模型的大模型开发平台,利用GPU推理和加速技术,提供大模型开发、训练、运行、应用的完整工具链。
清华大学电子工程系教授兼系主任,国家自然科学基金杰青、无问芯穹发起人汪玉教授早前表示,“现在大家都在做各种各样的非常厉害的芯片,但是,但怎样去把模型更好的部署在这些芯片上,让做应用开发等领域人员不会花费额外的代价,其实会极大推动大模型研发。无问芯穹就是想要推动大模型技术设施发展进入各行各业。”
无问芯穹创始人、CEO夏立雪透露,大模型服务平台于3月31日起开启免费公测,给所有实名注册的个人和企业用户提供百亿tokens免费配额。一站式AI平台于4月1日-4月30日限时免费试用。
据悉,无问芯穹(Infinigence AI)成立于2023年5月,是一家专注于为 AI 2.0时代提供完整解决方案的科技公司。
投融资层面,截至目前,无问芯穹并未公开融资,但工商信息显示,腾讯、百度、红杉中国、启明创投、同歌创投、智谱AI、真格基金、光源资本、绿洲资本、经纬创投、华控电科、北极光创投、金沙江创投、徐汇资本、南山资本等机构均有投资入股无问芯穹。
无问芯穹创始团队来自清华大学电子工程系,致力于成为大模型落地过程中的"M×N"中间层,以打造大模型软硬件一体化方案,链接上下游,建立AGI(通用人工智能)时代大模型基础设施。
无问芯穹发起人是汪玉教授。1982年出生的汪玉,本科、硕士、博士均在清华大学,2007年汪玉选择留校任教,是目前清华大学最年轻的系主任。同时,清华大学电子工程系也是国内半导体产业的“黄埔军校”,包括燧原科技创始人兼CEO赵立东,现任清华大学校长、党委副书记王希勤等人都毕业于该专业。
2016年1月,以汪玉教授为负责人的深度学习处理器项目,通过清华大学电子信息学院论证并获得支持。随后,项目团队以知识产权转化入股、创立AI芯片公司深鉴科技,进行产业化运营。其学生姚颂、单羿是深鉴科技创始成员,投资方包括高榕资本、金沙江创投、三星风投等机构。2018年,深鉴科技被全球最大的FPGA厂商赛灵思收购,随后赛灵思也被美国芯片巨头AMD公司所收购。如今的无问芯穹,或属于汪玉的“二次创业”。
无问芯穹联合创始人、CEO夏立雪博士则是汪玉的学生,于2018年在清华大学电子工程系获得工学博士学位,于2013年在清华大学电子工程系获得工学学士学位。此外,他还于2017年1月至6月赴杜克大学进行为期半年的访问学者。夏立雪的研究内容为深度学习算法的硬件设计优化,关注层次主要包括算法层的模型压缩、软件层的算法编译优化、以及面向新兴存储计算元件RRAM的深度学习计算平台体系结构和容错方法研究等。
无问芯穹联合创始人、CTO颜深根是中科院博士,北卡州立大学访问学者,曾任商汤科技数据与计算平台部执行研究总监、北京大学-商汤科技联合实验室副主任,曾带领上百人优秀团队帮助商汤开发包括SenseParrots在内的多个原创AI系统,建立了接近2万片GPU的超大规模高性能AI计算平台。
无问芯穹联合创始人兼首席科学家戴国浩,目前是上海交通大学长聘教轨副教授,CCC(清源研究院定制计算中心)Co-PI,DAI Group(人工智能设计自动化创新实验室)负责人。戴国浩同为清华校友,分别于2014年和2019年取得清华电子工程系工学学士和博士学位。汪玉为其博士毕业论文指导老师。其主要研究方向是大规模稀疏图计算、异构硬件计算、新兴硬件架构等,毕业后,他曾为汪玉研究团队的助理研究员,后于2022年加入上海交大任副教授,方向为稀疏计算、AI 电路与系统等。
2023年,以ChatGPT为代表的 AI 大模型风靡全球,AI 2.0时代正在到来,而算力训练成本高、难以统一高效部署算力设施等,依然是大模型发展制约因素。
汪玉曾表示,大模型的涌现给 AI 、自动驾驶、科学计算以及机器人等领域都带来了显著的促进作用,但当下,大模型落地面临诸多挑战,算力供需平衡、大模型应用降本需要软硬一体协同优化的AI生态。
“从个人的角度来看,当前大模型主要面临三个方面的挑战:第一,大模型面临的算力限制;第二,当前推理和包括训练在内的成本相当高,这是创业者和大公司普遍面临的挑战;第三,面对独特的算法和多元硬件的生态,如何更有效地推动这个生态的发展,也是当前面临的一个重要挑战。”汪玉表示。
汪玉曾透露,训练GPT-4时需要使用到2.4万张A100 GPU。而以不同类型的模型和用户数来计算(推理阶段),在自建算力集群的情况下,每天的费用可能达到690万。如果使用现有的API运营,费用可能更高。而假设GPT-4 Turbo每天要为10亿活跃用户提供服务,每年的算力成本可能超过2000亿元。
夏立雪博士曾表示,算力不足仍然是制约通用人工智能发展的重要因素。GPU Utils的一份数据显示,全球目前 H100 等效算力的供给缺口达到 43 万张。在解决算力不足的问题上,除了抢购和囤积英伟达,更多的方案正在浮出水面。
去年7月的一场演讲中,汪玉表示,无问芯穹是面向大模型的MxN软硬件联合优化中间层的平台,利用其平台设施,推理成本、微调成本、人力成本均有望降低10倍以上,同时文本长度也会增加10倍以上。
简单来说,无问芯穹做的任务属于AI infra技术,M层是大模型,N层是A100/H800等国内外服务器硬件,通过算子优化、自动编译、不同芯片耦合等技术一键部署模型。
“在芯片制造方面,我们面临着算力密度的限制。目前大家正在讨论的是1Tops/Watt的设计,即每瓦特能够提供1T次运算(人脑的功耗大约为20瓦)。未来在某些任务上,我们需要硬件去达到每瓦特1000Tops/Watt的指标。那么如何通过芯片实现1Tops/Watt,甚至几百T或几千Tops/Watt呢?过去几年中,计算芯片通过尺寸微缩的红利实现了各种各样的专用处理器。现在,我们开始关注近存储计算和存内计算,因为数据搬运相比数据计算更耗电,搬运数据(带宽)变得更加复杂。进一步地,我们也在研究是否可以不使用硅基芯片、微电子,而是采用光电子来制造芯片,这是业内关注的一系列研究方向。另一方面,大模型的发展需要极高的互联带宽,根据实验室理论计算,GPT-3所需的互联带宽为1380TB/s,而一张英伟达的卡自带的600GB/s互联带宽与这一需求之间存在显著差距。这也是为什么需要将许多这样的卡连接在一起,才能完成对这一模型的训练。目前,计算性能的提升速度超过了带宽的增速,尤其在多元互联的应用场景中,如何有效地将机器连接起来是一项相当复杂的任务。我们也在思考,创建一种相对统一的中间层,以支持长文本、实现更高的性价比,同时实现一键部署。并且在这个中间层中,纳入一些工具,以协助算法和应用的开发,比如整合算法压缩、算子优化以及自动编译等功能。通过这样的中间层,有望更好地匹配M个大型模型和N个硬件,从而实现更加灵活的部署。”汪玉曾表示。
所谓AI Infra,是指构建 AI 所需的基础设施,涵盖连接算力和应用的 AI 中间层基础设施,包括数据准备、模型训练、模型部署和应用整合等环节。它不仅与算力相关,还包括大数据层面的优化。AI Infra 包括 AI 基础框架技术,涉及大模型训练、部署领域的各种底层设施,以及基础软件栈等核心组成部分,主要目标是优化算力算法、促进应用落地。而AI Infra 在 AI 行业中扮演着连接硬件、软件和应用的关键角色,促进了 AI 技术的发展和应用。
2023年11月,无问芯穹联合清华大学、上海交通大学团队在Arxiv上发表了一篇论文,提出了一种新方法 FlashDecoding++,通过异步方法实现注意力计算的真正并行,可以将GPU推理速度提高2倍-4倍(200%-400%),在英伟达A100显卡上的推理平均加速37%,以及同时支持英伟达和 AMD 的GPU产品。
另外,无问芯穹还自主研发70亿参数大语言模型“无问天权”——infini-megrez-7b,支持英伟达和AMD的GPU,以及无问芯穹自研高效推理引擎等。
据称,目前无穹Infini-AI平台已支持了Baichuan2、ChatGLM3、Llama2、Qwen系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。
针对此次公布的一站式AI平台和大模型服务平台,钛媒体App也进行了测试和体验。
我们观察到,从推理侧来说,大模型服务平台的chat速度还是比较快的,同时也支持多个大模型、多款服务器同时进行推理应用。但截至目前,钛媒体App测试的基于无穹Infini-AI平台的infini-megrez-7b和ChatGLM3模型,均不能提供汪玉教授准确的个人信息反馈,说明其知识体系无法实时更新,数据和模型能力仍需要加强。
钛媒体App还获悉,今天会议上,无问芯穹宣布将与智谱 AI 合作构建大模型训推万卡集群,并且与摩尔线程就MTT S4000千卡集群达成协议。
戴国浩透露,其团队于今年1月初研发出全球首个基于FPGA(现场可编程逻辑门阵列)的大模型处理器,通过大模型高效压缩的软硬件协同优化技术,使得LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块卡,并且性价比与能效比均高于同等工艺GPU,即展示“一张卡跑大模型”。戴国浩称其为无穹LPU,预计将于2025年发布。(注:此前第四范式也公布了类似的FPGA的模型算力加速技术)
圆桌会议上,鸿博股份副总裁、英博数科科技有限公司CEO周韡韡博士表示,“若算力不自由,则数据无意义。关于AGI,关于未来,我们有太多美好的憧憬,但眼下最实在的是先让可满足通用型LLM的同构大型智算集群跑起来,再让国内团队在复现和追赶世界水平的同时,兼顾繁荣国产自主可控AGI生态发展。”
(本文首发钛媒体App,作者|林志佳)