无界 AI 首席技术官张飞彪:未来将开放生态服务,拥抱更多的开发者丨中国 AIGC 产业应用峰会
AI 新智界讯,1 月 5 日,“智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会”在杭州未来科技城召开。大会由杭州未来科技城管委会、余杭区科技局和余杭区企业(人才)综合服务中心联合指导,时戳科技主办,AI 新智界提供媒体特别支持。大会上,无界 AI 首席技术官张飞彪发表“无界 AI 企业服务:一站式 AIGC 解决方案”主题演讲。
据张飞彪介绍,无界 AI 提供一站式产品、模型、算力 AIGC 解决方案,具体包括软件、模型、开放平台、算力、赛事及培训 6 大项目。谈及未来规划,张飞彪称,无界 AI 将开放生态服务,拥抱更多的开发者,支持自定义工作流、插件、模型等;同时,无界 AI 将支持企业协同管理,包括账号、专用算力、网盘管理、数据罗盘等。
以下是 AI 新智界根据速记整理的演讲内容,为方便阅读已进行部分删减:
今天我将为大家介绍无界 AI 的企业服务,我们的定位是“一站式的产品、模型、算力 AIGC 解决方案”。
首先从整体上了解一下无界 AI 对外提供的整体服务。
软件服务上,对外有通用版,包含 PC 网站、H5 站点以及相关的安卓和 iOS App;专业版软件的功能非常丰富,包含了工作流机制及相关的插件功能。除此之外,我们还支持漫画、视频和 3D 的生成。另外,我们也对外输出了无界自研大语言模型集对应的智能体。
今天,我会重点介绍模型服务、API 服务和算力服务,另外我们也相关的创意赛事服务及培训服务。
模型服务
首先,先看一下无界的行业模型。刚才长铗已经详细介绍了该模型,这里我不做赘述。我一直持有的观点是,如何用行业模型解决专业领域的问题,是 AIGC 落地应用的关键。本身无界 AI 的立足之本也是我们的行业模型,我们会针对每一个细分领域训练出对应的行业模型。
行业模型的训练主要分成三大步骤:
首先是数据部分,大家要知道数据对于一个模型的好坏是至关重要的,它本身也是 AIGC 这一块的基础燃料。在该流程中,模型主理人会做好数据的收集及数据质量的评估,然后交由算法同学做尺寸处理,因为不同的尺寸会应对不同的需求场景,比如说 1:1 比较适合做头像,16:9 比较适合做壁纸。完了之后,做出对应的数据清洗,包含水印的去除、背景的整体优化。此外,我们还会对特定场景的数据做针对性的优化,其中也包含局部的数据优化。大家知道在 AI 绘画中,手部、耳部、眼部容易出现问题,所以我们在这方面也做了特殊优化,后面也会训练出对应的 LoRA,往后会跟大家介绍。
有了数据部分之后,如何针对数据进行相关的标注也是非常关键的。不同于常规的模型训练,我们除了使用图片包含的信息,我们还会使用图片相关的描述信息,比如标题、正文描述,还有客户标签。经过无界的多模态大模型,将其转化为自然语言描述,再经过无界的自然语言模型进行数据标签,最终输出为体系化的结构标签。强调一下,无界的标签不只用于训练阶段、强化学习,而且在生成阶段也会作为触发词,辅助我们精准控制,减少开盲盒的效果。整个数据标注的服务功能,目前我们也会对外提供,如果大家有这块的需求,也可以关注一下。
有了数据,做好了数据标准,最后就是进入对应的模型训练阶段。模型训练的时候,很关键的是要使用什么样的底模。因为现在的 SD 有 1.5,也有 SDXL,还有 SD 2.1,到底使用哪个相关模型?我们会根据多融的消融实验,做好对比测试,最终确定出最优的训练底模。在此之上,通过相关的模型训练算法,比如说微调模式、Dreambooth、LoRA、融合实验等。这是我们常见的训练模式。另外,不同的模型以及不同的数据有不同的特点,我们会根据对应的特点做好训练参数的调整。这一块需要再强调一下,本身无界的行业模型大概有十几个,所以我们投入的资源非常大,目前的训练算力也是以高阶的 A800 和 H800 为主,整体使用的算力比较丰富;此外,从训练的方式上,我们也有一套标准化的训练模式,也能做到分布式训练。
目前,无界对外提供的模型训练服务主要包含这几种:
一方面是大模型训练,我们已经跟一些大型车企和快消品牌,还有万事利、三维家进行了合作;我们还有对应的 LoRA 训练,一些前沿的技术我们也都支持,比如目前流行的潜在一致模型(LCM),它能够大幅提升训练和推理效率。对应的,手部、眼部这一类容易出现崩坏的情况,我们会结合优化 LoRA,去辅助模型推理生成,减少这类情况的出现。最后,重点提一下个性写真服务,我们结合了自己的人脸融合算法,去提升图像的相似度。这方面主要是高阶版,使用多张图片(目前是 6 张以上),可以训练一个精美的写真,最终可以媲美线下影楼的效果,它结合的是人脸 LoRA 以及底层私人影像模型。我们还有一个是基础版,或者叫快捷版,可以用单张或多张图在 3 分钟内完成 LoRA 训练,整体效果也很不错,而且模板可以自定义。刚才提到的神隐活动,使用的就是这种快捷模式。
开放平台
接下来是整体的开放平台,也就是对应的相关的 API 服务。
首先是企业账号的开通,包含密钥、接口的整体调试。完了之后,可能需要做业务相关的参数配置,比如存储、内容审核选择等。再来是套餐选择,包含积分和时长模式,之后商务同学会重点介绍。
在管理平台部分,为了方便企业使用,我们也提供企业控制台,方便客户做好系统管理、对应的参数配置以的数据看板和监控告警服务。
上面只是简要的列举,实际上整个 API 服务要丰富得多,大体可以分为:基础作画相关、模型相关,还有现在比较火热的视频。视频服务目前还处于初级阶段,大家可以根据自己的实际业务和场景来选用,包括文生视频、图生视频、视频转视频等。训练上,除了前面提到的个性相机、LoRA 训练,我们还支持训练素材的管理以及数据标注服务。另外还有比较特色的功能,比如说咒语生成器、咒语解析器,这都是无界的特色服务。另外我们还有大语言模型,能把自然语言转化为相关的绘画提示词,同时进一步推荐绘画模型及参数配置。
前面提到的这么多功能,如果没有稳定可靠的服务支撑,就很难保障良好的用户体验。这里,我们快速看一下无界 AI 的架构图,最上层还是相关的软件服务及开放平台,也就是 API 部分;业务部分,主要包含绘画、训练以及视频相关的。往后还有一些插件和工作流机制。再往下则是后端服务。其中比较特色的,就是算力调度及管理平台。
算力调度上,最关键的是我们自研了一套模型动态切换算法。大家知道绘画的时间跟算力配置、模型数量有一定关系。我们在这一块做了自动启停服务,当队列排队较多的时候,我们会自动启动新的机器来加入到创作的服务。当有闲置资源的时候,我们又会逐步释放,以提升 GPU 算力的利用率。而模型动态切换上,目前使用的是大内存的缓存方案。经过缓存以后的模型,A 模型切换到 B 模型,加载和卸载,我们能大致做到 3 秒完成。如果是磁盘或者网盘的模型,比如刚才提到的个性相机训练,一般是 30 秒内就可以完成模型切换。通过这一套机制,我们可以在充分保障用户良好体验的情况,也进一步提升 GPU 算力的利用率,同时把成本做到更低。
接下来是数据看板和监控告警服务,这是非常关键的。比如异常告警,我们不可能永远看监控看板,只能配置一定的阈值,当出现异常的时候,它会通过告警服务收到通知,再灵活作出对应的处理。乃至到后面,可以做到自动化的运维。在数据看板上,主要包含对应的业务指标和技术指标。
算力服务
在介绍完开放平台后,最后给大家介绍一下算力服务。我们的算力主要由无界 AI 子业务矩池云承接。矩池云成立于 2019 年,比无界 AI 还要早,也是专注于人工智能领域的 GPU 云平台。目前,对外能够提供分布式的 AI 计算服务,包含网盘、弹性调度算力等。另外,在技术上我们也有自研的轻量级容器技术,以及内核机的微 GPU 技术。像常见的 AI 框架,目前都是支持的。因为它本身是一个比较完整的云服务平台,我们也能够提供开源的大语言模型的镜像,以及 SDXL 文生图的镜像。
在以往的合作中,有一类客户有自建算力的需求,我们提供了从硬件的采购,再到整个系统的设计的全链路解决方案,帮助把本地资源上云,做到整体的混合调度,相当于把私有云和公有云整体结合起来使用。这个服务经过了五年的打磨和迭代,整体非常成熟。如果有企业比较看重数据保护,需要做一些数据隐私的考虑,比如说系统隔离的话,可以考虑算力的私有化部署方案。
最后就是我们的混合云弹性调度。我们能够根据实时算力需求,去灵活调度多家云厂商的算力需求,能够灵活应对大型活动的波峰波谷。通过一个平台,去对接多家厂家。我们现在也跟市面上常见的华为云、腾讯云、火山引擎都做了对接,包括国内外的软件系统以及芯片都做的兼容支持,能够通过一个平台去灵活调度公有云、私有云及专有云。
介绍完模型服务、开放平台以及算力服务,其实无界还做好了一些相关服务。在未来,我们希望能开放生态,拥抱更多的开发者和企业,一起加入到无界的生态体系中,由各自开发者和企业来做相关定义;还有模型的训练和托管,乃至到最后做到低代码平台,灵活搭建产品和管理平台。最后还有在企业协同方面提供的服务,包含企业账号、子账号、虚拟账号,以及相关企业算力的租用和网盘管理。在数据上,希望能给对应企业提供更好的数据洞察以及分析能力。
我的演讲到这里,也期待新的一年里,无界 AI 能给大家提供更加优质的企业服务。