谁在用AI点亮杭州未来?
文章来源:互联网白话
作者:梁应杰 童蔚 沈积慧
“2023年对全世界来说,都是某种觉醒时刻。大家真正意识到了,AI变得越来越强大和通用。”这是OpenAI CEO阿尔特曼近期在世界经济论坛上的表态。
论坛的创始人兼执行主席施瓦布感慨,仅仅用了一年多时间,AI就从小婴儿成长为翩翩少年。
以GPT-3.5为代表,横空出世的大模型似乎打通了通用人工智能的任督二脉。过去一年,智能涌现让许多不可能变成可能。
小到输入一句话就能让AI创作一幅有模有样的图片、一段视频,大到加入AI后,笨拙的机器人突然灵光起来成为具身智能,人们开始期待甚至恐惧,当AI变得更“聪明”,世界会迎来颠覆性的改变。
寒冬之下,地火奔涌。AI再次点燃了创新的火把,科技大厂开始着手“用AI把原有业务重做一遍”,扛起技术大旗的理想主义者透过火光看到了“改变世界”的机会,更多人已经将大模型作为日常工具,将想象力注入算力,转换成生产力……
无论是用AI发电,还是为AI发电,站在技术的拐点,只要做点什么,就可能撬动未来。
对于以“打造未来城市新样板”为目标的杭州,在这轮技术浪潮里会扮演什么样的角色?
一年前,IDC与浪潮信息联合发布《2022-2023中国人工智能计算力发展评估报告》,对中国城市人工智能发展进行了综合评估。杭州排在第二位,仅次于北京。
杭州全景 韩丹 摄
从一份报告能看出,杭州对人工智能的关注和了解。
去年8月,杭州市政府发布《关于加快推进人工智能产业创新发展的实施意见》,目标是到2025年,基本形成“高算力+强算法+大数据”的产业生态,成为全国算力成本洼地、模型输出源地、数据共享高地,人工智能创新应用水平全国领先、国际先进。
在这个框架目标下还有更细化的目标。比如,在算力供给方面,目标是“全市可开放算力规模在使用半精度输出输入(FP16)下达到5000千万亿次浮点指令/秒(PFLOPS)以上”,专业且精准。
在算力层面,进入2024年,杭州已经迎来多个好消息。1月25日,图灵小镇AIGC智算中心启用,一期建成的算力规模达808P。仅过了一天,中国移动宣布智算中心(杭州)节点成功点亮。
除了专业的产业规划和精准的政策支持,杭州历来是人工智能的人才聚集地。早在1982年,浙江大学就率全国高校之先,成立了人工智能研究室,之后又升格成为人工智能研究所。深度参与其中的老校长潘云鹤,也是推动人工智能上升为国家战略的关键人物。
在应用层面,阿里巴巴、蚂蚁集团、海康威视、网易等都在相关领域深耕多年。此前,杭州也已获批建设了国家人工智能创新应用先导区和新一代人工智能创新发展试验区。
在刚发布的杭州政府工作报告中,“人工智能”再次成为引领数字经济发展的关键一环,不仅明确了“争创国家人工智能创新策源地”的大方向,还提到了推动“通义千问”等通用大模型和垂直领域模型发展,发放“算力券”等具体举措。
为了更好地记录AI在杭州的生根发芽、茁壮成长,从今天开始,互联网白话将持续带大家看看“谁在用AI点亮杭州未来”,见证一个技术拐点在这座城市开启的繁花时代。
作为前菜,我们设置了若干个场景,让AI用画笔描绘了一下未来在杭州的生活场景——可以看到,现在的AI确实不够完美,但在创新者眼里,不够完美恰好是它迷人的地方。
AI眼中的杭州未来生活场景 橙柿AI制图师 琅琊
1、让兵马俑跳“科目三”
前阵子,兵马俑、爱因斯坦跳“科目三”的视频刷爆了朋友圈。不管是哪个时代的人,也不管存在于哪个次元,只要一张全身照,就能在AI的加持下,来上一段热舞。
这个刷屏的小应用缘起于去年9月,阿里通义XR实验室启动的一项视频生成项目。从设想被提出到具体落地,前后只用了短短三个多月时间。
当时的视频生成领域,行业主要聚焦在通用的文生视频、图生视频等场景,针对人物的生成效果都不佳,尤其是真实人物的生成,主要原因是用户对于真人的效果非常敏感和挑剔。
大部分视频生成研究团队主动绕开了这个难啃的骨头,也给XR实验室留出了实验和论证的时间。
作为阿里通义XR实验室负责人,薄列峰是机器学习、计算机视觉领域的大牛,这个团队还聚集着有丰富2D/3D数字人经验的工程师。
在通用视频生成方案上,薄列峰团队针对人物视频生成这个特定问题做了优化,比如创新地提出了ReferenceNet,能够很好地保留人物图片的一致性。
去年12月,项目组在arXiv上公开了AnimateAnyone的论文和主页:经过5000个角色视频剪辑的内部数据集训练后,只需要一张人物静态图片,结合人物的骨骼动画(姿势控制),就能生成一段人物动画视频。
论文一发布,立马引起了国内外AI界的关注和转发。
随后,项目组把Animate Anyone集成到通义千问App中,“全民舞王”成为Animate Anyone落地的首款产品。
2、让霉霉穿上中国旗袍
让兵马俑跳“科目三”,是“吴妈”吴泳铭挥动AI指挥棒,阿里正在发生变化的缩影。
去年9月,阿里迎来了最为密集且猛烈的人事变动:蔡崇信和吴泳铭正式接任阿里巴巴集团董事会主席和CEO。随后,技术出身的吴妈在全员信里宣布确立了两大战略重心:用户为先、AI驱动。
阿里云、钉钉、淘天、国际站等业务板块迅速响应。
去年10月底云栖大会,阿里云“通义全家桶”亮相:包含两个基础模型更新,以及8个领域的应用模型。
回过头看,他们吹响了冲锋号。除了“科目三”背后的AnimateAnyone框架,最近,阿里在开源模型库公司Hugging Face上发布了名为ReplaceAnything的框架,同样出自阿里云团队。
ReplaceAnything主打通过AI替换万物,强大之处在于,不仅可以随心所欲地换脸,还可以换服装、换背景,甚至换性别。
简单地说,只需要在图片上框住你想要保留的区域,就能把想保留的区域放到任何其他场景中。比如,选中霉霉的脸,就能无缝让她穿上中国旗袍、发饰、服装、背景,各种细节全都替换掉。
另一个名为DreamTalk的头像生成框架,能让原本不会动的人物头像说话、唱歌,同时保持嘴唇的同步和模仿表情变化。它由清华大学、阿里和华中科大共同开发,支持多种语言,适用多种场景,在嘈杂环境中也能表现良好。
这些技术,未来都可能出现在电商场景里。比如通过AnimateAnyone,可以用来生成视频,也可以应用到数字人、虚拟试衣;ReplaceAnything可以帮商家节省成本,通过替换服装、背景等细节,提升产品的形象和吸引力;DreamTalk框架则可能为没有“灵魂”的数字人注入情绪,表达喜怒哀乐。
3、1000万个AI助理
作为阿里内部“四小龙”之一,钉钉拥抱AI的方式更彻底,用总裁叶军的话说,就是“用AI把钉钉重构一遍”。
职场上,能写文档、订机票、做会议纪要、帮你创作,生活上还可以帮你辅导熊孩子作业。钉钉正在变成每个人的超级助理。
最近钉钉发布会上,钉钉总裁叶军分享了网络段子手“天才小熊猫”用钉钉个人版创作的一个案例。
2010年借着3Q大战创作了著名的《右下角的战争》系列而一举成名的“天才小熊猫”,因为脑洞奇大无比,穿越数次周期后,依然活跃在网络。
最近,“天才小熊猫”的儿子经常做噩梦,非常害怕外星人,于是他决定为儿子创作一个外星人的系列作品。从故事创作、分镜脚本、绘本,到视频,全部在钉钉个人版的协作空间完成。
叶军预测,未来三年,钉钉上将长出1000万个AI助理,满足各种千奇百怪的需求。
在阿里国际站,AI已经开始帮人类做起了外贸。
1999年出生的黄凯是平台上第一批“吃AI螃蟹”的商家,不懂英语、不懂业务,也没有渠道,但把工具利用到极致的准00后却把店做到了行业前三。
以前从设计到打样、测品至少需要一个月,特别是拍摄产品图,约摄影师、布置场景、修图等环节就要花上一周时间。刚开始为了拍摄场景图,黄凯搬家具搬得很崩溃,一度开玩笑说自己开的是搬家公司。
现在,通过平台的AI生意助手,只要手机拍一张产品图照片,就能一键抠成白底,再根据客厅、商场、落地窗、明亮场景,1分钟之内就可以得到多元化的场景图,同时AI正在帮他给老外自动写邮件,一键管理、分析上百个客户。
4、关于“个人AI计算机”的设想
一个多月前,道哥在自己小有名气的公众号“道哥的黑板报”上发布文章,用3万字详解新公司KMind的“前世今生”。他给公司的品牌取名为“半个宇宙”,坚信未来人类社会一半是碳基世界,一半是硅基世界。
了解KMind之前,先想象一个场景:有时想买一款特定商品,比如小众进口奶粉、老电器的零配件,线上线下搜寻许久还不一定能找到。而未来,也许你只需要在自己的电脑上发布需求,有对应商品的商家就会自动找上门。
从“人找信息”,到“信息找人”,这是道哥设想中的理想场景。实现的前提是:人人拥有AI计算机,联结成一张新的网——AI互联网,每个人的需求、任务等都交由高度互联、24小时在线的AI来处理。
在这场生成式AI技术带来的创业热潮中,道哥无疑是备受瞩目的一位。他本名吴翰清,上一个身份是阿里云首席安全科学家,江湖人称“让马云安枕无忧的男人”。
吴翰清
带着江湖上众多传说,2023年5月,吴翰清从阿里云离职,携手阿里前同事陈冬白、西湖大学AutoLab(自主智能实验室)负责人于开丞,以及13名大厂背景的员工,创立了KMind。
公司成立当天,所有员工在一张《机器智能宣言》上签了名,挂在公司入口的墙上。这是吴翰清和AI共同起草的,他还专门给AI留了1个点的公司股份,“我们相信未来机器智能这个美好的愿景,而且愿意为机器智能造福人类而做出努力。”
创业的头几个月,KMind其实也在做个人AI助手。当用户数积累到10万时,流失率高的困境随之而来,因为目前的大模型“其实没那么好用”。最为诟病的两大问题,是大模型的幻觉(有时会给出一些与事实不符的答案,甚至现编),以及AIGC产品缺乏精确控制的能力。
这些现实问题,促使团队开始思考。从产业链的角度,“如果把大模型当成是CPU,那么各种应用就该跑在电脑上。”所以,吴翰清决定让个人AI计算机,来补齐大模型和AI应用之间“缺失的一环”。
5、《西游记》里到底提到了多少次“孙悟空”?
去年7月,“半个宇宙”正式发布,由一套名为kOS的操作系统,来驱动个人AI计算机,帮助用户处理数据。
“《西游记》里提到了多少次孙悟空?”这是吴翰清喜欢拿来举的例子,“目前市面上所有大模型都给不了正确答案。”因为他有时是“孙大圣”,有时是“孙行者”,有时是代词“你我他”,大模型也无法精准计算。
“等孙悟空的问题解决后,AI就具备了一定的精确控制数据的能力。这是一种底层能力,可以用在很多地方,到那时你就会发现,AI写文案,AI生成、修改图和视频等各种应用都变得真正好用了。”
吴翰清透露,团队尝试着做了一个小的原型,也拿出了一个能精修文章的产品版本,“比如已经可以把一篇文章中所有的‘孙悟空’改成‘林黛玉’,但它现在改得还不是太精准。”他有信心,未来kOS能更好地缓解甚至是解决大模型的两大问题。
目前,KMind已推出由kOS驱动的AI个人助理“星伴”。和其他可调用AI不同,星伴可编程,用户能自定义它的能力和行为。星伴的个性化知识、经验、记忆、性格将被保存在一个叫“星魂”的地方,最终成为数字资产。
“我们每周更新一个版本,再半年时间吧,预计会有比较好的用户体验。”半年,也是吴翰清认为很多AI创业公司打磨产品体验的一个时间节奏,“我相信半年后,市面上的AI应用体验会有很大不同。”
6、“我觉得这一波有机会了”
与KMind一出生就在AI赛道上狂奔不同,成立于2021年的WeShop因为这波AI浪潮等来了拨云见日的一天。他们的核心团队来自于蘑菇街,如今做的也是将AI运用到电商领域。
一件穿在“人台”上的白色羽绒服,只要拍张照片传到电脑上,用文字描述,或者在模板中挑选你想要的人像和风格背景,几十秒后,你就可以获得真人模特展示羽绒服的图片。
这就是借助AI完成的商拍,已经开始替代真人模特拍摄。WeShop提供的,就是以Stable Diffusion为底层模型的AI商拍工具。
2021年,WeShop团队成立,目标定位AI和海外,“我们一直有关注虚拟试衣,但一直没有落地产品。做AI离不开数据,所以之前主要向海外提供电商搜索服务,了解需求。”WeShop总经理吴海波毕业于浙大,曾任职华为,2014年加入蘑菇街。
吴海波
他的另一个身份是知乎机器学习话题的优秀答主,拥有5.6万粉丝,留下了833条想法,56篇文章,回答了222个问题,活跃而热情。
2022年底,GPT横空出世,紧接着文生图的应用开始涌现,WeShop团队内部经历了一次想法上的激烈碰撞,前方的路似乎开始清晰起来。
“我觉得这一波有机会了。”模型框架有了,落地场景找到了,加上此前的数据积累,接下来的一切水到渠成:WeShop团队中的三名成员,包括吴海波自己,花了一周多的时间做出了第一版demo;又花一个多月,完成产品落地;4月内测,5月付费正式版本上线,6月底上线国际版……
7、一款全球化的AI产品
如果比拼大模型,受制于算力和算法等因素,国内将长期扮演追赶者的角色。但在AI原生应用方面,中国企业在移动互联网时代积累的技术、模式和经验能发挥巨大作用。
这或许也是WeShop从一开始就瞄准海外的重要原因。作为AI工具,WeShop采用付费模式。在国外收取比国内更高的价格。即便如此,在已注册的20万用户中,海外占比超过了一半,增长速度也更快。
更换模特国籍,用于跨境场景。
“我们其实一开始就想做一款全球化的产品,今年增长最迅速的很有可能也是海外市场。”吴海波说。近期他们先后和韩国直播电商内容及技术综合服务商LaLa Stations,以及一站式电商服务平台Shopify达成合作,为更多商家提供相关服务。
在他看来,这波AI技术浪潮,不像以前的互联网技术一个个功能做过去,AI需要一轮轮底层迭代。当底层模型变得更好时,很多小问题可以直接被覆盖解决。
因此,WeShop面对的最大挑战,依然是如何让这个工具在实际使用中更“听话”,确保精准度的同时降低使用门槛。“AI生成图片还是有开盲盒的感觉,但卖家更希望得到确定性的结果,核心要求是图中的商品必须是真实的,不能改变商品本身的细节。”
8、大模型的风吹到浙大
2022年底ChatGPT横空出世的时候,孙川还是浙大计算机科学与技术学院的大三学生。他用“触动很大”来形容当时的感觉。很快,他和同学都尝试用大模型辅助写代码,身边多了个能帮忙检查代码准确性的AI助理。
不久前,他和其他两位浙大同学一起参加“中国计算机大赛-人工智能创意赛”,凭借一套“森林保护巡视决策系统”,荣获了三等奖。
这套系统借助大模型和最新的AI视觉能力,对森林的监控数据进行分析,给出基层林业管理局、森林公安机构和自然保护区管理部门一系列专业化建议。
为了这个项目,孙川和同专业的学弟胡辰恺,以及工业设计专业的吴雪婷组成了三人小队,基于百度文心大模型和百度飞桨人工智能开放平台进行开发。
“我们基本上是在飞桨框架下做的,操作起来比较简单,算法完成后可以直接在线跑起来。”负责算法设计,软件开发的孙川介绍,在提供专业化建议这个关键环节,他们将林业知识库给到了文心大模型,经过一段时间的训练,就能让后者根据目标检测的数据,输出一条条解决方案。
无独有偶,去年9月份,另一个浙大的创新项目“眼语”在“2023中国高校计算机大赛——移动应用创新赛决赛”中摘得社会责任创新奖。他们尝试通过大模型帮助失能人群在听到与外界交流后给出答案选项。
方宇阳(左二)
主导这个项目的方宇阳是浙大工业设计专业,目前正准备直博,如今他一半的学习和工作时间都有以ChatGPT为代表的大模型应用相伴,“最常用的是搜索、代码检查,辅助学习等”。
他很喜欢用一款名叫Kimi Chat的应用,由北京创业公司月之暗面研发,其创始人杨植麟师从国内外知名的AI专家,是AI领域冉冉升起的“天才少年”。
Kimi Chat擅长对长文本信息的提取和处理。方宇阳经常会把需要研究的论文扔给它,让它找到诸如“这篇论文的实验是怎么做的”之类的关键信息,平时遇到陌生的问题,也会直接问ChatGPT,让它帮忙提炼,提高效率。
“有了AI的辅助,我们可以把更多时间放到创意本身上,缩短落地的时间。”孙川总结道。
9、一次改变世界的机会
此前,吴翰清用三年时间写了一本《计算》。在他看来,计算机有两次革命,第一次是让人人有一台计算机,第二次就是他参与打造的“人人有台AI计算机”时代,这个时代将带来一系列颠覆性的变革。
比如,打破大平台对数据的垄断,改变互联网原来的广告模式,等等。这似乎又回归到互联网的本质:自由、开放、共享、平等——曾经是无数黑客白帽子敲下键盘,化身网络骑士的出发点。
重回初心的不只是吴翰清。2012年,他曾加入了一家名为“安全宝”的创业公司,担任联合副总裁。两年后,这家公司被分拆卖给了阿里和百度。创始人马杰进了百度,吴翰清回到了阿里云。
去年,马杰放弃百度副总裁的身份,加入李开复创立的国产大模型公司零一万物,如今和吴翰清又相逢在AI赛道上。
两个月前,当吴翰清在实习生面前说出“我们是一家伟大的公司”后,两人捧腹笑了五分钟,但他自己非常笃定,这是一次改变世界的机会。哪怕是成功一小部分,KMind足以称得上“伟大”。
置身于浪潮,吴海波也感受到了AI对各行各业的逐渐渗透,研发、创业热情同时被点燃。“很热闹,感觉大家都处于一种亢奋的状态。这次入场的(创业者),可能比移动互联网时代的创业者拥有更强的学习能力。因为我们已经无法坐在家中空想出一套商业模式,首先都得实打实地学习和了解技术。”
这股AI浪潮也正在影响浙大的实验室。孙川所在的浙大CAD&CG国家重点实验室目前将一部分课题转向了AIGC方向,希望让同学探索和AI合作的模式。
眼下,AI正在深刻改变计算机图形学。孙川特别提到了神经渲染技术,通过深度学习和图形学技术的融合,在生成更为逼真的图片之余,还降低了硬件门槛。这一技术未来可能广泛用于数字人、导航、电影制作等多个领域。