文/VR陀螺 林德
AI,人工智能,从今年年初到现在已然成为互联网最热门、引起网友讨论度最高的科技概念之一。
今年4月,一款名为DALL-E 2的AI绘画模型诞生,在短短几个月时间内便风靡全球,成为今年最火热的AI绘画模型,被誉为最强AI画手。
无论是文艺复兴风格、宝丽来风格,或是爱德华·霍普画风、莫奈画风、数字艺术,亦或是复古风、二战历史摄影风格等等,DALL-E 2都能轻松实现,只要给出关键词,大约60秒便可以产生10张图像供用户选择。
DALL-E 2部分作品(图源:DALL-E 2)
脑洞无限大、写实、易操作、更准确的指令理解...各种元素的集合诞生了不少令人眼前一亮的创意作品,DALL-E 2的作品在社交媒体得到许多用户的喜爱。
在DALL-E 2全网爆红之前,输入文字生成图像,这种存在于想象中的事情成为现实的潮流就已经开始流行。在今年年初,AI绘画工具Disco Diffusion、Midjourney早已受到不少艺术家、时尚先锋的青睐,不仅用于娱乐自嗨,商业用途中也能看见AI的身影。
在获得罗拉多州博览会艺术创作比赛活动一等奖之前,今年六月《经济学人》的期刊封面便是出自Midjourney之手。(图源:《经济学人》)
AI绘画平台Midjourney在Discord上的订阅人数也已超过百万。
截止至9月7日,Midjourney在Discord的订阅情况(图源:VR陀螺)
从Disco Diffusion到MidJourney,再到DALL-E 2的全网流行,Text-to-Image(文字生成图像)从小众开发社群火到社交媒体进入大众眼帘,AI生成图像的创作方式让海内外的用户惊呼AI的发展竟然到了这种程度!
输入“骨头山”、“宗教化”、“火焰”、“无动于衷的人们”四组关键词组获得的四张AIGC图像(图源:VR陀螺)
最近,AI画画热度退散之后,AI写论文又再度帮助AI破圈。事情源于一篇Reddit上的帖子,发帖人Urdadgirl69表示他的论文就是由AI代笔完成,而他的老师并没有发现作业的异常情况。
图源:游戏研究社
更具有冲击力的是,Meta在十月初发布的文本转视频Make-A-Video功能,意味着AI图像制作领域又有了新的突破,在图像逼真内容丰富的情况下,迈向了动态的视频领域。
输入“一只穿着超人红色披风在天上飞的狗”获得的视频(图源:Meta)
从“人均AI画师”到“我让AI帮我写论文,不仅拿A,还能赚钱”,AI这个关键词频频出圈。无论是AI生成图像,还是AI生成文本,或是AI生成视频,这些都被统称为AIGC内容生成模式。
AIGC,人工智能生成内容,顾名思义是由人工智能驱动的工具创造的内容,这种内容生产模式在不仅在绘画、写作领域成为热门趋势,在游戏场景建模、数字人、AI聊天、科研AI for Science、AI换脸、音乐等领域也有所建树,可以看到,这种模式正在成为新的主流。
AIGC当道,资本的“新头好”
获益于频频在大众视野中“刷脸”,AIGC的热度以及前景让越来越多的资本将目光放至于此。
今年9月,红杉资本官方发表的一篇文章《Generative AI: A Creative New World》》中认为AIGC将会代表新一轮范式转移(认知转移)的开始。
图源:网络
近日,依靠文字生成Instagram标题、Tiktok视频脚本、广告营销文本、电子邮件等内容,成立不到两年时间的AIGC 初创公司 Jasper 宣布自身以15亿美元的估值获得 1.25亿美元 A轮融资,摇身一变成为AIGC圈的新兴强者。
图源:Jasper
10月17日,英国开源人工智能公司 Stability AI 宣布获得 1.01 亿美元融资,估值高达 10 亿美元,跻身独角兽企业行列。
10月21日,根据澎湃新闻,《华尔街日报》表示谷歌公司正在展开谈判,拟向人工智能初创企业Cohere投资至少2亿美元。Cohere的业务包括开发自然语言处理软件,包括聊天机器人等可以理解人类语音和文本的程序。
此外,微软正对OpenAI的新一轮投资进行后期谈判。OpenAI推出了DALL·E 2项目,允许用户通过文本生成图像,即AI作画。
不仅在海外AIGC企业有多起融资事件,甚至出现独角兽企业,在国内AIGC类企业同样备受资本青睐。
今年1月,超参数科技宣布完成1亿美元B轮融资。
10月,虚拟内容 AIGC 技术服务商慧夜科技完成千万元人民币Pre-A+ 轮融资,由高瓴资本和顺为资本领投。
同样发生在10月,成立于2021年的生成式AI平台TIAMAT宣布完成数百万美元天使轮融资。据了解,TIAMAT近4个月内的全网曝光量已经达到了5000万,并且这个数据还在不断攀升。
......
AIGC在投资圈已然成为资本重点关注对象,在科技界,科技大厂们也同样将其视作重点战略布局环节。
大厂重要战略布局 AIGC是未来内容趋势
随着互联网的不断升级,从Web 1.0到现在的Web 2.0,再到未来Web 3.0时代,以门户网站为主的媒体时代到自媒体时代、社交平台的兴起,用户对互联网的依赖度逐渐上升,内容生产方式也在进行着变迁。
在Web 3.0时代中,数字世界将变得更为清晰,AI也一直被视为元宇宙关键技术之一、助力数字孪生的重要利器。从“只读模式”的PGC(专业生产内容)到用户自发参与的UGC(用户生产内容)再到AIGC(AI生产内容),内容创作门槛正在逐步降低,内容生产力无疑将获得更高的释放。
不妨想象一下,在虚拟世界里,无论是打造比拟真实场景的外在,还是塑造数字生物的“思想”内在,都需要更高效、更实时的内容创作,这也就凸显了能够突破人力限制的AI技术的重要性。
以游戏中的智能NPC为例,若每个NPC以智能体的形式存在,那么它不仅能够识别所处环境状态的变化,而且能够根据环境状态的调整行为策略,做出符合自身个性特征的行为。在任何场景下,玩家与智能体的每一次互动,智能体都能够根据玩家状态、环境状态和自身状态的参数做出相应的行为,进而在与玩家的互动过程中产生突发的动态内容,这将对于数字世界的意义不言而喻。
电影《失控玩家》中自我意识觉醒的智能NPC男主(图源:网络)
迈向下一代互联网是各大科技巨头、互联网大厂,如今在元宇宙的加持下,数字化时代开启新一轮加速,AIGC的背后生产力--人工智能技术早已被纳入巨头们的重要战略布局之中。
去年12月,Meta已将其AI团队并入Reality Labs部门,以开发元宇宙。
今年1月24日,Meta在一篇博客文章中表示其公司研究团队正在打造一款新的人工智能超级计算机,并有望在今年下半年冲击“全球最快AI超算”宝座。
实际上,早在2017年,脸书就发布了第一代AI超级计算机。据Meta而言,相较于第一代超算,新的人工智能超级集群(RSC)在运行计算机视觉工作流程的速度上提高了20倍,运行英伟达集体通信库(nccl)的速度提高了9倍多,自然语言处理能力则提高了三倍多,并且可以从数万亿例子中学习,在数百种语言中运作,分析文本、图像和视频的内容是否有问题。
Meta AI团队的研究人员Kevin Lee和Shubho Sengupta在博文中表示,RSC将在下一个计算平台元宇宙中发挥重要作用。
图源:网络
今年2月,在Meta AI: Inside the Lab活动上,Meta展示了其AIGC向的“探索性工具”原型Builder Bot。在Meta官方发布的视频中,随着扎克伯格“声声令下”,公园、海、沙滩、岛屿、云朵等,甚至BGM逐渐形成一个完整的场景。
图源:Meta
这一切都是由AI驱动生成的内容,通过语音搭建VR场景,Meta称该工具将“促进元宇宙的创造力”。
可以预见的是,这项技术如果取得成功,有很大可能会对其他VR世界和平台产生影响,打造VR场景将会变得更加容易。如果将Meta的Builder bot技术整合,元宇宙的内容生态也将获得新的增长,例如,与已经开始测试语音功能的游戏元宇宙平台Roblox合作打造场景,以丰富生态内容等等。
去年4月,英伟达打造的“工业元宇宙”创作平台Omniverse以难辨真假的虚拟黄仁勋出圈,11月份,英伟达推出AI虚拟化身创建平台Omniverse Avatar说,今年CES 2022上,英伟达宣布Omniverse三项AI新功能,助力AIGC。
从Omniverse到Omniverse Avatar,英伟达皆在帮助用户更快速地合成所需的数字内容,包括数字化场景、Avatar化身、甚至仅需一条音轨即可轻松制作3D人脸动动画等等。
英伟达中国区Omniverse业务发展经理何展曾表示,“从UGC过渡到AIGC,无论是设计师、创业公司和很多大的平台公司都有明显的趋势。因为UGC已经发展了很长时间,现在我们更想要快速工业化生产的平台,让大家能够从AI红利获得更好的益处。”
Q版AI黄仁勋(图源:英伟达)
不止海外大厂对AI,尤其是对AIGC这种新的内容模式“给予厚望”,今年7月,国内互联网大厂百度在百度世界大会活动现场利用AI技术复原了《富春山居图》残卷,背后的核心技术便是AIGC。
在大会现场,百度掌门人李彦宏还表示:“AIGC是PGC、UGC之后,全新的内容生产方式。它不仅会提升内容生产的效率,也会创造出有独特价值和独立视角的内容。”
红框部分为AIGC内容(图源:网络)
“未来十年,AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
从二维向三维过渡 理想中的AIGC究竟有多难?
根据中国信通院发表的《人工智能生成内容(AIGC)白皮书》,AIGC的发展阶段分为三个,首先是受限于技术发展的早期概念阶段,到1990年之后的沉淀积累阶段,再到2010年至今的快速发展阶段,特别是从2014年起,生成式对抗网络(GAN)的提出与迭代更新,以及AI算法的升级让AIGC迎来了百花齐放的内容时代。
但目前AIGC的涉及范围更多在图像、视频、语音等相对二维化的场景应用中,而回到元宇宙这个愿景,三维化应用场景才是关键,AIGC技术的应用无疑将推动二维互联网向三维互联网的过渡,但理想的AIGC的难度可想而知。
二维与三维的区别(图源:网络)
理想很丰满,现实很骨感,这句话形容元宇宙,在某些程度上可以说是非常贴近。而要实现元宇宙内容生产上的AIGC化究竟有多难?需要什么?
AIGC技术的提升背靠GAN和AI算法的支持,根据中国信通院的研究发现,深度神经网络的升级是推动AIGC快速发展的另一个主要原因,实验证明,深度神经网络的学习能力和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力一般会取得大幅提升。
即使是模型架构各有不同,但可以肯定的是,这些深度学习网络的生成逻辑往往都需要大量的数据支撑。光是自然语言模型的突破,国内外的企业和高校都投入了巨大的人力、算力,据悉,模型的参数量从千万级已经发展到了千亿级别。
但三维世界的数据支撑相对而言就十分有限,要想在元宇宙中实现AIGC生产方式,首先需要庞大的三维素材库。而三维素材的扫描,数据的收集显然比二维更加麻烦,在如今激光雷达LiDAR这类深度摄像还未普及的情况下,三维素材的素材量显然是不足以支撑一个理想的AIGC模型训练。
其次是,算力的升级。
相对于二维平面,三维空间相对增加了许多维度,除了语音语义识别、计算及图像识别之外,还有空间识别例如距离、大小、空间位置等,因此在算力和模型架构的升级是必不可少的。
以英伟达自动驾驶的演示案例为例,为了保证安全性,自动驾驶的车辆上采集器的数据来源需要非常多,激光雷达、雷达、摄像头等。
这些采样得到的数据不是单一的,而是多样性的,包括地图、环境位置、车内状况、突发情况等,因此自动驾驶车规级的计算机每秒钟运算的数据量是非常巨大的。而要达到高精度的三维场景自主搭建,计算力的升级也是极其重要的一环。
图源:CNMO
理想化的元宇宙场景是根据个人喜好生成符合用户自身的三维场景、人物形象等,目前,3D建模AIGC化已经能在许多案例中看到,无论是Deepfake换脸技术,还是自动生成3D模型的软件等。但都还局限于XR技术的发展,目前3D化的场景与模型都只能在2D平面中看到。
3D建模手办(图源:机器之心)
并且,用户的个性化数据需要庞大的用户基数,但用户数据泄露、非法收集等安全问题也一直被诟病,在虚拟空间中引发的安全争议也有不少案例。
此外,理想化AIGC最后一个关键是AI需要具备“意识”形成。
这里的意识不是指自我意识,而是能基于不用的语义信息、环境、概念等进行创作的创作意识,例如一些智能NPC、虚拟人偶像等的应用。
根据中国信通院的说法,按照技术的发展进程和实际应用的形态,数字内容的创作能力可划分为基于模仿的创作和基于概念的创作两类。
在未来,深度神经网络的高速发展下,人工智能将会被不断刷新,伴随着的将是人工智能更强的理解能力以及生成能力,数字内容也将到达新的高度。
结语
科技巨头们的举动无疑是标志着人工智能已经被置于发展核心布局的一环,在未来,人工智能将扮演关键角色。在AI的加持下,互联网世界的内容,无论是多样性还是数量都将再次达到新的高峰,毫无疑问,AIGC将在互联网内容创作迭代上起到多么关键的推进作用。
但作为最饱受争议的科技之一,人工智能在不断的发展、融合之中又在不断地带来新的创意,新的争议,同时AI侵入学术界、教育界、艺术界等的事件让大众也产生了一定程度的危机感。
水能载舟,亦能覆舟。如同MidJourney的创始人大卫·霍尔茨(David Holz)说的一般,“人们把人工智能看作一只老虎,一只危险的、会吃掉人的老虎。不过就像水一样,水中也有危险,但人们可以游泳、造船、利用水发电,它既是危险的,又是文明的驱动力。这是一个机会,它没有意志,我们可能会淹死在水中,但不意味着水应该被禁止。人工智能就是一个新的水源,只要利用得当就会让人类变更好。”
虽然AIGC对于信息生产的扩展性的意义重大,但同时这需要计算机、数学、心理学、社会学、哲学等许多学科的交集,共同进步人类才能跨越工业生产的下一步,这也是众多科技巨头仍在探索和努力的方向。
原文标题 : Web 3.0后下一个风口,AIGC将成未来内容趋势?