95后博士生团队创业,3D生成大模型已经在路上?

栏目:教育培训  时间:2023-06-16
手机版

  赵富强和团队一直追寻着计算机视觉最前沿的方向——NeRF,并努力使之产品化。赜深数字开发了由2D图像快速生成3D内容的软件应用,而且首个3D生成大模型的测试版本已经完成——它能将文字描述迅速生成对应的3D模型,这在3D打印、电子游戏开发、自动驾驶等领域有着广阔的应用前景。

  近日,张通社走进位于上海科技大学信息学院的赜深数字,并与CEO赵富强谈谈他的创业故事。

  赜深数字联合创始人/CEO 赵富强

  01

  从热爱到坚定,游戏爱好者的AI视觉探索

  CS go、使命召唤、英雄联盟…….这些电子游戏深深受到赵富强的喜爱。高中时期,赵富强享受游戏带来乐趣,同时还对电子游戏的运行机制产生了浓厚的兴趣。一台电脑是如何使得一款游戏运行起来的?这个计算机科学的问题难倒了高中生赵富强,但是他怀着强烈好奇心,在大学志愿上填报了计算机专业。

  刚进大学,他疯狂地汲取有关计算机的一切知识,然而学习完C++、JAVA、Python等编程语言后,赵富强变得更加迷糊了:屏幕上一串串代码就像纸面上的一行行文字,文字怎么能变成精美的游戏图像呢?这困惑一直萦绕在尚在读大一的赵富强心头。

  大二那年正是AI深度学习兴起的时候,他在电视上见识到商汤和旷视展示的AI图像识别产品:仅靠一张照片,计算机就能识别出照片中的真实身份。

  赵富强本来就对计算机图像机制颇感兴趣,领略这两款产品的效果,他的身上涌上一股热血:“搞计算机的人就应该开发深度学习,这种产品简直太酷了!”

  AI的技术门槛很高,大二的赵富强根本无法掌握。因此,从大二开始,他开始刻意选修AI课程,还参加了很多AI的软件设计比赛。逐渐地,他认识到什么是大数据分析,如何去训练神经网络。

  正值学校举办创业大赛,赵富强向老师主动请缨,带队组建了一支5人团队,筹划设计一款AI产品。初出茅庐的他面临着各种难题,比如如何管理好一支团队,如何从用户角度去设计产品。经过一年的辛苦打磨,项目成功验收,还被评为优秀。

  不论是学习课程还是动手实践,赵富强正有意无意地追寻着AI视觉的方向。等到大四,他不仅可以回答高中留下的电子游戏之谜,而且他在广阔的计算机领域中找到了自己感兴趣的方向。这个方向是电子游戏与AI的交叉处,以AI来处理3D图像。

  凭借着优异的成绩,他成功保研至上海科技大学信息学院,成为了一名视觉与数据智能中心的研究生。

  02

  以NeRF追寻产业化的方向

  获得红衫和奇迹创坛投资

  上海科技大学有着浓厚的创业氛围。视觉与数据智能中心就有着贷悟智能、影眸科技、叠境数字等多家创业企业。贷悟智能聚焦工业场景数字化,影眸科技主打超写实数字人,而叠境数字致力打造超大规模的数字孪生。并且,它们都获得了来自头部投资机构的投资。

  赵富强的研究生导师,虞晶怡教授,正是视觉与数据智能中心的主任。同时,虞教授也是信息学院的执行院长、MIT博士、计算机视觉领域的顶级专家。

  2020年,欧洲计算机视觉国际会议首次提出了神经辐射场技术(NeRF),它的出现能让计算机看到、理解并应用3D场景,这是计算机视觉历史上的重大发明。它的技术地位相当于2D图片的RGB标准,之后的3D内容创作都会以NeRF为格式。类似于NLP技术能够自动处理和生成人类语言,有了NeRF后,计算机就能自动处理和生成3D内容。

  

  第一时间,虞教授组建了NeRF研究团队,赵富强也加入其中,而这支团队成为国内最早从事NeRF研究的团队。就这样,赵富强一头扎入NeRF研究之中。这是一个具有高度竞争的学术领域,为了刊发一篇顶级会议的论文,赵富强感到巨大的焦虑与压力。“我们花了9个月,甚至1年做的研究,国外团队用了4个月,甚至3个月就完成了,这种情况发生过好几次。”

  作为视觉与数据智能中心的一员,赵富强一直沉浸于那份浓浓的创业氛围中。不论贷悟智能、影眸科技还是叠境数字,它们都致力于把AI视觉技术转化为一种切实可用的产品或服务。

  “你要不要搞一家公司?”虞教授的一句话点醒了赵富强。

  从事计算机技术的人,要么将自己的研究发表成学术论文,要么将自己的研究做成产品。于是,他决定创办一家将NeRF技术进行产业化的公司。2022年2月,赜深数字正式成立。

  NeRF技术的外延很广,它不仅在学术研究上有多个可探索的方向,而且在虚拟现实、医学影像、工业设计等多个领域有着广阔的应用前景。可是,公司成立之初,赵富强并未找到赜深产品的定位,也未搭建起一支完整的团队。

  关于NeRF的重磅论文几乎以每天一篇的速度刊发,NeRF研究很快进入深耕期,不论国内国外,很多研究团队都尝试把NeRF技术产品化。时间不等人,赜深数字要尽快设计出产品来,才能在竞争中胜出。

  事情的转机发生在几个月之后,赵富强发现NeRF的3D内容生成的质量不佳。赵富强解释道:“当时的研究表明,要让NeRF产生一个3D模型,需要用到笨重的器材,花费大量时间,而且最后效果不一定好。例如,生成的3D树木会出现‘缺枝少叶’的情况。”赵富强认为,这个问题是可以通过学术研究而解决的。

  为找到解决方案,赵富强带领四人研究团队开展深入研究。不仅如此,他们还准备将这份研究发布在顶级学术会议上,这意味着团队只有4个月时间完成论文。那时的上海正好遇上疫情封控,团队成员全部封锁在宿舍,沟通交流受阻碍。为了把研究顺利推进下去,赵富强和团队成员清早一起床,就挂上腾讯会议,随时讨论问题和改写代码,一直持续到夜深入睡。团队的努力加上幸运之神的眷顾,这份研究得以按时完成,并被每年仅仅接受100多篇论文的图形学会所接受。

  除此之外,赵富强及其团队还发表了多篇计算机顶级会议论文,这代表着赵富强已为NeRF产业化积累了较充分的技术储备。同时,这些技术储备奠定了赜深数字的产品方向——通过NeRF,以简单易用的方式,将2D图像转化为3D内容。

  他还找到了志同道合的同学,这些同学后来成为了赜深数字的核心创始团队,包括CTO王立翱和COO曹君铭,他们都在虞晶怡教授组内攻读博士学位。

  有了核心团队,也有了产品方向,再加上老师的指导,赜深数字很快研发出一款3D重建的软件来。用户只需要拍摄一段关于物体的环绕视频,最短只需10秒,即可生成高精度的3D模型。

  此外,生成的3D模型支持自由编辑,如同PS编辑图片一样编辑3D模型。目前,赜深数字已经开通了网页和APP,读者可以点击阅读原文,去到网页端测试体验。

  该应用产品支持生成的3D内容的自由编辑

  赵富强告诉张通社,国外有一家初创公司名叫Luma.AI,也做着赜深类似事情,进度几乎与赜深同步。今年3月,它刚刚获得2000万美元的A轮融资。

  巧合的是,国内两家头部VC机构,红杉种子和奇迹创坛,正在国内搜寻NeRF创业团队。它们了解到赜深的NeRF技术实力,更看到它的产品化能力。于是,两家VC向他们投出了橄榄枝。赜深数字获得第一笔天使轮融资。

  

  “它们两家VC对于新兴技术非常重视,看到我们的技术实力后,他们就投了进来,我们非常感激他们。”

  03

  第一版3D生成大模型已经发布

  NeRF技术不仅仅可应用于一个APP,它有着更加广泛的应用空间。它可以用作3D打印前的模型建构,可以用作建设的虚拟展览展品,还可以被3D建模师用来触发灵感等等。

  “NeRF可以与现有工业结合起来,它能够颠覆传统工业的很多工作模式。”赵富强非常看好NeRF的未来潜力。

  紧接着3D重建APP,赜深数字着手开发了一个基于NeRF的3D生成大模型。有别于Chat GPT类的大语言模型,3D生成大模型生成的是3D模型。用户只需输入关于3D模型的文字描述,就能生成一个3D大模型。“我们已经做出了第一个试用版本,正在紧锣密鼓地开发第二版。”

  输入相关文字就能生成相应的3D模型

  制作3D大模型绕不开训练数据不足和芯片算力不足的困扰。好在上海科技大学有着亚洲最大的动态光场采集阵列和大型GPU计算集群,前者可为大模型提供充足的3D训练数据,后者可为大模型提供足够的算力支持。这就帮助赜深数字避开许多大模型开发团队的困扰,助力他们走得更久远。

  尽管公司还处于初创阶段,但是赜深已经和国外顶尖团队站在同一条起跑线上,假以时日,赵富强和他的团队能够跑出不一样的精彩。

上一篇:院士大咖齐聚蓉城,这场大型学术论坛现场干货满满!
下一篇:直系分享 | 重庆理工大学资产评估专硕 / 436资产评估专业基础备考全攻略

最近更新教育培训