现场拔网线！第四范式版GPT能力首秀，有点不一样

栏目：热点资讯时间：2023-04-29

手机版

　　国产大模型能大战，又有一员猛将入局。

　　就在刚刚，第四范式自研大模型" 式说 "（4Paradigm SageGPT）在上线 2 个月后，终于来了一波能力首秀。

　　而且纵观整场活动的发布，最直观的感受就是：不一样，着实不一样。

　　怎么说？

　　首先，他敢在现场演示的时候，拔！网！线！

　　效果是这样的，例如上传一张《狂飙》剧照之后，让 " 式说 " 描述一下照片，它的回答是：

　　这张照片中有一组穿着制服的男子站在一张桌子前。

　　而后追问剧照中有几个人，" 式说 " 也立即给出了答案：9 个。

　　再来看下以文生图的能力，先让它画一下" 狮子头 "：

　　不难看出，生成图片的效果是过关的；此时现场很多人立即开口说到：" 红烧狮子头 "呢？

　　第四范式不在怕的，马上在现场演示了起来：

　　接下来，是代码生成方面，第四范式在现场直接让 " 式说 " 秀了一下"Python 猜随机数 "：

　　面对敢于拔网线的 live 演示，现场观众也是惊叹与掌声不断。

　　但 " 不一样 " 的点还不只于此，而且上面展示的这些能力，也仅仅是" 开胃菜 "。

　　因为第四范式的 GPT，并不是 " 你以为的你以为 "，而是不同于其它厂商的一套玩法——

　　用 AIGC 的能力重构软件（AIGS），目的就是以此来提高企业软件的用户体验和开发效率。

　　例如让 " 式说 " 分析集装箱及小箱子尺寸，并设计装箱方案。

　　它就会先向用户咨询与之相关的细节的信息，然后便一步一步执行它的方案，还是会给出思考过程的那种。

　　对此，第四范式 CEO 戴文渊在现场给出了他的解释：

　　C 端产品已经逼近用户体验的上限，而 B 端的企业级软件往往是个十分复杂的执行系统。

　　目前这些 B 端软件极为复杂的交互体验，以及复杂性带来的极低开发效率，恰恰为生成式 AI 留下足够大的重构和改造空间。

　　不是你以为的 GPT

　　整体来看，" 式说 " 之所以能够拥有上面展示的这般能力，是因为在它的背后拥有三大技术 " 利器 "。

　　首先就是多模态大语言模型技术。

　　" 式说 " 在最初 2 月发布之际所支持的能力是单一模态的，即文本对话能力。

　　而时隔仅 1 个月，第四范式便将语音、图像、表格、视频等多模态输入及输出能力融入了进来。

　　第二大技术 " 利器 "，则是企业级 Copilot。

　　值得一提的是，这个 Copilot 并非是微软、GitHub 的那个 Copilot。

　　而是第四范式通过自研大语言模型对专业领域的知识做理解，以便帮助用户实现某些功能。

　　例如在开发的过程中，在企业级 Copilot 的加持之下，所需的成本就只是把 API 对接进来即可。

　　什么概念？

　　这就好比 ChatGPT Plugins 一般，只需要安装特定领域第三方的插件，就能让 ChatGPT 在这个领域变得更加聪明、专业。

　　同样的，当企业使用 " 式说 " 时，Copilot 就可以调出企业软件的有关功能，员工可以通过语音、图像、表格、视频等形式获取想要的答案。

　　例如在航空制造业，软件设计人员只需要上传一些图片，即可提出要求让 " 式说 " 在上百万的工装零件库中找出相似零件，并进行组装：

　　由此可见，" 多模态大语言模型 +Copilot"这套组合打法，可以让 AIGC 在产业实际落地过程中更加得心应手。

　　但若是仅仅如此，依旧还是远远不够的。

　　因为上述能力只能去应对某些单一的、碎片化的任务，而产业中的问题往往更加纷繁复杂。

　　就好比我们在用 Photoshop 去美化一张图片时，往往需要涉及裁剪、调滤镜、调亮度等等多个步骤。

　　不过往往人们想要的结果是一步到位，直接说一句 " 给我生成某个产品的海报 "，所问即所得。

　　而这种情况放在企业生产过程中，不仅是要完整结果那么简单，还需要对生成的过程做到 " 不黑箱 "，步步均可解释。

　　为此，第四范式便在上述两大 " 利器 " 之上，引入了第三个关键技术——企业级思维链（Chain of Thought，CoT）。

　　思维链这个概念最早是由谷歌提出，是一种特殊的上下文学习。

　　它不同于标准提示只是给出输入 - 输出对的示例，思维链提示还会额外增加一段推理的过程。

　　员工只需要交代一个任务，它不仅能够给你一个较为完美的答案，而且还会把期间所有流程是怎么思考的、如何执行的，一一都解释清楚。

　　值得一提的是，第四范式这种企业级思维链是针对特定领域学习的 " 套路 "，是更具专业性、可信度的那种。

　　不过有一说一，第四范式今天的发布，并非是趁着这波大热潮一蹴而就的事情。

　　据第四范式介绍，早在 BERT 出来的时候，范式研究院就开始关注并投入在这个技术领域，GPT3 出来以后就更加明确了这个方向。

　　与此同时，第四范式也坦诚地说 " 相比今年的投入，过去几年肯定还是有差距的 "。

　　整体来看第四范式的技术路线，大致可以总结为三步：

　　式说 1.0：拥有生成语言对话能力，主要场景是文库问答；相当于让 GPT 学习的企业知识后，可以自然地与员工交互，解答专业问题，并且是可溯源的。

　　式说 2.0：加入文本、语音、图像、表格、视频等多模态输入及输出能力，并增加了企业级 Copilot 能力。

　　式说 3.0：发力 Copilot 和思维链，提升使用传统 B 端企业软件的体验。

　　为何如此布局？

　　一言蔽之，AIGS，即用 AIGC 的能力重构软件。

　　毕竟能够用起来的技术好技术，虽然 AIGC 热潮很火爆、诸如 GPT-4 这般效果非常强悍的技术出现了，但它们之于产业，目前又带来了怎么技术价值？

　　这便是第四范式所思考的根本问题，而且戴文渊表示：

　　要做到 AIGS，大模型未必需要是知识广博、十项全能冠军的通才。

　　更重要的在于模型具备 Copilot 和思维链 CoT 的能力。

　　在第四范式看来，传统 B 端软件先是出现过体验上的不足，例如企业内的报销系统、HR 系统、OA 系统等，可以说是 " 菜单接菜单，菜单何其多 "。

　　而大语言模型的到来，使得这些复杂系统可以通过更好的交互方式去实现功能的调用，这是颠覆之一。

　　例如在 AI 改造后的企业软件，以预定会议室为例，不再需要在选日期、选时间段、选会议室了。

　　而是像跟秘书对话一般，直接来一句 " 帮我预定某某时间段的会议室 "，即可。

　　在企业软件开发上，亦是如此。

　　因为传统 B 端企业软件往往都是高度定制化、基于菜单式的开发，每次一个功能升级，又要周而复始的经历原型图、设计、开发等，至少是月级别的开发时间。

　　但由于新的交互形式的出现，现在功能和逻辑只需在数据、API 和内容层面下功夫即可，变成了天级别的开发效率，这又是颠覆之一。

　　正如第四范式所说：

　　我们看到大模型能够带来用户体验的提升，开发效率的提升，所以一定会形成软件行业的飞跃，就是谁率先能做出来的问题。

　　当软件产业被改造以后，整个行业的业务价值、商业模式都会得到飞跃。这是一个巨大的市场。

　　那么 AIGS 这条路，具体又该如何走？

　　第四范式对这个问题也给出了自己的见解，主要分为三大阶段：

　　第一阶段：Copilot 调动不同的信息、数据、应用，作为助手完成用户的指令。相当于在所有企业级软件系统里，配备一个指挥官。指挥官听用户的指挥，比如 " 把照片亮度调亮 20%"。

　　第二阶段：Copilot+ 基于企业规则的 " 知识库 "，AI 能够参照规则做复杂工作，比如 AI 查询了 " 人像美化 " 知识库后，能执行把照片修好看的步骤。

　　第三阶段：Copilot+CoT。软件系统的使用行为最终会被大模型学会，形成 AI 针对这个领域的思维链，意味着 " 把照片处理得更好看 " 这种复杂指令，AI 能自动地按照步骤完成。

　　但更深一层的，若是细看下第四范式的过往，就不难发现如此布局背后的本质—— " 做企业级 "、" 与软件公司打交道 " 似乎一直是刻在第四范式的一个基因。

　　那么这一次，第四范式是否能用 AIGC 重塑产业软件的新范式，是值得期待了。

　　— ?完? —

　　点这里关注我，记得标星哦～

　　一键三连「分享」、「点赞」和「在看」

　　科技前沿进展日日相见 ~

上一篇：2017年，两个小孩奇怪的姓名，让警方揪出逃亡26年命案凶手
下一篇：影视解说怎么找到影视核心，3个技巧找到电影核心的关键

现场拔网线！第四范式版GPT能力首秀，有点不一样

最近更新热点资讯