目前很火爆的AIGC是指什么?

栏目:旅游资讯  时间:2023-08-11
手机版

  AI生成内容(AI-Generated Content)是指通过人工智能技术自动创作的各类内容。这些内容可以包括文本、图像、音频、视频等。随着人工智能和机器学习技术的不断发展,AI生成内容已经在许多领域取得了显著成果。以下是一些常见的应用场景:文本生成:AI可以根据给定的主题、关键词或提示生成文章、新闻、博客等文本内容。例如,OpenAI 的 GPT 系列模型已经展示了在多种文本生成任务上的强大能力。图像生成:AI可以创建各种风格、主题的图像,包括绘画、插图和照片等。例如,基于生成对抗网络(GANs)的技术可以生成逼真的人脸图片、艺术作品等。音乐创作:AI可以根据给定的风格、节奏、和声等参数生成原创音乐作品,甚至可以模仿特定的音乐家或作曲家的风格。视频生成:AI可以编辑和合成现有的视频片段,以生成新的视频内容。此外,AI还可以用于生成虚拟现实(VR)和增强现实(AR)内容,以提供沉浸式的用户体验。语音合成:AI可以将文本转换为自然、流畅的语音,以用于智能语音助手、有声读物、语音广告等应用场景。

  AIGC 是 Artificial Intelligence Generated Content 的缩写,即「人工智能生产内容」,这是相对于诞生已久的 PGC(专业生产内容)、UGC(用户生产内容) 而言的又一种生产内容的方式,不管是 PGC 还是 UGC,内容生产背后的主体是人,而 AIGC 这种新的内容生产方式,背后的主体是人工智能。

  人工智能,你可以简单粗暴地把它理解为「机器人」,但更为学术的解释是:人工智能 (AI) 是一组技术,使计算机能够执行各种高级功能,包括查看、理解和翻译口语和书面语言、分析数据、提出建议等各种能力。

  AIGC 的火爆,引发了人们继 AlphaGo 战胜李世石之后,对人工智能未来发展的又一轮讨论,这些热议的话题对你来说可能并不陌生:

  AI 未来会导致大规模失业吗?最容易被 AI 取代的人有哪些?好多人在讨论的 AIGC,有什么应用场景或产品?……

  针对最后一个问题,皮仔目前看到的基于 AI 生产内容的产品有:

  AI绘画:Midjourney、Stable Diffusion、DALL·E 2、Novel AI……AI对话/AI聊天:ChatGPTAI搜索引擎:Perplexity AIAI抠图/AI抠像:Removebg、Pixso协同设计、Inpainting、UnscreenAI播客: AI写作:Penelope AI……

  接下来就由皮仔来简要介绍上面提及的一些 AIGC 产品:

  Stable Diffusion,是一个文本生成图片的扩散模型,能够根据输入的任何文本生成令人难以置信的图像,让数十亿人在几秒钟内创造惊人的艺术。

  为方便用户控制和快速生成图片,Stable Diffusion 推出了一个可在线使用的版本——DreamStudio beta,打开后在页面底部输入文本内容,稍等一小会,它就会生成对应的图片,如果你是初次使用这类工具,最初生成的图片都会比较丑,原因不在工具,更多地在于自己不了解生成好看图片的 prompt(文字描述)。

  需要注意的是,DreamStudio beta 每次生成图片会消耗一定的 Credit(积分),当积分被完全消耗后,想生成图片就要先购入积分,10 英镑 = 1000 积分。

  Midjourney,同样是一个文本生成图片的AI绘画工具,类似于前面介绍的 Stable Diffusion 和 OpenAI 推出的 DALL-E。

  与 Stable Diffusion 不同,Midjourney 架设在 Discord 频道上,在频道中使用 /image 命令并输入生成图片的文字描述,或是艾特频道内的机器人并带上文字描述,机器人就会自动返回生成的图片。

  除了绘画,人工智能AI在我们的生活或工作中还有诸多应用场景,例如主打自动去除背景的AI抠图工具Pixso协同设计,软件内置的 AI 抠图插件,可以一键去除图片的背景,简化以往抠图的繁琐步骤,这在日常更换证件照底色、图片修饰、图像合成等场景下非常有帮助!

  打开 Pixso 首页 ,进入 Pixso 工作台,点击「新建文件」,创建一个新的 Pixso 文件。

  点击 Pixso 右上角的插件图标,打开插件面板,切换到「社区插件」选项卡,找到「背景移除」插件,点击安装插件。

  安装插件后,再次点击 Pixso 右上角的插件图标,打开插件面板,找到我们刚添加的「背景移除」插件,点击插件,右侧会弹出两个选项。

  首次使用这个抠图插件,我们需要配置一下这个插件,点击「设置api 密钥」,根据弹出的提示进行操作。

  抠图插件设置 api 密钥分为如下 3 步:

  前往 创建一个账号,或是直接使用 Google 账号登录创建好账号后,回到 Pixso,点击插件面板上的链接 ,找到 API 密钥将 API 密钥粘贴到下图的输入框中,点击「保存」,就完成了插件的配置

  在 removebg 生成 API 的页面,点击「New API Key」,在弹出的面板,可以直接点击生成 API,或是先添加相关的描述信息,再点击下方的按钮,生成 API 密钥。

  点击生成的 API 右侧的复制按钮,将 API 复制到剪贴板中。

  回到 Pixso 中,将 API 粘贴到下方的输入框中,再点击保存按钮,就完成了抠图插件的配置。

  配置好抠图插件后,就可以使用插件来实现一键自动抠图了!

  点击 Pixso 顶部工具栏的「形状」工具,选择「图片」,将电脑本地的图片上传到 Pixso 画布中。

  选中上传到 Pixso 画布的图片,打开「背景移除」插件,点击「运行」,插件就会自动抠去图片的背景,得到一张带有透明通道的图片。

  下面皮仔放上了同一张图片抠图前后的对比,效果还是非常不错的,也不得不佩服 AI 抠图插件的强大!

  看到这里,感兴趣的朋友,可以在浏览器打开在线设计工具 Pixso 的首页 ,上传本地的图片,体验 Pixso 内置的 AI 抠图插件~*AI抠图插件-抠图前后的对比

  如果你也想体验在线设计工具 Pixso 内置的 AI 抠图插件,让 AI 给你的日常工作减负,可以点击下方的卡片,就能免费、在线体验这一强大的黑科技!

  ,完全由人工智能生成播客节目的工具。每周 都会深入探讨一个新的话题,听众可以提出话题,甚至是嘉宾和主持人可以为未来的节目提供建议。

  无论你是一个机器学习的狂热爱好者,只是想以一种新的方式听到你喜欢的话题,甚至只是想听到从过去带回现在的声音,这都是 所能提供的。

  ChatGPT,是 OpenAI 于 2022 年 11 月推出的聊天机器人,它以对话的方式进行交互,对话格式使得 ChatGPT 能够回答后续问题、承认错误、质疑不正确的前提,以及拒绝不适当的请求。

  这个基于 AI 的聊天机器人其实不用过多介绍,相信很多人的票圈、在用的社交平台都被这款工具刷屏了,随着尝鲜和使用人数变多,也衍生出了各式各样的用法,譬如让 ChatGPT 来写脚本程序、让 ChatGPT 来帮自己写文案、让它来回答知乎的问题……

  别怀疑,你现在正在看的这篇内容,也是使用 ChatGPT 创作的,开个玩笑(逃

  不过,ChatGPT 在不同领域的广泛使用,也引起了人们对学术造假、作弊、道德诚信等问题的关注,甚至也催生出了反 ChatGPT 的工具——ChatGPT 检测器,用来判断你看到的内容是否由 ChatGPT 生成的……

  皮仔相信,这种有点像是「对抗」的局面,并不是 ChatGPT 的创造者们想看到的,但对于新技术的诞生,以及随之而来的各种问题,也是一个值得关注、探讨和摸索的话题。

  Perplexity AI,一个基于 AI 的搜索引擎工具,和上面介绍的 ChatGPT 有些相似,区别在于两者的交互方式和设计细节。

  Perplexity AI 首页采用了一个像是搜索引擎的设计,输入你想问的问题,按下回车键,就会返回它对这个问题的回答,同时下方会附上 AI 生成回答时参考的资料和相关的问题。

  如果你对 AI 生成的回答存在疑问,想作进一步的了解,可在底部的搜索框继续输入你的疑问~

  出于好奇,皮仔还试着输入了一个中文的问题,出乎意料,没想到这个工具还支持中文,也不需要登录,对想尝鲜的人非常友好!

  篇幅有限,对于人工智能 AI 技术的应用场景和代表产品的介绍,到这里就告一段落了,有看到自己感兴趣的 AI 工具的朋友,不妨快去打开尝试一下。

  如果你也在关注 AI 领域的工具或最新动态,也欢迎在下方的评论区写写你觉得好用、有趣的 AI 工具~

  码字不易,如果对你有帮助的话,请别忘了赏个【三连】或是【关注】皮仔哦,关注不迷路!

  我是皮仔 @Pixso协同设计,那我们下次再见!

  看过《流浪地球2》的小伙伴,想必对影片中的大Boss人工智能MOSS印象深刻。作为550系列量子计算机,MOSS既能帮助人类建造行星发动机、完成月球自动化建设、负责宇航员的面试,又能连接全球摄像头暗中观察、独立谋划布局、成为影片终极大Boss。

  电影内MOSS引发大家热议,电影外的现实世界中,美国人工智能实验室OpenAI发布的语言生成模型ChatGPT在科技圈掀起一阵狂热之风,ChatGPT所代表的AIGC赛道火爆出圈,带动相关概念板块持续上涨。

  咱们今天就来聊聊这个人工智能领域热度飙升的新赛道,看看AIGC究竟是什么,又有哪些魅力吸引投资者持续关注?

  所谓AIGC,英文全称是AI Generated Content,指的是利用人工智能来生产内容,其中AI是人工智能的简称,GC则是创作内容。

  目前AIGC主要运用在文字、图像、视频、音频、游戏以及虚拟人等方面。比如说,用户只需要输入一段对文章的描述或要求,类似于大学课堂上教授布置论文时的要求,系统就能根据指令进行创作;输入对艺术绘画作品的文字描述,比如“星空下的大海,远处的波浪像笼罩着一层层白雾慢慢向海边靠近”,系统就能自动生成一张绘画作品。

  去年12月8日,全球首幅AIGC画作《未完·待续》拍卖出110万元高价。几乎同期发布的大型语言生成模型ChatGPT,以其强大的信息整合和语言创作能力惊艳了世界,能够胜任对话聊天、小说和剧本构思等多个场景。在北密歇根大学的一门课程论文评分时,用ChatGPT撰写的论文得到了最高等级的A+评分,并被教授评为“全班最好的论文”。

  除了微软发布的ChatGPT,国内互联网巨头对于AIGC也在争相布局。比如刚刚提到的《未完·待续》,是由百度推出的AI作画平台文心一格完成续画;网易推出的一站式AI音乐创作平台“网易天音”,根据指令10秒即可产出词曲编唱,还可以选择AI歌手进行演唱;阿里巴巴旗下AI在线设计平台Lubanner,能帮助营销人员生产Banner。(以上不作个股推荐)

  了解了AIGC的神奇,也就不难理解,为什么在很多业界大佬看来,AIGC将是人工智能发展的新方向。

  从自身发展层面来看,AIGC目前还处于发展初期。有行业大佬判断,AIGC的发展可以分为“助手阶段”“协作阶段”和“原创阶段”,分别对应AIGC辅助人类进行内容生产、人机共生共同完成内容创造、以及独立完成内容创作这三个阶段。目前全球各大科技巨头都在积极拥抱 AIGC,不断推出相关技术、平台和应用,随着NLP(自然语言处理)等相关技术发展,AIGC有望进入快速发展期。

  从技术应用层面来看,AIGC被视作“Web3.0时代的生产力工具”。不同于Web 1.0时代单向信息传递的“只读”模式及Web 2.0时代人与人通过网络沟通的“交互”模式,Web3.0时代将形成人与网络的全新链接,内容消费需求飞速增长,AIGC有望成为新的元宇宙内容生成解决方案。

  从市场空间来看,AIGC可能将打开一个万亿新市场。从平面设计到艺术创作,从编程到深度写作,从智能客服到创意营销,无数行业都等待着被AIGC所颠覆。腾讯发布的《AIGC发展趋势报告2023:迎接人工智能的下一个时代》研究报告指出,AIGC巨大的应用前景将带来市场规模的快速增长;量子位智库根据现有技术及需求成熟度预测,2030年AIGC市场规模将超过万亿人民币。(参考来源:每日经济新闻,2023.02.01;此处不作个股推荐)

  在感叹AI将再次颠覆世界之后,作为投资者的我们,或许也能从投资布局中寻找机会。从机构分析来看,AIGC的投资机遇主要分为基础设施端和应用端。

  咱们先来看看基础设施端,任何一个人工智能新技术的发展,都离不开基础设施底座。业内认为,数据、算法、算力AI三要素耦合共振,是探索AI未来发展道路的重要基础,数据、算力和算法分别是AI模型的“汽油”“发动机”和“大脑”。因此ChatGPT将带动上游算力、数据标注、自然语言处理等需求持续增长。

  而在应用端方面,AIGC也就是AI生产内容,关注在文、音、图、视频等AIGC领域布局的公司,以及具备内容生产场景的公司。

  在无数开发者的耕耘下,AIGC的前景值得期待,我们相信,AIGC的征途是星辰大海,能够为人类带来更美好的未来。

  “UGC不存在了”——借鉴自《三体》

  ChatGPT 的横空出世将一个全新的概念推上风口——AIGC( AI Generated Content)。

  GC即创作内容(Generated Content),和传统的UGC、PGC,OGC不同的是,AIGC的创作主体由人变成了人工智能。xGCPGC:Professionally Generated Content,专业生产内容UGC:User Generated Content,用户生产内容OGC:Occupationally Generated Content,品牌生产内容。

  作为淘宝内容线的开发,我们每天都在和内容打交道,那么AI到底能生成什么内容?

  围绕着不同形式的内容生产,AIGC大致分为以下几个领域:

  基于NLP的文本内容生成根据使用场景可分为非交互式文本生成与交互式文本生成。

  非交互式文本生成包括摘要/标题生成、文本风格迁移、文章生成、图像生成文本等。

  交互式文本生成主要包括聊天机器人、文本交互游戏等。

  【代表性产品或模型】:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。

  图像生成根据使用场可分为图像编辑修改与图像自主生成。

  图像编辑修改可应用于图像超分、图像修复、人脸替换、图像去水印、图像背景去除等。

  图像自主生成包括端到端的生成,如真实图像生成卡通图像、参照图像生成绘画图像、真实图像生成素描图像、文本生成图像等。

  【代表性产品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。

  音频生成技术较为成熟,在C端产品中也较为常见,如语音克隆,将人声1替换为人声2。还可应用于文本生成特定场景语音,如数字人播报、语音客服等。此外,可基于文本描述、图片内容理解生成场景化音频、乐曲等。

  【代表性产品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

  视频生成与图像生成在原理上相似,主要分为视频编辑与视频自主生成。

  视频编辑可应用于视频超分(视频画质增强)、视频修复(老电影上色、画质修复)、视频画面剪辑(识别画面内容,自动场景剪辑)。

  视频自主生成可应用于图像生成视频(给定参照图像,生成一段运动视频)、文本生成视频(给定一段描述性文字,生成内容相符视频)。

  【代表性产品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。

  以上四种模态可以进行组合搭配,进行模态间转换生成。如文本生成图像(AI绘画、根据prompt提示语生成特定风格图像)、文本生成音频(AI作曲、根据prompt提示语生成特定场景音频)、文本生成视频(AI视频制作、根据一段描述性文本生成语义内容相符视频片段)、图像生成文本(根据图像生成标题、根据图像生成故事)、图像生成视频。

  【代表性产品或模型】:DALL-E、MidJourney、Stable Diffusion等。

  本文接下来将会着重讲述文本类AIGC和图像类AIGC。

  最近势头正猛的ChatGPT就是文本类AIGC的代表。

  ChatGPT(Chat Generative Pre-trained Transformer),即聊天生成型预训练变换模型,Transformer指的是一种非常重要的算法模型,稍后将会介绍。

  其实现在的用户对于聊天机器人已经很熟悉了,比如天猫精灵、小爱同学或是Siri等语音助手。那为什么ChatGPT一出现,这些语音助手就显得相形见绌呢?

  本质上是NLP模型之间的差异。

  在自然语义理解领域(NLP)中,RNN和Transformer是最常见的两类模型。

  RNN,即循环神经网络(recurrent neural network)源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。下图所示是一个RNN网络的简易展示图,左侧是一个简单的循环神经网络,它由输入层、隐藏层和输出层组成。

  RNN 的主要特点在于 w 带蓝色箭头的部分。输入层为 x,隐藏层为 s,输出层为 o。U 是输入层到隐藏层的权重,V 是隐藏层到输出层的权重。隐藏层的值 s 不仅取决于当前时刻的输入 x,还取决于上一时刻的输入。权重矩阵 w 就是隐藏层上一次的值作为这一次的输入的权重。由此可见,这种网络的特点是,每一个时刻的输入依赖于上一个时刻的输出,难以并行化计算。从人类视角理解RNN 人类可以根据语境或者上下文,推断语义信息。就比如,一个人说了:我喜欢旅游,其中最喜欢的地方是三亚,以后有机会一定要去___,很显然这里应该填”三亚”。 但是机器要做到这一步就比较困难。RNN的本质是像人一样拥有记忆的能力,因此,它的输出就依赖于当前的输入和记忆。

  而Transformer模型诞生于2017年,起源自《Attention Is All You Need》。这是一种基于Attention机制来加速深度学习算法的模型,可以进行并行化计算,而且每个单词在处理过程中注意到了其他单词的影响,效果非常好。

  !](https://cdn.ytools.xyz/uPic/202303211936538.png)Attention机制:又称为注意力机制,顾名思义,是一种能让模型对重要信息重点关注并充分学习吸收的技术。通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素。 其中重要程度的判断取决于应用场景,根据应用场景的不同,Attention分为空间注意力和时间注意力,前者用于图像处理,后者用于自然语言处理。

  Transformer是完全基于自注意力机制的一个深度学习模型,有关该模型的介绍,详情可参考下面这篇文章

  人工智能 LLM 革命前夜:一文读懂横扫自然语言处理的 Transformer 模型

  由于Transformer的存在加速了深度学习的效果,基于海量数据的进行样本训练便有了可能。至此,LLM正式从幕后走向台前。

  LLM,Large Language Model 即大型语言模型。这个大不仅仅指数据集的“大”,同样也是指算法模型的“大”。一般来说,在训练数据足够充足的情况下,往往是模型越大效果越好。在某种程度上说,甚至只要样本足够,哪怕模型“稍微简单”一些,也是可以取得不错的结果的。

  笔者在2019年时曾翻译过一篇文章

  机器学习竞赛实际上是一场数据竞赛

  这篇文章的主要观点便是“AI竞争本质上就是数据之争”,所有希望创建有影响力、有价值的AI应用都应该认识到以下三点:差异化数据是这场AI游戏成功的关键有意义的数据比全面的数据好起点应该是自己所擅长的东西

  以ChatGPT为例,其本质是基于GPT3的一种变体,而GPT又是基于Transformer模型的一种演化。从模型参数上来说,GPT3共使用了1750亿个参数训练而成,而ChatGPT只使用了15亿个参数,但其数据集是却是整个互联网和几百万本书大概3千亿文字。哪怕是这样,却也是对一众使用RNN的NLP程序造成了降维打击。这篇文章写到一半的时候GPT-4发布了,现在作为小插曲来扩展一下

  笔者在和朋友的日常交流中发现大家总是将ChatGPT和GPT混为一谈,其实这是两个不同的东西。让我们来问一下New Bing这两者的区别。

  很显然,从Bing给我的回答看来,为了让对话更加生动和有趣,ChatGPT是一个专为聊天设计的专业模型,而GPT则是一个通用语言模型。GPT4就是这个模型发展到第四代的模样,相较于GPT3,GPT4可以做的事情变得更多了。GPT-4 是一个更大的模型,网传拥有约 1000 万亿个参数,这意味着它能够处理更多的数据,学习更多的知识和技能。GPT-4 能够接受多模态的输入,例如文本、图像、音频和视频,并生成相应的输出。这使得它能够处理更复杂和丰富的任务,例如图像描述、语音识别和视频生成。

  在国内一直都有一句调侃的话,叫做“国外一开源,国内就自主研发”。那既然算法模型是公开的,代码也已经开源了,那在国内,那些类ChatGPT的模型是不是应该如“雨后春笋”般涌现了呢?

  事实上并没有,本质上还是因为LLM的扩展和维护是相当困难的。主要来源于以下几点:漫长的训练时间高昂的费用开支海量的训练数据稀缺的高端人才时代的眼泪2017 - Attention is all you need2023 - Money is all you need

  以复旦大学开源的类ChatGPT应用MOSS为例,虽然不知道具体的模型参数数量,但其负责人表示相较于ChatGPT少了一个数量级,再加上简中互联网作为其训练样本,训练质量可想而知。

  点此体验 https://moss.fastnlp.top/关于训练的样本数据,这里举一个小例子 。 同样是搜索代码段,ChatGPT给你推StackOverflow的答案,MOSS给你推csdn的答案,高下立判

  本来还想补充一下百度的文心一言的,结果他们发布了一个ChatPPT,网上一堆段子,这里就不吐槽了。

  说完了文本类AIGC,我们再来看看最近另一个比较火的领域——图像类AIGC。

  俗话说,饱暖思淫欲。作为“第一生产力”的“性”,很多技术发展都离不开他。扎克伯克创建Facebook的起因就是为了更好的认识小姐姐。而图像类AIGC出圈的一个很大原因就在于,他生成的美女小姐姐越来越真实了。

  作为一个业余摄影师,第一眼也没能正确分辨出下面这两张图谁是真人,谁是AI画出来的人。

  那么问题来了:这些由AI生成出来的美女是如何生成的呢?

  2014年 Ian GoodFellow提出了生成对抗网络,成为早期最著名的生成模型。GAN使用零和博弈策略学习,在图像生成中应用广泛。以GAN为基础产生了多种变体,如DCGAN,StytleGAN,CycleGAN等。零和博弈是指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”,双方不存在合作的可能。

  一个简单易懂的例子

  有两个人,都快要渴死了,现在他们面前只有一杯水,抢到水的那人得到的收益是1,没抢到水的那个人会死掉,收益为-1,总收益为0。这就是零和博弈。

  GAN包含两个部分:生成器:学习生成合理的数据。对于图像生成来说是给定一个向量,生成一张图片。其生成的数据作为判别器的负样本。判别器:判别输入是生成数据还是真实数据。网络输出越接近于0,生成数据可能性越大;反之,真实数据可能性越大。

  如上图,我们希望通过GAN生成一些手写体来以假乱真。我们定义生成器与判别器:生成器:图中蓝色部分网络结构,其输入为一组向量,可以表征数字编号、字体、粗细、潦草程度等。在这里使用特定分布随机生成。判别器:在训练阶段,利用真实数据与生成数据训练二分类模型,输出为0-1之间概率,越接近1,输入为真实数据可能性越大。

  生成器与判别器相互对立。在不断迭代训练中,双方能力不断加强,最终的理想结果是生成器生成的数据,判别器无法判别是真是假。(和周伯通的左右互搏很像)

  以生成对抗网络为基础产生的应用:图像超分、人脸替换、卡通头像生成等。

  扩散是受到非平衡热力学的启发,定义一个扩散步骤的马尔科夫链,并逐渐向数据中添加噪声,然后学习逆扩散过程,从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好,可以从纯噪声作为唯一输入,生成逼真的图片。马尔科夫链指的是一种随机过程,它的特点是当前状态只依赖于前一个状态,而与其他历史状态无关。

  一个马尔科夫链的例子是股市模型,它有三种状态:牛市、熊市和横盘。 每种状态之间有一定的转移概率,例如从牛市到熊市的概率是0.4,从熊市到牛市的概率是0.2,等等。这样就可以用一个转移矩阵来描述这个马尔科夫链。

  一个标准的扩散模型分为两个过程:前向过程与反向过程。在前向扩散阶段,图像被逐渐引入的噪声污染,直到图像成为完全随机噪声。在反向过程中,利用一系列马尔可夫链在每个时间步逐步去除预测噪声,从而从高斯噪声中恢复数据。

  前向扩散过程,向原图中逐步加入噪声,直到图像成为完全随机噪声。

  反向降噪过程,在每个时间步逐步去除噪声,从而从高斯噪声中恢复源数据。

  扩散模型的工作原理是通过添加噪声来破坏训练数据,然后通过逆转这个噪声过程来学习恢复数据。换句话说,扩散模型可以从噪声中生成连贯的图像。

  扩散模型通过向图像添加噪声进行训练,然后模型学习如何去除噪声。然后,该模型将此去噪过程应用于随机种子以生成逼真的图像。

  下图为向原始图像中添加噪声,使原始图像成为随机噪声。

  下图为从噪声中恢复的原始图像的变种图像。

  2022年8月,Stability AI发布了Stable Diffusion ,这是一种开源Diffusion模型,代码与模型权重均向公众开放。

  通过prompt提示语“郊区街区一栋房子的照片,灯光明亮的超现实主义艺术,高度细致8K”,生成图像如下,整体风格与内容锲合度高,AI作画质量较高。

  在线体验 https://huggingface.co/spaces/stabilityai/stable-diffusion结论先行,我认为Web3.0就是元宇宙,AIGC为元宇宙提供养料。

  第一代互联网(Web1.0)是PC(个人计算机)互联网,从1994年发展至今。Web1.0让人类第一次掌握高效的传输信息的手段,随着各大网页应用的普及,互联网用户被迅速的连接起来,从而提升了全球信息的传输效率,各大门户网站从此处开始大放异彩。

  第二代互联网(Web2.0)是移动互联网,从2008年左右拉开大幕,至今仍精彩纷呈。正是由于移动设备具备“永远在线”和“随时随地”的特点,“上网”二字逐渐从大众的视野消失,因为每个人时时刻刻都生活在网络里。

  第三代互联网(Web3.0)是互联网的下一代技术发展方向,主要特征是去中心化、安全、开放和自主。元宇宙是一种虚拟的、持续的、共享的和交互的数字世界,可以让人们以不同的身份和形式参与其中。Web 3.0为元宇宙提供了技术基础和可能性,而元宇宙则是Web3.0在应用场景和生活方式上的体现。

  百度百科对于元宇宙的定义是 元宇宙(Metaverse),是人类运用数字技术构建的,由现实世界映射或超越现实世界,可与现实世界交互的虚拟世界,具备新型社会体系的数字生活空间。

  本质上,元宇宙是一种新型社会形态,在元宇宙中,更多工作和生活将被数字化。

  更多的数字化,意味着需要更丰富的虚拟地图、虚拟场景、虚拟对象和虚拟角色,这其中涉及到大量数字内容的生产和制作。以往,数字内容制作开发周期较长,通常以年计,在生产方式上,或来源于现实,通过扫描或重建模型实现材质、光影、动作捕捉等,或通过创作工具辅助艺术家实现。而这些刚好是AIGC所擅长的。AIGC广泛的适用性可以为元宇宙提供全新内容生成解决方案。 脑洞一下 开放世界游戏一直被大家视作元宇宙“数字世界”的雏形,试想一下,如果未来的3A大作,NPC的脸部模型、肢体动作是Diffusion Model生成的,聊天是ChatGPT和你对话,语音是Deep Voice创作的,你还会觉得他就只是一个普普通通的NPC吗?抑或是,此时看文章的你,才是地球Online里的一个NPC呢?

  元宇宙目前还只是大家的一个美好幻想,Web3.0究竟走向何方还需要大家共同探索,作为时代的先锋,既要学会抬头仰望星空,也不能忘记低头看路。

  如今,AIGC的浪潮已起,作为非算法行业的从业者,底层的算法实现并非我们关心的重点,如何发挥AI的作用,创造出实际的价值才是我们应该探讨的方向。除了聊天机器人、画画这种不痛不痒的功能外,AIGC可能会颠覆的应用场景会有哪些呢?

  AIGC+搜索已经成为我现在获取信息的第一途径了。目前,New Bing作为我的贴心小助手,不管是什么想要了解的知识点,他都可以快速的给我解答,省去了我在海量信息中筛选的过程。

  摘自Microsoft 365 Copilot官网

  人类天生就有梦想、创造、创新的本能。我们每个人都渴望做一些有意义的工作——写一部伟大的小说,做一个发现,建立一个强大的社区,照顾生病的人。我们都有与工作核心相连的冲动。但是今天,我们花了太多时间在那些消耗我们时间、创造力和精力的琐碎任务上。为了重新连接到工作的灵魂,我们不仅需要一种更好地做同样事情的方法。我们需要一种全新的工作方式。 —— 翻译自 ChatGPT

  GPT4发布的第二天,Microsoft 365 Copilot变横空出世,宣传片相信大家都已经看到了,从此以后我们的工作方式将永远改变,开启新一轮的生产力大爆发。

  除此之外,前段时间笔记软件Notion也上线了自己的AI助手,可以帮助用户更轻松、更快捷地完成日常任务。主要包括自动文本生成、内容推荐、智能搜索、情感分析等。

  可以预见,AIGC的出现将会极大的改变现有的工作模式,未来,越来越多的效率软件、办公软件将会推出其自己的AI解决方案。 插播一条行业动态 36氪独家获悉,钉钉已完成对协同办公厂商「我来wolai」的全资收购。3月5日,我来wolai(上海我云网络科技有限公司)数位核心团队成员已经退出公司股东名单。公司法人已变为钉钉总裁叶军,公司则由阿里100%控股。36氪就上述消息向钉钉求证,钉钉官方表示:我来wolai团队已加入钉钉,将负责智能化协作文档的研发,和个人版文档的产品设计。

  笔者最近一直沉迷“以xxx的口吻调教ChatGPT”,上图便是在绩效季到来之际用chatGPT给老板们整的活,别的不说,效果还是蛮不错的。自行跳转 《老板评语生成器》

  ChatGPT最强大的便是其背后的庞大数据,基于此,你甚至可以让那些不存在的人物、已故的人物出现。笔者最近刚看完电视剧《三体》,如果真的有一款“三体游戏”,里面的墨子、秦始皇等人物会不会就是ChatGPT生成的呢?

  如果你也想调教出一个自己的对话机器人,可以试试这个网站 https://open-gpt.app/

  关于AIGC的落地,最后推荐两个和我们饭碗有关的AIGC产品

  Codeium

  Github Copilot

  AIGC技术强大的创作能力也引发对技术作恶的担忧。当要求类ChatGPT应用制造有害信息时,它确实可以做到,输出主要以文本和图片为主。网络诈骗话术教学者人机交互意味着无限可能,ChatGPT 可能会遵守某种虚假设定下的邪恶指令。黑产团伙可精细化训练AIGC技术生成各类话术,用于网络诈骗、评论刷量等,不仅能够主动发帖,还会对其他用户的帖子做出响应,并展开长期的运营。错误信息超级传播者ChatGPT的不可靠之处还在于,可能会加剧虚假消息和错误消息的传播。ChatGPT不具有识别甄别能力,给出的答案很可能拼凑而来,看似合理,却暗藏事实性错误。如果用户没有这方面的鉴别能力,就可能产生比较大的风险,特别是在一些政治文化、医疗健康、交通安全方面的话题,错误的回答可能引起严重后果。色情暴力素材生成机用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作,LAION-5B数据库包含色情、种族、恶意等内容,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。AIGC对个人肖像权等权利的侵犯

  finance.sina.com.cnAIGC对原创作品的版权侵犯

  网易LOFTER风波警醒了谁?_风闻

  在可预见的未来,AIGC将会以井喷的态势席卷各个行业,在享受AI赋能我们生产力的同时,也应该警惕AIGC带来的危害。

  《Nature》杂志在《ChatGPT: five priorities for research》一文中提到,对AIGC的进一步研究需要关注的五个问题:务必要对模型进行持续校对;制定问责制与规则;投资于真正开放的大语言模型;扩大辩论范围;拥抱人工智能的好处。

  ChatGPT会设置多层道德底线,兼顾科学和伦理,约束“经济人”行为,以保持“人尽其才、物尽其用”特性。未来,亦有可能出现“以子之矛,攻子之盾”的场景,用AI去识别/对抗AI。也许未来会出现很多这样的文章 《一种基于x

上一篇:护理伦理学基本原则、规范和范畴.ppt
下一篇:3年落马十余位高管!这里又有“一把手”栽了