时间视频2024年10月11日发布:AI绘画的发展历史(GAN、diffuion、VAE……)

⭐发布日期:2024年10月11日 | 来源:时间视频

⭐作者:刘秋玉 责任编辑:Admin

⭐阅读量:776 评论:1人

【香港特马开码开奖结果今天】

【奥门六开奖号码2024年开奖结果查询】

【2023澳门六今晚开奖结果出来】 【香港今晚开奖结果+开奖记录】 【2024新澳免费资料内部玄机】 【2023澳门今晚特马】 【新澳开奖历史记录查询】 【奥门开奖结果+开奖记录2024年资料网站】 【香港二四六开奖资料大全2022年】 【香港二四六天免费开奖】
【澳彩资料大全】 【三肖六码,精准资料中了】 【澳门六开彩开奖结果现场直播视频】 【新澳门资料大全正版资料2024】 【香港最快开码开奖结果】 【澳门2024最新饮料大全】 【港澳开奖结果】 【奥门开奖结果2024澳门】

除了使用工具外,可能很多同学也想了解这些生图工具的原理,演进历史等,那本篇文章主要为大家介绍一下AI生图的历史以及目前部分主流的网络模型运行机制。

随着像midjourney、stable diffusion、DALL-E 这些生图模型的问世,越来越多的同学开始用上了AI生图工具,类似文章配图,文章封面这类创作场景都可以直接用AI产出的图片,可以说节省了成本的同时提供了很大的便利。

一、20世纪70年 AARON AI绘画问世

最早的AI绘画追溯到20世纪70年代,艺术家哈罗德·科恩(Harold Cohen)发明了AARON,AARON最大的一个特点就是通过机械臂输出作画的,当然这套机器的背后也是通过计算机程序围绕规则和算法驱动的,下面为大家展示一些AARON绘画的作品:

图片风格有点像我上小学那会儿学科课本上的插画样式带点抽象风格,90年代的”AARON”已经能够使用多种颜色进行绘画,并在三维空间中创作,AARON的迭代改进持续了几十年,直到今天它还仍然在创作。

2006年, 出现了一个类似ARRON的电脑绘画产品 The Painting Fool. 它是伦敦大学金史密斯学院的计算机创作学教授Colton的作品,它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作,Painting Fool作品如下:

以上都是属于“古典”的AI绘图模型,我们现代的AI绘画属于基于深度神经网络基础上产生的,最早也要追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

二、2012年模糊的猫脸

2012年,谷歌的吴恩达和Jeff Dean使用深度学习模型,基于大量猫脸图片训练出了一个能够生成模糊猫脸的模型,这标志着AI绘画的一个重要起点,他们使用了他们使用了1.6万个CPU核心和来自YouTube的一千万张猫脸图片,进行了为期3天的训练,成功训练出了一个能够生成模糊猫脸的深度神经网络模型,通过模型生成的猫脸图像参照下面这张图:

尽管生成的图像质量并不高,但这个实验标志着深度学习在图像生成领域的一个重大进步。它证明了深度学习模型能够学习到图像的复杂特征,并用于生成新的图像内容。这个实验使用了卷积神经网络(CNN),这是一种特别适用于图像识别和处理的深度学习架构。这个模型在之前的介绍GPT中的神经网络演进历史有讲到过,这篇文章就不再详细介绍了。

三、2014年生成式对抗网络(GAN)

2014年,加拿大蒙特利尔大学Ian Goodfellow等人提出的生成对抗网络算法为AI绘画带来了新的发展,它本质上是通过生成器和判别器的对抗过程来生成图像,下面详细介绍它的训练原理:

上述图中有两个模型:生成器和判别器,这两个模型分别都有一个目标,对于生成器来说,它的目的是让自己生成的图能够骗过判别器,让它认为这张图就是原始数据库中的真实图片而非模型生成的,这种情况下输出结果越趋近于1(1为真)就能说明生成模型效果越好;对于判断器来说,它的目的是有效地辨别出生成器生成的图片,这种情况下输出结果越趋近于0(0为假)就能说明判别模型效果越好;这样的话就形成了所谓的对抗(GAN),一个想让生成结果更趋向于1,一个想让生成的结果更趋向于0,生成的结果数值会给到两个模型和训练目标比对(一个目标是0,一个目标是1)后分别进行Fine tune(优化模型参数);那什么情况下算是训练好了呢?这里就有一个纳什均衡的概念,就是说当输出的结果无限趋近于0.5,0和1的中间值那么就算是把这个生成器训练完了。这个时候生成器生成的图片效果无限逼近于原始图了。

我们现在熟知的Midjourney底层就是基于GAN模型。

四、2015年 谷歌的Deep Dream

2015年,谷歌推出了”深梦”(Deep Dream)图像生成工具,尽管它更像是一个高级滤镜,但它也标志着AI绘画技术的进步,我们可以先看一下Deep Dream生图的效果:

上面那排是原始训练的数据集,下面那排是Deep Dream 生成的像梦境般的迷幻图。

Deep Dream原理:

假设输入图像是X,这个输入图像可以是随机噪音,也可以是一个图像。把这个图像输入到卷积神经网络中,它输出的结果是各个类别的概率,这里卷积神经网络就是一个分类机器,怎样得到Deep Dream图像呢?需要指定一个标签。比如想要生成海星状的图像,就需要把目标标签指定为海星,然后通过海星和预测结果的类别之间的误差,反向传播到输入图像,去优化输入的图像X,如果优化后的X通过卷积神经网络后得到的海星标签的概率很高,那么就得到了类似海星的图像。

注意:这里调整的是输入图像的像素值而不是卷积神经网络。在Deep Dream项目中,用到的卷积神经网络的参数是固定的,调整的仅是输入的图像。

无论是14年的GAN还是15年的DeepDream都还没有实现文字->图片,直到2021年Open AI推出的生图模型DALL-E的诞生。

五、2021年 OpenAI 推出 DALL-E

DALL- E模型的革命性的意义是实现了文字->图片的生成模式,相当于用户输入prompt给DALL-E,DALL-E就能生成文字对应的图片,DALL-E截止目前已经更新到了第三个版本,每个版本使用的模型可以说差别都挺大的,这个三个版本涉及到的主要模型如下:

DALL-E 1

模型基础: GPT-3(Transformer) + VAE(自分编码器)

DALL-E 2

模型基础: CLIP(视觉语言预训练模型) + Diffusion(扩散模型)

DALL-E 3

模型基础:CLIP + VAE + Diffusion(扩散模型)

下面是网上找到的DALL-E2和DALL- E3的对比图:

上述涉及的模型比较多,但我们可以将其进行归类,一类是图像描述生成模型(将用户的Prompt转换成生图模型理解的描述),例如:GPT-3(Transformer)、CLIP(视觉语言预训练模型);另外一类是图像生成,模型 VAE(自分编码器)、Diffusion(扩散模型)。那么下面我们就分别来看看这些模型的原理:

CLIP(视觉语言预训练模型)

中心思想:基于4亿个图像-文本对的数据集,自监督学习的方式实现最大化文本和图像的关联关系。

1)具体步骤为:数据集准备:收集大量的图像和文本对。这些图像和文本对可以是成对的,也可以是单独的图像或文本。理想情况下,这些数据应该涵盖广泛的类别和场景。

2)特征提取:使用预训练的卷积神经网络(CNN)作为图像编码器,从图像中提取特征。对于文本,可以使用预训练的语言模型(如BERT)来提取文本特征。

3)正负样本对:为每个图像生成正样本对(与图像匹配的文本描述)和负样本对(与图像不匹配的文本描述)。这可以通过从数据集中随机选择或使用专门的数据增强技术来实现。

4)对比学习:CLIP模型的核心是对比学习,它通过最大化正样本对之间的相似度并最小化负样本对之间的相似度来训练模型。这通常通过一个对比损失函数来实现。

5)迭代训练:重复上述步骤,直到模型在验证集上的性能不再显著提升或达到预定的迭代次数。

VAE(自分编码器)

VAE(自分编码器)也是一个生图模型,我们在了解VAE(自分编码器)之前可以先了解下它的前生AE(自动编码器)

AE模型由两部分组成,编码器(Encoder)和解码器(Encoder),可以理解为是两个神经网络层,前者是将高维输入(图片)映射为低维编码(code),后者将低维编码(code)映射为高维图片。这样的架构下生成的图片效果并不是很理想,原因是过拟合,泛化性不好,下面用一个例子来解释下这个缺点:

如果我们让 AE 这套架构先去学习“新月”和“满月”两个数据,其中“新月”输出的 code=1 而满月输出的 code=10,这时候想让训练好的 AE 输出“半月”也就是 code=5,效果是不理想的,原因模型训练都是固定的输入和输出,中间没有灰度,所以为了解决这个问题,那么下面讲到的 VAE 就横空出世了。

VAE 是怎么解决 AE 的缺陷的呢,同样用“新月”“满月”的例子,如下图:

我们可以简单理解为在 AE 的基础上增加了正太函数,使得不仅仅code=1 为“新月”,code=0.9、0.8、1.1…同样具备新月的特征,同理不仅仅code=10 为“满月”,code=10.5、11、9.5…同样具备满月的特征,那当 code=5 时候就同时具备了满月和新月的特征,输出的结果就比较理想。

Diffusion(扩散模型)

同样Diffusion(扩散模型)也是一个生图模型,相比上文提到的GAN(对抗生成网络)和AVE(自分编码器)的优势在于生成的图片质量更高且训练过程可控稳定但计算资源消耗较大,我们来看下扩散模型的生图原理:

简单来说 diffusion models 就是一个通过给图片加噪,再反向减噪还原图片的过程,还原的过程中会涉及到一个 unet 网络去预测还原的噪声。具体步骤如下:

1. 将数据集中的图像加噪:

2. 反向引入 unet 网络预测噪声,这里涉及到unet网络如何训练:

  • 引入一个随机噪声图像;
  • 随机噪声图像代入到 unet 网络,网络预测产生了多少噪声;
  • 将随机图像-噪声 得到图片结果;
  • 将图片结果和实际正确图片进行比对产生误差后反向调整模型,直到显示正确的图像。
  • 不同的图片数据集反复形成一个合格的 unet 网络。

3. 有了 unet 网络,就可以还原数据集中的图片:随机噪声-unet 网络预测的噪声

备注:这里面可以了解下马尔可夫链的相关知识,油管地址:
https://www.youtube.com/watch?v=2NruDWUyXBk&t=194s

马尔可夫链在这里可以简单理解为,结果不受初始值(随机噪声)的影响,通过马尔可夫链计算函数可以预测到固定的结果,所以我们可以引入随机的噪音。

我们现在熟知的stable diffusion主要就是基于diffusion生图模型。

到这里DALL-E模型就基本介绍完了,接下来介绍的就是我们众所周知的Midjourney喝Stable Diffusion两个图片生成AI了,而他们所用的模型基本在前面的内容中都介绍了,所以我们就不再扩展,简单介绍下他们用的模型以及一些生图的效果。

八、2022年3月 AI绘画工具 Midjourney 问世

核心的模型:CLIP+GAN

Midjourney 为闭源系统

九、2022年8月 AI绘画工具 stable diffusion 问世

核心模型:CLIP+diffusion+VAE

stable diffusion为开源系统

本文由 @产品萧书 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Pixabay,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

【澳门特马今期开奖结果查询】 【2024新奥开奖结果】
【新澳门开奖现场+开奖结果】 【澳门一肖一码期期准资料最新版】
【今晚澳门特马开的什么】 【新澳门资料大全正版资料2024年免费下载,家野中特】
【澳门今一必中一肖一码西肖】 【今天晚上新澳门六】
【澳门2024今晚开码公开】 【澳门六开奖号码今晚开奖结果查询】
【奥门今晚必中一肖一吗】 【白小姐一肖一码100正确】 【澳门一肖一码100%期期精准】
上一条新闻 下一条新闻

推荐文章

发表评论

李依瑾

8秒前:1…同样具备新月的特征,同理不仅仅code=10 为“满月”,code=10.

IP:29.66.2.*

练星

6秒前:到这里DALL-E模型就基本介绍完了,接下来介绍的就是我们众所周知的Midjourney喝Stable Diffusion两个图片生成AI了,而他们所用的模型基本在前面的内容中都介绍了,所以我们就不再扩展,简单介绍下他们用的模型以及一些生图的效果。

IP:34.23.1.*

柏安

8秒前:5、11、9.

IP:67.81.2.*

时间视频APP介绍

APP图标

2024新澳门天天开彩大全APP名:时间视频

版本:V4.76.175

更新时间:2024-10-10 21:22

开奖结果澳门马看开奖这是一个功能强大的新澳精准资料免费提供濠江论坛APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Deep Dream原理:假设输入图像是X,这个输入图像可以是随机噪音,也可以是一个图像。

今晚澳门马出什么特马APP介绍

APP图标

今天澳门特马开的什么APP名:时间视频

版本:V3.17.723

更新时间:2024-10-10 18:22

无论是2023管家婆精准资料大全免费快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

新澳门开奖结果2024开奖结果APP介绍

APP图标

新奥资料免费精准新奥生肖卡APP名:时间视频

版本:V8.26.310

更新时间:2024-10-10 23:21

澳门开奖记录应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新澳门历史开号记录APP介绍

APP图标

49218009.соm查询新澳开奖结果APP名:时间视频

版本:V1.97.760

更新时间:2024-10-10 19:18

香港最近十五期开奖记录这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

白小姐中特网一肖开奖结果APP介绍

APP图标

澳门今晚开什么马APP名:时间视频

版本:V7.40.367

更新时间:2024-10-10 17:24

这是一款功能强大的澳门吗今晚开什么特马应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:这个时候生成器生成的图片效果无限逼近于原始图了。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳门最精准免费资料大全旅游团APP介绍

APP图标

澳门一码一肖100%APP名:时间视频

版本:V7.81.913

更新时间:2024-10-10 24:24

这是一款功能强大的管家婆精准一肖一码100%l应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:它是伦敦大学金史密斯学院的计算机创作学教授Colton的作品,它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作,Painting Fool作品如下:以上都是属于“古典”的AI绘图模型,我们现代的AI绘画属于基于深度神经网络基础上产生的,最早也要追溯到2012年吴恩达训练出的能生成“猫脸”的模型。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2022澳门特马今晚开奖有预告吗APP介绍

APP图标

2024年澳门天天开彩APP名:时间视频

版本:V1.89.396

更新时间:2024-10-10 17:13

这是一款功能强大的老澳门开奖结果今晚开什么号码应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:5…同样具备满月的特征,那当 code=5 时候就同时具备了满月和新月的特征,输出的结果就比较理想。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳内部资料APP介绍

APP图标

澳门彩最新资料APP名:时间视频

版本:V1.64.187

更新时间:2024-10-10 15:13

今天的最新动态包括:具体步骤如下:1.,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门中特网(神话传奇)APP介绍

APP图标

2024开什么码澳门APP名:时间视频

版本:V1.97.134

更新时间:2024-10-10 24:21

这是一款功能强大的澳门4949开奖现场直播+开应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:2006年, 出现了一个类似ARRON的电脑绘画产品 The Painting Fool.。

查香港今晚开奖结果软件APP介绍

APP图标

新澳门彩最新开奖记录查询表下载APP名:时间视频

版本:V5.81.650

更新时间:2024-10-10 15:18

这款功能强大的澳门2024开奖最新开奖结果查询应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024今晚澳门码特开什么号码APP介绍

APP图标

香港澳门6合开彩开奖结果查询APP名:时间视频

版本:V5.48.208

更新时间:2024-10-10 18:16

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

香港开奖十澳门开奖APP介绍

APP图标

2024年澳门精准正版资料APP名:时间视频

版本:V3.33.207

更新时间:2024-10-10 15:21

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。