AIGC技术:当人工智能遇上创作
一、AIGC的历史
AIGC(Artificial Intelligence Generated Content)是一种使用人工智能生成内容的技术,包括了GPT和其他GAI等🎉。它们可以创造图像、文本、视频、音乐等数字内容。AIGC的发展可以分为三个阶段。
1.1 基于深度学习的AIGC生成模型
在1950年代,随着隐马尔可夫模型(HMM)和高斯混合模型 (GMM)的发展,基于深度学习的AIGC生成模型在人工智能领域崭露头角。然而,直到深度学习的出现,生成模型的性能才得到显着改善。在早期的深度生成模型中,不同领域之间的重叠性并不多。在自然语言处理(NLP)领域,传统的句子生成方法是使用N-gram语言建模来学习单词分布,然后搜索最佳序列。但是,这种方法不能有效地适应长句子。为了解决这个问题,循环神经网络 (RNN)被引入用于语言建模任务,允许建模相对较长的依赖关系。随后又发展出长短期记忆 (LSTM)和门控循环单元 (GRU),它们利用门控机制在训练期间控制记忆。这些方法能够处理大约200个标记的样本,相较于N-gram语言模型有了显著的改进🙌。在计算机视觉(CV)领域,传统的图像生成算法使用纹理合成和纹理映射等技术,但由于这些算法是基于手工设计的特征,所以生成的图像能力有限。而在2014年,生成对抗网络 (GANs)的出现,标志着CV领域的重要里程碑,因为它在各种应用中取得了很多成果。此外,还有变分自动编码器 (VAE)和扩散生成模型等其他方法,进一步提高了图像生成的控制和质量。
1.2 基于Transformer的AIGC生成模型
在不同领域中,AIGC的发展遵循着不同的路径,但最终汇聚到了Transformer架构。Transformer是由Vaswani等人提出的。在NLP领域,许多著名的大型语言模型,如BERT和GPT,都采用了Transformer作为主要构建模块,相较于以前的方法具有更多优势。在CV领域,Vision Transformer(ViT)和Swin Transformer通过将Transformer架构与视觉组件结合,进一步推动了AIGC技术在图像领域的应用。
1.3 基于prompt learning的AIGC
近年来,研究人员还引入了一些新的技术👏。例如,在NLP中,人们更喜欢prompt learning而不是finetune。prompt learning指的是在提示中包含从数据集中选择的几个示例,以帮助模型更好地理解任务要求。随着AIGC的不断发展,我相信未来会引入更多的技术,为这一领域注入更多活力。
二、火热项目
2.1 Stable diffusion
Stable diffusion是由慕尼黑大学的CompVis小组开发的一种开源潜在扩散模型。与其他模型相比,它的主要区别在于使用了潜在扩散模型,并且可以在潜在空间中执行图像修改操作。你可以通过他们的网站使用Stable Diffusion的API。Stable Diffusion由文本编码器和图像生成器两部分组成,图像生成器完全在潜在空间中工作,这使得它比以前在像素空间中工作的扩散模型更快。Stable diffusion的开源代码非常丰富,大家可以根据自己的需求安装源码部署在自己的主机上。
2.2 DreamFusion
DreamFusion是由Google Research开发的一种文本到3D模型的技术😄。它使用预训练的2D文本到图像扩散模型来实现文本到3D合成。与以前的技术不同,DreamFusion采用从2D扩散模型中提取的损失,取代了以前的CLIP技术。DreamFusion的模型可以用作一般连续优化问题中的损失,以生成样本。它使用可微分的生成器来解决在参数空间中采样的问题。与其他方法不同,DreamFusion侧重于创建从随机角度渲染时看起来像好的图像的3D模型。该模型可以创建从特定角度创建的图像,也可以生成从其他文本提示生成的所有变体。如果想要查看完整的动画图像,建议访问DreamFusion的网页。
2.3 DALL·E 2
DALL·E 2由OpenAI开发,能够根据包含文本描述的提示生成原始、真实和逼真的图像和艺术。幸运的是,我们可以通过OPENAI API访问此模型。DALL·E 2结合了概念、属性和不同的风格,使用了CLIP技术。CLIP是一种在各种图像、文本对上训练的神经网络。
进一步探索?请访问葫芦娃AI
暂无评论内容