如何利用 Stable Diffusion 创建超真实的 AI 图像

decryptco 2024-06-09 21:45:51

[如何使用人工智能:解密系列文章]

您准备打破现实和人工智能生成的艺术之间的界限了吗?

如果您关注生成式人工智能领域,特别是图像生成,那么您可能熟悉 Stable Diffusion。这种开源人工智能平台点燃了一场创意革命,让艺术家和爱好者们可以自由地在自己的计算机上探索人类创造力的领域。

通过任何简单的提示,您都可以获得风景如画的风景、奇幻插图、3D 生物或卡通。但这些工具真正引人注暮的能力在于生成令人惊叹的逼真图像。

然而,要做到这一点需要一些技巧,还需要对有时候通用模型所缺乏的细节给予一些关注。一些热衷的用户可以通过观看仅仅一眼就能快速分辨出一幅图像是由 MidJourney 还是 Dall-e 生成的。但当涉及到创造欺骗人脑的图像时,Stable Diffusion 的多功能性是无与伦比的。

Decrypt 的 Stable Diffusion 指南:用于生成人工智能图像的最强大的开源工具

从对色彩和构图的细致处理到传递人类情感和表情的不可思议能力,一些定制模型正在重新定义生成式人工智能世界的可能性。以下是一些我们认为是使用 Stable Diffusion 进行超逼真图像生成的 _la crème de la crème_ 的专业模型。

我们在所有模型中都使用了相同的提示,并且避免使用 LoRas——低秩自适应附加修饰符——以便在我们的比较中更加公平。我们的结果基于提示和文本嵌入。我们还使用增量变化来测试我们生成中的细微变化。

提示

我们的正面提示是:_专业的照片,特写肖像照片,白人男性,穿着黑色毛衣,严肃的面孔,戏剧性的灯光,自然,阴沉,多云的天气,散景_

我们的否定提示(指示 Stable Diffusion 不要生成什么)是:_嵌入:BadDream,嵌入:UnrealisticDream,嵌入:FastNegativeV2,嵌入:JuggernautNegative-neg,(变形的虹膜,变形的瞳孔,半逼真,cgi,3d,渲染,素描,卡通,绘画,动漫:1.4),文本,裁剪,超出框架,质量最差,质量低,jpeg 制品,丑陋,重复,病态,残缺,多余的手指,变异的手,画得很差的手,画得很差的脸,变异,变形,模糊,脱水,解剖结构不良,比例不对,多余的肢体,克隆的脸,比例失调,畸形的肢体,缺失的手臂,缺失的腿,多余的手臂,多余的腿,手指融合,手指过多,脖子长,嵌入:negative_hand-neg._

本文末尾列出了使用过的所有资源。

STABLE DIFFUSION 1.5:具有良好适应性的老牌人工智能

Stable Diffusion 1.5 就像一辆不错的美国肌肉车,在飙车比赛中击败了更高级、最新款式的汽车。开发人员已经与 SD1.5 纠缠了这么长时间,以至于它实际上将 Stable Diffusion 2.1 埋进了土里。事实上,当今许多用户仍然更喜欢此版本,而不是较新的 SDXL,它比 SD1.5 还要低两代。

当涉及到创建与真实照片几乎无法区分的图像时,这些模型就是您最好的朋友。

1.JUGGERNAUT RBORN

Juggernaut Rborn 是一款广受粉丝喜爱的模型,它以其逼真的色彩构图以及区分主体和背景的强大能力而闻名。该模型特别擅长生成人像中的高质量皮肤细节、头发和散景效果。

最新版本已经过微调,可以提供更引人注目的效果。与许多其他 Stable Diffusion 模型饱和且不自然的色彩相比,Juggernaut 一直提供更逼真的色彩构图。它的生成往往更温暖、更淡,类似于未编辑的 RAW 照片。

要获得最佳效果仍然需要进行一些调整:使用 DPM++ 2M Karras 采样器,设置为大约 35 个步骤,平均 CFG 比例为 7。

2.REALISTIC VISION V5.1

作为照片级图像生成领域的真正先驱,Realistic Vision v5.1 为 Stable Diffusion 的发展带来了一个关键时刻,使其能够在照片真实主义方面与 MidJourney 和任何其他模型竞争。v5.1 版本擅长捕捉面部表情和瑕疵,使其成为人像爱好者的首选。它还很好地处理了情绪,并且更专注于主体而不是背景,确保最终结果始终真实。该模型因其令人印象深刻的性能和多功能性而成为热门选择。

有一个较新版本 (v6.0),但我们更喜欢 V5.1,因为我们觉得它在真实图像中重要的细节方面仍然更好。皮肤、头发或指甲等东西在 5.1 中往往更令人信服,但除此之外,结果相似,改进似乎是渐进的。

3.我不敢相信这不是摄影

这款名为“不敢相信这不是摄影”的模型以其多功能性和令人印象深刻的灯光效果而著称,是进行超逼真图像生成的一个非常全面的选择。它非常具有创造力,可以很好地处理不同的角度,并且可以用于各种主题,而不仅仅是人。

该模型特别适合 640x960 分辨率——高于原始 SD1.5——但也可以在 768x1152 的分辨率下提供出色的效果,这是 SDXL 本地的分辨率级别。

为了获得最佳效果,请使用 DPM++ 3M SDE Karras 或 DPM++ 2M Karras 采样器,20-30 个步骤,以及 2.5-5 CFG 比例(低于通常水平)。

值得称道的:

PHOTON V1:这种多功能模型在生成包括人物在内的广泛主题的真实结果方面表现出色。

真实的 STOCK 照片:如果您想生成具有库存照片的精致和完美外观的人,则此模型是一个不错的选择。它会创建令人信服且准确的图像,没有任何皮肤瑕疵。

AZOVYA PHOTOREAL:虽然没有那么有名,但该模型产生了令人印象深刻的结果,并且可以与其他模型的训练配方合并时增强其性能。

STABLE DIFFUSION XL:多才多艺的先驱

虽然 Stable Diffusion 1.5 是我们照片级图像的首选,但 Stable Diffusion XL 提供了更多功能和高质量的结果,而无需诉诸升级等技巧。它需要一点点功率,但可以用具有 6GB vRAM 的 GPU 运行——比 SD1.5 需要少 2GB。

以下是引领潮流的模型。

1.JUGGERNAUT XL(X 版)

Juggernaut XL 以其前辈的成功为基础,为 Stable Diffusion XL 带来了电影外观和令人印象深刻的主体焦点。该模型提供了与饱和度不同的相同特征颜色构图,以及良好的身体比例和理解长提示的能力。它更多地关注主体,并且很好地定义了派系——就像任何 SDXL 模型目前可以做到的那样。

为了获得最佳效果,请使用 832x1216(用于人像)的分辨率,DPM++ 2M Karras 采样器,30-40 个步骤,以及 3-7 的低 CFG 比例。

2.REALVISXL

RealVisXL 经过定制,注重真实感,是捕捉使我们成为人类的细微瑕疵的理想选择。它擅长生成皮肤纹理、痣、色调变化和下巴,确保最终结果始终令人信服。它可能是生成真实人类的最佳模型。

为了获得最佳效果,请使用 15-30+ 采样步骤和 DPM++ 2M Karras 采样方法。

3.HELLOWORLD XL V6.0

通用模型 HelloWorld XL v6.0 得益于使用 GPT4v 标记,提供了独特的图像生成方法。虽然可能需要一些时间来适应,但结果非常值得付出努力。

该模型特别擅长提供 AI 生成图像中经常丢失的模拟美学。它还很好地处理身体比例、瑕疵和光线。然而,它与其他 SDXL 模型在核心上有所不同,这意味着您可能需要调整您的提示和标记以达到最佳效果。

为了进行比较,这里是一个使用 GPT4v 标记的类似生成,正向提示:_影片美学,专业的照片,特写人像照片,白人男性,穿着黑色毛衣,严肃的面孔,在大自然中,阴沉多云的天气,穿着羊毛黑色毛衣,极具大气,电影品质,模拟摄影影响的暗示。_

SDXL 值得称道的包括:PhotoPedia XL、Realism Engine SDXL 和已弃用的 Fully Real XL。

用于超逼真图像的专业提示

无论您选择哪种模型,这里有一些专家提示可以帮助您实现令人印象深刻的逼真效果:

*

尝试嵌入:为了增强图像的美感,请尝试使用模型创建者推荐的嵌入,或使用 BadDream、UnrealisticDream、FastNegativeV2 和 JuggernautNegative-neg 等广受欢迎的嵌入。还有一些可用于特定功能的嵌入,例如手、眼睛和特定。

*

利用 LORAS 的强大功能:虽然我们在这里将它们排除在外,但这些便捷的工具可以帮助您添加细节、调整灯光和增强图像中的皮肤纹理。有许多 LoRAs 可用,所以不要害怕尝试并找到最适合您的 LoRAs。

*

使用面部

本文来源于 decryptco

免责声明:
1. 本文版权归属原作所有,仅代表作者本人观点,不代表币推儿的观点或立场。
2. 如发现文章、图片等侵权行为,侵权责任将由作者本人承担。