当前位置：首页 > 百度SEO >

如何挑选适合自己网站的加工机器？

96SEO 2026-02-19 16:47 19

。

不知你是否有和我一样的困惑#xff0c;这AI工具好像并不是那么听话#xff1f;

我们该如何才能用好stable

diffusion这个工具呢#xff1f;AI究竟在stable

stable

diffusion真的是横空出世开启了AIGC的元年。

不知你是否有和我一样的困惑这AI工具好像并不是那么听话

我们该如何才能用好stable

diffusion中承担了什么样的角色如何能尽可能快、成本低地得到我们期望的结果

源于这一系列的疑问我开始了漫长的论文解读。

High-Resolution

Image

Models地址https://arxiv.org/abs/2112.10752?spmata.21736010.0.0.7d0b28addsl7xQfile2112.10752

does

work?地址https://stable-diffusion-art.com/how-stable-diffusion-work/?spmata.21736010.0.0.7d0b28addsl7xQ

先简要概括下stable

Mechanisms。

条件控制如果不能输出我们想要的图片那这就像Monkey

随着深度神经网络的发展生成模型已经有了巨大的发展主流的有以下几种

自回归模型(AutoRegressive

model)按照像素点生成图像导致计算成本高。

实验效果还不错变分自编码器(Variational

Autoencoder)Image

ImageVAE存在生成图像模糊或者细节问题基于流的方法(Glow)生成对抗网络(Generative

adversarial

network)利用生成器(G)与判别器(D)进行博弈不断让生成的图像与真实的图像在分布上越来越接近。

以一只猫作为案例。

当我们想画一只猫的时候也都是从一个白板开始框架、细节不断完善。

对于AI来说一个纯是noise的image就是一个理想的白板类似下图展示的这样。

image图片。

这个noise取决于Random这个参数。

相同的Random生成的noise

predictor预测这个图里加了多少noise生成一个predicted

如何得到一个noise

predictor怎么控制我们最终能得到一只猫而不是一只狗或者其他的东西

在回答这些疑问之前我先贴一部分公式

选择一张训练用的图片比如说一张猫生成一个随机的noise图片将noise图叠加到训练用的图片上得到一张有一些noise的图片。

这里可以叠加1~T步noise训练noise

predictor告诉我们加了多少noise。

通过正确的noise答案来调整模型权重。

最终我们能得到一个相对准确的noise-predictor。

这是一个U-Net

model。

在stable-diffusion-model中。

encoder与noise

以上noise与noise-predictor的过程均在pixel

space那么就会存在巨大的性能问题。

比如说一张1024x1024x3的RBG图片对应3,145,728个数字需要极大的计算资源。

在这里stable

Latent

Space的提出基于一个理论Manifold_hypo***sis

它假设现实世界中许多高维数据集实际上位于该高维空间内的低维Latent

Space就存在很多的难以感知的高频细节而这些都是在Latent

这里有一个因子fH/hW/w通常我们定义比如说stable-diffusion

Space的中间表达则是4x64x64那么我们会有一个decoder

D能将图片从Latent

那么VAE该怎么训练呢我们需要一个衡量生成图像与训练图像之间的一个距离指标。

细节就不关心了但这个指标可以用来衡量VAE模型的还原程度。

训练过程与noise

贴一个stable

diffusion在FID指标上与其他方法的对比。

下面的表格来自于无条件图片生成。

基本就是比较Latent

为什么Latent

其实和人对图片的理解是一样的自然的、优秀的图片都不是随机的他们有高度的规则比如说脸上会有眼睛、鼻子。

一只狗会有4条腿和一个规则的形状。

图像的高维性是人为的而自然的图像可以很容易地压缩为更小的空间中而不丢失任何信息。

可能说我们修改了一张图片的很多难以感知的细节比如说隐藏水印微小的亮度、对比度的修改但修改后还是同样的图像吗我们只能说它表达的东西还是一样的。

并没有丢失任何信息。

结合Latent

representation。

一种中间表达noise-predictor预测这个latent

representation的noise.并生成一个latent

space

noise重复2~3直到step结束通过VAE的decoder将latent

直到目前为止都还没有条件控制的部分。

按这个过程我们最终只会得到一个随机的图片。

条件控制

相信你在上面的图片生成的过程中已经感知到一个问题了如果只是从一堆noise中去掉noise那最后得到的为什么是有信息的图片而不是一堆noise呢

noise-predictor在训练的时候其实就是基于已经成像的图片去预测noise那么它预测的noise基本都来自于有图像信息的训练数据。

在这个denoise的过程中noise会被附加上各种各样的图像信息。

怎么控制noise-predictor去选择哪些训练数据去预测noise就是条件控制的核心要素。

Text

从图中可以看到我们的每一个word都会被tokenized。

stable

diffusion

tokenized将自然语言转成计算机可理解的数字(NLP)它只能将words转成token。

比如说dreambeach会被CLIP模型拆分成dream和beach。

一个word并不意味着一个token。

同时dream与beach也不等同于dream和spacebeachstable

diffusion

model目前被限制只能使用75个tokens来进行prompt并不等同于75个word。

Embedding

Embedding是一个768长度的向量。

每一个token都会被转成一个768长度的向量如上案例我们最后会得到一个4x768的矩阵。

为什么我们需要embedding呢

比如说我们输入了man但这是不是同时可以意味着gentleman、guy、sportsman、boy。

他们可能说在向量空间中与man的距离由近而远。

而你不一定非要一个完全准确无误的man。

通过embedding的向量我们可以决定究竟取多近的信息来生成图片。

对应stable

Guidance

scale)CFG。

相当于用一个scale去放大距离因此scale越大对应的能获取的信息越少就会越遵循prompt。

而scale越小则越容易获取到关联小甚至无关的信息。

如何去控制embedding

diffusion无法准确绘制出我们想要的内容。

那么这里我们发现了第一种条件控制的方式textual

inversion

将我们想要的token用一个全新的别名定义这个别名对应一个准确的token。

那么就能准确无误地使用对应的embedding生成图片。

这里的embedding可以是新的对象也可以是其他已存在的对象。

比如说我们用一个玩具猫训练到CLIP模型中并定义其Tokenizer对应的word同时微调stable

text

具体cross-attention是什么我也不是很清楚。

但这里有一个案例可以说明

比如说我们使用prompt

这样就能保证生成一个蓝色眼睛的男人。

而不是一个蓝色袜子或者其他蓝色信息的男人。

(cross-attention

感觉更像是存在blue、eyes然后有一个集合同时满足blue和eye。

去取这个交叉的集合。

问题对应的embedding是不是不一样的该如何区分blue

planet

matrix。

这个由Random决定如果Random不变则这个latent

space

matrix不变。

通过noise-predictor将noisy

image与text

noise不断重复2~3执行step次。

比如说step20最终通过VAE的decoder将latent

手撕一下公式

左上角的定义为一张RGB像素空间的图。

经过的变化生成这个latent

space

而这个过程则是img2img的input。

如果是img2img那么初始的noise

latent

representation一种中间表达。

而与将经过cross-attention

具体的细节说实话没看懂而这一部分在controlnet中也有解释打算从controlnet的部分进行理解。

图中cross-attention的部分可以很清晰的看到是一个由大到小又由小到大的过程在controlnet的图中有解释

Encoder

64x64的过程具体为啥得等我撕完controlnet的论文。

回到过程图中我们可以看到denoising

D输出图片

结合上面的图看基本还是比较清晰的不过这个:和代表了啥就不是很清楚了。

结合python代码看流程更清晰~删掉了部分代码只留下了关键的调用。

pipe

StableDiffusionPipeline.from_pretrained(CompVis/stable-diffusion-v1-4,

vae

AutoencoderKL.from_pretrained(CompVis/stable-diffusion-v1-4,

subfoldervae)

CLIPTokenizer.from_pretrained(openai/clip-vit-large-patch14)

text_encoder

CLIPTextModel.from_pretrained(openai/clip-vit-large-patch14)

unet

UNet2DConditionModel.from_pretrained(CompVis/stable-diffusion-v1-4,

subfolderunet

LMSDiscreteScheduler.from_pretrained(CompVis/stable-diffusion-v1-4,

subfolderscheduler

tokenizer(prompt,paddingmax_length,max_lengthtokenizer.model_max_length,truncationTrue,return_tensorspt,

with

torch.no_grad():text_embeddings

text_encoder(text_input.input_ids.to(torch_device))[0]

max_length

torch.no_grad():uncond_embeddings

text_encoder(uncond_input.input_ids.to(torch_device))[0]

text_embeddings

scheduler.set_timesteps(num_inference_steps)

latents

tqdm(scheduler.timesteps):latent_model_input

torch.cat([latents]

scheduler.scale_model_input(latent_model_input,

t)with

encoder_hidden_statestext_embeddings).samplenoise_pred_uncond,

noise_pred_text

还是很贴合图中流程的。

在代码中有一个Scheduler其实就是noising的执行器它主要控制每一步noising的强度。

由Scheduler不断加噪然后noise

Diffusion

Guide地址https://stable-diffusion-art.com/samplers/

Img2Img

representation往里面加noise总共加T个noisenoise的强度由Denoising

strength控制。

noise其实没有循环加的过程就是不断叠同一个noise

image和text

基于上面的原理Inpainting就很简单了noise只加到inpaint的部分。

其他和Img2Img一样。

相当于只生成inpaint的部分。

所以我们也经常发现inpaint的边缘经常无法非常平滑~如果能接受图片的细微变化可以调低Denoising

strength将inpaint的结果再进行一次img2img

Stable

v2开始CLIP的部分用了OpenClip。

导致生成的控制变得非常的难。

OpenAI的CLIP虽然训练集更小参数也更少。

(OpenClip是ViT-L/14

CLIP的5倍大小)。

但似乎ViT-L/14的训练集更好一些有更多针对艺术和名人照片的部分所以输出的结果通常会更好。

导致v2基本没用起来。

不过现在没事了SDXL横空出世。

SDXL

model负责生成而Refiner则负责加细节完善。

可以只运行Base

model。

但类似人脸眼睛模糊之类的问题还是需要Refiner解决。

text

encoder组合了OpenClip和ViT-G/14。

毕竟OpenClip是可训练的。

训练用的图片可以小于256x256增加了39%的训练集U-Net的部分比v1.5大了3倍默认输出就是1024x1024

展示下对比效果

从目前来看有朝一日SDXL迟早替代v1.5。

从效果来说v2.1确实被时代淘汰了。

Stable

这个看起来是一个无解的问题。

Andrew给出的建议是加prompt比如说beautiful

hands和detailed

fingers期望其中有部分图片满足要求。

或者用inpaint。

反复重新生成手部。

这个时候可以用相同的prompt。

团队介绍

我们是淘天集团-场景智能技术团队作为一支专注于通过AI和3D技术驱动商业创新的技术团队,

为淘宝打造围绕家的场景的第一消费入口。

我们不断探索并实践新的技术,

提升商家内容生产力,

标签： 临夏州建设局网站可以做公司宣传的网站有哪些网片加工机器

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。