diffuser扩散模型\datawhale组队学习——v5.SD实战

发布时间 2023-10-31 18:02:44作者: windiest

本周学习文档:‌​⁡⁡⁤​⁡⁤‍‌‌‬‌‌⁡‍⁢⁢‍⁡‬⁣⁢⁡‌‌‍‌⁤⁢‌⁤​⁣‍​⁡​​​​​​​​⁢《扩散模型从原理到实践》学习手册 - 飞书云文档 (feishu.cn)

本周成果:

提示词:

full body,(masterpiece),(best quality),Exquisite visuals,high-definition,(ultra detailed),finely detail,((solo)),((gawr gura)),bangs,blue eyes,blunt bangs,blush,hair ornament,long sleeves,multicolored hair,silver hair,streaked hair,two side up,(beautiful detailed eyes),looking at viewer,nose blush,flat_chest,poor_stature,smile,petety,hair_between_eyes,some sunlight,indoors,

Negative prompt: 6-token-negative-deliberate-neg,1girl-neg,an6,EasyNegativeV2,(badhandsv5-neg:1.1),(badhandsv4:1.1),worst quality,low quality,normal quality,ugly,mosaic,low res,text,error,extra digit,fewer digits,cropped,jpeg artifacts,signature,watermark,username,blur,CG,render,illustration,painting,sketch,cartoon,drawing,anime,monochrome,grayscale,tiling,morbid,mutilated,mutated hands,bad anatomy,bad proportions,extra limbs,(fused fingers:1.2),too many fingers,bad hands,missing fingers,(6 more fingers on one hand:1.2),Wrong nails,too long nails,bad nails,deformed hands,deformed fingers,(Two hands fused together:1.2),missing arms,extra arms,extra legs,bad legs,error legs,bad feet,deformity,malformed limbs,abnormal body,deformed,boring pose,abnormal,long body,long limbs,(unreal eyes:1.2),fake eyes,unclear eyes,deformed iris,imperfect eyes,glowing eyes,big chin,long neck,double head,extra heads,head crop,more than one face,disfigured,Excessive saturation,nsfw,nsfw
Steps: 25, Size: 960x640, Seed: 1909368211, Model: baitianmixV3, Sampler: 16, CFG scale: 7

没有lora

实现网站:liblibai

(应该不算作弊吧,这也是个sd webui)

 

本周收获:

 

一、SD模型的大致架构

  1. Tokenizer(分词器):分词器是用于将文本数据转换为数字序列的工具。它将输入的文本拆分成较小的单元(例如单词或子词),并为每个单元分配一个唯一的标识符。这样,模型可以更好地理解和处理文本数据。

  2. Text Encoder(文本编码器):文本编码器是将文本数据转换为数值表示形式的过程。它通常使用嵌入层(embedding layer)来实现,该层将每个单词映射到一个固定长度的向量。这些向量可以捕捉单词之间的语义关系,并作为模型的输入。

  3. Scheduler(调度器):调度器是一种用于调整学习率或其他超参数的策略。它可以根据训练过程中的性能指标来动态地调整超参数的值,以提高模型的训练效果。常见的调度器包括学习率衰减调度器和周期性调度器等。

  4. VAE(变分自编码器):VAE是一种生成式深度学习模型,用于学习数据的低维潜在表示。它通过引入随机性来生成新的数据样本,并通过最小化重构误差和潜在空间的分布差异来优化模型。VAE在图像生成、语音合成等领域有广泛的应用。

  5. U-Net(U型网络):U-Net是一种用于图像分割任务的卷积神经网络架构。它由一个编码器和一个解码器组成,其中编码器通过下采样过程提取图像的特征,解码器通过上采样过程将这些特征恢复到原始图像的大小。U-Net在医学图像分割等领域表现出色。

原理依旧不明白。

 

二、其他

本周的样例中给出了用蒙版重绘的操作。

因为对hugging face的管线不太了解,只能给出SD webui的解释。

这个操作相当于SD的图生图的局部重绘,或者controlnet的局部重绘,在webui里可以自己用鼠标画蒙版。

或者用画板画个黑白图。

 

感觉hugging face的管线,还有这个社区应该是相当厉害的。可惜,没有好好利用。(要是能有个类似于civitai或者webui这样集成好一些的推荐界面就好了)