Clip Loss CLIP(Contrastive Language-Image Pretraining)使用了**对比学习(Contrastive Learning)**的方式来训练图像和文本的匹配关系,其核心思想是让正确的图像-文本对在特征空间中靠近,而错误的对则远离。本文将详细解析 CLIP 的损失函数的原理、推导,并提供 PyTorch 代码实现。 1. CLIP 的损失函数原理 CLIP 的损失函数基 2025-03-09
Residual-Quantization 1. 什么是 Residual Quantization? Residual Quantization (RQ) 是一种向量量化方法,通过多阶段逐步量化向量的残差来实现高精度的向量表示。其核心思想是将一个高维向量分解为多个较低精度的向量的和,每个阶段负责量化前一阶段未能捕捉到的残差部分。这种方法能够显著降低量化误差,提高表示的准确性。 主要特点 多阶段量化:通过多个量化步骤逐步逼近原始向量。 2025-01-06
StageDesigner StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts (CVPR 2025) Zhaoxing Gan¹, Mengtian Li¹²†, Ruhua Chen³, Zhongxia Ji³, Sichen Guo³, Huanling Hu¹, Guangnan Ye¹†, Zuo H 2025-01-03
vae代码阅读 在阅读flux代码(pipeline_flux.Fluxpipeline类中的__call__方法最后几句)对diffusion采样得到的latent转换回vae输入的这段代码时,看到标蓝这段代码很疑惑,因此打算复习一下vae,研究一下为什么要乘以缩放系数以及进行偏置。 查阅网上博客后,有人说是因为pixel space变成latent space之后的值都特别大,因此需要一个缩放因子来让范围变小 2024-12-28