照星的学习空间

Clip Loss

CLIP（Contrastive Language-Image Pretraining）使用了**对比学习（Contrastive Learning）**的方式来训练图像和文本的匹配关系，其核心思想是让正确的图像-文本对在特征空间中靠近，而错误的对则远离。本文将详细解析 CLIP 的损失函数的原理、推导，并提供 PyTorch 代码实现。 1. CLIP 的损失函数原理 CLIP 的损失函数基

2025-03-09

infinity

2025-01-07

var

2025-01-07

Residual-Quantization

1. 什么是 Residual Quantization？ Residual Quantization (RQ) 是一种向量量化方法，通过多阶段逐步量化向量的残差来实现高精度的向量表示。其核心思想是将一个高维向量分解为多个较低精度的向量的和，每个阶段负责量化前一阶段未能捕捉到的残差部分。这种方法能够显著降低量化误差，提高表示的准确性。主要特点多阶段量化：通过多个量化步骤逐步逼近原始向量。

2025-01-06

StageDesigner

StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts (CVPR 2025) Zhaoxing Gan¹, Mengtian Li¹²†, Ruhua Chen³, Zhongxia Ji³, Sichen Guo³, Huanling Hu¹, Guangnan Ye¹†, Zuo H

2025-01-03

贝塞尔曲线

2024-12-30

python装饰器

2024-12-29

classmethod详解

2024-12-29

vae代码阅读

在阅读flux代码(pipeline_flux.Fluxpipeline类中的__call__方法最后几句)对diffusion采样得到的latent转换回vae输入的这段代码时，看到标蓝这段代码很疑惑，因此打算复习一下vae，研究一下为什么要乘以缩放系数以及进行偏置。查阅网上博客后，有人说是因为pixel space变成latent space之后的值都特别大，因此需要一个缩放因子来让范围变小

2024-12-28

score based diffusion解读

2024-12-28