xyfjason / gitalk Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 0 B

For gitalk comment system.

gitalk's Introduction

Hi there👋, I'm xyfJASON.

🔭 I'm a first-year Master student in the VIPL research group at ICT.
🌱 I'm interested in generative models and their applications in computer vision.
👨🏻‍💻 I like to implement great models and algorithms.
📝 I'm sharing notes on my blog website.

gitalk's People

Contributors

Watchers

gitalk's Issues

[PRML]Appendix D.Calculus of Variations - xyfJASON

https://xyfjason.top/2023/04/25/PRML-Appendix-D-Calculus-of-Variations/

在 PRML 第一章中我们遇到了用变分法（calculus of variations）求解优化问题，那么变分法究竟是什么呢？PRML 在 Appendix D 做了介绍。泛函众所周知，函数是数到数的映射：输入为数值 $x$，输出为数值 $y(x)$. 将函数的概念进行扩展，我们定义泛函（functional）为函数到数的映射：输入为函数 $y(x)$，输出为数值 $F[y]$. 直观地讲，泛

扩散模型条件引导生成 - xyfJASON

https://xyfjason.top/2022/12/29/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E6%9D%A1%E4%BB%B6%E5%BC%95%E5%AF%BC%E7%94%9F%E6%88%90/

\newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N}Preface我们在之前的文章中关注的都是无条件生成，生成结果不受我们控制，特别是以 DDPM 为代表的采样过程本身就带有随机性的模型，即使用同样的初始变量也会得到完全不同的结果。但是，有条件的生成（受控生成）却又非常重要：以类别标签为条件可以让我们控制生成的类别；图像恢复、图像填充

PyTorch单机多卡从入门到入土（坑点记录） - xyfJASON

https://xyfjason.top/2022/08/18/PyTorch%E5%8D%95%E6%9C%BA%E5%A4%9A%E5%8D%A1%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%85%A5%E5%9C%9F%EF%BC%88%E5%9D%91%E7%82%B9%E8%AE%B0%E5%BD%95%EF%BC%89/#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99

在 Vision 里用上 Transformer 之后，单卡训练连两位数的 batchsize 都开不了，必须得学学单机多卡的使用了。 PyTorch 中，多卡训练有两种方案： DataParallel：只支持单机多卡，代码很方便，只需要添加一行，但是效率比较低，不推荐使用 DistributedDataParallel：支持多机多卡，效率高，但是要折腾一下代码基于性能考虑，一般我们会选择第

[MIT 18.065]Lecture 1 - xyfJASON

https://xyfjason.top/2023/05/20/MIT-18-065-Lecture-1/

视频链接：https://www.bilibili.com/video/av91245806/ 配套书籍：Linear Algebra and Learning from Data 这节课将从矩阵与向量的乘法开始讲起，逐渐过渡到矩阵与矩阵相乘。由于这门课并不是线代入门课，所以肯定有人会说：“我早就知道矩阵乘法了”！但是，你真的知道做矩阵乘法的正确方式吗？假设有一个矩阵 $A$ 和向量 $\ma

EM算法学习笔记 - xyfJASON

https://xyfjason.top/2022/08/23/EM%E7%AE%97%E6%B3%95%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99

EM 算法是极大似然法的推广，用于解决存在隐变量（hidden variables / latent factors）的参数估计问题。 1 EM 算法1.1 理论推导本节主要参考资料[1][2]，记号略有不同。设观测样本是 $x$，隐变量为 $z$，模型参数为 $\theta$，那么对数似然为： L(\theta)=\log P(x\mid \theta)=\log\left(\sum_{

Score-Based Generative Models - xyfJASON

https://xyfjason.top/2022/10/13/Score-Based-Generative-Models/

\newcommand{\E}{\mathbb E} \newcommand{\pdata}{p_\text{data}} \newcommand{\x}{\mathbf x} \newcommand{\v}{\mathbf v} \newcommand{\R}{\mathbb R} \newcommand{\T}{\mathsf T}Brief Introduction在从VAE到DDPM一文

扩散模型应用篇（二） - xyfJASON

https://xyfjason.top/2023/02/11/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E7%AF%87%EF%BC%88%E4%BA%8C%EF%BC%89/#SmartBrush

\newcommand{\x}{\mathbf x} 封面来自 Lexica 基于扩散模型的工作实在太多，遂新开一篇继续记录。本篇依旧按照第一版论文上传到 arXiv 上的时间排序，并辅以彩色的 tag 作为说明。仍在持续更新（肝论文）中～ Prompt-to-PromptText-based Image Editing Google 2022.08.02 GLIDE、DALL·E 2、Im

不止去噪！任意退化模式上的扩散模型 - xyfJASON

https://xyfjason.top/2022/12/17/%E4%B8%8D%E6%AD%A2%E5%8E%BB%E5%99%AA%EF%BC%81%E4%BB%BB%E6%84%8F%E9%80%80%E5%8C%96%E6%A8%A1%E5%BC%8F%E4%B8%8A%E7%9A%84%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/

\newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I}Cold Diffusion站在 machine learning researcher 的角度，DDPM 或 SMLD 的「加噪-去噪」过程有着非常严谨的数学描述，使得我们能

k-means探究 - xyfJASON

https://xyfjason.top/2022/08/12/k-means%E6%8E%A2%E7%A9%B6/

谈到聚类（clustering），k-means 无疑是最先想到的算法之一了。其**异常的简单有效，以至于我之前没有深究过其中的奥秘与坑点。今天就来更深入地探究一下 k-means。 1 算法描述本节主要参考资料[1]. 设我们有 $n$ 个样本 $X={x_1,\ldots,x_n}$，每个样本有 $d$ 维，即 $x_i\in \mathbb R^d$。k-means 欲将样本分到 $

搭建个人深度学习工作站（操作系统篇） - xyfJASON

https://xyfjason.top/2022/12/11/%E6%90%AD%E5%BB%BA%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%EF%BC%88%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F%E7%AF%87%EF%BC%89/

说明：由于是个人使用，我安装的是 Windows + Ubuntu Server 双系统。用 Ubuntu Server 训练，用 Windows 摸鱼。硬件配置主板：华硕 TUF GAMING B560M-PLUS WIFI CPU：Intel i7-11700 @ 2.50GHz 8核16线程内存：英睿达美光32GB(16Gx2)套装 D

[PRML]1.Introduction - xyfJASON

https://xyfjason.top/2023/04/23/PRML-1-Introduction/#Information-Theory

\newcommand{\bsf}[1]{\boldsymbol{\mathsf{ #1}}}Example: Polynomial Curve FittingPRML 的第一章是围绕着一个简单的回归问题——多项式拟合展开的。问题虽然简单，但其中蕴藏着许多奥妙。作者分别阐述了概率论、决策论和信息论三个贯穿全书的重要工具，展示了频率学派和贝叶斯学派面对问题的不同思考与处理手段，尤其侧重于贝叶斯方法

文生图大模型收集册 - xyfJASON

https://xyfjason.top/2023/03/11/%E6%96%87%E7%94%9F%E5%9B%BE%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%94%B6%E9%9B%86%E5%86%8C/

封面来自 Midjourney Overview AutoregressiveDALL·EDALL·E 可以认为是 VQGAN 在以文本为条件下的大规模应用（模型大、数据量大），首次让我认识到什么叫做“力大砖飞”（可能是我孤陋寡闻了）。 CogViewPartiDiffusionGLIDEDALL·E 2ImagenStable DiffusioneDiff-IGANsGigaGANItera

扩散模型中的信噪比 - xyfJASON

https://xyfjason.top/blog-main/2023/08/08/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E4%BF%A1%E5%99%AA%E6%AF%94/

由于扩散模型存在多种解释角度，并且有很多人在研究它，因此大家用的推导体系和书写符号或多或少有一些差异。在 Google 的这两篇论文中——Variational Diffusion Models[1]、Progressive Distillation for Fast Sampling of Diffusion Models[2]，作者将信噪比显式地写入了扩散模型的公式之中，并由此引出了对可学习噪

连续时间扩散模型——SDE与ODE描述 - xyfJASON

https://xyfjason.top/2022/12/04/%E8%BF%9E%E7%BB%AD%E6%97%B6%E9%97%B4%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E2%80%94%E2%80%94SDE%E4%B8%8EODE%E6%8F%8F%E8%BF%B0/

\newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z} \newcommand{\E}{\mathbb E} \newcommand{\f}{\mathbf f} \newcommand{\w}{\mathbf w} \newcommand{\calN}{\mathcal N} \newcommand{\pdata}{p_\text{data}

Vector-Quantization - xyfJASON

https://xyfjason.top/2023/03/29/Vector-Quantization/

VQ-VAEVQ-VAE[1] 是 Google DeepMind 在 2017 年提出的一个类 VAE 生成模型，相比普通的 VAE，它有两点不同：隐空间是离散的，通过 VQ (Vector Quantization) 操作实现；先验分布是学习出来的。为什么要用离散的隐空间呢？首先，离散的表征更符合一些模态的自然属性，比如语言、语音，而图像也能用语言描述；其次，离散表征更适合推理、规划

DDIM：非马尔可夫过程与加速采样 - xyfJASON

https://xyfjason.top/2022/12/14/DDIM%EF%BC%9A%E9%9D%9E%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E8%BF%87%E7%A8%8B%E4%B8%8E%E5%8A%A0%E9%80%9F%E9%87%87%E6%A0%B7/

\newcommand{\x}{\mathbf x} \newcommand{\I}{\mathbf I} \newcommand{\calN}{\mathcal N} \newcommand{\E}{\mathbb E}DDPM 前向过程设有一列 noise schedule：${\beta_t}_{t=1}^T$，记 $\alpha_t=1-\beta_t$，$\bar\alpha_t

Diffusion+VAE - xyfJASON

https://xyfjason.top/2023/07/29/Diffusion+VAE/

近期有几篇工作不约而同地都尝试了结合 Diffusion Models 与 VAE，尽管它们的动机并不相同。本文首先以一个结合 Diffusion 与 AE 的工作为引入，然后推导 Diffusion + VAE 的基本框架，再在这个基本框架下分别介绍相关的工作。 Diffusion + AE在与 VAE 结合之前，论文[1]提出了 Diffusion Autoencoders，结合了 Diffu

Midjourney 调研 - xyfJASON

https://xyfjason.top/2023/06/03/Midjourney-%E8%B0%83%E7%A0%94/

官网 | 文档特别说明：本文展示的所有图片都经过了大幅度的缩小和压缩处理，并非原图。模型版本使用 --version 或 --v 参数来指定版本。 v5.1（2023.05 至今的默认版本）根据官网介绍，该版本有更强的默认审美，因此使用比较简单的 prompt 就能达到很好的效果。它能与 prompt 保持很高的一致性，生成的图像更清晰（sh

CV常用数据集 - xyfJASON

https://xyfjason.top/2022/09/14/CV%E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86/#Places2

本文记录计算机视觉中常用的数据集，包括它们的官网、下载链接、目录结构、文件大小、加载方式等等。其中本地目录结构为本人组织数据的方式，仅供参考。 CelebA官网 | Google drive | Baidu drive (password: rp0s) 官方目录结构： 1234567891011121314.├── Anno│ ├── identity_CelebA.txt│ ├── l

从VAE到DDPM - xyfJASON

https://xyfjason.top/2022/09/29/%E4%BB%8EVAE%E5%88%B0DDPM/

\newcommand{\E}{\mathbb E} \newcommand{\KL}{\mathrm{KL}} \newcommand{\calN}{\mathcal N} \newcommand{\x}{\mathbf x} \newcommand{\z}{\mathbf z}VAE 回顾在之前的文章中，我们详细地梳理了一遍 VAE，这里做一个简单回顾。在 VAE 中，由于对数似然 L

搭建个人深度学习工作站（环境篇） - xyfJASON

https://xyfjason.top/2022/12/11/%E6%90%AD%E5%BB%BA%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%EF%BC%88%E7%8E%AF%E5%A2%83%E7%AF%87%EF%BC%89/

前言硬件配置主板：华硕 TUF GAMING B560M-PLUS WIFI CPU：Intel i7-11700 @ 2.50GHz 8核16线程内存：英睿达美光32GB(16Gx2)套装 DDR4 3600MHz GPU：NVIDIA RTX 3080Ti 硬盘： Samsung SSD 980 1TB x 2 WDC WD20EZBX-00A 2TB 电源：长城猎金

天会晴心会暖阳光在手指间 - xyfJASON

https://xyfjason.top/2020/03/15/%E5%A4%A9%E4%BC%9A%E6%99%B4-%E5%BF%83%E4%BC%9A%E6%9A%96-%E9%98%B3%E5%85%89%E5%9C%A8%E6%89%8B%E6%8C%87%E9%97%B4/

足球在坑洼的草地上跳动羽毛球划出一道过高的抛物线小女孩的风筝摇晃着跌落

k-means探究（二）soft k-means - xyfJASON

https://xyfjason.top/2022/09/04/k-means%E6%8E%A2%E7%A9%B6%EF%BC%88%E4%BA%8C%EF%BC%89soft-k-means/

在 k-means 聚类中，每一个数据点隶属于一个类，这是一种 hard 的模式。与之相对的，soft clustering 不把一个数据点硬分给一类，而是给出它属于各个类的“置信度”，表示它属于各个类的程度。在有些场景下，我们也许更希望使用 soft 模式。本文试从两种角度推导 soft 版本的 k-means 算法。角度 1：hard k-means → soft k-means在之前的文章

保研回忆录 - xyfJASON

https://xyfjason.top/2022/11/30/2022%E4%BF%9D%E7%A0%94%E5%9B%9E%E5%BF%86%E5%BD%95/

话说我本来都想把保研回忆录给咕咕咕了，但是学弟突然邀请我做个保研分享，遂借此机会把坑给填上。 1 个人情况1.1 基本情况本科学校：C9 计算机专业专业排名：3/300+ (Top 1%) 荣誉奖项：一次国家奖学金竞赛奖项：ICPC 区域赛银，CCPC 区域赛银，数学竞赛省一，数学建模国赛省一科研经历：夏令营期间有两个课题正在进行之中，无论文

[MIT 18.065]Lecture 2 - xyfJASON

https://xyfjason.top/2023/05/20/MIT-18-065-Lecture-2/

视频链接：https://www.bilibili.com/video/av91245806/ 配套书籍：Linear Algebra and Learning from Data 上一节课讲到了看待矩阵乘法的「列乘行」视角——矩阵乘法是若干秩为 1 的矩阵之和，但是并没有说明这个视角能带来什么启发。考虑到矩阵乘法的逆运算就是矩阵分解，我们接下来尝试从「列乘行」视角重新审视一些常见的矩阵分解。

VAE梳理 - xyfJASON

https://xyfjason.top/2022/09/17/VAE%E6%A2%B3%E7%90%86/

封面图取自：邱锡鹏. 神经网络与深度学习. 机械工业出版社, 2020. \newcommand{\R}{\mathbb R} \newcommand{\N}{\mathcal N}虽然早在看 CS231n 时就学过 VAE 了，但当时学的可谓是不明不白、一塌糊涂，假装懂了的样子就把它放过去了。其实倒也无可厚非，毕竟那时候刚刚入门，如果硬攻的话不知要浪费多少时间。而今我痛定思痛，决定好好学它

扩散模型应用篇 - xyfJASON

https://xyfjason.top/2023/01/05/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E7%AF%87/

\newcommand{\x}{\mathbf x} 封面来自 Lexica 前言：条件与引导基于扩散模型做应用，几乎都离不开条件生成。譬如，超分、去模糊、填充等图像恢复任务可以视为以退化图像为条件的生成任务，图像编辑、图像翻译等任务可以视为以源图像/参考图像为条件的生成任务，根据文本描述生成或编辑图像显然是以文本为条件的生成任务…… 在上一篇文章扩散模型条件引导生成中，我们说明了为模型加入条

[MIT 18.065]Lecture 3 - xyfJASON

https://xyfjason.top/2023/06/03/MIT-18-065-Lecture-3/

视频链接：https://www.bilibili.com/video/av91245806/ 配套书籍：Linear Algebra and Learning from Data 这节课我们关注于 orthonormal 矩阵 $Q$： Q=\begin{bmatrix}q_1&\cdots&q_n\end{bmatrix}顾名思义，$Q$ 的各列相互正交（orthogonal），且都是单位

生成模型中的互信息 - xyfJASON

https://xyfjason.top/blog-main/2023/09/15/%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E4%BA%92%E4%BF%A1%E6%81%AF/

基础知识在信息论中，随机变量 $X$ 的（微分）熵定义为 $-\log p(x)$ 的期望： H(X)=-\int_xp(x)\log p(x)\mathrm dx=-\mathbb E_X[\log p(X)]当涉及两个随机变量 $X,Y$ 时，对它们的联合分布求熵也就得到了联合熵： H(X,Y)=-\int_x\int_yp(x,y)\log p(x,y)\mathrm dx\mathrm