Giter Club home page Giter Club logo

gitalk's Introduction

Hi there👋, I'm xyfJASON.

  • 🔭 I'm a first-year Master student in the VIPL research group at ICT.
  • 🌱 I'm interested in generative models and their applications in computer vision.
  • 👨🏻‍💻 I like to implement great models and algorithms.
  • 📝 I'm sharing notes on my blog website.

gitalk's People

Contributors

xyfjason avatar

Watchers

 avatar

gitalk's Issues

[PRML]Appendix D.Calculus of Variations - xyfJASON

https://xyfjason.top/2023/04/25/PRML-Appendix-D-Calculus-of-Variations/

在 PRML 第一章中我们遇到了用变分法(calculus of variations)求解优化问题,那么变分法究竟是什么呢?PRML 在 Appendix D 做了介绍。 泛函众所周知,函数是数到数的映射:输入为数值 $x$,输出为数值 $y(x)$. 将函数的概念进行扩展,我们定义泛函(functional)为函数到数的映射:输入为函数 $y(x)$,输出为数值 $F[y]$. 直观地讲,泛

扩散模型条件引导生成 - xyfJASON

https://xyfjason.top/2022/12/29/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E6%9D%A1%E4%BB%B6%E5%BC%95%E5%AF%BC%E7%94%9F%E6%88%90/

\newcommand{\x}{\mathbf x} \newcommand{\calN}{\mathcal N}Preface我们在之前的文章中关注的都是无条件生成,生成结果不受我们控制,特别是以 DDPM 为代表的采样过程本身就带有随机性的模型,即使用同样的初始变量也会得到完全不同的结果。但是,有条件的生成(受控生成)却又非常重要:以类别标签为条件可以让我们控制生成的类别;图像恢复、图像填充

PyTorch单机多卡从入门到入土(坑点记录) - xyfJASON

https://xyfjason.top/2022/08/18/PyTorch%E5%8D%95%E6%9C%BA%E5%A4%9A%E5%8D%A1%E4%BB%8E%E5%85%A5%E9%97%A8%E5%88%B0%E5%85%A5%E5%9C%9F%EF%BC%88%E5%9D%91%E7%82%B9%E8%AE%B0%E5%BD%95%EF%BC%89/#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99

在 Vision 里用上 Transformer 之后,单卡训练连两位数的 batchsize 都开不了,必须得学学单机多卡的使用了。 PyTorch 中,多卡训练有两种方案: DataParallel:只支持单机多卡,代码很方便,只需要添加一行,但是效率比较低,不推荐使用 DistributedDataParallel:支持多机多卡,效率高,但是要折腾一下代码 基于性能考虑,一般我们会选择第

[MIT 18.065]Lecture 1 - xyfJASON

https://xyfjason.top/2023/05/20/MIT-18-065-Lecture-1/

视频链接:https://www.bilibili.com/video/av91245806/ 配套书籍:Linear Algebra and Learning from Data 这节课将从矩阵与向量的乘法开始讲起,逐渐过渡到矩阵与矩阵相乘。由于这门课并不是线代入门课,所以肯定有人会说:“我早就知道矩阵乘法了”!但是,你真的知道做矩阵乘法的正确方式吗? 假设有一个矩阵 $A$ 和向量 $\ma

EM算法学习笔记 - xyfJASON

https://xyfjason.top/2022/08/23/EM%E7%AE%97%E6%B3%95%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0/#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99

EM 算法是极大似然法的推广,用于解决存在隐变量(hidden variables / latent factors)的参数估计问题。 1 EM 算法1.1 理论推导 本节主要参考资料[1][2],记号略有不同。 设观测样本是 $x$,隐变量为 $z$,模型参数为 $\theta$,那么对数似然为: L(\theta)=\log P(x\mid \theta)=\log\left(\sum_{

扩散模型应用篇(二) - xyfJASON

https://xyfjason.top/2023/02/11/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E7%AF%87%EF%BC%88%E4%BA%8C%EF%BC%89/#SmartBrush

\newcommand{\x}{\mathbf x} 封面来自 Lexica 基于扩散模型的工作实在太多,遂新开一篇继续记录。本篇依旧按照第一版论文上传到 arXiv 上的时间排序,并辅以彩色的 tag 作为说明。 仍在持续更新(肝论文)中~ Prompt-to-PromptText-based Image Editing Google 2022.08.02 GLIDE、DALL·E 2、Im

不止去噪!任意退化模式上的扩散模型 - xyfJASON

https://xyfjason.top/2022/12/17/%E4%B8%8D%E6%AD%A2%E5%8E%BB%E5%99%AA%EF%BC%81%E4%BB%BB%E6%84%8F%E9%80%80%E5%8C%96%E6%A8%A1%E5%BC%8F%E4%B8%8A%E7%9A%84%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/

\newcommand{\x}{\mathbf x} \newcommand{\E}{\mathbb E} \newcommand{\calN}{\mathcal N} \newcommand{\I}{\mathbf I}Cold Diffusion站在 machine learning researcher 的角度,DDPM 或 SMLD 的「加噪-去噪」过程有着非常严谨的数学描述,使得我们能

k-means探究 - xyfJASON

https://xyfjason.top/2022/08/12/k-means%E6%8E%A2%E7%A9%B6/

谈到聚类(clustering),k-means 无疑是最先想到的算法之一了。其**异常的简单有效,以至于我之前没有深究过其中的奥秘与坑点。今天就来更深入地探究一下 k-means。 1 算法描述 本节主要参考资料[1]. 设我们有 $n$ 个样本 $X={x_1,\ldots,x_n}$,每个样本有 $d$ 维,即 $x_i\in \mathbb R^d$。k-means 欲将样本分到 $

搭建个人深度学习工作站(操作系统篇) - xyfJASON

https://xyfjason.top/2022/12/11/%E6%90%AD%E5%BB%BA%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%EF%BC%88%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F%E7%AF%87%EF%BC%89/

说明:由于是个人使用,我安装的是 Windows + Ubuntu Server 双系统。用 Ubuntu Server 训练,用 Windows 摸鱼。 硬件配置 主板:华硕 TUF GAMING B560M-PLUS WIFI CPU:Intel i7-11700 @ 2.50GHz 8核16线程 内存:英睿达 美光32GB(16Gx2)套装 D

[PRML]1.Introduction - xyfJASON

https://xyfjason.top/2023/04/23/PRML-1-Introduction/#Information-Theory

\newcommand{\bsf}[1]{\boldsymbol{\mathsf{ #1}}}Example: Polynomial Curve FittingPRML 的第一章是围绕着一个简单的回归问题——多项式拟合展开的。问题虽然简单,但其中蕴藏着许多奥妙。作者分别阐述了概率论、决策论和信息论三个贯穿全书的重要工具,展示了频率学派和贝叶斯学派面对问题的不同思考与处理手段,尤其侧重于贝叶斯方法

扩散模型中的信噪比 - xyfJASON

https://xyfjason.top/blog-main/2023/08/08/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E4%BF%A1%E5%99%AA%E6%AF%94/

由于扩散模型存在多种解释角度,并且有很多人在研究它,因此大家用的推导体系和书写符号或多或少有一些差异。在 Google 的这两篇论文中——Variational Diffusion Models[1]、Progressive Distillation for Fast Sampling of Diffusion Models[2],作者将信噪比显式地写入了扩散模型的公式之中,并由此引出了对可学习噪

Vector-Quantization - xyfJASON

https://xyfjason.top/2023/03/29/Vector-Quantization/

VQ-VAEVQ-VAE[1] 是 Google DeepMind 在 2017 年提出的一个类 VAE 生成模型,相比普通的 VAE,它有两点不同: 隐空间是离散的,通过 VQ (Vector Quantization) 操作实现; 先验分布是学习出来的。 为什么要用离散的隐空间呢?首先,离散的表征更符合一些模态的自然属性,比如语言、语音,而图像也能用语言描述;其次,离散表征更适合推理、规划

Diffusion+VAE - xyfJASON

https://xyfjason.top/2023/07/29/Diffusion+VAE/

近期有几篇工作不约而同地都尝试了结合 Diffusion Models 与 VAE,尽管它们的动机并不相同。本文首先以一个结合 Diffusion 与 AE 的工作为引入,然后推导 Diffusion + VAE 的基本框架,再在这个基本框架下分别介绍相关的工作。 Diffusion + AE在与 VAE 结合之前,论文[1]提出了 Diffusion Autoencoders,结合了 Diffu

Midjourney 调研 - xyfJASON

https://xyfjason.top/2023/06/03/Midjourney-%E8%B0%83%E7%A0%94/

官网 | 文档 特别说明:本文展示的所有图片都经过了大幅度的缩小和压缩处理,并非原图。 模型版本使用 --version 或 --v 参数来指定版本。 v5.1(2023.05 至今的默认版本) 根据官网介绍,该版本有更强的默认审美,因此使用比较简单的 prompt 就能达到很好的效果。它能与 prompt 保持很高的一致性,生成的图像更清晰(sh

CV常用数据集 - xyfJASON

https://xyfjason.top/2022/09/14/CV%E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86/#Places2

本文记录计算机视觉中常用的数据集,包括它们的官网、下载链接、目录结构、文件大小、加载方式等等。其中本地目录结构为本人组织数据的方式,仅供参考。 CelebA官网 | Google drive | Baidu drive (password: rp0s) 官方目录结构: 1234567891011121314.├── Anno│   ├── identity_CelebA.txt│   ├── l

搭建个人深度学习工作站(环境篇) - xyfJASON

https://xyfjason.top/2022/12/11/%E6%90%AD%E5%BB%BA%E4%B8%AA%E4%BA%BA%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%B7%A5%E4%BD%9C%E7%AB%99%EF%BC%88%E7%8E%AF%E5%A2%83%E7%AF%87%EF%BC%89/

前言 硬件配置 主板:华硕 TUF GAMING B560M-PLUS WIFI CPU:Intel i7-11700 @ 2.50GHz 8核16线程 内存:英睿达 美光32GB(16Gx2)套装 DDR4 3600MHz GPU:NVIDIA RTX 3080Ti 硬盘: Samsung SSD 980 1TB x 2 WDC WD20EZBX-00A 2TB 电源:长城 猎金

k-means探究(二)soft k-means - xyfJASON

https://xyfjason.top/2022/09/04/k-means%E6%8E%A2%E7%A9%B6%EF%BC%88%E4%BA%8C%EF%BC%89soft-k-means/

在 k-means 聚类中,每一个数据点隶属于一个类,这是一种 hard 的模式。与之相对的,soft clustering 不把一个数据点硬分给一类,而是给出它属于各个类的“置信度”,表示它属于各个类的程度。在有些场景下,我们也许更希望使用 soft 模式。本文试从两种角度推导 soft 版本的 k-means 算法。 角度 1:hard k-means → soft k-means在之前的文章

保研回忆录 - xyfJASON

https://xyfjason.top/2022/11/30/2022%E4%BF%9D%E7%A0%94%E5%9B%9E%E5%BF%86%E5%BD%95/

话说我本来都想把保研回忆录给咕咕咕了,但是学弟突然邀请我做个保研分享,遂借此机会把坑给填上。 1 个人情况1.1 基本情况 本科学校:C9 计算机专业 专业排名:3/300+ (Top 1%) 荣誉奖项:一次国家奖学金 竞赛奖项:ICPC 区域赛银,CCPC 区域赛银,数学竞赛省一,数学建模国赛省一 科研经历:夏令营期间有两个课题正在进行之中,无论文

[MIT 18.065]Lecture 2 - xyfJASON

https://xyfjason.top/2023/05/20/MIT-18-065-Lecture-2/

视频链接:https://www.bilibili.com/video/av91245806/ 配套书籍:Linear Algebra and Learning from Data 上一节课讲到了看待矩阵乘法的「列乘行」视角——矩阵乘法是若干秩为 1 的矩阵之和,但是并没有说明这个视角能带来什么启发。考虑到矩阵乘法的逆运算就是矩阵分解,我们接下来尝试从「列乘行」视角重新审视一些常见的矩阵分解。

VAE梳理 - xyfJASON

https://xyfjason.top/2022/09/17/VAE%E6%A2%B3%E7%90%86/

封面图取自:邱锡鹏. 神经网络与深度学习. 机械工业出版社, 2020. \newcommand{\R}{\mathbb R} \newcommand{\N}{\mathcal N}虽然早在看 CS231n 时就学过 VAE 了,但当时学的可谓是不明不白、一塌糊涂,假装懂了的样子就把它放过去了。其实倒也无可厚非,毕竟那时候刚刚入门,如果硬攻的话不知要浪费多少时间。而今我痛定思痛,决定好好学它

扩散模型应用篇 - xyfJASON

https://xyfjason.top/2023/01/05/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E7%AF%87/

\newcommand{\x}{\mathbf x} 封面来自 Lexica 前言:条件与引导基于扩散模型做应用,几乎都离不开条件生成。譬如,超分、去模糊、填充等图像恢复任务可以视为以退化图像为条件的生成任务,图像编辑、图像翻译等任务可以视为以源图像/参考图像为条件的生成任务,根据文本描述生成或编辑图像显然是以文本为条件的生成任务…… 在上一篇文章扩散模型条件引导生成中,我们说明了为模型加入条

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.