CSRJTAN

Keep Moving


  • 首页

  • 技术

  • 笔记

  • 生活

  • 书单

  • 归档

  • 标签

精进_1

发表于 2017-04-12   |   分类于 Read   |  

再次读到采铜写的《精进:如何成为一个厉害的人》,诚然,每个人都希望自己能够成为一个厉害的人,也希望自己能够精进,获得某种锻炼和技能,这是一本个人心灵成长的书籍。如同任何鸡汤的书一样,理论和知识的理解并不困难,只要用一种轻松或者让人能理解的方式去写出来,但每一件事情的思考到落实却需要许多的毅力来执行;尤其当其成为习惯与持之以恒的行动时,我们才能看到真正的转变,这就需要我们不断地操练和提醒,积极地反馈自我。

序言:用勇敢的方式去生活

生活就像一面多棱镜,它有不止一个镜面,相应地,也有不止一种可观察和理解的视角

这也透露出生活具有的多元性和丰富性,正是因为这,也才使得人生是那么的丰富多彩,充满了意义。

本书从人生重要的七个维度展开:时间、选择、行动、学习、思维、才能和成功来论述理想中符合自我的生活和人生。时间是前提与坐标;选择使我们认清自我以及在世界中的位置;行动则是真正生命力的象征,也是解决问题的能力;学习则是一生的修为与锻炼;思考是伟大而有价值的,需要我们来发现其价值与意义;成功的定义应该是坚持做一个你所喜欢的自己;
全书追求的一个目标是:思考如何才能获得丰盈、独特、完整和自足的人生,摆脱内心的禁锢,勇敢开阔地去生活。

我的见解:思考生活和思考人生是一个永无止境的课题,此中是毫无答案却是意义非凡,每一次的思考哲学也是跟“自我”的对话,当然这是一个耗费精力的过程,应该张弛有度。过于频繁一般多因生活的不如意而导致“人生是虚空,没有意义”的消极观点,但其实生活是充满意义的,只是它在你的眼中、你的世界彰显出来的意义不一;有人说人生的意义,自己对于生活、世界的意义一般是在青春期或中年时期才会变得那样的频繁和重要;因为小孩子对未来充满了希望,他们总是希望等待自己的长大来成为希望的人,从不去担忧着生活;而老年人经历了一切回归于生活的时候,他们已经确认自己在世界和人生里面的定位,不会再去思索太多,只需按着自己的步伐享受拥有的生活。
我相信每一个人都对自我充满了期待和梦想,只是有些时候我们因为挫败而丢掉了对自己的期许或者一时被遮蔽了梦想,才重新去探索如果实现不了这个事情,我的人生的意义又从何觅起,这是因为自己的自卑、懒惰或者人性的弱点而导致自己缺乏了生命力;希望每一位消极或者抑郁的人都能振作起来,了解到生命本身就是宝贵的,更毋庸说生活带来的意义,我们确实应该郑重地对待生命的宝贵和时间的宝贵。

关于时间与选择

对待时间的态度

一个人如何对待他的时间,决定了他可以成为什么样的人

对待时间应用的态度是:郑重! 具体来说是,不敷衍、不迟疑、不摇摆,认真地聚焦当下的事情,自觉而专注地投入其中

斯坦福心理学家Philip Zimbardo从时间视角划分了不同的心态:积极过去(感恩)、消极过去(抑郁)、享乐主义(幸福)、宿命论(消极)、未来视角(积极);而我们的生活应该在积极过去、享乐主义与未来视角中取得平衡,按着自我的需要和场景切换。
为了让自己更好地去做”正确“的事情,我们可以:

  • 让远期未来目标具体化、情景化和使其可实施
  • 降低”无用行为“的便利性,主动挑战难度

合理地利用时间=选择去做”正确“的事情,但由于选择和诱惑的增多,现代人面临选择无能(不容易判断)和执行无能(拖延症),这里作者提出一个守则:少做短半衰期的事情,只要是能积累的长衰期事情就要认真积极地完成。

e.g. 长半衰期的事情有:积累可信知识、训练实践技能、提升审美品位、构建新的思维模式、建立和维持相互信任关系、寻找并获得稀缺资源、反思和总结个人经历、保持与促进健康、探索独创见解与发明、获得高峰体验等等

”长半衰期“的”时间之尺“是一个非常好用的评判标准,经历时间洗礼的”经典“含着接近”事物本质“和”生命本质“的东西。

《反脆弱》的林迪效应:对于会自然消亡的事物生命每增加一天,预期寿命就会缩短一些,就像人类自己。对于不会自然消亡的事物,生命每增加一天,意味着更长的预期剩余寿命。就像经典著作和对别人的影响。
作者提出一种好玩的假设,阅读经典就像把历史的杰出人物加为微信好友,畅游在他们的朋友圈中,你能汲取他们的智慧和精华,会发现他们都是个性鲜明有趣的人;这些杰出的人拥有各自的特点,也存在着让他们杰出的共性:每个人都明白自己独特的特点,并能将其在环境中表露和得到发挥,当中的大部分人是不会受朝代和潮流所影响,他们有自己坚守独特的品质,你能从中认识到各有各伟大的地方。

我的见解:这让我不禁觉得历史是一个好东西,以前确实忽视了,只从客观事实和教科书去学习历史其实是很low的,当你从人和思考的角度来看,历史鲜活起来的时候,它变得那样的真实、动人和有趣,而你也正身处在历史的潮流中,你又会成为怎样的历史呢?心中有一把”时间之尺“去衡量自己,衡量生活,衡量东西,这就是当你迷茫是,其中一个重要和不变的标准。这与孔夫子的立德(耶稣、儒家、佛教)、立功、立言(著书)有异曲同工之妙。再说一下效益和半衰期的事情,和牛人固然是效益高、半衰期长的事情,但是这种好事需要我们先重复练习做效益低、半衰期长的事情,积累起来之后,在业内才能碰到这种好事,也就是越努力越幸运,所以我们需要提前做好艰苦打基础的心理准备!

快与慢

回归到生活之中,并非简单地一味求快就是最佳,生活应该张弛有度,快慢适宜。简单来说是,工作要快,生活要慢;毕竟人生的第一桩要事是生活,生活应该是享受、体验和培养生机的过程。

在现代忙碌的生活中,我们可以享受体验的慢事如:坐在公园的长椅观察、夜晚在吊床上看星星、漫无目的地散步、在静寂中看一本书、阳光草坪下小睡片刻、在烛光中洗澡等

另外,要注意求慢的事情有:与家人共度闲暇、欣赏艺术作品、自我反思、思考重大决策、创造性活动的酝酿、为挑战性任务的准备

人在爱好上,在闲暇中放松与满足的程度取决于质量而非长度,进入”心流“的专注模式会让人得到更多深度的体验,而相应地在爱好上获得的成就让你更放松和满足。所以从现在开始,请找到并保持至少一项长期的业余爱好吧。

总结

  • 平衡看待过去、现在和未来,郑重地过好当下,联结过去和未来
  • 用未来视角工作,用享乐主义生活
  • 用时间之尺审视事情,尽可能删减不必要的事情
  • 快慢结合,区分”求快“,”求慢”的事件
  • 提升时间的深度,减少被动休闲的比例,保持至少一项长期的业余爱好

如何行动

成为一个厉害的人,或者精进自我,就需要提出设立高标准的原则,让自己成为高标准的人。

在学生中,高标准的体现包括:1.选择好的课外在线课程 2.选择优秀的国外教材 3.跟优秀的人进行交流 4.选择有挑战性的竞赛

我们需要时刻以最高标准为原则,设定价值尺度,从“目标”、”眼界“和”信念“来划分4种人:盲众、逐利者、理念人和至善之人(史怀哲)

人不能只为他自己而活。我们必须认知所有的生命都是珍贵的,而我们和所有的生命是结合在一起的。这种认知指引了我们心灵和宇宙的关系。 -史怀哲

一般遇到困难的时候,都是因为隐性假设在阻碍着我们发展,我们可以冷静合理地分析这些隐性假设,寻找突破现状的新可能。
中国社会生活中存在的四个典型假设:赛道假设、低关联假设、僵固型心智、零和博弈

在设立多目标的时候,我们可以尝试目标悬挂,就像国外实行的”开环大学“,让本科学士学位可以在六年内修完,中间与工作和实践结合,更好地学以致用;还有就是能力嫁接,让其他的能力充分发挥,最后进行特性改造,将消费型爱好转化成生产型爱好。

课后习题

这里我把自己阅读的课后习题答案稍微写一下(相当于揭短,让内心的黑暗接受阳光的洗礼):
最近自己不好的事情,学到了什么?:1.GRE考试失败,从中明白要好好备考,英语是很重要的,虽然GRE的单词生僻枯燥,但若能熬过这一关也证明了自我。 2.论文拖延症:认识到自己的拖延和懒惰,一味地逃避正确的事情,会让自己越来越痛苦,甚至怀疑自己 3.过度娱乐:由于没有太多的驱赶和压力,自己迷失了自我,忘记了初心;尤其当下的视频媒体各方面做得极具吸引力,在国外YOUTUBE资源多网速好,简直一个不小心休息就连看1小时视频,还有其他电视剧、综艺、电影之类的,视频对大脑的刺激实在来得太剧烈,就算没有多巴胺、尼古丁或者可卡因都能上瘾;对于如此自制力的我,估计这辈子都得远离烟酒毒品什么的!希望自己能少看视频,多读文字,看看书。

最近的成就,它对人生的意义: 1.之前写了的雅思总结笔记,把自己的经历和书籍分享给别人,感觉自己帮助了别人,也巩固了经验心得,意义非凡! 2.完成了ICME的投稿,最近出了ORALS的结果,自己的写作和科研上的探索得到了肯定,能将自己学习到的知识和探索的成果传播出去,让自己的自信又多了一点点了! 3.之前做的这个博客,虽然没有什么访问量,但它就像一本日记一样,记录着我的生命轨迹,我的喜怒哀乐,虽然经常会忘掉它;但我渐渐发现,不是它(我期待的读者)需要我,是我需要它,所以希望自己能坚持更新,更新自己的心情,更新我的学习和成长。

五年目标:说到底,这个东西每年都写一次,每年都觉得自己并没有离目标更近一点了,这次定一个稍微现实一点,希望能让自己往目标靠得更近一点。 1.找到好的、如意的工作:我希望从事教育和技术结合的工作,我发现自己还是对教育充满了兴趣,可是自己还是没能往前迈出这一步。 2.出一本书,无论是自费还是挣钱,希望自己这一生能留下一点什么,所以自己写作并出版一本书对我来说意义非凡,希望自己能多阅读,多积累! 3.成家立室,提到这个目标其实有点早,因为本来期待30+才想这个事情,而且这个应该不需要订目标太早吧?还能放进5年计划?这不时机成熟,条件充分,一下子就好了吗?然而现在结婚需要的压力或者时机越来越复杂了,提前一点准备,多挣钱,多看世界,多尝试吧。

每周让自己放松的事情:运动是最大的爱好!包括跑步、爬山、篮球、骑车和健身;然后就是阅读,要多读经典,多读历史;可以珍惜在香港的时间,多听听讲座、展览、美术
长期培养的爱好:1.写博客 2.写书或者小说 3.写代码 4.吉他

VisualComputing_3

发表于 2017-04-11   |   分类于 Read   |  

这一节讲解如何用Dictionary learning做Classification Task

Sparse representation Classificaton

Problem Modeling:
$label(y) = argmin_k(r_k)$
$where\ \ r_k = ||y-X_k \hat{\alpha_k}||_2$

prons:

  • novel use sparse coding for classification
  • widely studied, improved and extended
  • good performance

cons:

  • SRC is owed to use of sparse coding which is not accurate
  • new type of classifier although the sparsity is helpful
  • 不是有效的局部结构性特征
  • 针对遮挡问题,字典过大

通过局部特征(Gabor,SIFT)来解决局部特征,用robust coding可以解决遮挡问题的字典过大。
LASSO和L1-LASSO最大的区别是数据保真项$e=y-X\alpha$分别服从i.i.d. Gaussian or Laplacian distribution

LASSO: $ min_{\alpha} ||y-X\alpha||_2^2 \ \ \ s.t.\ ||\alpha||_1<=\sigma$

L1-LASSO: $min_{\alpha}||y-X\alpha||_1 \ \ \ s.t.\ ||\alpha||_1<=\sigma$

MLE

最大似然估计提供了一种给定观察数据来评估模型参数的方法,“模型已定,参数未知”。一个重要的假设:所有的采样都是独立同分布的。
假设$x_1,x_2,…,x_n$为独立同分布采样,$\theta$为模型参数,$f$为模型,则产生上述采样可表示为 $$f(x_1,x_2,…,x_n|\theta)= f(x_1|\theta)*f(x_2|\theta)…,f(x_n|\theta)$$

似然的定义:$ L(\theta|x_1,…,x_n)=f(x_1,…,x_n|\theta)= f(x_1|\theta)*f(x_2|\theta)…,f(x_n|\theta) $

最大似然对数: $ \hat{\theta}_{mle} = argmax_{\theta} \ell(\theta|x_1,…,x_n), \ell=\frac{1}{n} lnL$

最大似然估计的步骤:

  • 写出似然函数
  • 对似然函数取对数,并整理
  • 求导数
  • 解似然方程

MAP

最大后验估计是根据经验数据对难以观察的量的点估计(Point Estimation),与MLE类似;不同的是,MLE融入了估计量的先验分布在其中,MAP可以看做规则化的MLE。
回顾x为采样,$\theta$为模型参数,f为模型,则MLE可以表示为:$$\hat{\theta}_{MLE}(x) = argmax_{\theta} f(x|\theta)$$

对于MAP,现在假设$\theta$的先验分布为g,通过贝叶斯理论,对于$\theta$的后验分布如下:$$\theta \mapsto f(\theta|x) = \frac{f(x|\theta)g(\theta)}{\int_{\theta} f(x|\theta^{*})g(\theta^{*})d\theta^{*}}$$

则MAP的目标为:$$\hat{\theta}_{MAP}(x)=argmax_{\theta} f(\theta|x) = argmax_{\theta} f(x|\theta)g(\theta)$$

可以看出,MAP和MLE最大的区别是MAP加入了模型参数本身的概率分布,或者说MLE的模型参数概率为均匀固定值。

Collaborative nature of SRC


对于正则项,L1为sparse,L2为Collaborative

佳哥的CVPR16文章A Probabilistic Collaborative Representation based Approach
for Pattern Classification,主要解释为什么SRC/CRC WORK,具有怎样的特性,结合了proCRC的Modeling,构建出这一分类器比传统分类器要较优;寻找一个common point for joint projection;分类问题相当于在分布空间上的映射。

Discriminative Dictionary Learning(DL)

Motivation:1.学习compacted字典 2.学习discriminative 3.effected

Shared DL

LC-KSVD
Label Consistent-KSVD目的:学习一个线性变换A来约束了Sparse Code的Ideal形式,这里Q是预定义的理想编码形式,T是约束系数大小的。

LC-KSVD
首先计算Sparse Code,然后WX的结果就是分类类别结果

Support Vector Guided DL(SVGDL), idea:自适应地对coding vector进行参数化。有些编码重要,部分编码相对不重要。

Class-specific DL

DDL
所谓决策性字典学习就是把负样本也放进学习过程中进行字典训练。

Fisher DDL exploit both representation residual and coding coefficient,引入使用了Fisher Criterion

Dictionary Pair Learning

DDL
同一个Sparse Code,但是针对类别适应的字典,有点像多个2分类的SVM.

Collaborative representation for image sets

ISCR
将Image Classification扩展到Image Set Classification

VisualComputing_2

发表于 2017-04-08   |   分类于 Read   |  

上一节讲了CV的介绍和Sparse Representation的内容,包括CV的概念、应用和难点;Sparse Representation的formulation, method以及步骤。当然还有为何Sparse Representation can work. 这一节讲一下Dictionary Learning和Representative works

Dictionary Learning

Introduction

在稀疏编码之前,需要学习一组过完备的字典,从而使得编码向量是稀疏的。以下分为两种字典,Analytical and Learn;
Analytical包括DCT bases, Wavelets, Curvelets…; Learn dictionaries from natural images: K-SVD, Coordinate descent, Online dictionary learning;

为什么需要字典学习?

  • Over-complete learned dictionary often work better than analytically
  • More adaptive to specific task/data
  • Less strict constraints on mathematical properties of bases
  • More flexible to model data
  • Tend to produce sparser solution

L0:K-SVD

对于L0稀疏的字典学习,我们可以用K-SVD方法近似求解,其中可以看成是K-MEANS的一种扩展
字典学习的问题可以Modeling为:
$$min_{D,A}||Y-DA||_F^2 \ \ s.t.\ \ ||a_i||_0 <= T_0$$ 其中i为任意正数,$T_0$为稀疏值
K-SVD
如图,对于字典学习:

  • 首先是稀疏编码,可以用Matching Pursuit来优化求解;然后用K-SVD方法更新字典。
  • 然后将DA进行K次分片叠加得到$DA=\sum_{i=1}^K d_i a_i^T$, 这里便是一个可用词典;剥离第K条,寻找新的d,x来更新该条目
  • 最后,只抽取非零的a组成新的矩阵$\Omega$作为系数矩阵,对误差能量矩阵作SVD分解,d取U的第一行,x取$\sum V^T$的乘积第一列

总结K-SVD的思想:K次分片,使得最后学得的字典over-complete; 选用第K个条目更新,每次只更新一个字典atom(one column in fat matrix); 对剥离后的‘空洞’做K-SVD, $E_k = U \sum V^T$, 新的d,a则取里面能量最大的元素, 这是对误差’空洞’的最佳逼近;只抽取非零系数组成新矩阵更新,有助于保持原来字典的稀疏性;

对于L1字典,可以对D和A交替学习:当更新D时,这是Quadratic Programming; 当更新A时,这是LASSO Optimization (ADMM);

Representative Work

Online learning: 考虑新来的样本,直接在原来基础上更新词典的策略以及收敛性

Multi-scale Dictionary learning: 由于complexity increases exponentially with signal dimension,所以一般用较小的patch size; 而multi-scale可以自适应地融合不同scale字典编码
Multi-Scale

Double Sparsity: 可以针对高层次稀疏特征或者large patch再进行一次dictionary learning, 基于稀疏编码或着高维编码的再一次稀疏表示;
Double Sparsity

Restoration Methods

Filtering-based methods: Isotropic method, Anisotropic method
Transformation methods: Motivation, find new representation where signal and noise can be better separated; Wavelet transform

K-SVD denoising

Basic Idea: 1.train over-complete dictionary 2.adopt trained dictionary to denoise patch in noisy image 3.Utilize the patch to reconstruct
Modeling
Limitations: 1.Solving sparse coding not effective enough 2.L0 is not good choice

BM3D

BM3D
BM3D denoising算是业内最为经典的去噪算法了,其中结合了Nonlocal self-similarity和sparsity两个最重要的priors,效果非常不错,速度一般

步骤:首先通过non-local matching找到一组图片块;组成tensor进行维纳滤波,之后进行阈值抑制(这里相当于稀疏去噪);最后对新的tensor结合原来的tensor再重复做维纳滤波和阈值抑制;得到去噪patches reconstruct到图像即可

优缺点:1.有效挖掘了nonlocal similarity和sparsity 2.在DWT(小波)做协同滤波并不能描述复杂的图像结构

LSSC

Group Sparsity
Group SPARSITY
与普通的L1 sparsity不同,Marial提出系数矩阵满足group sparsity的L1,2范数;使得同样的patch,在字典下应该具有统一的稀疏编码,保持元组具有相同稀疏的特性;仔细看12范数的表达形式,j是行,i是列,使得系数尽可能在同一行;

整个流程和BM3D相似,只是在协同滤波和阈值抑制上,改成用group sparsity的字典学习和稀疏编码去噪

Adaptive Sparse Domain Selection: 由于大的词典使得稀疏编码过程非常耗时,而大的词典对于描述图像局部结构又是很有必要;这个方法提出从大字典中选择一个子集可以提速

Piece-wise Linear Estimation (PLE), Motivations:

  • Sparse representation assumes Laplacian prior on coefficients, lead to nonlinear sparse coding estimator
  • Use Mixture of Gaussians to approximate Laplacian
  • Select one appropriate Gaussian Prior to reconstruct

Coupled Dictionary Learning

Motivations:

  • Used coupled dictionary to model the relationship between degraded image and its corresponding images
  • Build the corresponding in sparse domain(same code but different dictionary)
    SRSR

Semi-coupled Dictionary Learning: flexible the relationship between two dictionary, the sparse code with a pre-learned mapping

Very Deep Super Resolution

发表于 2017-04-07   |   分类于 Tech   |  

这一篇是CVPR16 Kim的VDSR,通过VERY DEEP的简单模型,又快又好地解决了SR问题,成为暂时这个问题上的标杆模型。

Abstract

Our final model uses 20 weight layers. By cascading small filters many times in a deep network structure, contextual infor- mation over large image regions is exploited in an efficient way. With very deep networks, however, convergence speed becomes a critical issue during training. We propose a sim- ple yet effective training procedure. We learn residuals only and use extremely high learning rates (104 times higher than SRCNN [6]) enabled by adjustable gradient clipping.

Introduction

Single image super-resolution(SISR):upsampling方法,而后neighbor embedding,如今用CNN; SRCNN的limitation: 1.relies on context of small image regions; 2.only works for single scale; VDSR的主要优点有:1.通过small size kernel but very deep, to obtain a large context(receptive region) 2.Convergence very fast by residual-learning and BN high learning rate 3.Multi-Scale Factor,把多个scale的SR融合进一个网络模型

Methodology

ARCHITECTURE
20层CONV+BN+RELU,L2 LOSS, HIGH LEARN RATE WITH RESIDUAL LEARNING AND ADJUSTABLE WEIGHT CLIPPING.

Experiment

  1. THE DEEPER THE BETTER ON PSNR/SSIM
  2. RESIDUAL LEARNING WORKS
  3. MULTI-SCALE MODEL BETTER THAN SINGLE SCALE ON LARGE SCALE

VisualComputing_1

发表于 2017-04-07   |   分类于 Read   |  

老板的CV课程,在期末前做一下相关笔记总结

Introduction

What is vision?

  • Perceive an integration of image data and prior knowledge in brain
  • A field acquiring, processing, analyzing and understanding visual data

Computer Vision & Human Vision?

  • ill-posed problems
  • mathematical models
  • discrete vs. continuous
  • local vs. global optimization

What kinds of Topics?

相关学科
Low Level: Image Denoising, Deblurring, Super-Resolution, photo-sketch synthesis, texture synthesis, optical flow, image matching

Middle Level: image segmentation, motion capture, visual tracking, 3D reconstruction

High Level: object detection, image understanding, video understanding

具体应用问题

Related Problems: medical imaging, optical character recognition (OCR), face detection, smile detection, vision-based biometrics, shape capture, automatic driving

Why image restoration challenging?

  • Real noise much more complex than additive white Gaussian
  • Blur is non-uniform and complex to accurately estimate
  • Space of image local structures is huge, inverse problem highly ill-posed

Sparse Representation and Dictionary Learning on Restoration

Linear system $Ax=b$, if A full rank, $x = A^{-1}b$; if tall matrix(over-determined) than approximate solution by $minimize||Ax-b||_2^2$; if fat matrix(underdetermined), no solution in general and some constraint should be imposed

假设estimation与observer的最小距离是L0,L1,L2或其他:L0,非凸优化; L1,tightest convex relaxation of L0, 稀疏解; L2有闭合Dense解。具体到一个优化问题的等高线逼近时,各个NORM BALL的图形如下。
各个Norm Ball
尽管L1能逼近L0,但有时候L1也会出现非稀疏解,数学上已经证明,满足RIP性质的话,用L1近似L0能确保得到稀疏解。RIP又称有限等距性质,直观解释为从A矩阵中的部分列向量与任意向量x的乘积结果收敛在一个环形邻域,如下图
RIP

直观解释

图像复原问题

Modeling

$y=Hx+v$, H:observation matrix, v:noise
Keys to solve ill-posed problems:

  • Modeling the degradation process
  • Good Prior knowledge about the clean image
  • Good objective function for minimization

其中H在denoise是identity matrix; deblurring为blurring matrix; supperresolution是compound matrix of blurring and downsampling matrix; Inpainting是indication matrix of damaged pixels;

Methodology

Filter based methods: Gaussian low-pass, PDE-based anisotropic diffusion, Bilateral filtering, Nonlocal means filtering; (local->non local performance improve greatly)

Transform based methods: Fourier(‘Global, Orthogonal’), Wavelet(‘local, small’), Ridgelet(‘more redundant’), Dictionary Learning(‘over-complete’)

  • Represent x over dictionary D, enforcing the new vector be sparse(robust)
  • objective model $min_\alpha ||HD\alpha-y||_2^2+\lambda ||\alpha||_1$

The basic procedure

  1. Partition degraded image into overlapped patches(8*8)
  2. For each patch, solve the nonlinear L1-norm sparse coding problem:
    $\hat{\alpha} = argmin_\alpha ||HD\alpha-y||_2^2+\lambda||\alpha||_1$
  3. Reconstruct each patch by $\hat{x}=D\hat{\alpha}$
  4. put the reconstructed patch back and average the overlapped pixels
  5. In practice, the 1~4 can be iterated for several rounds

why sparse?

  • Neuronscience
  • Bayersian
  • Compressive Sensing

How to solve?

L0: Greddy search(Matching pursuit, Orthogonal matching pursuit)

  • MP: 贪婪地选取相关性最大的atoms
  • OMP: 正交地,把曾选的atoms的信息均用上,组合出新的投影向量
    L1:
  • Linear programming
  • Iteratively reweighted least squares:Trickly weighted L2 to L1
  • Proximal gradient descent: Soft-Thresholding with analytic solution
  • Augmented Lagrangian methods(Alternating Direction Method of Multipliers, ADMM)

ADMM

拉格朗日变换

将Constraint结合拉格朗日乘子放在Objective function里面。
e.g $min\ f(x) \ s.t. Ax=b$
拉格朗日形式:$L(x,\lambda)=f(x)+\lambda (Ax-b)$
对于含有不等式约束的情况,结合KKT条件,$h(x)=0, \lambda>=0, \lambda*g(x)=0, g(x)<=0 $, 其中h是等式约束,g是不等式约束,$\lambda$是不等式乘子

KKT条件:对于问题 $L(x,\lambda) = f(x)+\lambda g(x)$
满足

  • $\Delta_x h(x,\lambda)=0 $
  • $\lambda>=0$
  • $\lambda *g(x)=0$
  • $g(x)<=0$
  • $\Delta_{xx} L(x,\lambda)$ is PSD

对偶问题

对于原问题$L(x,\lambda)=f(x)+\lambda(Ax-b)$
对偶形式为:$g(\lambda)= inf_x(L(x,\lambda)) = -f^*(-A^T\lambda)-b^T\lambda)$,其中inf为确认下界(infimum)
对偶问题: $max\ g(\lambda)$
对偶上升法: $x^{k+1} = argmin_x L(x,\lambda^k)$

变量更新:$\lambda^{k+1}=\lambda^k +\alpha^k(Ax^{k+1}-b)$
对偶分解法:将目标函数分解成多个子函数 $f(x)=\Sigma_{i=1}^Nf_i(x_i)$

增广拉格朗日,为了增加Dual Ascent的鲁棒性,加入松弛函数
$$L_p(x,\lambda)=f(x)+\lambda^T(Ax-b)+(\rho/2)||Ax-b||_2^2$$

ADMM

ADMM旨在将对偶上升可分解性和乘子法上界收敛属性融合在一起的算法;
优化问题:$$ min\ f(x)+g(z) \ \ s.t. \ Ax+Bz=c $$
得到增广拉格朗日形式:$ L_\rho(x,z,\lambda)=f(x)+g(z)+y^T(Ax+Bz-c)+(\rho/2)||Ax+Bz-c||_2^2 $

迭代方式:

  • $ x^{k+1} = argmin_x L_p (x,z^k,\lambda^k) $
  • $ z^{k+1} = argmin_z L_p (x^{k+1},z,\lambda^k) $
  • $\lambda^{k+1} = \lambda^k + \rho(Ax^{k+1}+Bz^{k+1}-c) $
    $\rho >0$,停止准则:对偶残差小于某个极小值$\epsilon$
    收敛速度:对于一个高的精度要求收敛多次,但可以融合其他算法快速产生高精度
    对于凸优化问题,KKT条件是对偶问题有相同解的保证。非凸的问题会存在Dual Gap.

CDM_Review

发表于 2017-03-29   |   分类于 Tech   |  

今天来总结一下Color Demosaicking(CDM)里面的重要论文和方法。希望能囊括AP, AHD, SA, LDI-NAT, DLMMSE, LSSC, GBTF, RI等方法

比较旧的:AP, AHD, SA等

AP给出两个图像规律统计假设:1.自然图像在R,G,B通道间有较大的相关性(inter-color correlations) 2.G通道的采样率比R,B高一倍。则G通道的细节信息更丰富。它的方法包括两步:1.用了高低通滤波,然后构建inter-color恢复像素的公式 2.将结果投影到observed和label constrants sets上,进行fine-tune.(这些后来都有更好的方法)
Comment: AP这个方法效果已经不佳,但是它统计出来的inter-color correlation很重要

SA让G和RB通道的像素估计进行一个交替循环地求解,类似于近似逼近的思想。迭代式求解涉及三个问题:1.从何开始(初始化方法) 2.该算法收敛吗(论文用AP的constrains set论证) 3.什么时候结束(更新不再提高,或到一个较少值)

Comment: SA这个方法主要说明了一个Iterative求解CDM问题的可行性,但iterative问题需要说明清楚上述的三个问题。

AHD这篇文章2005年提出了homogeneity概念,有效结合梯度较小的变化方向进行有效的像素估计,最后结合adaptive中值滤波的方法去除一下artifacts。效果比之前好,而且还快。

接下来说一下速度比较慢,效果比较好的:DLMMSE, LDI-NAT, LSSC, Dict Learning

DLMMSE: 基于G和R/B通道的primal difference signals是low pass的,提出了基于directional minimum mean square-error estimation的方法,这里用到了horizon和vertical两个方向。先恢复G通道,然后用G恢复R/B通道。
论文首先给出统计表,说明GR和GB的相关性比RB的强,所以用G-R和G-B作为通道相关性的信号,然后估计真实值与观察值的误差。为了方便求解,而且假设两个信号demosaick noise是i.i.d gaussian,则LMMSE的公式可以简化为 其中x是观察值,mu_x是x的均值,sigma为方差,y为估计值。

LDI-NAT的方法在之前的博文说过,这里总结一下,相比DLMMSE,LDI-NAT用LDI做一个初始化方法,然后结合non-local similarity的方法,构建矩阵进行SVD去噪,从而达到去马赛克噪声的效果。具体数学部分挺多的,请看原文或者之前博文。

LSSC是09年提出的nonlocal+dictionary learning的美妙融合,成为了领域的milestone,当时做image restoration是效果最好的。先学字典,然后稀疏编码求解。这个字典的学习是精髓,不同于BM3D直接使用小波字典,这里作者用了L1,2 norm来使得同样的信号尽量获得同样的编码,用group sparsity从而使得字典更紧凑。

Regularization-based: 由于CDM是一个ill-posed problem,所以一般人们习惯于加入正则项来约束退化模型,从而得到原始的估计信号,这就使得正则项对于整个问题的重要性不言而喻了。这里说一篇《cdm using inter-channel correlation and nonlocal self-similarity》的TIP文章,作者提出了两个重要的term来做CDM restoration问题。首先是TV-term和inter-color channel的结合,在difference map上做tv效果会比单独TV更佳。 然后是nonlocal matrix的low rank constraint,由于高频纹理复杂以及噪声影响,这个nonlocal matrix可能不是低秩的,这里用一个低秩矩阵加上Outliers矩阵来近似,意思是总能来nonlocal matrix附近找到一个低秩矩阵满足低秩,从而将假设放宽了一点。最后优化这两个正则项。(当然这是基于MLRI的初始化之后再做的demosaicking denoise),接下来都是凸优化的数学问题求解了。
最后的优化问题

最后是又快又好的插值方法:GBTF, RI-based, CNN-based

GBTF的论文可以理解为更细致的adaptive插值方法,先做一个LCC1的初始化,然后类似Total Variance的方法,构建一个difference map.在这个difference map上面做四个方法的加权插值,最后将这个estimate difference加回初始化图像,得到最终结果。特别地,对于R,B通道,提出用Laplacian filter加权拟合效果更佳。(这也是后来MLRI的思想)

RI-based methods:
RI流程
RI是最近比较热门的方法,传统流程是在估计G通道之后,用R-G的difference做R图的恢复估计。现在RI是不直接在R-G difference map上面做,而是让G做引导图像,R做被滤波图像,得到tentative R,我们用tentative R - R 的difference(residual map)做插值恢复。最后作者用residual map和difference map对比一下,说明了residual map的像素梯度变化更缓和,有利于梯度插值,减少了插值误差,所以work.

之后延伸了MLRI:bilinear interpolation perform better for minimum laplacian energies. 在G和R通道上分别做sparse laplacian filter的卷积操作,其余跟RI一样。我的理解是,做完这个laplacian filter之后,residual image变得更加smooth,所以效果又提升了。

IRI: 将Iterative和RI结合,交替做G和R/B的恢复
ARI: 将MLRI和IRI加权融合,因为有时候MLRI处理不佳,有时候IRI对对于强相关区域处理不佳,所以ADAPTIVELY结合两者,再做加权平均。

Deep JDD: 将CDM和DNS一起做,它的网络没有用初始化方法,而是rearrange CFA,加入一个噪声参数层,end-to-end train,用了大量的数据,并且用目前的criterion来提取Hard-case建立了复杂库,并用这些库对网络进行fine-tune。最后得到较佳的JDD结果。
个人理解:由于没有初始化方法,所以需要大量的数据来学习CDM的初始化,网络需要学习的内容复杂(针对自己的实验,如果没有初始化效果会十分不佳),专注于hard-case的CDM可能会导致平滑区域的CDM效果不佳,其实不太有必要(我没有hard case效果还是不错,这也是它的网络在Kodak上面表现不佳的原因). 其实用CNN做JDD是十分好用的,但目前还存在的问题大概是:1.在处理CDM和DNS的流程上应该如何较佳(张老师认为DNS->CDM会更好,而目前CFA DNS效果不佳,导致其后的CDM也不太好) 2.如何将CNN-JDD做得更快更好,拟合真实噪声的分布

CNN-based的CDM,暂时我自己的网络用20层,64的kernel就已经把CDM效果做爆了,甚至比JDD要好。初始化方法是很有必要的,sequence end-to-end效果已经很好了,但这里面G channel细节信息更多error小,R/B channel细节信息较少,所以error大;如何用G CHANNEL来GUIDANCE成为问题。

雅思笔记总结

发表于 2017-03-27   |   分类于 Life   |  

还有1小时上Ethics,无聊之际将旧有的笔记本总结一下,然后‘清理’吧

阅读真经

阅读先看题,定位快寻觅
两种题后做,优先细节选
同义多替换,单词有灵犀
填词有规律,前后找痕迹
并列需查重,生词不用疑
难度为中等,变幻四种体
填表填图题,一见笑眯眯
顺藤能摸瓜,按图可索骥
答案常集中,原始送分题
段落选标题,连锁不简单
段中找亮点,中心藏后边
判断实不难,真假未提及
末题少驳斥,首题少NG
我有七种意,天下剑桥题
多选找并列,单选是True题
如遇选标题,末段加大意
匹配乱序多,定位找同义
段落含信息,小心有NB
莫夸境界高,无招胜有招
三剑已合璧,笑看雅思谜
阅读全文 »

关于学习方法

发表于 2017-03-16   |   分类于 Life   |  

从WikiHow上面看到的生活经验,其实wikiHow上面的内容和方法论都很好,只是知易行难。

如何成为学霸

保持良好的学习状态

  • 无论大脑还是身体,都需要保持最高效的状态
  • 充足的睡眠休息,外加适量的运动,最好是早睡早起
  • 健康的饮食规律,少吃多油多脂高糖的垃圾食品,多吃健身餐
  • 多喝水,保持充分的水分才能使得大脑良好地工作

找到适合自己的学习方法

  • 视觉学习者:通过图表、想象来帮助记忆
  • 听觉学习者:轻音乐帮助记忆,多听课,通过语音学习
  • 运动学习者:喜欢边学习边做动作,走来走去的,可以尝试橡皮泥

认真听讲

  • 让自己在前排听讲
  • 积极认真回答问题
  • 遇到问题与感兴趣的点举手提问
  • 学习记笔记(后面详述)

提前认真完成作业

  • 遇到难题与同学讨论
  • 可以求助老师与助教
  • 寻找安静专注的学习环境(图书馆,书房等)

通过其它方式补充课堂的学习内容

  • 兴趣是最好的老师,跟随自己的兴趣
  • 阅读相关的兴趣读物
  • 寻找该知识的实用性场景,学以致用
  • 例如在学习英语,可以通过影片纪录片来加强锻炼
  • 放假期间,适当地进行知识回顾总结,以及预习下一阶段的课程
  • 在备考时,提早开始复习(难度越大,复习越早)

学会做人

  • 懂得在别人做得好的时候,鼓励表扬他人,不要刻薄取笑
  • 助人为乐,帮助他人解决问题,分享知识,分享学习笔记
  • 尊重他人,多聆听别人的观点,学会理解
  • 保持冷静,坚持自我
  • 培养幽默感,保持学习的热情和积极乐观态度
  • 做自己,做真正让自己开心充实的事情,与人分享热爱的事情,与能让你成长的人交朋友,不要过分在意他人对你的看法

关于记笔记

1.按学科特点,课程形式来记笔记,如讲座要求又快又好
2.记住自己的目标,留意你重视的信息,快速接受。如果是写作论文,需要关注论文的大纲,写下主旨性和关键性的想法
3.笔记方便思考记忆,加深了解信息,结构化思考知识
4.听讲为重,转述要点,学会概述
5.记下概念和术语,与正文分开
6.学会简写

关于读书笔记

  • 为术语下定义,可以记录页码,帮助回到文中理解
  • 列出重要概念,帮助简化复杂的内容
  • 为纲要天上内容,写下学习目的的摄像,看到相关信息并记下页码
  • 标上不同的颜色,帮助突出重点,组织笔记结构

matconvnet使用教学

发表于 2017-03-08   |   分类于 Tech   |  

研究生期间,一直都在使用MatConvNet这个框架,感觉需要来个小总结以及小教学。

阅读全文 »

deep_compress ICLR2016 BEST PAPER

发表于 2017-03-08   |   分类于 Tech   |  

最近中了ICME2017的会议,抽空扫了一下有趣的论文。这篇是ICLR2016的best paper,作者是standford的song han。看了在微软的讲座,主要讲了Deep compress和Dense Sparse Dense training,最后是efficient inference engine的设计。

Deep Compress

摘要:该文章的压缩思路很清晰也简单,实验做得很充分。主要用了三个技巧:1.weights pruning,对网络的系数进行thresholding的截断,导致接近0的系数为0,从而增加网络的稀疏性,减少网络的连接和系数。(reduce ~10X) 2.Quantization,用更少的bits(32bits to 5bits)来表示系数,这里面用到了聚类方法来建立code book的技巧。 3.对code book进行哈夫曼编码,进一步压缩存储空间。
VGG从5MB 到11.3MB。

整个pipeline

Three stage compression
关于weights pruning:这是网络压缩的常用技巧,对于原始网络首先正常训练得到最终weights,然后将少于某个阈值的weights从网络移除,最后再retrain稀疏网络的参数

阅读全文 »
123…8
CsrjTan

CsrjTan

blog csrjtan tanrunj

78 日志
3 分类
30 标签
RSS
Links
  • arXiv
© 2015 - 2017 CsrjTan
由 Hexo 强力驱动
主题 - NexT.Muse