林老师IJCV2015的工作

新年好,新年愿工程进展,论文有望。加油!

马里兰(MaryLand)大学的Larry Davis访问

受到张老师的邀请,过来进行group-talk,讲解一下最近CV的进展,他们最近的GCNN(Grid)的工作,以及基于common sense knowledge进行modeling解决一些视频识别的问题,包括one-on-one basketball game和survillence of car parking.

首先,GCNN是使用multi grid windows的思想,通过RCNN进行迭代的逼近学习,也是用于物体的识别。然后基于一些基本common sense建模,对于传统的activity recognition有一定的解释。讲述最近deep learning, cloud computing, GPU acceleration, Machine Learning等一些方法的推进都在有利于CV的进步,然CV离肉眼视觉识别依然有很大的距离。 最近的科研方向可以有Arichitecture Optimization,Mathematical Optimization and so on。明天将会继续介绍一下以往以及未来cv的相关工作。

林老师的IJCV2015论文《A Deep Structured Model with Radius-Margin Bound for 3D Human Activity Recognition》

摘要:用CNN来做活动识别,1.加入隐临时变量来分解activity成sub activity,自动学习子活动 2.结合radius-margin bound的方法作为约束项。
训练模型的过程不断迭代三部曲:

- 发现优化的隐变量
- 通过生成的特征,更新分类器
- 更新网络的参数

Introduction of human activity classification

主要两个问题:a.the complexity of representing high-level activities
b.the ambiguity in temporal segmentation of sub-activities which constitute an activity

起初关注于设计健壮和可描述性的features
然后关注表达活动间的变化部分以及上下文的关系
最近And-Or图关系表达可借助大数据变量进一步表达
这里的方法是用deep neutral network to learning human action recognition from 3D videos.

Our work

Spatio-temporal CNNs
Latent Temporal Structure:

Deep Model with Relaxed Radius-Margin Bound:

The Radius-Margin Bound是受到radius-margin SVM的启发,用于增强模型的泛化能力,变成每次迭代的loss function加入了Radius-Margin Ratio $ \frac{1}{2}||w||^2R_\phi^2$,进行non-convex optimization.可以利用网络的softmax层进行部分参数的调解学习。

Implementation

详细工作的实现:
Architecture of Deep Neural Networks
Dropout trick
Learning Algorithm
Datasets and Empirical Analysis, Experimental Results

Conclusion

贡献点
1.A deep and latent-structured model
2.引入了raius-margin的正则项
3.有效迭代的优化子活动分解以及基于边缘学习的分类器
缺点
1.scalability of model inference
2.引入更多的计算量,当活动的类别多了会变慢
未来的工作
1.将模型泛化成compositinal grammar rules: e.g. And-Or grammars
2.修改模型以适应2D的视频

坚持分享,支持原创