新年好,新年愿工程进展,论文有望。加油!
马里兰(MaryLand)大学的Larry Davis访问
受到张老师的邀请,过来进行group-talk,讲解一下最近CV的进展,他们最近的GCNN(Grid)的工作,以及基于common sense knowledge进行modeling解决一些视频识别的问题,包括one-on-one basketball game和survillence of car parking.
首先,GCNN是使用multi grid windows的思想,通过RCNN进行迭代的逼近学习,也是用于物体的识别。然后基于一些基本common sense建模,对于传统的activity recognition有一定的解释。讲述最近deep learning, cloud computing, GPU acceleration, Machine Learning等一些方法的推进都在有利于CV的进步,然CV离肉眼视觉识别依然有很大的距离。 最近的科研方向可以有Arichitecture Optimization,Mathematical Optimization and so on。明天将会继续介绍一下以往以及未来cv的相关工作。
林老师的IJCV2015论文《A Deep Structured Model with Radius-Margin Bound for 3D Human Activity Recognition》
摘要:用CNN来做活动识别,1.加入隐临时变量来分解activity成sub activity,自动学习子活动 2.结合radius-margin bound的方法作为约束项。
训练模型的过程不断迭代三部曲:
- 发现优化的隐变量
- 通过生成的特征,更新分类器
- 更新网络的参数
Introduction of human activity classification
主要两个问题:a.the complexity of representing high-level activities
b.the ambiguity in temporal segmentation of sub-activities which constitute an activity
Related Work
起初关注于设计健壮和可描述性的features
然后关注表达活动间的变化部分以及上下文的关系
最近And-Or图关系表达可借助大数据变量进一步表达
这里的方法是用deep neutral network to learning human action recognition from 3D videos.
Our work
Spatio-temporal CNNs
Latent Temporal Structure:
Deep Model with Relaxed Radius-Margin Bound:
The Radius-Margin Bound是受到radius-margin SVM的启发,用于增强模型的泛化能力,变成每次迭代的loss function加入了Radius-Margin Ratio $ \frac{1}{2}||w||^2R_\phi^2$,进行non-convex optimization.可以利用网络的softmax层进行部分参数的调解学习。
Implementation
详细工作的实现:
Architecture of Deep Neural Networks
Dropout trick
Learning Algorithm
Datasets and Empirical Analysis, Experimental Results
Conclusion
贡献点:
1.A deep and latent-structured model
2.引入了raius-margin的正则项
3.有效迭代的优化子活动分解以及基于边缘学习的分类器
缺点:
1.scalability of model inference
2.引入更多的计算量,当活动的类别多了会变慢
未来的工作:
1.将模型泛化成compositinal grammar rules: e.g. And-Or grammars
2.修改模型以适应2D的视频