数图期末Project

<h2 id="rmpe-regional-multi-person-pose-estimation">RMPE: Regional Multi-person Pose Estimation</h2>

<ul>
  <li>index: <a href="https://www.mvig.org/research/alphapose.html">https://www.mvig.org/research/alphapose.html</a></li>
  <li>paper: <a href="https://arxiv.org/abs/1612.00137">https://arxiv.org/abs/1612.00137</a></li>
  <li>code: <a href="https://github.com/MVIG-SJTU/AlphaPose">https://github.com/MVIG-SJTU/AlphaPose</a></li>
</ul>

<ul>
  <li>这篇论文来自 ICCV2017</li>
  <li>上海交通大学多人姿态估计论文</li>
  <li>现已升级为 AlphaPose，效果拔群。</li>
</ul>

<h2 id="论文讲什么有什么好的地方">论文讲什么，有什么好的地方</h2>

<ul>
  <li>复杂环境中的多人姿态检测是非常具有挑战性的。</li>
  <li>现在最好的人体检测算法虽然已经得到了很好的效果，但是依然存在一些错误，这些错误会导致单人检测任务（SPPE）失败（尤其是那些十分依赖人体框检测结果的）。</li>
  <li>多人姿态估计（Muti-Person Pose estimation）一般有两种方式：two-step（Top-Down，自顶向下） framework 和 part-based framework。</li>
</ul>

<ul>
  <li>这篇上海交大卢策吾教授项目组的论文，基于自顶向下的检测技术，使用 Faster-RCNN 等算法进行目标检测（与之对应的有 CPM 等）。</li>
  <li>先进行行人检测，得到边界框，然后在每一个边界框中检测人体关键点，连接成一个人形，缺点就是受检测框的影响太大，漏检，误检，IOU 大小等都会对结果有影响。</li>
  <li>论文的 Motivation 就是解决定位误差和定位框冗余检测这两个问题。</li>
</ul>

<p>这个算法是由三部分组成的：</p>

<ol>
  <li>Symmetric Spatial Transformer Network – SSTN 对称空间变换网络：在不准确的 bounding box 中提取单人区域</li>
  <li>Parametric Pose Non-Maximum-Suppression – NMS 参数化姿态非最大抑制：解决冗余</li>
  <li>Pose-Guided Proposals Generator – PGPG 姿态引导区域框生成器：增强训练数据</li>
</ol>

<p>该方法能够处理不准确的 bounding box（边界框）和冗余检测，在 MPII 数据集上达到 76.7mAP。</p>

<h2 id="跟课本哪些基础知识相关">跟课本哪些基础知识相关</h2>

<ul>
  <li>这篇论文先为图像中的每一个人体生成一个检测框，然后独立地去检测每一个人体区域的姿态（自顶向下的方法）。</li>
  <li>前一步使用目标检测算法，需要用到图像分割相关的知识。</li>
  <li>后者则使用了数学形态学方面的知识。</li>
</ul>

<ul>
  <li>期中的时候我们曾做过一个基于颜色空间的人脸检测项目，当时是使用了在颜色空间上进行阈值处理的方法。</li>
  <li>当然，要真正达到能够使用的效果，还需要一些其他手段的综合
    <ul>
      <li>对点、线和边缘的检测；</li>
      <li>门限处理、区域生长、区域分离和聚合；</li>
      <li>基于形态学分水岭的分割；</li>
      <li>差值图像（根据运动将对象从背景细节中提取出）</li>
      <li>等等。</li>
    </ul>
  </li>
</ul>

<ul>
  <li>当然，图像分割不是这篇论文的重点</li>
  <li>但论文提出的算法和改进都是在目标检测算法的输出上进行的</li>
  <li>这与图像分割的基础知识密不可分</li>
</ul>

<h3 id="形态学图像处理">形态学图像处理</h3>

<ul>
  <li>数学形态学，可用于从图像中提取表达和描绘区域形状的有用图像分量（如边界、骨架和凸壳等），还有用于预处理和后处理的有用工具（如形态学过滤、细化和修建等）。</li>
  <li>本学期，我们课程上先讨论了二值图像上的一些基本操作：腐蚀和膨胀、开运算和闭运算、骨架抽取、极限腐蚀、击中击不中变换、形态学梯度、Top-hat 变换。随后我们我们将这些操作扩展到了灰度图像上。</li>
</ul>

<ul>
  <li>这篇论文在进行多人姿态估计的时候需要提取生成人体的骨架，将关节结构用带有动力学先验的树状图模型来表达。</li>
  <li>将身体关节划分为多个部分，躯干、头、左臂上、下，右臂上、下 （如果考虑全身则还有左腿上、下，右腿上、下）。</li>
  <li>问题在于不能解决遮挡问题，并且冗余的区域框会产生冗余的姿态。</li>
  <li>即：两个 bounding box 框住同一个人，会检测两遍，形成两个骨架</li>
</ul>

<ul>
  <li>因此，提出了 RMPE（区域多人姿态检测）框架，提升 SPPE-based 性能。</li>
  <li>在 SPPE 结构上添加 SSTN，能够在不精准的区域框中提取到高质量的人体区域。并行的 SPPE 分支（SSTN）来优化自身网络。</li>
</ul>

<h2 id="从这个论文中学到什么以及心得">从这个论文中学到什么，以及心得</h2>

<ul>
  <li>人体行为检测与识别技术除了在智能监控系统中具有有广泛的应用前景和潜力，在计算机视觉中是一个极具有吸引力及挑战性的问题。</li>
  <li>它可以广泛应用于许多领域，如：运动捕捉、人机交互、监控和安全、体育及娱乐分析等，特别是在视频监控方面可广泛应用于银行、教育、交通、公安、监狱、法庭、大型公共设施等，在国防与公共安全领域起着日益重要的作用。</li>
</ul>

<ul>
  <li>通过这篇论文，我更理解了数学图像处理的基本思想及方法在生活中的各个方面都有很强的实用性，比如这篇论文中使用到的骨架抽取及图像分割等。</li>
  <li>我觉得，数字图像处理这门课上学到的东西在理论上是严谨的，在基本观念上却是简单和优美的，还有如此广泛的使用价值。</li>
  <li>期待这门学科的知识继续取得发展和进步。</li>
</ul>