Paper Readingはほぼ自分用の簡易的な論文まとめです
・論文基本情報
FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding
Dian Shao,Yue Zhao,Bo Dai,Dahua Lin
The Chinese University of Hong Kong
(CVPR) 2020, Oral Presentation
・どんな論文か
・粒度の細かい行動理解のためのデータセットを提案(体操競技)
・粒度に応じた動画分類手法の有効性の検証
・先行研究との差分(新規性)
・現行の行動認識は精度が高まっているが、動作の細かな違いまでを判別するにはいたっていない。(UCF101のようなホッケーと体操競技間の認識ならうまくいくが、体操競技の中の技の違いなどは難しい)

・粒度の細かい行動認識のためのデータセットは限定的。
・3段階の意味階層(Event・Set・Element)/アクションとサブアクションの2段階の時間的アノテーションがされている新たなデータセット(FineGym)を提案。特に粒度が細かくなれば、背景ではなく動きに着目する必要がある。


・木構造でのアノテーションルールを作成している。

・作成したデータセットについて既存の動画分類手法を適用し検証
- 疎なサンプリングの有効性?
- RGBとFLOWの貢献度は?
- 時系列の重要性は?
- 大規模データセットでの事前学習の有効性?
- 現行アプローチで何ができないか?
・手法概要
・粒度に応じてデータセットを用意。Event、Set、Elementはさらに3つに細分化。
1.全てのEventの中にあるElementを対象
-Gym99,Gym288
2.あるEventの中にあるElementのみを対象
-Gym99の中のVT(跳馬),FX(床)
3.あるSetの中にあるElementのみを対象
-FXG1(FXの中の1つのセット)
-UBG1(UBの中の1つのセット)
・3DCNN、2stream、poseなどの代表的な手法で有効性を検証
・結果
・既存のデータセットのような粒度のデータだと、5フレームくらいで認識可能で疎なサンプリングは効率的。粒度が細かくなると有効でなくなる。
・Temporal Segment Networkを用いた認識について、基本的にはデータセットの粒度が細かい認識になるにつれて、RGBよりもFLOWの方が寄与度が高くなる。Elementレベルになると精度はかなり下がる。

・跳馬では動きが早く、うまくFLOWが検出できていない。FLOWよりRGBのほうが寄与度が高い。姿勢もうまくとれていなかった。

・TemporalRelationNetworkにおいて、Test時に時系列性を保ったままとシャッフルした場合とで比較するとシャッフルすることで精度がかなり落ちる。⇢時系列性は重要

・I3Dにおいて、KineticsのPretrainedモデルを使用した場合とImageNetでのPretrainedモデルを比較すると、UCF101では大きな精度の改善が見られているが、FineGymでは多くの場合で精度が下がった。

・Localizationのタスクにおいては、Actionレベルのものと比べると、SubActionの方が難しく、精度が大きく下がる。

・議論
・今後は激しい動きを正確に認識することが求められる。
⇢RGBベース特徴量を用いたモデルでこのデータセットを用い認識精度が高められれば、そのモデルはより動きをとらえているモデルだということができる?
・その他
参考URL