※こちらの記事の内容を把握した上でお読みください
さて、平昌オリンピックシーズンが終わり、大きなルール変更もある中で始まった2018ー19シーズン。
あっという間にグランプリシリーズもファイナル目前!というとこまで来てしまいました。
そんなシーズン真っ只中、いつもいつも決まって話題になるのは
現行ルールのフィギュアスケートを見ているとこの疑問は一生拭えそうにありません。。
この話題に一石投じるべく、今回はフィギュアスケートの採点をAIにやらせるとどうなるの?というテーマで記事を書いていきます。
目次
体操協会が取り組むAI採点システム
話は打って変わって、同じ採点競技である体操競技では国際連盟と富士通社がタッグを組み、AIを用いての採点アシストシステムの開発を進めています。
2020年の実用化に向けて現在開発が進んでいますが、11月20日に記者会見が行われたため再度話題になりました。
さて、ここで矢面に立つのがフィギュアスケートの宿命なのです。(笑)
TwitterにもフィギュアスケートでもAI採点導入しましょう!という声がわんさかです。
あん馬も平均台もAI採点 富士通と体操連盟が開発: 日本経済新聞 https://t.co/9eUiCm1KCh
フィギュアスケートも早くAI導入したらいいと思う。回転不足やエッジエラーを公平に判断できそう!— まる (@maru_ko_me) 2018年11月20日
フィギュアスケートにも導入してほしいね。
採点支援システムを導入へ=富士通が開発-国際体操連盟:時事ドットコム https://t.co/nr8ks0j5o4 @jijicomから
— D.K (@dk_continuation) 2018年11月20日
とまぁこんな感じ!
僕もフィギュアスケートでAI採点ずっとやりたいなぁと思って、研究室で細々と取り組んでいるのですが、世の中には同じことを考える人もいるもので、フィギュアスケートのスコアをAIに予測させることを試みた論文があるのです!
今回はその論文を紹介していきます!
想定読者
- フィギュアスケートファンの方々
- スポーツの自動採点の研究に興味のある方
※コンピュータビジョンが専門ではない方に向けた記事ですので、詳しい技術部分や実装方法などについては書きません。
※フィギュアスケートの採点方式と教師あり学習、相関関係などについて知識があるとより理解が深まると思います。なるべくわかりやすく書くよう努めますが、わからないと感じたら読むのをやめず、すっ飛ばしてください!
Learning to score the figure skating sports video(2018)
この論文は2018年2月に中国のFudan Universityの方が書いたもので*arXivに投稿されています。その後2回改定されており、6月のものが現状最新版となっています。
*arXivについて
arXivは時間のかかる査読プロセス(平均して数ヶ月、長いと一年以上かかる)を避けて、素早い情報交換を行なうことを目的として設置されている。そのため、基本的に登録された論文の内容を精査してから公開・非公開を決める、という作業はしていない。とはいえ完全にフリーパスだという事ではない。あまりにひどい論文は削除されたり、登録分野から移動させられたりする。ーwikipediaから引用ー
さて、この論文は、一般的に放映されているフィギュアスケートのショートプログラムの演技動画(約2分50秒、4400フレーム)を入力とし、それに紐づく技術点(TES)と演技構成点(PCS)をAIに学習させます。
その後、学習したAIの中に新たに演技動画を入力し、TES、PCSそれぞれの点数の予測点数を算出します。最後に、実際の点数と予測点数の誤差がどのようになっているかを検証していくものです。
つまり、、、
-
この演技は何点だったよ〜!というのをたくさんAIに覚えさせます。
-
まだ覚えていない演技を見せて、この演技は何点かな〜?と問題を出しAIが予測します。
-
AIが予測した点と実際の点数を比較して、このAIの出来を調べるわけです!!
ちなみにフィギュアスケートの点数予測の難しさとしては以下の点が挙げられており、このような動きの質の評価は、単純な行動認識のタスクよりも難しいとされています。
- 演技時間が2分50秒と長いこと
- 一般的な行動認識のタスクは誰でもラベル付が可能だが、フィギュアスケートの採点はプロのジャッジしか採点できないこと
- 演技動画のすべてのフレームが同じように最終得点に寄与するわけではないこと
※論文著者が提案する、具体的にどのように学習させるか(ネットワークの構造など)の手法の解説はここでは割愛します。
学習に用いたデータセット
学習させる元となるのがこのデータセット。
フィギュアスケートの自動採点に関しての研究は少なく、現状公になっているデータセットは一つで、そのクオリティも高くないため、今回はこの論文の著者たちが自前で作っています。
ただしこの論文の著者は、今回用いたデータセットを公にしていないため、我々が詳しい中身をすべて知ることはできません。(実際にメール送ってみたけどまだ公にできないとのことでした、、、残念!)
論文によると、2012年〜2017年までのISU主催の大会(チャンピオンシップ、グランプリシリーズ、冬季オリンピックなど)の試合の女子シングルショートプログラムのみを対象にし、149選手、計500の演技動画を使用しているそうです。
このうち400の動画を学習に使い、100の動画をテストデータとして誤差の検証に使用しています。
予測の結果は、、、?
この論文では評価の指標(=このAIがちゃんと予測できているかどうかを調べる方法)としてスピアマンの順位相関係数と平均二乗誤差の2つを用いています。
スピアマンの順位相関係数
ざっくりと説明すると、例えばA・B・C3選手のTESの予測値と実測値が以下のようになっていたとします。
TES | 実測値 | 予測値 |
A選手 | 30 | 31 |
B選手 | 20 | 24 |
C選手 | 10 | 12 |
これを全体の順位(点数が高いほうが上位)にそれぞれ置き換えます。
TES | 実測値 | 順位 | 予測値 | 順位 |
A選手 | 30 | 1 | 31 | 1 |
B選手 | 20 | 2 | 24 | 2 |
C選手 | 10 | 3 | 12 | 3 |
実測値から求められた順位と予測値から求められた順位の相関係数を算出することで、実測値と予測値との間の関係性を見ます。
相関係数は−1から1までの値を取り、一方が増えると同じようにもう一方も増える場合を正の相関といい、値が1に近づきます。
一方の値が増えると、もう一方の値が減ってしまうことを負の相関といい、値がー1に近づきます。
今回の場合は実測値と予測値の間で同じような関係性を持っている(実測値で上の選手は予測値でも上の順位に来てほしい)ことが望ましいのでこの相関係数が1に近づくほど、性能が良いAIだということができます。
てことで結果がこちら。

情報量が多いですが、赤い枠が筆者らが提案した手法(本記事では中身は割愛)で、もっとも精度が高い部分。ここにだけ注目していただければ問題ないです。
TESの場合は実測値と予測値の順位の相関係数が0.67、PCSでは0.78というのが今回の結果です。
一般的に相関係数は0.7以上で強い相関、0.4〜0.7で相関があると言えるとされていますので、特にPCSの場合は実測値と予測値の順位の間で強い相関があることがわかりますね。
ただ相関が強いといってもTESを中心に誤差は少なくなさそうですね。。。
少なくともこの論文に書かれているやり方で、実現場に応用するとなると、機械に選手の演技の順位を正しく当てさせることは難しそうです。。。
平均二乗誤差
次は平均二乗誤差。こちらは非常にシンプルで、予測値と実測値との数値のズレの二乗を計算し足し合わせ、平均を取ったものになります。
同じく上で使った例で計算してみます。
TES | 実測値 | 予測値 |
A選手 | 30 | 31 |
B選手 | 20 | 24 |
C選手 | 10 | 12 |
上記の場合だと、
A選手:30<実測値>ー31<予測値> = ー1
B選手:20<実測値>ー24<予測値> = ー4
C選手:10<実測値>ー12<予測値> = ー2
各数値を二乗した上で足し合わせると
1+16+4=21
上は3選手の合計を出しているので、平均にすると7となります。
論文の結果がこちら。

TESの場合は100個の演技を予測しての二乗平均誤差が19.26、PCSの場合は8.35という結果だそうです。
単純には言えませんが、二乗する前の誤差だとTESでおおよそ4点〜5点、PCSは2点〜3点の予測誤差が生まれるようですね。総合点で平均6点〜8点くらいは予測の誤差が出てしまいそうです。
(女子のショートが対象と考えるとこちらも誤差はちょっと大きそうですね。。。)
また、一つ一つの技に点数がつくTESに比べてPCSのほうが誤差は小さいのはなんとなく感覚と合う気がしています。
まとめ
AIにフィギュアスケートを採点させるとどうなる!?という話題でしたが、いかがだったでしょうか?
今回紹介した論文は、体操の例のように連盟と密な協力をしての研究ではなく、あくまでも放映映像を使用してのものですし、そもそも問題設定もそんなに容易なものでは無いので、実応用に即したレベルの精度を求めるのは現段階では難しい印象を受けました。
まだまだ勉強中の身ですが、この論文を一つの参考に、僕自身も所属の研究室でフィギュアスケートの得点予測に関しての研究をしています。早く対外的な発表ができるようにがんばります!
※ご指摘は真摯に受け止めますので、ご意見等ございましたらそっと教えてください
理数系の知識は全くない只の一般人ですが、
AIの採点には興味があるのでコメントさせてください。
なぜAI採点に興味があるのかといえば、
よく見ているフィギュアスケートで、私も不思議に思う採点が何度かあったからです。
私はAI採点とは、ジャンプやスピンが「●回と回った」「80度足りなかった」などが、単純明快に表示されるものだと想像しておりました。
なので、基準の動きを覚えさせて数値を出すというやり方があることに目から鱗でした。
特にPCSまでAIで採点しようとされていることに驚きです!凄いです!
私からすれば、TESよりPCSの方が「感覚」の部分があることにより、数値を正確に出すのは困難だろうと感じていたのですが……誤差が少ないのが不思議でした。
AIで採点といっても色々なやり方があるのですね。
TESとPCSの両方が数値化できるということは
その技術が完成したら、競技の完全AI採点(人間は直接関与しない)が可能ということですよね
そういう未来が訪れたら…スポーツと芸術を併せ持つフィギュアスケートは、少しスポーツよりになってしまうような気もします。
それが悪いということではありません。ショーと競技の差別化のきっかけになるかもしれませんし。
多くのフィギュアスケートファンが芸術だと思っている部分をAIはどのようにみるのか、
選手各々の独創性はどのように評価されるのか、今後のAIの成長に私も興味が湧いてきました。
あと、現状のジャッジの判断が基準になるのは納得できるのですが、
その研究者さんは、ジャッジの採点と誤差がないことを目標とされているのですね。
素人目線で考えれば「人が行うジャッジより、AIでは正確な数値が出るようになっている」という考え方でも良いような気もするのです。
現段階の試行錯誤されている様々なAI採点では、どれも人間のジャッジとの誤差を無くす方向性が多いのでしょうか。
私は、もしもAI採点が実現化したら、
今までの選手の順位がひっくり返るようなことも起こりうるのかも…と妄想しておりましたが、今回の記事を読んで、そんな漫画チックなことにはならないようだと、少し残念なような……でも安心したような……複雑だけれどもサッパリした気分になりました(笑)
素人のとんちんかんな話しを長々と申し訳ありませんでした。
この記事を読ませて頂いて、ますますAI採点が実現化する未来が待ち遠しいです!
研究応援しております。