Mangakiデータチャレンジ日本語
18 Jul 2017(also in English / en français)
Mangaki.frはユーザが (1)アニメ・マンガを評価し、(2)次に見るべきアニメ・マンガの推薦を受けるためのプラットフォームです。フランスの学生により運営され、コードはGitHubで公開されています。興味がある人なら、誰でもMangakiの機械学習アルゴリズムの改善に参加することができます。
このコンペティションでは、アニメ・マンガに対するユーザの評価の予測に取り組んでもらいます。データセットとして、実際のユーザによる評価結果が提供されます。外部データの利用は自由とします。また、どのようなプログラミング言語でも参加することができます。入賞者には、手法を宣伝する機会をこのウェブページにて提供します。
Mangakiでは、ユーザが「視聴後」と「視聴前」の二種類の評価を行います:
視聴後の評価には以下の4種類があります:
love
: とても気に入ったlike
: 気に入ったneutral
: どちらでもないdislike
: 気に入らなかった
視聴前の評価には以下の2種類があります:
willsee
: 見たい・読みたいwontsee
: 見たくない・読みたくない
train.csv
には以下の情報が含まれます:
user_id,work_id,rating 50,4041,0 508,1713,0 1780,7053,1 658,8853,0 1003,9401,0 ...
各行は以下の情報を表します:
user_id
: ユーザID(0から1982の間)work_id
: 作品ID(0から9896の間)rating
: 視聴前評価。1
はwillsee
、0
はwontsee
を表す。
例えば、1780,7053,1
は、「ユーザ#1780は 作品#7053を見ていないが、その
作品を見たい(読みたい)と思っている」ことを表します。
test.csv
には以下の情報が含まれます:
user_id,work_id 486,1086 1509,3296 617,1086 270,9648 459,3647 ...
各行は以下の情報を表します:
user_id
: ユーザID(0から1982の間)work_id
: 作品ID(0から9896の間)
テストデータ内のユーザID・作品IDについて、視聴前評価を予測して提出してください。具体的には、「willsee
と評価する確率」を予測し出力してください。提出ファイルの例がsubmission.csv
で示されています:
user_id,work_id,prob_willsee 486,1086,XXX 1509,3296,XXX 617,1086,XXX 270,9648,XXX 459,3647,XXX ...
XXX
に「willsee
と評価する確率」を記述してください。
watched.csv
には視聴後予測の情報が含まれています:
user_id,work_id,rating 717,8025,dislike 1106,1027,neutral 1970,3949,neutral 1685,9815,like 1703,3482,like ...
各行は以下の情報を表します:
user_id
: ユーザID(0から1982の間)work_id
: 作品ID(0から9896の間)rating
: 視聴後評価。love
,like
,neutral
,dislike
のいずれか。
例えば、717,8025,dislike
は、「ユーザ#717は作品#8025を見たが、その
作品を気に入らなかった」ことを表します。