【論文紹介】Robust Factorization machines for User Response Prediction(WWW2018)-ぐぐりらにっき

こんにちは、ぐぐりら(<a href="https://twitter.com/guglilac">@guglilac</a>)です。

WWW2018のRobust Factorization machines for User Response Predictionの紹介記事です。

とはいうものの、今回はあまり細かいところがわかっていないのでとりあえずメモ程度です。ごめんなさい。

## 概要
FMやFFM(field aware fm)にrobust optimization(RO)のテクニックを適用したRobust FM(FFM)の提案

## FMをrobustにする意味
たとえば同じユーザが複数のデバイス経由でアクセスしたり，クッキーが消去されたりといった理由で，ある 1 人のユーザに関するデータが複数のユーザに関するものであると解釈されてしまうような場面でも，上手くデータを扱って予測できる

## Robust Optimazation(RO)

最適化の時に動かす変数に誤差を与える。
誤差はgivenなunsertainty setから取り出す。

通常のloss関数に対して、まず誤差をuncertainty setのなかで動かしてlossを最大化する。
そのあと、固定した誤差のもとでモデルの重みを動かしてlossを最小化する。

worst caseを作ってそれを最適化するイメージ。

## Robust FM,FFM
単純に適用しただけ。
線形項の重みとembedding vectorに、unsertainty setの中でlossを最大化するような誤差を与えてやって、それを最小化する。

FMにも、FFM(Field-aware FM)にも適用可能である。

FFMについてはこちらに論文紹介記事を書きました。

## 実験

## dataset
* criteo ctr prediction
* Avazu ctr prediction
* criteo conversion logs

ドメインに依存しないで色々使えるよ、という実験のために
* credit flaud detection

も実験している。

## 評価
loglossを使用。
normalな(robustではない)modelからのlogの変化率をみていく

## 実装
spark使っている

## uncertainty setのハイパーパラメータの決め方

決め方がいまいちよくわからなかった
relative assingmentとかいうらしい

## 比較
gaussian noize とpoisson noizeをtestの入力に加えて比較.

noizeがない場合はrobustでない方がちょっと強いけど、noizeが入っている場合はrobustの方が断然強い。
ここでこの研究のよさを主張している。

## わからぬ

一つ目、epochが進むとlossが下がる！という図がわざわざ乗せられている。(それはそうなんじゃない？)

二つ目,learning rateは大きすぎても小さすぎてもだめ、という図が載せられている(それはそうなんじゃない？)

三つ目, 正則化係数の値にrobustFMがあまり敏感ではないことを示す図がよくわからない。図中のlinearってなんだ
(lambdaに関してrobustなのはありがたいけれど、それを納得感を持って聞けない)

四つめ、embed dimの大きさを変えてlossと学習時間のtrade offを示す図を、同じ図に入れている(縦軸の単位が二つあってあれ)

あとは、
calibrationがわからずなので調べるが、わからなかった

sparkでデータを分割するとこを細かく分割すると学習は早くなるけど性能が落ちるトレードオフがある、

などが書かれていた

## case study (fraud detection)

ドメインによらない手法ということを主張するための実験
これも、ノイズが乗っていないとオリジナルより弱いけどノイズがある場合はrobustの方が強いことが示されている。

## まとめ

手法についてはFMにrobust optimizationのテクニックを適用しただけなのでわかりやすかったですが、理解ができない部分もいくつかあってうーんという感じでした。

自分がわかっていないだけかもしれないですが。。。時間があれば読み直してみようと思います。

【論文紹介】Robust Factorization machines for User Response Prediction(WWW2018)