【論文紹介】How Much Can A Retailer Sell? Sales Forecasting on Tmall (PAKDD2019) - 2月 29, 2020 こんにちは、ぐぐりら(@guglilac)です。 久しぶりの投稿です。 論文紹介記事です。よろしくお願いします。 ## 3行まとめ Tmallのretailerごとの売上予測タスクに対し、sales seasonalityとTweedie distributionに着目することで、特徴量の作成方法とlossの提案を行った。NNとGBDTに適用することで有効性を確認した。 ## 論文情報 * [[2002.11940] How Much Can A Retailer Sell? Sales Forecasting on Tmall](https://arxiv.org/abs/2002.11940) アリババグループの金融関連会社「Ant Financial Services Group」から出た論文 pakdd'19 ## 観察 売上を分析してみると、二つの観察ができる。 * 季節性の性質がありそう * 対数を取るとtweedie分布に従いそう(saleそのままだとばらけすぎる。すごいretailerは売上すごくてlossを支配してしまう) この観察を生かして二つメカニズムを提案し、NNとGBDTに適用したという研究。 ## sales seasonality GMV (流通取引総額, Gross Merchandise Valueの略)を分析。 今回は、扱う商品のカテゴリごとにretailerをグループに分けてグループごとにGMVを分析している。 分析では、 * ‘Women’s Wearing’ * ‘Men’s Wearing’ * ‘Snack’ * ‘Meat’ の四種類のグループごとにGMVを出している。 上二つのグループは衣類で傾向が似ていて、他は似ていないなど、カテゴリごとに異なる傾向があるとしている。 これに着目し、本研究ではseasonalな特徴を抽出する手法を提案している。 まず、似ているretailerにクラスタリングする。 groupに分けるのは、時系列に対するクラスタリングの古典的な手法(sciencedirect.com/science/article/abs/pii/S0031320305001305)を使用している。 分けた後、グループごとに売上ついて離散フーリエ変換を用いて特徴を抽出する。 実際には売上そのものと、売上の差についてseasonalな性質を抽出すると書いてあった。 抽出した特徴量を既存の特徴量と合わせて入力する。モデルには基本的には依存しない。 ## Tweedie distribution 売上の対数を取るとTweedie distributionに従いそうという観察がある。 普通に売上をヒストグラムにするととてもばらけていて、これを二乗誤差などで扱おうとすると売上が大きなretailerに引っ張られてしまう。 この分布にfitするため、Tweedie distributionを持ち出している。 複合ポアソンガンマ分布はTweedie distributionの特殊形らしい。 * openしているretailersの数がポアソン分布に従い * 各retailerの売上はガンマ分布に従っていると考えると、 retailer全体の売上は複合ポアソンガンマ分布にしたがう。 Tweedie分布を仮定して導けるtweedie lossについて最適化することで、実際の売上 (のlogとったやつ)にfitしたモデルになるはず!という主張。実験ではtweedie lossと二乗誤差の二種類の損失関数を用いて比較している。 ## 実験 売上が一定以下の比較的小さなretailerの売上を予測する。 大きなretailerは売上が安定していて予測する意味があまりないからだそう。 ### 指標 MAEやRSMEだと売上が大きいretailerの影響が大きくなってしまうが、本当は小さいretailerも同じくらい当ててほしいので、新しい指標relative precisionを提案している。 $y_i$が教師データで、$\hat y_i$が予測した売上の値。 RP@pは大きい方が良い。 pが大きいほどRP@pも大きくなる。 ### 手法 NNとGBDTを使用 Sがseasonal feature Tがtweeedie loss を表す ### 結果 * seasonal featureもtweeedie lossも入れた方が良い結果 * tweedie lossのhyperparameterの調整をしている実験(特になにか主張している図ではなさそうだが) ## おわりに あまり売上予測の研究は読んだことがなかったので、新鮮でした。 関連する研究も読んでみたいと思います。 この記事をシェアする Twitter Facebook Google+ B!はてブ Pocket Feedly コメント
コメント
コメントを投稿