riron1206 / kaggle_moa Goto Github PK

View Code? Open in Web Editor NEW

0.0 2.0 0.0 88.46 MB

Python 0.60% Shell 0.01% HTML 52.18% Jupyter Notebook 47.22%

kaggle_moa's Introduction

kaggle MoAコンペのコード

https://www.kaggle.com/c/lish-moa

コンペ概要

薬の作用機序(MoA)の応答を予測する
- MoA. mechanism of action: 薬物が生体に何らかの効果を及ぼす仕組み、メカニズム。特定の分子の生物学的活性。要はお薬が病気の原因に届くまでの流れのこと。
  - 例. ロピニロールという薬は、主に線条体のドパミンD2受容体を直接刺激し、ドパミンに働き抗パーキンソン病効果を示す
  - 参考: https://medical.kyowakirin.co.jp/neuro/hrp-tape/009.html
- 治験薬の活性値からその治験薬はなんの薬の効果を出すかを予測するモデルを作る
テーブルデータ
- 約5,000種類の薬を使った実験データ
  - 1行1実験
- 1つの薬について7行ある
  - 6通りの実験条件(cp_time列, cp_dose列の組み合わせ) + 薬投与なしの7行
- 薬の種類を識別する情報なし
  - KfoldでCV作ると同種の薬のデータが混じってリークする。薬の種類でGroupKFoldしたいができない
  - コンペ中に薬のidファイルが追加されMultilabelStratifiedGroupKFoldできるようになった
- 特徴量はヒトの遺伝子発現や細胞生存率の数値データ
- ※遺伝子発現（発現）. Gene expression：遺伝情報に基づいてタンパク質が合成されること（DNA→（転写）→RNA→（翻訳）→タンパク質のサイクルをセントラルドグマという）。また発現される量（発現量）のことを発現ということもある。
  - 列名が「g-」の特徴量(g-0からg-771の772列)がヒト遺伝子の発現値。1列1列がALKやPI3Kなど各遺伝子についての発現値のはず。
    - 発現値の種類は不明。-5-5の値なのでIC50ではなさそう
    - 「このデータは、100種類の細胞タイプのプール内の薬剤に対するヒト細胞の反応を同時に（同じサンプル内で）測定する新技術に基づいています」と書いてるからマイクロアレイとか次世代シーケンサーでとった値？
- ※細胞生存率. Cell viability: 生細胞数/全細胞数のパーセンテージ。
  - 参考: https://www.abcam.co.jp/protocols/counting-cells-using-a-haemocytometer
  - 列名が「c-」の特徴量(c-0からc-99の100列)が細胞生存率。1列1列が皮膚がんの細胞や肺がんの細胞など各細胞についてのパーセント値のはず。
    - -10-5の値をとるので、「測定した細胞生存率-100」で規格化した値と思う。値が3なら3%細胞死んでることになるので薬が効いてるってこと？値が-10なら10%細胞増えてるので薬が悪影響与えてる？
    - 細胞名いろいろあるみたい: http://www.jhsf.or.jp/bank/CellNameJ.html
  - 癌細胞らしい
    - https://www.kaggle.com/c/lish-moa/discussion/190693
- ラベルは206種の薬の作用機序(MoA)の応答（0/1）
  - 1列1クラス。クラス名が薬の名前。なので206クラスある
  - 薬は 5α還元酵素阻害剤、11-β-HSD1阻害剤など
  - 非常に不均衡（0のラベルが大半で1のラベルが非常に少ない）
マルチラベル分類問題
評価指標は各クラスのlog_lossの平均値
コンペ概要日本語訳:
- https://www.kaggle.com/furuhatakazuki/japanese-moa-introduction
- https://www.kaggle.com/takiyu/japanese-moa

最終submitはチームのアンサンブル（35位）

MultilabelStratifiedGroupKFold cvとLB高くかつアンサンブルするモデルが多いのと少ないのの2つを選択した
- private LB: 0.01608 : https://www.kaggle.com/yxohrxn/votingclassifier-predict-without-postprocessing?scriptVersionId=48221736
- private LB: 0.01611 : https://www.kaggle.com/yxohrxn/votingclassifier-predict?scriptVersionId=48129549
- 一番性能良かったのは別の方が作ったpretrain tabnet-pytorch
- 採用された自分のモデルは StackedTabNet, MLP-rs。private LB 悪い方のサブではStackedTabNet, moa-lightgbm, SVM が採用された
クラスごとのアンサンブル重み計算: https://www.kaggle.com/yxohrxn/votingclassifier-fit

自分が作ったモデル

Self-Stacking + 2クラス分類のXGBoost

cv: 0.01603, auc: 0.7559
※第1段階の予測値を第2段階の学習の追加特徴量とし、クラス間の関係性を学習させる。陽性ラベル(=1)が多いクラスを最初に学習してoof出し(第1段階目)、そのoofを特徴量に追加して残りの陽性ラベル少ないクラス学習
学習に9時間以上かかったのでローカルで実行した結果をDatasetsにuploadした: https://www.kaggle.com/anonamename/moaselfstackingxgboost
学習コード: https://www.kaggle.com/anonamename/moa-self-stacking-xgboost?scriptVersionId=47884299
予測コード: https://www.kaggle.com/anonamename/moa-self-stacking-xgboost-calibrate?scriptVersionId=47996842 のIn[20],In[21],In[22]

cuml + 2クラス分類のSVM

cv: 0.01625
※rapidsのSVMは1seed分しか保存できない。kaggleは出力ファイルを20GBまでしか保存できないため。5seed分作るためnotebook分けた
https://www.kaggle.com/anonamename/moa-rapids-svm-seed-y-pred
https://www.kaggle.com/anonamename/moa-rapids-svm-seed01
https://www.kaggle.com/anonamename/fork-of-moa-rapids-svm-seed23
https://www.kaggle.com/anonamename/fork-of-moa-rapids-svm-seed4

遺伝的アルゴリズム + cuml + KNN

cv: 0.01909（np.clip(oof,0.0005,0.999) + ctl行=0 にしたら cv: 0.01865）
※特徴量をスケーリングする重みを遺伝的アルゴリズムで計算し、cumlのKNNでマルチラベル分類する
https://www.kaggle.com/anonamename/moa-genetic-algorithm-cuml-knn

DummyClassifier + MultiOutputClassifier

cv: 0.02105
※DummyClassifierは特徴量を学習データに使わず、ラベルの確率分布を再現するルールベースのモデル。ランダムに出力してもこれくらいの精度になるらしい
https://www.kaggle.com/anonamename/moa-dummyclassifier-multioutputclassifier

MLP(層の数変えた5種類)

cv: 0.01718, LB: 0.01861
学習コード: https://www.kaggle.com/anonamename/moa-dnn-feature-engineering-20201023-re-cv
予測コード: https://www.kaggle.com/anonamename/submission-moa-dnn-moa-code-20201104-v2?scriptVersionId=46198226
パラメーターチューニングしたローカルでの実行結果: https://www.kaggle.com/anonamename/mlp-for-ensemble
- 5l : cv: 0.01611, auc: 0.64835
- 4l : cv: 0.01591, auc: 0.66564
- 3l_v2: cv: 0.01576, auc: 0.68225
- 2l : cv: 0.01572, auc: 0.67610
- rs(2 head resnet) : cv: 0.01588, auc: 0.67808

StackedTabNet

cv: , auc:
※TabNetは決定木(GBMT)をDNNで模倣したモデル。Encode(FC=>BN=>GLU(ゲート付き線形変換) + transformer。特徴量をEncodeしてtransformerに入れるのを繰り返す構造。RNNっぽい（時系列っぽく）何回もtransformerに入れる
https://www.kaggle.com/anonamename/moa-stackedtabnet-fit
パラメーターチューニングしたローカルでの実行結果: https://www.kaggle.com/anonamename/mlp-for-ensemble
- StackedTabNet: cv: 0.015597, auc: 0.68344
自分のハイスコアモデル
- ローカルでの実行notebook: https://github.com/riron1206/kaggle_MoA/blob/master/notebook/2000_MLP_for_ensemble/kaggle_upload/moa_MLPs_StackedTabNet_only.ipynb

GrowNet

cv: 0.01589
※1,2層程度の浅いMLPを弱モデルとしてブースティング。浅いMLPを1epoch学習→最終層の出力を特徴量列に追加→浅いMLPを1epoch学習→… を繰り返す
https://www.kaggle.com/anonamename/moa-grownet

作業ログ

Qiitaに投げた記事

https://qiita.com/anonamename/items/911174ac71cb4367f208

上位解法

1位の解法
- DeepInsight CNNのアンサンブルが決め手でLB伸した
- ScipyのSLSQP 使ってブレンド重み決めてるのは我々と同じ。Optuna 使ってもブレンド重み探索したらしい
- https://www.kaggle.com/c/lish-moa/discussion/200736
2位の解法
- 最初に全結合層を1つ入れることで入力フィーチャをそれ自体で意味のある順序に並べ替える（誤差逆伝播により意味のある並び替えになる）→1D-CNNのモデルを使ってる。この正しい並べ替え+1D-CNNを使うモデルはLB:0.001601でこのコンペで一番高精度なモデルになってる
- cp_time、cp_doseは除いた
- https://www.kaggle.com/c/lish-moa/discussion/202256
3位の解法
- データ増強してる。no_ctl_samples + ctl_sample1 - ctl_sample2 のレコードも加える。ctl_sample1, ctl_sample2 はコントロール行のデータからランダムに2件選ぶ
- https://www.kaggle.com/c/lish-moa/discussion/200540
4位の解法
- 4つモデルの予測値をCNNでスタッキングする方法をしていた。これはほかのコンペで使えそう
- https://www.kaggle.com/c/lish-moa/discussion/200808
5位の解法
- 既知の薬にはMultilabelStratifiedKFold, 未知の薬にはMultilabelStratifiedGroupKFold を使う
- L2 Softmax-> コサイン類似度で既知未知を分類したらしいがよくわからん
- https://www.kaggle.com/c/lish-moa/discussion/200533
- https://twitter.com/nejumi_dqx/status/1333563354468601856
7位の解法
- Early Stoppingを各クラス単位で行うことしてた。普通は全クラスの平均で打ち切るところを
- private test set含めたPCAしてる。つまり、submit時に学習+推論両方している。CVは悪化するが、Private LBは良くなってる
- https://www.kaggle.com/c/lish-moa/discussion/200808
8位の解法
- マルチラベルをマルチクラスに変換。一意なラベルの組み合わせが328通りしかないので
- マルチクラスは単独モデルとしては精度悪いがアンサンブルで非常に強力。他のモデルとは相関低いので
- https://www.kaggle.com/c/lish-moa/discussion/200992
14位の解法
- スタッキングモデルを含め、TabNetなどの6つのモデルすべてをブレンド
- テストセット用のnon scored targetsを作成するモデルを作成している（よくわからん）
- https://www.kaggle.com/c/lish-moa/discussion/200585
27位の解法
- 3種のMLPのアンサンブル（TabNetなし）
- オリジナルの特徴量+1段目モデルの予測値を2段目モデルの入力にしてスタッキングしてる。スタッキングでprivate LB 0.00001 下がってる
- MLPの単純平均のアンサンブルだけでprivate LB 0.00002 も下がってる
- https://www.kaggle.com/c/lish-moa/discussion/200630
30位の解法
- 4つのモデルの平均的なブレンド
- 後処理として、[1e-5; 1-1e-5]のクリッピング
- lr = 1e-5とSGDオプティマイザーでPseudo Labelling効いたみたい（学習率下げたら効いたのかな？）
- https://www.kaggle.com/c/lish-moa/discussion/200679
36位の解法
- 3 head MLP
- LayerNormalization がめちゃめちゃ効くらしい
- https://www.kaggle.com/c/lish-moa/discussion/201051
コンペ中ずっと1位だった猫の解法(private LBは560位)
- oofでモデルブレンディングの重み最適化してる。最適化後、MultilabelStratifiedKFoldで1から学習してる（我々のチームのようにscipyで最適化すれば1回ですむのに）
- 予測値0.0014/0.99を超えるサンプルをバイナリラベルに置換する後処理はpublic LBで効果あったみたい
- Pseudo Labellingも使ってるがよくわからん
- 選んだサブミットが悪かったみたいだが一番良いスコアでも銀圏
- https://www.kaggle.com/c/lish-moa/discussion/200338
コンペ中3位の解法(private LBは118位)
- cvではなくLBを信じたためshake downした
- NVIDIA RAPIDS UMAPで画像にした DeepInsight などのモデルブレンド
- test setの分布がtrain setとは異なると予測（trainで全然ないターゲットがtestで頻繁に発生する可能性）
  - test setの各ラベルの平均はわからないから、モデルの予測値がほぼ0のクラスは全ラベルの平均値に近づけるようにした
- https://www.kaggle.com/c/lish-moa/discussion/200614

マイナークラスの行を増やして学習すればLB 0.0003 - 0.0004改善するらしい

ポジティブサンプルが10個未満のクラスの行を4倍にする
https://www.kaggle.com/c/lish-moa/discussion/200600

TabNetだけでpublic LB = 0.01833だしたらしいパラメ

https://www.kaggle.com/c/lish-moa/discussion/200649

n_d = 32
n_a = 256
n_steps = 1
gamma = 1.5
lambda_sparse = 1e-7
LEARNING_RATE = 8e-3
wd = 1e-5
div_factor = 10
EPOCHS = 500
BATCHSIZE = 248
GBATCHSIZE = 64
n_independent= 1
n_shared = 0

コンペ後にtrain set/public test set/private test set のラベルの分布に違い証明してるディスカッション

public test set の分布は他のsetより明らかにいびつ
train setとprivate test set の分布は同じ
このためcvとpublic LBで完全な相関がなく、cvを信じたチームはshake upした
https://www.kaggle.com/c/lish-moa/discussion/200832

ラベルスムージングは学習データとテストデータのラベルの分布が違う場合に効く

ラベルスムージングありで学習するとpublic testのスコア上げるが、private testのスコア下がる（trainはprivate testと似ており、public testとは異なる）
https://www.kaggle.com/c/lish-moa/discussion/201729

kaggle_moa's People

Contributors

Watchers

kaggle_moa's Issues

作業ログ

202009

lightGBMのコード試した
- https://www.kaggle.com/anonamename/moa-lgbm-benchmark?scriptVersionId=42147038

Permutation Importance使った特徴選択したMLPのコード試した
- https://www.kaggle.com/anonamename/moa-keras-multilabel-neural-network-v-2-0?scriptVersionId=42226804
- 自宅PCで学習してsubmissionした
  - C:\Users\81908\jupyter_notebook\poetry_work\tf23\01_MoA_compe\notebook\moa-keras-multilabel-neural-network-v-2-0\20200910
  - https://www.kaggle.com/anonamename/my-pc-moa-keras-multilabel-neural-network-v-2-0?scriptVersionId=42329365

超不均衡なマルチラベル（ほぼラベルが0のスパースなラベル）なので、MultilabelStratifiedKFold でMLPのcv作った
- https://github.com/trent-b/iterative-stratification

public score は MLP > lightGBM

20201021

チームでやることになった

lightGBMのコード

モデルファイルuploadしてsubmissionできるように修正中
cpu PCで学習実行試してる
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

自宅PCで学習実行中
- C:\Users\81908\jupyter_notebook\poetry_work\tf23\01_MoA_compe\notebook\keras-multilabel-neural-network-v1-2

20201022

lightGBMのコード

モデルファイルuploadしてsubmissionはできそう。まだ試せてない
Dataset uploadは1000ファイルが上限なので、cv=4でやるつもり（cv=5だと5*206=1030個モデルできるからダメだった。cv=5で学習一晩かかった）
optunaでパラメチューニングできるように修正中

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

submitした
- https://www.kaggle.com/anonamename/submission-label-smoothing-20201021?scriptVersionId=45232016
※submit手順
- Datasetにモデルファイルupload
- kaggleでnotebook作成して実行
public score: 0.01873
cv score: コードミスで出せなかった（epochs=150で学習一晩かかった）

構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコード

自宅PCでコード確認中
- C:\Users\81908\jupyter_notebook\poetry_work\tf23\01_MoA_compe\notebook\MoA DNN Feature Engineering

20201023

lightGBMのコード

cpu PCでfold=4でパラメータチューニング実行中（数日かかりそう）

自宅PCにcudaいれてtf環境作り直した（poetryでgpu使えてなかったので）

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

tfgpu環境で再実行
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\keras-multilabel-neural-network-v1-2\run_label_smoothing_20201021.py
- cv score: 0.01622 (public score: 0.01873 のはず. 昨日submissionしたのと同一条件なので)

特徴選択 + label-smoothingしたMLPのコード

tfgpu環境で実行
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\keras-multilabel-neural-network-v1-2\run_label_smoothing_no_clip_20201023.py
- val_lossがnanになるときがあった。クリップ無いから予測ラベルすべて0.0と出したからだろな
- cv score: 0.016606
- クリップありの方がcv良い。clip入れたらoof下がるのは予測ラベル補正してるから当たり前！！！

構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコード

tfgpu環境で実行
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MoA DNN Feature Engineering
  \moa-dnn-feature-engineering_20201023.py
- cv score: 0.015825（8時間以上かかった）
- public score: 0.01852

20201024

lightGBMのコード

fold=5で実行したモデルファイルzipにしたらuploadできた
- https://www.kaggle.com/anonamename/20201021-lgb-submission-ipynb?scriptVersionId=45405528
- public score: 0.02035

pandas-profiling 自宅PCで実行できない。。。

cpu PCで出したpandas-profilingの結果githubに上げて持ってきた

github作り直した。間違ったbranchにpushしたので

データの意味とか調べてた。まだ途中

どの要素が効果あるか確認するnotebook作成中

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201023\20201025.ipynb

20201025

どの要素が効果あるか確認するnotebook

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201023\20201025.ipynb
- 元のnotebookの条件が一番良かった
  - cv score: 0.0161329 (model_type: 3lについて)
- 特徴量の統計(fe_stats, g_squared)は有効,
- 統計量やpcaしてから規格化(scaling(RobustScaler))は有効

adabelief_tf なぜかエラーになる

20201026

lightGBMのコード

パラメチューニング終わってた。
統計量の特徴量追加したらどうなるか試してる
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark\20201026_lgb_train.py

モデルブレンディングの重みをネルダーミードで最適化

途中
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\Nelder-Mead

TGANでデータ増やす

途中
TGANはtensorflow1.15.4系が必要なのでそれ用の仮想環境作成した
poetryでinstall するとcpuでしか実行できないので終わらない。。。1 epoch 3000時間かかるといわれる
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu1\01_MoA_compe\TGAN\20201026

モデル1個でマルチラベルのlightGBM作成

途中
sklearnのMultiOutputClassifier使えばいけた。ただし、early_stoppingは使えない
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2

20201027

lightGBMのコード

統計量の特徴量追加した方がoof良くなった
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark\20201026_lgb_train.py
StratifiedKFold, feature_importance 計算したら、KFoldよりoof悪くなった
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark\20201027_lgb_train.py
統計量の特徴量追加してパラメチューニング実行中
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark\20201027_lgb_train.py

モデルブレンディングの重みをネルダーミードで最適化

ネルダーミードした方がoof下がるが、LBは悪くなった
- https://www.kaggle.com/anonamename/submission-moa-dnn-feature-engineering-20201023-ne?scriptVersionId=45594254

TGANでデータ増やす

condaで環境作成し、TGANのパッケージの中身いじってgpuで動かそうとしたがPC落ちた。gpuで実行できず。。。
- tensorpackっていうpipかgithubでしか動かないパッケージが必要だった
discussion でCTGAN うまくいかんと言ってるからあきらめる。。。
- https://www.kaggle.com/c/lish-moa/discussion/193358

モデル1個でマルチラベルのlightGBM作成

途中
sklearn.multioutput.ClassifierChain の方がよさそうなので試す予定
- ClassifierChain は直前の二値分類の予測結果を meta feature として利用して新たな二値分類を解く
  - aクラスのモデル学習→aクラスの予測を特徴量に追加→bクラスのモデル学習みたいなイメージ
参考: https://towardsdatascience.com/journey-to-the-center-of-multi-label-classification-384c40229bff

気になったdiscussion 試してる

https://www.kaggle.com/c/lish-moa/discussion/193463
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MoA Pytorch Feature Engineering 0.01846
oof が再現しない。。。

20201028

パワポにコンペ概要まとめた

タスクベースで作業した方が効率良さそうなので、作業ログはTrelloに書いてみる

https://trello.com/b/lHvX528J/kagglemoa
ちゃんと書こうとして時間取られるから自分には向いてなさそう。効いた手法をまとめるだけに使うことにする

cv スコアの算出方法直して再実行

MultiLabelStratifiedKFold(n_splits=5, shuffle=False)
データ全体を使用
oof で計算
- 構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコード
  - C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MoA DNN Feature Engineering\moa-dnn-feature-engineering_20201028.py
  - https://www.kaggle.com/anonamename/moa-dnn-20201028?scriptVersionId=45694957
    - cv score: 0.015137
    - public score: 0.01858
- どの要素が効果あるか確認するnotebook
  - C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201028
- lightGBMのコード
  - C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\moa-lgbm-benchmark\20201027_lgb_train.py
    - cv score: 0.015488985
    - public score: 0.01987
      - https://www.kaggle.com/anonamename/submission-20201028-lgb-train?scriptVersionId=45788988

20201029

どの要素が効果あるか確認するnotebook

特徴量追加して試した
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201029
- cp_type=ctl_vehicle のコントロールのレコードの平均との差、比率の特徴量追加は効かず
- cの特徴量を絶対値とった特徴量はoof下がった
- 以下の組み合わせでcv score: 0.01521
  - train, test, features = funcs.fe_stats(train, test, flag_add=False)
  - train, test, features = funcs.c_squared(train, test)
  - train, test, features = funcs.c_abs(train, test)
  - train, test, features = funcs.fe_pca(train, test, n_components_g=70, n_components_c=10, SEED=123)
  - train, test, features = funcs.scaling(train, test)

モデル1個でマルチラベルのlightGBM作成

ClassifierChain と MultiOutputClassifier の両方実行している
自宅PCでパラメチューニング
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201029_lgb_multi.py
cpu PCで実行
- C:\Users\yokoi.shingo\my_notebook\py37\MoA_Prediction\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201029_lgb_multi.py
- 遅すぎてあかん（11/2に処理終わった）
- cvも0.034台で全然ダメ。。。おそらく学習率低くてn_estinameが足りないため

20201030

TabNetのサンプルコードためした

feature engしたらcv悪化する。。。
https://www.kaggle.com/anonamename/moa-stacked-tabnet-baseline-tensorflow-2-0?scriptVersionId=45799275
- cv score: 0.016365
- public score: 0.01938

nonscored target もターゲットに追加して LightGBM + ClassifierChain 試してる

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\20201030_lgb_multi.ipynb

ホストの発言メモした

https://www.kaggle.com/mrbhbs/discussion
g-列は>2,<-2なら薬がその列の遺伝子に効いてる。0に近いなら効果なし
特徴量は正規化した値。実験のプレート単位で正規化してる。プレート間で差はないらしい
　- 正規化の方法(QNORM)はこれ?: https://biolab.sakura.ne.jp/robust-z-score.html
細胞生存率(c-列)は死んた細胞の量。高いほどその細胞死んでる
各薬に1:1でコントロールデータがあるわけではない
　1プレートに1つコントロール条件がある
ラベル列がすべて0のクラスは実験ミスの可能性
　1つの薬で行う6回の実験(6行分)のうち必ずどこか1回は陽性になる想定
クラス不均衡は階層的なモデルにすれば解けるかも
　例. 阻害剤かそれ以外か分類モデル作成→阻害剤から5-alpha reductase inhibitorなどのクラス分類
　- 階層的なラベル付けしてSVMでうまくやったらしい論文: https://academic.oup.com/bioinformatics/article/22/7/830/202161

20201031

nonscored target もターゲットに追加して LightGBM + ClassifierChain

コードなおした
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201030_lgb_multi.py
学習実行中

同じ薬ならターゲット変数同じと仮定して薬のID見つける

https://www.kaggle.com/c/lish-moa/discussion/194190
297通り薬のIDあり。2万行あるtrain setのうちの297 * 6 = 1782行は薬識別できそう
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\drug_check

nonscored target もターゲットに追加して MLP

構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコードがベース
cvやたら下がるが、LBは0.00001 悪化
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\use_nontarget
https://www.kaggle.com/anonamename/nontarget-class-add-fe-20201031?scriptVersionId=45885447
- cv score: 0.01031（ブレンドした値。3lだけだと0.011358）
- public score: 0.01859

20201101

nonscored target もターゲットに追加して LightGBM + ClassifierChain

oofの計算間違えてたから直した
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201030_lgb_multi.py

nonscored target もターゲットに追加して MLP

oofの計算間違えてたから直した
cv, LB 悪くなった
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\use_nontarget\nontarget_class_add_fe_20201031.ipynb
https://www.kaggle.com/anonamename/nontarget-class-add-fe-20201031?scriptVersionId=45918536
- cv score: 0.015195（ブレンドした値。3lだけだと0.01544）
- public score: 0.01859

nonscored target もターゲットに追加して MLP + class_weight

cv, LB 悪くなった
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\use_nontarget\nontarget_class_add_class_weight.ipynb
https://www.kaggle.com/anonamename/nontarget-class-add-fe-weight-20201031?scriptVersionId=45920773
- cv score: 0.015556（ブレンドした値。3lだけだと0.01599）
- public score: 0.01878

どの要素が効果あるか確認するnotebook

funcs.py直したので再実行した
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201031
fe_stats flag_add=False → c_squared → c_abs → g_valid → fe_pca → scaling で cv: 0.015195

20201102

nonscored target もターゲットに追加して LightGBM + ClassifierChain

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201030_lgb_multi.py
cv: 0.01628 / LB:

LightGBM + MultiOutputClassifier /ClassifierChain のコード。パラメータを別のpyファイルからロードするように変更した

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201102_lgb_multi.py
- multi_lr=0.1
  - cv: 0.016085 / LB:
- chain_lr=0.1
  - cv: 0.01609（3seedでブレンドしたら0.015916） / LB:
run_20201029_lgb_multi.py の結果再現しないので以下で再実行
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201029_lgb_multi_re.py
- multi_lr=0.1
  - cv: 0.016081 / LB:
- chain_lr=0.01
  - cv: 0.01855 / LB:
- n_estimater指定しなければ再現する

20201103

予測値clipしてもcvは変わらなかった。submissionは不明

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201031

PCAはtrain+testでfitした方がcv上がった。submissionは不明

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201031

adabelief-tf=0.1.0 試した

lr=1e-3, epsilon=[1e-13, 1e-14, 1e-15, 1e-16] の4通り試した
Adam に比べてcv 0.0001 ぐらい悪くなった
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201031

TabNet パラメータチューニング

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\TabNet_tf
あんまりcv下がらない。。。

コードリファクタした。Feature-Engineering と MLP のコードを分けた

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\code
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201103 で動作確認中

20201104

cvの切り方変更した。薬のidファイル付与されたので

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\code
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201104_lgb_multi.py

LightGBM + MultiOutputClassifier /ClassifierChain のコード。cv切りなおした

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\tackling-any-kaggle-competition-the-noob-s-way\lgb_v2\run_20201104_lgb_multi.py
chain_lr=0.1
- cv: 0.01759（3seedでブレンドしたら0.0174524） /LB: 0.02072
- https://www.kaggle.com/anonamename/submission-run-20201104-lgb-multi?scriptVersionId=46168240
chain_nonscored_lr=0.1
- cv: 0.01756（3seedでブレンドしたら0.017439 ） /LB:

20201105

どの要素が効果あるか確認するnotebook。cv切りなおした

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201105

cv切りなおしてsubmissionした

cv/LBとの差は狭まるが、LBやや悪化する
cvとLBの相関取れてないっぽい。cv上げたらLB下がった場合あり
- tabnetも入れたnotebook
- https://www.kaggle.com/anonamename/moa-dnn-moa-code-20201104
- https://www.kaggle.com/anonamename/submission-moa-dnn-moa-code-20201104-v2?scriptVersionId=46198226
- cv: 0.01606（シングルモデルだと4lの0.0163）。学習時と推論時でcv一致しなのでおそらくoofの切り方ミスってる。なのでこのcvはあてにならん / LB: 0.01889
LB: 0.01852 のnotebookをcvだけ変えた版
※cvはctl行削除してます。train全データ使ったoofではないです
※cv変更後はkaggleのgpuでモデル学習、cv変更前はローカルPCでモデル学習した環境差はあります
- https://www.kaggle.com/anonamename/moa-dnn-feature-engineering-20201023-re-cv
- https://www.kaggle.com/anonamename/sub-moa-dnn-feature-engineering-20201023-re-cv?scriptVersionId=46235052
- cv: 0.01718（シングルモデルだと0.01742台） / LB: 0.01861
LB: 0.01852 のnotebookをcvだけ変えた版 + Nelder-Mead
- https://www.kaggle.com/anonamename/sub-moa-dnn-feature-engineering-20201023-re-cv?scriptVersionId=46244230
- cv: 0.01716（シングルモデルだと0.01742台） / LB: 0.01863

20201106

どの要素が効果あるか確認するnotebook。再実行

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\base_line\20201106
結果からbatch_sizeやlrの最適値をcodeにハードコードした

チームのパラメータサーチコード修正

cvが変わるので再試できるようにするため

20201107

20201108

20201109

20201110

20201111

チームのパラメータサーチコード修正

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit\20201111

20201112

チームのパラメータサーチコード修正

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit\20201111

作業結果まとめ

MLPClassifier.fit を fork する
→https://www.kaggle.com/yxohrxn/mlpclassifier-fit を
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit
　に持ってきた
validation strategy を決定する
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\data
　MultilabelGroupStratifiedKFold.txt
　の薬idでグルーピングしたMultilabelGroupStratifiedKFold
一部の実験を vanilla の状態から再実施する
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit\20201111

activation, bn, dropout の順序
→cv変更前と同様bn-act-dropの順序がcv一番良い
gaussian noise, cutout, mixup, cutmix
→cv変更前と同様mixup, cutmixがcv良い
weight normalization の有無
→cv変更前と同様有る方がcv良い
cp_type と cp_dose の有無
→cv変更前と同様無い方がcv良い
ClippedFeatures, QuantileTransformer 等の前処理
→cv変更前と同様
　Clipped 有る方が良い
　QuantileTransformer 無い方が良い。https://www.kaggle.com/c/lish-moa/discussion/195788 で書いてるようにパラメータ n_quantiles=100, 1000 試したがどちらも効果なし
PCA features, RowStatistics 等の特徴エンジニアリング
→cv変更前と同様
　PCA 無い方が良い
　RowStatistics 有る方が良い
→5シードアベレージで一番cv下がったのは、特徴量の遺伝子発現列の絶対値が2以上かのフラグ列を追加した特長量エンジニアリングを組み合わせたもの(cv: 0.01549)
　https://www.kaggle.com/anonamename/mlpclassifier-edit-fe-fit
ctl_vehicle 行の削除
→vanilla の状態に ctl_vehicle 行の削除のみ実行すると効くが、mixupやcutmixと組み合わせると無い方がcv良くなる
non score target で転移学習
→深いMLPやresnetだと効くみたい( https://www.kaggle.com/c/lish-moa/discussion/195932 )だが効果なし

チームのパラメータサーチコード修正_TabNet-tf

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\TabNetClassifier.fit
- stackedtabnetの方がclasstabnetよりcv良かった

20201113

20201114

20201115

20201116

アンサンブル用にlgbmのコード修正

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\lgbm_for_ensemble
- LGBMClassifier + ClassifierChain とクラスごとにlgbm作る方法の2種類試してる
- kaggle カーネルで実行中
  - LGBMClassifier + ClassifierChain は cv: 0.016802 (MultilabelGroupStratifiedKFold)
    - https://www.kaggle.com/anonamename/moa-lgbmclassifier-classifierchain?scriptVersionId=47004986
  - クラスごとにlgbm作成は cv: 0.015219 (StratifiedKFold)
    - https://www.kaggle.com/anonamename/moa-lightgbm
- 自宅PCではパラメータチューニング投げてる
  - C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\lgbm_for_ensemble\lgbm-objective
  - C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\lgbm_for_ensemble\lgbmclassifier-classifierchain-objective
- cpu PCでもパラメータチューニング実行中

20201117

アンサンブル用に過去作成したMLPのコード修正

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLP_for_ensemble\20201117

アンサンブル用に過去作成したTabNetのコード修正

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\TabNetClassifier.fit\20201118\StackedTabNet

over fittingを避けるためのヒントのディスカッションメモした

riron1206/read_paper#29

アンサンブルコード実行。クラスごとにlgbmのみ追加

cvは上がるがLB0.02台で全然ダメ
- https://www.kaggle.com/anonamename/votingclassifier-predict
- https://www.kaggle.com/anonamename/votingclassifier-fit

20201118

rapidsのSVMは1seed分しか保存できない。kaggleは出力ファイルを20GBまでしか保存できないため。。。

rapidsのロジスティク回帰で重要な特徴量を見つける

log_loss小さい特徴は重要とする発想は応用できそう
- https://www.kaggle.com/anonamename/rapids-feature-importance-is-all-you-need-edit

アンサンブルコード再実行。MLPと LGBMClassifier + ClassifierChain のモデル追加

cvは上がるがLB0.02台で全然ダメ。自分のモデルが足引っ張ってる。。。
- https://www.kaggle.com/anonamename/votingclassifier-predict
- https://www.kaggle.com/anonamename/votingclassifier-fit

20201119

GrowNet試してる

C:\Users\81908\jupyter_notebook\pytorch_work\grownet_pytorch
- cv:0.0159台(lr=1e-2のが良さそうだった)
- 高スコアのfeature engも試したが効かず
  - C:\Users\81908\jupyter_notebook\pytorch_work\grownet_pytorch\20201123

20201120

206クラスのマルチラベルで学習できるようにカスタムロス付けたLightGBMはcvうまく下がらない

https://www.kaggle.com/anonamename/lgbm-custom-loss-one-lgb-for-206-labels-edit?scriptVersionId=47291123

20201121

20201122

20201123

GrowNet のコードkaggleで実行

https://www.kaggle.com/anonamename/moa-grownet?scriptVersionId=47531400

lightGBM のinputの特徴減らす

減らさない方がcv良い。ハイパーパラメータの関係もあると思うが
https://www.kaggle.com/anonamename/moa-lightgbm-fs-any-list?scriptVersionId=47525205**

SVMのパラメータ変更して実行

C=10でcv:0.0150台
統計量や特徴量減らすのは良くなかった
- https://www.kaggle.com/anonamename/moa-rapids-svm-experiments?scriptVersionId=47571227

20201124

cv直してSVM再実行

出力ファイルがでかすぎて一括実行できないためseed変えて複数notebook作成する

cv直してLightGBM再実行

https://www.kaggle.com/anonamename/moa-lightgbm/output?scriptVersionId=47609013

cv直してGrowNet再実行

https://www.kaggle.com/anonamename/moa-grownet?scriptVersionId=47640359

5l,4lのMLPのパラメーターチューニング

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLP_for_ensemble\20201124

アンサンブル用のモデルdataset再upload

nonscoredなし版のを上げなおした
- https://www.kaggle.com/anonamename/mlp-for-ensemble

20201125

3l,2l,rsのMLPとStackedTabNetのパラメーターチューニング

C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLP_for_ensemble\20201124

20201126

LGBMClassifier + ClassifierChain の orderを共起ラベル数多い/少ない順にして再実行

https://www.kaggle.com/anonamename/moa-lgbm-classifierchain-co-occurences-asc?scriptVersionId=47819726
https://www.kaggle.com/anonamename/moa-lgbm-classifierchain-co-occurences-desc?scriptVersionId=47819626
効果わからず。スコア良くならないから微妙そう

LGBMClassifier + ClassifierChain のorder変えても結果変わらない原因調査

lgbmの「min_data_in_leaf」を指定するとorder効かなくなる
- https://www.kaggle.com/anonamename/classifier-chain-test
- https://www.kaggle.com/anonamename/moa-lgbm-classifierchain-order-random-work
min_data_in_leaf 指定せずに再実行
- https://www.kaggle.com/anonamename/moa-lgbmclassifier-classifierchain-order-random?scriptVersionId=47820194
min_data_in_leaf 指定せずにパラメーターチューニングしたが、min_data_in_leaf 指定ありの結果の方がcvよかった
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\lgbm_for_ensemble\lgbmclassifier-classifierchain-objective\20201126

マイナークラスはモデルファイル作成しないようにして moa-lightgbm 再実行

アンサンブルでおかしくなる原因かもしれないので
https://www.kaggle.com/anonamename/moa-lightgbm-minor-omit
- moa-lightgbm のスコアとほぼ変わらず
- チームのアンサンブルの重みもmoa-lightgbm とほぼ同じなので意味なし

20201127

Self-Stacking XGBoost

https://www.kaggle.com/anonamename/moa-self-stacking-xgboost
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\xgboost\20201127\train
- cv: 0.016037
- 13時間ぐらいかかった。。。
kaggleにuploadした
- https://www.kaggle.com/anonamename/moaselfstackingxgboost
前処理をチームと合わせるため再実行
- C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\xgboost\20201127\train

20201128

Self-Stacking XGBoost calibrate

kaggleの時間制限で失敗するからcalibrate で処理分けた。分けても時間制限で失敗した
https://www.kaggle.com/anonamename/moa-self-stacking-xgboost-calibrate?scriptVersionId=47996873

moa-lightgbm-calibrate

kaggleの時間制限で失敗するからcalibrate で処理分けた。calibrate するとcv大幅に悪化
https://www.kaggle.com/anonamename/moa-lightgbm-calibrate?scriptVersionId=47995340

チューニングしたパラメータでアンサンブル用モデル作成

時間かかりすぎるのでローカルで実行
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLP_for_ensemble\run_fix
- 5l : cv: 0.01611, auc: 0.64835
- 4l : cv: 0.01591, auc: 0.66564
- 3l_v2: cv: 0.01576, auc: 0.68225
- 2l : cv: 0.01572, auc: 0.67610
- rs : cv: 0.01588, auc: 0.67808
- StackedTabNet: cv: 0.015609, auc: 0.68547

特徴量をスケーリングする重みを遺伝的アルゴリズムで計算し、cumlのKNNでマルチラベル分類

https://www.kaggle.com/anonamename/moa-genetic-algorithm-cuml-knn?scriptVersionId=47985365
遺伝的アルゴリズムで計算した重みでcv改善したより、予測値を0.0005, 0.999 でクリップする後処理だけでcvが0.0005 ぐらい改善したことの方が印象的だった

20201129

チューニングしたパラメータでアンサンブル用モデルuploadした

https://www.kaggle.com/anonamename/mlp-for-ensemble

githubのコード整理した

20201130

再チューニングしたパラメータでアンサンブル用StackedTabnet作成

9時間かかるのでローカルで実行
C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLP_for_ensemble\run_fix
- StackedTabNet: cv: 0.01559, auc: 0.68344

モデルuploadした

https://www.kaggle.com/anonamename/mlp-for-ensemble

議事メモ

20201030 定例会

cvの過学習あるので、LBに効くcvの値を把握していけばいいんでない。上位はcv=0.015-0.016台でいけてるので (OT)

RANK ガウスはMLPと相性いいらしい (OT)

nonscored で学習→予測値を特徴に追加→scored を学習でやりたい (OH)

nonscoredも予測ラベルに入れてMLP作ればマルチタスクでうまくいくかも (OT)

nonscored targetのclass_weightを減らして学習させる方がいいと思う (A)

画像化がうまくできるならCNNはいいと思う。今のところそんなのないが (OT)

DeepInsightより、Auto encoderで2次元化した画像でやる方がいいと思う (OT)

ラベルは阻害剤とほかのなんかの種類が多い (N)

ラベルの種類でMLPの出力層2股にわけるとか、阻害剤とそれ以外とか (OT)

ラベルの間の相関得るため、RNNやClassifierChain がいいでは (OH)

RNN よりLSTMのがいいだろう。LSTMよりTransfomerのがいいだろ。じゃあTabNetじゃん (OT)

最終の2サブ以下でいく

推論のみでアンサンブルしまくる
train+推論

memo

良さげなカーネルとかまとめてる
https://www.kaggle.com/c/lish-moa/discussion/192211
https://www.kaggle.com/c/lish-moa/discussion/191621
https://www.kaggle.com/c/lish-moa/discussion/181040#1046687

Tabnetが強いみたい
https://www.kaggle.com/c/lish-moa/discussion/192855
異常検知のnote確認したい
https://www.kaggle.com/rahulsd91/moa-anomaly-detection

oof_metrics = f"OOF Metric(log_loss): {metric(train_targets, res)}"
with open(f"{outdir}/oof_metrics.txt", mode="w") as f:
    f.write(str(oof_metrics))
print(oof_metrics)

■作業結果

MLPClassifier.fit を fork する
→https://www.kaggle.com/yxohrxn/mlpclassifier-fit を
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit
　に持ってきた
validation strategy を決定する
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\data
　MultilabelGroupStratifiedKFold.txt
　の薬idでグルーピングしたMultilabelGroupStratifiedKFold
一部の実験を vanilla の状態から再実施する
　C:\Users\81908\jupyter_notebook\poetry_work\tfgpu\01_MoA_compe\notebook\MLPClassifier.fit\20201111

activation, bn, dropout の順序
→cv変更前と同様bn-act-dropの順序がcv一番良い
gaussian noise, cutout, mixup, cutmix
→cv変更前と同様mixup, cutmixがcv良い
weight normalization の有無
→cv変更前と同様有る方がcv良い
cp_type と cp_dose の有無
→cv変更前と同様無い方がcv良い
ClippedFeatures, QuantileTransformer 等の前処理
→cv変更前と同様
　Clipped 有る方が良い
　QuantileTransformer 無い方が良い
PCA features, RowStatistics 等の特徴エンジニアリング
→cv変更前と同様
　PCA 無い方が良い
　RowStatistics 有る方が良い
→5シードアベレージで一番cv下がったのは、特徴量の遺伝子発現列の絶対値が2以上かのフラグ列を追加した特長量エンジニアリングを組み合わせたもの(cv: 0.01549)
　https://www.kaggle.com/anonamename/mlpclassifier-edit-fe-fit
ctl_vehicle 行の削除
→vanilla の状態に ctl_vehicle 行の削除のみ実行すると効くが、mixupやcutmixと組み合わせると無い方がcv良くなる

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.

riron1206 / kaggle_moa Goto Github PK

kaggle_moa's Introduction

kaggle MoAコンペのコード

コンペ概要

最終submitはチームのアンサンブル（35位）

自分が作ったモデル

2クラス分類のLightGBM

LGBMClassifier + ClassifierChain

XGBClassifier + ClassifierChain

Self-Stacking + 2クラス分類のXGBoost

cuml + 2クラス分類のSVM

遺伝的アルゴリズム + cuml + KNN

DummyClassifier + MultiOutputClassifier

MLP(層の数変えた5種類)

StackedTabNet

GrowNet

作業ログ

Qiitaに投げた記事

上位解法

マイナークラスの行を増やして学習すればLB 0.0003 - 0.0004改善するらしい

TabNetだけでpublic LB = 0.01833だしたらしいパラメ

コンペ後にtrain set/public test set/private test set のラベルの分布に違い証明してるディスカッション

ラベルスムージングは学習データとテストデータのラベルの分布が違う場合に効く

kaggle_moa's People

Contributors

Watchers

kaggle_moa's Issues

作業ログ

202009

20201021

チームでやることになった

lightGBMのコード

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

20201022

lightGBMのコード

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコード

20201023

lightGBMのコード

自宅PCにcudaいれてtf環境作り直した（poetryでgpu使えてなかったので）

特徴選択 + 予測値をクリップ + label-smoothingしたMLPのコード

特徴選択 + label-smoothingしたMLPのコード

構造変えた複数のMLPアンサンブル + 統計量の特徴量追加 + pcaで圧縮した特徴量追加 + 特徴選択 + 予測値をクリップ + label-smoothingしたコード

20201024

lightGBMのコード

pandas-profiling 自宅PCで実行できない。。。

github作り直した。間違ったbranchにpushしたので

データの意味とか調べてた。まだ途中

どの要素が効果あるか確認するnotebook作成中

20201025

どの要素が効果あるか確認するnotebook

adabelief_tf なぜかエラーになる

20201026

lightGBMのコード

モデルブレンディングの重みをネルダーミードで最適化

TGANでデータ増やす

モデル1個でマルチラベルのlightGBM作成

20201027

lightGBMのコード

モデルブレンディングの重みをネルダーミードで最適化

TGANでデータ増やす

モデル1個でマルチラベルのlightGBM作成

気になったdiscussion 試してる

20201028

パワポにコンペ概要まとめた

タスクベースで作業した方が効率良さそうなので、作業ログはTrelloに書いてみる

cv スコアの算出方法直して再実行

20201029

どの要素が効果あるか確認するnotebook

モデル1個でマルチラベルのlightGBM作成

20201030

TabNetのサンプルコードためした

nonscored target もターゲットに追加して LightGBM + ClassifierChain 試してる

ホストの発言メモした

20201031

nonscored target もターゲットに追加して LightGBM + ClassifierChain

同じ薬ならターゲット変数同じと仮定して薬のID見つける

nonscored target もターゲットに追加して MLP

20201101

nonscored target もターゲットに追加して LightGBM + ClassifierChain

over fittingを避けるためのヒントのディスカッションメモした