author:niepeiyun
1.实现:
这次的模拟数据,使用了正负类别1:1的,拥有7个自变量的15w模拟数据。每次随机选取三个变量建立决策树。
(1)对照组
使用了50棵树的随机森林,10w数据做训练,5w数据做测试。这里是用的预测方式是投票式结合各棵树木
(2)实验组
对10w训练数据进行随机划分,100个bag,每一个包含10^0.6=1k的数据。然后对每一个bag做自助法,使用采样权重作为样本点权重输入决策树。对于每一个小bag建立50棵决策树,即最后共生成5k棵决策树。
(3)结果对比
- 耗时对比:
RF耗时:85.412347126s
BLB-RF耗时: 61.52238676548s
-
精确度对比:
方法 Gmean TPR TNR Overall Accuracy BLB-RF 0.9468129 0.9555009 0.9382074 0.9468413
RF 0.9418212 0.9547616 0.9291363 0.9419600
(4)探索思考
- 另外做了一些其他的探索,考虑使用bootstrap的方式用于选取变量,但是结果不好,时间更久,并且精度更差。
- 我认为目前最好优化的点,在于树的结合方式,随机森林用的是投票式的,是不是可以考虑使用一些其他的方法