欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

GBDT快速计算可以想到的

优化树的存储

速度想要提升,将树存成数组是比较好的选择,所以可以构造一个大数组存放树中的节点,然后用另外一个int数组表示root的下标即可,下图为一个存储实例:

E0FE7260-64F8-44A5-8252-0D0CFF747641

上图中,数组存储是按照层次存储了,其实可以根据叶子节点上面的「样本量」进行调整,样本量大的更加靠近root节点应该可以减少内存中访问时候的「频繁跳转」(这中间可以用到类似哈夫曼编码的思想)。

优化比较类型

默认比较类型是float数值,其实可以对特征取值进行编码,将比较变为int数值的比较。

17DF7B36-A62F-483A-844F-3E8C90AC6667

如上图所示,可以将某一个维度的特征按照决策树分割点的取值进行编号,通过这个转换可以将比较变为整数之间的比较。

并行计算

很明显树之间是可以并行的,可以多个线程同时计算,最后将结果汇总即可。

位运算

据说可以,我还不知道怎么弄。。

未经允许不得转载:大数据算法 » GBDT快速计算可以想到的

评论 抢沙发

*

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

关注大数据算法在工业界应用

本站的GitHub关于本站