Archives: GDBT输出特征重要性

Advertisement

[置顶] 机器学习之特征工程

本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望大家多多指点. 首先,给一张特征工程的思维导图: [如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看] 关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:"数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已".由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键.纵观Kaggle.KDD等国内外大大小小

GBDT算法的特征重要度计算

Tree ensemble算法的特征重要度计算 标签: 特征选择 GBDT 特征重要度 集成学习因具有预测精度高的优势而受到广泛关注,尤其是使用决策树作为基学习器的集成学习算法.树的集成算法的著名代码有随机森林和GBDT.随机森林具有很好的抵抗过拟合的特性,并且参数(决策树的个数)对预测性能的影响较小,调参比较容易,一般设置一个比较大的数.GBDT具有很优美的理论基础,一般而言性能更有优势.关于GBDT算法的原理请参考我的前一篇博文<GBDT算法原理深入解析>. 基于树的集成算法还有一个很好的

caffe特征可视化

这篇博文对于caffe 网络训练到的特征进行可视化. 参考:  http://nbviewer.jupyter.org/github/BVLC/caffe/blob/master/examples/00-classification.ipynb http://www.cnblogs.com/louyihang-loves-baiyan/p/5134671.html #-*- coding: UTF-8 -*- import numpy as np import matplotlib.pyplot

opencv动态目标跟踪学习总结

用opencv实现对视频中动态目标的追踪 第一步,是要建立一个编程环境,然后加载opencv的库路径等等.具体步骤在 http://www.opencv.org.cn/ 的"安装"中 有详细介绍. 第二步,建立一个MFC的对话框程序,做两个按钮,一个"打开视频文件",一个"运动跟踪处理". 具体操作: 1 建立MFC对话框程序的框架:File ->New -> MFC AppWizard(exe),选取工程路径,并取工程 名"

余额支付风控 -- 风控评分模型篇

余额支付风控 风控评分模型篇 by dylanfan at 2015-2-11 一 概述 余额支付的风险识别模型分为两类:(1)盗号交易识别风险 和 (2)盗卡交易识别风险.其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡,然后进行充值到余额,通过余额支付销赃.(1)和(2)两种针对的情景不一样,采用的特征变量和变量的重要性很大程度是不一样的.针对(1)的问题,主要是看当前交易相对用户之前的行为是否存在异常.针对(2)的问题,主要看用户信息和绑卡的信息匹配的一致性,可信性,以及当前

Kaggle大赛:债务违约预测冠军作品解析

债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面.其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策.其二是债权人可以预测这个债务人何时会陷入到财务方面的困境.最终目的是,通过预测未来两年内债务违约的概率,来改进现有的信用评分制度.这是一个极度复杂和困难的Kaggle挑战,因为银行和各种借贷机构一直都在不断地寻找和优化信用评分的算法.这个模型是银行用来判定是否准许某一笔贷款的.根据这个模型提供的信息,银行可以更好地作出决策,借贷者也可

Sklearn中的随机森林

Sklearn是python的机器学习算法的包,在整个机器学习过程中具有非常好的口碑.我把最近看的一些东西加上自己做实验的理解做了一份总结. 1.      随机森林介绍 随机森林是一种统计学习理论,其随机有两个方面:首先在训练的每一轮中,都是对原始样本集有放回的抽取固定数目的样本点,形成k 个互不相同的样本集.第二个点是:对于每一个决策树的建立是从总的属性中随机抽取一定量的属性作为分裂属性集,这样对于k个树分类器均是不相同的.由随机生成的k个决策树组成了随机森林. 对于每一个决策树来说,其分裂

Deep Learning论文笔记之(五)CNN卷积神经网络代码理解

Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 [email protected] http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢. 本文的

深度学习Matlab工具箱代码注释——cnnsetup.m

%%========================================================================= % 函数名称:cnnsetup % 输入参数:net,待设置的卷积神经网络:x,训练样本:y,训练样本对应标签: % 输出参数:net,初始化完成的卷积神经网络 % 主要功能:对CNN的结构进行初始化 % 算法流程:1) % 注意事项:1)isOctave这个语句是为了抛出一个程序在Octave平台上运行时的一个BUG,在matlab平台上可以直

深度学习(二十六)Network In Network学习笔记-ICLR 2014

Network In Network学习笔记 原文地址:http://blog.csdn.net/hjimce/article/details/50458190 作者:hjimce 一.相关理论 本篇博文主要讲解2014年ICLR的一篇非常牛逼的paper:<Network In Network>,过去一年已经有了好几百的引用量,这篇paper改进了传统的CNN网络,采用了少量的参数就松松击败了Alexnet网络,Alexnet网络参数大小是230M,采用这篇paper的算法才29M,减小了将

组织管理环境:影响项目管理的重要因素

很多公司,培养了大量项目管理人员,项目管理的制度文件也编制了一大堆,而且在"执行力"上也很是强调了,为什么项目管理水平还是很难提高?生产协调.进度和效益等问题还是得不到有效解决?据上海复斯管理咨询公司的实践研究,常规组织体系和管理模式--项目管理的运行环境,缺乏有效变 革是症结.我国很多公司都是在传统管理模式下逐渐引入项目管理模式的,随着人员培养.项目管理制度的自身建设达到一定程度以后,企业的组织体制和整体管理模式这一"环境"因素,对项目管理的阻碍程度越来越大.对于

深度学习(六)caffe入门学习-未完待续

我们知道,在caffe编译完后,在caffe目录下会生成一个build目录,在build目录下有个tools,这个里面有个可执行文件caffe,如下图所示: 有了这个可执行文件我们就可以进行模型的训练,只需要学会调用这个可执行文件就可以了,这便是最简单的caffe学习,不需要对caffe底层的东西懂太多,只需要会调参数,就可以构建自己的网络,然后调用这个可执行文件就可以进行训练,当然如果你不仅仅是调参数,而且想要更改相关的算法,那就要深入学习caffe的底层函数调用了,这个以后再讲.本篇博文仅适

Going deeper with convolutions笔记

Going deeper with convolutions笔记 Contents Abstract Introduction Related Work Motivation and High Level Considerations Architectural Details GoogLeNet Training Methodology ILSVRC 2014 Classification Challenge Setup and Results ILSVRC 2014 Detection Ch

在arcgis常见的叠加分析情况汇总 (转)

最近项目用到这个叠加分析,就从网上COPY了一些,以后应该用的着. 在arcgis常见的叠加分析情况汇总. 在矢量叠加,即将同一区域.同一比例尺的两组或两组以上的多边形要素的数据文件进行叠加产生一个新的数据层,其结果综合了原来图层所具有的属性.矢量叠加操作分为:交集(Intersect).擦除(Erase).标识叠加(又称交补集,Identify).裁减(Clip).更新叠加(Update).对称差(Symmetrical Difference).分割(Split).合并叠加(Union).添加

深度学习检测方法梳理

转自:http://www.cnblogs.com/venus024/p/5590044.html 1. R-CNN:Rich feature hierarchies for accurate object detection and semantic segmentation 技术路线:selective search + CNN + SVMs Step1:候选框提取(selective search) 训练:给定一张图片,利用seletive search方法从中提取出2000个候选框.由于

CNNs学习笔记(4):反向传播BP算法

本文的论文来自: Notes on Convolutional Neural Networks, Jake Bouvrie. 这个主要是CNN的推导和实现的一些笔记,再看懂这个笔记之前,最好具有CNN的一些基础.这里也先列出一个资料供参考: [1] Deep Learning(深度学习)学习笔记整理系列之(七) [2] LeNet-5, convolutional neural networks [3]卷积神经网络 [4] Neural Network for Recognition of Ha

行人检测 读书笔记 综述

行人检测 读书笔记 综述(1) 朱文佳-基于机器学习的行人检测关键技术研究 本文是博主对上海交通大学的朱文佳的硕士毕业论文的学习笔记,如果不当或理解错误之处,敬请指导,不胜感激. 绪论 1.1 典型应用 智能监控,可用于社会安全事件预防与分析等 智能车辆,智能车辆的辅助驾驶 人机接口,提高人机交互的效果 1.2 研究现状(2008) 整体趋势: 1.训练集越来越大 2.检测速度从10秒每帧到一秒多帧 3.精度从50%提升至90% 1.3 研究难点 人的差异性,服饰的差异性 动作的多样性 背景的复

coursera机器学习技法笔记(9-11)——decision tree &amp; Random forest &amp; GBDT

9 Decision Tree 9.1 Decision Tree Hypothesis 本节主要讲述了决策树的两种解释,一种是决策树是由叶子节点和路径组成的,当选择叶子节点对应的路径时采用对应的叶子节点结果:另一种观点是由分叉的树递归组成,当选择某一分支时将采用分支对应的子树的演算法结果. 决策树的优点在于可解释性强,高效.缺点是理论保证不足,并且算法多样. 9.2 Decision Tree Algoithm 决策树主要有4个关键部分: (1)分支分成几支? (2)该怎么分支? (3)什么时

深度学习(四)卷积神经网络入门学习

卷积神经网络入门学 原文地址:http://blog.csdn.net/hjimce/article/details/47323463 作者:hjimce 卷积神经网络算法是n年前就有的算法,只是近年来因为深度学习相关算法为多层网络的训练提供了新方法,然后现在电脑的计算能力已非当年的那种计算水平,同时现在的训练数据很多,于是神经网络的相关算法又重新火了起来,因此卷积神经网络就又活了起来. 在开始前,我们需要明确的是网上讲的卷积神经网络的相关教程一般指的是神经网络的前向传导过程,反向传播都是用梯度