×

random forest 数据挖掘项目

random forest(一个完整的数据挖掘项目,需要经过哪些流程才能落地应用)

admin admin 发表于2023-06-22 03:32:09 浏览50 评论0

抢沙发发表评论

本文目录

一个完整的数据挖掘项目,需要经过哪些流程才能落地应用

我自己在互联网领域做过多年的数据挖掘相关的工作。简单说一下我对这个问题的简单看法,如果有不对的地方,欢迎同行批评指正。

首先说一些数据挖掘的理解:相对而言数据分析主要是针对问题利用数据取理解问题的过去和现在。数据挖掘则是针对问题,利用数据和相关算法去理解预测未来;

再说一下数据挖掘的标准流程:

1.定义问题:这个是数据挖掘的重中之重。有时候比解决问题本身要难。这个需要有业务了解业务知识和相关数据

2.理解数据:需要对业务的各种数据及来源有比较详细的理解

3.整理数据:这个通常占到整个项目的50%的甚至更多的时间。这个重点要理解业务表 数据之间的关联性,会用SQL从数据库中提取数据

4.建立模型:

a.对各种模型对数据的要求要有理解:比如logistic回归模型要求对连续变量做标 准化,单cart方法不用做标准化

b.对各种算法的优点和缺点及适应性甚至模型的组合都有比较深入的理解。及参数调节能力;

c.利用python进行特征工作(数值变量离散化、字符变量做one-hot编码等等)并实现各种算法调参甚至算法融合的工程实现的能力

d.基于python评估模型

5.评估模型:这个里面一方面是线下的评估,另外一方是线上的评估。比如ab-test

6.部署上线(这个要求能将模型需要的变量从原始数据中清晰出来做成自动任务、模型预测也做成自动。自动生成预测名单执行后续的流程),这里面核心的工程化能力:

python编程和shell基本的操作(通常模型会部署在linux系统上)

从这个流程来看数据挖掘有数据挖掘一些专有的模型比如:logistic回归、random forest、gbdt、xgboost等等。也不要用编程语言去实现整个算法。因为python sklearn里面已经有专门的包帮我们实现了一般常用的算法。我们只需要了解算法的优缺点,会选用、会调用、会调参和会评估就OK