数据挖掘步骤一般有哪些?
数据挖掘步骤一般有如下几种:
1、定义问题
(相关资料图)
在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高一次用户使用的价值”,要解决这两个问题而建立的模型几乎是完全不同的,必须做出决定。
2、建立数据挖掘库
建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
3、分析数据
分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。
4、准备数据
建立模型之前的最后一步数据准备工作。可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量。
5、建立模型
建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。
6、评价模型
模型建立好之后,必须评价得到的结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。
数据仓库就是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造 。数据挖掘的工作内容是什么呢?数据分析更偏向统计分析,出图,作报告比较多,做一些展示。数据挖掘更偏向于建模型。比如,我们做一个电商的数据分析。万达电商的数据非常大,具体要做什么需要项目组自己来定。电商数据能给我们的业务什么样的推进,我们从这一点入手去思考。我们从中挑出一部分进行用户分群。
标签:
-
数据挖掘步骤一般有哪些?
-
全球观热点:前5个月全国税收收入84774亿元 同比增长17%
-
环球焦点!安化县发改局扎实开展“安全生产月”活动
-
天天热头条丨又整理了几个关于叶罗丽的问题!
-
天天看点:代脉医案_代脉
-
江苏南通:版权“全链条” 激活发展核心力_全球球精选
-
每日快报!央企实力!保利放大招,6月买房的最佳窗口期来了
-
蓝色协议游戏卡顿的解决方法|今日最新
-
有一些人为啥老是怼华为,如果华为倒了,对这些人有啥好处呀-百事通
-
适合治愈自己的心情文案 热文
-
中国民航复苏有望进一步加快
-
焦点快看:包青天93版乞丐王孙中小七最后是不是做了太监_因为他被封为公主府副总管了
-
这个618,“所有女生”不再只看李佳琦-世界热闻
-
FRM考试居然也有奖学金?什么人可以申请?
-
马斯克称推特正赢回广告客户,麦当劳、沃尔玛等知名品牌据悉已回归
-
【天天聚看点】天津津南区开展受沉降影响群众临时过渡救助工作
-
天天消息!去掉南方的沿海发达省份后,北方和南方地区的经济差距还有多大?
-
周末江南等地将现成片暴雨 东北高温炎热天气增多 微资讯
-
收藏解放卡车 澎湃创业新篇 近400辆只认解放为什么?
-
环球消息!电脑公司系统win7纯净版ghost64位备份硬盘分区安装u盘教程