大数据的数据预处理包括哪些方面


好评回答
姑娘有苦不流泪 2022-01-19 16:28:37
数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。包括:数据清理,数据集成,数据变换,数据归约。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
数据预处理的方法:
1、数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
2、数据集成
数据集成例程将多个数据源中的数据结合起来并 统一存储,建立数据仓库的过程实际上就是数据集成。
3、数据变换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
4、数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

本网站引用、摘录或转载上述内容仅供网站访问者交流或参考,文中观点或信息与爱问公司无关,与之相关的任何事务以及法律责任均与爱问公司无关。
最新回答 换一换
1
问:老捷达车后备箱怎么开
答:
答:老捷达车后备箱,通过遥控钥匙开启或者在车内通过驾驶员侧门上的开启按钮进行开启。捷达(Jetta)是德国大众汽车集团在中国的合资企业——一汽-大众汽车有限公司的旗下汽车品牌,其第一款产品捷达(Jetta-MK1)于1979年在欧洲上市。就其结构来看Jetta(包括后来的Vento/Bora)都是加了车尾行李箱的Golf,Jetta可以看作是Golf的衍生型。
2
广西特产有哪些特产 2021-12-18
3
水粉颜料和丙烯颜料有什么不同 2020-07-07
4
宅基地有蛇什么兆头 2019-09-09
5
玉和翡翠有什么区别 2019-11-04
相关推荐
战国四大名将来自哪国
白起和王翦来自秦国,李牧和廉颇来自赵国。战国四大名将是指中国战国时代四位著名的将领。四大名将他们都是从军中最基层的军官做起,凭借自己的努力一步一步成长为秦、赵两国最为倚重的大...
详情>
提问时间:2020-07-24
沪蓉高速为什么叫沪蓉
湖北沪蓉高速公路作为沪蓉国道主干线的重要组成部分,也是湖北省高等级公路网“五纵三横一环”的重要组成部分,是我国东中部地区连接重庆、成都等大城市通往大西南的重要快速通道。所以沪...
详情>
提问时间:2020-11-29
橙子切开有些血红色怎么回事
这样的橙子可能是血橙。血橙看起来和其他的橙子没有大的差别,只是果肉颜色是血红色的。血橙中含有丰富的营养物质,能够有效预防心脑血管疾病,也能够起到抗癌抑癌的功效。橙子皮的功效与...
详情>
提问时间:2020-03-11
gta5手电筒配件在哪里
gta5手电筒配件在枪械的配件中可以购买,gta5即《侠盗猎车手5》,游戏背景洛圣都基于现实地区中的美国洛杉矶和加州南部制作,游戏拥有几乎与现实世界相同的世界观。玩家可扮演三...
详情>
提问时间:2020-07-21
酒店里的毛巾可以带走吗
如果是一次性的,可以带走。如果非一次性是不允许拿走的,但是要看具体的酒店,有些结账前会先查房,如果酒店提出来是要赔偿的。若酒店没有查房,就让你结账走了,那不赔也无所谓了,不会...
详情>
提问时间:2019-04-17
大蒜什么时候吃比较好
大蒜早上吃较好,有利于身体健康及牙齿健康。大蒜不宜吃太多,吃多了容易伤胃,因为蒜素是有刺激性的,但是总的来说大蒜是具有很高的营养价值,其保健效果更有功效。大蒜有抗癌、保护心血...
详情>
提问时间:2019-06-19