大数据的数据预处理包括哪些方面


好评回答
姑娘有苦不流泪 2022-01-19 16:28:37
数据预处理(datapreprocessing)是指在主要的处理以前对数据进行的一些处理。包括:数据清理,数据集成,数据变换,数据归约。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
数据预处理的方法:
1、数据清理
数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。
2、数据集成
数据集成例程将多个数据源中的数据结合起来并 统一存储,建立数据仓库的过程实际上就是数据集成。
3、数据变换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
4、数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

本网站引用、摘录或转载上述内容仅供网站访问者交流或参考,文中观点或信息与爱问公司无关,与之相关的任何事务以及法律责任均与爱问公司无关。
最新回答 换一换
1
问:通项公式的五种求法
答:
答:通项公式的五种求法1、an=a1+(n-1)d。2、an=Sn-S(n-1)。3、Sn=a1n+((n*(n-1))/2)d。4、an=a1*q^(n-1),an=Sn/S(n-1)。5、Sn=(a1(1-q^n))/1-q。如果数列{an}的第n项an与n之间的关系可以用一个公式来表示,这个公式叫做数列的通项公式。有的数列的通项可以用两个或两个以上的式子来表示。没有通项公式的数列也是存在的,如所有质数组成的数列。
2
厚厚的油泥怎么去除 2019-12-05
3
范家屯属于哪个市 2021-06-27
4
如何在家里跟电影院一样看3d电影 2019-11-10
5
坐断东南战未休上一句是什么 2020-07-16
相关推荐
同一个世界同一个梦想是第几届夏季奥运会的口号
“同一个世界,同一个梦想”是2008年第29届北京奥运会的口号。“同一个世界同一个梦想”,体现了作为“绿色奥运、科技奥运、人文奥运”三大理念的核心和灵魂的人文奥运所蕴含的和谐...
详情>
提问时间:2021-04-15
山胡椒怎么保鲜不变色
山胡椒又名木姜子、山苍子、青皮树、山苍树、过山香、山胡椒、野胡椒、大筑子皮、澄茄子、沙海藤。山胡椒放在冰箱、玻璃缸等密闭容器里,防潮,避免阳光直射可以保鲜不变色,也可以做成木...
详情>
提问时间:2019-07-11
山药和羊肉能一起吃吗
山药主要是具有补肾益气的作用,而羊肉主要是具有温阳益气的作用,两者一起吃并不会出现相克的情况。所以是可以适当地一起食用的,但是也要注意羊肉性温,要避免吃得过多过饱;而山药药性...
详情>
提问时间:2020-01-10
空调一级和二级的区别在哪里
空调一级和二级的区别就是一级比二级省电。空调在同样的制冷量下分为5个级别,5级能效比最低,耗电最高。1级最节能,但是价格高许多。国家标准强制达不到5级能效比的机器不允许销售。...
详情>
提问时间:2020-07-01
江苏省面积多少万平方公里
江苏省面积为10.72万平方千米,江苏是中华人民共和国省级行政区。江苏拥有江淮、金陵、吴、中原四大多元文化,是中国古代文明的发祥地之一,共拥有13座国家历史文化名城。...
详情>
提问时间:2020-02-08
菜鸟裹裹软件怎么使用
菜鸟裹裹软件在主界面的快捷功能即可选择查询快递和收发快递功能。具体使用步骤如下:1、打开软件之后可以看到最近的快递消息,点击扫一扫选项可以扫描快递单上的条形码,快速查询到包裹...
详情>
提问时间:2021-01-10
雅思4个7相当于什么水平
雅思4个7相当于托福90多,大学六级以上水平,教育、新闻等专业对语言要求比较高的专业,要求4个7分。雅思考试分听、说、读、写四个单项,每个项目单独计分,最高9分,最低0分。总...
详情>
提问时间:2019-10-17
6岁半体重身高体重标准是多少正常值
6岁半体重18.4-23.6kg,身高标准是109.7-119.6cm。宝宝的身高体重标准值,在不同的年龄段有不同的数值,出生体重一般平均3.5公斤左右。...
详情>
提问时间:2020-02-01