爱问知识人 爱问教育 医院库

数据员个人工作总结

数据员个人工作总结

幸*** 21-12-12 个人总结

一、数据量过大,数据中什么情况都可能存在。

如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。

二、软硬件要求高,系统资源占用率高。

对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。

三、要求很高的处理方法和技巧。

这也是目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。

下面我们来详细介绍一下处理海量数据的经验和技巧:

一、选用优秀的数据库工具

现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近发布的SQLServer20xx性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQLServer20xx需要花费6小时,而使用SQLServer20xx则只需要花费3小时。

二、编写优良的程序代码

处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。

三、对海量数据进行分区操作

对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQLServer的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

四、建立广泛的索引

对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

五、建立缓存机制

当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。

六、加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P42.4G的CPU,对这么大的.数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为4096*6+1024=25600M,解决了数据处理中的内存不足问题。

七、分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

八、使用临时表和中间表

数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。

九、优化查询SQL语句

在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。

十、使用文本格式进行处理

对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。

十一、定制强大的清洗规则和出错处理机制

海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。

十二、建立视图或者物化视图

视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。

十三、避免使用32位机子(极端情况)

目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。

十四、考虑操作系统问题

海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。

十五、使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。

十六、使用采样数据,进行数据挖掘

基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。

还有一些方法,需要在不同的情况和场合下运用,例如使用代理键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。

海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。

相关推荐

春天的励志演讲稿范文

演讲稿
尊敬的各位老师,亲爱的同学们:这是多么美好的一个季节,春天,春暖花开,春风洋溢,富有诗情画意,我喜欢春天,因为春天装载着我的梦想,象征着我对未来的希望,也包涵了我对妈妈的承诺。春天是一幅画,用颜料与彩
展开详情

英语教学总结汇报

汇报
本学期,我担任二年级以及四年级的英语教学工作,结合本校的实际条件和学生的实际情况,在工作中从各方面严格要求自己,勤勤恳恳,兢兢业业,使教学工作有计划,有组织,有步骤地开展。立足现在,放眼未来,为使今后
展开详情

疫情防控人员出入管理制度

管理制度
为切实做好开学期间疫情防控工作,加强学生自身防范,阻断病毒传播,根据学校疫情防控工作相关要求,特制定开学后学生宿舍内部暂行管理制度,请各学院(校区)按要求落细落实。一、学生管理1、严格执行学校制定的学
展开详情

一年来的工作总结精简

年终总结
我于20_年x月加入商场,开始了我新的工作和学习过程,四个多月来,收获良多,感慨也不少,现将本阶段工作总结如下:本阶段客服督导部的职能工作主要有两大块,一是继续做好服务台的工作,二是初步接手和学习并执
展开详情

本科毕业论文指导教师评语锦集

评语
1、该生用dreamweave和access数据库等技术对甘孜旅游网站进行设计,设计清新美观,主要问题回答准确,基本概念清楚,望对论文中指正的数据库存放问题进行修改。2、该生专业素养比较好,对所提问题
展开详情

行为规范教育演讲稿

演讲稿
大家好!择善从之,不善改之,习惯的养成往往是因为自己喜欢这么做。人喜欢习惯,因为造它的就是自己。那何尝不养成一个良好的习惯完美自己?好习惯和坏习惯都具有很强大的力量,好的习惯让人立于不败之地,坏的习惯
展开详情

给上级领导的感谢信模板

书信格式篇
尊敬的小榄人民医院各位领导,老师:大家好!首先请让我代表河源卫校全体实习生向贵院的领导和老师们报以最衷心的感谢!蓦然回首,才知道我们从夏日的风雨中走来,历经了秋日的洗礼,冬日的沐浴,正迎接春日的到来。
展开详情

关于《骆驼祥子》的读后感

读后感
暑假,我读啦一本书叫《骆驼祥子》主要内容是以一个人力车夫为主,描写啦当时旧中国的黑暗,祥子18岁失去啦父母,只好去城里工作,因为生活需要,她不得不去做人力车夫,最后他还有了自己的新车,他都预测好啦,以
展开详情

骨干教师个人总结大全

个人工作总结
光阴荏苒,如白驹过隙。一眨眼,愉快的20__年即将从我们身边走过。一学年的教学工作也将告终,回顾一年的教学工作所走过的路,虽然很艰辛,但更多的是欣喜、是快乐、是成熟。在学校的培养以及自身的努力之下,2
展开详情

房地产销售离职申请书

辞职申请书
尊敬的领导:您好!我是--,此时此刻我还是不舍的,来到--这里一年多的时间,主要就是因为自己业绩不好,真的让我感觉压力很大,这段是时间的表现我也不是非常好,作为一名房地产销售我的工作做的不是很好,业绩
展开详情
热点文档
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
有关感恩父母演讲稿范文 六一晚会闭幕词 班长竞选演讲稿模板 药专实习报告 寒假周记高中800字左右 庆祝38国际妇女节暖心祝福语 你曾来过诗歌 测绘工作总结范文 中信银行辞职报告 大学生中国梦演讲稿 多读书读好书演讲稿 二年级语文教师个人工作总结 开展幼儿园感恩节主题活动总结范文 九年级上学期语文的教学工作总结范文 简短的双减心得体会 上学迟到的检讨书 今天是霜降的祝福语(精选170句) 标书专员年终总结 2022学习传承五四精神心得体会 国防教育工作计划范文 教师个人考核年度总结范文 西游记的读书心得2022参考范文 部队司机述职报告优秀范文 大寒文案朋友圈 2022全新的孩子百日宴幽默致辞 父母课堂读后感范文 不听老婆话的检讨书 父亲节祝福语 《手斧男孩》读书心得 2021园务工作总结 红脖子读后感范文 2022弘扬五四精神中学生励志演讲稿 《水浒传》优秀读后感 工程测量员工作职责都有哪些 关于幼儿园中班个人工作总结模板 三年级数学教师期末教学总结 最新立冬节气说说大全 有关夸张句的摘抄(精选100句) 根本与基本的矛盾政治区别 表扬保安的表扬信 明朝那些事儿读书心得体会 食品外贸社会实践报告 简短生日祝福语 我的梦想演讲稿 开心早安问候语(精选50句) 助学金贫困申请书500字 上半年销售工作总结 评高级工程师专业技术工作总结 预备党员个人工作总结 售后服务保障承诺书 人生的选择演讲稿 初中数学开学工作计划 介绍济南红叶谷导游词 结婚典礼代表致辞范文 关于辞职的请书 启动仪式邀请函 体检通知范本怎么写 2022秘书个人年终工作总结模板 校园宣传标语 关于励志感恩演讲稿 2022五四青年节活动总结 业务员年工作总结 守护安全的演讲稿 高考志愿掉档怎么处理_高考滑档的原因分析 服务承诺书模板 小学世界无烟日活动总结 2022优秀的个人工作总结报告 ICU护士工作心得体会范文 全国交通安全日活动心得 继承和弘扬传统文化演讲稿 实习生工作总结优秀范文 电力设计公司年度总结 工程部年终总结通用 幼儿园五月份工作计划2022 小学教师校本个人研修总结范文 体检站护士辞职信 舞蹈班的期末总结范文 新媒体运营主管工作的主要职责 双代会演讲稿 关于《童年》的读后感 学校安全副校长述职报告范文 2023年食品安全监管工作计划 校运会解说词模板 中秋节感言精选 总经理竞聘演讲稿范文 健康教育工作计划 公司季度工作报告范文 员工辞职报告 精选六一儿童节祝福短信205句 高二班级德育2022学期个人工作计划 小学学校元旦晚会主持稿 高中管理制度 毕业简短的寄语 小学一年级数学下册教学计划 《红楼梦》读书心得 感恩节节日短信 幼儿园六一儿童节主持稿范文 中学生学期评语 减少垃圾污染的建议书模板 教育演讲稿范文 财务离职报告离职报告_离职报告离职报告 初三毕业典礼家长代表发言稿 2022年人事工作计划报告 费用报销的管理制度 2022学校运动会开幕式讲话稿 2022年金秋十月的主持词 小学五年级上册数学教学计划 开学第一课以感恩为主题演讲稿 有关公司个人原因辞职报告 关于学习的演讲稿 三爱三节小学生代表演讲稿 关于未来可期的句子(精选270句) 14天军训心得体会1500字大学 家长学校教研管理制度 骆驼祥子读后感作文800字 小学生寒假读书笔记范文 2022年央视开学第一课理想照亮未来学生心得体会 公司职员的个人述职报告范文 申请公租房的申请书 小学学生毕业演讲催泪 骨科护士工作计划 关于三年级数学教学总结模板 关于保护环境主题演讲稿600字 旅游策划书 2020幼儿园后勤工作计划范文 四年级学生《两个小八路》读后感 保护环境的总结优秀范文 餐饮年度工作总结最新 工厂出纳试用期转正工作总结(合集) 2022年初中七年级班主任的工作计划 中元节文明祭祀个人倡议书 餐饮大学生创新创业计划书 婚礼宴会新郎发言稿 高中贫困生国家补助申请书 有关上岗竞聘演讲稿范文 关于毕业典礼演讲稿 会计个人工作总结模板 我的同桌是班长读后感 幼儿园家访工作总结 高中教师新学期教学个人工作计划 英语个人教学工作计划 拔苗助长读后感 2022年行政后勤工作计划 《小海蒂》读后感 学生会主席团工作计划 中层干部竞聘演讲稿 关于退休申请书范文 2020爱护眼睛国旗下讲话稿范文 管理培训心得体会 实用的培训工作计划 个体户财务管理制度范本 房贷收入证明 初中师德心得体会范文 新员工工作心得总结教案2022版1000字 财务岗位的安全职责 学生代表开学典礼发言稿 关于中班上学期工作计划 花儿你依旧这样红——读朝花夕拾有感作文700字 草房子的读后感1000字 大一英语学习计划范文 关于六年级下册语文教学计划模板 工商局个人单位工作总结 高中德育半年总结格式及范文 满20岁生日祝福怎么说 轮岗实习心得 关于实习工作总结范文 世界森林日演讲稿 春节给爱人的新春祝福语大全 最美的声音高一作文800字 委托拆迁的合同范本 珠宝行业年度计划范文 青年志愿者招新策划书 《三字经》读后感精选 九年级班主任工作计划 读堂吉诃德有感 永不言弃演讲稿作文5分钟 2022大学社会实践报告 小学生关爱老人演讲稿 小学一年级班主任工作总结 公司嘉年华开幕词开场白 单身的证明 读《富爸爸穷爸爸》有感 有关于暑假安全保证书 喜得千金祝福语大全 2022年仓管个人年终工作总结怎么写 高考励志的演讲稿 新学期目标学习计划 寒假周记12则 假如心情随笔 有关销售年度总结模板 初三阅读《三国演义》600字课外读书笔记 二年级学生教师节演讲稿 生物教学工作总结以及来年计划范文 初中三年级学期班主任工作计划 高一下学期数学老师工作计划素材模板 《西厢记》读后感范文 试用期工作总结 寒假工工作社会实践报告范文 竞聘副处级干部演讲稿范文 药店工作职责药店岗位职责大全