aiLabel:

大数据数据库规划 (数据库归纳规划规范)

薄荷之夜
好评回答

大数据量的体系的数据库结构怎么规划?
1、把你表中常常查询的和不常用的分隔几个表,也便是横向切分
2、把不同类型的分红几个表,纵向切分
3、常用联接的建索引
4、服务器放几个硬盘,把数据、日志、索引分盘寄存,这样能够进步IO吞吐率
5、用优化器,优化你的查询
6、考虑冗余,这样能够削减衔接
7、能够考虑树立核算表,便是实时生成总计表,这样能够防止每次查询都核算一次
mrzxc 等说的好,考虑你的体系,留意负载平衡,查询优化,25 万并不大,能够建一个表,然后按mrzxc 的3 4 5 7 优化。 速度,影响它的因数太多了,且数据量越大越显着。
1、存储 将硬盘分红NTFS格局,NTFS比FAT32快,并看你的数据文件巨细,1G以上你能够选用多数据库文件,这样能够将存取负载涣散到多个物理硬盘或磁盘阵列上。
2、tempdb tempdb也应该被独自的物理硬盘或磁盘阵列上,主张放在RAID 0上,这样它的功能最高,不要对它设置巨大值让它主动增加
3、日志文件 日志文件也应该和数据文件分隔在不同的理硬盘或磁盘阵列上,这样也能够进步硬盘I/O功能。
4、分区视图 便是将你的数据水平分割在集群服务器上,它适宜大规划OLTP,SQL群集上,假如你数据库不是拜访特别大不主张运用。
5、簇索引 你的表必定有个簇索引,在运用簇索引查询的时分,区块查询是最快的,如用between,应为他是物理接连的,你应该尽量削减对它的updaet,应为这能够使它物理不接连。
6、非簇索引 非簇索引与物理次序无关,规划它时有必要有高度的可选择性,能够进步查询速度,但对表update的时分这些非簇索引会影响速度,且占用空间大,假如你乐意用空间和修正时刻交换速度能够考虑。
7、索引视图 假如在视图上树立索引,那视图的成果集就会被存储起来,对与特定的查询功能能够进步许多,但相同对update句子时它也会严峻减低功能,一般用在数据相对安稳的数据仓库中。
8、保护索引 你在将索引建好后,定时保护是很重要的,用dbcc showcontig来调查页密度、扫描密度等等,及时用dbcc indexdefrag来整理表或视图的索引,在必要的时分用dbcc dbreindex来重建索引能够遭到杰出的作用。 不管你是用几个表1、2、3点都能够进步必定的功能,5、6、8点你是有必要做的,至于4、7点看你的需求,我个人是不主张的。打了半个多小时想是在写论文,期望对你有协助。
怎么规划企业级大数据剖析渠道
统企业的OLAP简直都是依据联系型数据库,在面对“大数据”剖析瓶颈,乃至实时数据剖析的应战时,在架构上怎么应对?本文试拟出几个大数据OLAP渠道的规划关键,意在抛砖引玉。
打破规划准则
建造企业的大数据管理渠道(Big Data Management Platform),第一个面对的应战来自前史数据结构,以及企业现有的数据库规划人员的观念、准则。数据联系、ACID在联系数据库几十年的控制时期是久得人心,不少开发人员都有过为文档、图片规划数据表,或将文档、图片序列化为二进制文件存入联系数据库的阅历。在BDMP之上,咱们需求对多种不同的格局的数据进行混合存储,这就有必要意识到从前的准则现已不再适用——One size dosen’t fit all,新的准则——One size fits a bunch.
以下是我列出的一些NoSQL数据库在规划上的方式:
文档数据库:数据结构是类JSON,能够运用嵌入(Embed)或文档引证(Reference)的方法来为两个不同的文档目标树立联系;
列簇数据库:依据查询进行规划,有宽行(Wild Rows)和窄行(Skinny Rows)的规划决议计划;
索引数据库:依据查找进行规划,在规划时需求考虑对对每个字段内容的处理(Analysis)。
查找和查询的差异在于,对回来内容的排序,查找引擎侧重于文本剖析和关键字权重的处理上,而查询一般仅仅对数据进行单列或多列排序回来即可。
数据存储的二八准则
不少企业在处理海量数据存储的问题上,要么是把联系数据库悉数往Hadoop上一导入,要么是把曾经的非结构化数据如日志、点击流往NoSQL数据库中写入,但最终往往发现前者仍是无法处理大数据剖析的功能瓶颈,后者也无法回答数据怎么发挥事务价值的问题。
在数据的价值和运用上,其实也存在着二八准则:
20%的数据发挥着80%的事务价值;
80%的数据恳求只针对20%的数据。
现在来看,不管是数据存储处理、剖析仍是发掘,最完好和成熟的生态圈仍是依据联系型数据库,比方报表、联机剖析等东西;别的便是数据剖析人员更偏重于查询剖析言语如SQL、R、Python数据剖析包而不是编程言语。
企业大数据渠道建造的二八准则是,将20%最有价值的数据——以结构化的方式存储在联系型数据库中供事务人员进行查询和剖析;而将80%的数据——以非结构化、原始方式存储在相对廉价的Hadoop等渠道上,供有必定数据发掘技能的数据剖析师或数据工程师进行下一步数据处理。经过加工的数据能够以数据集市或数据模型的方式存储在NoSQL数据库中,这也是后边要讲到的“离线”与“在线”数据。
了解企业的数据处理需求
数据库到数据仓库,是事务型数据到剖析型数据的改变,剖析型数据需求包含的是:剖析的主题、数据的维度和层次,以及数据的前史改变等等。而对大数据渠道来说,对剖析的需求会更细,包含:
查询:快速呼应组合条件查询、含糊查询、标签
查找:包含对非结构化文档的查找、回来成果的排序
核算:实时反映改变,如电商渠道的在线出售订单与发货核算出的库存显现
发掘:支撑发掘算法、机器学习的练习集
针对不同的数据处理需求,或许需求规划不同的数据存储,还需求考虑怎么快速地将数据复制到对应的存储点并进行适宜的结构转化,以供剖析人员快速呼应事务的需求。
离线数据与在线数据
依据不同的企业事务,对“离线”的界说其实不一样,在这里离线数据特指在事务场景中适用于“前史数据”的部分。常见的前史数据查询剖析一般来自于特定时刻段,规划上需求考虑的是将数据存入前史库中时,树立时刻索引。另一种状况是某种事务问题的定位或剖析,在数据量巨大的状况下,依据Hadoop或Spark等结构编写剖析算法并直接在渠道上运转,能够大大节省数据导出导入、格局转化与各种剖析东西对接的时刻。
在线数据处理依照存储和剖析的先后次序,可分为批处理(先存储后剖析)和流处理(先剖析后存储)两类。Cassandra数据库的规划选用上数据追加写入方式,能够支撑实时批处理;流式核算渠道则有Apache Storm、Yahoo S4等开源结构,商业渠道有Amazon Kenisis(布置在云端)。企业的实时剖析需求往往有特定的使用场景,需求对事务和现行体系有深化的了解才干规划出一个合理的架构。

angst supermarket basarab

数据库和大数据的差异

关于数据库研究人员和从业人员而言,从数据库(DB)到大数据(BD)的改变能够用“池塘捕鱼”到“大海捕鱼”做类比。“池塘捕鱼”代表着传统数据库年代的数据管理方法,而 “大海捕鱼”则是大数据年代的数据管理方法。这些差异主要体现在如下几个方面:

1、数据规划

数据库和大数据最显着的差异便是规划。数据库规划相对较小,即便是从前以为比较大的数据库,比方 VLDB(Very Large Database),和大数据XLDB(Extremely Large Database)比起来仍是差很远。

数据库的处理目标一般以 MB 为根本单位,而大数据则是GB、TB、PB 为根本处理单位。

2、数据类型

传统数据库数据品种单一,往往仅仅有一种或少量几种,这些数据又以结构化数据为主。而大数据的品种数以亿计,而这些数据既包含结构化、半结构化以及非结构化的数据,重要的是半结构化和非结构化数据所占比例越来越大。

3.方式(Schema)和数据的联系

传统的数据库都是先有方式,然后才会发生数据。而大数据许多状况下难以预先确认方式,方式只要在数据呈现之后才干确认,且方式跟着数据量的增加处于不断的演化之中。

4.处理目标

传统数据库数据是其处理的目标。而大数据的处理目标除了是数据以外,还能经过这些数据去猜测其他数据呈现的或许性,将收集到的数据作为一种资源来辅佐处理其他许多范畴的问题。

薄荷之夜 2023-10-01 15:30:42
本网站引用、摘录或转载上述内容仅供网站访问者交流或参考,文中观点或信息与爱问公司无关,与之相关的任何事务以及法律责任均与爱问公司无关。

最新回答 换一换

1

问:孕早五十几天hcg多少是正常值

答:
答:怀孕五十几天hcg的正常值为15000-200000μg/L。hcg即人绒毛膜促性腺激素。人绒毛膜促性腺激素是由胎盘的滋养层细胞分泌的一种糖蛋白,是由α和β二聚体的糖蛋白组成的。人绒毛膜促性腺激素(HCG)αβ,由合体滋养细胞合成。

相关推荐

清水煮生蚝水开后要煮多久

清水煮生蚝水开后要煮5分钟左右,如果带壳生蚝需要煮10分钟左右。煮生蚝的时间与生蚝的外壳有一定的关系,如果是半壳生蚝,蒸煮的时间较短,一般为5分钟,如果是全壳生蚝,蒸煮的时间...
详情>
提问时间:2021-12-11

县档案局工作怎么样

县档案局工作,这是一份比较好的公务员的工作,是我国档案行政管理部门,工作比较轻松自在,而且工作收入都是比较稳定的。档案管理局,简称“档案局”,是我国档案行政管理部门,国家档案...
详情>
提问时间:2019-11-01

旋转木马代表什么

旋转木马常见的代表含义有两种:第一种是指看上去很美好,却是追逐、是等待、是永远无法触及的距离;第二种是指旋转木马是见证两个相爱的人的爱情游戏,只要两个真心相爱的人同时坐在旋转...
详情>
提问时间:2021-04-13

芋圆热量会比珍珠高吗

芋圆热量和珍珠差不多。原材料都是木薯粉一类的食材,热量是差不多的,芋圆和珍珠的热量是135kcal/100g。芋圆是一道著名的汉族小吃,属于福建和台湾地区的传统甜点。以芋头蒸...
详情>
提问时间:2021-04-06

几斤红薯出一斤淀粉

100g左右的红薯出一斤淀粉。红薯的淀粉含量在20%-28%不等,也有更高或者更低的,导致加工淀粉出粉率有较大差异,不过来说红薯淀粉的出粉率在5-5.5:1。100斤红薯如果...
详情>
提问时间:2020-11-27

漠北属于中国吗

漠北一部分属于中国。漠北又称岭北,指中国北方沙漠、戈壁以北的广大地区,漠北政治军事文化中心和林,清代特指乌里雅苏台将军辖区,清末通称为外蒙古。现分属于今俄罗斯、蒙古国、中国、...
详情>
提问时间:2021-07-02

南方电网下属企业是国企吗

南方电网下属企业是国企,因为南方电网是国企,所以下属企业也是国有企业。南方电网全称中国南方电网有限责任公司。中国南方电网有限责任公司,是中华人民共和国原国家电力公司经过电力体...
详情>
提问时间:2020-03-21

肉山泰拉瑞亚怎么召唤

首先玩家要准备一套比较安全的盔甲,如果是青铜、黄金盔甲就不需要了。然后玩家需要挖到地狱的位置,在上浮空岛这个地方,找到幸运马蹄铁,目的是用它能取消跌落伤害。两个格子一层,保证...
详情>
提问时间:2020-07-14

工艺中tfe是什么意思

TFe是指总铁或全铁的意思,T是Total的意思,Fe是铁的化学元素,即TotalFe。铁矿基本分析项目主要做全铁(TFe)分析,取消过去分析可溶铁(SFe)的要求;采用物相...
详情>
提问时间:2019-10-18

女士带钻戒正常戴哪个手指

女士带钻戒正常戴左手手指上,如果已结婚,一般戴在左手无名指上面。女生左手戴戒指的含义为:食指戴戒指代表单身、渴望浪漫的爱情降临,或者有结婚的打算;中指代表正在热恋中;无名指代...
详情>
提问时间:2019-12-02

佳能eos 1000d实时取景怎么设置

先把转盘模式调节到AVTVMP档,然后按MENU按键并找到设置菜单,之后选择实时取景,接着按SET键确定。实时取景以电子取景的方式通过观察LCD液晶监视器来取景拍摄,方便拍摄...
详情>
提问时间:2020-05-13

一节火车车厢的体积是多少

一节火车车厢的体积约是120立方米。按照火车车厢6米宽,2米高,10米长计算,它的体积为120立方米。车厢长度一般是25B,22B型的车体,它的全长是24点4米,换长为2点2...
详情>
提问时间:2020-07-13

早教是什么职业

早教也可称为早期教育指导师,是从事0—6岁婴幼儿保育、教育、养育的咨询、指导、顾问、教学的教师。与幼师不同,早教师不仅教育孩子,更主要的是教育家长,尤其是母亲。早教师可分为育...
详情>
提问时间:2020-01-10

湿气重可以吃牛蒡吗

牛蒡性寒,体内湿气重最好不吃,如果因其他保健需要,建议适量食用。因为牛蒡性寒,但营养价值极高,具有多种保健作用,是一种宝贵的药食两用蔬菜。...
详情>
提问时间:2019-12-27