高考考试网
当前位置: 首页 高考资讯

简单理解聚集索引(一文看懂聚集索引和非聚集索引的区别)

时间:2023-05-22 作者: 小编 阅读量: 3 栏目名: 高考资讯

我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。

一、深入浅出理解索引结构

实际上,可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集索引的区别:

其实,我们的汉语字典的正文本身就是一个聚集索引。比如,我们要查“安”字,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的,那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”开头的部分仍然找不到这个字,那么就说明您的字典中没有这个字。也就是说,字典的正文部分本身就是一个目录,您不需要再去查其他目录来找到您需要找的内容。我们把这种正文内容本身就是一种按照一定规则排列的目录称为“聚集索引”。

如果遇到不认识的字,不知道它的发音,这时候,需要去根据“偏旁部首”查到您要找的字,然后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并不是真正的正文的排序方法,比如您查“张”字,我们可以看到在查部首之后的检字表中“张”的页码是672页,检字表中“张”的上面是“驰”字,但页码却是63页,“张”的下面是“弩”字,页面是390页。很显然,这些字并不是真正的分别位于“张”字的上下方,现在您看到的连续的“驰、张、弩”三字实际上就是他们在非聚集索引中的排序,是字典正文中的字在非聚集索引中的映射。我们可以通过这种方式来找到您所需要的字,但它需要两个过程,先找到目录中的结果,然后再翻到您所需要的页码。我们把这种目录纯粹是目录,正文纯粹是正文的排序方式称为“非聚集索引”。

通过以上例子,我们可以理解到什么是“聚集索引”和“非聚集索引”。进一步引申一下,我们可以很容易的理解:每个表只能有一个聚集索引,因为目录只能按照一种方法进行排序。

二、区别及优缺点

区别:

聚集索引一个表只能有一个,而非聚集索引一个表可以存在多个 聚集索引存储记录是物理上连续存在,而非聚集索引是逻辑上的连续,物理存储并不连续 聚集索引:物理存储按照索引排序;聚集索引是一种索引组织形式,索引的键值逻辑顺序决定了表数据行的物理存储顺序。非聚集索引:物理存储不按照索引排序;非聚集索引则就是普通索引了,仅仅只是对数据列创建相应的索引,不影响整个表的物理存储顺序。索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块。优势与缺点:

聚集索引插入数据时速度要慢(时间花费在“物理存储的排序”上,也就是首先要找到位置然后插入),查询数据比非聚集数据的速度快。

三、需要搞清楚的几个问题

第一:聚集索引的约束是唯一性,是否要求字段也是唯一的呢?

第二:为什么聚集索引可以创建在任何一列上,如果此表没有主键约束,即有可能存在重复行数据呢?

粗一看,这还真是和聚集索引的约束相背,但实际情况真可以创建聚集索引。

第三:是不是聚集索引就一定要比非聚集索引性能优呢?如果想查询学分在60-90之间的学生的学分以及姓名,在学分上创建聚集索引是否是最优的呢?

第四:在数据库中通过什么描述聚集索引与非聚集索引的?

第五:在主键是创建聚集索引的表在数据插入上为什么比主键上创建非聚集索引表速度要慢?

有了上面第四点的认识,我们分析这个问题就有把握了,在有主键的表中插入数据行,由于有主键唯一性的约束,所以需要保证插入的数据没有重复。我们来比较下主键为聚集索引和非聚集索引的查找情况:聚集索引由于索引叶节点就是数据页,所以如果想检查主键的唯一性,需要遍历所有数据节点才行,但非聚集索引不同,由于非聚集索引上已经包含了主键值,所以查找主键唯一性,只需要遍历所有的索引页就行(索引的存储空间比实际数据要少),这比遍历所有数据行减少了不少IO消耗。这就是为什么主键上创建非聚集索引比主键上创建聚集索引在插入数据时要快的真正原因。

四、何时使用聚集索引或非聚集索引五、结合实际,谈索引使用的误区

理论的目的是应用。虽然我们刚才列出了何时应使用聚集索引或非聚集索引,但在实践中以上规则却很容易被忽视或不能根据实际情况进行综合分析。下面我们将根据在实践中遇到的实际问题来谈一下索引使用的误区,以便于大家掌握索引建立的方法。

1、主键就是聚集索引–错误想法的

这种想法是极端错误的,是对聚集索引的一种浪费。虽然默认是在主键上建立聚集索引的。

通常,我们会在每个表中都建立一个ID列,以区分每条数据,并且这个ID列是自动增大的,步长一般为1。如果我们将这个列设为主键,mysql会将此列默认为聚集索引。这样做有好处,就是可以让您的数据在数据库中按照ID进行物理排序,但这样做意义不大。

显而易见,聚集索引的优势是很明显的,而每个表中只能有一个聚集索引的规则,这使得聚集索引变得更加珍贵。

从我们前面谈到的聚集索引的定义我们可以看出,使用聚集索引的最大好处就是能够根据查询要求,迅速缩小查询范围,避免全表扫描。在实际应用中,因为 ID号是自动生成的,我们并不知道每条记录的ID号,所以我们很难在实践中用ID号来进行查询。这就使让ID号这个主键作为聚集索引成为一种资源浪费。其次,让每个ID号都不同的字段作为聚集索引也不符合“大数目的不同值情况下不应建立聚合索引”规则;当然,这种情况只是针对用户经常修改记录内容,特别是索引项的时候会负作用,但对于查询速度并没有影响。

如在办公自动化系统中,无论是系统首页显示的需要用户签收的文件、会议还是用户进行文件查询等任何情况下进行数据查询都离不开字段的是“日期”还有用户本身的“用户名”。

通常,办公自动化的首页会显示每个用户尚未签收的文件或会议。虽然我们的where语句可以仅仅限制当前用户尚未签收的情况,但如果您的系统已建立了很长时间,并且数据量很大,那么,每次每个用户打开首页的时候都进行一次全表扫描,这样做意义是不大的,绝大多数的用户1个月前的文件都已经浏览过了,这样做只能徒增数据库的开销而已。事实上,我们完全可以让用户打开系统首页时,数据库仅仅查询这个用户近3个月来未阅览的文件,通过“日期”这个字段来限制表扫描,提高查询速度。如果您的办公自动化系统已经建立的2年,那么您的首页显示速度理论上将是原来速度8倍,甚至更快。

在这里之所以提到“理论上”三字,是因为如果您的聚集索引还是盲目地建在ID这个主键上时,您的查询速度是没有这么高的,即使您在“日期”这个字段上建立的索引(非聚合索引)。下面我们就来看一下在1000万条数据量的情况下各种查询的速度表现(3个月内的数据为25万条):

虽然每条语句提取出来的都是25万条数据,各种情况的差异却是巨大的,特别是将聚集索引建立在日期列时的差异。事实上,如果您的数据库真的有1000 万容量的话,把主键建立在ID列上,就像以上的第1、2种情况,在网页上的表现就是超时,根本就无法显示。这也是摒弃ID列作为聚集索引的一个最重要的因素。得出以上速度的方法是:在各个select语句前加:

declare @d datetime set @d=getdate() 并在select语句后加:select [语句执行花费时间(毫秒)]=datediff(ms,@d,getdate())

2、只要建立索引就能显著提高查询速度–错误想法的

事实上,我们可以发现上面的例子中,第2、3条语句完全相同,且建立索引的字段也相同;不同的仅是前者在fariqi字段上建立的是非聚合索引,后者在此字段上建立的是聚合索引,但查询速度却有着天壤之别。所以,并非是在任何字段上简单地建立索引就能提高查询速度。

从建表的语句中,我们可以看到这个有着1000万数据的表中fariqi字段有5003个不同记录。在此字段上建立聚合索引是再合适不过了。在现实中,我们每天都会发几个文件,这几个文件的发文日期就相同,这完全符合建立聚集索引要求的:“既不能绝大多数都相同,又不能只有极少数相同”的规则。由此看来,我们建立“适当”的聚合索引对于我们提高查询速度是非常重要的。

3、把所有需要提高查询速度的字段都加进聚集索引,以提高查询速度–错误想法的

上面已经谈到:在进行数据查询时都离不开字段的是“日期”还有用户本身的“用户名”。既然这两个字段都是如此的重要,我们可以把他们合并起来,建立一个复合索引(compound index)。

很多人认为只要把任何字段加进聚集索引,就能提高查询速度,也有人感到迷惑:如果把复合的聚集索引字段分开查询,那么查询速度会减慢吗?带着这个问题,我们来看一下以下的查询速度(结果集都是25万条数据):(日期列fariqi首先排在复合聚集索引的起始列,用户名neibuyonghu排在后列):

从以上试验中,我们可以看到如果仅用聚集索引的起始列作为查询条件和同时用到复合聚集索引的全部列的查询速度是几乎一样的,甚至比用上全部的复合索引列还要略快(在查询结果集数目一样的情况下);而如果仅用复合聚集索引的非起始列作为查询条件的话,这个索引是不起任何作用的。当然,语句1、2的查询速度一样是因为查询的条目数一样,如果复合索引的所有列都用上,而且查询结果少的话,这样就会形成“索引覆盖”,因而性能可以达到最优。同时,请记住:无论您是否经常使用聚合索引的其他列,但其前导列一定要是使用最频繁的列。

六、其他书上没有的索引使用经验总结

1、用聚合索引比用不是聚合索引的主键速度快

下面是实例语句:(都是提取25万条数据)

这里,用聚合索引比用不是聚合索引的主键速度快了近1/4。

2、用聚合索引比用一般的主键作order by时速度快,特别是在小数据量情况下

这里,用聚合索引比用一般的主键作order by时,速度快了3/10。事实上,如果数据量很小的话,用聚集索引作为排序列要比使用非聚集索引速度快得明显的多;而数据量如果很大的话,如10万以上,则二者的速度差别不明显。

3、使用聚合索引内的时间段,搜索时间会按数据占整个数据表的百分比成比例减少,而无论聚合索引使用了多少个:

4、日期列不会因为有分秒的输入而减慢查询速度

下面的例子中,共有100万条数据,2004年1月1日以后的数据有50万条,但只有两个不同的日期,日期精确到日;之前有数据50万条,有5000个不同的日期,日期精确到秒。

    推荐阅读
  • 豆角焖鸡翅根怎么做(豆角炖鸡翅根做法)

    下面希望有你要的答案,我们一起来看看吧!豆角焖鸡翅根怎么做食材明细:鸡翅根6个、豆角500g、植物油1勺、五花肉30g、大葱1段、姜4片、蒜2粒、干红辣椒3根、料酒1勺、酱油2勺、花椒粉1匙、鸡汁1匙、海鲜酱2匙;鸡翅根两面划几刀方便入味。冷水入锅焯出血水。锅中加入植物油,放入五花肉翻炒至变色。放入料酒,酱油,花椒粉,鸡汁和海鲜酱。炒匀后倒入适量清水烧开转小火煮40分钟后大火收汁即可。

  • 刻舟求剑成语故事及翻译(成语故事刻舟求剑)

    但是如果船是移动的,在船行驶到其他位置后,还按照在船身上刻的记号找剑,找得到么?肯定是不可能,因为船的位置已经发生了改变。但《吕氏春秋·察今》中记载的一位楚国人却觉得可以。刻个记号便于打捞宝剑,原本并无错,可是把记号刻在了移动的船上,那岂不等于没有记号吗?不注意变化的楚国人,可以说是对不知变通之人的绝妙讽刺,生动地验证了“不努力,很糟糕。只知努力,不知变通,更糟糕!”

  • 为什么现在电表转得那么快(电表走的快是因为什么呢)

    同时要常保持冰箱背部清洁,因为冷凝器和压缩机的表面灰尘会影响散热效果。热的食品应待其冷却后到室温后再放入冰箱;避免浪费电能。制作冷冻食品应使用冷开水,忌用热开水,最好在夜间放入冰箱,因夜间环境温度低。

  • 小赢卡贷逾期多久爆通讯录(小赢卡贷会暴通讯录)

    小赢卡贷逾期以后,系统会逾期短信告知借款人,让借款人进行还款。小赢卡贷工作人员也会拨打电话告知借款人,催借款人还款,并不会爆通讯录。但是催收无果的情况下,一旦超过一个月的时间,就会开始打电话爆通讯录。

  • 养肥牛最佳方法(如何养牛)

    育肥过程中使用适当的脲酶抑制剂预混料,可提高肉牛日增重18%以上。经常搞好环境卫生和进行防疫灭病工作,定期驱除体内外寄生虫,控制和杜绝传染病与内外科病的发生。肉牛育肥达500公斤左右时应尽快出栏。因体重超过500公斤后,日增重下降,每公斤增重的耗料量增加,育肥成本提高,利润下降。

  • 烤红薯片技巧(教你做减肥低脂的香烤红薯片)

    下面内容希望能帮助到你,我们来一起看看吧!烤红薯片技巧红薯2个,鸡蛋2个玉米淀粉60克,柠檬汁几滴,蜂蜜适量。准备所需要的食材。搅拌成细腻的糊。红薯去皮后切片。将红薯片裹满鸡蛋淀粉糊。放入铺了油纸的烤盘中。烤箱提前180度预热。将红薯片放入,中层烘烤约25分钟。烘烤最后五分钟的时候可以取出,在红薯片表面刷一层蜂蜜,这样更香甜。

  • 为什么会恐惧一个人心理学(人为什么会恐惧)

    人的恐惧在心理上可以分为四种,对失败的恐惧,被拒绝的恐惧,对未来的恐惧,对死亡的恐惧。恐惧还会引发很多负面情绪,愤怒、悲伤、嫉妒、仇恨等。恐惧又分为真实恐惧和虚假恐惧,像疾驶而来的汽车,正在发生的地震,这些都是真实的恐惧。在动物世界中,保持警惕的兔子才能活得更久,狐狸来了,立刻逃跑就还有活命的机会,但凡有一丝松懈和犹豫代价都是致命的。甩掉狐狸后,兔子又恢复了安静吃草的状态。

  • 生孩子的危险程度大概是多少(生孩子带来的伤害多久能治愈)

    本以为这样保持好心情生产之后还会一如既往。2020年5月15日凌晨4点半左右肚子开始疼,到5点半左右开始有规律阵痛,开始用手机记录阵痛的时间间隔,从10分钟疼一次到5分钟疼一次,我们决定去医院,9点左右到达医院检查开三指,医生就让进待产室。第三天医生通知可以回家了,又请了好朋友来帮忙因为婆婆真的指望不上。以上是月子期间让我可以记一辈子的不好感受,还有很多很多说不完。不过最大的感受就是憋屈、无助。

  • 测体温需要多少分钟(测体温一般需要多少分钟)

    在进行检测的时候,患者需要提前将腋窝下汗液擦干,然后将体温计水银端,紧贴腋窝皮肤深处,然后将腋窝夹紧,以保证检测结果的准确。除了腋窝测温法以外,患者还可以采取口腔测温法及肛门测温法,准确度与腋窝测温法质上没有区别。建议在静息的时候测量体温,避免剧烈运动。

  • 电磁炉两分钟自动停哪里坏了(我把电磁炉自动跳停的故障解决了)

    首先,拔掉电源。把电磁炉拿到外面桌面上,垫一块毛巾,把电磁炉反过来放。拧下后面的螺丝,卸下陶瓷面板。后盖保护罩的散热孔都快完全堵住了。把热敏电阻的插头也拔了出来,等下把上面已经干化了的导热硅脂清理干净。重新打上导热硅脂。试用,问题解决。都有可能导致电磁炉自动跳停。自然故障也就解决了。这件事也许对于修理电器的师傅来说,可能会不值一提。