网络上看了很多关于B-TREE的总结,b树,B-树,B+树,B*树(艾玛怎么还4个呢?都快蒙圈了呢),
有的真的很精彩令人佩服,但是都是篇幅太长啊,一大长段的文字就让人望而生畏啊。干脆做一个简化版的总结,通俗移动点介绍下,说说他们的区别。
一.B树
Binary Tree,就是一个二叉树。(什么K呀h,n啥的公式这里不说了,有兴趣的可以自己搜搜..) (1)所有非叶子结点至多拥有两个儿子(Left和Right); (2)所有结点存储一个关键字; (3)非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;(简单说,左边比自己小,右边比自己大)二.B-树
平衡二叉树(Balance Binary Tree) --AVL树【这里的B,其实是balance的意思哦~】 (1)根节点的左子树和右子树的深度最多相差1.(确保了不会出现上图右边的极端现象) (2)根节点的左子树和右子树叶都是一棵平衡二叉树。 (3)所有结点都有存储关键字; 无论插入的序列是怎么样,我们都能通过调整构建一棵平衡二叉树,保证二叉树中的每个节点的平衡因子都不会大于1,保证了树的深度达到最浅,从而比较的次数就会更少,时间复杂度就会降低三.B+树
B+的搜索与B-树也基本相同,区别是B+树只有达到叶子结点才命中(B-树可以在非叶子结点命中) (1)所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的;(只有根节点存储关键字最后树的末梢才有值) (2)非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层。(非根节点,存储的其实是指向根节点的索引) (3) 因为前两点,所以不可能在非叶子结点存数据。(区别B-的第三条) (4)根节点横向也有链指针(方便快速顺藤摸瓜嘛,没这个指针,就算下一个取的值是挨着的邻居,也得跑个圈才能拿到)注意,我们一般用到的索引结果,或者通常指的B-TREE结构,大部分就是在说B+结构啦~~
一篇还不错的文章,介绍了B+树插入的过程:http://hedengcheng.com/?p=525
四.B*树
是B+树的变体, (1)B+树的非根和非叶子结点再增加指向兄弟的指针;[对比上边B+的第4条,在非根节点也添加横向链表]图 B * 树
五.总结:
B树:二叉树,
每个结点只存储一个关键字,等于则命中,小于走左结点,大于走右结点;(但B树在经过多次插入与删除后,有可能导致不同的结构),为此,加上平衡算法后生成平衡二叉树,又称B-树B-树:在B 树的基础上,加上平衡算法,多路搜索树,
1.每个结点存储M/2到M个关键字, 2.非叶子结点存储指向关键字范围的子结点; 3.所有关键字在整颗树中出现,且只出现一次, 4.叶子节点,非叶子结点都可以命中(是否存了数据);B+树:在B-树基础上,
1.为叶子结点增加链表指针;2.所有关键字都在叶子结点中出现,
3.非叶子结点作为叶子结点的索引;
4.B+树总是到叶子结点才命中;B*树:在B+树基础上,为非叶子结点也增加链表指针,将结点的最低利用率从1/2提高到2/3;
疑问:B*效率高了,但但觉为什么b*树用的比较少呢?????或者哪里有用吗??可能还是见的太少了。。有了解的童鞋可以互相学习下,敬请赐教,在这里先谢谢啦~
解答:最近得知,有个叫Reiser4的文件系统好像使用到了这种结构。其作者Hans Reiser,因为他老婆让他带了绿帽子,就把老婆杀了,蹲大牢了,直接影响到了项目进度。。。
参考:
https://blog.csdn.net/ty_hf/article/details/53526822
https://www.2cto.com/database/201411/351106.html