Infobright架构

来源：测品娱乐

支持FreeBSD、Linux、MAC、Windows等多种操作系统。与其他的大型数据库例如Oracle、DB2、SQL Server等相比功能稍弱一些 1、可以处理拥有上千万条记录的大型数据 2、支持常见的SQL语句规范 3、可移植行高，安装简单小巧

4、良好的运行效率，有丰富信息的网络支持 5、调试、管理，优化简单（相对其他大型数据库）三原则：简单易用、高效、可靠 MySQL结构：

分为三层：逻辑连接层，SQL层，存储引擎

1、Connectors指的是不同语言中与SQL的交互

2、Management Serveices & Utilities：系统管理和控制工具

3、Connection Pool: 连接池。管理缓冲用户连接，线程处理等需要缓存的需求。

4、SQL Interface: SQL接口。接受用户的SQL命令，并且返回用户需要查询的结果。比如select from就是调用SQL Interface。

5、Parser: 解析器。SQL命令传递到解析器的时候会被解析器验证和解析。解析器是由Lex和YACC实现的，是一个很长的脚本。主要功能： a . 将SQL语句分解成数据结构，并将这个结构传递到后续步骤，以后SQL语句的传递和处理就是基于这个结构的。

b. 如果在分解构成中遇到错误，那么就说明这个sql语句是不合理的。

6、Optimizer: 查询优化器。SQL语句在查询之前会使用查询优化器对查询进行优化。他使用的是“选取-投影-联接”策略进行查询。

用一个例子就可以理解： select uid,name from user where gender = 1;

这个select 查询先根据where 语句进行选取，而不是先将表全部查询出来以后再进行gender过滤。这个select查询先根据uid和name进行属性投影，而不是将属性全部取出以后再进行过滤。将这两个查询条件联接起来生成最终查询结果。 7、Cache和Buffer：查询缓存如果查询缓存有命中的查询结果，查询语句就可以直接去查询缓存中取数据。这个缓存机制是由一系列小缓存组成的。比如表缓存，记录缓存，key缓存，权限缓存等。 8、Engine ：存储引擎

存储引擎是MySql中具体的与文件打交道的子系统。也是Mysql最具有特色的一个地方。 Mysql的存储引擎是插件式的。它根据MySql AB公司提供的文件访问层的一个抽象接口来定制一种文件访问机制（这种访问机制就叫存储引擎）。现在有很多种存储引擎，各个存储引擎的优势各不一样，最常用的MyISAM,InnoDB,BDB。默认下MySql是使用MyISAM引擎，它查询速度快，有较好的索引优化和数据压缩技术。但是它不支持事务。InnoDB支持事务，并且提供行级的锁定，应用也相当广泛。 Mysql也支持自己定制存储引擎，甚至一个库中不同的表使用不同的存储引擎，这些都是允许的。

1集成利用广泛。和众多的BI套件相容，比如Pentaho、Cognos、Jaspersof

2降低运维成本。随着数据库的逐渐增大，查询和装载性能持续保持稳定，实施和管理简单，需要极少的管理

3商业保证。第一个商业支持的开源仓储分析数据库，是Oracle/MySQL 官方推荐的仓储集成架构

Infobright架构

如上图所示，Infobright采用了和MySQL一致的构架，分为两层。上层是服务及应用管理，下层是存储引擎。Infobright的默认存储引擎是brighthouse，但是Infobright还可以支持其他的存储引擎，比如MyISAM、MRG_MyISAM、Memory、CSV。Infobright通过三层来组织数据，分别是DP(Data Pack)、DPN（Data Pack Node）、KN（Knowledge Node）。而在这三层之上就是无比强大的知识网络（Knowledge Grid）。

数据块（DP）是存储的最低层，列中每K个单元组成一个DP。DP比列更小，具有更好的压缩比率；又比单个数据单元更大，具有更好的查询性能。

数据块节点（DPN），DPN和DP之间是一对一的关系。DPN记录着每一个DP里面存储和压缩的一些统计数据，包括最大值、最小值、null的个数、单元总数count、sum等等。

KN里面存储着指向DP之间或者列之间关系的一些元数据集合，比如值发生的范围（MIin_Max）、列数据之间的关联。大部分的KN数据是装载数据的时候产生的，另外一些事是查询的时候产生。在这三层之上是知识网络（Knowledge Grid），Knowledge Grid构架是Infobright高性能的重要原因。

1. 2.

跟mysql一样的两层结构，上面的逻辑层处理查询逻辑，下面的是存储引擎。逻辑层右端的loader与unloader是infobright的数据导入导出模块，也即处理SQL语句里LOAD DATA INFILE „ 与SELECT „ INTO FILE任务，由于infobright面向的是海量数据环境，所以这个数据导入导出模块是一个的服务，并非直接使用mysql的模块。

3. 4.

逻辑层的infobright优化器包在mysql查询优化器的外面，如下面将会提到的，因为它的存储层有一些特殊结构，所以查询优化方式也跟mysql有很大差异。

存储层最底层是一个个的Data Pack（数据块）。每一个Pack装着某一列的K个元素，所有数据按照这样的形式打包存储，每一个数据块进行类型相关的压缩（即根据不同数据类型采用不同的压缩算法），压缩比很高。它上层的压缩器与解压缩器就做了这个事情。

压缩层再向上就是infobright最重要的概念：Knowledge Grid（知识网格），这也是infobright放弃索引却能应用于大量数据查询的基础。它包含两类结点：每个Data Pack Node（知识节点）对应于一个Data Pack，存储该Data Pack的一些统计信息，如min, max, avg, null的个数，甚至不同值的量等等；Knowledge Node则存储了一些更高级的统计信息，以及与其它表的连接信息，这里面的信息有些是数据载入时已经算好的，有些是随着查询进行而计算的，所以说是具备一定的“智能”的。

由于infobright具有很强的数据压缩比，数据存储高效，硬件环境决定它适合做数据挖掘。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

Infobright架构