Oracle 表三种连接方式(sql优化）

kavin apache 2023-02-25 1129浏览 0

转自网络

1. NESTED LOOP

对于被连接的数据子集较小的情况，nested loop连接是个较好的选择。nested loop就是扫描一个表，每读到一条记录，就依据索引去还有一个表里面查找，没有索引一般就不会是 nested loops。一般在nested loop中，驱动表满足条件结果集不大，被驱动表的连接字段要有索引。这样就走nstedloop。假设驱动表返回记录太多，就不适合nested loops了。假设连接字段没有索引。则适合走hash join，由于不须要索引。

可用ordered提示来改变CBO默认的驱动表，可用USE_NL(table_name1 table_name2)提示来强制使用nested loop。

要点例如以下：
1）对于被连接的数据子集较小的情况，嵌套循环连接是个较好的选择
2）使用USE_NL(table_name1 table_name2)但是强制CBO 运行嵌套循环连接
3）Nested loop一般用在连接的表中有索引。而且索引选择性较好的时候
4）OIN的顺序非常重要。驱动表的记录集一定要小，返回结果集的响应时间是最快的。
5）Nested loops 工作方式是从一张表中读取数据，訪问还有一张表（一般是索引）来做匹配。nested loops适用的场合是当一个关联表比較小的时候，效率会更高。

2. HASH JOIN

hash join是CBO 做大数据集连接时的经常使用方式。

优化器扫描小表（数据源），利用连接键（也就是依据连接字段计算hash 值）在内存中建立hash表，然后扫描大表。每读到一条记录就探測hash表一次，找出与hash表匹配的行。

当小表能够所有放入内存中，其成本接近全表扫描两个表的成本之和。假设表非常大不能全然放入内存，这时优化器会将它切割成若干不同的分区，不能放入内存的部分就把该分区写入磁盘的暂时段，此时要有较大的暂时段从而尽量提高I/O 的性能。暂时段中的分区都须要换进内存做hash join。这时候成本接近于全表扫描小表+分区数*全表扫描大表的代价和。

至于两个表都进行分区。其优点是能够使用parallel query，就是多个进程同一时候对不同的分区进行join，然后再合并。

可是复杂。

使用hash join时，HASH_AREA_SIZE初始化參数必须足够的大，假设是9i，Oracle建议使用SQL工作区自己主动管理，设置WORKAREA_SIZE_POLICY 为AUTO，然后调整PGA_AGGREGATE_TARGET就可以。

下面条件下hash join可能有优势：
1）两个巨大的表之间的连接。

2）在一个巨大的表和一个小表之间的连接。

要点例如以下：
   1）散列连接是CBO 做大数据集连接时的经常使用方式.
   2）也能够用USE_HASH(table_name1 table_name2)提示来强制使用散列连接
   3）Hash join在两个表的数据量区别非常大的时候.
   4）Hash join的工作方式是将一个表（一般是小一点的那个表）做hash运算并存储到hash列表中。从还有一个表中抽取记录，做hash运算。到hash 列表中找到对应的值。做匹配。

可用ordered提示来改变CBO默认的驱动表。可用USE_HASH(table_name1 table_name2)提示来强制使用hash join。

3. SORT MERGE JOIN

a）对连接的每一个表做table access full；
b）对table access full的结果进行排序；
c）进行merge join对排序结果进行合并。

sort merge join性能开销差点儿都在前两步。

通常是在没有索引的情况下，9i開始已经非常少出现。由于其排序成本高，大多为hash join替代。
通常情况下hash join的效果都比sort merge join要好。可是，假设行源已经被排过序。在运行sort merge join时不须要再排序。这时sort merge join的性能会优于hash join。
当全表扫描比“索引范围扫描后再通过rowid进行表訪问”更可取的情况下，sort merge join会比nested loops性能更佳。

要点例如以下：
1）使用USE_MERGE(table_name1 table_name2)来强制使用排序合并连接.
2）Sort Merge join 用在没有索引，而且数据已经排序的情况.
3）连接步骤：将两个表排序，然后将两个表合并。
4）通常情况下，仅仅有在下面情况发生时。才会使用此种JOIN方式：
     a）RBO模式
     b）不等价关联(>,<,>=,<=,<>)
     c）bHASH_JOIN_ENABLED=false
     d）数据源已排序
     e）Merge Join 是先将关联表的关联列各自做排序，然后从各自的排序表中抽取数据，到还有一个排序表中做匹配，由于merge join须要做很多其它的排序。所以消耗的资源很多其它。

f) like ,not like
通常来讲，可以使用merge join的地方。hash join都可以发挥更好的性能

可用USE_MERGE(table_name1 table_name2)提示强制使用sort merge join。

转载请注明：IT运维空间 » apache » Oracle 表三种连接方式(sql优化）