Oracle 分页查询与数据去重深入理解

2019-07-22

加入收藏

Oracle 分页查询

一、效率高的写法

1.无ORDER BY排序的写法。(效率最高)

(经过测试，此方法成本最低，只嵌套一层，速度最快！即使查询的数据量再大，也几乎不受影响，速度依然！)

SELECT *

FROM (SELECT ROWNUM AS rowno, t.*

FROM emp t

WHERE hire_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060731', 'yyyymmdd')

AND ROWNUM <= 20) table_alias

WHERE table_alias.rowno >= 10;

2.有ORDER BY排序的写法。(效率较高)

(经过测试，此方法随着查询范围的扩大，速度也会越来越慢哦！)

SELECT *

FROM (SELECT tt.*, ROWNUM AS rowno

FROM ( SELECT t.*

FROM emp t

WHERE hire_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060731', 'yyyymmdd')

ORDER BY create_time DESC, emp_no) tt

WHERE ROWNUM <= 20) table_alias

WHERE table_alias.rowno >= 10;

二、效率垃圾但又似乎很常用的分页写法

3.无ORDER BY排序的写法。(建议使用方法1代替)

(此方法随着查询数据量的扩张，速度会越来越慢哦！)

SELECT *

FROM (SELECT ROWNUM AS rowno, t.*

FROM k_task t

WHERE flight_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060731', 'yyyymmdd')) table_alias

WHERE table_alias.rowno <= 20 AND table_alias.rowno >= 10;

--TABLE_ALIAS.ROWNO between 10 and 100;

4.有ORDER BY排序的写法.(建议使用方法2代替)

(此方法随着查询范围的扩大，速度会越来越慢哦！)

SELECT *

FROM (SELECT tt.*, ROWNUM AS rowno

FROM ( SELECT *

FROM k_task t

WHERE flight_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060531', 'yyyymmdd')

ORDER BY fact_up_time, flight_no) tt) table_alias

WHERE table_alias.rowno BETWEEN 10 AND 20;

5.另类语法。(有ORDER BY写法）

(语法风格与传统的SQL语法不同，不方便阅读与理解，为规范与统一标准，不推荐使用。)

WITH partdata AS

(

SELECT ROWNUM AS rowno, tt.*

FROM ( SELECT *

FROM k_task t

WHERE flight_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060531', 'yyyymmdd')

ORDER BY fact_up_time, flight_no) tt

WHERE ROWNUM <= 20)

SELECT *

FROM partdata

WHERE rowno >= 10;

--6另类语法。(无ORDER BY写法）

WITH partdata AS

(

SELECT ROWNUM AS rowno, t.*

FROM k_task t

WHERE flight_date BETWEEN TO_DATE ('20060501', 'yyyymmdd')

AND TO_DATE ('20060531', 'yyyymmdd')

AND ROWNUM <= 20)

SELECT *

FROM partdata

WHERE rowno >= 10;

三、分析

Oracle的分页查询语句基本上可以按照本文给出的格式来进行套用。

分页查询格式：

SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a

WHERE ROWNUM <= 40)

WHERE rn >= 21

其中最内层的查询SELECT * FROM TABLE_NAME表示不进行翻页的原始查询语句。ROWNUM <= 40和RN >= 21控制分页查询的每页的范围。

上面给出的这个分页查询语句，在大多数情况拥有较高的效率。分页的目的就是控制输出结果集大小，将结果尽快的返回。在上面的分页查询语句中，这种考虑主要体现在WHERE ROWNUM <= 40这句上。

选择第21到40条记录存在两种方法，一种是上面例子中展示的在查询的第二层通过ROWNUM <= 40来控制最大值，在查询的最外层控制最小值。而另一种方式是去掉查询第二层的WHERE ROWNUM <= 40语句，在查询的最外层控制分页的最小值和最大值。这是，查询语句如下：

SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a)

WHERE rn BETWEEN 21 AND 40

对比这两种写法，绝大多数的情况下，第一个查询的效率比第二个高得多。

这是由于CBO优化模式下，Oracle可以将外层的查询条件推到内层查询中，以提高内层查询的执行效率。对于第一个查询语句，第二层的查询条件WHERE ROWNUM <= 40就可以被Oracle推入到内层查询中，这样Oracle查询的结果一旦超过了ROWNUM限制条件，就终止查询将结果返回了。

而第二个查询语句，由于查询条件BETWEEN 21 AND 40是存在于查询的第三层，而Oracle无法将第三层的查询条件推到最内层（即使推到最内层也没有意义，因为最内层查询不知道RN代表什么）。因此，对于第二个查询语句，Oracle最内层返回给中间层的是所有满足条件的数据，而中间层返回给最外层的也是所有数据。数据的过滤在最外层完成，显然这个效率要比第一个查询低得多。

上面分析的查询不仅仅是针对单表的简单查询，对于最内层查询是复杂的多表联合查询或最内层查询包含排序的情况一样有效。

这里就不对包含排序的查询进行说明了，下一篇文章会通过例子来详细说明。

下面简单讨论一下多表联合的情况。

对于最常见的等值表连接查询，CBO一般可能会采用两种连接方式NESTED LOOP和HASH JOIN（MERGE JOIN效率比HASH JOIN效率低，一般CBO不会考虑）。在这里，由于使用了分页，因此指定了一个返回的最大记录数，NESTED LOOP在返回记录数超过最大值时可以马上停止并将结果返回给中间层，而HASH JOIN必须处理完所有结果集（MERGE JOIN也是）。那么在大部分的情况下，对于分页查询选择NESTED LOOP作为查询的连接方法具有较高的效率（分页查询的时候绝大部分的情况是查询前几页的数据，越靠后面的页数访问几率越小）。

因此，如果不介意在系统中使用HINT的话，可以将分页的查询语句改写为：

SELECT *

FROM (SELECT a.*, ROWNUM rn

FROM (SELECT *

FROM table_name) a

WHERE ROWNUM <= 40)

WHERE rn >= 21

Oracle 数据去重

一、完全重复数据去重方法

具体思路是，首先创建一个临时表，然后将DISTINCT之后的表数据插入到这个临时表中;然后清空原表数据;再讲临时表中的数据插入到原表中;最后删除临时表。

对于表中完全重复数据去重，可以采用以下SQL语句。

--Code

CREATE TABLE "#temp" AS (SELECTDISTINCT * FROM 表名); --创建临时表，并把DISTINCT 去重后的数据插入到临时表中

truncate TABLE 表名; --清空原表数据

INSERT INTO 表名 (SELECT * FROM "#temp"); --将临时表数据插入到原表中

DROP TABLE "#temp"; --删除临时表

二、部分数据去重方法

我们可以考虑建立临时表，将需要判断重复的字段、rowid插入临时表中，然后删除的时候在进行比较。

createtable 临时表 as

select a.字段1,a.字段2,MAX(a.ROWID) dataid from 正式表 a GROUPBY a.字段1,a.字段2;

deletefrom 表名 a

where a.rowid !=

(

select b.dataid from 临时表 b

where a.字段1 = b.字段1 and

a.字段2 = b.字段2

);

commit;

实例：

-- 根据MAX(a.rowid)筛选重复的数据，获得一张数据不重复的临时表

create table 临时表 as

select a.ip,a.port,MAX(a.ROWID) dataid from ipresult

a GROUP BY a.ip,a.port;

-- 删除正式表中重复数据，只保留最新的一条数据

delete from ipresult a

where a.rowid !=

(

select b.dataid from 临时表 b

where a.ip = b.ip and

a.port= b.port

);

--删除临时表并提交

drop table 临时表;

commit;