你知道嗎？其實 Oracle 直方圖自動統計算法存在這些缺陷！

2020-04-15 15:40:40 啟迪雲Tuscloud

作者 | 吳海存

出品 | CSDN 雲計算（ID：CSDNcloud）

封圖| CSDN下載於視覺中國

在某些場景下，表中某一列的數據分佈會比較崎嶇，使得CBO(cost base optimizer)在評估執行計劃的時候可能會出現誤差，從而選擇了不優的執行計劃，影響了sql的執行性能。

為了改善這一情況，Oracle使用直方圖來向CBO描述列的數據分佈情況，比如列上唯一值數量和出現頻次等信息，從而幫助CBO選擇較優的執行計劃(主要體現在是否走index 或者table full scan)。

從10g開始，默認情況下，在收集統計信息的時候Oracle有一套機制和算法來自動地評估是否需要為某一列收集直方圖，而該機制和算法中的一些不完善性，有可能會引起性能問題(比如發生謂詞越界的時候)。

那麼Oracle是如何去判斷是否需要對某一列收集直方圖呢？Oracle會不會對數據分佈相對均衡的一些列自動創建直方圖呢？和數據類型有無關係呢？面對這一系列的問題，我們將在本文中使用10053 event對CBO進行跟蹤並闡述。

本文非知識講解或使用說明文檔，而是經過詳實的測試和驗證，一步一步地說明Oracle直方圖自動統計算法的缺陷和後期可能造成的潛在性能問題。

【實驗環境】

操作系統: centos8.0

數據庫版本：oracle 19.3.0.0

使用較高版本的數據庫版本，是為了驗證Oracle在新的版本中是否有對直方圖自動統計收集的機制和算法有改善。

因為oracle不推薦使用varchar2保存時間字符串，因為CBO在對varchar2列進行評估時，比如列密度，選擇性，唯一值等數據，是將varchar2轉換成raw格式進行評估的，raw存儲的是二進制值，在任何時候不會進行自動的字符集轉換，當使用utl_raw.cast_to_raw轉換時，會直接把字符串中的每個字符的ASCII碼存放到oracle raw類型的字段中。

由於本不相同的純數字的字符串被轉換成raw後值可能是一樣的，所以使用varchar2保存純數字字符串的時候，可能會造成CBO評估不準確。為了驗證直方圖自動收集是否和數據類型相關，本實驗中將會使用varchar2和date類型進行測試。

【10053事件常用信息說明】

表信息

Rows: 表記錄數

NBLKS: 高水位以下的block數

Blks: 表的數據塊數

AVG_ROW_LEN: 行的平均長度

TABLE_SCAN_CST: 全表掃描的IO成本

列信息

NDV(null_distinct) : 列的不重複值數

NULLs(num_nulls) : 列的空行數

DENS(density) : 列的密度，沒有直方圖的情況下=1/NDV

LO(low_value) : 列的最小值

HI(high_value) : 列的最大值

BKT(): 列的直方圖桶數，若為1，則沒有直方圖

Selectivity : 選擇率，用來計算列的基數，基數card=selectivity*rows

Newdensity : 直方圖密度 [(BktCnt-PopBktCnt)/BktCnt]/(NDV-PopValCnt)

Rounded : 輸出行數

索引信息

LVLS：索引高度 --BLEVEL BTREE

LB: 索引葉塊數 --LEAF_BLOCKS

DK: 索引唯一關鍵字數 -- DISTINCT_KEYS

LB/K: 每個關鍵字平均佔幾個葉塊葉塊/關鍵字

DB/K：每個關鍵字平均佔幾個數據塊數據塊/關鍵字

CLUF：索引集群因子 --CLUSTERING_FACTOR

實驗步驟

1.測試表中只有單月的varchar2數據類型情況

1.1 創建相應的表和模擬數據，此處我們先使用varchar2類型

<code>CREATE TABLE "DAY_TRNFLW"

( "DAY_FLWNO" VARCHAR2(25) NOT NULL ENABLE,

"DAY_TRNTIME" VARCHAR2(30) NOT NULL ENABLE,

"DAY_CSTNO" VARCHAR2(16),

"DAY_STDBSNCOD" VARCHAR2(30),

"DAY_CSTACC" VARCHAR2(60),

"DAY_ACCTYP" VARCHAR2(3),

"DAY_ACCCRY" VARCHAR2(3),

"DAY_TRNAMT" NUMBER(15,2),

"DAY_CHANNEL" VARCHAR2(20),

"DAY_TRNCOUNT" NUMBER) ;

create table t1 as select * from dba_objects;/<code>

1.2模擬數據，此時只模擬單月數據，數據不跨月，因為若數據跨月的話，oracle在轉換成raw類型的時候，會產生兩個internal value

<code>insert into DAY_TRNFLW (DAY_FLWNO,DAY_TRNTIME,DAY_CSTNO)

select rownum , to_char(to_date('20190901','yyyymmdd')+round(dbms_random.value(0 ,86400*3-1))/86400,'yyyymmddhh24miss') ,round(dbms_random.value(0,2000000))

from t1 where rownum<=5265655;

commit;  /<code>

1.3創建相應的索引

<code>CREATE INDEX "INDEX_DAY_TRNFLW_A" ON "DAY_TRNFLW" ("DAY_CSTNO", "DAY_CHANNEL", "DAY_TRNTIME");

CREATE INDEX "INDEX_DAY_TRNFLW_C" ON "DAY_TRNFLW" ("DAY_TRNTIME");/<code>

1.4收集統計信息並確認此時沒有自動收集直方圖

<code>exec dbms_stats.gather_table_stats(user,'DAY_TRNFLW',no_invalidate=>false);/<code>

說明：當使用如上命令收集統計信息時，直方圖默認是for all columns auto的方式，即由oracle根據相應的算法和機制自動判斷是否對列收集直方圖。

<code>col COLUMN_NAME format a30

col HISTOGRAM format a10

select column_name,histogram,low_value,high_value

from dba_tab_columns

where table_name='DAY_TRNFLW'

and column_name='DAY_TRNTIME' ;



COLUMN_NAME                    HISTOGRAM

------------------------------ ---------- 


LOW_VALUE

--------------------------------------------------------------------------------

HIGH_VALUE

--------------------------------------------------------------------------------

DAY_TRNTIME                    NONE

3230313930393031303030303131

3230313930393033323335393537/<code>

可以看到，此時並沒有收集直方圖

1.5 下面使用10053事件跟蹤CBO，確認無直方圖時是否會判斷謂詞越界

獲取會話ID

<code>SQL> select sid from v$mystat where rownum=1;

select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=&sid;

       SID

----------

      3515

SQL> SQL> Enter value for sid: 3515

old   1: select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=&sid

new   1: select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=3515

SPID                            PID

------------------------ ----------

28366                           157/<code>

1.6新開啟一個會話，使用oradebug對session 3515進行trace

<code>SQL> ORADEBUG SETORAPID 157;

Oracle pid: 157, Unix process pid: 28366, image: oracle@hqxtsl-oracle-a01 (TNS V1-V3)

SQL> oradebug event 10053 trace name context forever,level 2;/<code>

在session 3515中執行sql觸發硬解析（第一次執行）

<code>SQL> var p0 varchar2(30);

var p1 varchar2(30);

var p2 varchar2(30);

SQL> SQL> SQL> exec :p0:='12345';

exec :p1:='20190721';   

exec :p2:='20190722';   --由於表中都是9月份數據，所以此處變量p2超出了列DAY_TRNTIME的取值範圍

select SUM(nvl(DAY_TRNAMT,1)) as "sumAmt" , SUM(nvl(DAY_TRNCOUNT,1)) as "trnCount"  from DAY_TRNFLW

where DAY_CSTNO = :p0

and  DAY_TRNTIME between :p1 and :p2;

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL>   2    3



    sumAmt   trnCount
 

---------- ----------/<code>

1.7結束10053跟蹤，並找出相應的trace文件

<code>SQL> ORADEBUG TRACEFILE_NAME;

Statement processed.
SQL>oradebug event 10053 trace name context off

/oracle/app/oracle/diag/rdbms/dbcon/dbcon1/trace/dbcon1_ora_28366.trc/<code>

1.8經過分析10053事件的跟蹤文件，發現在沒有直方圖的情況下，就算傳遞超出列值範圍的綁定變量值，CBO在此情況下不會判斷謂詞越界的現象，分析如下：

綁定變量信息

<code>----- Bind Info (kkscoacd) -----

 Bind#0

  oacdty=01 mxl=128(90) mxlc=00 mal=00 scl=00 pre=00

  oacflg=03 fl2=1000000 frm=01 csi=873 siz=384 off=0

  kxsbbbfp=7fa6f5003ce8  bln=128  avl=05  flg=05

  value="12345"

 Bind#1

  oacdty=01 mxl=128(90) mxlc=00 mal=00 scl=00 pre=00

  oacflg=03 fl2=1000000 frm=01 csi=873 siz=0 off=128

  kxsbbbfp=7fa6f5003d68  bln=128  avl=08  flg=01

  value="20190721"

 Bind#2 


  oacdty=01 mxl=128(90) mxlc=00 mal=00 scl=00 pre=00

  oacflg=03 fl2=1000000 frm=01 csi=873 siz=0 off=256

  kxsbbbfp=7fa6f5003de8  bln=128  avl=08  flg=01

  value="20190722"/<code>

執行計劃篩選分析

<code>=====================================

Access path analysis for DAY_TRNFLW

***************************************

SINGLE TABLE ACCESS PATH

  Single Table Cardinality Estimation for DAY_TRNFLW[DAY_TRNFLW]

  SPD: Return code in qosdDSDirSetup: NOCTX, estType = TABLE

  Column (#3): DAY_CSTNO(VARCHAR2)

    AvgLen: 8 NDV: 70976 Nulls: 0 Density: 0.000014

  Estimated selectivity: 1.4089e-05 , col: #3

 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_CSTNO"=:B1

  Estimated selectivity: 1.4089e-05 , col: #3

 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME">=:B1

  Column (#2): DAY_TRNTIME(VARCHAR2)  --此處數據類型是varchar2

    AvgLen: 15 NDV: 63912 Nulls: 0 Density: 0.000016

  Estimated selectivity: 1.000000 , col: #2    --說明：該處的選擇率為1是正確的，因為表中所有的行都滿足大於綁定變量的值’20190721’，基數即為所有的行

 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME"<=:B1

  Using density: 1.5647e-05 of col #2 as selectivity of unpopular value pred   --因為從謂詞中得不到合適的選擇率，此處直接使用上面的密度，這裡可以看到，雖然傳遞的綁定變量值’20190722’都小於列值(9月份數據)，CBO並沒有判斷髮生了謂詞越界 


  Table: DAY_TRNFLW  Alias: DAY_TRNFLW

    Card: Original: 73269.000000  Rounded: 1  Computed: 0.000016  Non Adjusted: 0.000016                --使用該密度的情況下，輸出值認為是1

  Scan IO  Cost (Disk) =   102.000000

  Scan CPU Cost (Disk) =   16556182.800000

.

.

.

  Best:: AccessPath: IndexRange

  Index: INDEX_DAY_TRNFLW_A      --CBO選擇了正確的索引A

         Cost: 3.000594  Degree: 1  Resp: 3.000594  Card: 0.000016  Bytes: 0.000000/<code>

確認在執行sql查詢後,表sys.col_usage$裡已有列DAY_TRNTIME的謂詞使用信息,因為若該表中沒有列DAY_TRNTIME的謂詞使用記錄，則收集統計信息時候不會主動收集直方圖

<code>SQL> select * from sys.col_usage$ where obj#=114538;

      OBJ#    INTCOL# EQUALITY_PREDS EQUIJOIN_PREDS NONEQUIJOIN_PREDS RANGE_PREDS LIKE_PREDS NULL_PREDS TIMESTAMP      FLAGS

---------- ---------- -------------- -------------- ----------------- ----------- ---------- ---------- --------- ----------

    114538          2              0              0                 0           3          0          0 20-FEB-20          8

    114538          3              3              0                 0           0          0          0 20-FEB-20        513/<code>

1.9進行統計信息蒐集

<code>SQL> exec dbms_stats.gather_table_stats(user,'DAY_TRNFLW',no_invalidate=>false);

PL/SQL procedure successfully completed./<code>

1.10確認直方圖信息

<code>SQL> col COLUMN_NAME format a30

col HISTOGRAM format a10

select column_name,histogram,low_value,high_value

from dba_tab_columns

where table_name='DAY_TRNFLW'

and column_name='DAY_TRNTIME' ;SQL> SQL>   2    3    4

COLUMN_NAME                    HISTOGRAM

------------------------------ ----------

LOW_VALUE

--------------------------------------------------------------------------------

HIGH_VALUE

--------------------------------------------------------------------------------

DAY_TRNTIME                    NONE

3230313930393031303030303032

3230313930393033323335393532/<code>

說明：可以發現即使col_usage$裡有列DAY_TRNTIME的謂詞使用記錄，但是由於表中只有9月份的記錄，轉換成RAW格式後只有一個internal value, CBO認為該列上的值分均均衡，沒有收集直方圖信息。

測試表中含有多月(8月和9月)的數據進行

2.1將表中數據更新為8月份，模擬多月數據

<code>update DAY_TRNFLW set DAY_TRNTIME=to_char(to_date(DAY_TRNTIME,'yyyymmddhh24miss')-3,'yyyymmddhh24miss') where rownum<=10000;

commit;/<code>

2.2收集統計信息

<code>SQL> exec dbms_stats.gather_table_stats(user,'DAY_TRNFLW',no_invalidate=>false);/<code>

使用如下sql檢查，發現當表中有8月和9月的數據時，收集統計信息的時候oracle自動收集了直方圖

<code>SQL> col COLUMN_NAME format a30

col HISTOGRAM format a10

select column_name,histogram,low_value,high_value

from dba_tab_columns

where table_name='DAY_TRNFLW'

and column_name='DAY_TRNTIME' ;SQL> SQL>   2    3    4

COLUMN_NAME                    HISTOGRAM

------------------------------ ----------

LOW_VALUE
 

--------------------------------------------------------------------------------

HIGH_VALUE

--------------------------------------------------------------------------------

DAY_TRNTIME                    HYBRID

3230313930383239303030303032

3230313930393033323335393532/<code>

此時，將已有的sql執行計劃從share pool中清理掉，重新觸發硬解析並使用10053進行跟蹤，發現CBO在有直方圖的情況下判斷了是否會發生謂詞越界。

2.3從share pool中清理現有sql執行計劃，以便重新硬解析該sql(10053事件只能跟蹤硬解析，不能跟蹤軟解析和軟軟解析)

<code>SQL> select sql_id,address,hash_value,PLAN_HASH_VALUE from v$sql where sql_id='&sql_id';

Enter value for sql_id: azf5wm5qhptmy

old   1: select sql_id,address,hash_value,PLAN_HASH_VALUE from v$sql where sql_id='&sql_id'

new   1: select sql_id,address,hash_value,PLAN_HASH_VALUE from v$sql where sql_id='azf5wm5qhptmy'

SQL_ID        ADDRESS          HASH_VALUE PLAN_HASH_VALUE

------------- ---------------- ---------- ---------------

azf5wm5qhptmy 00000000FF897F90 1829430910      2119561882

SQL> BEGIN

 DBMS_SHARED_POOL.PURGE('&address,&hash_value', 'C');

END;

/  2    3    4

Enter value for address: 00000000FF897F90 


Enter value for hash_value: 1829430910

old   2:  DBMS_SHARED_POOL.PURGE('&address,&hash_value', 'C');

new   2:  DBMS_SHARED_POOL.PURGE('00000000FF897F90,1829430910', 'C');

PL/SQL procedure successfully completed.

SQL> select sql_id,address,hash_value,PLAN_HASH_VALUE from v$sql where sql_id='azf5wm5qhptmy';

no rows selected/<code>

2.4執行sql並使用上面同樣的oradebug方法進行trace,並對跟蹤文件進行分析

執行計劃分析

<code>Access path analysis for DAY_TRNFLW
***************************************
SINGLE TABLE ACCESS PATH
  Single Table Cardinality Estimation for DAY_TRNFLW[DAY_TRNFLW]
  SPD: Return code in qosdDSDirSetup: NOCTX, estType = TABLE
  Column (#3): DAY_CSTNO(VARCHAR2)
    AvgLen: 8 NDV: 70976 Nulls: 0 Density: 0.000014
  Estimated selectivity: 1.4089e-05 , col: #3
 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_CSTNO"=:B1
  Estimated selectivity: 1.4089e-05 , col: #3
 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME">=:B1
  Column (#2):
    NewDensity:0.000015, OldDensity:0.000015 BktCnt:5371.000000, PopBktCnt:0.000000, PopValCnt:0, NDV:65096
  Column (#2): DAY_TRNTIME(VARCHAR2)
    AvgLen: 15 NDV: 65096 Nulls: 0 Density: 0.000015
  Histogram: Hybrid  #Bkts: 254  UncompBkts: 5371  EndPtVals: 254  ActualVal: yes
  Estimated selectivity: 1.000000 , col: #2    --此處CBO評估出來選擇率還是1，因為所有行都滿足大於’20190721’的條件，但是在收集直方圖統計信息的時候，桶數為254，因此收集統計信息的時候是可以探測到該列上是存在大於或等於254個唯一值的，且有5371個被壓縮的buckets
 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME"<=:B1 

  Using prorated density: 6.8242e-06 of col #2 as selectivity of out-of-range/non-existent value pred  --此處CBO根據直方圖判斷出發生了謂詞越界
.
.
.
  Access Path: index (RangeScan)
    Index: INDEX_DAY_TRNFLW_A
    resc_io: 4.000000  resc_cpu: 29216   --CBO評估出走索引A的開銷為4
    ix_sel: 1.4089e-05  ix_sel_with_filters: 9.6148e-11
    Cost: 4.000785  Resp: 4.000785  Degree: 1
 ****** Costing Index INDEX_DAY_TRNFLW_C
  SPD: Return code in qosdDSDirSetup: NOCTX, estType = INDEX_SCAN
  SPD: Return code in qosdDSDirSetup: NOCTX, estType = INDEX_FILTER
  Estimated selectivity: 1.000000 , col: #2
  Using prorated density: 6.8242e-06 of col #2 as selectivity of out-of-range/non-existent value pred
  Access Path: index (RangeScan)
    Index: INDEX_DAY_TRNFLW_C
    resc_io: 3.000000  resc_cpu: 21919   --CBO通過索引C可以直接通過謂詞越界過濾掉所有的行，評估出走索引C的開銷為3，低於索引A   
    ix_sel: 6.8242e-06  ix_sel_with_filters: 6.8242e-06
    Cost: 3.000588  Resp: 3.000588  Degree: 1
    Used INDEX_DAY_TRNFLW_C
      Cost = 3.000393, sel = 1.5362e-05
    Not used INDEX_DAY_TRNFLW_A
      Cost = 4.000590, sel = 1.4089e-05
.
.
.
  ****** finished trying bitmap/domain indexes ******
  Best:: AccessPath: IndexRange
  Index: INDEX_DAY_TRNFLW_C       --最終，CBO通過比較開銷，選擇了索引C，SQL的執行計劃發生了相應變化
         Cost: 3.000588  Degree: 1  Resp: 3.000588  Card: 0.000016  Bytes: 0.000000/<code>

至此，我們可以得出如下結論：

1.表裡有了時間為8月份和9月份的數據時，在對列值DAY_CSTNO轉換成RAW後，生成了兩個internal values, Oracle收集統計信息的時候，根據相應的算法和機制自動對該列收集了直方圖

2.表裡只有9月份的數據時，在對列值DAY_CSTNO轉換成RAW後，只有一個internal values，此時即使col_usage$裡有列DAY_TRNTIME的謂詞使用記錄，Oracle收集統計信息時，根據相應的算法和機制會認為數據分佈均勻(單值是均勻分佈的特殊情況，只有一個internal value)，不會主動對該列收集直方圖

重新解析時，傳遞的綁定變量值為’20190722’，不在列值的數值範圍之內，由於該列存在了直方圖，CBO檢查出了謂詞越界，謂詞越界使得通過索引INDEX_DAY_TRNFLW_C查找7月份的數據效率更高（直接過濾，返回空結果集），若後續併發的會話執行該sql時都共享使用了此執行計劃，則有可能造成性能問題。

但是，此處會引出新的疑問，為什麼當表列上只有9月份的數據時沒有統計直方圖，當列上同時存在8月和9月的數據值時才會統計直方圖呢？這兩個internal values是怎麼生成的呢？

列"DAY_TRNTIME" 被定義為 VARCHAR2(30)，且該列存儲的是純數字的時間字符串。Oracle CBO在對varchar2類型的列評估時，比如列密度，選擇性，唯一值等數據時，是將varchar2轉換成raw格式進行評估的，raw存儲的是二進制值，在任何時候不會進行自動的字符集轉換，但是，由於本不相同的純數字的字符串被轉換成raw後值可能是一樣的，所以使用varchar2保存純數字字符串的時候，可能會造成CBO評估不準確。這一點，我們可以從數據字典表dba_tab_columns中得到一定的證實：

<code>SQL> desc dba_tab_columns

 Name                                      Null?    Type

 ----------------------------------------- -------- ----------------------------

 OWNER                                     NOT NULL VARCHAR2(128)

 TABLE_NAME                                NOT NULL VARCHAR2(128)

 COLUMN_NAME                               NOT NULL VARCHAR2(128)

.

.

.

 LOW_VALUE                                          RAW(2000)

 HIGH_VALUE                                         RAW(2000)/<code>

說明：可以看到列的最值是被轉換成raw類型放在數據庫中的，該最值在有直方圖的時候會被用來判斷是否謂詞越界。

RAW轉換模擬測試

我們可以使用utl_raw函數模擬了一下CBO對列進行評估，可以發現純數字字符串被轉換成raw的時候的確變成了一樣的值

<code>SQL> select utl_raw.cast_to_raw('DAY_TRNTIME') from DAY_TRNFLW where rownum<=10;

UTL_RAW.CAST_TO_RAW('DAY_TRNTIME')

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

4441595F54524E54494D45

SQL> select utl_raw.cast_to_raw('DAY_TRNTIME') raw_for_cbo, count(1) from DAY_TRNFLW group by 1;

RAW_FOR_CBO

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

  COUNT(1)
 

----------

4441595F54524E54494D45

     73269/<code>

說明：該函數只是為了模擬測試使用，CBO具體使用什麼轉換函數，筆者查了相應的資料，並且也對統計信息會話進行了10046 trace和分析，目前沒有得到準確的結果。

但是從此時該列上的數據實際分佈情況來判斷，數據分佈並不傾斜：

<code>select DAY_TRNTIME, count(1) num_rows from DAY_TRNFLW group by DAY_TRNTIME order by 2;

.

.

.

20190901200645                          4

20190901200958                          4

20190901213042                          4

20190901224944                          4

20190902005954                          4

20190902092241                          4

20190902102315                          4

20190902113652                          4

20190902135131                          4

20190902151930                          4

20190902172156                          4 


DAY_TRNTIME                      NUM_ROWS

------------------------------ ----------

20190902173951                          4

20190902182755                          4

20190902201506                          4

20190903001538                          4

20190903033351                          4

20190903040014                          4

20190903180612                          4

20190902212139                          5

65887 rows selected./<code>

說明：該列上重複值最多的列值僅僅為5行，分佈相對均衡，所以是沒有必要統計直方圖的，但是Oracle根據相應的算法和機制，為該列統計了直方圖，CBO再次進行綁定變量窺測的時候，有可能會選擇效率不高的執行計劃，造成後續的性能問題(如上面同時存在8，9月份數據的測試案例)。

Date數據類型測試

如上所述，Oracle不建議使用varchar2保存純數字的字符串，因為轉換成RAW後可能會造成CBO評估不準確。下面，我們將該列改成date類型進一步測試

4.1創建date型數據表

<code>SQL> drop table DAY_TRNFLW;

Table dropped.

SQL> CREATE TABLE "DAY_TRNFLW"

( "DAY_FLWNO" VARCHAR2(25) NOT NULL ENABLE,

"DAY_TRNTIME" date NOT NULL ENABLE,

  2    3  "DAY_CSTNO" VARCHAR2(16),

"DAY_STDBSNCOD" VARCHAR2(30),

  4    5  "DAY_CSTACC" VARCHAR2(60),

  6    7  "DAY_ACCTYP" VARCHAR2(3),

"DAY_ACCCRY" VARCHAR2(3),

"DAY_TRNAMT" NUMBER(15,2),

"DAY_CHANNEL" VARCHAR2(20),

"DAY_TRNCOUNT" NUMBER);  8    9   10   11

Table created.

insert into DAY_TRNFLW (DAY_FLWNO,DAY_TRNTIME,DAY_CSTNO) 


select rownum , to_date('20190901','yyyymmdd')+round(dbms_random.value(0,86400*3-1))/86400 ,round(dbms_random.value(0,2000000))

from t1,t1 where rownum<=5265655;

commit;/<code>

4.2模擬表中同時存在8月和9月的數據

<code>update DAY_TRNFLW set DAY_TRNTIME=DAY_TRNTIME-3 where rownum<=10000;

Commit;/<code>

4.3確認col_usage$是否有謂詞使用記錄

<code>SQL> select object_id from dba_objects where owner='SAM' and object_name='DAY_TRNFLW';

 OBJECT_ID

----------

    114546

SQL> select * from sys.col_usage$ where obj#=114546;

no rows selected./<code>

4.4執行一下sql,以便oracle可以記錄該謂詞使用記錄

<code>SQL> var p0 varchar2(30);

var p1 varchar2(30);

var p2 varchar2(30);

exec :p0:='12345';

exec :p1:=to_date('20190721','yyyymmdd');

exec :p2:=to_date('20190722','yyyymmdd'); 


select SUM(nvl(DAY_TRNAMT,1)) as "sumAmt" , SUM(nvl(DAY_TRNCOUNT,1)) as "trSQL> nCount"  from DAY_TRNFLW where

DAY_CSTNO = :p0 and

DAY_TRNTIME between :p1 and :p2;SQL> SQL>

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL> SQL>   2    3

    sumAmt   trnCount

---------- ----------



SQL> select * from sys.col_usage$ where obj#=114546;

      OBJ#    INTCOL# EQUALITY_PREDS EQUIJOIN_PREDS NONEQUIJOIN_PREDS

---------- ---------- -------------- -------------- -----------------

RANGE_PREDS LIKE_PREDS NULL_PREDS TIMESTAMP      FLAGS

----------- ---------- ---------- --------- ----------

    114546          2              0              0                 0

          1          0          0 20-FEB-20          8



    114546          3              1              0                 0

          0          0          0 20-FEB-20        513/<code>

4.5收集統計信息

<code>SQL> exec dbms_stats.gather_table_stats(user,'DAY_TRNFLW',no_invalidate=>false);/<code>

4.6清理原有執行計劃

<code>SQL> alter system flush shared_pool;

System altered./<code>

4.7進行date類型的10053跟蹤

開啟會話跟蹤

<code>SQL> select sid from v$mystat where rownum=1;

select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=&sid;

       SID

----------

      2664

SQL> SQL> Enter value for sid: 2664

old   1: select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=&sid

new   1: select spid,pid from v$process a ,v$session b where a.addr=b.paddr AND  b.sid=2664

SPID                            PID

------------------------ ----------

18094                           150

SQL> ORADEBUG SETORAPID  150;

Oracle pid: 150, Unix process pid: 18094, image: oracle@hqxtsl-oracle-a01 (TNS V1-V3)

SQL> oradebug event 10053 trace name context forever,level 2;

Statement processed./<code>

執行sql，觸發硬解析

<code>SQL> var p0 varchar2(30);

var p1 varchar2(30);

var p2 varchar2(30);

SQL> SQL> SQL> exec :p0:='12345';

exec :p1:=to_date('20190721','yyyymmdd');

exec :p2:=to_date('20190722','yyyymmdd');

select SUM(nvl(DAY_TRNAMT,1)) as "sumAmt" , SUM(nvl(DAY_TRNCOUNT,1)) as "trnCount"  from DAY_TRNFLW where

DAY_CSTNO = :p0 and

DAY_TRNTIME between :p1 and :p2;

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL>

PL/SQL procedure successfully completed.

SQL> SQL>   2    3

    sumAmt   trnCount

---------- ----------/<code>

關閉10053跟蹤

<code>SQL> ORADEBUG TRACEFILE_NAME;

Statement processed.
SQL>oradebug event 10053 trace name context off;

/oracle/app/oracle/diag/rdbms/dbcon/dbcon1/trace/dbcon1_ora_18094.trc/<code>

4.8進行date類型的10053分析

<code>Access path analysis for DAY_TRNFLW

***************************************

SINGLE TABLE ACCESS PATH

  Single Table Cardinality Estimation for DAY_TRNFLW[DAY_TRNFLW]

  SPD: Return code in qosdDSDirSetup: NOCTX, estType = TABLE

  Column (#3): DAY_CSTNO(VARCHAR2)

    AvgLen: 8 NDV: 1866880 Nulls: 0 Density: 0.000001

  Estimated selectivity: 5.3565e-07 , col: #3

 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_CSTNO"=:B1

  Estimated selectivity: 5.3565e-07 , col: #3

 kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME">=:B1

  Column (#2):

    NewDensity:0.000004, OldDensity:0.000004 BktCnt:5495.000000, PopBktCnt:0.000000, PopValCnt:0, NDV:272032

  Column (#2): DAY_TRNTIME(DATE)

    AvgLen: 8 NDV: 272032 Nulls: 0 Density: 0.000004 Min: 2458725.000243 Max: 2458730.999988

    Histogram: Hybrid  #Bkts: 254  UncompBkts: 5495  EndPtVals: 254  ActualVal: no --換成date後，此處的選擇率同樣為1，並且同樣收集了直方圖

  Estimated selectivity: 1.000000 , col: #2    

kkecdn: Single Table Predicate:"DAY_TRNFLW"."DAY_TRNTIME"<=:B1

  Using prorated density: 9.4955e-08 of col #2 as selectivity of out-of-range/non-existent value pred  --此處同樣發生了謂詞越界

  Table: DAY_TRNFLW  Alias: DAY_TRNFLW

    Card: Original: 5265655.000000  Rounded: 1  Computed: 0.000010  Non Adjusted: 0.000010

.

.
 

.

  ****** finished trying bitmap/domain indexes ******

  Best:: AccessPath: IndexRange   -可以發現，換成date後該問題一樣重現，說明和該列的數據類型無關係，而是和oracle收集直方圖的機制和算法有關係

  Index: INDEX_DAY_TRNFLW_C1

         Cost: 4.000779  Degree: 1  Resp: 4.000779  Card: 0.000010  Bytes: 0.000000/<code>

說明：將列修改為date類型後，當表中存在8月和9月的數據時，oracle同樣對列DAY_TRNFLW收集了直方圖並檢查了謂詞越界，說明和該列的數據類型無關係，而是由oracle收集直方圖的機制和算法決定的。

4.9檢查數據分佈情況

<code>select DAY_TRNTIME, count(1) num_rows from DAY_TRNFLW group by DAY_TRNTIME order by 2;

.

.

.

03-SEP-19         40

03-SEP-19         40

03-SEP-19         40

03-SEP-19         40

02-SEP-19         40

DAY_TRNTI   NUM_ROWS 


--------- ----------

01-SEP-19         40

01-SEP-19         40

03-SEP-19         41

02-SEP-19         41

03-SEP-19         41

03-SEP-19         41

01-SEP-19         42

03-SEP-19         42

01-SEP-19         42

01-SEP-19         42

02-SEP-19         43

269016 rows selected./<code>

說明：在526W的表中，重複值最多的列值也只有43行，這不算是數據分佈不均衡，並不需要收集直方圖信息，因為最相對於表數據，該列選擇率還是很高的，但是此時Oracle根據相應的算法和機制，一樣為該列收集了直方圖，可能會造成後續執行計劃的改變。

Oracle在自動收集直方圖的時，當相應的列被當作謂詞使用並被capture到col_usage$後，Oracle會遵循以下幾個原則來判斷是否要創建直方圖，相應說明如下：

1.The column has value skew and column usage indicates RANGE, LIKE, EQ or EQ_JOIN.(列值分區崎嶇，且相應的列被用作上訴謂詞)

2.The column has range skew and column usage indicates LIKE or RANGE.(列值在相同大小的範圍內，數據分區崎嶇，且相應的列被用作上訴謂詞)

備註：列值崎嶇和範圍崎嶇是數據分佈崎嶇的兩種類型。

3.The column has a low number of distinct values (with some repeated values) and column usage indicates RANGE, LIKE, EQ or EQ_JOIN.(列上的唯一值相對於表的總行數而言較少，且相應的列被用作上訴謂詞，Oracle默認收集統計信息的時候，也對改列收集直方圖)

4.When incremental statistics are used, and even though a column might not have value/range skew in a partition, a histogram may be created. The database will use partition-level histograms to derive global histograms. Histograms created for non-skewed data are ignored by optimizer stats.(當對分區表增量收集統計信息時，oracle可能也會為數據分佈並不崎嶇的列在分區級別收集統計信息，以此來獲得全表的統計信息，不過CBO會忽略這些分佈並不崎嶇的列上的直方圖)

通過實驗和分析，我們可知基於原則3，在將列值進行RAW轉換後，Oracle很有可能會在數據分佈相對均衡但是轉換成RAW後的唯一值數和表總行數相差較大的列上創建直方圖，造成執行計劃的變更，從而引起執行計劃波動和性能問題，一直到19.3.0.0版本，該算法和機制也沒有得到進一步的改善。

目前規避該問題最好的解決辦法是，作為DBA和開發人員，需要儘量多地瞭解表中數據的實際分佈情況，在收集統計信息的時候，根據數據的實際分佈情況和謂詞使用情況手工地收集直方圖，而不是由Oracle代替我們來進行判斷是否需要收集直方圖。

吳海存，10g/11g/12c OCM, Oracle Exadata/Golden Gate 專家, 曾於Amazon和Oracle公司擔任全球業務資深DBA，目前供職於中國農業銀行，擔任資深數據庫專家。

分享到:

閱讀更多 啟迪雲Tuscloud 的文章

關鍵字: CSDN 統計算法算法

商湯提出基於空間修剪的 NAS 算法

Learning To Rank 算法 RankNet

【算法】排序算法之基數排序

【算法】排序算法之桶排序

【算法】排序算法之計數排序

【算法】排序算法之堆排序

數據結構與算法：算法

【算法】位運算與經典八皇后問題

什麼是算力？算法？一文看懂算法學習拓撲圖

查找-hash 算法

爭取能讓大家都能看懂的 DFA 算法

視頻分析與對象跟蹤-CamShift 算法

史上最全GAN綜述2020版：算法、理論及應用

人工智能的靈魂——算法

阿里2020年內部PPT全棧分享：架構、大數據、算法

深入理解 React diff 算法

03.03 史上最全GAN綜述2020版：算法、理論及應用

圖像分割實戰-分水嶺分割方法和GrabCut 算法

03.02 分佈式系統ID的生成方法之UUID、數據庫、算法、Redis、Leaf方案

02.25 《GANs生成式對抗網絡綜述：算法、理論與應用》最新論文

Python 算法 10 -- 廣度優先搜索（BFS）

一文讀懂 MD5 算法

Python 算法 09 -- 散列表

Python 算法 08 -- 快速排序

淺顯介紹“二進制枚舉”算法

分佈式系統ID的生成方法之UUID、數據庫、算法、Redis、Leaf方案

01.20 Python 算法 08 -- 冒泡排序及其優化

01.17 Python 算法 06 --“又愛又恨”的遞歸算法

01.16 Python 算法 05 -- 3+4*5-6=？在棧中的調用

Python 算法 01--二分查找

C++基礎知識-算法

palindrome(迴文)算法

12.07 面試又被問到一致性 Hash 算法？這樣回答秒殺面試官

算法--我的紅黑樹學習過程

用講故事的辦法幫你理解 SMO 算法

漫畫說什麼是 LRU 算法？

算法--平衡二叉樹AVL原理分析以及代碼實現

算法-二叉查找樹BST

10.12 CPK的“另類”算法

「分佈式」看完這個動畫秒懂 Raft 算法

貝葉斯個性化排序(BPR)算法

01.10 路徑規劃之 A* 算法

算法：時間複雜度+二分查找法(Java

算法：加權輪詢算法

算法：分治算法

06.29 「算法」如何判斷鏈表有環

06.19 算法——初級排序算法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"