利用散列法来处理大的静态统一表格

原文出处:http://www.chinaitlab.com/www/news/article_show.asp?id=19833

数据库中的散列法是使用计算值来分配表格数据的方法,它比在整个索引中搜索要好的多。一个哈希散列允许你在数据库表格中存储数据,以便这些行的关键计算的相同值存储在相同的位置。

为了在哈希散列中找到一个行,查询机应用哈希函数到一个行的关键值,然后分配和那个值相关的数据块。在很多情况下,一个哈希散列比一个普通的索引快。

Oracle在Oracle 7面世的时候就支持哈希散列。哈希散列的优势仅仅在于当表格的访问在关键值上首先使用的是=操作符,这个表格是静态的,并且仅仅当数据行需要的时候。当和一个普通非索引或者散列表格比较的时候,全表扫描就会变慢。

比如,假设你想要创建一个表格来查找英语单词的发音。你需要迅速的分配一个英语单词的发音,但是一个字典,比如cmudict0.3有大概106,000个单词。

创建哈希散列最大的工作任务就是分析参数。你需要计算分析每个散列的带和散列关键字包含的内容数量。如果三类是正整数,那么你可以设置最小值的大小如果你需要定义自己哈希函数。

对于任何其他类型的数据,比如下面这个列子,你需要计算参数的最小大小。你可以通过使用DBMS_UTILITY.GET_HASH_VALUE函数来获得一个确切的估计。

create table cmudict
(
  word varchar2(22) primary key,
  pron varchar2(62)
);

使用其他的快速装入程序比如SQL*来装入这些数据:

select max(blksize)
  from (select sum(3+nvl(vsize(word),0)+1+nvl(vsize(pron),0)+1) blksize
        from cmudict group by dbms_utility.get_hash_value(word,1,10007)) blkqry;

NVL(VSIZE(col),0)+1表达式使用每个栏来分析字节的数字。3+是行的开销,所以表达式的总和是存储每个行所需要的大小。在每个哈希函数组中,求和行的大小,我们获得每个散列数据块所许哟啊的字节数量。1是真的不切实际,但是10007,一个质数,是对哈希关键字参数的最好猜测。

增加或者减少这个值到另外一个质数知道上面的分析结果降低数据块大小的重要性。这些数字,分析的结果和GET_HASH_VALUE的第三个参数应该被使用来创造散列。

现在你可以创造一个散列并使用这个散列存储数据再创建一个表格。

create cluster cmudict_cluster (word varchar2(22))
  size 6000
  single table
  hashkeys 739;
create table cmudict
(
  word varchar2(22) not null,
  pron varchar2(62)
)
cluster cmudict_cluster(word);

如果你需要分析这个散列:

analyze cluster cmudict_cluster compute statistics;
select * from user_clusters where cluster_name = 'CMUDICT_CLUSTER';

你可以看到AVG_BLOCKS_PER_KEY 是 1.

可以为查询语句做注解select * from cmudict where word = 'HELLO' returns:

SELECT STATEMENT
 TABLE ACCESS HASH
CMUDICT