当前位置 : 网站首页 > 新闻中心

2019

10-16


来源:

浏览: 6

作者:

空间数据仓库中的维度和度量建模
博士,主要研究方向:数据库知识发现和大型数据库应用。空间数据仓库中的维度和度量建模史磊,史云(1。郑州大学计算机系,郑州450052中国科学院软件研究所,北京100080),并将其扩展到两个方面,即在测量中向维添加空间成分。 1简介创建,使用和维护空间数据仓库的技术与传统数据仓库有很大不同。传统数据仓库在处理空间数据方面有很大的局限性。它们需要在结构上和功能上得到扩展,以便很好地应用于空间决策分析。由于星/雪结构提供了简单而有组织的操作数,因此基本框架仍可以用于空间数据仓库的建模。相比之下,星形结构更简洁,OLAP易于操作且易于浏览。它比雪花结构更适合于空间数据仓库建模。因此,本文采用星形结构设计逻辑数据仓库。 。 2D建模2.1维度类型可以在空间数据仓库中创建三种类型的维度:非空间维度仅包含非空间数据的维度,并且它们的广义值也是非空间的。空间非空间维这种类型的维以原始概念级别的空间数据为特征,但其广义值在较高级别上变为非空间。例如,在一家保险公司中,地图上各个保单持有人的分布是根据空间数据来表示的,这些保单持有人数据可以被概括为一些非空间值,例如,可以概括为保险公司分支机构。保单持有人的更高级别的概括值全部成为非空间数据。这种类型的维度与非空间维度具有相似的作用。空间空间维原始概念层次结构及其所有高级概括数据都是空间数据。例如,每个保单持有人的详细分布及其概括数据,例如每个保单持有人在单元格中的分布,邮政编码区域中的分布以及每个管理区域中的分布都是空间数据。前两种情况说明:对于空间属性,有很多方法可以将其概括为高级概念。概化的高级概念可以是空间描述,例如表示较大区域的地图,也可以是非空间描述,例如区域的区域的一般描述。生成2.2维的方式有3种:专家/用户是否基于属性之间的关系或特定数据值之间的关系指定了维?使用空间数据分析技术(例如空间聚类,空间分类或空间相关性分析)自动生成?计算得出的度量标准在数据仓库中用作一维使用,称为度量折叠维。例如,每月区域性计算机应用程序的保费可以视为一个维度,并且可以进一步概括为范围值分布或描述性值,例如高,中和低保费。 3个度量的建模在空间数据仓库中可以建立两种类型的度量:3.1数值度量仅包含数值数据的度量。数值度量可以进一步分为分布式,代数和整体。如果可以使用多维数据集分区和分布式聚合来计算度量,则该度量将是分布式的,例如计数,总和,最大值。如果一个度量可以与分布式度量的代数运算一起使用,则它是代数的,例如平均值,标准偏差,如果一个描述其子聚合的存储空间大小的度量没​​有固定的约束,那么它是全局的,例如作为频繁,排名。本文的范围仅限于分布式度量和代数度量。 3.2空间度量空间度量包含指向空间对象的指针的集合。例如,在概览(或概括)操作中,可以将属于同一溢价区间的区域归为同一单元,以使所得度量包含指向这些区域的指针的集合。部门维度:经理的部门代理经理的时间维度:年季度月日时间保险类型维度:保险类型保险地理范围:市区行政区邮政编码分区单元格业务地址分配模型。可以看出,数据仓库包含四个维度:时间维度,部门维度,保险维度和地理维度。其中,时间维度,部门维度和保险类型维度属于非空间维度,地理维度属于空间-空间维度。事实表包括四个指标:保费,保险金额,赔偿和地理指标,其中保费,保险金额和理赔是数字指标。地理指针是一种空间度量,代表指向地图上相应区域的空间指针的集合。每个维度的概念层次结构如图2所示。它可以由用户或实践中的专家创建,也可以由数据聚类或数据分析自动生成。 4应用本文采用星形结构进行空间数据仓库的逻辑设计,并从两个方面进行扩展,即在测量和维数中增加空间成分。此外,在空间数据仓库的物理设计中,可以使用空间数据立方体模型(也称为空间多维数据库模型)来构建空间数据仓库。空间数据多维数据集包含非空间维度/指标和空间维度/指标。如果空间数据多维数据集仅包含空间维度而没有空间度量标准,则其OLAP操作(如精细切割或概述)与传统数据多维数据集基本相同。但是,空间度量的引入给多维数据集操作的有效实现带来了问题。与非空间数据多维数据集的结构相似,空间数据多维数据集包含多维数据集的网格。一层(basecuboid)代表原始级别上的所有维度(将所有维度分组),而顶点则概括抽象级别上的所有维度(即,集合中没有分组)。在空间数据立方体中执行精细切割,概览和降维操作会产生不同的长方体,其中长方体中的每个单元格都包含度量值的集合或空间对象指针的群集。我们知道聚合数值(例如求和,求平均值等)会产生一个新的数值。但是,将指向空间对象的指针聚类并不一定会生成新的空间对象。如果这些对象的空间指针相互连接,则可以将它们合并为一个大区域。否则,它们只能由空间指针的集合表示。每个数字类型的值通常仅占用2到8个字节的存储空间,并且所需的计算时间也很小。但是,空间对象的存储量约为千或兆字节,并且相对于数值。在计算方面,空间对象之间的计算操作开销(例如合并或覆盖)将更加昂贵。空间数据仓库应能够支持用户在较短的响应时间内灵活地执行OLAP操作。由于空间度量的计算成本很高,因此在空间数据仓库中,需要预先计算一些高级立方长方体并以实例化视图的形式存储它们,并且响应时间很可能满足用户的需求。计算机应用
分享到: