第一章

1. 数据的特点:数据与其语义不可分割

2. 数据库的特点:

  • 数据共享
  • 数据独立(程序和数据结构之间相互独立)
  • 减少数据冗余
  • 避免数据不一致和加强了数据保护

3. 数据库管理系统DBMS的功能:

  1. 数据定义功能:提供数据定义语言(DDL),对数据库、表、索引的定义
  2. 数据操作功能:提供数据操纵语言(DML),实现对数据库的基本操作 (查询、插入、删除和修改)
  3. 数据库运行控制功能:并发控制、安全性检查、完整性约束条件的检查和执行、索引的自动建立
  4. 数据库的建立和维护功能:初始数据的输入、转换,数据的存储组织,数据库的转储恢复,性能监视、分析功能等

4. 数据库系统DBS的构成

  • 数据库
  • 数据库管理系统
  • 数据库管理员、用户
  • 应用程序

5. 数据库系统DBS特点

  • 数据结构化
  • 数据的共享性高,冗余度低,易扩充
  • 数据独立性高
  • 数据由DBMS统一管理和控制

6. 数据管理技术

  • 人工管理阶段(20世纪40年代中–50年代中)
  • 文件系统阶段(20世纪50年代末–60年代中)
  • 数据库系统阶段(20世纪60年代末–现在)

7. 内部结构:三级模式,两级映像,逻辑独立性和物理独立性

  • 三级模式:对数据的三个抽象级别
    • 模式
    • 外模式(子模式或用户模式):介于模式与应用之间。同一个模式可以有任意多个外模式。模式与外模式的关系:一对多,外模式与应用的关系:一对多
    • 内模式(也称存储模式):数据物理结构和存储方式的描述。一个数据库只有一个内模式
  • 两级映像:在DBMS内部实现这三个抽象层次的联系和转换
    • 外模式/模式映像:每一个外模式,数据库系统都有一个外模式/模式映象,定义外模式与模式之间的对应关系,保证数据的逻辑独立性
    • 模式/内模式映像 :定义了数据全局逻辑结构与存储结构之间的对应关系。模式/内模式映象是唯一的。保证数据的物理独立性

8. 数据模型

  • 概念模型:实体-联系法(E-R图法)
  • 逻辑模型
  • 物理模型

三要素:

  • 数据结构
  • 数据操作
  • 完整性约束条件

9. 常用模型

  • 层次(树形结构)
  • 网状(图)
  • 关系(二维表)

10. 关系的完整性约束条件

  • 实体完整性
  • 参照完整性
  • 用户定义的完整性

第二章

1. 空间数据及特征:

空间数据:

  1. 对空间事物的描述

  2. 以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征诸多方面信息的数据

  3. 一种带有空间坐标的数据

  4. 空间数据获取方式包括人工统计、仪器测量等必然产生误差

    特征:

  • 时空特征(空间特征、属性特征、时态特征)

  • 多维特征(空间三维与时间维,多维属性信息)

  • 多尺度特征(空间多尺度、时间多尺度,空间坐标和空间关系变长结构,非结构化特征)

  • 海量数据特征

    空间数据类型(P9)

  • 地图数据

  • 影像数据

  • 地形数据

  • 属性数据

2. 空间数据库SDB的概念和构成

概念:描述与特定空间位置相关的真实世界对象的数据集合

构成

  • 空间数据库
  • 空间数据管理系统
  • 空间数据库应用程序
  • 用户

3.五种空间数据的管理模式

  1. 文件管理方式
  2. 二元化空间数据库管理系统
  3. 全关系型空间数据库管理系统
  4. 对象-关系空间数据库管理系统
  5. 面向对象空间数据库管理系统

4. 空间信息(概念)模型

  • 数据模型:表示空间参考对象也即要将空间实体抽象为数据模型。
  • 场模型:连续对象的描述(二维,三维),不能够对单独对象进行描述
  • 对象模型:强调单个对象,把空间对象当做空间要素来表达(点线面体)
  • 网络模型:网络状对象的描述
场的组成部分
  • 空间框架:构建了场的定义域

    • 连续平面:坐标定位
    • 离散网格:编码定位
  • 场函数:属性域

    • 例子中的森林单一场:空间框架f(x,y)→属性域(冷杉,橡树,松树)
  • 场操作

    • 局部操作
    • 聚焦操作
    • 区域操作

5. 拓扑操作(几何不变性)、九交矩阵描述

第三章 + 第四章

1. 关系模型的三要素 1.8

  • 集合运算:并、交、差、笛卡尔积
  • 专门的关系运算:选择、投影、连接、除
  • 五种基本:并、差、笛卡尔积、选择、投影

2. 关系的性质(了解)

  1. 列是同质的:同一属性名下的诸属性是同类型数据,且必须来自同一个域

  2. 不同列属性必须有不同属性名

  3. 列、行的次序无所谓、可以任意交换

  4. 任意两个元组不能完全相同

  5. 不允许“表中套表”,即分量必须取原子值,每一个分量必须是不可分的数据项

3. 关系代数的写法

<!-- 写关系代数 -->

4. SQL语句的写法

<!-- SQL语句 -->

5. SQL的特点:非过程化(了解)

  1. 一体化特点。
  2. 高度非过程化。
  3. 语言简洁,易学易用。
  4. 统一的语法结构对待不同的工作方式。
  5. 面向集合的操作方式。
  6. SQL语言可以对两种基本数据结构进行操作,一种是“表”,另一种是“视图(View)”。

6. 数据定义的命令

    • create
    • Alter ( add, drop, modify修改 )
    • drop
  • 视图
    • create
    • ( update, delete, Insert )
    • drop
  • 索引
    • create
    • drop
    • ×

第五章

1. E-R图 ,带象形图的E-R图:将对象插在方框内的微缩图

2. 扩展SQL,SQL3和SQL99版本,有了用户自定义类型

对象关系数据库

  • 关键特性就是支持SQL3/SQL99。
  • SQL3中支持用户自定义数据类型。
  • 空间数据库就是要研究SQL3/SQL99,对标准SQL语言进行扩展,从而操纵和获取空间数据。

3. OGIS联盟 标准操作:8种 P74-75

拓朴/集合运算:
Equal 如果两个几何体完全相同返回真
Disjoint 两个几何体内部和边界都不相交返回真
Intersect 两几何体相交则返回真
Touch 两几何体边界相交则返回真
Cross 如果线和面的内部相交则返回真
Within 给定几何内部不和另一几何的外部相交返回真
Contains 判断给定几何体是否包含另一几何体
Overlap 如果两几何体内部有非空交集返回真

4. 创建空间表

1
2
3
4
5
6
7
> CREATE TABLE Country(
> Name varchar(35) Primary key,
> Pop Integer,
> GDP double
> Life FLOAT,
> Shape Polygon)
>

5. 空间查询

P76 第五章PPT P52

第六章

1. 物理、空间模型:实现逻辑模型

2. 存储架构

  • 主存(提升性能)——速度很快(纳秒级),但关电源后存储内容丢失
  • 二级存储设备(存储数据)——速度慢(微秒级),但存储内容不受电源的影响
  • 三级存储设备(存储备份)——速度更慢,存储内容不受电源影响,往往存储容量非常大。

3. 磁盘物理结构:

  • 盘片:物理圆形磁片
  • 磁道:盘片上的同心圆,磁道密度决定容量
  • 柱面:所有盘片上的直径相同的磁道
  • 扇区:组成页面(存储)的最小单位,有扇区号
  • 页面:磁盘和主存间的最小传输单位,一般为扇区的整数倍

4. 存取时间和构成:ts、tt、tl

  • 寻道时间:移动磁头到相应磁道上的时间ts
  • 延迟时间:要读取页面旋转到磁头下的时间tl
  • 传输时间:磁头读或写相应数据的时间tt
  • ts>tl>tt
  • tt一般在初始时固定,但ts和tl可能通过优化策略缩短。

5. 主存上缓冲区管理器及缓冲策略 DBMS模块:先进先出

  • 缓冲区管理器
    • DBMS的一个软件模块
    • 负责缓冲区空间分配调度的子系统
  • 缓冲区替换策略
    • 最近使用(LRU)
      • 替换出最长时间没有读或写过的块
    • 先进先出(FIFO)
      • 替换出被同一个块占用时间最长的缓冲块
    • “时钟”算法
      • LRU的一个常见的、有效的近似
    • 系统控制
      • 查询优化器或者其它的DBMS部件可以给缓冲区管理器提供建议来避免象LRU,FIFO,或者时钟这样的严格的策略可能引起的问题

6. 根据存储容量从小到大采用什么存储策略

从小到大

  • 同一扇区
  • 相邻扇区 = 同一个磁道
  • 同一柱面 减少存到时间
  • 相邻柱面

7. 文件结构 PPT P33

  • 无序(堆)文件
  • 顺序文件
  • 散列文件
  • 聚类文件(用于空间数据存储)

8. 空间填充曲线(过程)

<!-- 画图 -->

  • Z曲线
  • hilbert

9. 空间数据的组织

  • 横向分幅(标准分幅或区域分幅等)

    • 标准经纬度分块
    • 矩形分块
    • 任意区域多边形分块

    <!--小比例尺按经纬线分幅,大比例尺地图按矩形分幅。-->

  • 纵向分层

    • 专题分层
      • 每个图层对应一个专题,包含某一种或某一类数据。如地貌层、水系层、道路层、居民地层等。
    • 时间序列分层
      • 把不同时间或不同时期的数据作为多个数据层。
    • 地面垂直高度分层
      • 把不同垂直高度的数据作为一个数据层。
  • 分层分块索引

  • 金字塔含义和性质(分辨率变、范围不变、每块不同)

    • 核心:对遥感影像进行分层、分块
      • 分层就是把原始影像数据按照不同分辨率进行管理,具体就是把分辨率高的影像层依次通过重采样算法生成其上层的影像数据。
      • 分块是对分层之后的影像数据按照设定好的影像块进行分割存储。分块之后只需要将需要显示和处理的若干个影像块数据读入内存,而并非未分块前的一整幅影像。
      • 最后对每层的影像块(分块大小相等)统一组织存储。
    • 性质:
      • 从底层到顶层,分辨率越来越低,但表示的空间范围不变。
      • 一般采用固定大小(通常取2的幂次方)的分块方法。目前建立影像数据库多采用数据块大小为 128×128或 256×256。

    <!--影像的尺寸越来越小,但描述的空间范围是不变的,最终分辨率降低。-->

10. B-数和B+数 –》R树

  • B-树是一种平衡的多路查找树,m阶树

    1. 根结点或者是叶子,或者至少有两棵子树,至多有m棵子树
    2. 除根结点外,所有非终端结点至少有m/2棵子树,至多有m棵子树;
    3. 所有叶子结点都在树的同一层上;
    4. 每个结点应包含如下信息:
      (n,A0,K1,A1,K2,A2,… ,Kn,An)
      其中Ki(1≤i≤n)是关键字,且Ki<Ki+1 (1≤i≤n-1);Ai(i=0,1,… ,n)为指向孩子结点的指针,且Ai-1所指向的子树中所有结点的关键字都小于Ki ,Ai所指向的子树中所有结点的关键字都大于Ki ;n是结点中关键字的个数,且(m/2)-1≤n≤m-1,n+1为子树的棵数。
    B- 树 3阶 4阶 5阶
    根结点子树 2-3 2-4 2-5
    根/非终端结点子树 2-3 2-4 3-5
    根/结点中关键字 1-2 1-3 2-4
    根结点中关键字 1-2 1-3 1-4
  • B+树

    • 从最小关键字顺序查找

    • 从根结点开始随机查找

    1. 每个结点至多有m个子结点;
    2. 除根结点和叶结点外,其它每个结点至少有m/2 个子结点;
    3. 若根结点不是叶子结点,则至少有两个子结点;
    4. 所有的叶结点在同一层;
    B+ 树 3阶 4阶 5阶
    根结点子树 2-3 2-4 2-5
    根/非终端结点子树 2-3 2-4 3-5
    根/结点中关键字 2-3 2-4 3-5
    根结点中关键字 1-3 1-4 1-5

11. 什么是空间索引?

空间索引:依据空间对象的位置和形状或空间对象之间的空间关系,按一定的顺序排列的一种数据结构。

基本思想:近似体的使用

  • 常见的空间索引:

    • 对象范围索引(两级过滤)

      • 初次过滤根据空间要素外包矩形来过滤掉大部分不在查询范围的空间要素;
      • 第二级过滤则用查询空间范围直接和初次过滤结果集中空间要素的二进制边界坐标比较,从而得到查询的准确结果

      <!-- 没有真正的空间索引文件,而是为空间对象添加外接矩形,依靠空间计算能力判别 -->

      <!-- 查询时仍需要对整个空间对象进行检索,某些对象可以通过矩形范围直接判别 -->

      <!-- 该方法仍需要花费大量时间进行空间检索,计算机处理速度加快,弥补了效率的要求 -->

    • 格网索引(固定网格结构,固定网格结构是固定的,它的目录稀疏而巨大)

      <!-- 将研究区域用横竖线条划分大小相等或不等的格网,记录每一个格网所包含的空间实体 -->

      <!-- 空间查询时,首先计算出用户查询对象所在格网,然后在该网格中快速查询所选空间实体 -->

      • 第一阶段(RDBMS完成):

        • 接收SQL语句,获取空间过滤器的封装边界
        • 检测空间过滤器的封装边界跨越的网格
        • 到空间索引表中检索出封装边界所在网格内的要素
      • 第二阶段:几何过滤器的封装边界与第一阶段检索出的要素的边界相比较,找出具有重叠关系的要素

      • 第三阶段:几何过滤器的坐标与第二阶段检索出的要素的边界比较,找出边界在几何过滤器内的要素

      • 第四阶段:几何过滤器的坐标与第三阶段检索出的要素的坐标比较,找出最终在几何过滤器内的要素类

        image-20191226175620184
    • 格网索引(网格文件)

    • 四叉树索引

      • 在建立四叉树索引时,根据所有空间对象覆盖的范围,进行四叉树分割,使每个子块中包含单个实体,然后根据包含每个实体的子块层数或子块大小,建立相应的索引。
  • R树索引

    • 根结点到每一个叶结点的深度相等 。
    • 树中每个非叶结点有n到M个子结点,M 对特定的树是固定的(阶数)。2=< n<= M/2

12.对象范围索引中有一个检索关系式

空间对象被检索 Xmax ≥ XW and Xmin≤XE AND Ymax ≥ YS and Ymin≤YN

空间对象不被检索Xmax ≤ XW OR Xmin ≥ XE OR Ymax ≤ YS OR Ymin ≥YN

13. 网格文件索引

<!-- 画图 -->

  • 根据空间维度划分k维空间。
  • 将平面索引空间划分为相等或不等的一些小方格网。
  • 与每个格网相关联的空间目标存储到同一磁盘页面(桶)或多个磁盘页面(溢出桶)。
  • 页面的访问地址通过格网的线性标量(数组下标)求得。
  • 线性标量是空间目标实际坐标按照线型比例生成的索引。

14. R树特征(10-12条)

  1. 每个叶结点包含m至M条索引记录(其中m<=M/2 )
  2. 一个叶结点上的每条索引记录了最小外包矩形。
  3. 每个非叶结点都有m至M个子结点。
  4. 对于非叶结点中的每个条目包含其子结点中矩形的最小外包矩形。
  5. 根结点至少有两子结点。
  6. 所有叶结点出现在同一层。
  7. 所有MBR的边与一个全局坐标系的轴平行。
  • R树允许结点相互覆盖,这种交叠可以使R树保持较高的空间利用率和保持树的平衡。
  • 过多交叠可能会造成查询效率的降低,最坏的情况下对某一对象的查询可能造成对整个树的搜索。
  • R树搜索的性能取决于两个参数:覆盖和交叠。
    • 树的某一层覆盖是指这一层所有节点的MBR所覆盖的全部区域。
  • 若想要得到一个高效的R树,覆盖和交叠都应该很小。

15. 最优R树画法

<!-- 画图 -->

第七章

1. 策略

  • 选择运算尽可能先做
  • 投影运算和选择运算同时进行
  • 把投影运算同其前后的双目运算结合执行
  • 执行连接运算前,进行适当的预处理
  • 选择运算和笛卡尔积运算结合成连接运算
  • 找出公共子表达式,避免重复运算

2. 空间操作的两步处理:过滤步骤、精炼步骤

练习题

  1. 数据库系统的特点是数据共享、数据独立、减少数据冗余、避免数据不一致和加强了数据保护。
  2. 数据库管理系统(DBMS)是系统软件
  3. 数据库管理系统能实现对数据库中数据的查询、插入、修改和删除等操作.这种功能称为数据操纵功能
  4. 在数据库的三级模式结构中,描述数据库中全体数据的全局逻辑结构和特征的是模式
  5. 数据库系统的数据独立性是指不会因为数据的变化而影响应用程序
  6. 数据库类型是按照数据模型来划分的
  7. 一组具有相同数据类型的值的集合称为
  8. 在数据库中存储的是数据以及数据之间的联系
  9. 按所使用的数据模型来分,数据库可分为层次、关系和网状三种模型
  10. 在数据库设计中用关系模型来表示实体和实体之间的联系。关系模型的结构是二维表结构
  11. 在关系模型中,实现”关系中不允许出现相同的元组”的约束是通过主键
  12. 关系模型由数据结构、关系操作集合和完整性约束三部分组成