Monday, 6 January 2020

Amazon DynamoDB 入门2:工作原理、API和数据类型介绍

DynamoDB 基本概念

DynamoDB 是 AWS 独有的完全托管的 NoSQL Database。它的思想来源于 Amazon 2007 年发表的一篇论文:Dynamo: Amazon’s Highly Available Key-value Store。在这篇论文里,Amazon 介绍了如何使用 Commodity Hardware 来打造高可用、高弹性的数据存储。想要理解 DynamoDB,首先要理解 Consistent Hashing。Consistent Hashing 的原理如下图所示:
它的概念是:
  1. 我有一个足够大的Keyspace(2的160次方,比较一下:IPv6是2的128次方),我们记作X。
  2. 然后将X放在一个环形的空间里划分成大小相等的Y个 Partition,依次循环排列(如图),每个 Partition 由一个Vnode(Riak的概念)管理,
  3. 当你有M个Database Server(Node),Y个Vnode再平均映射到M个Node上。
  4. 当数据要插入时,将其主键(Hash Key)映射到K中的一个地址(Addr),对应到某个Vnode,再进一步对应到某个Node,如果这个数据需要N个Replica,则将数据写入Addr(Vnode a),Addr + 1(Vnode b), …,Add + N(Vnode n)。
  5. 这里,M就是你的Shards,N是Replica。
以后添加新的Node时,映射发生变化,只需要把相应的变化了的Vnode迁移到新的Node上即可。在这种结构下,Sharding/Replica对程序员基本上是透明的。

DynamoDB 核心组件

基本 DynamoDB 组件包括:表、项目、属性
  • 表 - 类似于其他数据库系统,DynamoDB将数据存储在表中。表是数据的集合。(类似于关系型数据库中的表)
  • 项目 - 每个表包含多个项目。项目是一组属性,具有不同于所有其他项目的唯一标识。(类似于其他数据库系统中的行、记录或元组。)
  • 属性 - 每个项目包含一个或多个属性。属性是基础的数据元素,无需进一步分解。(类似于其他数据库系统中的字段或列。)
下图是一个名为 People 的表,其中显示了一些示例项目和属性:
image
请注意有关 People 表的以下内容:
  • 表中的每个项目都有一个唯一的标识符或主键,用于将项目与表中的所有其他内容区分开来。在 People 表中,主键包含一个属性 (PersonID)。
  • 与主键外不同,People表是无架构的,这表示属性及其数据类型都不需要预先定义。每个项目都能拥有其自己的独特属性。
  • 大多数属性是标量类型的,这表示它们只能具有一个值。字符串和数字是标量的常见示例。
  • 某些项目具有嵌套属性 (Address)。DynamoDB 支持最高 32级深度的嵌套属性。
这里,我们将看到第一个概念:主键。

主键

创建表时,除表名称外,您还必须指定表的主键。主键唯一标识表中的每个项目,因此,任意两个项目的主键都不相同。
DynamoDB 支持两种不同类型的主键:
  • 分区键 - 简单的主键,由一个称为分区键的属性组成。
如果表具有简单主键(只有分区键),DynamoDB 将根据其分区键值存储和检索各个项目。同时,DynamoDB 使用分区键的值作为内部哈希函数的输入值,从而将项目写入表中。哈希函数的输出值决定了项目将要存储在哪个分区。
要从表中读取某个项目,必须为该项目指定分区键值。DynamoDB 使用此值作为其哈希函数的输入值,从而生成可从中找到该项目的分区。(此时,分区键必须是唯一的,不可重复。)
下图显示了名为 Pets 的表,该表跨多个分区。表的主键为 AnimalType(仅显示此键属性)。在这种情况下,DynamoDB 会根据字符串 Dog 的哈希值,使用其哈希函数决定新项目的存储位置。请注意,项目并非按排序顺序存储的。每个项目的位置由其分区键的哈希值决定。
简单分区示例
  • 分区键和排序键 - 称为复合主键,此类型的键由两个属性组成。第一个属性是分区键,第二个属性是排序键。
DynamoDB 使用分区键值作为对内部哈希函数的输入。来自哈希函数的输出决定了项目将存储到的分区(DynamoDB 内部的物理存储)。具有相同分区键的所有项目按排序键值的排序顺序存储在一起。两个项目可具有相同的分区键值,但这两个项目必须具有不同的排序键值。
为将某个项目写入表中,DynamoDB 会计算分区键的哈希值以确定该项目的存储分区。在该分区中,可能有几个具有相同分区键值的项目,因此 DynamoDB 会按排序键的升序将该项目存储在其他项目中。
要读取表中的某个项目,您必须为该项目指定分区键值和排序键值。DynamoDB 会计算分区键的哈希值,从而生成可从中找到该项目的分区。
如果我们查询的项目具有相同的分区键值,则可以通过单一操作 (Query) 读取表中的多个项目。DynamoDB 将返回具有该分区键值的所有项目。或者,也可以对排序键应用某个条件,以便它仅返回特定值范围内的项目。
假设 Pets 表具有由 AnimalType(分区键)和 Name(排序键)构成的复合主键。
下图显示了 DynamoDB 写入项目的过程,分区键值为 Dog、排序键值为 Fido。
  • 为读取 Pets 表中的同一项目,DynamoDB 会计算 Dog 的哈希值,从而生成这些项目的存储分区。然后,DynamoDB 会扫描这些排序键属性值,直至找到 Fido。
  • 要读取 AnimalType 为 Dog 的所有项目,您可以执行 Query 操作,无需指定排序键条件。默认情况下,这些项目会按存储顺序(即按排序键的升序)返回。或者,您也可以请求以降序返回。
  • 要仅查询某些 Dog 项目,您可以对排序键应用条件(例如,仅限 Name 在 A 至 K 范围内的 Dog 项目)。

Note

  • 每个主键属性必须为标量(表示它只能具有一个值)。主键属性唯一允许的数据类型是字符串、数字和二进制。对于其他非键属性没有任何此类限制。
  • DynamoDB 会自动分配足够的存储,每个分区键值的非重复排序键值无数量上限。所以即使需要在 Dog 表中存储数十亿 Pets项目,DynamoDB 也能这一需求。

二级索引

DynamoDB支持在一个表上创建一个或多个二级索引。利用 secondary index,除了可对主键进行查询外,还可使用替代键查询表中的数据。
DynamoDB 支持两种索引:
  • Global secondary index - 一种带有可能与表中不同的分区键和排序键的索引。
  • Local secondary index - 一种分区键与表中的相同但排序键与表中的不同的索引。
最多可以为每个表定义 5 个全局二级索引和 5 个本地二级索引。
下图显示了示例 Music 表,该表包含一个名为 GenreAlbumTitle 的新索引
image
对于Music表,我们不仅可以按 Artist(分区键)或按 Artist 和 SongTitle(分区键和排序键)查询数据项。还可以按 Genre 和 AlbumTitle 查询数据。

Note

请注意有关 GenreAlbumTitle 索引的以下内容:
  • 每个索引属于一个表(称为索引的基表)。在上述示例中,Music 是 GenreAlbumTitle 索引的基表。
  • DynamoDB 将自动维护索引。当添加、更新或删除基表中的某个项目时,DynamoDB 会添加、更新或删除属于该表的任何索引中的对应项目。
  • 当创建索引时,可指定哪些属性将从基表复制或投影到索引。DynamoDB 至少会将键属性从基表投影到索引中。对于 GenreAlbumTitle 也是如此,只不过此时只有 Music 表中的键属性会投影到索引中。

DynamoDB 数据类型

DynamoDB 对表中的属性支持很多不同的数据类型。可按以下方式为属性分类:
  • 标量类型 - 标量类型可准确地表示一个值。标量类型包括数字、字符串、二进制、布尔值和 null。
  • 文档类型 - 文档类型可表示具有嵌套属性的复杂结构。文档类型包括列表和映射。
  • 集类型 - 集类型可表示多个标量值。集类型包括字符串集、数字集和二进制集。
当创建表或secondary index时,必须指定每个主键属性(分区键和排序键)的名称和数据类型。此外,每个主键属性必须定义为字符串、数字或二进制类型。

标量类型

标量类型包括数字、字符串、二进制、布尔值和 null。
数据类型说明示例
字符串字符串是使用 UTF-8 二进制编码的 Unicode。字符串的长度必须大于零且受限于最大 DynamoDB 项目大小 400 KB。"Bicycle"
数字数字可为正数、负数或零。数字最多可精确到 38 位 - 超过此位数将导致意外300
二进制二进制类型属性可以存储任意二进制数据,如压缩文本、加密数据或图像。DynamoDB 会在比较二进制值时将二进制数据的每个字节视为无符号。二进制属性的长度必须大于零且受限于最大 DynamoDB 项目大小 400 KB。这是一个采用 Base64 编码文本的二进制属性: dGhpcyB0ZXh0IGlzIGJhc2U2NC1lbmNvZGVk
布尔值布尔类型属性可以存储 true 或 false。true
空代表属性具有未知或未定义状态。NULL

字符串

如果将主键属性定义为字符串类型属性,以下附加限制将适用:
  • 对于简单的主键,第一个属性值(分区键)的最大长度为 2048 字节。
  • 对于复合主键,第二个属性值(排序键)的最大长度为 1024 字节
DynamoDB 使用基础的 UTF-8 字符串编码字节整理和比较字符串。例如,“a”(0x61) 大于“A”(0x41),“¿”(0xC2BF) 大于“z”(0x7A)。
可使用字符串数据类型表示日期或时间戳。执行此操作的一种方法是使用 ISO 8601 字符串,如以下示例所示:
  • 2016-02-15
  • 2015-12-21T17:42:34Z
  • 20150311T122706Z
也可以使用数字数据类型表示日期或时间戳

数字

数字范围
  • 正数范围:1E-130 到 9.9999999999999999999999999999999999999E+125
  • 负数范围:-9.9999999999999999999999999999999999999E+125 到 -1E-130
在 DynamoDB 中,数字以可变长度形式表示。系统会删减开头和结尾的 0。
所有数字将作为字符串通过网络发送到 DynamoDB,以最大程度地提高不同语言和库之间的兼容性。但是,DynamoDB 会将它们视为数字类型属性以方便数学运算。
Note
如果数字精度十分重要,则应使用从数字类型转换的字符串将数字传递给 DynamoDB。

二进制

如果将主键属性定义为二进制类型属性,以下附加限制将适用:
  • 对于简单的主键,第一个属性值(分区键)的最大长度为 2048 字节。
  • 对于复合主键,第二个属性值(排序键)的最大长度为 1024 字节。
在将二进制值发送到 DynamoDB 之前,我们必须采用 Base64 编码格式对其进行编码。收到这些值后,DynamoDB 会将数据解码为无符号字节数组,将其用作二进制属性的长度。

文档类型

文档类型包括列表和映射。这些数据类型可以互相嵌套,用来表示深度最多为 32 层的复杂数据结构。
只要包含值的项目大小在 DynamoDB 项目大小限制 (400 KB) 内,列表或映射中值的数量就没有限制。
数据类型说明示例
列表列表类型属性可存储值的有序集合。列表用方括号括起:[ ... ]。列表类似于 JSON 数组。列表元素中可以存储的数据类型没有限制,列表元素中的元素也不一定为相同类型。FavoriteThings: ["Cookies", "Coffee", 3.14159]
映射映射类型属性可以存储名称/值对的无序集合。映射用大括号括起:{ ... }。映射类似于 JSON 对象。映射元素中可以存储的数据类型没有限制,映射中的元素也不一定为相同类型。示例如下
{
    Day: "Monday",
    UnreadEmails: 42,
    ItemsOnMyDesk: [
        "Coffee Cup",
        "Telephone",
        {
            Pens: { Quantity : 3},
            Pencils: { Quantity : 2},
            Erasers: { Quantity : 1}
        }
    ]
}

Note

DynamoDB 让您可以使用映射/列表中的单个元素

DynamoDB 支持表示数字、字符串或二进制值集的类型。集中的所有元素必须为相同类型(
集中的每个值必须是唯一的。集中的值的顺序不会保留。不支持空集。
Example (字符串集、数字集和二进制集)
# 必须是相同的数据类型
# 字符串集
["Black", "Green" ,"Red"]
# 数字集
[42.2, -19, 7.5, 3.14]
# 二进制集
["U3Vubnk=", "UmFpbnk=", "U25vd3k="]

DynamoDB API

DynamoDB 的api操作主要用于控制层面、数据层面和DynamoDB Streams。

控制层面

控制层面 操作可让我们可以创建和管理DynamoDB表。它们还可让我们可以使用依赖于表的索引、流和其他对象。
  • CreateTable - 创建新表。或者,也可以创建一个或多个二级索引并为表启用 DynamoDB Streams。
  • DescribeTable - 返回有关表的信息,例如,表的主键架构、吞吐量设置、索引信息等。
  • ListTables - 返回列表中所有表的名称。
  • UpdateTable - 修改表或其索引的设置、创建或删除表上的新索引或修改表的 DynamoDB Streams 设置。
  • DeleteTable - 从 DynamoDB 中删除表及其所有依赖对象。

数据层面

数据层面操作可让我们对表中的数据执行创建、读取、更新和删除(也称为 CRUD)操作。某些数据层面操作还可让我们可以从secondary index中读取数据。

创建数据

  • PutItem - 将单个项目写入到表中。您必须指定主键属性,但不必指定其他属性。
  • BatchWriteItem - 将最多 25 个项目写入到表中。

读取数据

  • GetItem - 从表中检索单个项目。我们必须为所需的项目指定主键。我们可以检索整个项目,也可以仅检索其属性的子集。
  • BatchGetItem - 从一个或多个表中检索最多 100 个项目。
  • Query - 检索具有特定分区键的所有项目。我们必须指定分区键值。
可以检索整个项目,也可以仅检索其属性的子集。或者,也可以对排序键值应用条件,以便只检索具有相同分区键的数据子集。我们可以对表使用此操作,前提是该表同时具有分区键和排序键。还可以对索引使用此操作,前提是该索引同时具有分区键和排序键。
  • Scan - 检索指定表或索引中的所有项目。我们可以检索整个项目,也可以仅检索其属性的子集。或者,我们也可以应用筛选条件以仅返回感兴趣的值并放弃剩余的值。

更新数据

  • UpdateItem - 修改项目中的一个或多个属性。必须为要修改的项目指定主键。
可以添加新属性以及修改或删除现有属性。还可以执行有条件更新。也可以实施一个原子计数器,该计数器可在不干预其他写入请求的情况下递增或递减数字属性。

删除数据

  • DeleteItem - 从表中删除单个项目。您必须为要删除的项目指定主键。
  • BatchWriteItem - 从一个或多个表中删除最多 25 个项目

Note

Batch 操作比调用多次单个请求(DeleteItem, GetItem, PutItem)更有效,因为秩序一个网络请求即可操作多个项目。

DynamoDB Streams

DynamoDB Streams 操作可对表启用或禁用流,并能允许对包含在流中的数据修改记录的访问。
  • ListStreams - 返回所有流的列表,或仅返回特定表的流。
  • DescribeStream - 返回有关流的信息,例如,流的 Amazon 资源名称 (ARN) 和您的应用程序可开始读取前几条流记录的位置。
  • GetShardIterator - 返回一个分区迭代器,这是我们的应用程序用来从流中检索记录的数据结构。
  • GetRecords - 使用给定分区迭代器检索一条或多条流记录。

命名规则

DynamoDB 中的表、属性和其他对象必须具有名称。名称应该简明扼要 - 例如,Products、Books 和 Authors 之类的名称是都是不言而喻的。
下面是 DynamoDB 的命名规则:
  • 所有名称都必须使用 UTF-8 进行编码,并且区分大小写。
  • 表名称和索引名称的长度必须介于 3 到 255 个字符之间,而且只能包含以下字符:
    • a-z
    • A-Z
    • 0-9
    • _(下划线)
    • -(短划线)
    • .(圆点)
  • 属性名称的长度必须介于 1 到 255 个字符之间。

保留关键字和特殊字符

与很多其他数据库管理系统相似,DynamoDB 也具有一系列保留关键字和特殊字符。
  • 有关 DynamoDB 中的保留关键字的完整列表,请参阅 DynamoDB 中的保留关键字
  • (哈希)和 :(冒号)在 DynamoDB 中具有特殊含义

DynamoDB允许使用这些关键字和特殊符号用于命名,但我们不建议这么做
有关更多信息,请参阅 为属性名称和值使用占位符

读取一致性

Amazon DynamoDB 在全世界多个 AWS 区域可用。每个区域均与其他 AWS 区域完全独立和隔离。
例如,如果我们在 us-east-1 区域有一个名为 People 的表,并在 us-west-2 区域有另一个名为 People 的表,则这两个表将被视为完全独立的表。
每个 AWS 区域包含多个不同的称为“可用区”的位置。每个可用区都被设计成不受其他可用区故障的影响,并提供低价、低延迟的网络连接,以连接到同一区域其他可用区。此设计可保证我们可以在某个区域的多个可用区中快速复制数据。
当我们将某个数据写入 DynamoDB 表并收到 HTTP 200 响应 (OK) 时,该数据的所有副本都会更新。但是,要将数据传播到当前 AWS 区域内的所有存储位置需要耗费一定的时间。该数据最终将在上述所有存储位置中保持一致,通常只需一秒或更短时间。
为了支持各种应用程序要求,DynamoDB 同时支持最终一致性 读取和强一致性 读取。

最终一致性读取

当我们从 DynamoDB 表中读取数据时,返回的可能不是刚刚完成的写入操作的结果。响应可能包含某些旧的数据。但是,如果我们在短时间后重复读取请求,响应将返回最新的数据。

强一致性读取

当我们请求强一致性读取时,DynamoDB 会返回具有最新数据的响应,从而反映来自所有已成功的之前写入操作的更新。但是,如果网络延迟或中断,可能会无法执行强一致性读取
Note
DynamoDB 默认使用最终一致性读取。读取操作(例如 GetItem、Query 和 Scan)提供了一个 ConsistentRead 参数:此参数设置为 true,DynamoDB 将在操作过程中使用强一致性读取。
示例:
{
    TableName: "Music",
    Key: {
        "Artist": "No One You Know",
        "SongTitle": "Call Me Today"
    },
    ConsistentRead: true
}

python 示例

table = db3.Table('Music')
response = table.get_item(
    Key={
        "Artist": "The Acme Band",
        "SongTitle": "Still In Love"
    },
    ConsistentRead=True
)
下一篇主要介绍DynamoDB表的基本操作

from : https://segmentfault.com/a/1190000008122985

No comments:

Post a Comment