重新对比审视排序和哈希连接算法

合集下载

hash join 连接原理

hash join 连接原理Hash Join连接是一种常用的数据库连接算法，用于将两个数据表中的数据根据指定的连接条件进行匹配。

本文将介绍Hash Join连接的原理和工作过程。

一、原理概述Hash Join连接是一种基于哈希表的连接算法，它将连接的两个表分别构建成哈希表，并通过对哈希表的操作来进行连接操作。

Hash Join连接的核心思想是将连接的两个表通过哈希函数映射到不同的哈希桶中，然后在每个哈希桶中进行匹配操作，最后将匹配的结果返回。

二、Hash Join连接的过程1. 构建哈希表：首先，将连接的两个表分别按照连接条件构建哈希表。

以表A为例，首先根据连接条件从表A中选择适当的列作为键，并通过哈希函数将键值映射到不同的哈希桶中。

然后，将哈希桶中的数据进行排序以提高匹配效率。

同样的步骤也适用于表B。

2. 匹配操作：在构建完哈希表后，对于每个哈希桶，将其与另一个表的哈希桶进行匹配操作。

具体步骤如下：a. 遍历表A的哈希桶，对于每个桶中的数据，通过哈希函数计算出在表B中的哈希桶位置。

b. 在表B的哈希桶中查找与当前桶中数据匹配的数据。

c. 如果找到匹配的数据，则将匹配的结果保存下来。

3. 返回结果：对于每个匹配的结果，将其返回给用户。

用户可以选择将结果保存到新的表中，或者直接使用结果进行后续的操作。

三、Hash Join连接的优缺点1. 优点：a. 高效性：Hash Join连接算法的时间复杂度为O(n)，其中n 为连接的两个表的数据量。

相比于其他连接算法，Hash Join具有较高的执行效率。

b. 适用性广：Hash Join连接适用于大多数连接场景，特别是在连接的两个表中有一个表的数据量较小的情况下，其性能表现更为优秀。

2. 缺点：a. 内存消耗较大：Hash Join连接需要构建哈希表，而哈希表的构建需要占用较多的内存空间。

当连接的数据量较大时，可能导致内存不足的问题。

b. 只能支持等值连接：Hash Join连接只能支持等值连接，即连接条件中的等号关系。

哈希算法的原理和应用

哈希算法的原理和应用1. 哈希算法概述哈希算法（Hash Algorithm）是一种将输入数据转换为固定长度的哈希值的算法。

它具有以下特点： - 固定长度输出：哈希算法将任意长度的输入数据转换为固定长度的输出，通常表示为一串字符串。

- 唯一性：不同的输入数据产生不同的哈希值，即使输入数据只有一个比特的差异，也会导致完全不同的哈希值。

- 快速计算：哈希算法能够快速计算出哈希值，即使输入数据非常大。

- 不可逆性：哈希算法是单向的，无法从哈希值推导出原始输入数据。

2. 哈希算法的原理哈希算法的原理可以简单描述为将输入数据通过哈希函数进行计算，并产生固定长度的哈希值。

关于哈希算法的原理，有以下几个重要的概念需要了解：2.1 哈希函数哈希函数是哈希算法的核心部分，它将输入数据映射到哈希值的过程。

一个好的哈希函数应满足以下几个条件： - 一致性：相同的输入数据应该产生相同的哈希值。

- 高效性：哈希函数应能够快速计算出哈希值。

- 单向性：从哈希值无法推导出原始输入数据。

- 分布均匀性：哈希函数应能够将输入数据均匀地映射到哈希值的范围内。

2.2 冲突冲突是指不同的输入数据经过哈希函数计算后产生相同的哈希值。

由于哈希函数的输出空间固定，而输入数据的长度可能非常大，因此冲突是无法避免的。

但是，一个好的哈希函数应在冲突发生的概率上尽可能地小。

2.3 哈希表哈希表是一个基于哈希算法实现的数据结构，它由一个数组和一个哈希函数组成。

通过哈希函数，输入数据的哈希值可以作为数组下标，将数据存储在对应位置。

当需要查找数据时，只需要通过哈希函数计算哈希值，并在数组中查找对应的位置即可。

3. 哈希算法的应用哈希算法在计算机科学领域有广泛的应用，包括但不限于以下几个方面：3.1 数据完整性验证哈希算法可以用于验证数据的完整性，即通过比较原始数据和其哈希值，确定数据是否被篡改。

常见的应用场景包括文件校验、电子签名等。

3.2 数据加密哈希算法常用于数据的加密和安全存储。

数据库中数据去重与重复数据检测方法研究

数据库中数据去重与重复数据检测方法研究摘要：数据的重复性是数据库中常见的问题之一，会导致数据存储冗余、查询效率低下等问题。

本文旨在研究数据库中数据去重的方法，提出了一种综合利用哈希算法和排序算法的高效去重算法，以及一种基于数据规则约束的重复数据检测方法，以解决数据库中的重复数据问题。

1. 引言在大数据时代，数据量的快速增长给数据库管理和数据处理带来了巨大的挑战。

数据的去重是一种常见的数据清洗操作，能够提高数据质量、降低储存空间需求、提高查询效率等。

因此，研究数据库中数据去重的方法具有重要的理论和应用价值。

2. 数据去重方法2.1 哈希算法哈希算法是一种将一个任意长度的数据映射为一个固定长度值的算法。

在数据库中应用哈希算法进行数据去重的方法主要包括集合哈希、位图哈希和布隆过滤器。

集合哈希通过将数据集合转化为哈希表，判断数据是否已经存在；位图哈希通过将数据映射为位图，将已存在的数据位置为1，通过查找位图判断是否存在；布隆过滤器则结合了哈希函数和位图，将数据映射到多个哈希位置，并置位1，使用多个哈希函数减少误判率。

这些方法都能够较好地解决数据去重的问题，但是在大数据处理中可能存在存储空间和计算成本过高的问题。

2.2 排序算法排序算法是一种将数据按照一定规则进行排序的方法，常见的排序算法包括冒泡排序、插入排序、快速排序等。

在数据库中应用排序算法进行数据去重的方法主要是通过将数据进行排序，在排序过程中相同的数据相邻排列，然后遍历数据，并比较相邻数据，将重复的数据进行删除。

这种方法能够有效地检测和删除重复数据，但是在大数据量下排序成本较大。

3. 重复数据检测方法基于数据规则约束的重复数据检测方法将数据的语义约束与重复数据检测相结合。

该方法通过定义数据规则约束，例如主键、外键等约束条件，利用数据库的一致性检查机制，来判断数据库中的重复数据。

该方法判断准确性较高，但对于数据规则约束的定义要求较高，且无法避免数据规则约束的误判。

哈希排序算法

哈希排序算法哈希排序算法是一种基于哈希表的排序算法，通过将待排序的数据映射到哈希表中，再按照哈希表的顺序输出结果。

它的核心思想是利用哈希函数将数据映射到哈希表中，然后按照哈希表的顺序输出结果。

哈希排序算法的具体步骤如下：1. 创建一个哈希表，并初始化为空。

2. 遍历待排序的数据，将每个数据通过哈希函数映射到哈希表中的相应位置。

3. 将哈希表中的数据按照哈希表的顺序输出，即得到排序结果。

在哈希排序算法中，哈希函数起到了至关重要的作用。

哈希函数将待排序的数据映射到哈希表中的位置，使得相同的数据映射到相同的位置，从而实现了数据的排序。

常用的哈希函数有直接定址法、除留余数法、平方取中法等。

哈希排序算法的时间复杂度为O(n)，其中n为待排序的数据的个数。

这是因为在哈希表中插入和查找数据的时间复杂度都为O(1)，所以整个排序过程的时间复杂度为O(n)。

但是哈希排序算法也存在一些问题。

首先，哈希函数的选择对排序结果有很大的影响，不同的哈希函数可能会导致不同的排序结果。

其次，哈希表的大小需要事先确定，如果哈希表的大小不合适，可能会导致哈希冲突的发生，进而影响排序结果的准确性。

因此，在实际应用中，选择合适的哈希函数和合适的哈希表大小是非常重要的。

总结起来，哈希排序算法是一种基于哈希表的排序算法，通过将待排序的数据映射到哈希表中，并按照哈希表的顺序输出结果。

它的时间复杂度为O(n)，但在实际应用中需要注意选择合适的哈希函数和哈希表大小。

哈希排序算法在一些特定的场景下具有一定的优势，但在一般情况下，其性能并不比其他常见的排序算法更好。

因此，在选择排序算法时，需要综合考虑具体的应用场景和需求，选择最合适的排序算法。

数据处理算法

数据处理算法数据处理是当今数字时代重要的基础，其采用不同的算法来实现数据的加工和存储。

本文将重点介绍数据处理中最常用的算法，包括排序算法、哈希算法、搜索算法及机器学习算法等。

排序算法是数据处理中最常见的算法之一。

排序算法的任务是将一组数据按照某种规则排序，以便在操作的过程中更容易查找和处理数据。

根据其实现原理的不同，排序算法可分为插入排序、归并排序、冒泡排序、快速排序等几种。

插入排序是将一组数据从头到尾遍历，将遍历过的数据插入到已排序的数组中正确的位置，以此实现排序。

归并排序是将一组待排序数据不断地划分成若干个子数组，对子数组进行排序后将结果递归合并，最终实现排序的目的。

冒泡排序由多次比较和交换相邻元素的值而产生排序的结果，依次比较并将较大的元素放在右侧，从而实现排序。

快速排序利用分治思想，将一组待排序的数据以某个元素为界，分割成左右两部分，对子数组分别实现排序，再合并，以此来实现全体数据的排序。

哈希算法是处理数据的另一重要算法，它是在数据中根据某个算法，将一组数据映射到另一组数据上的过程。

哈希算法可以将一些数据映射成索引值，以便更快的查找数据，同时也可以对数据进行保护，防止数据的篡改。

常用的哈希算法有MD5算法、SHA-1算法和SHA-256算法等。

这些算法可以将任意长度的数据转换成固定长度的哈希值，这种哈希值可以保证数据的完整性，防止数据的改动和篡改。

搜索算法是查找数据的一种方法，它可以根据输入的条件在一组数据中搜索出目标数据。

常用的搜索算法有顺序搜索、二分搜索、哈希搜索和广度优先搜索等。

顺序搜索是一种最简单的搜索算法，它按顺序从一组数据中一个一个检查，直到找到匹配的数据或结束整个搜索。

二分搜索则是将待搜索数据分为两部分，在其中匹配，重复这一过程，直到查找到目标数据。

哈希搜索是如果数据具有一定的规律，通过一定的函数将这些数据映射到一定的位置，就可以通过查找表来快速查找数据。

最后，广度优先搜索是搜索算法中一种最常用的算法，它通过比较相邻的节点的数据来寻找目标数据，并逐层向外搜索，以此实现搜索功能。

哈希排序算法java实现

哈希排序算法java实现哈希排序算法的Java实现哈希排序算法是一种基于哈希表的排序算法，它利用哈希函数将元素映射到桶中，并通过对桶中的元素进行排序，最终得到有序的结果。

在本文中，我们将介绍哈希排序算法的原理，并给出其Java实现。

一、算法原理哈希排序算法的核心思想是利用哈希函数将元素映射到桶中，然后对桶中的元素进行排序。

具体步骤如下：1. 创建一个哈希表，用于存储桶。

2. 根据哈希函数将待排序的元素分配到相应的桶中。

3. 对每个桶中的元素进行排序，可以使用插入排序或其他排序算法。

4. 将每个桶中的元素按顺序合并到一个有序数组中，即为最终的排序结果。

二、Java实现下面是哈希排序算法的Java实现代码：```javaimport java.util.ArrayList;import java.util.Collections;public class HashSort {public static void hashSort(int[] arr) {// 创建一个哈希表，用于存储桶ArrayList<ArrayList<Integer>> buckets = new ArrayList<>();int max = arr[0], min = arr[0];int bucketNum;// 找出待排序数组中的最大值和最小值for (int i = 1; i < arr.length; i++) {if (arr[i] > max) {max = arr[i];}if (arr[i] < min) {min = arr[i];}}// 计算桶的数量bucketNum = (max - min) / arr.length + 1;// 初始化桶for (int i = 0; i < bucketNum; i++) {buckets.add(new ArrayList<>());}// 根据哈希函数将元素分配到相应的桶中for (int i = 0; i < arr.length; i++) {int index = (arr[i] - min) / arr.length;buckets.get(index).add(arr[i]);}// 对每个桶中的元素进行排序for (ArrayList<Integer> bucket : buckets) {Collections.sort(bucket);}// 将每个桶中的元素按顺序合并到一个有序数组中 int index = 0;for (ArrayList<Integer> bucket : buckets) {for (int num : bucket) {arr[index++] = num;}}}public static void main(String[] args) {int[] arr = {9, 5, 7, 3, 1, 6, 8, 2, 4};hashSort(arr);for (int num : arr) {System.out.print(num + " ");}}}```在上述代码中，我们首先找出待排序数组中的最大值和最小值，然后根据哈希函数将元素分配到相应的桶中。

哈希算法原理和用途

哈希算法原理和用途哈希算法（Hash Algorithm）是一种根据输入数据生成固定长度的输出值的算法。

它的设计原理是将任意长度的输入数据映射为固定长度的哈希值，且不同的输入数据尽可能得到不同的哈希值，同时确保相同的输入数据始终得到相同的哈希值。

哈希算法的原理主要包括以下几个方面：1. 确定性：对于同一输入数据，无论何时进行哈希运算，都能得到相同的哈希值。

2. 快速性：哈希算法的运算速度应当足够快，能够在短时间内处理大量数据。

3. 安全性：哈希算法应具备抗碰撞（collision-resistant）的特性，即不同的输入数据产生相同的哈希值的概率非常低。

哈希算法有广泛的应用，以下是一些常见的用途：1. 数据完整性校验：通过对输入数据进行哈希运算，可以生成一个哈希值，并将该哈希值与预先存储的哈希值进行比对，以判断数据的完整性是否被篡改。

2. 数字签名：将原始数据通过哈希算法生成哈希值，并利用私钥对哈希值进行加密，从而生成数字签名。

接收者可以使用相应的公钥对数字签名进行解密验证，以验证数据的真实性和完整性。

3. 密码存储和验证：将用户密码通过哈希运算得到哈希值，并将哈希值存储在数据库中，而不是直接存储明文密码。

这样做可以保障用户密码的安全，即使数据库泄露，攻击者也无法直接获取用户密码。

4. 唯一标识：哈希算法可以将任意长度的数据映射为固定长度的哈希值，因此可以通过对数据进行哈希运算，得到一个唯一的标识符。

这在分布式系统中常用于数据分片、数据路由等操作。

总之，哈希算法通过将任意长度的输入数据生成固定长度的哈希值，实现了数据的唯一标识、完整性校验、数据验证等功能。

它在计算机领域有着广泛的应用，并在数据存储、网络通信、数据安全等方面发挥着重要作用。

哈希算法

哈希算法哈希算法将任意长度的二进制值映射为固定长度的较小二进制值，这个小的二进制值称为哈希值。

哈希值是一段数据唯一且极其紧凑的数值表示形式。

如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。

要找到散列为同一个值的两个不同的输入，在计算上是不可能的，所以数据的哈希值可以检验数据的完整性。

哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映象到一个有限的地址区间上，并以关键字在地址区间中的象作为记录在表中的存储位置，这种表称为哈希表或散列，所得存储位置称为哈希地址或散列地址。

作为线性数据结构与表格和队列等相比，哈希表无疑是查找速度比较快的一种。

哈希通过将单向数学函数（有时称为“哈希算法”）应用到任意数量的数据所得到的固定大小的结果。

如果输入数据中有变化，则哈希也会发生变化。

哈希可用于许多操作，包括身份验证和数字签名。

也称为“消息摘要”。

哈希算法用来产生一些数据片段（例如消息或会话项）的哈希值的算法。

使用好的哈希算法，在输入数据中所做的更改就可以更改结果哈希值中的所有位；因此，哈希对于检测数据对象（例如消息）中的修改很有用。

此外，好的哈希算法使得构造两个相互独立且具有相同哈希的输入不能通过计算方法实现。

典型的哈希算法包括MD2、MD4、MD5 和SHA-1。

哈希算法也称为“哈希函数”。

另请参阅：基于哈希的消息验证模式(HMAC), MD2, MD4, MD5, 消息摘要, 安全哈希算法(SHA-1)MD5一种符合工业标准的单向128 位哈希方案，由RSA Data Security, Inc.开发。

各种“点对点协议(PPP)”供应商都将它用于加密的身份验证。

哈希方案是一种以结果唯一并且不能返回到其原始格式的方式来转换数据（如密码）的方法。

质询握手身份验证协议(CHAP) 使用质询响应并在响应时使用单向MD5 哈希法。

按照此方式，您无须通过网络发送密码就可以向服务器证明您知道密码。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

w2 w3 w4
...... yi
...... yk
...... zi
...... zk
xi
...... xk
w1 x1 y1 z1
w2 x2 y2 z2
w3 x3 y3 z3
w4 x4 y4 z4
4个SIMD向量（寄存器）
SIMD排序
寄存器转置
• 进行归并排序
– SIMD同样适合归并排序的加速，这里我们使用的是双调合并网络
吞吐量（
）
M tuples/s
输入数据大小（M tuples）
图8 分区和合并的对比（64线程）
• 归并实现的选择
– cooperative m-way：该算法仅有一颗归并树，多个线程协同进行合并，当一个子节点有足够的数据的时候，任何线程就能对该子节点进行归并 – independent sort：利用之前讨论的partitionthen-sort方法将数据划分到每个线程，由每个线程独立的进行排序
• 两种排序策略
– 对数据先分区，再使用AVX排序 – 对数据先使用AVX排序，再使用多路归并排序
• 下图为两种排序策略的对比
吞吐量（
图7 不同大小的输入对多线程排序方法的影响（64线程）
M tuples/s
）输入数据大小（M tuples）
• 上述的差异是如何产生的？
– 这里本文对比的是分区和合并阶段的性能，因为两者在排序方面的性能相似
• 半清洁器
– 较小的值位于输出的上半部，较大的值位于输出的下半部 – 两部分序列仍是双调的 – 两部分序列中至少有一个是清洁的——全由0 或1组成。（它的名称也是由此而来）
• 构造双调排序网络
– 通过递归地连接半清洁器，我们可以建立一个双调排序网络 – 可以计算得到半双调排序网络的深度为log2n
• NUMA的角色
– 为了更好的性能，必须考虑NUMA系统结构 – 例如内存中的数据做一次环形移动通过NUMA 区域可以获得更高的带宽和性能
3.使用SIMD并行排序
• 比较器(comparator) • SIMD寄存器结构
w1
w2
x1
x2 x3
y1
y2 y3
z1
z2 z3
单个排序网络
• 排序网络：
w3
......
......
......
......
wi
xi
yi
zi
图一四输入奇偶排序网络
4个SIMD向量（寄存器）
• SIMD排序加速原理
w1 w1 ...... wi ...... wk x1 ...... y1 z1
单个排序网络
x1 x2 x3 x4
y1 y2 y3 y4
z1 z2 z3 z4
• 程序管理缓冲区(Software-Managed Buffers)
6.连接算法分析
• m-way
– 高度并行的排序连接算法 – 针对NUMA的优化 – 算法的结构如图
分块，AVX排序
多路归并排序扫描，连接
• m-pass
– m-pass和m-way的区别仅在于之前的步骤② – m-pass在步骤②进行连续的双调归并
2.背景和相关工作
• 哈希连接对比排序连接：早期工作
– 在良好的算法设计下性能没有明显的差异
• 哈希连接对比排序连接：多核时代
– SIMD寄存器使排序归并连接成为更好的选择 – 大规模并行排序归并连接（MPSM）
• 硬件相关的排序 • NUMA的角色
• 硬件相关的排序（相关工作）
– Gedik：Cell processor上利用双调排序和SIMD 并行归并实现了一个高效的算法 – Chhugani：实现了商业的x86处理器上的多核 SIMD排序算法 – Inoue：实现了一种寄存器内的排序算法 – Satish：分析了在CPU/GPU中基于比较和非比较的排序算法
分块，AVX排序
连续双调归并
扫描，连接
• mpsm（Massively Parallel Sort-Merge）
– 使用soft-managed buffers对关系R进行划分 – 将R按不同范围分配到不同的NUMA区域/线程 – 每个线程对自己区域内的数据进行排序，即可得到全局有序的R' – 对关系S直接进行划分 – 每个线程对自己区域内的S进行排序 – 最后由多个线程分别将R'和每个分区的S进行连接
• 不同大小表的对比
执行时间（秒）
S表的大小（billion tuples）
图10 sort-merge算法执行时间的对比（工作负载A，64线程）
• 排序算法性能分解
排序吞吐量（ M tuples/s ）输入数据大小（M tuples）
图11 sort-merge性能分解（工作负载A，64线程）
• 剖析m-way的性能提升
– merge的加速比是相对于m-pass算法的 – AVX加速比是相对于没有采用AVX指令的排序 – mpsm加速比是m-way相对于mpsm整体加速比
加速比
线程数
图12 m-way算法AVX和多路归并带来的加速比
• 基于排序连接的可扩展性
吞吐量（
图13 基于排序连接的可扩展性（工作负载A 11.92G×11.92G，输出为连接后的元组）
Multi-Core, Main-Memory Joins: Sort vs. Hash Revisited 基于多核和主存的连接：重新对比审视排序和哈希连接算法
主讲人：叶炜主持人：胡睿 2014.11.04
文章结构
• • • • • • • • • • • • • 1.内容简介 2.背景和相关工作 3.使用单指令多数据流（SIMD）并行排序 4.缓存敏感的排序连接 5.基于哈希的连接 6.连接算法分析 7.实验环境说明 8.排序阶段分析 9.合并阶段分析 10.合并阶段的优化 11.排序合并连接 12.排序连接or哈希连接 13.结论
1.简介
• 本文研究的是在主存多核的环境中基数哈希连接和排序归并连接的对比 • 验证了在新的硬件环境下排序归并连接效率效率的提升 • 新的硬件环境
– NUMA（非统一内存访问） – 256位AVX指令集SIMD（单指令多数据流）寄存器 – 多核处理器
• 本文涉及的几种算法
– radix join – no-partitioning join – sort-merge join – massively parallel sort-merge join – bitonic sort
• 平衡计算和带宽（out-cache sort）
– 2.4GHz的CPU单线程内存读写速度可达 2×5.3Gb/s（read/write） – 这超出了当前接口带宽的限制，考虑到目前的 CPU的多核和多线程，这个差距会更大 – 为了减少内存读写，本文使用了多路归并，避免了两路归并的时候频繁读写内存 – 并且每次的排序块能够填满CPU缓存，以避免频繁的任务切换带来的开销 – 后面的实验中本文演示了如何调整归并来避免内存瓶颈
构造双调排序网络
n=8时的具体构造
• 对大规模数据使用双调合并
– 使用核函数bitonic_merge4()进行双调合并排序
算法一：双调合并排序算法
左图算法的效率大约O（Nlog2N）尽管该排序算法公式上效率并不比现在大多数的排序算法效率高，但是该算法是适合并行的，并行时 N可以同时计算，取N=1，该算法的实际效率为O（Log2N），快于普通排序算法对于排序数组的大小，通常认为取2P×k的值能得到最好的效率，在本文的硬件环境下，k取8有最好的性价比
total size R
total size S
11.92Gb
m×11.92Gb
977Mb
977Mb
• 硬件系统
– CPU：4个插槽（4个CPU），每个CPU有8个物理核心，超线程16线程 – 每块CPU：32K独立一级缓存，256K独立二级缓存，20M共享三级缓存 – 内存：512G DDR3（1600MHz内存） – 系统：Debian Linux 7.0（kernel version 3.4.4-U5） – 代码编译：gcc 4.7.2
• Radix（Radix Hash Join）
– 本文利用分区将输入划分到不同的分区，并且使每个分区适应缓存的大小，这样可以将对应的分区装载到缓存中进行连接操作
• N-part（No-partitioning Hash Join）
– 将输入的关系R和S分成大小相等的部分分配给每个线程 – 每个线程将自己区域内R的数据生成哈希值填入哈希表 – 线程同步后，每个线程为自己的区域内S寻找匹配的R记录
• 合并阶段的性能
吞吐量（ M tuples/s ）合并扇入/分区扇出值
图7 扇入/扇出段的优化
• 在排序中使用分区算法
– Partition-then-sort：利用software-managed radix算法进行分块，对每一块利用AVX算法进行排序，得到的结果很自然的成为有序列 – Sort-then-merge：首先将数据直接划分成缓存大小的块，对每块进行AVX算法排序，再对这些局部有序的数据利用AVX指令进行归并
4.缓存敏感的排序连接
• 不同层次的排序
– 寄存器中排序（第3部分中的已讨论） – 高速缓存中排序（上述算法一中已讨论） – 高速缓存外排序（如何合并的数据超过高速缓存的大小，就需要继续到内存中排序）
• 平衡计算和带宽（in-cache sort）
– 算法一中讨论的双调排序可以对8个8bytes（每个64位）64 bytes数据进行排序，使用36条汇编指令 – 通过Intel Architecture Code Analyzer工具可以计算出对于本文的CPU，64 bytes数据需要29 个CPU周期（不考虑内存带宽或延迟） – 得益于SIMD，我们在缓存内的排序使用多级两路归并排序，如下图 – 每次排序，本文中使得排序的FIFO队列填满整个缓冲区，以减少内存读写