线性时间选择中位数

合集下载

线性时间选择

应用7：线性时间选择(续)
设所有元素互不相同。在这种情况下，找出的基准x至少比 3(n-5)/10个元素大，因为在每一组中有2个元素小于本组的中位数，而n/5个中位数中又有(n-5)/10个小于基准x。
同理，基准x也至少比3 (n-5)/10个元素小。而当n≥75时， 3(n-5)/10 ≥n/4，所以按此基准划分所得的2个子数组的长度都至少缩短1/4。
T
(n)
C2
n
T
(n
C1 / 5)
T
(3n
/
4)
n 75 n 75
根据定理有：
f (n)
பைடு நூலகம்
c2n 1 1
3
20c2n
(n)
54
因此，T(n)=O(n)。
补充：定理
• 定理：令b, d和c1,c2是大于0的常数，则如下递归
方程
• 的解是：
f
(n
)
b f (floor
(c1n))
f
n 1 (floor(c2n))
for ( int i = 0; i<=(r-p-4)/5; i++ ) 将a[p+5*i]至a[p+5*i+4]的第3小元素与a[p+i]交换位置;
//找中位数的中位数，r-p-4即上面所说的n-5 Type x = Select(a, p, p+(r-p-4)/5, (r-p-4)/10); int i=Partition(a,p,r, x), j=i-p+1; if (k<=j) return Select(a,p,i,k); else return Select(a,i+1,r,k-j); }

算法设计与分析课件--分治法-线性时间选择

9
2.5 线性时间选择
这样找到的m*划分是否能达到O(n)的时间复杂度？ |A| = |D| = 2r, |B| = |C| = 3r +2，n = 10r +5. |A| + |D| + |C| = 7r + 2 = 7(n-5)/10 +2 = 7n/10 -1.5 < 7n/10 表明子问题的规模不超过原问题的7/10(d)。
T(n) = T(cn) + T(dn) + tn
6
2.5 线性时间选择
Select(S, k) Input: n个数的数组S，正整数k
T(n) = T(cn) + T(dn) + tn
Output: S中的第k个小元素
1. 将S划分成5个元素一组，共[n/5]个组；
2. 每组寻找一个中位数，把这些中位数放到集合M中；
寻找一个分割点m*, 使得左边子表S1中的元素都小于m*, 右子表 S2中的元素都大于m*。如果寻找m*的时间复杂度达到O(nlogn), 那就不如直接使用排序算法了。如果直接寻找m*, 时间复杂度是O(n). 假设选择算法的时间复杂度为T(n), 递归调用这个算法在S的一个真子集M上寻找m*，应该使用T(cn)时间，这里c是小于1的常数，反映了M的规模与S相比缩小许多。
✓ 不妨假设n是5的倍数，且n/5是奇数，即n/5 = 2r+1. 于是： |A| = |D| = 2r, |B| = |C| = 3r +2，n = 10r +5.
✓ 如果A和D中的元素都小于m*,那么把它们的元素都加入到S1, S1对应规约后子问题的上限。类似的，若A和D中的元素都大于m*, 则把他们的元素都加入到S2，S2对应规约后子问题的上限。

计算机算法设计与分析-概率算法

当n足够大时，统计出m的值，就可以近似地求出I的值。
2023/10/8
计算机算法设计与分析
7
计算连续函数的算法
double Darts (int n) { double x, y; int k = 0; for (int i=1; i<=n; i++) { x=Random(); /*随机产生一个(0,1)区间的数*/ y=Random(); if (y<=f(x)) k++; } return k/double(n); }
2023/10/8
计算机算法设计与分析
8
随机抽样
在n个元素的集合中随机抽取m(0<m≤n) 个无重复的元素。为简单起见，假定所有元素的值都位于1至n之间9
随机抽样
我们采用下面的方法进行选择：
1、首先将n个元素都标记为“未选择”； 2、重复下列步骤直到抽取了m个不同的元素
2023/10/8
计算机算法设计与分析
2
随机数的产生
在概率算法中随机数的产生是个非常重要的部分，但在计算机上无法产生真正的随机数。
任何一种随机数的产生都和给定的初始条件有关，当初始条件相同时，会给出同样的随机数序列。还有，该随机数序列存在周期，即经过一个周期后，序列会重复出现。称为伪随机数。
//找到一个比基准大的元素放到空当，空当重新回到[low]处
}
r[low]=temp;
return low; //返回基准的位置
}
2023/10/8
计算机算法设计与分析
17
随机选择算法复杂度
这个算法的主要时间消耗在划分上，对一个长度为n的序列进行划分，所用时间为O(n),故递归式为： T(n)=T(n/2)+O(n)

快速选择算法线性时间选择第k小的元素

快速选择算法线性时间选择第k小的元素快速选择算法：线性时间选择第k小的元素快速选择算法是一种高效的算法，用于在未排序的数组中选择第k 小的元素。

该算法的时间复杂度为O(n)，在大规模数据处理和排序任务中具有广泛的应用。

1. 算法原理快速选择算法基于快速排序算法的分治思想，通过每次选择一个枢纽元素，并将数组中的元素分为左右两部分，来实现快速查找排序后的第k小元素。

具体步骤如下：- 选择枢纽元素：从未排序数组中选择一个元素作为枢纽元素，可以随机选择或选择固定位置的元素，比如选取数组的第一个元素。

- 划分数组：将数组分为两部分，左边的元素小于枢纽元素，右边的元素大于等于枢纽元素。

- 判断位置：比较枢纽元素的位置与k的大小关系，如果位置小于k，则递归在右半部分查找第k小元素；如果位置大于k，则递归在左半部分查找第k小元素；否则，返回该位置的元素即为第k小元素。

2. 算法步骤下面给出一种实现快速选择算法的伪代码：```function quickSelect(A, k, left, right):if left == right:return A[left]pivotIndex = partition(A, left, right)if k == pivotIndex:return A[k]else if k < pivotIndex:return quickSelect(A, k, left, pivotIndex - 1) else:return quickSelect(A, k, pivotIndex + 1, right) function partition(A, left, right):pivot = A[left]i = left + 1j = rightwhile i <= j:if A[i] < pivot and A[j] > pivot:swap A[i] and A[j]i = i + 1j = j - 1if A[i] >= pivot:i = i + 1if A[j] <= pivot:j = j - 1swap A[left] and A[j]return j```3. 算法性能分析快速选择算法通过每次划分数组来减小搜索范围，因此平均时间复杂度为O(n)，其中n为数组的长度。

时间序列缺失值

时间序列缺失值一、简介时间序列是指按时间顺序排列的数据序列，其中每个数据点都与一个特定的时间点相关联。

在实际应用中，由于各种原因，时间序列中经常会出现缺失值。

缺失值会影响数据的完整性和准确性，因此需要进行处理。

二、缺失值的类型1. 完全缺失：某个时刻的数据完全丢失。

2. 部分缺失：某个时刻只有部分数据丢失。

3. 连续缺失：连续多个时刻的数据丢失。

4. 非连续缺失：非连续多个时刻的数据丢失。

三、处理方法1. 删除法：将含有缺失值的行或列直接删除。

这种方法适用于缺失值较少或者对结果影响不大的情况。

但是如果删除了过多的行或列，可能会导致样本量减小，从而影响结果准确性。

2. 插补法：通过对已知数据进行插补来填充缺失值。

插补方法可以分为单变量插补和多变量插补两种类型。

单变量插补是指只考虑当前变量本身来填充缺失值；而多变量插补则是利用其他相关变量的信息来填充缺失值。

插补方法可以提高样本量，但是需要对数据进行较为复杂的处理。

3. 模型法：利用已有数据建立模型，预测缺失值。

这种方法需要对数据进行较为复杂的处理，但可以提高结果准确性。

四、常见插补方法1. 均值插补：将缺失值用同一变量的均值来填充。

2. 中位数插补：将缺失值用同一变量的中位数来填充。

3. 众数插补：将缺失值用同一变量的众数来填充。

4. 线性插值：根据已知数据点之间的线性关系，预测缺失数据点。

5. 拉格朗日插值：根据已知数据点之间的拉格朗日多项式，预测缺失数据点。

五、结语在处理时间序列中的缺失值时，需要根据具体情况选择合适的处理方法和插补方式。

同时需要注意，在使用模型法进行预测时，要确保模型具有较好的拟合效果和稳定性。

关于时间序列分析

1.全然概念(1)一般概念：系统中某一变量的瞧测值按时刻顺序〔时刻间隔相同〕排列成一个数值序列，展示研究对象在一定时期内的变动过程，从中寻寻和分析事物的变化特征、开展趋势和规律。

它是系统中某一变量受其它各种因素碍事的总结果。

(2)研究实质：通过处理推测目标本身的时刻序列数据，获得事物随时刻过程的演变特性与规律，进而推测事物的今后开展。

它不研究事物之间相互依存的因果关系。

(3)假设根底：惯性原那么。

即在一定条件下，被推测事物的过往变化趋势会连续到今后。

暗示着历史数据存在着某些信息，利用它们能够解释与推测时刻序列的现在和今后。

近大远小原理〔时刻越近的数据碍事力越大〕和无季节性、无趋势性、线性、常数方差等。

(4)研究意义：许多经济、金融、商业等方面的数据根基上时刻序列数据。

时刻序列的推测和评估技术相对完善，其推测情景相对明确。

尤其关注推测目标可用数据的数量和质量，即时刻序列的长度和推测的频率。

2.变动特点(1)趋势性：某个变量随着时刻进展或自变量变化，呈现一种比立缓慢而长期的持续上升、下落、停留的同性质变动趋向，但变动幅度可能不等。

(2)周期性：某因素由于外部碍事随着自然季节的交替出现顶峰与低谷的规律。

(3)随机性：个不为随机变动，整体呈统计规律。

(4)综合性：实际变化情况一般是几种变动的叠加或组合。

推测时一般设法过滤除往不规那么变动，突出反映趋势性和周期性变动。

3.特征识不熟悉时刻序列所具有的变动特征，以便在系统推测时选择采纳不同的方法。

(1)随机性：均匀分布、无规那么分布，可能符合某统计分布。

(用因变量的散点图和直方图及其包含的正态分布检验随机性，大多数服从正态分布。

)(2)平稳性：样本序列的自相关函数在某一固定水平线四面摆动，即方差和数学期瞧稳定为常数。

样本序列的自相关函数只是时刻间隔的函数，与时刻起点无关。

其具有对称性，能反映平稳序列的周期性变化。

特征识不利用自相关函数ACF：ρk =γk/γ其中γk是y t的k阶自协方差，且ρ0=1、-1<ρk<1。

算法：线性时间选择（CC++）

算法：线性时间选择（CC++）Description给定线性序集中n个元素和⼀个整数k，n<=2000000，1<=k<=n，要求找出这n个元素中第k⼩的数。

Input第⼀⾏有两个正整数n,k. 接下来是n个整数（0<=ai<=1e9）。

Output输出第k⼩的数Sample Input6 31 3 52 4 6Sample Output3利⽤快速排序可以找出第k⼩的，加上随机函数改进⼀下：#include <cstdio>#include <cstdlib>#include <ctime>#include <iostream>int num[2000001];void quictSort(int, int, int);int partition(int, int);int main(){int n, m, i;srand(unsigned(time(NULL))); // 随机函数种⼦while (~scanf("%d%d", &n, &m)){for (i = 0; i < n; i++)scanf("%d", &num[i]);quictSort(0, n - 1, m - 1);printf("%d\n", num[m - 1]);}return 0;}// 快速排序void quictSort(int left, int right, int mTop){if (left < right){int p = partition(left, right); // 分为两段if (p == mTop) // 如果随机找到第mTop⼩就直接返回return;if (p < mTop)quictSort(p + 1, right, mTop); // 找到的位置⽐mTop⼩就在[p + 1, right]区间找if (p > mTop)quictSort(left, p - 1, mTop); // 找到的位置⽐mTop⼤就在[left, p - 1]区间找}}// 从⼩到⼤排int partition(int left, int right){int r = rand() % (right - left + 1) + left; // 随机选择⼀个数int key = num[r];std::swap(num[r], num[left]); // 交换到数组⾸位while (left < right){// 从数组后⾯开始, 找⽐随机选择的数⼩的, 然后从前找⽐随机选择的数⼤的while (left < right && num[right] >= key)right--;if (left < right)num[left] = num[right];while (left < right && num[left] <= key)left++;if (left < right)num[right] = num[left];}num[left] = key; // 将随机选择的数存回return left; // 返回随机选择的数分割数组的下标, 左边都是⽐它⼩的, 右边都是⽐它⼤的}中位数法线性时间选择划分：AC代码：#include <cstdio>#include <cstdlib>int num[2000001];int select(int low, int high, int top);int partition(int low, int high, int median); void selectSort(int low, int high);void swap(int &a, int &b);int main(){int n, m, i;while (~scanf("%d%d", &n, &m)){for (i = 0; i < n; i++)scanf("%d", &num[i]);printf("%d\n", select(0, n - 1, m - 1));/*for (i = 0; i < n; i++)printf("%d%c", num[i], i < n - 1 ? ' ' : '\n'); */}return 0;}// 中位数法线性时间选择int select(int low, int high, int top){// ⼩于75个数据随便⽤⼀个排序⽅法if (high - low < 74){selectSort(low, high); // 选择排序return num[low + top]; // 排完序直接返回第low + top的数}int groupNum = (high - low - 4) / 5; // 每组5个数, 计算多少个组, 从0开始计数for (int i = 0; i <= groupNum; i++){int start = low + 5 * i; // 每组的起始位置int end = start + 4; // 每组的结束位置for (int j = 0; j < 3; j++) // 从⼩到⼤冒3个泡for (int k = start; k < end - j; k++)if (num[k] > num[k + 1])swap(num[k], num[k+1]);swap(num[low + i], num[start + 2]); // 每组的中位数交换到前⾯第low + i的位置}// 上⾯排完后, 数组low + 0 到 low + groupNum都是每⼀组的中位数int median = select(low, low + groupNum, (groupNum + 1) / 2); // 找中位数的中位数int p = partition(low, high, median); // 将数组分为两段, 左边的⼩于中位数的中位数, 右边的⼤于中位数的中位数 int n = p - low; // 计算p到low之间有多少个数, 后⾯得减掉if (n == top)return num[p]; // 如果运⽓好, 刚好要找的就是中位数if (n > top)return select(low, p - 1, top); // n⽐top⼤就在左边找if (n < top)return select(p + 1, high, top - n - 1); // n⽐top⼩就在右边找, 并且top要减去已经⼤的个数}// 以中位数进⾏分割, 分成两半int partition(int low, int high, int median){int p;for (int i = low; i <= high; i++)if (num[i] == median){p = i;break;}// 将中位数交换到最前⾯swap(num[p], num[low]);// 记下最前⾯的数int key = num[low];// 把⼩于key的放前⾯, ⼤于key的放后⾯while (low < high){while (num[high] >= key && low < high)high--;if (low < high)num[low] = num[high];while (num[low] <= key && low < high)low++;if (low < high)num[high] = num[low];}// 分别从两头开始, 找到中间时, 把key存回num[low] = key;return low;}// 选择排序void selectSort(int low, int high){for (int i = low; i <= high; i++){int MIN = i;for (int j = i + 1; j <= high; j++)if (num[MIN] > num[j])MIN = j;swap(num[i], num[MIN]);}}// 交换两个元素void swap(int &a, int &b){int temp = a;a = b;b = temp;}。

给定线性序集中n个元素和一个整数k1≤k≤n要求找出n个元

算法select中假定所有元素都不相等，当元素可能相等时，应在划分之后加一个语句，将所有与基准元素相等的集中在一起，设这种元素有m 个，且j≤k≤j+m-1,则不必递归调用，直接返回a[i], 否则，最后一行改为 7 调用select(i+m-1,r,k-j-m).
最接近点对问题
给定平面上n个点的集合S，找其中的一对点，使得在n 个点组成的所有点对中，该点对间的距离最小。将每个点与其它n-1个点的距离算出，即可找出具有最小距离的两个点，但需要O(n2)的时间复杂度。
不考虑不足5个元素的组的情况下： • 当 n / 5 为奇数时，至少有 ( n / 5 1) / 2 个组中的部分元素比x小。 • 当 n / 5 / 2 个组中的部分元素比x n / 5 为偶数时，至少有小。总之，至少有 ( n / 5 1) / 2个组中的部分元素比x小，每个组中有3个元素比x小，所以x至少比 3 (n 5) /10 个元素大。
线性时间选择
给定线性序集中n个元素和一个整数k，1≤k≤n，要求找出n个元素中第k小的元素，k=(n+1)/2称为中位数。特殊情况下的线性时间算法： 1、最大、最小元素：线性扫描，O(n) 2、k≤n/logn或k≥n-n/logn ：堆排序算法 O(n+klogn)=O(n) 一般情况下的选择问题如何解决？用快速排序算法思想，对输入数组进行递归划分，不同的是它只对划分出的子数组之一进行递归处理。
4
线性时间选择
设所有元素互不相同，在这种情况下，找出的基准x至少比 3 (n 5) /10 个元素大，因为在每一组中有2个元素小于本组的中位数，而 n / 5 个中位数中又有 (n 5) /10 个小于基准 x。同理，基准x也至少比3 (n 5) /10 个元素小。而当 n≥75时， 3 ，所以按此基准划分所得的两个 (n 5) /10 n/ 4 子数组的长度都至少缩短1/4。为什么？ Nhomakorabea1

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

湖南涉外经济学院计算机科学与技术专业《算法设计与分析》课程
线性时间选择（中位数）
实验报告
班级：
学号：
姓名：
教师：
成绩：
2012年5月
【实验目的】
1 掌握线性时间选择的基本算法及其应用
2 利用线性时间选择算法找出数组的第k小的数
3 分析实验结果，总结算法的时间和空间复杂度
【系统环境】
Windows7 旗舰版平台
【实验工具】
VC++6.0英文企业版
【问题描述】
描述：随机生成一个长度为n的数组。

数组为随机生成，k由用户输入。

在随机生成的自然数数组元素找出这n个数的第k小的元素。

例：A[5]={3,20,50,10,21} k=3,则在数组A中第3小的元素为20
【实验原理】
原理：将所有的数（n个），以每5个划分为一组，共[n/5]组（将不足五个的那组忽略）；然后用任意一种排序算法（因为只对五个数进行排序，所以任取一种排序法就可以了，这里我选用冒泡排序），将每组中的元素排好序再分别取每组的中位数，得到[n/5]个中位数；再取这[n/5]个中位数的中位数（如果n/5是偶数，就找它的2个中位数中较大的一个）作为划
分基准，将全部的数划分为两个部分，小于基准的在左边，大于等于基准的放右边。

在这种情况下，找出的基准x至少比3(n-5)/10个元素大，因为在每一组中有2个元素小于本组的中位数，中位数处于1/2*[n/5-1]，即n/5 个中位数中又有(n-5)/10个小于基准x。

同理，基准x也至少比3(n-5)/10个元素小。

而当n≥75时，3(n-5)/10≥n/4所以按此基准划分所得的2个子数组的长度都至少缩短1/4。

思路：如果能在线性时间内找到一个划分基准，使得按这个基准所划分出的2个子数组的长度都至少为原数组长度的ε倍(0<ε<1是某个正常数)，那么就可以在最坏情况下用O(n)时间完成选择任务。

例如：若ε=9/10，算法递归调用所产生的子数组的长度至少缩短1/10。

所以，在最坏情况下，算法所需的
计算时间T(n)满足递归式T(n)≤T(9n/10)+O(n) 。

由此可得T(n)=O(n)。

方法：利用函数的相互调用和函数的递归调用实现程序的最终实现，一个主函数，三个子函数。

在主函数中只是单独的调用中位数算法的select函数，然后以select为入口进行调用bubble排序函数和partition划分函数。

【源程序代码】
#include<iostream>
#include<stdlib.h>
#include<time.h>
using namespace std;
#define MAX_VALUE 100
#define random() rand()%MAX_VALUE #define N 10
#define MIDDLE 5
int a[N];
class Find
{
public:
//冒泡排序
void bubble(int first,int end)
{
for(int i = first; i < end; i++)
for(int j = end; j > i; j--)
if(a[j]<a[j-1])
{
swap(a[j], a[j - 1]);
}}
//数组a中从a[p]到a[r]的元素按照x划分,大于x的在左边,小于x的在右边int partition(int p,int r,int x)
{
int i = p - 1, j = r + 1;
while (1)
{
while (a[++i] < x && i < r);
while (a[--j] > x);
if (i >= j)
break;
swap(a[i], a[j]);
}
return j - 1;
}
//寻找中位数
int select(int p,int r,int k)
{
if(r - p < 75)
{
bubble(p,r);
return a[p+k-1];
}
for(int i = 0; i < (r - p - 4) / 5; i++)
{
int s = p + 5 * i, t = s + 4;
bubble(s,t);
int temp = a[p + i];
a[p + i] = a[s + 2];
a[s + 2] = temp;
}
// 找中位数的中位数
int x = select(p, p + (r - p - 4) / 5, (r - p - 4) / 10);
i = partition(p, r, x);
int j = i - p + 1;
if(k <= j)
return select(p, i, k);
else
return select(i + 1, r, k - j);
}
};
int main()
{
srand((int)time(NULL));
for(int k = 0; k < N; k++)
{
a[k] = random();
cout << a[k] << "\t";
}
cout << endl;
Find f;
int n = MIDDLE;
cout << "The No."<< n << " is :" << f.select(0, N-1, n) << endl;
return 0;
}
【实验结果】
运行结果图（k=5）：
运行结果图（k=4）：
实验结果分析：通过上面的结果图可以证明程序可以得到正确的排序结果。