第章聚类分析孤立点分析

合集下载

大数据之聚类分析

大数据之聚类分析

SSE=
dist(x,mj)
其中,k表示需要聚集的类的数目,Cj表示第j个聚类,mj表示 聚类Cj的聚类中心,dist(x,mj)表示数据点x和聚类中心mj之间 的距离。利用该准则可以使所生成的簇尽可能的紧凑和独立。
K-Means算法
特点:K-means算法的每个簇都是使用对象的 平均值来表示。 原始K-Means算法的缺陷:
大数据
聚类分析
yif
LOGO
主要内容
1
聚类分析 孤立点挖掘
聚类算法---K-MEANS
2
3
4
总结
什么是聚类分析?
聚类(簇):数据对象的集合
在同一个聚类(簇)中的对象彼此 相似 不同簇中的对象则相异
聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的 多个类的过程
聚类是一种无指导的学习:没有预定义的类 编号 聚类分析的数据挖掘功能
聚类算法
目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类 的目的和具体的应用。大体上,主要的聚类算法分为这几大类。
聚类算法的衡量标准
可伸缩性
不同属性
解释性 -可用性
任意形状
基于约束
衡量聚 类算法 的优劣
领域最小化
高维向量C1,C2,… ,Cn初始化K个种子 (即选择K个类的初始中心) 分组
聚类分析应用实例
市场 营销
帮市场分析 人员从客户 基本库中发 现不同的客 户群,从而 可以对不同 的客户群采 用不同的营 销策略。
土地 使用
保险业
城市 规划
地震 研究
将观测到 的震中点 沿板块断 裂进行聚 类,得出 地震高危 区。
在地球监 测数据库 中,发现 相同的土 地使用区 域。

《数据仓库与数据挖掘》复习题

《数据仓库与数据挖掘》复习题

2014-2015-1《数据仓库与数据挖掘》期末考试题型一、单项选择题(每小题2分,共20分)二、填空题(每空1分,共20分)三、简答题(每题6分,共30分)四、析题与计算题(共30分)请同学们在考试时不要将复习资料带入考场!!!单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准?(A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD?(A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

聚类分析_精品文档

聚类分析_精品文档

1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。

聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。

1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。

数据挖掘第七章__聚类分析

数据挖掘第七章__聚类分析
火龙果 整理
Chapter 7. 聚类分析
• 聚类分析概述 • 聚类分析的数据类型
• 主要聚类分析方法分类
划分方法(Partitioning Methods)
分层方法
基于密度的方法
基于网格的方法
基于模型(Model-Based)的聚类方法
火龙果 整理
• 差异度矩阵
– (one mode)
0 d(2,1) 0 d(3,1 ) d ( 3, 2 ) : : d ( n,1) d ( n,2)
0 : ... ... 0
火龙果 整理
1.数据矩阵 数据矩阵是一个对象—属性结构。它是n个对象组
6.3 聚类分析中的数据类型
假设一个要进行聚类分析的数据集包含 n
个对象,这些对象可以是人、房屋、文件等。
聚类算法通常都采用以下两种数据结构:
火龙果 整理
两种数据结构
• 数据矩阵
– (two modes)
x11 ... x i1 ... x n1 ... x1f ... ... ... xif ... ... ... xnf ... x1p ... ... ... xip ... ... ... xnp
• 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿 成本的客户;
• 城市规划: 根据类型、价格、地理位置等来划分不同类型的 住宅; • 地震研究: 根据地质断层的特点把已观察到的地震中心分成 不同的类;
火龙果 整理
生物方面,聚类分析可以用来对动物或植物分类,或 根据基因功能对其进行分类以获得对人群中所固有的
(6.2)
火龙果 整理

空间分析原理与应用:第七章 空间聚类分析

空间分析原理与应用:第七章 空间聚类分析

cos 21
cos 22
cos
2n
cos n1
cos n1
cos
nn
这是一个实对称矩阵,其主对角线元素为1,只需计算上三角或下三角。
cos ij的取值范围在 - 1和1之间,其值越大,越相似,可以归为一类。
2.相关系数(r)
rij
m
( xik xi )(x jk x j )
k 1
m
m
( xik xi )2 ( x jk x j )2
prototyp

es
K-modes 跟K-means相似 较高 分类
凸、球 大
一般 较低

一般 较低

CLARA O(ks2+k(n- k)) 较高 数值
凸、球 大
一般 较低
一般
CLARANS O(n2)
较低 数值
凸、球 大

一般 一般
聚类 算法名称 方法
算法效率
基于 层次
BIRCH CURE
O(n) O(n)
• CHAMELEON(变色龙)算法的主要思想是首先使用图划分算法 将数据对象聚类为大量相对较小的子类,其次使用凝聚的层次 聚类算法反复地合并子类来找到真正的结果类。CHAMELEON 算法是在 CURE 等算法的基础上改进而来,能够有效的解决 CURE等算法的问题。
(3)基于密度的聚类 主要特点在于其使用区域密度作为划分聚类的依据,其认为只要数据空间区
二、空间聚类分析的要求
空间聚类中的典型问题
1.空间数据的复杂性 • 空间拓扑关系:a,c,e,g表示了空间簇相互分离的情况;
b,d,f,h,k,l表示了空间簇邻接的情况,其中b,d表示了“颈问 题”,k,l表示单链和多链问题;i表示空间簇相互包含的情况;j 表示两个空间簇或一个空间簇与背景噪声相互覆盖的情况。

第章聚类分析孤立点分析

第章聚类分析孤立点分析
(1.4)计算p的局部异常因子LOFMinPts(p) (2)输出D中LOF值最大的k个对象
基于密度的异常检测算法的时间复杂度为O(n2)(其中n是 D中对象个数)。算法给出了对象异常程度的定量度量
,并且在数据具有不同密度的区域也能够很好地识别局 部异常。
26
基于偏离的孤立点检测
例: 给定n个对象的子集合{x1,…,xn}, 一个可能的相异度 函数是集合中对象的方差 基数函数(cardinality function): 一般是给定的集合中对象的数目 平滑因子(smoothing factor): 一个为序列中的每个子集计算的函数. 它估算从原始的数据集合中移走子集合可以带来的相异 度的降低程度. 平滑因子值最大的子集是异常集
16
基于距离的孤立点检测
为了解决统计学方法带来的一些限制,引入了基于距离的 孤立点的概念
基于距离的孤立点: DB(p, d)-孤立点是数据集T中的一个对象o, 使得 T中的 对象至少有p部分与o的距离大于d
将基于距离的孤立点看作是那些没有“足够多”邻居的对象. 这里的邻居是基于距给定对象的距离来定义的
15
基于统计学的孤立点检测
缺点 绝大多数检验是针对单个属性的, 而许多数据挖掘问题要 求在多维空间中发现孤立点
统计学方法要求关于数据集合参数的知识(如, 数据分布), 但是在许多情况下, 数据分布可能是未知的
当没有特定的检验时, 统计学方法不能确保所有的孤立点 被发现; 或者观察到的分布不能恰当地被任何标准的分布 来模拟
5)局部异常因子LOF
对象p的局部异常因子定义为:
LOF是对象p和它的最近邻的局部可达密度的比率的平均值。p的
局部可达密度越小,p的MinPts最近邻的局部可达密度越大,

第十四章-聚类分析

第十四章-聚类分析
属于非系统聚类法的一种
也叫快速聚类\动态聚类、逐步聚类、迭代 聚类)(quick cluster method、kmeans model )
适用于样本量很大的情形,用系统聚类法 计算的工作量极大,作出的树状图也十分复 杂, 不便于分析
1、原理
➢选择初始凝聚点 ➢根据欧氏距离将每个样品归类 ➢各类的重心代替初始凝聚点 ➢根据欧氏距离将每个样品归类,…… ➢直至达到指定的迭代次数或达到终止迭代的 判据要求
8.Mcquitty的相似分析法(Mcquitty's similarity analysis)
9.最大似然估计法(EML)
10.密度估计(density linkage)
11.两阶段密度估计法(two-stage density linkage)等。
4、系统聚类法的性质
➢ 单调性
中间距离法、重心法不具有单调性 ➢ 空间的浓缩与扩张
4、菜单:
Analyze-classify-K means Cluster
5、分析实例(P416 data13-02)
三、Hierarchical Cluster 过程 1、系统聚类的基本思想
➢ 相近的聚为一类(以距离表示,样品聚类) ➢ 相似的聚为一类(以相似系数表示,变量聚类)
2、方法原理
9、共线性问题
对纪录聚类结果有较大的影响 最好先进行预处理
10、变量的标准化
变量变异程度相差非常大时需要进行 标准化后会削弱有用变量的作用
11、异常值
影响较大 还没有比较好的解决办法 应尽力避免
12、分类数
从实用角度讲,2~8类比较合适
13、专业意义
一定要结合专业知识进行分析
二、K-means Cluster 过程

《聚类与孤立点检测算法的研究和实现》

《聚类与孤立点检测算法的研究和实现》

《聚类与孤立点检测算法的研究和实现》一、引言在大数据时代,如何有效地处理和分析海量数据成为了研究的热点。

聚类与孤立点检测是数据挖掘和机器学习领域的重要技术,它们在许多领域如金融、医疗、安全等领域有着广泛的应用。

聚类是将数据集分成由类似的对象组成的多个组或簇的过程,而孤立点检测则是识别那些与其他数据显著不同的点或模式的过程。

本文将对这两种算法进行研究,并介绍其实现过程。

二、聚类算法研究1. K-means聚类算法K-means是一种常用的聚类算法,其基本思想是将n个对象划分为k个簇,以使每个簇的内部差异尽可能小,而簇间的差异尽可能大。

该算法的步骤包括初始化聚类中心、计算每个点到各聚类中心的距离并分配到最近的聚类中心、重新计算各聚类中心的坐标、重复2. 重复上述步骤直到满足停止条件。

停止条件通常为达到预设的迭代次数,或者聚类中心不再发生显著变化。

三、孤立点检测算法研究孤立点检测,也称为离群点检测,其主要目的是找出那些与数据集中其他大部分数据显著不同的点。

这些点可能代表重要的异常情况或者错误数据。

1. 基于统计的孤立点检测基于统计的方法通过计算数据点的统计特性,如均值、标准差等,来判断其是否为孤立点。

具体而言,如果某个数据点的某些统计属性与其他数据点的差异超过一定的阈值,则该点被视为孤立点。

2. 基于密度的孤立点检测基于密度的方法则通过计算数据点的密度来检测孤立点。

通常,数据的密度可以用邻域内的数据点数量或者平均距离来表示。

如果一个数据点的密度明显低于其邻域内的其他数据点,则该点被视为孤立点。

四、算法实现无论是聚类算法还是孤立点检测算法,其实现过程通常包括以下几个步骤:1. 数据预处理:包括数据清洗、转换和标准化等步骤,以使数据适合于后续的算法处理。

2. 特征提取:从原始数据中提取出用于聚类或孤立点检测的特征。

3. 算法选择与参数设置:根据具体的问题和需求选择合适的聚类或孤立点检测算法,并设置适当的参数。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第7章. 聚类分析
什么是聚类(Clustering)分析? 聚类分析中的数据类型 主要聚类方法分类 划分方法(Partitioning Methods) 层次方法(Hierarchical Methods) 基于密度的方法(Density-Based Methods) 基于网格的方法(Grid-Based Methods) 基于模型的聚类方法(Model-Based Clustering Methods) 孤立点分析(Outlier Analysis) 小结
16
基于距离的孤立点检测
为了解决统计学方法带来的一些限制,引入了基于距离的 孤立点的概念
基于距离的孤立点: DB(p, d)-孤立点是数据集T中的一个对象o, 使得 T中的 对象至少有p部分与o的距离大于d
将基于距离的孤立点看作是那些没有“足够多”邻居的对 象. 这里的邻居是基于距给定对象的距离来定义的
当分析多维数据时, 不是任何特别的一个, 而是维值的组 合可能是极端的. 对于非数值型的数据(如分类数据), 孤立点的定义要求特殊的考虑
3
孤立点分析
采用数据可视化方法来进行孤立点探测如何? 不适用于包含周期性曲线的数据 对于探测有很多分类属性的数据, 或高维数据中的孤 立点效率很低
方法 统计学方法 基于距离的方法 基于密度的方法
20
基于密度的异常检测
相关概念 基于密度的异常检测算法
21
相关概念(1)
1)k距离
对象p的k距离k-distance(p)是p到它的k最近邻的最大 距离。它定义为p与对象oD之间的距离d(p,o),满足: (1)D中至少存在k个对象到p的距离小于或等于p到o的 距离。(2)D中最多有k-1个对象到p的距离比p到o的距 离小。k与聚类算法DBSCAN中的MinPts相同,用于定义 对象p的局部邻域。
13
基于统计学的孤立点检测
结果非常依赖于模型F的选择
Oi可能在一个模型下是孤立点, 在另一个模型下是非常有 效的值
替代分布在决定检验的能力上是非常重要的
不同的替代分布
固有的替代分布(inherent alternative distribution):所有对 象来自分布F的工作假设被拒绝, 而所有对象来自另一个 分布G的替代假设被接受
lrdMinPts ( p) 1
oN
reach
MinPts ( p )
_
distMinPts
(
p,
o)
| N MinPts ( p) |
5)局部异常因子LOF
对象p的局部异常因子定义为:
lrd MinPts (o)
LOFMinPts ( p)
lrd ( p) oN MinPts ( p )
MinPts
步骤:
(1)for D中每个数据对象p (1.1)确定p的MinPts距离邻域NMinpts_distance(p)(p)
25
基于密度的异常检测算法(2)
(1.2)使用p的最近邻(即NMinPts_distance(p)(p)中的对 象),计算p的局部可达密度lrdMinPts(p)
(1.3)计算NMinPts_distance(p)(p)中每个对象o的局部可 达密度lrdMinPts(o)
混合替代分布(mixture alternative distribution):不一致 的值不是F分布中的孤立点, 而是来自其他分布的污染物
滑动替代分布(slippage alternative distribution):所有的 对象( 除了少量外)根据给定的参数, 独立地来自初始的模 型F,而剩余的对象是来自修改过的F的独立的观察
2
孤立点分析
应用:
信用卡欺诈检测 电信欺诈检测 顾客分割: 确定极低或极高收入的客户的消费行为 医疗分析: 发现对多种治疗方式的不寻常的反应
孤立点的定义是非平凡的
如果采用一个回归模型, 余量的分析可以给出对数据“极 端”的很好的估计
当在时间序列数据中寻找孤立点时, 它们可能隐藏在趋势 的, 周期性的, 或者其他循环变化中, 这项任务非常棘手
(1.4)计算p的局部异常因子LOFMinPts(p) (2)输出D中LOF值最大的k个对象
基于密度的异常检测算法的时间复杂度为O(n2)(其中n是 D中对象个数)。算法给出了对象异常程度的定量度量,
并且在数据具有不同密度的区域也能够很好地识别局部 异常。
26
基于偏离的孤立点检测
例: 给定n个对象的子集合{x1,…,xn}, 一个可能的相异度 函数是集合中对象的方差 基数函数(cardinality function): 一般是给定的集合中对象的数目 平滑因子(smoothing factor): 一个为序列中的每个子集计算的函数. 它估算从原始的数据集合中移走子集合可以带来的相异 度的降低程度. 平滑因子值最大的子集是异常集
19
基于偏离的孤立点检测
通过检查一组对象的主要特征来确定孤立点 与给出的描述偏离的对象被认为是孤立点 序列异常技术(sequential exception technique)
模仿人类从一系列推测类似的对象中识别异常对象的方式
术语 异常集(exception set): 它是偏离或孤立点的集合, 被定义 为某类对象的最小子集, 这些对象的去除会导致剩余集 合的相异度的最大减少 相异度函数(dissimilarity function):是满足如下条件的 任意函数:当给定一组对象时,如果对象间相似,返值 就较小。对象间的相异度越大,函数返回的值就越大
2)k距离邻域
对象p的k距离邻域Nk_distance(p)(p)包含所有与p的距离不 超过k_distance(p)的对象,即:
Nk-distance(p)(p)={qD﹨{p}|d(p,q) k-distance(p)}
22
相关概念(2)
3)可达距离
给定自然数k,对象p关于对象o的可达距离reach_distk(p,o)为:
6
检测一元正态分布中的离群点
y
1
x2
e2
2
7
检测一元正态分布中的离群点
若考察的属性服从正态分布,可以用属性的出现概率确定 是否离群点.出现概率低于一个阈值,就可以认为该属性是 一个离群点.确定的方法由下面定义:
8
检测一元正态分布中的离群点
出现概率在2.5%左边或者右边的属性都可以作 为离群点,因为概率小于给定的阈.
24
基于密度的异常检测算法(1)
LOF表征了对象p的异常程度,因此,可以通 过计算LOF(p)来判断对象p是否是局部异常。基于
密度的异常检测算法的核心是对于指定的近邻个
数k,基于对象的最近邻计算对象的LOF。
算法:基于密度的异常检测算法(D,MinPts,k) 输入:数据对象集合D,近邻个数MinPts,异常对象数目k 输出:k个异常
9
检测二元正态分布中的离群点
(x, y) ~ N (m1;1; m2;2; r)
10
用mahalanobis距离来衡量是否离群点,距离超过一个阈值 就是离群点.
S
sx s xy
X (x1, x2 )
s xy sy
11
检测二元正态分布中的离群点
12
检测二元正态分布中的离群点
若A、B的距离超过一个阈值,它们就是离群点。 A的Mahalanobis距离比B大,证明A离中心点更远.
4
基于统计学的孤立点检测
对给定的数据集合假设了一个分布或概率模型(例如, 正态 分布), 然后根据模型采用不一致性检验(discordancy test)来 确定孤立点
检验要求的参数 数据集参数: 例如, 假设的数据分布 分布参数: 例如平均值和方差 和预期的孤立点的数目
统计学的不一致性检验需要检查的两个假设 工作假设(working hypothesis) 替代假设(alternative hypothesis)
1
孤立点分析
什么是孤立点? 对象的集合, 它们与数据的其它部分不一致 孤立点可能是度量或执行错误所导致的 孤立点也可能是固有的数据变异性的结果
问题 给定一个n个数据点或对象的集合, 及预期的孤立点的 数目k, 发现与剩余的数据相比是相异的, 例外的, 或不一 致的前k个对象
两个子问题: 定义在给定的数据集合中什么样的数据可以被认为是不 一致的 找到一个有效的方法来挖掘这样的孤立点
对许多不一致性检验来说, 如果一个对象 o根据给定的检验 是一个孤立点, 那么对恰当定义的p和d,o也是一个DB(p,d) 孤立点
例如,如果离平均值偏差3或更大的对象被认为是孤立点,假设一 个正态分布,那么这个定义能够被一个DB(0.9988,0.13σ)孤立点所 概括
17
基于距离的异常检测
指定参数pct和dmin,如果数据集合D中的 对象至少有pct部分与对象o的距离大于 dmin,则称对象o是以pct和dmin为参数的 基于距离的异常,记为DB(pct,dmin)。
5
基于统计学的孤立点检测
工作假设H是一个命题:n个对象的整个数据集合来自一个 初始的分布模型F,
即 H:Oi ∈F,i =1, 2, …, n
不一致性检验验证一个对象Oi关于分布F是否显著地大(或 者小)
依据关于数据的可用知识, 已提出不ቤተ መጻሕፍቲ ባይዱ的统计量用于不一致 性检验
假设某个统计量被选择用于不一致性检验, 对象Oi的该统计 量的值为Vi, 则构建分布T 估算显著性概率SP(Vi)=Prob(T>Vi) 如果某个SP(Vi)是足够的小, 那么Oi是不一致的, 工作假 设被拒绝. 替代假设被采用, 它声明Oi来自于另一个分布 模型G
14
基于统计学的孤立点检测
检测孤立点有两类基本的过程 批(block)过程: 或者所有被怀疑的对象都被作为孤立点 对待, 或者都被作为一致数据而接受 连续的过程: 该过程的一个例子是内部出局(inside-out)过程 主要思想 首先检验最不可能是孤立点的对象. 如果它是孤立 点, 那么所有更极端的值都被认为是孤立点;否则, 检验下一个极端的对象, 依次类推 该过程往往比批过程更为有效
相关文档
最新文档