数据挖掘数据处理中小技巧

合集下载

数据挖掘领域处理缺失数据的几种常见方法

数据挖掘领域处理缺失数据的几种常
见方法
数据挖掘领域处理缺失数据的常见方法有以下几种：
1. 删除法：当数据集中的缺失值数量较少时，可以直接删除包含缺失值的记录。

这种方法简单易行，但可能会导致数据集的样本数量减少，从而影响数据分析的结果。

2. 填充法：填充法是通过填充缺失值来处理缺失数据的方法。

常见的填充方法包括平均值填充、中位数填充、众数填充、最近邻填充等。

这些方法根据数据集的特征选择合适的填充值，以保持数据的合理性和一致性。

3. 插补法：插补法是利用已有的数据信息来推测缺失值的方法。

常见的插补方法包括回归插补、随机森林插补、KNN 插补等。

这些方法基于数据集中其他变量与缺失变量之间的关系，通过建立模型来预测缺失值。

4. 多重插补法：多重插补法是对缺失数据进行多次插补，并将每次插补的结果合并起来的方法。

这种方法可以减小插补误差，提高数据的准确性和可靠性。

5. 不处理法：在某些情况下，缺失值可能并不影响数据分析的结果，或者可以通过其他方法来处理。

例如，在分类问题中，可以将缺失值作为一个独立的类别进行处理。

需要根据具体情况选择合适的方法来处理缺失数据。

在选择方法时，需要考虑数据集的特征、缺失值的数量和分布、分析方法的要求等因素。

同时，对于处理后的数据，需要进行评估和验证，以确保数据的质量和可靠性。

掌握数据挖掘的基本方法与技巧

掌握数据挖掘的基本方法与技巧数据挖掘作为一种从大量的数据中发现隐藏模式和关联规律的方法，正在越来越多地被应用于各个领域。

掌握数据挖掘的基本方法与技巧，对于从海量数据中获取有价值信息具有重要意义。

本文将着重介绍数据挖掘的基本方法与技巧，并按类划分为数据预处理、特征选择、分类与聚类三个章节。

一、数据预处理数据预处理是进行数据挖掘前必不可少的一个环节，它的目的是对原始数据进行清洗和转换，以便于后续的分析和建模过程。

数据预处理的技巧主要包括数据清洗、数据集成、数据变换和数据规约。

1.数据清洗数据清洗是处理缺失值、异常值、噪声等问题的过程。

在实际应用中，往往会遇到缺失值的情况，可以使用均值填充、插值法等方法进行处理；判断异常值可以通过箱线图、3σ原则等进行识别和处理；噪声可以使用平滑滤波、离群点处理等方法进行清洗。

2.数据集成数据集成是将来自不同数据源的数据进行整合的过程。

在进行数据集成时，需要解决数据命名不一致、数据冗余与冗余、数据集成冲突等问题。

可以通过数据转换、数据规约等方法进行处理。

3.数据变换数据变换是将原始数据转化成适合进行挖掘的形式，常见的方法有离散化、归一化、标准化等。

离散化可以将连续属性转化为离散属性，方便进行分析；归一化和标准化则可以将不同尺度的数值属性统一到一个范围内。

4.数据规约数据规约是减少数据集规模的过程，一方面可以加快数据挖掘的速度，另一方面可以减少存储空间。

数据规约的方法主要包括属性选择和数据抽样。

在属性选择时，可以采用信息熵、方差等指标进行评估；在数据抽样时，可以采用随机抽样、分层抽样等方法。

二、特征选择特征选择在数据挖掘过程中具有重要意义，它可以从原始数据集中选取最具有代表性和区分度的特征。

特征选择的技巧主要包括过滤式特征选择、包裹式特征选择和嵌入式特征选择。

1.过滤式特征选择过滤式特征选择是在特征选择和分类过程之间进行分析，独立于任何特定的学习算法。

常用的过滤式特征选择方法有相关系数、信息增益、卡方检验等。

数据挖掘中的并行计算技巧(五)

数据挖掘是一门涉及大规模数据处理和分析的学科，而并行计算技巧则是在处理大规模数据时至关重要的一环。

本文将介绍在数据挖掘中常用的并行计算技巧，包括分布式计算、并行算法等内容。

分布式计算是大规模数据处理中常用的一种并行计算技巧。

在分布式计算中，计算任务被分发到多台计算机上进行并行处理，从而加快了数据处理的速度。

常见的分布式计算框架包括Hadoop和Spark。

Hadoop采用分布式文件系统HDFS来存储数据，并通过MapReduce框架来进行数据处理。

而Spark则是基于内存计算的分布式计算框架，拥有更快的计算速度和更丰富的API支持。

通过使用这些分布式计算框架，数据挖掘工程师可以充分利用集群中的计算资源，提高数据处理的效率。

除了分布式计算，并行算法也是数据挖掘中常用的一种技巧。

在并行算法中，数据挖掘任务被分解成多个子任务，并行执行。

常见的并行算法包括K-means并行算法、Apriori算法等。

K-means并行算法是一种用于聚类分析的算法，通过将数据集分成多个子集，并行执行聚类分析，从而提高了聚类的效率。

而Apriori算法则是一种用于关联规则挖掘的算法，通过并行处理频繁项集的生成和关联规则的发现，加速了关联规则挖掘的过程。

此外，数据挖掘中还可以采用GPU加速技术来进行并行计算。

GPU是图形处理器，其内部包含大量的小型处理单元，适合并行计算。

在数据挖掘中，可以利用GPU加速技术来加速矩阵运算、神经网络训练等计算密集型任务。

通过使用GPU加速技术，数据挖掘工程师可以在不增加硬件成本的情况下，提高数据处理的速度。

在实际的数据挖掘应用中，通常会综合运用以上的并行计算技巧。

例如，可以将数据集通过Hadoop分布式计算框架进行预处理，然后使用Spark进行并行算法的计算，最后通过GPU加速技术进行模型训练。

通过综合运用这些并行计算技巧，可以大大提高数据挖掘的效率和性能。

总之，数据挖掘中的并行计算技巧对于加速数据处理和分析至关重要。

数据挖掘中如何处理缺失值与异常值

数据挖掘中如何处理缺失值与异常值数据挖掘是一种从大量数据中提取有价值信息的过程，但在实际应用中，我们经常会遇到数据中存在缺失值和异常值的情况。

这些问题会影响数据的准确性和分析结果的可靠性，因此，如何处理缺失值和异常值成为了数据挖掘中一个重要的问题。

一、处理缺失值缺失值是指数据中某些属性的值缺失或者未记录的情况。

处理缺失值的方法有多种，下面介绍几种常用的方法。

1. 删除缺失值：最简单的方法是直接删除包含缺失值的样本或属性。

这种方法适用于数据集中缺失值的比例较小的情况，但是会造成数据的丢失，可能会影响模型的准确性。

2. 插补缺失值：另一种常见的方法是通过一定的规则或模型来估计缺失值。

常用的插补方法包括均值插补、中位数插补、众数插补等。

这些方法的原理是利用已有数据的统计特征来估计缺失值，但是可能会引入一定的偏差。

3. 使用特殊值填充：有时候，可以用一些特殊的值来填充缺失值，比如用0、-1或者999等特殊值来表示缺失。

这种方法适用于某些特定的情况，但是在数据分析过程中需要注意对这些特殊值的处理。

二、处理异常值异常值是指数据中与其他观测值明显不同的值，可能是由于测量误差、数据录入错误或者数据采集过程中的异常情况导致的。

处理异常值的方法也有多种，下面介绍几种常用的方法。

1. 删除异常值：与删除缺失值类似，最简单的方法是直接删除包含异常值的样本或属性。

但是需要注意，删除异常值可能会导致数据的丢失，对于异常值的判断需要谨慎。

2. 替换异常值：另一种常见的方法是通过一定的规则或模型来替换异常值。

常用的替换方法包括均值替换、中位数替换、众数替换等。

这些方法的原理是利用已有数据的统计特征来替换异常值，但是可能会引入一定的偏差。

3. 使用离群点检测算法：离群点检测算法可以自动识别数据中的异常值。

常用的离群点检测算法包括基于统计学方法的Z-score方法、基于距离的DBSCAN方法、基于聚类的LOF方法等。

这些算法可以帮助我们更准确地识别和处理异常值。

数据挖掘与方法种Excel数据挖掘与技巧

数据挖掘与方法种Excel数据挖掘与技巧数据挖掘是一种从大量数据中提取有用信息的过程，而Excel是一种常用的办公软件，广泛用于数据处理和数据分析。

本文将介绍在Excel中进行数据挖掘所使用的方法和技巧。

一、数据预处理数据预处理是数据挖掘的重要步骤，它包括数据清洗、数据变换和数据集成等过程。

在Excel中，我们可以通过以下技巧来进行数据预处理：1. 数据清洗数据清洗是指处理数据中的错误、缺失值和异常值。

在Excel中，可以使用筛选和排序功能找出错误值或异常值，并将其进行修正或删除。

另外，可以使用函数来处理缺失值，如使用平均值或中位数填充缺失值。

2. 数据变换数据变换是将原始数据转化为适合数据挖掘算法的形式。

在Excel 中，可以使用函数和公式对数据进行变换，如对数变换、标准化和归一化等。

此外，还可以进行数据离散化和数据抽样等操作。

3. 数据集成数据集成是将来自不同来源的数据进行合并。

在Excel中，可以使用合并单元格和拼接函数等方法将数据进行合并。

此外，还可以进行数据去重和数据匹配等操作。

二、数据分析与挖掘在进行数据挖掘之前，需要根据具体问题确定相应的数据分析方法和挖掘技巧。

以下列举了几种常用的Excel数据挖掘技巧：1. 描述性统计描述性统计是对数据进行概括和总结。

在Excel中，可以使用函数和工具进行描述性统计，如平均值、中位数、标准差、频数分布和直方图等。

2. 相关性分析相关性分析用于研究两个或多个变量之间的关系。

在Excel中，可以使用相关系数函数来计算变量之间的相关性。

另外，还可以使用散点图和趋势线来直观地展示变量之间的关系。

3. 预测建模预测建模是根据历史数据来预测未来趋势的方法。

在Excel中，可以使用回归分析和时间序列分析等方法进行预测建模。

此外，还可以使用数据透视表和数据透视图等工具来进行数据分析和可视化。

4. 聚类分析聚类分析将数据划分为若干个组或簇，使得同一组内的数据相似度较高，不同组内的数据相似度较低。

数据挖掘技巧总结

数据挖掘技巧总结在当今数字化的时代，数据如同隐藏的宝藏，而数据挖掘就是打开这座宝藏的钥匙。

它帮助我们从海量的数据中发现有价值的信息和模式，为决策提供支持。

下面我将为您总结一些实用的数据挖掘技巧。

一、数据收集与预处理数据挖掘的第一步是收集数据，但这并非简单地获取一堆数字和文本。

我们需要明确挖掘的目标，有针对性地收集相关数据。

例如，如果我们想了解消费者的购买行为，那么就需要收集消费者的购买记录、个人信息、浏览历史等数据。

然而，收集到的数据往往是不完美的，可能存在缺失值、错误值或重复数据。

这时，数据预处理就显得至关重要。

首先，要处理缺失值。

可以通过删除包含缺失值的记录、用平均值或中位数填充缺失值，或者使用更复杂的方法如基于模型的预测来填补。

其次，纠正错误值也是必不可少的。

这需要对数据的合理范围有清晰的认识，一旦发现超出范围的值，就要进行核实和修正。

最后，去除重复数据，确保每一条记录都是独一无二的，这样可以提高后续分析的准确性和效率。

二、特征工程特征工程是将原始数据转化为更有意义、更能反映数据本质特征的过程。

它就像是对原材料的加工，让数据更适合用于挖掘。

选择合适的特征是关键。

我们要从众多的原始数据字段中筛选出与挖掘目标相关的特征。

比如，在预测房价时，房屋的面积、地理位置、房龄等可能是重要的特征，而房屋的颜色可能就不太相关。

特征提取则是将复杂的数据转化为更简单、更易于处理的形式。

例如，对于文本数据，可以使用词袋模型或 TFIDF 算法将文本转化为数值向量。

特征构建是创造新的特征，这可能需要结合领域知识和数据分析的结果。

比如，通过计算两个已有特征的比值或差值来构建新的特征。

三、选择合适的算法数据挖掘中有各种各样的算法，如分类算法（决策树、支持向量机、朴素贝叶斯等）、聚类算法（KMeans、层次聚类等）、关联规则挖掘算法（Apriori、FPGrowth 等）。

选择合适的算法取决于数据的特点和挖掘的目标。

如果我们的目标是将数据分为不同的类别，比如判断一个客户是否会流失，那么可以选择分类算法。

EXCEL控的数据挖掘技巧

EXCEL控的数据挖掘技巧Excel是一款功能强大的电子表格软件，在数据挖掘中有许多技巧可以帮助我们更好地分析和处理数据。

本文将介绍一些Excel控的数据挖掘技巧，希望能对你有所帮助。

一、数据清洗与整理在进行数据挖掘之前，首先需要对数据进行清洗与整理，以确保数据的准确性和完整性。

以下是几个常用的Excel数据清洗与整理技巧：1. 去重：通过Excel的"删除重复项"功能，可以快速去除数据中的重复记录。

2. 分列：使用Excel的"文本到列"功能，可以把一个单元格中的内容按照指定的分隔符进行拆分，方便后续分析。

3. 填充空值：通过Excel的"查找与替换"功能，可以找到空白单元格并填充相应的数值或公式。

4. 删除异常值：通过Excel的筛选功能，可以筛选出数据中的异常值并进行删除或修正。

二、数据透视表与图表分析Excel的数据透视表和图表功能可以帮助我们直观地分析数据的关系和趋势。

以下是几种常用的数据透视表与图表分析技巧：1. 数据透视表：通过Excel的"数据透视表"功能，可以根据需要对数据进行汇总和分析，快速得出各种统计结果。

2. 条形图与柱状图：适用于比较不同类别之间的数据大小和差异。

3. 饼图与环形图：适用于展示不同类别之间的占比关系。

4. 折线图：适用于展示数据随时间或其他因素的趋势变化。

三、条件筛选与排序Excel的条件筛选和排序功能可以帮助我们快速找到所需的数据，并按照特定的条件进行排序。

以下是几种常用的条件筛选与排序技巧：1. 筛选：通过Excel的"自动筛选"功能，可以根据指定的条件快速筛选出符合要求的数据。

2. 高级筛选：适用于更复杂的筛选需求，可以根据多个条件进行筛选，并可选择将结果输出到其他区域。

3. 排序：通过Excel的"升序"和"降序"功能，可以按照特定的字段对数据进行排序，方便后续分析和查找。

数据挖掘中的数据预处理方法

数据挖掘中的数据预处理方法数据挖掘作为一门重要的技术，旨在从大量数据中发现隐藏的模式和规律，为决策和预测提供支持。

然而，在进行数据挖掘之前，必须对原始数据进行预处理，以确保数据的质量和可用性。

本文将探讨数据挖掘中常用的数据预处理方法。

一、数据清洗数据清洗是数据预处理的第一步，其目的是处理和纠正数据中的错误、缺失、重复和异常值。

错误数据可能是由于数据输入错误或传输错误导致的，而缺失数据可能是由于系统故障或数据采集过程中的问题引起的。

数据清洗的主要方法包括删除重复值、填补缺失值和修正错误值。

删除重复值是通过识别和删除数据集中的重复记录来实现的。

重复记录可能会导致数据分析结果的偏差，因此需要在进行数据挖掘之前将其删除。

填补缺失值是通过使用插值方法或基于规则的方法来填补数据集中的缺失值。

插值方法可以通过使用相邻数据的平均值或回归模型来预测缺失值。

而基于规则的方法可以根据数据的特征和属性，使用特定规则来填补缺失值。

修正错误值是通过识别和纠正数据集中的错误值来实现的。

错误值可能是由于数据输入错误或传输错误导致的，因此需要进行数据清洗来修正这些错误值。

二、数据集成数据集成是将来自不同数据源的数据整合到一个一致的数据集中的过程。

在数据挖掘中，通常需要从多个数据源中收集数据进行分析。

数据集成的主要方法包括数据合并和数据冗余消除。

数据合并是将来自不同数据源的数据合并到一个数据集中的过程。

在数据合并过程中，需要确保数据的一致性和完整性。

为了实现数据合并，需要对数据进行标准化和转换，以确保数据的一致性。

数据冗余消除是通过识别和删除数据集中的冗余记录来实现的。

冗余记录可能会导致数据分析结果的偏差，因此需要在进行数据挖掘之前将其删除。

三、数据变换数据变换是将原始数据转化为适合进行数据挖掘的形式的过程。

数据变换的主要方法包括数据规范化、数据离散化和数据聚集。

数据规范化是将数据转化为特定范围内的值的过程。

数据规范化可以通过线性变换或非线性变换来实现。

数据分析中的数据挖掘方法与技巧

数据分析中的数据挖掘方法与技巧数据分析是当今社会中一项非常重要的技术，它可以帮助我们从大量的数据中提取有价值的信息和洞察，并为决策提供支持。

而在数据分析中，数据挖掘方法和技巧则是实现这一目标的关键。

数据挖掘是一种通过从大量数据中发现模式、规律和关联来提取有用信息的过程。

它可以帮助我们发现隐藏在数据背后的规律，从而为企业、政府和个人提供更好的决策依据。

在数据挖掘中，有几种常见的方法和技巧被广泛应用。

首先，聚类是一种常见的数据挖掘方法。

聚类可以将相似的数据点分组在一起，从而形成不同的类别。

通过聚类，我们可以发现数据中的不同群体，并对这些群体进行进一步的分析。

例如，在市场营销中，我们可以使用聚类来发现不同的消费者群体，并为每个群体设计不同的营销策略。

其次，关联分析是另一种常见的数据挖掘方法。

关联分析可以帮助我们发现数据中的关联规则。

通过分析数据中的项集和频繁项集，我们可以发现不同项之间的关联关系。

例如，在零售业中，我们可以使用关联分析来发现哪些商品经常一起被购买，从而帮助商家进行商品陈列和促销策略的优化。

此外，分类和预测是数据挖掘中的另外两个重要方法。

分类可以帮助我们将数据点分到不同的类别中，从而对未知数据进行分类。

预测则是通过分析历史数据，建立模型来预测未来的趋势和结果。

这两种方法在许多领域都有广泛的应用，如金融、医疗和天气预报等。

除了以上提到的方法，还有一些其他的数据挖掘技巧也值得一提。

例如，特征选择可以帮助我们从大量的特征中选择出最有用的特征，以提高模型的准确性和效率。

异常检测可以帮助我们发现数据中的异常值和离群点，从而帮助我们发现潜在的问题和风险。

文本挖掘可以帮助我们从大量的文本数据中提取有用的信息，如情感分析和主题提取等。

然而，数据挖掘并非一项简单的任务，它需要我们具备一定的技术和技巧。

首先，我们需要具备良好的数据处理能力，包括数据清洗、数据转换和数据集成等。

这是因为原始数据往往存在缺失值、异常值和噪声等问题，需要我们进行适当的处理。

数据挖掘领域处理缺失数据的几种常见方法

数据挖掘领域处理缺失数据的几种常见方法
1. 删除缺失数据：最简单的方法是直接删除包含缺失数据的样本或特征。

如果缺失数据量较小，并且对整体数据影响不大，可以选择删除缺失数据。

2. 插值法：通过已有数据的特征值对缺失数据进行估计，常用的插值方法包括线性插值、多项式插值、样条插值等。

插值方法可以通过近邻数值或其他数据特征进行估算，填补缺失值。

3. 均值/中值/众数填补法：对于数值型特征，可以使用均值或中值填补缺失值；对于分类特征，可以使用众数填补。

4. 预测模型填补法：利用已有数据建立预测模型，然后利用模型的预测结果填补缺失数据。

常用的预测模型包括线性回归、决策树、随机森林等。

5. 多重填补法（Multiple Imputation）：通过多轮填补生成多个完整数据集，然后对这些完整数据集进行分析，最后将多个结果汇总得到最终分析结果。

6. 核密度估计填补法：通过核密度估计方法对缺失数据进行估计，主要用于连续型数据的缺失值填补。

7. 基于聚类方法填补：将数据集分成若干个类别，然后对每个类别内的缺失数据进行填补。

8. 深度学习方法填补：利用深度学习模型，如自动编码器（Autoencoder）对缺失数据进行填补。

9. 使用数据挖掘算法识别和填补缺失数据：利用聚类、分类、回归等数据挖掘算法进行数据集的分析和填补操作。

10. 机器学习算法填补：利用机器学习算法，如KNN、决策树、随机森林等对缺失数据进行填补，基于现有数据的模式来进行预测和填补。

以上是一些常见的处理缺失数据的方法，根据具体情况和数据特点，可以选择合适的方法来处理数据挖掘领域中的缺失数据。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

> 版本控制：
– – – – – Team (VSS)：写comment，告许别人变更原因和改动的地方。个人 (Me: SVN) 邮件 filename_20090701_v2 ，并在邮件中说明变更的地方 Word，使用“修订”模式，记录变更 PPT／EXCEL 使用标注。
Tip s
> 统一的命名习惯 > 工作计划 > 工作日志: 挖掘过程中有许多试验，之间的代码和参数差异很小。将有意义的中间步骤和结果记录下来，便于日后查看，或与别人交接。
Traps
and
Tips
in Data Mining Developement
主要内容
• 开发过程中对于新手常见又容易忽略的小问题
表面好还不够，基础也很重要
2 > Teradata Confidential
相关问题
• 查询的逻辑正确性 • 查询性能 • 数据挖掘操作问题 • 工具小问题
(All examples are real; just don't take it personally. )
Tip s
19 >
Teradata Confidential
• 对同一个表的多条delete/insert/update在同一步运行时会得到优化，速度比分开时快很多。（SQL Assistant里要点并发执行按钮）
• 全表删除用
delete from t all
10 >
Teradata Confidential
数据挖掘的问题
• Z-score(标准化）
– 缺失值？异常值？ – 搞反了取得是最不会流失的用户？ – 变量的均值是否合理，流失名单用户的ARPU是否偏低。
13 >
Teradata Confidential
工具的问题
Traps • 字符集
> 大部分表是uft-8，小部分是ascii。 > 字段Title的字符集多数是ascii。 > 最好建两个ODBC数据源。如果中文看不到，就切换。自己建新表尽量用utf-8
• TWM Tip s
> 需要使用asc字符集，否则会不能正确识别数据类型（字段前的小方块应该是绿色的，红色就问题）（新版TWM不知有没有这个问题） > Project 里的analysis可以复制、粘贴，便于在之前的工作上作调整。 > 第一次用TWM时先把metadata等配置好，建了project后再改就不能保存结果。
4 > Teradata Confidential
查询的逻辑问题
Traps • 被除数为0：
> a/(b+0.0001) 只有在b>=0的时候才适用 > Coalesce(a/nullifzero(b), y) b=0时用y作为结果
• 整数相除 integer/integer -> integer
sel a.c_usr_nbr,b.si_b_brnd_cd,count(distinct a.c_b_area_cd)as area_cnr from pmarttemp. tmp_usr_toll_b_area_200901 a left join pmart.TB_MID_FRD_INFO200901 b on a.c_usr_nbr=b.c_usr_nbr group by 1,2
> Union 需要进行重复记录检查，慢 > 如果可预知是没重复记录的，则用union all（不作重复检查）。例如几个地市的数据集合并。
9 > Teradata Confidential
数据处理性能问题
• 同步执行，效率更高 Insert into t ..... ;insert into t ..... 注意分号的位置，在下一个insert的行首 Tip s
> 在Variable Transformation模块中 > 消除数据不同月份间的季节性差异。 > 消除量纲。
Tip s
> 如果一个变量可能是全0（根据月份不同而变），则可能出错除以0错误。 > 解决：将score代码取出来，全部变量进行替换：
– (a-avg)/stdev --> zeroifnull ((a-avg) / nullifzero (stdev))
• 关联条件错误
> 没写关联条件！或漏了（倒如缺了月份的关联条件）
6 >
Teradata Confidential
查询的性能问题
Traps • Optimizer不能找出最好的运行方案
> 通过explain查看运行方案 > 用Collect stat，让数据的新状况告诉Optimizer
• 中止有问题的脚本
– *** Failure 3704 „? (‟A3„X) is not a valid Teradata SQL token.
->
是否将标
点或字符输成中文全角？ – 缺“;”，引号不匹配，会导致”end of file unexpected”
15 >
Teradata Confidential
工具的问题
14 >
Teradata Confidential
工具的问题
• BTEQ脚本
> > > > >
Tip s
块注释字段注释 .Goto and .label：分块化，断点运行。 .set maxerror 1 .set errorlevel 3803 severity 0 --忽略表已存在错误
> 古怪错误的应对
– 改变C编程的思维
i=0;
X 不适用于DW编程 – DW思维：使用 sum(case when .....end)
if (长途) {i++; a+=i;}
• 考虑用Partitioned Primary Index（PPI）优化insert/delete • Union vs. union all
失败乃成功之母
但...
• 等等
"Only a fool learns from his own mistakes. The wise man learns from the mistakes of others." Otto von Bismarck
3 >
Teradata Confidential
ห้องสมุดไป่ตู้ 查询的逻辑问题
> 在算比率时会出问题。10／100＝>0 > 必须先转为float类型
5 >
Teradata Confidential
查询的性能问题
Traps • 现象：慢、skewed。通过TM监控。 • 常见原因：Primary Index（PI）的问题。
> 建新表时没有指定PI，结果将month作为PI了 > Bad PI (not specified), skew > 大表不是按PI关联（交往圈表）
16 >
Teradata Confidential
工具的问题
• 常用的EXCEL技术
> > > >
Tip s
公式绘图：所有的图、格式设置。透视图贴进PPT里时，用“选择性粘贴”，EMF格式，这样PPT文件较小。
17 >
Teradata Confidential
工作习惯
• Trackability
11 >
Teradata Confidential
数据挖掘的问题
Traps • NULL值处理
> 在分析算法中，包括NULL值的记录会被删除。 > 注意：许多变量中NULL值是有意义。比如没有相应的话单时，会产生NULL值变量，其实是表示“0” > 最好在生成数据集里就用zeroifnull(.....)进行替换。
Traps • join错误
> 分清Inner/left/right/full JOIN，弄清应用场景。 > 三个或以上表FULL JOIN的时候要更小心。
• Join的表有重复号码
> 历史表、转品牌、多维表等 > 如果两个要JOIN的表表有重复号码，生成的表就叉乘出更多重复号码 > 尽量先Aggregate再join，保持粒度一致
18 >
Teradata Confidential
工作习惯
• “Nothing is certain but Death and Taxes.”
> 如果不确定，就要查文档或问别人，特别是业务问题
> 常用的工具，凭感觉和试验可能会出意想不到的错。 > 系统阅读相关文档，也会更全面学到新的技巧。
– – – – – – Teradata SQL References ＋ 2 WBT Courses TWM User Guide Teradata BTEQ Reference Teradata Fastload Reference Teradata Multiload Reference EXCEL
• 异常值处理
> 例如排除消费量最大的10条记录。
12 >
Teradata Confidential
模型投产的问题
Traps • 注意：脚本需要每个月都运行
> 保存每次运行的结果，以便评估和跟踪。 > 不要把以前的数据覆盖掉。 > 尽量不要依赖以前的数据。例如。
• 名单数据抽取后进行检查
> 使用TWM的value和Statitics模块，检查名单的取值是否合理
• 运筹：理清计算过程，为多次使用的中间数据建立临时表，不用重复计算。逻辑清晰的程序运行效率也通常高