【中级】第9章人工智能模型开发测试(9.2人工智能模型测试)V1.0

合集下载

人工智能开发技术的测试和评估方法

人工智能开发技术的测试和评估方法
1、交叉验证（Cross Validation）
交叉验证是机器学习中常用的一种测试方法，它可以用于评估模型在未知数据集上的可靠度和泛化能力。

它可以使用不同的评估指标，包括准确率（accuracy）、精确率（precision）和召回率（recall）。

它主要是通过将不同的数据集分成n等份，然后在不同的数据集上训练和测试模型，结果的期望值就是由所有测试结果的平均值确定。

2、调整超参数（Fine-tuning Hyperparameters）
调整超参数是改善模型性能的一种有效的方法，在机器学习中，超参数可以控制模型的复杂度和表现，如果设置不当，则模型可能会变得过拟合或欠拟合。

通常，可以使用网格（grid search）、随机（random search）等方法来调整超参数，通过确定最优的超参数来改善模型的训练和测试结果。

3、数据增强（Data Augmentation）
数据增强是指通过对数据集进行变换和扩充，以产生新的样本，从而增加训练数据集的数量。

这有助于防止模型过拟合，同时增强模型的泛化能力。

通常，可以使用旋转、缩放、平移、裁剪等方法来实现数据增强。

4、正则化（Regularization）
正则化是一种有效的模型训练方法，它可以帮助机器学习算法减少噪音的干扰，减少过拟合。

人工智能的测验与练习 B1人工智能的测试与练习

人工智能的测验与练习 B1人工智能的测试与练习人工智能的测验与练1. 介绍人工智能（Artificial Intelligence，简称AI）是一门研究和开发用于模拟、延伸和扩展人的智能的技术领域。

近年来，人工智能在各个行业得到广泛应用，引起了社会的广泛关注。

为了提高对人工智能的理解与运用能力，我们开设了B1级别的人工智能的测试与练。

2. 测试内容本次测试分为三个部分，分别测试学生对人工智能的基础知识、实际应用以及伦理道德的了解。

测试题目主要以选择题和简答题形式出现。

第一部分：基础知识1. 什么是人工智能？A. 人工制造的智能B. 机器模拟的智能C. 人类媒体放大的智能D. 无法定义2. 人工智能的发展阶段一般被划分为：A. 机器研究、深度研究、强化研究B. 知觉、推理、研究C. 前期人工智能、弱人工智能、强人工智能D. “AI冬天”的阶段3. 以下哪个不属于人工智能的应用领域？A. 自动驾驶B. 机器翻译C. 电子邮件D. 人脸识别第二部分：实际应用4. 当你使用手机上的语音助手时，这是属于哪种人工智能的应用？A. 机器研究B. 增强现实C. 自动推荐系统D. 自然语言处理5. 在医疗领域，人工智能可以用来：A. 检测疾病早期迹象B. 制定治疗方案C. 辅助手术操作D. 所有选项都对第三部分：伦理道德6. 在人工智能的发展中，对隐私的保护是一个重要的问题，以下哪种情况属于隐私泄露？A. 通过人脸识别技术对犯罪嫌疑人进行定位B. 通过数据分析预测用户的购物惯C. 通过机器研究算法对病人进行个性化治疗D. 通过自动驾驶技术提高交通安全性7. 人工智能发展时面临的道德问题之一是：A. 机器是否应该拥有权利？B. 人工智能是否会取代人类工作？C. 人工智能是否会控制人类？D. 人工智能是否能够具有情感？3. 练请结合实际情况，回答以下问题：1. 你认为人工智能对社会的发展有何积极影响？2. 在你所在的领域中，你认为人工智能有哪些应用潜力？3. 在未来，你对人工智能是否持乐观态度？为什么？在回答问题时，可适当运用相关领域的具体案例或实践经验进行解答。

初二人工智能试题及答案

初二人工智能试题及答案一、选择题（每题3分，共30分）1. 人工智能（AI）的最终目标是让机器能够：A. 自动驾驶汽车B. 自动处理数据C. 模拟人类智能行为D. 进行复杂数学计算答案：C2. 下列哪项技术不属于人工智能的范畴？A. 机器学习B. 深度学习C. 云计算D. 自然语言处理答案：C3. 人工智能中的“深度学习”主要基于哪种类型的神经网络？A. 循环神经网络B. 卷积神经网络C. 生成对抗网络D. 深度信念网络答案：B4. 在人工智能中，用于训练机器学习模型的数据集被称为：A. 测试集B. 验证集C. 训练集D. 特征集答案：C5. 人工智能中的“监督学习”需要：A. 无标签数据B. 有标签数据C. 无特征数据D. 无输入数据答案：B6. 下列哪个算法不是用于分类问题的？A. 逻辑回归B. 决策树C. 线性回归D. 支持向量机答案：C7. 在人工智能中，用于评估模型性能的指标不包括：A. 准确率B. 召回率C. F1分数D. 均方误差答案：D8. 人工智能中的“强化学习”主要关注：A. 预测未来事件B. 优化决策过程C. 识别图像中的对象D. 自动翻译语言答案：B9. 下列哪个不是人工智能领域的应用？A. 语音识别B. 推荐系统C. 股票交易D. 植物生长研究答案：D10. 人工智能中的“迁移学习”是指：A. 从一种任务中学习，然后将学到的知识应用到另一种任务中B. 从多种任务中学习，然后将学到的知识应用到一种任务中C. 只从一种任务中学习，并将学到的知识应用到该任务中D. 从多种任务中学习，并将学到的知识应用到多种任务中答案：A二、填空题（每题2分，共20分）11. 人工智能的三大支柱是________、________和________。

答案：算法、数据、计算能力12. 人工智能中的“________”是指机器通过观察数据来学习规律，而不是通过显式编程。

答案：机器学习13. 在人工智能中，________是指模型在训练过程中对训练数据过拟合的现象。

人工智能经典测验试题及答案

人工智能经典测验试题及答案一、选择题(每题1分，共15分)1、AI的英文缩写是A)Automatic Intelligence B)Artifical IntelligenceC)Automatice Information D)Artifical Information2、反演归结（消解）证明定理时，若当前归结式是（）时，则定理得证。

A)永真式B)包孕式（subsumed）C)空子句3、从已知事实出发，通过规则库求得结论的产生式系统的推理方式是A)正向推理B)反向推理C)双向推理4、语义网络表达知识时，有向弧AKO链、ISA链是用来表达节点知识的（）。

A)无悖性B)可扩充性C)继承性5、(A→B)∧A=>B是A)附加律B)拒收律C)假言推理D)US6、命题是可以判断真假的A)祈使句B)疑问句C)感叹句D)陈述句7、仅个体变元被量化的谓词称为A)一阶谓词B)原子公式C)二阶谓词D)全称量词8、MGU是A)最一般合一B)最一般替换C)最一般谓词D)基替换9、1997年５月，著名的“人机大战”，最终计算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败，这台计算机被称为（）A）深蓝B）IBM C）深思D）蓝天10、下列不在人工智能系统的知识包含的4个要素中A)事实B)规则C)控制和元知识D)关系11、谓词逻辑下，子句,C1=L∨C1‘,C2=?L∨若σ是互补文字的（最一般）合一置换，则其归结式C=（）A)C1’σ∨C2’σB)C1’∨C2’C)C1’σ∧C2’σD)C1’∧C2’12、或图通常称为A）框架网络B)语义图C)博亦图D)状态图13、不属于人工智能的学派是A)符号主义B)机会主义C)行为主义D)连接主义。

14、人工智能的含义最早由一位科学家于1950年提出，并且同时提出一个机器智能的测试模型，请问这个科学家是A)明斯基B).扎德C)图林D)冯.诺依曼15.要想让机器具有智能，必须让机器具有知识。

人工智能试题与答案

人工智能试题与答案一、单选题（共103题，每题1分，共103分）1.如果问题存在最优解，则下面几种搜索算法中，（）必然可以得到该最优解。

A、启发式搜索B、深度优先搜索C、有界深度优先搜索D、广度优先搜索正确答案：D2.关于python程序设计语言，下列说法不正确的是( )A、python源文件以***.py为扩展名B、python只能在文件模式中编写代码C、python的默认交互提示符是：>>>D、python具有丰富和强大的模块正确答案：B3.贝叶斯网络是基于概率推理的()模型。

A、图形B、数学C、数据D、判断正确答案：B4.根据边的性质不同，概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网（Bayesiannetwork）；第二类是使用无向图表示变量间的相关关系，称为(___)。

A、赫布网B、拉普拉斯网C、马尔科夫网D、塞缪尔网正确答案：C5.要想让机器具有智能，必须让机器具有知识。

因此，在人工智能中有一个研究领域，主要研究计算机如何自动获取知识和技能，实现自我完善，这门研究分支学科叫（）。

A、模式识别B、神经网络C、专家系统D、机器学习正确答案：D6.使用似然函数的目的是什么（）A、改变目标函数分布B、求解目标函数C、得到最优数据样本D、找到最合适数据的参数正确答案：D7.关于Python的分支结构，以下选项中描述错误的是A、Python中if-elif-else语句描述多分支结构B、分支结构使用if保留字C、分支结构可以向已经执行过的语句部分跳转D、Python中if-else语句用来形成二分支结构正确答案：C8.若某二叉树中的所有结点值均大于其左子树上的所有结点值，且小于右子树上的所有结点值，则该二叉树遍历序列中有序的是A、前序序列B、中序序列C、后序序列D、以上说法均不正确正确答案：B9.机器学习中，模型需要输入什么来训练自身，预测未知?A、人工程序B、历史数据C、神经网络D、训练算法正确答案：B10.操作系统主要是对计算机系统的全部()进行管理，以方便用户、提高计算机使用效率的一种系统软件。

2025年软件资格考试软件评测师(中级)(基础知识、应用技术)合卷试题与参考答案

2025年软件资格考试软件评测师(基础知识、应用技术)合卷(中级)模拟试题(答案在后面)一、基础知识（客观选择题，75题，每题1分，共75分）1、以下关于软件生存周期模型的描述中，正确的是（）A. 螺旋模型适用于大规模、复杂和风险高的项目B. 水晶模型强调在软件开发过程中快速迭代和适应变化C. 精益软件开发模型适用于小型、快速开发的项目D. 瀑布模型强调软件开发的阶段性和顺序性2、在软件工程中，以下哪个概念不属于软件质量特性（）A. 可靠性B. 可维护性C. 可用性D. 可移植性3、题干：以下关于软件架构的定义中，不正确的是：A. 软件架构是指软件系统整体的结构和组成部分之间的关系B. 软件架构描述了软件系统的组件和组件之间的关系C. 软件架构主要关注软件系统的功能需求D. 软件架构定义了软件系统的可维护性和可扩展性4、题干：在软件架构设计过程中，以下哪种设计原则可以帮助降低系统的复杂度？A. 开放封闭原则B. 单一职责原则C. 迪米特法则D. 里氏替换原则5、在软件工程中，下列哪个阶段通常被称为“需求分析”阶段？A. 软件设计阶段B. 软件编码阶段C. 软件测试阶段D. 软件需求分析阶段6、以下哪种软件测试方法属于静态测试？A. 单元测试B. 灰盒测试C. 漏洞扫描D. 系统测试7、在软件工程中，以下哪个不是软件生命周期模型？A. 水晶模型B. 瀑布模型C. 螺旋模型D. 快速原型模型8、下列关于软件需求规格说明书（SRS）的说法中，错误的是：A. SRS应具有可验证性B. SRS应具有无歧义性C. SRS应具有一致性D. SRS不应包含用户界面设计9、在软件生存周期中，以下哪个阶段负责确定软件的需求和功能？A. 软件设计阶段B. 软件需求分析阶段C. 软件编码阶段D. 软件测试阶段 10、以下哪项不属于软件质量模型中的“外部质量”？A. 性能B. 可维护性C. 可用性D. 可移植性11、在软件开发过程中，以下哪一项不属于软件测试的范畴？（）A. 单元测试B. 集成测试C. 需求分析D. 系统测试12、以下关于软件维护的说法，不正确的是（）。

人工智能模拟练习题(含参考答案)

人工智能模拟练习题（含参考答案）一、多选题（共100题，每题1分，共100分）1.下列哪些项是决策树常用的属性选择指标（）A、距离平方和B、Gini系数C、信息增益率D、信息增益正确答案：BCD2.以下表达式输出结果中不包含重复元素的有A、set ([1,1,2,3])B、list((1,1,2,3))C、{1,1,2,3}D、list({1,1,2,3})正确答案：ACD3.卷积神经网络中的池化层可以减小下层输入的尺寸。

常见的池化有:A、最小地化层B、乘积池化层C、最大池化层D、平均池化层正确答案：CD4.人工智能因其突出的（）等能力，可在网络信息安全领域和社会公共安全领域有许多创新性应用A、知识提取B、数据分析C、自主学习D、智能决策正确答案：ABCD5.前馈神经网络由（）、（）、（）构成？A、中间层B、隐藏层C、输出层D、输入层正确答案：BCD6.图像数字化需要经过的步骤包括（）A、裁剪B、采样C、旋转D、量化正确答案：BD7.在Python中，令cars=['bmw','audi','toyota','subaru'] 运行cars.sort(reverse=True)后，cars的值为（）；运行sorted(cars,reverse=True)后，cars的值为（）A、['audi', 'bmw', 'subaru', 'toyota']B、['toyota','subaru','bmw','audi']C、['subaru','toyota','audi','bmw']D、['bmw','audi','toyota','subaru']正确答案：BD8.下列哪些部分是专家系统的组成部分？A、用户B、知识库C、推理机D、综合数据库正确答案：BCD9.C语言中三种基本的类型为（）。

人工智能模拟考试题与参考答案

人工智能模拟考试题与参考答案一、单选题（共103题，每题1分，共103分）1.DBSCAN在最坏情况下的时间复杂度是（）。

A、O(m)B、O(m2)C、O(log m)D、O(m*log m)正确答案：B2.中心极限定理告诉我们，当样本量足够大时，样本均值的分布围绕总体均值呈现（）。

A、泊松分布B、伯努利分布C、正态分布D、几何分布正确答案：C3.()就是指分类任务中不同类别的训练样例数目差别很大的情况A、类别不对等B、类别不相同C、类别不平衡D、类别数不同正确答案：C4.一般情况，K-NN最近邻方法在()的情况下效果较好.A、样本较少但典型性好B、样本呈团状分布C、样本呈链状分布D、样本较多但典型性不好正确答案：A5.关于Boosting，Bagging和随机森林，以下说法错误的是A、从偏差-方差分解的角度看，Boosting主要关注降低偏差B、从偏差-方差分解的角度看，Bagging主要关注降低方差C、随机森林简单、容易实现、计算开销小D、Boosting不能基于泛化性能相当弱的学习器构建出很强的集成正确答案：D6.以下属于回归算法的评价指标是?A、召回率B、混淆矩阵C、均方误差D、准确率正确答案：C7.（）问题更接近人类高级认知智能，有很多重要的开放问题。

A、计算机视觉B、知识图谱C、自然语言处理D、语音识别正确答案：C8.构建一个神经网络，将前一层的输出和它自身作为输入。

下列哪一种架构有反馈连接？A、卷积神经网络B、都不是C、限制玻尔兹曼机D、循环神经网络正确答案：D9.在主观Bayes方法中，证据E支持结论H时，有（）。

A、LS=0B、LSC、LS=1D、LS>1正确答案：D10.设f′(x0)＝0，则曲线y＝f(x)在点(x0，f(x0))处的切线( )A、x轴垂直B、不存在C、与x轴平行或重合D、与x轴相交但不垂直正确答案：C11.半监督学习不包括A、直推学习B、纯半监督学习C、图半监督学习D、主动学习正确答案：D12.智能机器人可以根据（）得到信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第24页
测试计划
测试计划主要内容
• 评估测试风险。
评估测试风险主要有产品需求变更、研发提测延迟、测试环境不稳定和缺陷修复进度落后。
产品需求变更，测试过程中需求变更不仅给研发带来的额外工作量，而且测试也要重新进行测试需求分析，测试用例的调整、评审会给整个产品质量带来一定的风险。
研发提测延迟会缩短整个测试时间，使需要测试的模块没有得到充分的测试，打乱整体测试计划。
第14页
ROC曲线
测试方法——回归算法测试
回归算法模型的性能评估不同于分类模型，虽然都是对照真实值进行评估，但由于回归算法模型的预测结果和真实值都是连续的，所以不能求取Precision、Recall、F1值等评价指标。
第15页
测试方法——回归算法测试
回归算法模型拥有一套独立的评价指标，常用的评价指标如下表。
• 用户界面测试用例。例如，用户界面窗口里的所有菜单、每个命令按钮、每个输人框、列表框、每个工具栏、状态栏的测试用例等。
• 软件的各项非功能测试用例。此测试用例又可以分成许多类型，包括性能测试用例、强度测试用例、接口测试用例、兼容性测试用例、可靠性测试用例、安全测试用例、安装/反安装测试用例、容量测试用例、故障修复测试用例等。
第17页
测试方法——聚类算法测试
常用聚类算法模型的评价指标如下表。
方法名称
ARI评价法（兰德系数） AMI评价法（互信息） V-measure评分 FMI评价法轮廓系数评价法 Calinski-Harabasz指数评价法
真实值
需要需要需要需要不需要不需要
最佳值
1.0 1.0 1.0 1.0 畸变程度最大相较最大
在常用分类算法模型的评价指标表中，前4种分类模型评价方法都是分值越高越好，其使用方法基本相同。
第13页
测试方法——分类算法测试
ROC曲线是通过绘制图形的方式来评估分类模型。
ROC曲线横纵坐标范围在区间[0,1]内，通常情况下，ROC曲线与X轴形成的面积越大，表示模型性能越好。
但是当ROC曲线如图中的虚线时，表明了模型的计算结果大部分是随机得来的，在此种情况下模型起到的作用几乎为零。
测试人员，可能包含用户
第9页
测试用例——测试用例的分类
测试和开发的对应关系表。
开发阶段需求分析结束后概要设计阶段结束后详细设计阶段
依据文档需求文档概要设计、体系设计详细设计文档
编写的用例系统测试对应的用例集成测试对应的用例单元测试对应的用例
第10页
测试方法
针对不同类型的算法需要采取对应的测试方法才能准确地评价模型的性能，如分类算法需要评估其分类结果的正确与否，回归算法需要评估其预测值与真实值的接近程度，而聚类算法则较为复杂，需要评估其聚类结果中同类成员间的相似性等。
第2页
测试用例
测试用例是设计和制定测试过程的基础，一个好的测试用例会使测试工作的效果事半功倍，并且能尽早发现一些隐藏的软件缺陷。
第3页
测试用例——测试用例的概念
测试用例是测试时执行的最小实体，是为特定目的而设计的一组测试输入、执行条件和预期的结果。
简而言之，测试用例是一个文档，描述输入、动作或者时间和一个期望的结果，其目的是确定应用程序的某个特性是否正常工作，并且达到程序所设计的结果。
方法名称平均绝对误差均方误差中值绝对误差可解释方差值 R方值
最优值 0.0 0.0 0.0 1.0 1.0
对应Python sklearn库中的函数 metrics.mean_absolute_error metrics.mean_squared_error metrics.median_absolute_error metrics.explained_variance_score metrics.r2_score
第5页
测试用例——测试用例的作用
• 功能模块的通用化和复用化使软件易于开发，而良好的测试用例具有重复使用的性能，使得测试过程事半功倍，并随着测试用例的不断精化，测试
可复用性效率也会不断提高。
• 测试用例的通过率是检验程序代码质量的保证，即程序代码质量的量化标
可评估性准应该用测试用例的通过率和测试出软件缺陷的数目来进行评估。
第23页
测试计划
测试计划主要内容
• 分配测试资源：测试资源包括测试人力资源和测试环境资源。测试人力资源包括参与测试的测试负责人和团队成员。测试环境资源包括测试中用到的服务器、终端设备、网络环境，通常还包括缺陷管理工具的使用，缺陷等级的定义等。
• 安排测试进度：根据产品业务的复杂度、需要用到的测试类型、测试人员的数量及能力，评估不同阶段不同类型的测试工作量。例如，冒烟测试的工作量，新功能测试的工作量，计划几轮回归测试，是否引入自动化测试，是否需要性能测试等，最终预估出测试开始和结束的时间点。在整个测试过程中，需要明确说明测试输出文档的时间，如测试计划、测试用例及测
如果执行测试用例，软件在这种情况下不能正常运行，而且问题会重复发生，那么表示已经测试出的软件有缺陷，这时必须将软件缺陷标记出来，并且输入到问题跟踪系统内，通知软件开发人员。
软件开发人员接到通知后，修正问题，再次返回给测试人员进行确认，以确保该问题已修改完成。
第4页
测试用例——测试用例的作用
• 测试用例是测试人员测试过程的重要参考依据，也可以作为检验测试进度、测试工作量和测试人员工作效率的因素，可方便对测试工作进行有效的管
可管理性理。
第6页
测试用例——测试用例的分类
为了便于在实际测试工作中提高效率，同时方便测试用例的编写和执行，在编写测试用例时，可以把测试用例进行分类，这样的操作不容易遗漏应选择的测试用例。
• 确认软件缺陷修正的测试用例。所采用的测试用例不同，在特定的阶段编写不同的测试用例并执行相应的测试才可以提高效率。测试工作和开发通常一同进行，所以在完成开发计划编写后，即可开始进行用例的编写
第8页工作。
测试用例——测试用例的分类
测试类型、测试阶段和测试用例的具体关系表。
测试阶段
单元测试集成测试系统测试验收测试
有效性
• 在测试时，不可能进行穷举测试，从数量极大的可用测试数据中精心挑选出具有代表性或特殊性的测试数据来进行测试，可有效地节省时间和资源，提高测试效率。
• 在开始实施测试之前设计好测试用例，可以避免测试的盲目性，使得软件
避免测试的盲测试的实施重点突出、目的明确。
目性
可维护性
• 在软件版本更新后，只需修正少部分的测试用例即可开展测试工作，降低工作强度，缩短项目周期。
带来的损失。
第21页
测试计划
测试计划主要内容
• 明确测试范围。测试范围主要来自于产品需求文档、开发技术文档，以及用户反馈的问题。产品需求文档包含产品本身的迭代、优化或是新功能的开发，通常根据产品提供的需求清单确定测试的范围。开发技术文档包含技术上的实现方式或结构上的优化调整，通常可以根据代码改动范围来确定需要测试的范围。用户反馈的问题，一般都是用户在使用产品过程中遇到的问题，可以根据问题的不同类型，确定需要测试的范围。
测试环境不稳定可能会造成测试人员对系统缺陷的误判，浪费研发在此类问题上的定位时间，同时也极有可能阻碍测试执行的进度，降低测试效率。
平均绝对误差、均方误差和中值绝对误差的值越靠近零，模型性能越好；可解释方差值和R方值越靠近1，模型性能越好。
第16页
测试方法——聚类算法测试
聚类算法模型评价的标准是组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的），即组内的相似性越大，组间差别越大，聚类效果就越好。
第9章人工智能模型开发测试
第0页
目录
1. 人工智能模型开发 2. 人工智能模型测试
第1页
人工智能模型测试
测试是一个找错的过程，测试只能找出程序中的错误，而不能证明程序无错。测试要求以较少的用例、时间和人力找出软件中潜在的各种错误和缺陷，以确保系统的质量。
简而言之，测试是为了发现错误而执行程序的过程。人工智能模型的测试主要包含测试用例、测试方法与技术、测试计划以及测试报告。
第18页
测试方法——聚类算法测试
除了轮廓系数以外的评价方法，在不考虑业务场景的情况下都是得分越高，其效果越好，最高分值均为1。
而轮廓系数则需要判断不同类别数目的情况下其轮廓系数的走势，寻找最优的聚类数目。
第19页
测试计划
测试计划是描述要进行的测试活动的范围、方法、资源和进度的文档，它确定了测试项、被测特性、测试任务、任务执行者以及各种可能风险等内容。
第11页
测试方法——分类算法测试
分类算法模型的测试是对测试集进行预测，得出其准确率，但是光靠准确率并不能很好的反映模型的性能，为了有效判断一个预测模型的性能表现，需要结合真实值，计算出 Precision（精确率）、Recall（召回率）、F1值、Cohen’s Kappa系数等指标来衡量。
第12页
第22页
测试计划
测试计划主要内容
• 制定测试方法。对于功能测试，需要根据测试用例，针对产品的各个功能，验证其逻辑的正确性。对于兼容性测试，需要根据不同平台（如PC、Android、iPhone等）、不同OS（如 iOS 8、iOS 9、Android 7、Android 8、Android 9等）、不同浏览器（如IE、Chrome、 Firefox等）、不同分辨率（如800×400、1280×760、1920×1080等）分别进行测试。对于性能测试，根据各个模块所需要达到的性能指标，实施专项性能测试。
第20页
测试计划
制定测试计划的目的
• 为测试的各项活动制定一个可行的、综合的计划，包括每项测试活动的对象、范围、方法、进度和预期结果。