当前位置：首页 >> 培训 >> 策略产品经理必读系列第七讲：机器学习分类任务基础评估指标AUC、召回率、准确率

策略产品经理必读系列第七讲：机器学习分类任务基础评估指标AUC、召回率、准确率

2023-06-27 13:42:59学习

作为策略产品经理，了解机器学习的相关知识，一定程度上可以帮助到日常工作。在本篇文章里，作者便拆解和总结了机器学习的分类任务离线效果评估指标，一起来看看吧，也许会对你有帮助。

前言：网上已经有很多文章介绍AUC、召回率和准确率等指标了，但更多只是从计算公式来讲解，并没有结合工作中实际的业务场景。一上来就介绍指标计算，并没有给到读者一个对于机器学习任务离线效果评估指标体系的整体认知。同时关于AUC指标和ROC曲线的介绍很多文章讲解的都很难理解，本次我们分为两个系列第一篇先介绍分类任务的离线效果评估指标，第二篇介绍回归和聚类任务的离线效果评估指标。

一、机器学习任务类型

在介绍各类机器学习任务离线效果指标评估之前，我们需要清楚机器学习的任务分类。

机器学习的任务类型可以分为两大类，一类是预测类任务比如销量预测、人群分类、推荐系统等，针对新的输入数据做出判断即可。另一类是生成类任务比如ChatGPT模型的构建，需要模型基于历史数据学习后可以完全从零生成新的内容。

本篇文章我们核心介绍机器学习预测类任务。预测类机器学习的任务类型还可以细分为以下三种：

主要分为分类、聚类和回归三大类任务，下面我们分别展开介绍。

1. 分类任务

对模型输入相关数据，模型输出该条数据属于已知K类中的哪一类。

分类任务又可以分为二分类和多分类，比如推荐系统CTR预估就是二分类的任务，模型预估用户对于内容是点击还是不点击，人脸识别就是多分类任务，因为人脸的种类有非常多。

很多读者会认为推荐是回归任务，觉得模型最终输出了一个用户对于推荐内容的兴趣度，是一个具体的数值。但实际推荐系统在线上用户给的反馈就是点击或不点击，我们并不知道用户对于内容的真实兴趣度是多少，无法量化。模型训练时所输入的训练数据的标签也只是点击和不点击，并不是兴趣度是多少，所以此处需要特别注意不能把推荐系统CTR预估任务的类型弄混淆了。

2. 聚类任务

对模型输入相关数据，并设置希望将整体数据分成K个类，模型自动将数据分为K个类。如上图所示，我们将全部数据分为了5个Cluster（簇），也就是5个类。

常见的应用场景有人群分类和图形分类等，将全部的用户按照彼此之间的相似度可以分为K个类。

3. 回归任务

对模型输入相关数据，模型返回具体的预测数值，结果是一个连续值。分类和聚类任务最终模型的输出都是这个样本属于哪一个类别，但是回归任务是输出最终实际的数值是什么，是一个具体的数字。常见的应用场景有销量预测和智能定价。

二、分类任务离线评估指标

不同的任务类型决定了我们使用不同的指标来离线评估模型的效果。本次我们先介绍分类任务的离线效果评估指标，我们以推荐系统CTR预估模型为例。

1. 混淆矩阵

针对分类任务在进行模型效果评估时首先要基于测试集的实际结果和评估结果构建一个混淆矩阵（Confusion Matrix）。本次模型预估用户A对100个物料的点击情况，预估用户点击了哪些物料，没有点击哪些物料，是一个二分类任务：“点击”或“不点击”。上图中绿色代表模型在测试集上的预估数据，黄色代表测试集中物料的实际类别。

1）TP (True Positive，真正例)

预测为正样本且真实也为正样本的个数，也就是预估用户会点击实际用户也点击了的样本个数，上述混淆矩阵中为8；

2）FP (False Positive，假正例)

预测为正样本但真实为负样本的个数，也就是预估用户会点击实际用户未点击的样本个数，上述混淆矩阵中为10；

3）FN (False Negative，假负例)

预测为负样本但真实为正样本的个数，也就是预估用户不会点击但实际用户点击了的样本个数，上述混淆矩阵中为2；

4）TN (True Negative，真负例)

预测为负样本且真实也为负样本的个数，也就是预估用户不会点击实际用户也没有点击的样本个数，上述混淆矩阵中为80；

5）Accuracy Rate（准确率）

准确率是指模型整体预测结果的准确性，是否能够将正样本和负样本准确的区分开，既没有错判也没有漏判。计算公式如下：

ACC= (TP+TN)/(TP+FP+TN+FN)=(8+80)/100=0.88

但是准确率存在一个误区，比如金融反欺诈场景里，欺诈用户整体占比很少可能就1/1000，如果欺诈用户识别模型将所有的用户都预测为负样本（此场景下欺诈用户是正样本，正常用户是负样本），那么模型的准确率也是99.9%。所以当样本中正负样本比例严重失调时，准确率不具备参考意义。

6）Recall Rate（查全率 or 召回率）

查全率或召回率的定义是指模型能够将数据中所有正样本找到的覆盖度，计算公式如下：

R= TP/(TP+FN)=8/(8+2)=0.8

本案例中真实的正样本一共10个，模型挑选出来8个，所以查全率是80%。查全率同样存在误区，如果模型预估时召回了大量的样本作为正样本，恰好这些预估的正样本把所有真实的正样本都包含了，这样计算出来的查全率就是100%。

但是这里面就会存在很多误判，如果是金融反欺诈模型误判太多就会对正常用户的金融服务使用造成了非常不好的体验。所以我们在看查全率的时候同时也要看模型预估的精确性，也就是下面的查准率指标。

7）Precision Rate（查准率 or 精准率）

查准率或精准率的定义是指模型预估中的正样本多少是真实的正样本，模型预估的精准性如何。计算公式如下：

P= TP/(TP+FP)=8/(8+10)=0.44

本案例中模型预估了18个正样本，但实际只有8个才是真实的，所以查准率是44.4%。查准率也同样存在误区,很多模型在设计时为了担心误判将模型设计的非常严苛，虽然最后模型筛选出来的正样本都是准确的，查准率是100%，但是模型也漏筛了大量的正样本，对比查全率的误区，从一个极端走向了另一个极端。

8）F_β-Score

所以实际模型效果评估时我们需要将查全率和查准率综合在一起进行综合效果评估，也就是 F_β-Score 。计算公式如下：

F_β=(（1+β^2）*R*P)/(R+β^2*P)

当 β=1 时就是均衡考虑查全率和查准率的重要性；当 β>1 时，场景更侧重查全率；当 0 <β<1 时, 场景更侧重查准率。在不同场景下对于模型的查准率和查全率侧重点不一样，比如推荐场景更看重查准率，确保推荐给用户都是用户真实喜欢的，不希望引起用户的负反馈。而在金融欺诈场景更看重查全率，确保将所有有风险的客户都能够召回，宁愿错杀一千也不能放过一个。

2. ROC曲线与AUC指标

上述介绍了很多基础指标，即使我们有了 F_β-Score 也很难去规避因为正负样本不均衡导致得到的查全率和查准率并不能够客观真实的反应模型真实的水准的情况。样本的不均衡，要么是正样本太多负样本太少，要么就是正样本太少负样本太多，那么我们能不能构建两个指标分别站在真实的正样本和真实的负样本视角去统计效果了？这样的话即使样本不均衡，但是我们统计的时候两边都进行了统计，就不会因为样本不均衡导致模型效果评估片面了。

这样的两个指标就是真正率（ True Positive Rate ）和假正率（ False Positive Rate ）。

真正率=True Positive Rate=TPR= TP/(TP+FN)

真正率的计算公式和查全率计算公式一样，站在所有正样本视角，统计模型能够将所有真实正样本都可以找出来的概率。

假正率=False Positive Rate=FPR= FP/(FP+TN)

假正率是完全站在所有负样本视角，统计模型将真实负样本误识别为正样本的概率。TPR代表的是模型预测响应的覆盖度，FPR代表的是模型预测响应的虚报程度。一个好的模型一定是TPR = 1，FPR = 0，模型能够将所有的真实正样本识别出来，同时模型也不进行虚假上报。

那么我们如何用TPR和FPR两个指标去综合评估模型的分类效果了。因为我们在分类任务中构建出来是一个打分模型，模型是没法直接告诉我们这个样本是正还是负，模型是针对每个样本进行打分。当模型训练好以后我们需要去设定一个分类阈值（Threshold），当分数 > 阈值时，则此样本为正，当分数 ≤ 阈值时，则此样本为负。

每一个阈值都会对应一组（FPR, TPR）,我们以FPR为横坐标TPR为纵坐标，一组（FPR, TPR）就是一个点。那么我们应该将阈值设置为多少才合适了？阈值的设置很关键，这个将会影响模型在线上的效果，如何去找出这个最佳阈值？

通用的方法是将模型针对所有预测样本的打分按照从高到低排序，将每一个预测值分别作为分类阈值，这样就可以得到多组（FPR, TPR）。将预测值中最大值作为阈值时，只有大于该值才能是正样本，那么所有样本均为负样本，TPR 和FPR均为 0；将预测值中最小的值作为阈值，那么所有样本均为正样本，TPR 和FPR均为1。基于多组（FPR, TPR），我们可以得到如下图所示的一个曲线图：

上图这个曲线，我们一般称为ROC曲线。ROC（Receiver Operating Characteristic Curve），接收者操作特征曲线，最开始应用于二战雷达分析技术里，后来被引进到了机器学习中。

上图中右侧图是一个将实际预测值作为分类阈值遍历后得到的ROC曲线，当预测的样本够多，ROC曲线就如左侧图所示是一个平滑的曲线。

一个好的ROC曲线，一定是TPR越大的同时FPR越小，模型曲线越陡，而且ROC曲线本身基本不随着正负样本比例的变化而变化。针对当前训练出来的模型我们如何去取一个合适的阈值来作为正负样本的分割线了？

如上图里面的左图所示，一般我们是找ROC曲线里离（0,1）最近点的阈值取值作为当前模型最佳阈值取值，因为（0,1）点是最优的TPR和FPR的取值，离（0,1）最近的点兼顾了TPR和FPR。

假设我们现在针对同样一个分类任务训练出来了两个模型，我们需要从中选择出最优的一个模型，我们能否借助ROC曲线了？

我们针对两个模型分别去画出ROC曲线，如果模型A的ROC曲线完全将模型B的ROC曲线包围，那么即为在相同FPR的情况下，模型A的TPR指标永远高于模型B，很明显模型A的效果要优于模型B。

但实际情况，一般是模型A和模型B各自的ROC曲线有交叉一部分重叠一部分不重叠，那么如何去评估？

这时候引入了一个新的指标AUC，AUC指标全称Area Under Curve（曲线下的面积）。我们去计算ROC曲线下的面积，理论上ROC曲线越陡越好，FPR越小，TPR越大，所以AUC的取值范围是[0,1]，AUC越大代表模型效果越好。

AUC指标的业务意义是模型对于样本的排序能力，在CTR预估模型里它代表的业务含义是在一个正样本和一个负样本中，模型将正样本排序在负样本前的概率。

再通俗一点就是说随机选两个内容，模型能够将用户更感兴趣的内容排序在前的能力。当我们将ROC曲线里（0,0）和（1,1）两个点直接连起来时，AUC = 0.5，一个随机分类模型的AUC就是0.5，所以实际模型的AUC值都是大于0.5的。

在离线效果评估时，模型在测试集上的AUC指标表现必须得达到0.7以上才可能在线上有比较明显的正向效果，低于0.7线上效果不显著，因为随机模型的基准AUC就是0.5。

AUC指标如果在0.8-0.9之间，模型的效果就非常好了；实际业务中分类模型的AUC指标不太可能大于0.9，大于0.9基本是测试集数据选取有问题或者数据穿越了。工业界里还没有哪家互联网公司的CTR预估模型离线AUC指标可以大于0.9。作为策略产品经理需要知道AUC的正常取值范围，当算法工程师训练了一个新的分类模型时，第一时间问的指标就应该是离线AUC指标的提升。

下一篇我们将介绍机器学习回归和聚类任务的离线效果评估指标体系。

本文由 @King James 原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

上一篇：《供应链职业经理人》证书怎么样？

下一篇：北京大学高级经理人研修班

相关内容

怎么学？如何干？西藏7市（地）委书记在西藏日报发表文章

启航新征程开创新局面为全面建设社会主义现代化新拉萨努力奋斗自治区党委常委、拉萨市委书记普布顿珠党的二十大大笔擘画坚持以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图，区党委十届三次全会全面铺开建设美丽幸福西藏、共圆伟大复兴梦想的壮阔实践···

2023年全区智慧旅游专业人才培训班圆满结业

6月2日，自治区旅游发展厅主办的全区智慧旅游专业人才培训班在拉萨圆满结业。培训共历时三天，累计完成全区旅游行政管理部门工作人员及涉旅企业专业技术人员培训100人。本次培训是区旅发厅深入推进学习贯彻习近平新时代中国特色社会主义思想主题教育重要···

徐汇萨迦共同举办大美西藏首届口腔学习班

随着现代医学的发展，口腔健康越来越受到人们的关注，为提高西藏地区口腔技术水平和服务质量，近日，徐汇区牙病防治所和萨迦县中心医院远程连线共同举办首届口腔学习班开班仪式。徐汇区卫生健康委副主任胡强，上海援藏干部、萨迦县委常务副书记、常务副县长沈···

自觉抵制“一对一”“一对多”等学科类培训！哈尔滨中小学生暑期预警来了

17日，记者从哈尔滨市各区教育局获悉，2023年暑假将至，南岗区、道里区、香坊区教育局向家长发出预警，自觉抵制违规培训，各区义务教育阶段学科类培训机构已经全部注销，暑假期间以任何形式开展的学科类培训均属于违规培训。家长要自觉抵制任何机构或个···

哈尔滨市道里区企投局举办“招商大讲堂”专题培训

黑龙江网讯（记者王惠婷）10月24日，哈尔滨市道里区企投局组织开展“招商大讲堂”专题培训班，全区各招商专班负责同志及业务骨干参加培训。本次培训从实际需求出发，紧紧围绕当前招商工作中的热点、难点，对“什么是招商引资”“道里区的产业结构和主导···

团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会

中国青年报客户端讯(李海涛)为深入学习贯彻党的二十大精神，充分发挥青年文明号、青年岗位能手示范引领作用，在全省职业青年中掀起学习党的二十大精神热潮，11月22日，团黑龙江省委举办全省青年文明号青年岗位能手学习宣传贯彻党的二十大精神培训交流会···

辽宁葫芦岛举办外贸政策培训会推动外贸保稳增量

辽宁省葫芦岛市外贸政策培训会4月3日举办。辽宁省贸促会供图中新网葫芦岛4月3日电 (李晛)辽宁省葫芦岛市外贸政策培训会4月3日举办。本次活动由辽宁省贸促会支持、葫芦岛市商务局主办，葫芦岛市贸促会、葫芦岛海关、中国出口信用保险辽宁分公司和辽···

山西运城：严查无证校外培训机构查封9家警告2家

新华社太原８月５日电（记者王飞航）记者从山西省运城市政府了解到，运城市教育局近日联合市公安局等多家单位，对中心城区无证校外培训机构进行了一次突击检查，共检查了１３家校外培训机构，查封９家，警告２家，发放整改通知书４份。今年７月，运城市教育局···

山西开展培训筑牢森林“防火墙”

山西新闻网3月30日讯（记者卢奕如）今日，记者从山西省应急管理厅获悉，全省举办森林草原防灭火业务培训，邀请专家以视频会议形式，围绕森林扑火指挥实操、森林草原火灾防控经验做法、火灾现场各级各类指挥员具体操作中遇到的问题等内容进行授课。培训内···

校外培训机构治理工作取得进展山西停办近1300所

资料图：小学生排队等待进入校园。中新社记者刘文华摄中新网5月11日电据教育部网站消息，按照校外培训机构专项治理工作整体安排，教育部、民政部、国家市场监管总局启动了校外培训机构治理专项督查工作。5月9日至10日，督查组率先在北京市开展华···

山西综改区举办省技术创新中心申报培训

　　8月18日，山西综改区科技金融部举办2023年度省技术创新中心申报培训会，来自区内企业、科研院所及有关单位代表160余人参加了培训。　　山西省技术创新中心是以产业前沿引领技术和关键共性技术研发为核心的产业技术创新平台，承担着为区域和产业···

山西汾阳医院开展健康教育与控烟知识培训

来源：【吕梁日报-吕梁新闻网】本报讯（记者刘少伟） 5月18日，在“世界无烟日”到来之际，山西汾阳医院组织开展健康教育与控烟知识培训。近年来，山西汾阳医院全面落实健康中国战略,根据国家卫健委《关于2011年起全国医疗卫生系统全面禁烟的决···

山西省文物局年度田野考古技术培训班开班

10月10日，山西省文物局在运城闻喜上郭城址、邱家庄墓群举办2023年度田野考古技术培训班开班仪式。该次培训为期三个月，通过理论和实践两部分教学，旨在推进山西考古工作高质量发展，提升考古业务人员专业技术水平。本次培训由山西省考古研究院和山西···

最低每课时9元！全省学科类校外培训课时长和收费标准出台

近日，山西省发改委、省教育厅下发《关于中小学学科类校外培训收费标准及有关事项的通知》，明确全省中小学学科类校外培训收费标准，从12月17日起执行。《通知》对全省线上线下学科类校外培训基准收费标准和浮动幅度制定了科学标准。其中，义务教育阶段线···

山西天镇阳光职业培训学校培养乡村“新农人”乡村振兴添动能

(记者贺文生) 山西天镇县阳光职业培训学校紧紧围绕乡村振兴战略，按照“政府引导、农民自愿、立足产业、突出重点”的原则，创新高素质农民技能培训方式方法，采取以“授人以渔”的方式，让人才振兴成为助推农业农村现代化的内生动力，以高素质农民引领现···

山西：建立全过程全链条无缝隙安全培训制度

黄河新闻网讯（记者杨江涛）日前，山西省应急管理厅下发了《山西省安全培训管理暂行办法》（以下简称《办法》）。我省将进一步抓好安全生产这个基本盘、基本面，推动全省安全培训工作制度化、规范化、科学化，促进安全培训工作高质量发展。山西省应急管理厅厅···

山西：艺考培训机构纳入全国监管平台管理

央广网太原10月6日消息（记者郎麒）日前，山西省教育厅、省发改委、省公安厅等部门联合制定《加强面向高中阶段学生艺考培训规范管理工作方案》，针对艺考培训的突出特点和实际情况，全面规范艺考培训行为，将艺考培训机构统一纳入全国校外教育培训监管与···

太平财险阳泉中支开展消防安全教育和有限空间作业培训

为强化员工安全意识，进一步提升员工消防和有限空间突发事件应急处理能力，9月14日，太平财险阳泉中支邀请北京市卫民安消防教育咨询中心山西分中心讲师向全体员工开展了一次消防安全教育和有限空间作业课程培训。按照防消结合、预防为主的原则，本次讲座通···

山西省数字化转型贯标试点工作宣贯培训会在太原举行

　　10月20日消息，山西省数字化转型贯标试点工作宣贯培训会在太原举行。省工信厅介绍，作为国家数字化转型贯标试点省份，试点启动后将引导企业加快数字化转型，助力制造业高端化、智能化、绿色化发展。　　今年，工信部启动数字化转型贯标试点工作，我省···

山西马兰花创业培训讲师大赛收官太原市获多个奖项

山西新闻网8月31日讯（记者冯耿姝）8月29日，山西省第四届马兰花创业培训讲师大赛圆满收官，太原市代表队在比赛中分获多个二、三等奖和优秀奖。本届大赛以“启迪创新思维·激发创业梦想”为主题，全省共有56名教师晋级复赛，其中，太原市有7名选手···