第二步,思考这个报告率低的原因是什么?首先,报告率低说明“预测错误”的结果更多一些,从上例当中,预测错误的占比为99.9%(9990/10000);其次,预测错误来自于两种情况:一种情况是未有效预警真正的可疑案例,即“漏报”,另一种是将正常案例错误预警成了可疑案例,即“错报”,上述例子中的99.9%均属于“错报” 。
第三步,从“输出”的视角来评估模型,其最终目标是为了降低“漏报”且控制“错报” 。那么如何实现这一目标?从技术角度来说,通过召回率(Recall)和精确率(Precision)的测算以及调整可实现,但这些模型评估的指标从业务人员角度非常难以理解 。因此,从业务人员角度,建议给到技术人员一定的测试样本集,所谓的“测试样本集”,就是指“案例 *** ” 。但这个案例 *** 的选择需要保证一定的“均衡” 。
假设有100条案例数据提供给技术人员用于验证,需要保证这100条数据均是系统预警为“可疑”的案例 。这100条案例中,有50条是系统正确预警的,另有50条是系统错误预警的 。示例如下图:
如果出现样本不均衡的状态,例如提供了100条验证的案例数据,其中99条数据都属于系统正确预警的,这时候的模型精准度结果为99%(99/100),然后拿99%精准度的模型去预测今后的新数据,大概率一个正常案例都预测不出 。因为这个模型只会识别可疑案例,对正常案例没有识别能力,这样的模型也体现不出其价值和意义 。
举个通俗的例子来说,一个技术专业并且没有任何业务领域经验的人,去从事业务文档的撰写,文档的最终内容可能跟业务诉求存在一定的偏差 。模型也一样,模型的“能力”边界需要事先有个大致的衡量 。
综上,选择正确的测试样本,对模型预测的结果进行评估有着重要的影响,这是业务视角下的评估 *** 和策略选择 。
3.3 问题分析从技术角度,技术人员通过类似于准确率、召回率等相关指标的测算,大致可以定位一个模型的优势和劣势,并以此进行技术参数的调整等等 。在此不做展开,以下仍从业务视角予以论述 。
3.3.1 时间角度分析
从业务角度,通过定位误报率过高的特征指标,查找并分析其参数、分值或者权重设计的合理性 。我们仍以时间为例,举例来说,大部分的交易监测指标是衡量了一定周期内的客户交易,这个时间周期可能跟客户全段交易形态(开户至今)所体现的特征有着较大的偏差 。
类似“分散转入集中转出”这项特征,指标之一“回顾交易周期”的参数值为10天 。而“分散转入集中转出”是否可以构成对“可疑”的初步判断,往往在实践中,需要展开对客户全段交易形态的分析,才能初步得出判断,短短的10天周期并不足以形成对“可疑”的定性 。
3.3.2 维度完备性与频率分析
反洗钱可疑交易监测包括“身份特征”、“交易特征”或“行为特征”三个基本维度,在模型或者关键指标的创建时,避免出现基本维度的缺失 。如何理解?从风险的角度,风险的形成往往是多因素共同作用的结果 。同时,对于风险信号的出现,需要鉴别是属于偶发还是经常性出现 。
关于多因素共同作用,我们以“疑似非法集资”为例 。实务当中,该类型案例往往是线上系统监测、线下人工调查等多种方式共同配合,而最终得出的结论 。如果单从“交易对手众多”这个方向对交易进行预测,大概率出现误报 。而实务中类似于这种“单交易特征”、“单身份特征”或“单行为特征”的指标存在不少,这类指标如果在模型层面没有很好地加以组合,不可避免地会影响模型的最终预测结果 。
推荐阅读
- 福建师范大学研究生招生专业目录 福建师范大学研究生院
- 不一样的春节作文600字_不一样的春节作文初中600字
- 卡巴斯基安全部队2011教案设计 卡巴斯基安全部队2011有什么功能
- 做什么行业可以赚快钱?
- 长春亚泰热力公司 长春亚泰订购球票
- 抗过敏奶粉有哪些 抗过敏奶粉哪款最好
- 奥运会跆拳道比赛设置男女金牌 奥运会跆拳道比赛男子女子各设有八个级别
- 中国广核吧 中国广核中签率多少
- 插肩袖卫衣裁剪教程,插肩袖卫衣款式图