哪些主数据字段能帮助识别异常数据处理常用方法业务?

什么是特征库在日常的风控工作中,我们会使用到很多不同种类的风控工具,比如信息校验类工具(如风险手机号识别)、图文识别类工具、名单校验类工具等。其中最常用的工具,除了黑名单之外,应该就是特征库了。特征库是用来针对某一个主体进行累计计算的能力,比如同一ip下累计请求次数、同一手机号绑定的账号数量等,是针对黑产批量行为识别的最基本的风控能力。特征分类根据各场景的风控策略配置需求,我们会创建大量的特征,这些特征可以按照以下角度来进行划分:特征分类从状态的角度,我们将特征分为统计全部状态请求和统计指定状态请求(通常统计成功状态)。对于统计全部状态的特征,我们可以仅考虑事中数据,只要有新的行为产生,按照规则累计并更新特征即可。对于统计指定状态的特征,因为当前请求的状态只有在行为完成后才能获取到,因此需要补充携带状态的事后数据才能够实现(具体见后续流程说明)。一般情况下,黑产识别常用统计全部状态,而业务侧频次限制往往使用统计指定状态。按照计算方式划分更容易理解,求和类如常见的交易日限额,计数类如常见的活动参与次数(普通计数)或手机号绑定账号数量(去重计数,按手机号+账号去重)。特征的配置信息在梳理了特征分类之后,我们再来看一下创建一个特征,需要配置哪些信息。特征信息配置基本信息特征名称:便于管理人员和使用人员快速了解特征内容,需要保证唯一性;唯一id:查询时使用的唯一标识id,特征创建时由系统按预设规则生成;备注:一般记录特征的详细描述信息;数据源:各数据源由研发对接完成后,通过场景+数据类型的形式供配置人员直接选择;特征类别:定义当前特征的计算类型,包括求和类和计数类,计数类需要进一步选择是否去重计数。计算规则统计方式:统计方式针对当前特征是否需要仅对某些指定状态进行累计。如累计全部状态,每次接收到行为数据后,都相当于累加一次,如累计指定状态,则需要根据当前数据的状态进行区分处理(事后数据可以根据状态判断是否累加,事中数据则需要将已有特征与当前请求进行累加后返回,但此时存储的特征值不做更新,具体在后续数据流程中查看会更清晰)。统计周期管理:特征计算的时间选取包含三种,分别是指定时间周期(起止时间固定)、自然周期(按自然小时、自然日、自然月为时间粒度)和实时滑动周期(一般以当前实际时间节点向前推,如近24小时等)。数据过滤规则:针对某些特定数据不进行累计,如业务数据中某些参数存在默认值,可以配置对应字段出现默认值时进行过滤。特征计算规则:一般需要定义主体维度与计算字段。主体维度作为标识维度,一般会选择账号、手机号、ip等具有标识性的维度,也可以由多个字段进行组合构成。计算字段是指要进行求和或去重计数的字段,普通计数时只需要定义主体维度即可。应用管理应用管理用于维护特征的使用信息,包括特征的状态、应用方信息,属于各类风控服务通用的配置管理。功能模块特征库的产品能力,包含了数据源接入、特征计算、特征存储、特征查询服务、系统配置管理5个模块。产品架构图数据源接入在上述特征配置信息中,我们需要选择特征对应的场景和数据类型,而这个选择对应的就是已接入的数据源。我们将每个接入的数据源归属到一个指定场景,根据数据源中只有事中数据,或者包含事中+事后数据作为数据类型划分。在场景数据接入后,通过数据源接入模块对其进行标准化处理,包括无效数据过滤(必要字段值缺失)、过滤规则判断、数据剪枝处理(剔除对特征计算没有意义的字段,节约资源)。在经过数据源接入模块处理后,将得到由场景+主维度+累计字段+状态信息(业务行为的状态)+时间戳组成的标准化数据。特征计算根据特征配置中的统计方式、统计周期与当前时间、计算方式,可以生成特征的具体统计逻辑,并以当前场景标准化处理后的数据作为数据源进行统计。特征存储特征存储模块主要是对计算完成的特征值进行存储,包括主维度(多个字段构成时一般会做拼接处理)+特征值+时间。同时为了支持离线数据追杀或离线评估等应用,需要每天对特征数据进行快照存储。特征查询一般特征库会对接至风控引擎进行应用,同时也可以单独通过接口服务对外提供。应用方通过特征所属场景+特征id+主维度id+调用方标识即可查询对应特征值,支持跨场景的特征调用。但大部分应用场景使用的都是自身场景的特征,即同时包括特征计算与特征查询两部分。因此可以由特征库将两个流程进行合并,在特征计算完成后,除了对特征进行存储外,还需要直接返回特征值结果进行规则判断。系统配置特征信息配置、特征管理等平台配置功能。数据流程说明数据流接下来我们通过一个具体的流程来进一步了解特征库的运作过程。如当前有三条顺序请求,前两条请求已完成,第三条请求正在发生:(1)账号A交易金额1000元;(2)账号A交易金额2000元;(3)账号A交易金额2500元,交易失败;(4)账号A再次发起交易申请,金额2500元。业务对累计交易金额存在限制,单账号累计交易金额不可以超过5000元,我们需要通过账号累计交易金额特征进行计算和实现业务限额。当请求(4)发生时,当前特征值为3000元。在获取到业务请求时,对当前数据进行字段缺失检测,主体维度(账号id)与累计字段(交易金额)不存在缺失情况,流程转下一步。当前无特殊过滤规则,流程转下一步。(如果限额不包含某个特殊的支付渠道,即可通过过滤规则进行配置)标准字段提取:账号A+2500+状态(因为是事中数据,状态为空)+时间戳。主体标识是一个字段,不需要进行拼接处理,直接使用账号A即可。因当前业务限额需要剔除失败交易,特征需要根据状态累计。当前属于事中请求数据,根据非事后数据流程进行判断。已有特征值为2500,当前请求中金额为3000,实时计算结果为5500,并返回。(此时特征库中存储结果不做更新,仍然是3000,其他场景调用时的查询结果也是3000)根据限额规则配置,超出限额,交易失败。总结特征库作为一款常用的风控工具,往往会绑定在风控引擎中进行使用,以至于很多时候我们把它看成时风控引擎的一部分功能。其实特征库是一款完全独立的工具,支持数据接入、特征计算、特征查询,除了线上实时风控系统之外,离线分析系统、事后追杀系统、画像标签系统均可以集成使用。欢迎查看风控笔记系列其他内容:}

我要回帖

更多关于 异常数据处理常用方法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信