金融风控体系会被人工智能金融风控颠覆吗

点击联系发帖人 时间：2016-12-11 05:42

人工智能金融风险

最有看点的互联网金融门户
人工智能颠覆金融行业：于无声处听惊雷
李世英 | 未央网
本文共2465字，预计阅读时间49秒如果谁能颠覆和改变金融行业？那唯有人工智能。
金融领域的人工智能悄悄的来了，就不会像P2P一样悄悄的走，而将在金融行业掀起惊涛骇浪，颠覆传统的认知，引导金融行业的改革，正所谓，乱石穿空，数风流人物当看今朝。
什么是颠覆和改变？
以银行为例，你会发现大量的银行柜员被裁员，大量的物理网点减少，现在一些生活类业务、开卡等都可以用自助终端，大部分客服被智能客服取代，试想几年后数字货币、在线支付被广泛应用，信贷、风控等核心体系使用智能的数据模型处理，那么传统的以线下服务为主的业务模式将会发生根本性的改变，很多的投资、存款等业务也会因智能投顾的兴起而被彻底的取代。
我所接触的人工智能
接触人工智能这个词汇应该是在2015，当时在谈金融行业的风控模型，主要是应用于当红的P2P行业，遂将话题引入P2P行业对股票配资的业务，谈起量化交易和智能投顾，从数据的清洗、分类、分析、算法、建模、机器人学习等，神聊四五个小时以至于入迷入魔，终确认金融行业12字真经“数据”为基础，“智能”是关键，“产品”合理，“风控”要抓严，“杠杆”需放大，“流动”最赚钱。
先聊聊“数据”和“智能”的事
数据是什么？
早在多年前我就说过一个命题，就是所有的事物都可以用数据来描述，就好像人体是由细胞构成一样，而以后的生意就是数据，谁能掌握数据谁就会成为下一个王者，就类似于现在BAT所说的入口一样，谁掌握了入口，谁就获得了命脉，而获得入口就是获得客户和客户的代表值“数据”。
谁现在拥有大量的数据？
主要是四个数据源，第一是政府，第二是移动、联通、电信三大运营商，第三是以BAT为首的互联网企业，第四是以银行、保险、证券为主题的金融行业。
大数据下的人工智能能干那些事？
人的行为、爱好、行业等等诸多特点都是可以用数据来描述和分析的，在大数据的基础上，人们可以通过模型来实现很多的功用，例如分析、追踪、预测、判断、推测、分类、选择、执行、归纳、决策等等，而且这些动作都是可以用机器人来学习的，是可以稳步提高的
为什么“于无声处听惊雷”会是金融，而不是自动驾驶，或者是语音识别等领域
第一、金融行业的数据量级足够大，无论是银行、保险、证券投资还是民间的P2P，本身就是一个数据的传输（存进银行1万，五年后1.75万，改变的只是数字）。没有什么转化的过程，变化的只是一个数字，你存了多少钱，存款期间，年化收益这些都有标注，这些都是可以用机器人自动记录的，不需要传统的票据，凭证等，如果你非要凭证，可以电子的。
第二、风控更准确：数据是不会撒谎的，是及其精准的，资金流动的过程中所有的数据都可以被记录和标识，那么我们就可以通过这些数据，进行分类整理和处理，通过各种算法，建立不同的模型，这些模型将广泛的应用于信贷和风控体系，完全避免人类因欲望而形成的各种风险。
第三、交易更智能：机器人是可以学习进步的，数据量级越大，输入的信息越多，机器人也会学习进步，现在机器人的数据处理能力、分析和自动学习能力显著提高，从华尔街70%的交易员失去工作的事件来看，未来的交易就是智能化的交易，智能投顾的未来是可期的。
第四、成本更低：现在金融从业人员的劳务成本多高，大家都早有耳闻，随着人工智能的崛起，诸多的事物被机器人大理，试想一下，如果机器人能干的，还用人干嘛？机器人可以日夜不停的工作，而且机器人的分类和复制能力更高，在某些工作领域机器处理的更快，一个机器人可以代替数千个员工，例如凭证类的管理和资金流水记录等等，这些早已不在是人工完成，整个的记录、归档、分发等等全部程序搞定。
第五、服务更精准：智能发展到一定程度，人机一体化程度更高，智能服务的体验感更强，更贴心，例如你去买一款保险，您可以通过写出自己的需求，就会出现不同组合的不同方案供您选择，各种数据比较，各种优劣势分析一目了然。
第六、金融和钱最近，纵观各个行业，最根本的原始的材料就是金融，没有金融万事难行，金融服务是离钱最近的行业，也是最有动力的行业，那么首先发展和应用的热情最足，耗资最大见效最快的行业。
被颠覆和创新的金融行业是什么样子？
1、随需而变的服务：服务的主体不在是人，而是由机器人取代，可以根据自己的需求，自助选择服务，服务更加安全和体贴，这样在投资领域被诈骗和非法集资的案例将会急剧减少，金融服务更加规范。
2、智能化的流程和控制体系：以数字货币为代表的新科技的应用，使银行、保险、基金、证券等服务行业相关的业务也被调整，更多系统引入人工智能，主要应用于信贷、风控等领域。
3、金融服务一体化：
o 业务不再单一化
例如用户的资金，在闲置的时候就会根据用户的风险偏好进行自动的投资，在进行消费的时候，消费会被自动记录，而后在投资周期结束或者某个节点上自动偿还，完全实现资产的保值和增值和消费的便利。在不会有人傻乎乎的存钱在银行。
o 实现行业的整合和服务的跨界
例如医保实现全国联网，人们可以在全国任何一家医院都可以用银保就医，那么如果医保卡和保险公司的保险绑定，则会实现医疗、医药费用实报实消和实时理赔，如果和智慧医疗结合，则会实时指点你用药、体检、饮食，那么又可以引入电商服务，到哪个平台买菜等等，如果你资金紧张，那么又可以实现消费金融。
4、大量的底层的服务人员被裁员，同时高端的专业的技术人员（算法、模型、学者）更值钱，AI已深入人心。懂得AI的人才具有价值。
o 创业或创新的机会
金融行业涉及的行业、业务、产品太广泛，人工智能的应用也较为广泛，但是作为创业公司应该在单一领域实现突破，而非综合性服务。
o 哪些业务点最具有潜力
一、智能投顾
二、信用评估
三、风控管理
四、信贷管理和贷后跟踪
五、反金融犯罪领域
六、智能客服
七、区块链
八、电子凭证
本文系专栏作者发表，属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！
用微信扫描可以分享至好友和朋友圈
扫描二维码或搜索微信号“iweiyangx”关注未央网官方微信公众号，获取互联网金融领域前沿资讯。
您的评论提交后会进行审核，审核通过的留言会展示在下方留言区域，请耐心等待。
版权所有 (C) 清华大学五道口金融学院互联网金融实验室 | 京ICP备号-1氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 硬创公开课 - 知乎专栏
{"debug":false,"apiRoot":"","paySDK":"/api/js","wechatConfigAPI":"/api/wechat/jssdkconfig","name":"production","instance":"column","tokens":{"X-XSRF-TOKEN":null,"X-UDID":null,"Authorization":"oauth c3cef7c66aa9e6a1e3160e20"}}
{"database":{"Post":{"":{"contributes":[{"sourceColumn":{"lastUpdated":,"description":"","permission":"COLUMN_PUBLIC","memberId":,"contributePermission":"COLUMN_PUBLIC","translatedCommentPermission":"all","canManage":true,"intro":"","urlToken":"ycgkk","id":17265,"imagePath":"da7a69f92dbad3290ce5.jpeg","slug":"ycgkk","applyReason":"0","name":"硬创公开课","title":"硬创公开课","url":"/ycgkk","commentPermission":"COLUMN_ALL_CAN_COMMENT","canPost":true,"created":,"state":"COLUMN_NORMAL","followers":1698,"avatar":{"id":"da7a69f92dbad3290ce5","template":"/{id}_{size}.jpeg"},"activateAuthorRequested":false,"following":false,"imageUrl":"/da7a69f92dbad3290ce5_l.jpeg","articlesCount":76},"state":"accepted","targetPost":{"titleImage":"/v2-ad22c8a1a641_r.jpg","lastUpdated":,"imagePath":"v2-ad22c8a1a641.jpg","permission":"ARTICLE_PUBLIC","topics":[350,],"summary":"高风险、高收益是金融行业永恒的标签。也因如此，金融行业非常重视风控。据多位资深金融人士表示，从事风控后，他们总是处于战战兢兢的忧虑中。他们上一次大规模的忧虑发生在十几年前。世纪之交的美国缺乏对于风控意义的认知，明明借着互联网的东风却在半途…","copyPermission":"ARTICLE_COPYABLE","translatedCommentPermission":"all","likes":0,"origAuthorId":0,"publishedTime":"T16:15:33+08:00","sourceUrl":"","urlToken":,"id":2787652,"withContent":false,"slug":,"bigTitleImage":false,"title":"氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 硬创公开课","url":"/p/","commentPermission":"ARTICLE_ALL_CAN_COMMENT","snapshotUrl":"","created":,"comments":0,"columnId":17265,"content":"","parentId":0,"state":"ARTICLE_PUBLISHED","imageUrl":"/v2-ad22c8a1a641_r.jpg","author":{"bio":"雷锋公开课，用技术洞见未来，公众号【AI研习社】","isFollowing":false,"hash":"ba9af5fdb6f04a6a177a674c75731c37","uid":681800,"isOrg":false,"slug":"ycgkk","isFollowed":false,"description":"","name":"机智的大群主","profileUrl":"/people/ycgkk","avatar":{"id":"v2-387e5271c5aed2dc4c40bc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"memberId":,"excerptTitle":"","voteType":"ARTICLE_VOTE_CLEAR"},"id":621897}],"title":"氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 硬创公开课","author":"ycgkk","content":"高风险、高收益是金融行业永恒的标签。也因如此，金融行业非常重视风控。据多位资深金融人士表示，从事风控后，他们总是处于战战兢兢的忧虑中。他们上一次大规模的忧虑发生在十几年前。世纪之交的美国缺乏对于风控意义的认知，明明借着互联网的东风却在半途摔了个七零八落。新科技的出现必然会对原行业产生一定影响。技术无所谓利弊，问题在于人的使用。在风控得到足够重视，AI成为最热门科技的现在，诸多从业人士不由得开始思考AI的应用价值，如何将AI与风控相结合并发挥出其积极作用？本期雷锋网公开课邀请到氪信资深数据科学家朱敏来分享他的从业经验，深度讲解如何构建基于AI的金融风控系统。嘉宾简介：朱敏，氪信资深数据科学家，深耕应用统计和数据挖掘领域。复旦大学生物统计学硕士，曾任职PayPal高级分析师，负责核心风险控制数据变量、排序策略、评价指标的设计研发，并在反欺诈策略、行为特征等方面拥有丰富的研究经验。曾任职eBay数据分析师，负责AB测试与搜索算法的评估。多年以来专注金融统计和风险评估算法研究，在互联网级别的机器学习算法和统计理论商业应用领域有着丰富的理论研究和实践经验。以下是本次公开课实录，雷锋网(公众号：雷锋网)做了不改变原意的编辑：今天给大家分享的主题是AI在金融风控领域的工业应用，我主要负责数据和模型，所以今天的公开课除了分享宏观想法，在具体实践方面也会比较偏模型和数据。其实这个主题是非常大的topic，所以会聚焦到金融尤其是消费金融领域，阐述我们氪信是怎样利用互联网、机器学习和人工智能技术和经验去解决实际问题的。金融AI时代已到来？首先我想跟大家分享三个数字——40万亿消费信贷、35%征信覆盖以及44ZB数据。有资料显示，2019年中国的消费信贷市场会达到40万亿，而在2015年这个数字还只是20万亿，这几年都保持着很高的增长速度。我们可以看到市场规模很大，并且在不断变大。而征信覆盖率并没有保持与市场规模的同步。第二个数字是35%，这是指消费金融领域只有35%的客户是有征信记录的，剩下65%没有信用记录，所以并不能用传统、成熟的风险评估方法去评估这些人的风险。第三个要分享的数字是44ZB。对于65%没有传统征信数据的这类人，我们可以收集其他相关数据去评估，这相关数据可能是申请资料、互联网使用记录、通信记录等。而由于现在硬件的发展、数据收集的自动化，我们是可以收集到很多数据的，这个数据量也很庞大。大数据一方面是好事，另一方面也是一个难题，例如怎么运用一些技术手段从大量的数据中提取信息。而我们觉得消费金融是切入AI商业场景一个很好的契机。大数据时代金融风控之痛大数据时代金融风控市场规模大，需求旺盛，但要解决的问题很多。从技术层面上来讲，有三个问题。第一是价值困境，虽然已经意识到了大数据的价值，但不知如何实践，怎样从数据中挖掘出有用的信息。第二是高维困境，对于65%未被传统征信覆盖的人群来说，他们的特征维度非常高，往往会产生上千维变量，那么该如何处理高位特征，如何将其有效融合，形成1+1＞2效果？第三，敏捷困境。在人工智能和风险评估不断发展的同时，我们的敌人的欺诈演变速度也非常快。一旦发现了业务上的一个漏洞，它就会去钻模型的缺陷，利用缺陷来达到利益最大化。而单一的个体欺诈也正在演变成有组织、有规模的群体欺诈。从战略层面来说，以上问题带来的后果是风控决策低效耗时，员工成本会很高，坏账率则更高。在金融场景里，一定需要人工智能、机器学习去帮助解决问题。构建基于AI的金融风控系统上图展示了一个理想的基于AI的金融风控系统。从左往右讲，我们一开始会去收集各个层面的数据源，这些数据源里包括交易数据、高价值黑名单，这些都是比较常见的传统信用数据。此外，我们也会搜集互联网行为、运营商数据、信贷申请资料等。不同的数据源融合到一起的时候也会借鉴知识图谱技术，在知识图谱之上再去构建高价值金融属性的特征。数据融合后有上千维度特征，接着我们会做一个基于深度学习的特征加工工程。再下一步是构建模型，这里列出了一些非常主流的机器学习、深度学习模型，像XGBoost或者是深度神经网络，这些模型再加上已经加工出的高价值金融特征，我们觉得这样就可以解决实际金融风控当中会遇到的问题。而在解决问题过程中，经验会被抽象化，所以我们也会把这些经验转变成一个产品。上图列出了几个风控引擎，包括把刚刚提到的金融特征做成特征引擎、模型引擎、规则引擎，这些产品会帮助我们更好地积累数据，也更好地把已经积累的经验应用到更多场景中去。接下来的内容也会按照这个模型来讲，首先是数据管理，关键字就是金融的知识图谱。第二部分是基于深度学习的特征工程。最后是集成模型，就是我们怎样把这些数据特征构建成一个分类模型来帮助我们判断。知识图谱：重新定义金融数据架构体系首先看知识图谱。知识图谱是谷歌在2012年5月发展出来的可以将搜索结果进行知识系统化，任何一个关键词都能获得完整的知识体系。本质是一个语义网络，是一个基于图的数据结构。在知识图谱当中，实体会被表示成一个节点，节点和节点之间会用关系来连接，所以这个构造方式和传统关系型数据网络是完全不同的。在金融场景里，相比于传统的关系型数据库，它存在一些优点。首先，金融知识图谱可扩展性更强。我们收集到的数据源无论是从结构上还是内容上来说，其实都有很大差别。如何管理这些不同结构和内容的数据源从来就是关系数据库一个大问题。但是如果把所有的数据和知识都表示成知识图谱可以接受的结构，我们就可以把异质异构的数据统一融合在一起。无论是新的数据源变化，还是原有数据源的数据结构发生变动，都可以灵活地调整。这个灵活也是基于知识图谱的特点，无论是对于节点还是对于关系而言，增加或者更改它的属性都是非常灵活的。从上图中，我们可以看到在金融风控中用到的数据还是很多的，包括历史积累数据、实时数据、第三方数据。分类方法当然有很多，但无论是怎么去看数据格式、结构都会完全不一样。如果构建到统一的金融图谱当中去，对于下游的特征加工和模型其实会有很大帮助。对于数据库某一个数据结构的依赖就不是那么强，我们只要优化金融知识图谱的知识结构，工作中的相关问题都可以得到解决。基于知识图谱的社交网络分析金融知识图谱的第二个优点从上图中就可以看出来，知识图谱比较直接。用户面对的关系型数据库主要是表。而知识图谱可以将这些关系构建成图，更加可视化。反欺诈是很重要的一点，在反欺诈中我们经常会做交叉验证。一个用户有来自不同数据源的特征，如果它们描述的是同一件事情，那我可以去对它们做一个验证。如果这个进程中出现了矛盾，我们会觉得这个人的风险等级偏高。我们设想了一个场景，在这个场景下单独个体的数据源比较单一，在这种情况下，交叉验证是根本没有办法发现矛盾的。而知识图谱可以帮助我们。上图两个例子印证了知识图谱的可视化和表现力。先看左边，我们要去判断这幅图中蓝点这个人的风险等级，我们能够拿到此人相关的信息有手机号、邮箱等。从这个个体的单一信息上面来看，其实很难判断他的风险等级的高低，但是如果我们把他置于一个网络，比较个体和个体的话，我们会发现一个有意思的地方——他的邮箱和好几个其他个体的邮箱是相同的，并且这几个人在我们的判断中已经是坏人，那么对于这个申请用户风险等级也就有了一个判断。右边还有一个判断用户风险的例子。如果只看他的手机号或者邮箱，目前比较成熟的方法是去看邮箱是不是乱码注册的或者其他。而把他置于网络中后，我们会发现他的手机号和很多用户的手机号都有联系，并且都是单向的联系。那这个其实是很明显的特征——骚扰电话，类似中介或者是广告骚扰。基于这一点，也可以形成对于这个人的风险等级判断。这两个例子都很好展示了知识图谱能够包含更多的信息量。这个信息量是可视化的，如果有专家人工去看这些案例的话，会从中找到一些特征来判断这个人的风险等级高低。而在一些先进算法的作用下，可以自动地从社交网络中发现一些特征，自动判断哪些是好人哪些是坏人。深度学习：超越人工定义的深度以穷尽风险接下来讨论一下特征。数据量大，维度很高是消费金融风控必然会遇到的实际问题。此外，还会遇到很多非结构化数据，例如文本、图像等。这些都不是传统征信会遇到的问题，而这在深度学习领域会有一些很成熟的应用。深度学习的本质是特征学习的过程。对于人工难以加工的海量非结构化数据，基于深度学习的特征生成框架自动生成特征，能够弥补人工定义特征的局限性。DNN文本类数据特征提取框架首先说文本类数据特征提取框架。金融风控过程中其实会遇到很多这样的非结构化数据，比方说申请资料的文本信息，或者是经过授信和合规要求的通讯文本。对于这些文本的分析，NLP领域其实已经有一些很成熟的技术，比如说CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去，它也可以去学习到好人或者坏人的特征。实践的第一步是文本数据预处理，提取分词或者是关键词，并将每一个词做向量化的表示，然后这些向量化表示会进入一个卷积神经网络，并从这个卷积神经网络中去提取特征。下一步，这些特征会进入一个全连接的神经网络去学习分类，做成分类器。此外，嵌入学习在其中也展现了很大作用。虽然我们用小规模文本库去学习词向量来做特征也不是不可以，但是我们发现如果使用业界比较成熟的大规模语料库，能提升特征提取的性能。DNN时序类数据特征提取框架另一个例子是时序类数据特征提取框架，一句话来说就是，合并学习不同周期和时序模式的循环神经子网络，有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响。在实际中我们会遇到一些问题，比如并没有那么大的工作量去了解每一块的数据具体是什么样子的，分布是什么样的，特征可以怎么提取。所以时序类的特征其实可以借鉴深度学习里的长短时记忆技术来做相同的事情，去做时间序列的分析。它主要考虑就在NLP里，用在文本比较多，就是说上下文之间是有关系的，根据这样的关系来构建一个提取特征的网络，我们把这样的思路借鉴到了通讯记录或者是交易记录当中。在实际应用中，时序类特征可能是通话记录或者交易记录，所以它的特征不只是在一个阶段面上去提取，还在时间轴上去提取。金融场景中，我们把通话记录分成了不同的周期，按照不同的周期构建了三个LSTM子网络，并且会对这三个时序模式LSTM子网络做一个混合，这样能大大减少时序数据分析和提取特征的工作量。融合机器和专家经验，实现全量价值提取这里还要提到一点，虽然刚才一直提深度学习特征，但是专家的特征也很重要。我们会融合机器和专家经验，实现全量价值提取。因为我们相信专家多年积累下来的成熟的风险评估方法也很有效。基于深度学习的特征智能生成框架，使用不同网络结构拟合不同的数据类型，自动从庞杂、非结构化的数据中生成高质量的深度学习特征，并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。集成模型：最大化AI与现有业务的结合深度前面已经说了数据和特征，现在说集成模型。集成学习模型的优势表现在两点：不同维度/领域的数据具有不同的特点，需要使用不同的建模方法，集成学习框架可以支持不同类型模型算法作为子模型。集成模型成果已经很多，所以用集成模型会帮助提高模型的性能是毋庸置疑的。此外，在实际做金融风控的时候，从一个用户的角度来讲，我们能看到很多金融产品，例如分期产品或者消费金融产品，不同产品额度上也会不同，客群不同，获客渠道也不同（线上获客、地推获客）。面对不同的业务方式时，我们最终要抓住的坏人也是完全不同的，所以这要求我们构建不同的模型。那么这是不是要求我们面对不同业务场景都要从零开始去做数据、特征、建模呢？并非如此。单独领域的子模型可以快速迁移应用到新业务领域，实现快速成型和持续优化。这在实践中最好的应用就是冷启动，对于一个新上的业务，所遇的坏人与以往的业务是完全不一样的，坏人所采取的欺诈手段也是完全不同，但是因为用了集成模型，有些特征、数据、模型经验都是可以借鉴的，这会有很大的帮助。集成学习模型在大型现金贷场景的实际应用上图对之前的内容做了一个汇总。数据有结构化、非结构化之分，并根据不同数据的特点进入不同的特征提取框架。和关系比较近的数据，用网络关联特征的方法去提取；有些数据是文本、图像，用卷积神经网络的方法去提取；时序类的数据，用LSTM方法去提取特征；还有专家人工特征提取框架。综合特征提取框架，综合评估产生三种风险评分：行为风险、社交风险、语义风险。社交风险其实主要是从网络关联特征体系框架这一块延伸上来的。行为风险主要从互联网的行为、运营商这一块延伸上来。语义风险主要从申请资料、通讯文本两方面来评估。最后根据这三块风险做一个集成模型，然后给出违约概率。集成模型能提高性能，氪信之前将集成模型应用到大型消费金融场景中。他们之前的风控用到的特征也不多，判断模型的分类性能的 KS值指标也比较一般。在和我们合作后，运用了刚才提到的技术和框架，模型的性能提升还是非常明显的，KS值从0.19提升到0.35。从业务来看，他们的坏账率直接下降了46%。基于网络的反欺诈应对线上群体欺诈接下来再说说基于网络的反欺诈。举个虚假申请的例子。某个人通过篡改个人资料，提出贷款的申请，这个可以通过交叉验证来判断此人的风险等级。但是在另一个场景，比如有人申请资料时，用的完全是张三的资料，因为张三的风险评级很安全。这种情况下对于金融这风控机构而言，评估是比较困难的。如果没有人工介入，这个人的风险评估都是基于张三的信息来做的。对于这种虚假的申请，若只根据个体的资料去判断，难度是相当大的。但是把他放到社交网络中情况会不同。不同的人共享了相同的属性或者相同的资料，那么我们就会有风险的疑虑。还有群体欺诈。这主要是说在时间或者空间上的高频率焦点，或是高频率申请。一个简单的例子，我们发现申请资料的数量大得超出历史，然后这些申请资料，比方说手机定位的位置都来自于同一个地区，如果能排除线下获客的可能，这会是很奇怪的一件事情，存在很高的群体欺诈风险。前面也已经提及了两个社交网络中交叉验证的例子。这里展示的是网络反欺诈流程。首先收集数据，然后构建网络，基于这样的特征进行社交网络分析，构建反欺诈的规则。当然也会把这样的可视化展示给专家，专家会从可视化的社交网络中发现一些规则，然后利用这些规则去做早期反欺诈预警，包括把这些规则当作一个特征放到反欺诈模型当中。一方面，社交网络分析可以去做规则、模型，另一方面是它的可视化可以帮助我们融入专家的力量。所以这将构成一个闭环。我们从网络当中学习到了特征、运用的规则，专家会从规则当中获得启发，并提出新的规则，规则反馈给网络，告诉网络什么关系是值得怀疑的，这会是一个良性的循环。我的分享就到这里，谢谢大家。雷锋网公开课视频实录
雷锋网原创文章，未经授权禁止转载。详情见。 ","updated":"T08:15:33.000Z","canComment":false,"commentPermission":"anyone","commentCount":0,"collapsedCount":0,"likeCount":11,"state":"published","isLiked":false,"slug":"","isTitleImageFullScreen":false,"rating":"none","titleImage":"/v2-ad22c8a1a641_r.jpg","links":{"comments":"/api/posts//comments"},"reviewers":[],"topics":[{"url":"/topic/","id":"","name":"人工智能"},{"url":"/topic/","id":"","name":"金融 IT"},{"url":"/topic/","id":"","name":"风险控制"}],"adminClosedComment":false,"titleImageSize":{"width":480,"height":290},"href":"/api/posts/","excerptTitle":"","column":{"slug":"ycgkk","name":"硬创公开课"},"tipjarState":"inactivated","annotationAction":[],"sourceUrl":"","pageCommentsCount":0,"hasPublishingDraft":false,"snapshotUrl":"","publishedTime":"T16:15:33+08:00","url":"/p/","lastestLikers":[{"bio":"私募基金分析师","isFollowing":false,"hash":"e8bd0a61cbcfe5fd948bc1","uid":00,"isOrg":false,"slug":"xiong-ao","isFollowed":false,"description":"","name":"Xiong Ao","profileUrl":"/people/xiong-ao","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"|ωo`)","isFollowing":false,"hash":"18b69f05c9e0df6bc601b51bbdace517","uid":64,"isOrg":false,"slug":"chen-hong-zheng-92","isFollowed":false,"description":"","name":"陈鸿峥","profileUrl":"/people/chen-hong-zheng-92","avatar":{"id":"e5ef194b8","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"Risk Analyst","isFollowing":false,"hash":"67afee78e44f4b5e81e652","uid":110700,"isOrg":false,"slug":"winnie-67-99-75","isFollowed":false,"description":"","name":"winnie","profileUrl":"/people/winnie-67-99-75","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"长天过大云","isFollowing":false,"hash":"a0ec8c8991fee7c18bc47ea618b43843","uid":68,"isOrg":false,"slug":"li-wei-dong-65","isFollowed":false,"description":"","name":"李伟栋","profileUrl":"/people/li-wei-dong-65","avatar":{"id":"f1b25a4203cfd465aff357af","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},{"bio":"数据挖掘搬砖狮","isFollowing":false,"hash":"30dcfe10ed40bc3adfb2b","uid":351900,"isOrg":false,"slug":"fly-42-66","isFollowed":false,"description":"","name":"fly","profileUrl":"/people/fly-42-66","avatar":{"id":"da8e974dc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false}],"summary":"高风险、高收益是金融行业永恒的标签。也因如此，金融行业非常重视风控。据多位资深金融人士表示，从事风控后，他们总是处于战战兢兢的忧虑中。他们上一次大规模的忧虑发生在十几年前。世纪之交的美国缺乏对于风控意义的认知，明明借着互联网的东风却在半途…","reviewingCommentsCount":0,"meta":{"previous":{"isTitleImageFullScreen":false,"rating":"none","titleImage":"/50/v2-bc267dac5747f92bbb88_xl.jpg","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"音频处理"},{"url":"/topic/","id":"","name":"物联网"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","author":{"bio":"雷锋公开课，用技术洞见未来，公众号【AI研习社】","isFollowing":false,"hash":"ba9af5fdb6f04a6a177a674c75731c37","uid":681800,"isOrg":false,"slug":"ycgkk","isFollowed":false,"description":"","name":"机智的大群主","profileUrl":"/people/ycgkk","avatar":{"id":"v2-387e5271c5aed2dc4c40bc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"column":{"slug":"ycgkk","name":"硬创公开课"},"content":"网络直播行业经历了过去两年的井喷式爆发后，到现在依旧保持着持续火热的态势。但这一市场火爆的背后也一直暴露了一些问题，低俗内容屡见不鲜。显然，要解决这一问题就必须要有比人工鉴黄效率更高的手段，用人工智能技术来鉴黄就是现在直播平台通用的手段。虽然不少企业都把目光聚焦在视频鉴黄上，但音频审核也是人工智能鉴黄技术的一部分，二者缺一不可。那在大家熟悉的视频鉴黄之外，音频检测究竟能解决哪些问题？这一技术是如何进行鉴黄的呢？本期雷锋网(公众号：雷锋网)硬创公开课，我们邀请了极限元智能科技联合创始人马骥为大家解读关于音频审核背后的技术。嘉宾介绍马骥：极限元智能科技联合创始人，曾先后就职于中科院软件研究所、华为技术有限公司，获得多项关于语音及音频领域的专利，资深软件开发工程师和网络安全解决方案专家，擅长从用户角度分析需求，提供有效的技术解决方案，具有丰富的商业交流和项目管理经验。以下内容整理自本期公开课，雷锋网做了不改变原意的编辑：一、音视频审核的需求现状音视频审核主要针对互联网传播的信息进行审核，审核的内容有有害信息（涉黄、涉暴）、敏感信息。以直播平台为例，2016年，是互联网直播平台爆发的一年，除了各式各样的直播形式。与此同时，也出现了大量的在线实时信息，这其中是有害信息，涉黄是最为严重的一个现象。今年，相关部门已经针对这些乱象加大了打击力度，因此基于互联网直播平台的有害信息检测成为重中之重。以图像识别技术为基础如何进行鉴黄？在直播的时候，每个直播间会间隔一秒或几秒采集一个关键帧，关键帧会发送到图像识别引擎，引擎根据图像的颜色、纹理等等特征来对敏感图像进行过滤，这一过程会检测肢体轮廓等关键特征信息，然后对检测图像特征与特征库模型里面的特征相似度进行匹配，给予待测图像色情、正常、性感等不同维度的权重值，以权重值最高的作为判定结果输出。基于图像识别得视频涉黄检测准确率可以达到99%以上，可以为视频直播平台节省70%以上的工作量。还有一些是语音为主的直播节目，比如谈话聊天、脱口秀、在线广播等。视频检测所使用到的图像技术就很难在这些应用场景发挥作用，所以音频检测需要有针对性的技术手段。除了刚刚提到的几个音频检测应用场景之外，例如网络音视频资源审核，例如微信发布语音视频信息，平台后台会对这些数据进行审核；另外公安技侦通过技术手段来侦查网络、电话犯罪行为；第三个是呼叫中心，传统呼叫中心会产生大量的电话录音，很多行业会对这些录音进行录音质检，从这些录音中提取业务开展的情况；最后一个是电信安全，主要是以关键词检索的手段来防止电信诈骗。二、音频检测采用的技术手段音频可以分为有内容和无内容两种：说话内容相关的包括说了什么？（涉政、涉黄、涉赌还是广告信息），另外还可以从说话内容来判断语种以及说话人的辨识；此外还有与说话内容无关的信息，例如特定录音片段、歌曲旋律、环境音等等。针对不同的数据类型有不同的检测技术。针对说话内容有语音识别、关键词检索等；针对语种的判别有语种识别的技术；针对说话人的识别有声纹识别技术；针对说话内容无关的通常采用音频比对的技术来进行检测。语音识别的关键技术——声学模型语音识别的声学模型主要有以下两种：混合声学模型和端到端的声学模型。混合声学模型通常是隐马尔科夫模型结合混合高斯、深度神经网络、深度循环神经网络以及深度卷积神经网络的一个模型。端到端声学模型目前有两大类，一是连接时序分类—长短时记忆模型，二是注意力模型。声学模型——混合高斯—隐马尔科夫模型混合高斯—隐马尔科夫模型是根据语音的短时平稳性采用采用隐马尔科夫模型对三因子进行建模。图中显示的是，输入语音参数通过混合高斯模型计算每一个隐马尔科夫模型状态的后验概率，然后隐马尔可夫模型转移概率来描述状态之间的转移。混合高斯—隐马尔科夫模型是出现最早应用最久远的模型。声学模型——深度神经网络—隐马尔科夫模型混合神经网络—隐马尔科夫模型是将混合高斯模型用深度神经网络进行替代，但是保留了隐马尔科夫的结构，对于输入端的扩帧和深度神经网络的非线性变换，识别率可以得到很大的提升。声学模型——深度循环神经网络—隐马尔科夫模型前面的深度神经网络对历史信息的建模只是通过在输入端扩帧实现的，但对历史信息的建模作用是有限的。在深度循环神经网络中，对输入的历史信息可以进行有效的建模，可以做大限度的保留历史信息。根据现有的实验结果来看，在很多任务上，深度循环神经网络性能表现要由于深度神经网络。当然，深度循环神经网络也存在一些缺点。例如，在训练的时候，会出现梯度爆炸和梯度消失的问题。那么如何有限解决梯度爆炸和梯度消失的问题呢？学者又引入了一种长短时记忆模型。声学模型——长短时记忆模型长短时记忆模型采用控制门（包括输入门、遗忘门和输出门）将梯度累积变成梯度累加，在一定程度上可以解决深度循环神经网络训练时梯度消失的问题。声学模型——深度卷积神经网络—隐马尔科夫模型上面提到的深度循环神经网络能够有效地对历史信息进行建模，但是它存在计算量太大的问题，特别是为了减少这种梯度消失又引入了长短时记忆模型之后，计算的信息量有加剧。应对这一难题，业界又引入了深度卷积神经网络模型。这种模型在图像识别领域和语音识别领域都得到了显著的效果。在语音识别领域，我们可以从图中可以看出，一共有四种深度神经网络的模型结构，随着深度的增加可以有效地提升声学模型的构建能力。声学模型——连接时序分类—长短时记忆模型前面提到的都是基于混合模型，以隐马尔科夫模型来构建转换概率的模型。在训练过程中，如果要用到高斯混合模型进行强制对齐结果的训练。针对这个问题，也有学则提出了不需要强制对齐的训练方法，例如连接时序分类（CTC），这种方法可以有效加速解码速度。声学模型——注意力模型另外一种不需要强制对齐的训练方法是注意力模型的训练方法（如上图）。语言模型语言模型——N-Gram基于N-Gram的特点是每个词出现的概率，之和前面第N-1个词有关，整句话出现的概率是每个词出现的概率的乘积。N-Gram有一个缺点，由于数据稀缺性需要进行一个平滑算法，然后得到后验概率。语言模型——DNN-GramDNN-Gram把深度神经网络引入可以有效地克服平滑算法的误差。例如图中显示的，通过深度神经网络构建语音性不需要平滑算法的处理。语言模型——RNN-Gram和声学模型一样，构建语言模型也需要对历史信息进行训练建模，在声学模型中提到的深度循环神经网络在这里也有应用。基于深度神经网络的语言模型每个词出现的概率和N-Gram一样，只是和向前的第N-1个词有关，但实际上，每个词出现的频率和之前所有词都有相关性，因此需要引入历史信息进行训练建模。所以在这里加入了RNN-Gram进行语言模型的构建。近几年，语音识别的声学模型和语言模型都得到了很大的提高。2016年，微软的语音识别团队宣称在swithboard数据集上超过了人类，swithboard数据集是一个以口语为主的训练测试数据集，包含了大量的副语言，所以用这种数据集进行语音识别测试具有一定的挑战性。不过，语音识别在一些特殊领域的识别效果就大打折扣了。在强干扰环境和特殊领域中，可以通过基于语音识别的关键词检索方法来进行音频信息的检查。基于语音识别的关键词检索基于语音识别的关键词检索是将语音识别的结构构建成一个索引网络，然后把关键词从索引网络中找出来。从这一流程图中可以看到，首先把语音进行识别处理，从里面提取索引构建索引网络，进行关键词检索的时候，我们会把关键词表在网络中进行频率，找到概率最高的，输出其关键词匹配结果。构建检索网络构建检索网络是语音关键词检索的重要环节。在这个图中，在第一个时间段内（w1、w3、w6、w7），这句话被识别成了四个不同的词，语音识别只能给出一条路径，但在语音关键词检索网络中可以从四个结果中进行筛选。关键词检索有了检索网络后，接下来的工作就是关键词检索工作。关键词检索是基于音节数据，首先将用户设定的关键词文本解析成音节数据，再从检索网络中找出匹配结果，相比语音识别这种文本结果检索，这种容错性更强，而且关键词检索可以只用在基于CTC，计算量更小，执行效率更高，更适用于海量数据的检索场景。说话人识别的关键技术说话人识别也称之为声纹识别，主要目的是对说话人的身份确认和辨识。它的流程如下：首先对说话人的训练建模，把注册语音进行特征提取，模型训练之后得到说话人的模型库；在测试的时候，我们需要通过一个很短的音频去提取特征值，然后基于之前构建的模型进行阈值判断，判断出是集合内还是外，最终确认身份。在这一过程中，注册语音只要10s左右的语音，测试只要2-5s的语音。说话人识别的关键技术——特征提取-MFCCMFCC（梅尔频率倒谱系数），梅尔频率是基于人耳听觉特性提取出来的，和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征，其主要应用于语音数据的特征提取。这张图显示的就是MFCC的提取过程，输入语音进行傅里叶变换，从中得到频谱，然后通过梅尔滤波器进行倒谱分析，再得到MFCC系数。说话人识别的关键技术——特征提取-DBNMFCC是浅层的特征，只要通过语音参数的分析就可以得到，但是说话人之间不同的特征还体现在其它特点上，仅通过MFCC是无法捕捉到的。所以又要利用神经网络来解决。神经网络有一个特征层叫BottleNeck，BottleNeck是深度神经网络参数维度最少的一层，很像一个瓶颈。BottleNeck特征提取是通过语音识别深度神经网络训练得到的。说话人识别的关键技术——模型训练GMM完成关键特征提取后就要进行模型训练。GMM的训练流程是：首先把训练语音进行特征提取，得到梅尔频率倒谱系数，然后生成一个通用背景模型，再通过MAP的方法得到说话人的模型。注册语音的流程也是类似，通过特征提取，进行模型训练得到混合高斯模型。在测试的时候，把测试语音进行特征提取，然后从通用背景模型和混合高斯模型进行最大相似度的判断，再输出识别结果。说话人识别的关键技术——模型训练I-VectorI-Vector在近两年有比较广泛的应用，它将说话人特征和信道特征统一建模，得到说话人特征通过信道补偿记录进行识别，有效解决了训练样本和实际检测样本存在信道不匹配的问题。信道特征对说话人识别的准确性干扰很大，如果前期学习建模过程中，能把信道特征统一建模后期在识别的时候，可以实现信道补偿，大大提升说话人识别的鲁棒性。说话人识别的关键技术——模型训练DNN我们还可以进一步介入深度神经网络的方式来提取统计量。用深度神经网络替代一些统一背景模型，可以把音素相关信息通过语音识别的深度神经网络结合起来，采集到更多的说话人特征信息。音频对比技术特征提取音频对比技术也是引用很早很广泛的音频检索技术。音频对比主要是从音频信号中提取特征，通过特征进行比对来检索。图中提取的过程就是通过频谱最大值点来建模。特征构建在完成最大值点完成建模后，我们需要进行特征的构建。特征构建是通过最大值点之间的距离来建模，例如两个最大值点的距离、位置信息作为一个固定的特征来完成音频特征信息的构建。检索有了上述音频特征之后，就可以对两个不同音频进行检索，最大相似度的地方就是相似点。这种技术最适用于录音片段的检索。其它技术1.语音欲处理技术：包括音频编解码、噪声消除（软件处理，硬件解决方案）、语音信号增强。2.语义识别：对语音识别后的文本结果进行分析，结合上下文，来判断真是意图。3.语种识别、男女声识别：识别方言、外语语种、发音人性别进行识别。4.流媒体技术：在实时音频数据处理中，需要用到数据切分、数据缓存。5.云平台技术：云服务架构设计、、服务模块化整合、负载均衡等。6.大数据技术：海量数据存储、训练样本自动提取、模型训练等。三、应用场景案例音频审核数据来源可以分为实时数据和存量数据。存量数据主要是现有的语音资源，实时数据则包括正在直播的广播、电视节目等。存量音频数据审核场景：电信运营商诈骗电话检测这是针对存量数据的解决方案，它有大量的通话录音，而且因为设备供应商的不同，会造成音频格式、音质不统一；另外，电话录音还存在噪声干扰、方言口音问题。针对这类数据的检测，我们可以提供一套完整的解决方案。首先把通话录音通过API接口上传到关键词检索服务器上，关键词检索服务器的API网关对它的请求进行分类处理之后，移交给后续的业务网关来分发处理。首先要进行音频预处理，音频格式转码、语音降噪等，然后把处理后的文件存储；接下来，把结果反馈给业务网关，由音频比对对已知录音片段进行检测，如果有匹配这些录音片段就反馈结果——存在诈骗信息。如果经过音频比对没有发现诈骗信息，我们会调用关键词检索服务。实时音频数据审核场景：在线直播平台敏感信息检测它的数据是实时生成的，需要用到流媒体技术，包含图像、音频两大数据源，所用到的检测技术也不一样。音频检测还分为语种、说话人确认、内容识别。累积了大量的检测数据之后，对后期的模型优化升级也提出了更高的要求。首先会对直播中的音视频资源提取，分别交由图像处理模块和语音处理模块，针对图像数据我们要提取关键帧，针对语音数据，我们会把视频数据中的音频资源提取出来。图像数据的处理，拿到图像数据关键帧后会定时发送到处理平台上（雷锋网注：可以在云端或者私有云部署）。在图像识别部分要对图像预处理、图像分割，拿到有效的区域来检测，在有害信息识别检测阶段，我么会完成特征提取、目标分类、判断匹配，找出里面涉黄、涉暴的信息。如果用户有进一步的需求，例如广告识别的要求，我们可以根据二维码、数字、字符检测技术来进行广告的识别。音频的数据提取之后，上传到到服务器端。音频实时处理有个局限是会占用大量的带宽，所以通常采用私有云的部署方式。拿到音频数据之后，第一步是音频预处理（流媒体缓存、断句切分、统一格式、降噪处理），然后是内容检测（语音识别、关键词检索、语音识别）。除了内容审核之外，还有其它的检测，例如直播平台会对当前主播身份的确认、广告检测、语种识别等。精彩问答Q：从极限元的方案来看，音频审核还存在什么Bug，它适用于哪些领域？A：Bug肯定是有的，主要是目前技术的局限性，识别的准确率还是问题。在视频直播、呼叫中心的应用场景涉及到的比较多，只要能产生大量音频数据的行业都可以使用音频审核技术。Q：音频审核是否是人工+机器结合的审核方式？哪些部分必须要人工来处理？标准是怎样的？A：机器目前只是粗检索，如果要100%的准确率还是需要人工来完成。Q：语音识别和声纹识别部分对硬件的要求很高，那一般情况下需要配套的硬件方案吗？A:这是有的，我们通常会推荐一些硬件方案，而且不同的应用场景也会有不同的推荐。例如，用户在私有云端部署，对计算量要求很高但对带宽的需求很小，如果在云端部署，对带宽有更高的要求。Q：音频审核对降噪有做哪些处理？A：主要是为了减少直播中存在的声道干扰和背景声的干扰，例如不同麦克风回声，还有一些已知的噪声信号，我们会针对这些做一些预处理。Q：关键词是怎么设定的？改变关键词的话，对整个系统方案影响很大啊。A：关键词的设定目前还是人工设定为主，机器不能自动提取关键词。例如上文提到的电信诈骗，里面的关键词也是人工筛查得出的。Q：系统同时结合音频和视频方案最难的地方在哪里？A：如果是同一段视频既要图像检测又要音频检测，在时间点的同步上是一个很大的难点，因为语音识别、图像识别是两套系统。雷锋网原创文章，未经授权禁止转载。详情见。","state":"published","sourceUrl":"","pageCommentsCount":0,"canComment":false,"snapshotUrl":"","slug":,"publishedTime":"T17:38:26+08:00","url":"/p/","title":"深度解析音频检测背后的技术 | 硬创公开课","summary":"网络直播行业经历了过去两年的井喷式爆发后，到现在依旧保持着持续火热的态势。但这一市场火爆的背后也一直暴露了一些问题，低俗内容屡见不鲜。显然，要解决这一问题就必须要有比人工鉴黄效率更高的手段，用人工智能技术来鉴黄就是现在直播平台通用的手段。…","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentPermission":"anyone","commentsCount":0,"likesCount":7},"next":{"isTitleImageFullScreen":false,"rating":"none","titleImage":"/50/v2-b0d70fbcef0_xl.jpg","links":{"comments":"/api/posts//comments"},"topics":[{"url":"/topic/","id":"","name":"白帽黑客（White Hat）"},{"url":"/topic/","id":"","name":"CTF(Capture The Flag)"},{"url":"/topic/","id":"","name":"黑客 (Hacker)"}],"adminClosedComment":false,"href":"/api/posts/","excerptTitle":"","author":{"bio":"雷锋公开课，用技术洞见未来，公众号【AI研习社】","isFollowing":false,"hash":"ba9af5fdb6f04a6a177a674c75731c37","uid":681800,"isOrg":false,"slug":"ycgkk","isFollowed":false,"description":"","name":"机智的大群主","profileUrl":"/people/ycgkk","avatar":{"id":"v2-387e5271c5aed2dc4c40bc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false},"column":{"slug":"ycgkk","name":"硬创公开课"},"content":"知乎里曾有一个热门回答“智商被碾压是一种怎样的体验”。由于经常面对异常机智的黑客，雷锋网编辑捂着胸口，表示小心心好痛。但是，如果是看着一群高智商黑客互相“碾压智商”，开展一场技术、策略与智商的较量，感觉还是挺爽的！CTF（Capture The Flag）就是这样一种较量，它又被称为“夺旗赛”，是网络安全技术人员之间进行技术竞技的一种比赛形式，起源于1996年DEFCON全球黑客大会，以比赛形式代替黑客们之间的真实技术比拼。也就是说，这是一场实打实的火拼啊！这次，雷锋网(公众号：雷锋网)宅客频道邀请到了国际顶尖白帽黑客、腾讯安全联合实验室旗下玄武实验室负责人，在国内黑客界被尊称为“TK 教主”的于旸与腾讯安全联合实验室旗下科恩实验室安全研究员腾讯 eee 战队队长谢天忆主讲这次公开课，聚焦 CTF的历史和信息安全人才培养，以及前不久举办的腾讯信息安全争霸赛（TCTF）线上预赛试题解读等内容。【TK教主（左）、谢天忆（右）】以下是公开课总结文实录+视频，在不妨碍原意的表达上，雷锋网编辑对该实录略有整理和修订：一、TK 教主发言记录大家好！我叫于旸，从事安全技术研究工作已经有15年了。爱好比较广泛，接触过很多类安全技术。精通的较少，主要擅长的还是软件安全方面。我现在在腾讯负责玄武实验室的工作，如果你是一个安全爱好者，可以在搜索“腾讯玄武实验室”的微信公众号或微博账号，我们每天会推送国际上最新的安全技术信息。CTF是什么？这个概念是从欧美传过来的，字面上是“夺取旗帜”，原本是西方的一种传统户外游戏，相当于我们的丢沙包或者跳大绳。原始的 CTF每个队伍真的有一面旗帜。比赛目标就是夺取位于对方“基地”的旗帜，并带着旗子安全返回自己的基地，当然，实际规则还要更复杂一些，比如还有“监狱”的概念。后来，“夺旗”的概念也被引入信息安全攻防比赛。因为在比赛中，选手需要通过解开题目，或攻破目标夺得“Flag”。现在，我们用CTF来代指信息安全领域的夺旗比赛。CTF 的比赛形式有以下几种：1.真的是“题目”的解题模式，包含逆向、漏洞（也称攻防）、算法、审计、综合……，难度不一，分值不一，越难的题目分值越多。逆向题一般是一个二进制程序，Flag 就藏在这个文件里，需要选手有高超的逆向技巧，找出 Flag。漏洞题一般也是给二进制程序，选手需要从程序中找出漏洞，并写出漏洞利用的攻击代码。虽然做漏洞题一般也需要逆向技巧，但对漏洞技术要求更高，用写出的漏洞利用代码实际攻击成功，才能取得 Flag。算法题是指算法分析题，给你一段某种算法处理过的数据，选手需要对付一个或多个算法。审计题给出的文件就多种多样了。可能是一张隐藏了信息的图片，看起来像风景照或者人像，但其中有线索指向某个 Flag 。也有可能给你一个网络数据包，包含大量网络通信数据，需要你分析。还有一些难以归类的题目，或者由几类题型组合的题，称为综合题。解题模式是比较常见的模式，不少 CTF 都选择这种模式，特别是在预赛阶段。2.攻防模式。这个模式更加热闹和刀光剑影。因为，它真的是队伍之间进行攻防。攻防模式一般可以分为三种：第一种，每一支队伍一同攻击同一个目标，考验攻击能力；第二种，所有参赛队伍进行防守，遭受攻击，考验防守能力；第三种，结合前两种，综合考验攻防能力。这种模式对技术、战术、策略要求更高。一般是回合制，一个回合五分钟。可以按照自己的策略选择优先攻击或防守，打谁不打谁，队伍自己决定，一个回合暂停一次。还有一种模式，这种模式在国内不常见，称为“King of The Hill”，我把它叫做“山大王”——大家同时攻击一个服务器，比谁占领服务器的时间长，保持自己的控制权，不被别人干掉。这其实和传统夺旗更像，守好自己抢夺的东西，也被人称作“懒人的 CTF”，因为占领方有很大优势，有时候可以打得比较悠闲。 CTF 现状近几年，国际、国内的CTF种类越来越多。举办CTF的组织方各有目的，有些有政府背景，比如，韩国的 Codegate CTF；有些是战队办的，比如，PPP 的 PlaidCTF，这种比较常见；有些是企业办的，比如腾讯的 TCTF ；有些是安全会议牵头办的，比如著名的 DEF CON CTF，实际具体操办的也是战队。DEFCON CTF是目前还在办的历史最悠久的CTF。最早一届DEFCON CTF 是 1996年办的。刚才提到的这些都是公开的CTF。还有一类是不公开的 CTF，不会公开征集报名，开展预赛之类。比如，有些国内、国外企业会举办面向内部员工的 CTF。另外，从公开信息可以了解到，美国国防部从 2014 年开始举办名为“CyberStakes”的 CTF 。美国国防部有一个网络安全人才的培养计划，目标是花3年时间在美国军队里培养 4000 名安全专家。而且标准很具体，要求会挖漏洞，会写Exploit。训练的一个环节就是CyberStakes”。而且他们邀请了 David Brumley 教授来授课。这位教授是 2016 年 CGC 最后 7 支入围队伍之一 ForAllSecure 的创始人。CGC 是 CTF 历史上的转折点，不再只是人和人打，而是和机器打。他们招募了一些队伍设计了一套系统，和人类战队打 CTF。就像阿法狗与人类下围棋一样。不过，CGC最后的战胜队还是人类队伍。虽然机器队伍没有横扫千军，但也不是最后一名，还是有两支人类队伍输给了机器。所以，在安全攻防领域，至少在 CTF 领域，目前人类虽然依然保持优势，但毕竟也有两支失败的队伍，所以，大家要努力。CTF这两年在国内的发展CTF最近两年在国内发展迅速，可以从我给的这两个截屏看出来。左边这幅是我在2015年在手机上的截屏，右边这幅是我在2017年的手机上的截图。大家可以看到，2015年，在谷歌翻译上输入“CTF contests”，翻译是“周大福竞赛”。但在2017年，谷歌翻译就已经认识 CTF了，我觉得这能说明一点问题。为什么CTF越来越多教育部高等学校信息安全专业教学指导委员会秘书长封化民曾说过：中国信息安全人才需求将以每年 1.5 万人的速度递增，到 2020 年相关人才需求将增长到 140 万。我还看到毕马威对英国大企业的调查显示：安全人才越来越供不应求，有 52% 的被调查者表示，甚至愿意雇佣有网络犯罪前科的人，因为人才供不应求。美国兰德公司发布的一份报告指出：美国高端信息安全人才存在短缺，尤其是在联邦政府内，这会对国家安全造成不利影响，建议联邦政府放宽雇用规则、投资信息安全教育。所以，可以看出，安全人才缺乏是一个国际性问题。而 CTF 是培养安全人才的重要手段。我觉得这是近年 CTF 热门的的最重要原因。学习CTF 的好处研究安全技术过程中训练出来的思维能力是很有用处的，即使以后不去做网络安全。我经常跟大家讲的一个案例是，1996 年成立的黑客技术团体“w00w00”的成员中至少包括：WhatsApp 的联合创始人Jan KoumNapster（世界最早的音乐共享平台）的联合创始人Shawn FanningArbor Networks 的联合创始人Dug SongNmap 的开发者Gordon Fyodor LyonCounterTack 的 CTO Michael A. DavisGoogle 元老David McKayYammer 安全主管Josha BronsonAccuvant Labs 的 Joshua J. DrakeVeracode 的 Andrew Reiter这个团体不是特别大，却出了这么多人才。有些人后来虽然没有从事网络安全的工作，但在自己的工作岗位上做得非常出色。如果，你不但对安全感兴趣，而且想未来从事安全工作，那么就要明白，CTF中的技术对安全工作来说一部分，不是全部。工作中遇到的有些问题可以用 CTF中涉及的知识解决。还有很多问题则需要用到 CTF 之外的技能。这是京华时报的一个报道截图：有人发现自己一卡通的金额突然变成了4000多万，有一点计算机基础知识的人，一看就知道是怎么回事：处理一卡通的机器在设计中存在问题，扣费没考虑余额，把钱扣成了负数。报道里提到余额被扣成了-1.8元，但当再次把卡插入机器，机器在读取余额时，按无符号数处理，就变出了4000多万。类似的事情用 CTF 里的知识就能解释。但安全工作中还需要很多其它技能。如果能在比赛之余，找机会接触一下安全行业，了解行业里有哪些角色，了解每种角色需要什么技能，了解自己适合哪种岗位，在将来进入行业时会有很大帮助。CTF 和现实安全技术工作的关系打 CTF 是非常好的安全技术能力训练方式，优秀 CTF 选手在从事安全技术工作时也会有很大优势。不过大多数现实中的安全技术工作其实没有 CTF 中的问题那么困难，但会复杂得多。另外，打 CTF 的目标是得分，处理现实安全问题的时候要考虑更多因素，比如，解决问题的同时还要保持业务运行。我所列出的信息安全技术方向只是粗粗列举，实际上不止这些。CTF直接涉及的只是其中一部分。当然，在 CTF 中训练的基本功可以帮助你比较顺畅地去学习那些没接触过的领域。另外，除了和 CTF 相关的技术能力，从职业的角度看，通用能力也很重要。比如，很基本的三点：能想清楚、能写清楚、能讲清楚，这体现了你逻辑是否严密、语句是否通顺、表达是否清晰。有些通用能力对专业能力提升也有帮助，比如分析能力、判断能力、规划能力、搜集能力、学习能力、提炼能力。无论以后你想从事什么工作，在学生时代加强这些能力的培养，对你整个人生都会有很大的帮助。二、谢天忆的发言记录第二部分，谢天忆讲解腾讯 CTF （TCTF）初赛题目及解答，由于涉及到很多术语和代码，雷锋网编辑整理了谢天忆的PPT，请读者配合视频直接“服用”。三、问答互动1.小白对 CTF 感兴趣，能否推荐学习路径？天忆：我回忆一下当年自己小白时，是怎么学习的。首先，CTF和信息安全相关，信息安全是和计算机科学相关的一门学科，所以先要学习计算机科学的基础知识，比如，学习编程、写算法、数据结构等。我在高中参加信息学竞赛时，考察的是学生的编码能力，对后来学习非常重要。其次，你要学习计算底层的原理知识，比如，计算机的组成结构、CPU的实现原理和汇编语言等，理解为什么一个程序可以跑出这样的一个结果。然后可以再学习更多的上层知识，比如其他高级语言等。在这些基础上，就可以开始学习一些安全相关的特定领域知识，比如逆向分析、漏洞挖掘与利用、Web安全或者密码学等。除此之外，掌握数学知识也很重要。2.有没有专门可以学习 CTF 的入门级网站？天忆：网上有许多的 wargame 或是 OJ 平台，但是风格和难度不一，题目质量也是有好有坏，在练习时要根据自我感觉和实际情况来调整。在Github上 (
有人专门搜集了历年 CTF 比赛的题目和解答，最近三四年的比赛都有。3. CTF 怎么训练更高效？天忆：要有自我训练的意识，这个影响是潜移默化的。比如，把打游戏的时间拿出 50% 来就可以多训练几道题目，或者在做同一道题目的时候不满足于现有的解法，去想想有没有其他更好的方法来解决，要举一反三尽量深挖一道题目。另外，多参加一些比赛也是有益的，特别是高水平的国际比赛，通常这些比赛的题目都会有很高的质量，可以在其中学到更多的东西。TK : 充分的时间、精力投入是必要的，可能没有太多取巧的办法，天忆可以介绍一下自己的经历供大家参考。天忆：我在读研究生时接触CTF，但在更早以前，是小时候我爸拿过来一个叫做“中华学习机”的东西，没有图形界面。但我一直保持好奇心，在初中时误打误撞学习编程，觉得非常有趣，而且可以解决复杂的数学问题，发现了计算机的无穷潜力。读书时，因为课业多，不会专门花时间，但会在业余时间在纸上写写代码，有机会摸到电脑时，就会赶紧敲进去。我本人也不是完全不打游戏，周末会抽时间打游戏，但在研究技术时会百分百投入，这一点非常重要，三、四个小时能抵得上十个小时。4，为了 CTF ，如何学习逆向和反汇编，有没有书籍推荐？TK : 这个话题很大，一两句讲不清楚。从我自己的经验看，逆向和反汇编属于门槛比较高的事情，你在门槛外看，会觉得很困难、很痛苦。就像你去学英语，先让你学的不是字母表，而是丢过来一本莎士比亚的著作，所以要有方法度过阵痛期，阵痛期过后，就比较容易了。所以，要先选几个小目标，虽然有些枯燥，但小目标在逆向和分析后，是能达成一些成果的。举个例子，我最早的逆向是逆向《仙剑奇侠传》的程序，为了能在游戏多得到一些钱，有这样一个目标，达成目标后有正向的反馈激励，就能坚持下去。一般讲逆向的书都很厚，我不太推荐一开始就去买书，书太厚会造成心理压力。先在网上找几个教程学习一下，学会一点之后再去买书就不怕了，可以跟着书系统地学习。5.请介绍一下 BadTunnel 漏洞的发现过程。TK : 这是属于设计类和系统多点耦合的问题，我这几年一直在关注这个方向。2015 年 4 月，我去深圳出差，飞机要飞四个小时，我没什么事情做，就在脑子里过了前一阵子看的一些网络协议，忽然有个灵感冒出来，觉得在这个地方可能有问题。不过当时工作比较多，耽搁了，没有验证。直到 6 月的时候，我才写了一个程序去验证，然后发现确实有问题。6.CTF 队伍的队员应该有哪些技能？天忆：CTF 题目一般有几个大类，而选手可以选择一个或多个方向进行发展，一个全能型选手往往可以有多个方向的技能，比如，二进制、密码学或者是 Web 安全等。但是，作为一个战队整体来说，保持队伍成员的技能多样化是很重要的，这样在碰到各种各样不同类型的题目时都能够有合适的人选来解决，而这样的队伍综合能力才是最强的。7.这次 TCTF 有什么特色？TK+天忆：这次TCTF 是DEFCON CTF的外卡赛。也就是说，TCTF 打好了，直接一个电梯升上去就到拉斯维加斯了。在比赛本身上，我们选用的比赛赛题形式是解题模式，而且题目质量很高。考虑到和 DEFCON CTF接轨，二进制的题目多一些。DEFCON CTF主要是二进制的题目，不过我们 TCTF 还是尽可能会保持一定多样性。8.CTF 比赛里有什么特殊套路和技巧？TK+天忆：攻防模式下有一种“搅屎棍”的做法，对吧？一些比较不会放在明面上的东西比较多，比如，种后门。我记得有次比赛的时候，有个团队知道别人会用Wireshark去分析他们的数据，结果他们发了一个漏洞数据在这个包里，别人一抓包就悲剧了。当然，即使用套路，还是要基于你的技术能力。一个比赛如果都是套路，意义不大。但是，如果通过题目，可以想出没有见过的套路，这就是意义。TCTF 解题模式不仅考察技术能力，还能考察别的能力。以前在 DEFCON CTF上，很多工作人员的精力也有很多要花在捣蛋的人身上。四、公开课视频
雷锋网原创文章，未经授权禁止转载。详情见。","state":"published","sourceUrl":"","pageCommentsCount":0,"canComment":false,"snapshotUrl":"","slug":,"publishedTime":"T17:11:58+08:00","url":"/p/","title":"白帽黑客教主 TK 告诉你，黑客的游戏 CTF 究竟是什么 | 硬创公开课总结文+视频","summary":"知乎里曾有一个热门回答“智商被碾压是一种怎样的体验”。由于经常面对异常机智的黑客，雷锋网编辑捂着胸口，表示小心心好痛。但是，如果是看着一群高智商黑客互相“碾压智商”，开展一场技术、策略与智商的较量，感觉还是挺爽的！CTF（Capture The Flag）…","reviewingCommentsCount":0,"meta":{"previous":null,"next":null},"commentPermission":"anyone","commentsCount":0,"likesCount":5}},"annotationDetail":null,"commentsCount":0,"likesCount":11,"FULLINFO":true}},"User":{"ycgkk":{"isFollowed":false,"name":"机智的大群主","headline":"","avatarUrl":"/v2-387e5271c5aed2dc4c40bc_s.jpg","isFollowing":false,"type":"people","slug":"ycgkk","bio":"雷锋公开课，用技术洞见未来，公众号【AI研习社】","hash":"ba9af5fdb6f04a6a177a674c75731c37","uid":681800,"isOrg":false,"description":"","profileUrl":"/people/ycgkk","avatar":{"id":"v2-387e5271c5aed2dc4c40bc","template":"/{id}_{size}.jpg"},"isOrgWhiteList":false,"badge":{"identity":null,"bestAnswerer":null}}},"Comment":{},"favlists":{}},"me":{},"global":{"experimentFeatures":{"ge3":"ge3_9","ge2":"ge2_1","nwebStickySidebar":"sticky","newMore":"new","liveReviewBuyBar":"live_review_buy_bar_2","liveStore":"ls_a2_b2_c1_f2","isOffice":"false","homeUi2":"default","answerRelatedReadings":"qa_recommend_with_ads_and_article","remixOneKeyPlayButton":"headerButton","qrcodeLogin":"qrcode","newBuyBar":"livenewbuy3","newMobileColumnAppheader":"new_header","zcmLighting":"zcm","favAct":"default","appStoreRateDialog":"close","mobileQaPageProxyHeifetz":"m_qa_page_nweb","iOSNewestVersion":"4.2.0","default":"None","wechatShareModal":"wechat_share_modal_show","qaStickySidebar":"sticky_sidebar","androidProfilePanel":"panel_b"}},"columns":{"next":{},"ycgkk":{"following":false,"canManage":false,"href":"/api/columns/ycgkk","name":"硬创公开课","creator":{"slug":"ycgkk"},"url":"/ycgkk","slug":"ycgkk","avatar":{"id":"da7a69f92dbad3290ce5","template":"/{id}_{size}.jpeg"}}},"columnPosts":{},"columnSettings":{"colomnAuthor":[],"uploadAvatarDetails":"","contributeRequests":[],"contributeRequestsTotalCount":0,"inviteAuthor":""},"postComments":{},"postReviewComments":{"comments":[],"newComments":[],"hasMore":true},"favlistsByUser":{},"favlistRelations":{},"promotions":{},"switches":{"couldAddVideo":false},"draft":{"titleImage":"","titleImageSize":{},"isTitleImageFullScreen":false,"canTitleImageFullScreen":false,"title":"","titleImageUploading":false,"error":"","content":"","draftLoading":false,"globalLoading":false,"pendingVideo":{"resource":null,"error":null}},"drafts":{"draftsList":[],"next":{}},"config":{"userNotBindPhoneTipString":{}},"recommendPosts":{"articleRecommendations":[],"columnRecommendations":[]},"env":{"edition":{},"isAppView":false,"appViewConfig":{"content_padding_top":128,"content_padding_bottom":56,"content_padding_left":16,"content_padding_right":16,"title_font_size":22,"body_font_size":16,"is_dark_theme":false,"can_auto_load_image":true,"app_info":"OS=iOS"},"isApp":false},"sys":{},"message":{"newCount":0},"pushNotification":{"newCount":0}}}

我就爱股票网