我在群里发广告跟另外一个发的广告相似度很想但那个人以为我是抄袭的怎么办？

点击联系发帖人 时间：2022-07-24 13:29

怎么群发广告而不让人反感

成也CTR，败也CTR，点击率怎么就成了算法工程师的梦魇？

今天和大家聊聊搜索、广告、推荐算法当中很重要的一个指标，也就是大名鼎鼎的点击率。

点击率这个指标相信很多同学都有所耳闻，它的含义也很简单，顾名思义就是点击的概率，英文叫做CTR。如果我们用公式来表达的话就是click / impression，这里的click也就是发生的总点击数，分母的impression也就是曝光的数量。两者的商就是点击率。这些大家都很好理解，但问题是为什么点击率它这么重要呢?这个问题能回答上来的就不多了。

为什么点击率是核心指标

搜索、广告和推荐在几乎所有互联网公司当中都是最重要的三个业务，也是三个流量大头。

大家回想一下自己使用某宝的体验就可以了，逛得最多的是不是就是搜索和首页的推荐?广告严格来说不算是一个场景，它和搜索以及推荐深度结合。无论是搜索区域还是推荐区域，都有广告的存在。并且广告也是当今互联网公司最主要的收入来源，没有之一。

对于这些场景来说，有一个非常严肃和关键的问题：就是我们如何量化展示的结果好坏呢?

我们作为使用者感受当然非常简单，我输入了一个搜索词，你返回的结果不相关那么自然就是坏结果。但问题是该怎么使用严谨的数学表达式来反应呢?也就是如何量化返回的效果呢?

像是搜索场景可能还好一点，比较在意相似度。但对于推荐、广告场景则不是很合适了，因为推荐场景并没有一个强信息的搜索词，所以也就没有什么相似不相似之说了。而即使是搜索场景，相似度也并不非常适合，因为相似并不代表优质。比如说我搜索手机，出来的结果都是山寨机或者是没听说过的杂牌子，单纯从相似度来说，这些结果都相似，但显然效果不能算好。

而以点击率作为核心指标是一种相对来说比较合适也比较高明的做法，点击率高，说明了用户点击的意愿高，某种程度上也就反应了展出的效果。

这也是为什么点击率会成为各大场景的核心指标的原因。

不仅如此，点击率的预测对于广告领域尤其重要，它是广告系统最核心的指标，没有之一。

当前电商领域的广告一般有三种模式，一种是基于曝光的，一种是基于点击的，最后一种是基于成交的。这三种模式在生活当中也很常见，我举几个例子，大家一看就明白了。

比如说我们看的电视广告、电线杆上贴的小广告或者是报纸广告，这些都属于第一种。因为我们没有太好的手段追踪广告的效果，像是电视广告，电视节目的冠名广告等等。因为我们看完就完了，也不像是电商广告一样还可以点击商品浏览详情。

曝光模式在电商场景当中也一样存在，比如某宝的首页推荐，以及双十一等活动的展品推荐都属于这类。商家支付一定的费用参与活动，一次性买断，平台不负责任何投放效果。

这类广告往往有一些共性，比如广告服务提供方比较强势，以及广告的展位非常出众，含金量很高，竞争很激烈。除此之外则是一些主打长期价值的广告，比如可口可乐、零食、汽车等商品。这些商品往往不会因为广告起到立竿见影的效果，而是通过对消费者施加长期的影响力来取得商业回报。

第二种模式是基于点击的广告，也是最常见的广告。它的特点是需要用户点击，也就是用户有打开广告的意愿。也是目前互联网行业最主流的广告，比如电商平台中的大部分广告，视频媒体中的广告以及搜索引擎中的广告都属于这一种。

这种广告的服务商都可以简单理解成流量贩子，靠着贩卖流量盈利。要想将手上的流量利益最大化，那么自然就要展出最有价值的广告。广告的价值有两个部分组成，一个部分是广告主给与的开价，这个是已知的。另外一个就是产生点击的期望，也就是点击率。所以最终某一个广告的收益期望为广告主的开价price乘上广告的点击率CTR。

但这里有一个小问题，广告的点击率是一个后验值，也就是说我们只有先展示了才能知道它的点击率，是无法提前获取的。为了解决这个问题，所以引入了机器学习，使用智能算法来预测点击率。我们假设模型预测的点击率是pCTR，再拿它乘上价格price，就得到了这个广告的收益期望。

这样广告的收益期望就成了一个具体的值，有了这个值我们就可以在展示的时候进行排序，将期望最大的广告展示在前面，期望小的广告展示在后，从而达到利益最大化的目的。

最后一种是基于成交的广告，这种广告一般规模不大，有些类似于各大导购网站。像是什么礼物说、什么值得买这类网站的模式都是这一种。这些网站通过将流量引导到商家进行成交，从中获得抽成，也是最传统的广告模式了。

在这三种模式当中，在互联网行业当中应用最广泛的是第二种，而这一种广告机制的核心就在于点击率的预测。点击率预测得越准确，那么排序之后得到的收益就越高，公司的盈利也就越好。既然事关盈利，那么它占据重要地位也就不足为奇了。

聊了这么多，相信大家对于点击率这个指标的用处以及重要性也有一定的认知了。但世上没有完美的事物，算法模型的指标也是一样，如果单单使用点击率作为模型的训练目标也会有许多问题。

我下面也举几个例子和大家盘点盘点。

一个是普通的标题配上普通的图片，一个是各种震惊、惊悚的标题党配上热辣的美女图片，哪一个点击率高相信不用我多说大家都能体会。

毕竟人类是视觉动物，看到美女图片，很少有直男能忍住不点，这些是我们的本能。但这样就带来了一个问题，点击率高的内容未必质量就好，反而恰恰相反往往质量很差。现在各大内容平台中标题党以及封面图党的内容大行其道就是这个原因，长此以往，必然会引发用户审美疲劳对平台丧失信心，也就必然会导致用户的流式。

关于这点有一个经典的例子，我在百度和搜狗当中搜索“透视”这两个字，出来的结果大相径庭。

不管是什么样的网站，如果只是一味地追求点击率，到最后往往平台上充斥的都是标题党、眼球党等各种不良内容。真正优质的核心用户往往早就流式干净了，那么离倒闭也就不远了。

第二个问题是跷跷板效应，也就是说点击率提升了，可能会导致其他的指标降低。

这个也很好理解，比如我在购物网站里搜索商品，搜出来的全都是美女封面，可能点击率会猛涨一波，因为吸引眼球嘛。但是搜出来的结果并不是我想要的，那么订单数以及成交额显然就会大幅度降低。

高点击率与高成交本身就是两个特质，算法加强了对于点击率的刻画，势必会牺牲一些其他的特质。像是一些视频网站可能更加明显，比如点击率虽然增加了，但是可能观看的时长减少了，用户每天花的时间也更少了。虽然用户打开了更多的视频，但是也丧失了更多的耐心，显然对于平台长久的发展也是有害的。

对于推荐场景也是如此，如果给用户推荐的东西点击率明显提升了，也许用户一下就找到了想要的东西，提前达成了购物的目标。那么用户闲逛的时间会减少，浏览的商品数也会减少，自然产生的成交也会减少，对于平台同样是不利的。

那么针对点击率的这些问题，我们有什么特别好的应对方法吗?

因为点击率太有用了，不用它是不可能的，整个算法体系都会乱套。而且它也的确很能反映问题，作为核心指标肯定是没问题的。

但是如果过度依赖点击率，的确又会产生上述说的这些问题。非常头疼，但业界的确也没有什么特别好的方法。更多地还是依赖工程师发挥主观能动性，基于人的理解来进行调整，而没有什么通用的策略。

目前比较主流的办法是让模型同时学习多个目标，不止在一棵树上吊死，想办法在提升点击率的同时也能优化一下其他的目标。也有的团队是先不管其他指标，先盯着点击率优化，等优化到头了，再反过来优化其他指标。

这些方法不能说没用，只能说有些头疼医头脚疼医脚，不能根治。其实这也是正常的，本身算法场景以及算法优化的目标就是一个非常复杂的问题。我们想要用简单的指标去定义、覆盖一个复杂的场景本身就是不现实的，而目前的模型也只能识别和学习简单的指标，一旦复杂了，也就超出范围了。

所以目前来看，这个问题还找不到根治的办法，还是只能靠人力来解决。而对于这些问题的思考和理解，也是一个高阶算法工程师的必备知识，远比模型的原理以及调参的方法重要得多。

好了，关于点击率就聊到这里，祝大家周末愉快。

本文转载自微信公众号「Coder梁」，可以通过以下二维码关注。转载本文请联系Coder梁公众号。

}

导读：营销活动作为游戏运营的一种重要手段，可以灵活快速的配合游戏各个运营节点的需要而推出，不受游戏版本节奏的影响。而面对数量众多的营销活动和不同的业务诉求，如何在海量日志中评价营销的效果是一个典型的多维分析问题，本次分享主要介绍腾讯游戏营销效果分析的一些概况以及ClickHouse的应用实践情况。通过实践表明，ClickHouse完美解决了查询瓶颈，20亿行以下的数据量级查询，90%可以在亚秒（1秒内）给到结果。

营销活动在游戏之外配合热点事件和用户深入交流，是拉回流、促活跃的重要手段。那么，大量营销活动如何快速进行效果分析，得到准确的营销效果？

我们先来看一个具体的营销行为路径：

游戏玩家被营销活动投放的广告吸引过来，到营销活动的页面浏览，浏览的同时，如果玩家对营销活动感兴趣，会进行下一步的活动参与，参与达到条件后，会根据营销活动的规则，获得道具或者是装备的发放、领取，之后游戏玩家进入游戏。

对于上述场景，用户的每个行为阶段都会产生不同的指标，运营方往往有很多的分析诉求：

运营A：我的活动刚刚发布了，能不能看下现在实时的曝光和参与情况？
运营B：我的活动投入了一个新出的稀有道具，能看到这个道具的发放情况并提出用户包吗？
运营C：我在某投放平台买了广告位，能分析下这个广告位带给我的效果情况吗？
运营D：这次活动主要目的是拉回流，能看看我到底给游戏拉了多少回流吗？
运营E：这次活动是精细化挖掘推荐，能看看特定大R人群的参与情况吗？

以上的诉求总结下来就是多指标、多维度、时效性、去重用户包。

技术难点：面对众多的营销活动，每个营销活动周期都不一样，维度众多，在这个基础上还会有多种指标，如何在海量日志下做多周期、多维度的去重分析？我们来看看我们的技术选型及演进。

技术演进是每个公司都有的过程，一开始数据量较小，直接在DB数据库中就可以满足分析需求；随着数据规模越来越大，要借助hdfs、hive/spark的一些框架；再往后，随着实时性的要求越来越高，需要实时计算框架，对维度做预计算；随着维度爆炸，预计算就不太适用了，分析路径比较死，增加一个维度得改模型，这时就需要为OLAP专门量身打造分析型数据库。

优点：直接从业务DB拉取数据，比较简单
缺点：支持数据规模小，和业务之间有耦合

基于DB分析的缺点，我们支持了大规模数据和业务做解耦，选用HDFS&HIVE/SPARK的方案。我们统一了营销服务日志模型，当接到上报日志后，上传给HDFS。这个方案支持的数据量比较大，缺点是计算的速度比较慢，适用于T-1的计算效果。

基于计算慢的问题，我们在日志流层面引入了实时计算框架，日志流经过Kafka，入到Storm，对预设的维度进行预计算，计算的结果存储到K-V数据库中，查询时去K-V库中查询。这里基于业务场景，想要快速的导出用户包，用文件数据库存储更方便，最大的缺点是新增维度要做一些处理，维度爆炸到一定程度，维护成本较高。

面对纬度爆炸问题，我们开始调研OLAP。

为什么选择有自身存储的OLAP?

HDFS数据是离线写入的
HDFS数据由严格的权限控制
需要快速拉取对应的用户包文件
大部分指标是基于单标运算出来

根据业务场景，对比上诉三个性能，最看重自有存储。因为在一张大宽表下，查询性能很重要。

ClickHouse是Yandex开源的一个用于实时数据分析的基于列存储的数据库，其处理数据的速度比传统方法快100-1000倍。

ClickHouse的性能超过了目前市场上可比的面向列的DBMS，每台服务器每秒可处理数亿至十亿行的数据。

读多于写：不同于事务处理（OLTP）的场景，数据分析（OLAP）场景通常是将数据批量导入后，进行任意维度的灵活探索、BI工具洞察、报表制作等。
大宽表：读大量行但是少量列，结果集较小。在OLAP场景中，通常存在一张或是几张多列的大宽表，列数高达数百甚至数千列。对数据分析处理时，选择其中的少数几列作为维度列、其他少数几列作为指标列，然后对全表或某一个较大范围内的数据做聚合计算。这个过程会扫描大量的行数据，但是只用到了其中的少数列。而聚合计算的结果集相比于动辄数十亿的原始数据，也明显小得多。
数据批量写入：OLTP类业务数据不更新或少更新，对于延时要求更高，要避免让客户等待造成业务损失；而OLAP类业务，由于数据量非常大，通常更加关注写入吞吐量。
无需事务，数据一致性要求低：OLAP类业务对于事务需求较少，通常是导入历史日志数据，或搭配一款事务型数据库并实时从事务型数据库中进行数据同步。
灵活多变，不适合预先建模：分析场景下，随着业务变化要及时调整分析维度、挖掘方法，以尽快发现数据价值、更新业务指标。

从自身的场景出发，我们关注到的ClickHouse优缺点：

对于业务场景中去重类的聚合查询，最终的查询结果落到一台机器上，对单机性能影响比较大。后面会具体讲到这些缺点的解决方案。

使用定位：高效的计算引擎
统一调度：缓存结果、限流、对一些很大的查询逻辑加速
预处理ETL：压缩日志、对日志清洗、对热点数据逻辑分片

① CK实践优化-集群限流

当接到SQL查询请求，我们做了一个SQL预判，将SQL放进执行队列里，队列里有优先级控制，前端触发的查询优先级最高，大部分请求对使用者来说感知不到异步，前端会做loading几秒钟，一般是可以接受，感知不到这个时间。

不是说SQL本身语法或者逻辑不正确，而是指一些很大的SQL，比如说查询的数据的时间段间隔很大，数据量较多，查询可能会对集群安全性造成影响，会做些预判。

我们会对查询SQL进行解析，然后和历史SQL进行对比，看一下之前的SQL是怎么样的，做一个相似度的判断，结合数据字典，判断扫描数据的规模。如果判断这条SQL查询的数据规模很大，会把一次查询分成很多次查询，将结果聚合起来得到最终结果。我们也会对一些较大的SQL做一些事后分析，对以后查询提供历史的SQL。

③ CK实践优化-数据预处理

CK本身有写入并发不高的缺点，而且在营销活动的场景中，热点的营销活动数据会有倾斜现象，如何避免热点数据倾斜问题，需要在写入的时候做一些预处理。

我们的业务场景有实时和离线的HDFS数据源，实时的数据源经过Kafka，写入到Storm中做一些预计算，去重工作；HDFS离线数据源，通过Spark做离线的预计算，在写入时通过配置Hash Key将数据写入到相应的分片中。

目前营销活动产生的数据量压缩前50+TB，效果指标100+，效果维度1000+，请求耗时85%以上都小于800ms，经过历史统计自定义去重比Hive提速500倍左右。

热点数据是数据组件通用的问题，对数据写入时进行预分片，保证数据分散到每个计算node上，对事先分片的数据进行分批查询，一个shard一个shard的查询。
对一些热点数据也可以采用单独部署的方式，避免受一些其他业务的影响。

对于存储性的组件，经过优化，正在逐步对zookeeper降低依赖程度：

自己保证数据一致性，不用走zookeeper，特别是临时性的需求
ck集群对zk使用是表级别的，表的数量扩张，znode数量也会急剧的扩张，所以要控制集群中表的数量
搭建zk集群时，使用性能较好的机器
搭建多zk集群，每一个zk集群指定不同的表，减少zk的压力

数据分析到最后一步聚合、去重，导出用户包最终会落到一台机器上，这对一台机器的压力就比较大，要提升硬件，增加内存，cpu使用限制的配置，不然有可能将集群崩溃或者某个节点挂掉。
根据业务逻辑进行拆分表，分shard根据不同的节点查询。

促进ck在更多地业务场景落地，更多业务的接入：比如用户的行为分析，实时数仓，实时报表，ck实时明细类报表的引入，能够使得用户更加实时，方便地进行报表分析。

更加完善的周边工具建设：比如说ck支持更多的数据源，可以从多个数据源导入到ck中或者从ck中一键导出到其他数据源；再比如说安全、运维的一些工具建设，能更好的支持运维。

容器化部署：容器化部署更高拥有更好的弹性伸缩能力，也能和其他的服务进行混合部署节省成本。此外，有写业务的导入数据量非常巨大。但是其实查询量并不大，就是因为读写不分离，这时导入的数据量反而决定了集群的规模。因此希望将读写进行分离，写入部分通过容器化技术临时构建集群来完成。

Q：在扩容时数据如何做Rebalance？

A：目前ck的最大痛点就是扩容/缩容后的数据无法自平衡，如果说数据是无状态的，和业务数据逻辑无关的，直接从shard级别复制就好。如果说是业务逻辑有关的热点数据，比如用户ID切成100个分片，10台机器扩容到20台，100个分片如何分布，目前基本上处于原始的一个阶段。有逻辑的数据，看一下之前的数据是怎样分布的，逻辑的Rebalance，用remote函数，如果数据量大的利用clickhouse-copier工具帮助运维。

Q：Clickhouse的结果是怎么保存起来的？

A：做缓存的有一定要求，如果数据集在一定规模以下，就可以直接缓存在redis中，如果说是取包的操作，这个是没办法缓存的，后台计算好load到一台机器上，去什么地方拉取就可以。

}

移动互联网的普及已经改变了我们生活的方方面面，最明显的表现就是我们现在已经几乎不带现金出门了，我们的生活几乎离不开手机，信息获取渠道也已经全面向手机转移。根据权威机构艾瑞咨询统计数据显示，2018年新媒体将全面超越传统媒体，这意味着营销传播的主战场已经彻底转移。

继万达宣传全面转向新媒体，恒大、保利、富力等巨头房企纷纷对新媒体重金投入，抢占新战场，新媒体营销的探索争先恐后。

一、地产新媒体营销的两大误解

虽然房企在新媒体领域非常积极，但是对新媒体的理解仍然停留在表层，典型表现为两个误解：借势营销和做公众号。

1、借势营销：不可持续的新媒体玩法

借势营销典型就是什么火就借什么势，早期地产营销多蹭事件热点，现在多蹭火热平台流量，尤其以抖音为代表的当下最火的短视频领域，朋友圈流传一篇热文《地产营销“抖音”使用手册》收集了大量的抖音地产营销案例。

当然，抖音现在如日中天，蹭流量是理所当然，就如曾经红极一时的直播，各大房企纷纷重金邀请网红直播，如今已经凉透了，不具有可持续性。

2、公众号：新媒体不等于自媒体

房企对新媒体的另一大误解就是做公众号或者让置业顾问发朋友圈微推，因为成本低而备受欢迎。

这种错把自媒体当新媒体的心理，结果是要么自嗨为主，要么是置业顾问朋友圈因频繁广告被客户屏蔽甚至被拉黑中断与客户的联系。

一般人哪会喜欢看楼盘的广告或活动信息，为数不多的阅读量也是来自员工转发朋友圈（有些还是被迫转发的），真正厉害的自媒体都是做内容为主的，地产营销人显然不擅长也没必要去做内容。

当然，这里并不是说不做借势营销创意和自媒体，而是不要把它们当唯一，真正懂地产营销的人，从来不靠一时的创意和运气，创意是锦上添花的东西，真正能成为地产营销人核心竞争力的是营销的套路（比如地产营销的常规打法）和背后的原理。

那么地产新媒体营销的套路和背后的原理又是什么呢？

二、地产营销媒体营销的两个底层逻辑

要知道怎么做（术）必须先搞清楚背后的原理（道），传统媒体向新媒体的转变的两个实质是：品效共振与精准营销。

1、品效共振：跨越从曝光到转化鸿沟

新媒体相比传统媒体，更容易实现品效共振，也就是在品牌传播的同时实现交易转化，比如电商给你推送广告时，你感兴趣很容易就实现直接购买了。

但是房地产是决策高度复杂的大宗交易，很难直接实现马上购买。所以房企需要先通过新媒体的品牌触达唤醒客户的品牌认知，占领客户心智，然后，当客户真的有购买需求的时候，会优先考虑已认知品牌，然后主动去搜索获取相关信息。

但是，从品牌触达到后面购房成交之间因为时间间隔，加上新媒体平台渠道多样，导致品牌触达和后面成交之间形成断流，影响新媒体投放效果和最终成交转化效率，所以明源云客专为楼盘打造了一个新媒体流量承接聚拢平台——官方旗舰店，让客户在搜索获取楼盘信息时可以直连置业顾问，实现品牌共振无缝对接，跨越从曝光到转化的鸿沟。

2、精准营销：从广播式到精准营销转变

传统媒体讲究的是曝光度，是广播式的传送即止，效果很难监控，因此传统媒体才有那句名言“我知道有一半广告费浪费了，但我不知道是哪一半”。

新媒体的转变就是要解决那浪费掉的一半广告费，一方面要实现精准营销，另一方面要实现效果可监控。

如何实现精准营销和效果监控？

大数据时代，通过客户行为数据可以对客户进行精准画像，实现客户精准定位，此外，如果要兼顾覆盖面的话，可以通过lookalike算法模型根据目标客户画像在海量客户中进行相似度放大，找到与目标客户相似的大量人群，实现精准度与覆盖面的兼顾。

精准客户看到广告，对广告的点击、查看、留电等行为全部都有数据记录，实现效果的全程监控，避免浪费的那一半广告费。

新媒体营销的关键是大数据，那么大数据在谁手里呢？

当然是流量巨头手里，所以新媒体营销也要从流量巨头的平台切入。

三、3大流量巨头：新媒体时代地产营销精准全覆盖

移动互联网时代人们获取信息的3大流量平台主要是：社交平台微信、搜索平台百度、知识付费平台喜马拉雅。

1、微信：如何占领朋友圈？

微信现在是中国互联网第一大流量平台，几乎覆盖了每一个中国手机用户。而朋友圈作为使用频度最高的微信功能和微信公众图文作为最主要的资讯来源，成为了营销的主战场。

占领朋友圈的方式主要是通过朋友圈广告，通过图文、视频等创意形式，实现与精准受众的互动。公众号图文底部广告，可以与目标受众内容偏好进行匹配投放，明源云客与微信大数据团队开展产品级合作，开发地产专属微信投放技术，在微信的海量数据和用户中，精准找到购房者，实现精准触达。

2、百度：AI赋能新媒体营销

百度作为老牌互联网三巨头之一，拥有着海量数据、用户量和丰富的产品线，而且近年来百度是国内在人工智能领域投入最多的互联网公司之一。明源云客联手百度用AI人工智能为新媒体营销赋能，寻找精准客户，并智能匹配旗下丰富产品线的开屏广告、聚屏广告和信息流广告，实现多渠道、多形式的新媒体覆盖。

3、喜马拉雅：知识付费时代的营销传播

近年来知识付费兴起，成为人们获取知识资讯的主要渠道，知识付费领域，有两大平台，得到和喜马拉雅。得到，相当于电商的B2C平台，如京东。喜马拉雅，相当于电商的C2C平台，如淘宝。喜马拉雅更开放、用户量更大，更适合新媒体营销，明源云客联手喜马拉雅基于大数据算法通过展示广告、音频贴片、音频内容等多种形式实现精准投放。

移动互联网时代，营销主战场全面向新媒体转移，巨头房企争先恐后向新媒体转型，但是，对新媒体也存在着误解，最明显的误解是以为新媒体就是借势营销和做公众号。新媒体不仅是换个地方打广告，而有其特殊的底层逻辑，它是基于大数据的品效共振和精准传播，所以要从微信、百度、喜马拉雅等拥有海量数据的流量平台入手，这才是地产新媒体营销的正确姿势。

点击【阅读原文】了解重磅AI新品：明源云客X智慧营销

}

我就爱股票网