乐天免税店代理面积大小叩 887+348呢？

点击联系发帖人 时间：2016-12-04 18:18

日本乐天

UE & 数据 & 商业产品的理解 & 机器学习算法
&br& 这是一位前辈对我们说的至理名言啊，首先要拿到足够多足够好的数据，在根据你的业务需求对数据进行处理，最后一步才到机器学习和挖掘。
&br& 很多人数据都未必能做好，机器学习是舍本求末的办法了。
UE & 数据 & 商业产品的理解 & 机器学习算法这是一位前辈对我们说的至理名言啊，首先要拿到足够多足够好的数据，在根据你的业务需求对数据进行处理，最后一步才到机器学习和挖掘。很多人数据都未必能做好，机器学习是舍本求末的办法了。
英伟达显卡分为三个系列，面向大众的 Geforce系列，面向工业图形设计的Quadro系列，面向科学计算的Tesla系列。&br&Geforce系列由于面向大众，要和AMD的显卡竞争，所以性价比最高，单从性能上看甚至不输Tesla系列，但可能耐久性等其他方面不及Tesla。&br&&br&用来计算的话，衡量性能主要是以下几个参数：&br&1、计算核心数目；&br&2、显存带宽；（GPU计算能力太强，很多时候瓶颈都在数据传输上）&br&3、峰值单精度浮点计算能力；&br&4、峰值双精度浮点计算能力；&br&5、时钟频率；&br&6、架构版本&br&&br&就目前来看，最适合做计算的GPU计算的是GeForce GTX TITAN 和 Tesla K20，详情如下&br&&br&
GTX TITAN &br&1、核心数目
2688&br&2、显存带宽
288.4 G/s&br&3、单精度浮点计算
4.5 TFlops &br&4、双精度浮点计算
1.3 TFlops
&br&5、时钟频率
837-876MHz&br&6、价格
8000人民币&br&7、架构版本
两个都是最新的第三代开普勒GK110架构版本号3.5&br&&br&Tesla K20&br&1、核心数目 2496&br&2、显存带宽
208 GB/s&br&3、单精度浮点计算 3.52 Tflops
&br&4、双精度浮点计算
1.17 Tflops&br&5、时钟频率
705 MHz&br&6、价格
3000美元&br&7、架构版本
3.5&br&&br&一般面向游戏的Geforce显卡性能弱在双精度浮点计算能力和带宽上，比如GTX680，但今年新出的Titan这两个特性都大幅提高了，显然是为了更多地面向计算市场。&br&&br&吐槽一下知乎的排版系统,本来我是表格式排列两个显卡参数的，但不管用多少空格还是Tab,最后都挤在一起，实在没办法只能像这样分开写了。。
英伟达显卡分为三个系列，面向大众的 Geforce系列，面向工业图形设计的Quadro系列，面向科学计算的Tesla系列。 Geforce系列由于面向大众，要和AMD的显卡竞争，所以性价比最高，单从性能上看甚至不输Tesla系列，但可能耐久性等其他方面不及Tesla。用来计算…
从应用角度来看,NLP是一个重要阵地，Nlp目前还没有像别的领域那样被dl席卷。成效明显的有MT和language model。Speech也很明显但那更偏向信号处理而非语言分析。&br&&br&DL的representation很吸引人，但是在constituent parsing上，Dan Klein撰文分析认为很难从word embedding得到好处。目前我听到的一些讨论认为这是由于人类对语言现象的解释比较好（向对于图像跟声波），也在此理解上搭了很丰富的理论框架，neural net这种自动学的feature未必占优。&br&&br&学者对此态度也明显份分阵地，比如Noah Smith经常调侃之，比如称之为derp learning。Chris manning 则大力支持，Michael Jordan 认为现在的成果不显著但此方向值得做。Ed Hovy则认为5年内Deep Learning 将全盘取胜，现在必须做。&br&&br&我比较倾向于Manning跟Hovy，他们对领域了解很透彻，下的判断是根据长年在领域里面浸淫的经验。两位都是功力深厚的linguistic兼cs专家，“见得多了”，“早已看穿了一切”。Noah则非常执着于神经网络的可解释性，认为其无法理解，但是某种程度的解释在未来应该是有可能的。所以要跳坑请尽早。
从应用角度来看,NLP是一个重要阵地，Nlp目前还没有像别的领域那样被dl席卷。成效明显的有MT和language model。Speech也很明显但那更偏向信号处理而非语言分析。 DL的representation很吸引人，但是在constituent parsing上，Dan Klein撰文分析认为很难从word…
正好在现场，拍了点内容，贴上来。&br&&br&1,大数据的三个维度：&br&&br&大数据从4个V的年代，Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）延伸至三个维度，可实时性、可解释性、数据准确/稳定性。这三个维度是现在到底数据能不能用上的很重要的三个维度。&br&&br&&img src=&/24d19a6a60_b.jpg& data-rawwidth=&3264& data-rawheight=&2448& class=&origin_image zh-lightbox-thumb& width=&3264& data-original=&/24d19a6a60_r.jpg&&&br&2，大数据的十诫&br&&br&&img src=&/ba15b1e2683_b.jpg& data-rawwidth=&3264& data-rawheight=&2448& class=&origin_image zh-lightbox-thumb& width=&3264& data-original=&/ba15b1e2683_r.jpg&&&br&3，大数据已经进入DT时代了，就是数据工程化的时代。第一，要学会运营数据。第二，数据开放出来。数据开放出来之后，就可以手机更多的数据，这样对于数据的准确性就有帮助。&br&&br&&img src=&/f2e1abd6fc77_b.jpg& data-rawwidth=&6732& data-rawheight=&1594& class=&origin_image zh-lightbox-thumb& width=&6732& data-original=&/f2e1abd6fc77_r.jpg&&&br&&b&补充下一张图，了解大数据的同学一定看下，这个是acxiom的大数据负责人分享的，国内大数据专家、阿里巴巴数据委员会会长车品觉隆重推荐这张图，说在美国，这个大拿都没有给他看啊！同学们，值得研究！！！！！&/b&&br&&br&&img src=&/55c4c4ebfc4fb222d4d1aa7_b.jpg& data-rawwidth=&3264& data-rawheight=&2448& class=&origin_image zh-lightbox-thumb& width=&3264& data-original=&/55c4c4ebfc4fb222d4d1aa7_r.jpg&&
正好在现场，拍了点内容，贴上来。 1,大数据的三个维度：大数据从4个V的年代，Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）延伸至三个维度，可实时性、可解释性、数据准确/稳定性。这三个维度是现在到底数据能不能用上的很重要的三…
你自己不都说了吗，一个是随机bagging，一个是boosting。bagging就是大家都是学渣，每道题都由随机选出的一群学渣投票决定，这样需要的学渣比较多，而且每个学渣还都得很努力学习。boosting也是一群学渣，但每个人虽然总分菜，却是因为偏科导致的，每个学渣都贡献自己最擅长的那个题目。这样boosting需要的每个学渣都豪不费力，但是整体上更强了。xgb的学渣还通过预习，让自己偏科的科目学得更省力。所以整体上xgb看起来是非常省力的一群学渣组成，但是拿到的分数却很高。
你自己不都说了吗，一个是随机bagging，一个是boosting。bagging就是大家都是学渣，每道题都由随机选出的一群学渣投票决定，这样需要的学渣比较多，而且每个学渣还都得很努力学习。boosting也是一群学渣，但每个人虽然总分菜，却是因为偏科导致的，每个学渣…
&img data-rawheight=&437& data-rawwidth=&488& src=&/cc6ffeb9a5e44_b.jpeg& class=&origin_image zh-lightbox-thumb& width=&488& data-original=&/cc6ffeb9a5e44_r.jpeg&&
吃小龙虾没有多余的手玩手机。
吃小龙虾没有多余的手玩手机。
&i&自问自答，抛砖引玉一个，顺便算是做个笔记。&/i&&br&&br&0. 总体感觉请的嘉宾非常不错，都是业内知名公司或者热门starup，注册费也是便宜得要死。介绍的很多东西略为宽泛，没有很深入的探讨技术，不过我倒是觉得挺好的，很适合我这样的技术小白。&br&可能一方面这个论坛的初衷是面向学生的（根据其网站上的介绍），另一方面，数据科学（Data Science）涵盖的方面本来就比较广，如果某个题目探讨的过于深入的话，感兴趣的人自然也就少了。&br&&br&先来张嘉宾图镇楼：&br&&img src=&/856b02e7ecc1c16afa89a_b.png& data-rawwidth=&1201& data-rawheight=&870& class=&origin_image zh-lightbox-thumb& width=&1201& data-original=&/856b02e7ecc1c16afa89a_r.png&&&br&&br&&b&1. Yelp&/b&&br&&b&Travis Brooks, Head of Data Science at Yelp&/b&&br&之所以把Yelp放第一是因为印象最深。因为12点的多的时候轮到Yelp的Head of Data Science开讲，题目是关于Yelp如果评价餐饮的，然后整个过程充满了各种食物的照片，底下坐着800个肚子咕咕叫的观众，真是有点残忍。&br&&br&主要讲的是他们如果排名top 100的餐馆的，其中2015年榜单之首是一家叫Copper Top BBQ，看图片好像一般，我深切怀疑可能因为远处就是山，爬山完饿了来吃一个，Review尤其的好。&br&&br&&img src=&/cb31c09195def6a61c0f8f71e95e7aa7_b.png& data-rawwidth=&623& data-rawheight=&345& class=&origin_image zh-lightbox-thumb& width=&623& data-original=&/cb31c09195def6a61c0f8f71e95e7aa7_r.png&&&br&&br&Slides在这里：&br&&a href=&///?target=http%3A//www.slideshare.net/ExtractConf/what-are-the-100-best-restaurants-on-yelp-a-difficult-answer-to-a-simple-question%3Fqid%3Daa89a33f-05e6-4b59-ae3a-5ff68fda1df2%26v%3D%26b%3D%26from_search%3D1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/ExtractC&/span&&span class=&invisible&&onf/what-are-the-100-best-restaurants-on-yelp-a-difficult-answer-to-a-simple-question?qid=aa89a33f-05e6-4b59-ae3a-5ff68fda1df2&v=&b=&from_search=1&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&2. Uber&/b&&br&&b&Silvanus Lee，Head of Product Data Science and Analytics&/b&&br&很年轻，上去的时候旁边的ld吐槽说还以为是个志愿者呢。Silvanus10年从Stanford本科毕业之后在高盛干了两年，然后到Dropbox当Data Science部门的头，2014年被财富评为Big Data All-stars，然后14年10月就去了Uber。讲了很多Uber是怎么把Analytics应用到各个方面的具体案例，比如通过数据分析发现surge price（高峰期提价）可以有效调节供需关系，各种A/B test，holdout等等。&br&&br&其中有一个A/B test是更新司机端的App界面，发现短期效果非常不好，甚至到一个月之后对照组的表现都还优于测试组，但是长期来看（印象中大概是50天的样子）在司机终于适应了新的App之后一，测试组终于超过了对照组的表现。当时很想问一下考虑到Tech公司尤其是初创公司通常都需要快速迭代，不知道他们当时有没有什么阻力。当然也有可能只是一个很小的测试组，短期测试发现效果不好但是也就放在那了，后来回过头发现居然长期来看效果不错。&br&&br&吐槽时间：Uber上台之前的Instacart提到自己是4-side business，然后中间转换的时候主持人说接下来的Uber（和Instacart一样）也是2-side business。然后Silvanus就被带到沟里了，说刚刚Instacart讲了很多2-side business的东西。不过立马反应过来，Instacart是4-side，Uber才是2-side。&br&&br&并没有找到slides，但是youtube上有一个课程视频，讨论的东西很类似。。。&br&&a href=&///?target=https%3A///watch%3Fv%3DxUaXWaOFHHA& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=xUaXWaOFHHA&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&3. Kaggle&/b&&br&&b&CEO Anthony Goldbloom&/b&&br&主要讲了赢取Kaggle比赛的一些经验，比如Feature engineering，不停的更新模型，不要过度拟合等等。&br&其中有一张slide放出了Kaggle分数排名第一的Owen Zhang大神，在下面的第12张里。&br&&a href=&///?target=http%3A//www.slideshare.net/odsc/kaggle-Fqid%3D764605cb-f5b7-45dc-856b-eab%26v%3D%26b%3D%26from_search%3D2& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/odsc/kag&/span&&span class=&invisible&&gle-?qid=764605cb-f5b7-45dc-856b-eab&v=&b=&from_search=2&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&4. Databricks&/b&&br&&b&Founder and CEO Ion Stoica&/b&&br&主要讲了Spark相关的一些东西，对技术小白的我来说，基本是不懂的啦。中间Ion现场展示coding，两次完全一样的typo(漏写r)是个槽点。&br&没有找到相关度比较高的slides，但是slideshare上搜databricks有很多内容。&br&&br&&b&5. Silicon Valley AI Lab at Baidu&/b&&br&&b&Adam Coates, Director&/b&&br&开头展示的无人机视频是个亮点，主要讲的是如果语音识别的。尤其是在天朝，由于很大一部分是移动用户，所以语音识别会尤其重要。传统的supervised learning在数据量不大的时候有优势，而一旦数据超过一个程度之后，加上电脑运算能力的大幅提升，unsupervised就显出优势来了。&br&&br&这个slides里讲了一部分&br&&a href=&///?target=http%3A//www.slideshare.net/butest/scalable-learning-in-computer-vision-Fqid%3D2ba22705-cd91-a-b28e6ee15e8f%26v%3D%26b%3D%26from_search%3D3& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/butest/s&/span&&span class=&invisible&&calable-learning-in-computer-vision-3859612?qid=2ba22705-cd91-a-b28e6ee15e8f&v=&b=&from_search=3&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&然后这个视频里讲得更深入一点（别问我，我听不懂他在讲什么，&b&但是1:26开始是那个很酷的编程飞直升机做解锁各种姿势的视频&/b&）：&br&&a href=&///?target=https%3A///watch%3Fv%3DwZfVBwOO0-k& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=wZfVBwOO0-k&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&另外听说百度在湾区的分部的饭吃得不错啊，有时候还有夫妻肺片什么的。&br&&br&&b&6. Coursera&/b&&br&&b&Director of Analytics, Chuong Do&/b&&br&讲了很多如何从学校转型到工业界的一些想法和经验，以及在Coursera是如何做A/B test之类的。比如他们发现有些教学视频在经过某个时间点后看的人数突然大幅下降，原因是在那个时间点有个小测试，所以很多人都走了。于是进一点分析发现大概10分钟左右出现一个测试效果是比较好的。&br&另外还有一个A/B test是看到底是有固定时间的课程好呢，还是学生可以完全按照自己的步调来比较好，结果发现还是有固定的时间比较好，因为学生这个群体，没有deadline是行不通的。。。&br&总体感觉还是挺适合学生的。&br&&br&&b&7. Netflix&/b&&br&&b&VP of Data Engineering and Analytics, Paul Ellwood&/b&&br&主要讲的是偏Operation中Analytics的用处的，比如Anomaly detection，各种dashboard monitoring等等，没有讲他们的推荐系统。&br&&br&插一个小故事，有一回Netflix的监测系统发现巴西一个Credit Union的付款系统有异常，于是他们打电话过去确认一下情况，Credit Union信誓旦旦的说系统没问题。第二天问题仍然存在，接着打电话，对方还是说没问题，直到第三天打过去，对方终于发现的确是出问题了。&br&看来以后Netflix可以给银行提供第三方监测服务了。&br&&br&这里有个slides包含了一部分内容：&br&&a href=&///?target=http%3A//www.slideshare.net/ExtractConf/anomaly-detection-for-global-scale-at-netflix%3Fqid%3D576fee25-726c--86%26v%3D%26b%3D%26from_search%3D1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/ExtractC&/span&&span class=&invisible&&onf/anomaly-detection-for-global-scale-at-netflix?qid=576fee25-726c--86&v=&b=&from_search=1&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&这里面有一些类似的：&br&&a href=&///?target=http%3A//www.slideshare.net/CodyRioux/real-time-analytics-netflix-Fqid%3Dcee8efad-c82c-ba5ea5d198e%26v%3D%26b%3D%26from_search%3D2& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&slideshare.net/CodyRiou&/span&&span class=&invisible&&x/real-time-analytics-netflix-?qid=cee8efad-c82c-ba5ea5d198e&v=&b=&from_search=2&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&8. Instacart&/b&&br&&b&VP of Data Science, Jeremy Stanley&/b&&br&讲了Instacart如果处理复杂的4-side business的，包含商家、用户、商品和投递安排，而不像有些服务是2-side，只有司机和乘客（也就是Uber了，于是就有了2里面的槽点）。&br&&br&后来ld查了一下我们所在的邮编没有Instacart，一定因为这里收入太低了！&br&&br&没找到相应的slides，但是这里有个访谈可以参考：&br&&a href=&///?target=https%3A///watch%3Fv%3D-iaI88jIq8w& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=-iaI88jIq8w&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&b&9. 讨论时间&/b&&br&由几个大公司的嘉宾来Q&A他们是如何应用数据科学的，这期间是本地一个Data Science群吐槽高峰期。&br&“为什么他这么能讲”&br&“为什么他还在讲”&br&“大公司高层开会锻炼出来的”&br&“他还要讲。。。”&br&“blabla”&br&&br&后来我跑出去透气去了，顺便问了一下组织者会有slides上传吗？告诉我说有的，还会发布视频。&br&然后活动结束之后我发信问链接，又跟我说不会有。&br&看来可能是他们内部会有个视频什么的，哼哼。。&br&&br&中间有个问题是如何看待Data Science领域的性别比例问题，比如说很久以前CS的男女性别比例还是很不错的，但是随着时间的发展情况越来越糟糕。眼下Data Science领域还比较平衡，然后受邀的12个嘉宾里却只有一个女性，这是为什么呢？为什么呢？为什么呢？&br&主持人赶紧出来解释说邀请的时候还是很平衡的，然后恰好很多人有事不能来成，以后会更注意之类。（可以算下significance吗？）&br&&br&&b&10. Pinterest&/b&&br&传说中的萌神Jure Leskovec并没有出现，放个照片感受一下吧。&br&&br&&img src=&/1c1a776abda51e05ce9a_b.png& data-rawwidth=&198& data-rawheight=&247& class=&content_image& width=&198&&&br&&br&顶替的嘉宾是一个做语音识别的，穿插了几个少儿不宜的梗。。。&br&&br&&br&&b&另外活动结束之后本地Data Science群组织的吃饭吃得不错，还见到好几个校友（也有可能是我待过的学校太多的缘故吧/自黑时间）。&/b&&br&&br&&b&另另外感谢Berkeley的学生们组织的这个活动，还是很成功的。&/b&
自问自答，抛砖引玉一个，顺便算是做个笔记。 0. 总体感觉请的嘉宾非常不错，都是业内知名公司或者热门starup，注册费也是便宜得要死。介绍的很多东西略为宽泛，没有很深入的探讨技术，不过我倒是觉得挺好的，很适合我这样的技术小白。可能一方面这个论坛…
关于这个问题有好几个相似的：如何成为一个数据极客/数据产品经理/数据科学家。曾经回答过一个关于数据产品经理的（&a href=&/question//answer/& class=&internal&&数据产品经理是做什么的？ - 何明科的回答&/a&），其实个人觉得数据极客、数据科学家、数据工程师及数据产品经理这几个职位或者称号，在许多智能上是有很多重叠的。只是可能，极客更多使用非常规的手段来获取或者分析数据；科学家在算法及理论方面有更多造诣；工程师更偏重于实现；产品经理更偏重于产品运营、优化及设计。&br&&br&个人粗暴得将觉得数据极客的职能分为几大模块：数据沉淀、解释、验证、探索及传播。要想成为数据极客就需要在这些方面，或多或少有所建树以及拿出有创意的解决方案。&br&&br&&b&一、沉淀（或数据获取）&/b&&br&好数据加平庸的分析也往往会做出优质的产出，如同“食材新鲜就不需好厨师”；而烂数据加顶尖的分析也常常garbage in and garbage out，如同“巧妇难为无米之炊”。可见，获取好的数据源并清洗干净，是多么重要。&br&&br&作为数据极客，当然不能面对老板或者用户的数据需求，摊手耸肩说，“对不起，没有数据源”。作为数据极客要找到有创意的数据源及数据沉淀办法，最后解决问题。正所谓“有数据也要做，没有数据创造数据也要做”。&br&&br&常规的用爬虫获取数据的方式（&a href=&/question//answer/& class=&internal&&你是通过什么渠道获取一般人不知道的知识和信息的？ - 何明科的回答&/a&）已经很平庸了，下面提一些更有创意的。&br&&br&&b&案例1：&/b&&br&为了对这几年中国私募案例（VC+PE投资）中的投资条款进行研究（详见&a href=&/question//answer/& class=&internal&&有哪些「神奇」的数据获取方式？ - 何明科的回答&/a&），帮助创业者对投资条款有更定量的了解。从各种渠道收集了大几百份Termsheet及SPA（真是求爷爷告奶奶），在脱敏之后，然后将其里面的核心条款结构化整理成可分析的数据。关于如何艰难地求人拿到Termsheet及SPA就不再这里赘述了，因为那种场景很难具象化。只是把一份SPA的缩图放在下面，大家就可以了解将其里面的核心条款结构化是怎么一件难事。到目前为止，NLP在这方面的帮助仍然有限。&br&&img src=&/3dcb7d4d98cbe5e2b2c261e9_b.png& data-rawwidth=&600& data-rawheight=&203& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/3dcb7d4d98cbe5e2b2c261e9_r.png&&&br&最终形成的是这个饱受创业者喜欢的投融资系列：&a href=&/hemingke/& class=&internal&&&span class=&invisible&&http://&/span&&span class=&visible&&/hemi&/span&&span class=&invisible&&ngke/&/span&&span class=&ellipsis&&&/span&&/a&。能够将员工期权与公司估值之间的大致关系搞清楚而画出如下美丽的回归线条，一切努力也是值得的。&br&&img src=&/be0_b.png& data-rawwidth=&512& data-rawheight=&317& class=&origin_image zh-lightbox-thumb& width=&512& data-original=&/be0_r.png&&&br&&b&案例2：&/b&&br&为了获得某一类人群的画像及了解他们的消费习惯，不能因为我们没有超级App就说不。我们只好走上了通过提供WiFi服务收集用户数据的不归路（详见&a href=&/question//answer/& class=&internal&&免费 Wi-Fi 的商业模式是什么？ - 何明科的回答&/a&）。&br&&br&下图是所谓的“数据极客”深入到咖啡厅及蓝领工人宿舍中安装Wi-Fi，以期望采集数据。&br&&img src=&/0fe2b7c8bdce_b.png& data-rawwidth=&600& data-rawheight=&225& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/0fe2b7c8bdce_r.png&&&img src=&/60f8fbeef55687ebff154_b.png& data-rawwidth=&600& data-rawheight=&399& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/60f8fbeef55687ebff154_r.png&&&br&除了OpenWRT和普通的客户端开发，连Arduino开发都用上了，以降低采集数据的成本。&br&&img src=&/0bbfca5ec39b667d85bcc1_b.png& data-rawwidth=&600& data-rawheight=&400& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/0bbfca5ec39b667d85bcc1_r.png&&&br&&br&&b&案例3：&/b&&br&（以下案例为道听途说，不能完全保证其准确性）&br&MIT某实验室将声音采集设备放到交易所大厅，通过采集交易员的吼叫声然后做情绪分析，判断当前交易所众交易员的情绪，然后预测股市未来一段时间的走势。&br&有海外对冲基金动用卫星拍摄照片，根据建筑物的阴影长度，来跟踪某国各地的建筑情况，以此作为该国宏观经济的运行情况。&br&&br&&b&二、解释&/b&&br&产品每天都要面对的问题会有：流量怎么暴涨（或暴跌）了？新上的渠道效果怎么样？用户的ARPU或者人均PV怎么上升（降低）了？&br&&br&数据极客，需要基于数据解释产品或功能的某项核心指标（包括收入、DAU、ROI等等）的走势及背后的原因，往往需要细化到多个维度（比如：时间、区域、渠道等）。基于这些解释，做事后总结或者提前预警，试图保证产品及功能在正确的轨道上发展。&br&&br&下图是某服务的实时PV数据，并有今日数据与昨日数据的对比。数据极客应该学会经常阅读和理解数据并培养对数据的直觉，当数据出现异常的时候，能迅速往下深追找到真正的理由。极客的抬头当然不能白顶，较之一般的数据人员，数据极客应该具有更加敏锐的数据经验和直觉，快速定位问题，并用最快的方式验证自己的假设并给出合理的解释。&br&&img src=&/81730b4dff6b1eec38376d_b.png& data-rawwidth=&674& data-rawheight=&260& class=&origin_image zh-lightbox-thumb& width=&674& data-original=&/81730b4dff6b1eec38376d_r.png&&&br&&br&&b&三、验证&/b&&br&产品，特别是互联网产品，按照天或者周的速度在更新和迭代，各种功能及改进都在高频率得上上下下。&br&&br&对新推出的功能或者改进，验证其效果或者影响，使用的方式包括：简单的时间维度或者地理纬度或者渠道纬度的对比，复杂一些的做AB Testing。Facebook在AB Testing方面积累深厚；对于各种UI方案甚至小到文案及颜色，都需要进行AB Testing来选出最优方案。Facebook曾经利用这个系统在某个WiFi段定点发布新功能，来戏弄某杂志，诱骗其发布Facebook有产品的错误消息。（话说开发和运用这套AB Testing的人才是真正的数据极客，）&br&&br&数据极客，需要在验证的过程中屏蔽各种噪音来排除对真相的干扰。同时，在数据不充分或者无法实现AB Testing的情况下，找到噪音最小的方式来逼近真相。近年来推出了不少专业做AB Testing的工具，包括比较红火的Optimizely。不过它是一个付费服务，具体收费标准见下图。&br&&img src=&/db4b0ab6cfed_b.png& data-rawwidth=&600& data-rawheight=&162& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/db4b0ab6cfed_r.png&&&br&面对如此的付费服务，数据极客是不是考虑给自己的团队开发一个免费而更加灵活的系统呢？&br&&br&&b&四、探索&/b&&br&产品经理每天都在琢磨用户需求、刚需、痛点、实现……&br&&br&通过研究内外部的数据（比如：用户的使用行为数据及搜索词等，百度指数及贴吧发言等等），数据极客探索规律和探索用户的需求，通过数据的方式进行初步验证；或者满足一定的功能，通过数据挖掘的方式满足功能需求。&br&&br&之前提到的案例（&a href=&/question//answer/& class=&internal&&机器学习数据挖掘类工程师平时主要的工作内容是怎样的？ - 何明科的回答&/a&）就属于探索一类，虽然整个过程起步不低（Hive + MySQL + Python + R的基础框架），而且过程中不断遇到阻碍，但是数据极客不会被打倒，需要不断提供新的解决方案来还原真相找到答案，如同柯南所说“真相只有一个”。&br&&img src=&/8e8ff33ee089deaf1b6fcd_b.png& data-rawwidth=&480& data-rawheight=&264& class=&origin_image zh-lightbox-thumb& width=&480& data-original=&/8e8ff33ee089deaf1b6fcd_r.png&&&br&&br&下图是深圳市早晨高峰时段某类人群出行的热点图，通过热点分析，试图找出这类人群的居住和上班的聚集区，为某个O2O服务提供最佳的线下布点机会。&br&&img src=&/6d3f15b2c07f6d1bf619d_b.png& data-rawwidth=&800& data-rawheight=&332& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/6d3f15b2c07f6d1bf619d_r.png&&&br&在算法上，Deep Learning/CV/Machine Learning等等，数据极客不敢说要一一精通，但是最好还是能略小一二到熟练使用各种框架的程度，才能轻松完整上面的各种任务。&br&&br&&b&五、传播&/b&&br&数据极客如同增长黑客（Growth Hacker），在用户增长方面也要有所创新和作为。&br&&br&当下最易传播并适合于数据黑客的媒体类型无疑是图文并茂并结合数字的文章（被称之为Infographics）。Infographics凭借其直观易读和理性化的数据呈现方式，越来越受读者的喜欢，并逐渐成为内容制作者青睐的方式。这里有不少精彩的案例（&a href=&///?target=http%3A//wentu.io/showcase& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文图&i class=&icon-external&&&/i&&/a&），这些案例都非常方便在手机端或者微信里面传播。&br&&br&基于内部丰富的数据并结合外部的数据，制作有见地有传播性的图文文章，并便于在朋友圈及知乎等地传播，为自己产品赢得口碑和品牌增值。&br&&br&&a href=&///?target=http%3A//wentu.io/showcase& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文图&i class=&icon-external&&&/i&&/a&是制作Infographics的一个简单工具，下图是它的交互界面。&br&&img src=&/3aa7cfd0dcf6999cb2dda_b.png& data-rawwidth=&597& data-rawheight=&363& class=&origin_image zh-lightbox-thumb& width=&597& data-original=&/3aa7cfd0dcf6999cb2dda_r.png&&&br&&br&&br&&b&六、数据极客的修炼捷径&/b&&br&在数据方面的修炼，可以分为如下的技术细节（摘抄自&a href=&/question//answer/& class=&internal&&中国目前数据分析数据挖掘市场情形是怎样的，机会多吗？前景如何？ - 何明科的回答&/a&）。&br&&img src=&/77755c48fdbd693c727b3bf5_b.png& data-rawwidth=&600& data-rawheight=&183& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/77755c48fdbd693c727b3bf5_r.png&&&br&如今随着大数据的发展，越来越多的工具在涌现，而不用自己从零开发一套。比如：各种说烂了的Hive/Hadoop/MongoDB，日志处理的Splunk，日志分析的ELK三件套 (=elasticsearch+logstash+kibana)，可视化的Tableau及我们研发的&a href=&///?target=http%3A//wentu.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文图&i class=&icon-external&&&/i&&/a&。（精彩报告在：&a href=&///?target=http%3A//wentu.io/showcase& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&文图&i class=&icon-external&&&/i&&/a&案例）所以熟练掌握各种工具，能在成为数据极客的路上一路飞奔。&br&&br&&br&—————————————————————————————————————&br&更多文章及分享请关注我的专栏，数据冰山：&a href=&/hemingke& class=&internal&&&span class=&invisible&&http://&/span&&span class=&visible&&/hemi&/span&&span class=&invisible&&ngke&/span&&span class=&ellipsis&&&/span&&/a&
关于这个问题有好几个相似的：如何成为一个数据极客/数据产品经理/数据科学家。曾经回答过一个关于数据产品经理的（），其实个人觉得数据极客、数据科学家、数据工程师及数据产品经理这几个职位或者称号，在许多智…
&p&主要是思想成熟吧，渐渐摒弃「业务至上论」和「技术至上论」。&/p&&p&1. 是否在技术上止步不前。很多人信仰业务，可能做了3年不过写写SQL、分析也就仅限于EDA。但事实上，不了解技术可以改变很多。而且，原因相信业务至上的，事实上，是否认整个行业的价值，并且学术壁垒无法形成导致更多公司内不懂的人干涉。&/p&&p&2. 是否空学习了很多技术，但事实上运用时还是三板斧（SQL、EDA、PPT）。很多分析师执着于各种高大上的技术，但事实上很多和业务是脱节的。此外，很多资料来自于二手博客，导致对很多技术、业务模型的理解不深。据我现在的观察，大多数人对用户画像的理解和其本意差别很大，国内往往理解成自动化的EDA用户属性。&/p&&p&3. 是否总是以把过于复杂的技术应用于业务。很多分析师为了炫技，经常花费不必要的时间，运用复杂的技术只是为了解决一个简单问题。&/p&&p&4. 是否向业务部门传递正确的数据观念。一部分分析师，由于过度炫技，往往很少和业务部门沟通清楚，导致大量时间的耗损，以及自己的结论无法对业务部门提供很好的帮助；没有教育业务部门让他们明白，以现今的分析技术，哪些是可以做的，哪些是不可以做的，导致揽下一堆其实很难处理的工作或者每次做的工作永远限定在简单的数据库取数。&/p&&p&5. 是否在给出数据和报告时足够谨慎。这包括：是否核查数据是否正确；是否能在提出结论时给出一个概率，譬如说「根据数据，有90%可能表明流失用户正在挽回」，如果不能，尝试给出你对你推断的准确性有个定性的表述，比如「根据数据，流失用户比例达12%。&b&但是证据相对不足&/b&」。&/p&&p&6. 自己处理问题的方式是否照搬常见模型。事实上，对每个公司业务而言，很多方法不能完全套用，很多分析师的大量业务模型（漏斗、转化）都是基于网上的经验，但事实上这类模型只能满足一个average的需求，作为一个有经验的分析师，应该有自己的判断能力找到更好更适合的模型。&/p&&p&=======&/p&&p&暂时想到这么多，有空补充。&/p&
主要是思想成熟吧，渐渐摒弃「业务至上论」和「技术至上论」。1. 是否在技术上止步不前。很多人信仰业务，可能做了3年不过写写SQL、分析也就仅限于EDA。但事实上，不了解技术可以改变很多。而且，原因相信业务至上的，事实上，是否认整个行业的价值，并且学…
&p&我来回答一下这个问题。之前被Uber和滴滴司机都烦过，也多少因为使用约车服务被泄露过个人隐私信息。&/p&&br&&p&在共享经济时代，享受便利的同时往往伴随着价值的付出，要么是金钱，要么是隐私；这也是为什么我之前在分析 Airbnb 和 Uber 这种 online marketplace 的商业模式的时候，不断强调两点：trustability 和 customer rating 的重要性。随着移动互联网的到来，各种app在用户注册时，选用邮箱注册的几率越来越小，而手机、微信、QQ注册或者直接采用这三种途径来登陆的模式越来越多。于是很多“注册用户”不就后陆续开始接到电话，“您好，这里是**酒厂/茶庄，我们隆重的向您推荐***”，“您好，这里是***投资理财”等等这样的骚扰电话。有时候我真的觉得，这样的营销方式让人很烦，而且很难做成有效生意。&/p&&br&&p&约车叫车服务也是如此。最最开始滴滴和Uber在中国开始发展和竞争的时候，都是粗犷暴力地直接直接将车主和乘客的电话显示出来。一度Uber也因为此成为变相的有车一族的“陌陌”。当年还记得我公司的一个mm实习生，因为做了几次uber之后，被车主加微信骚扰，就直接把微信和手机号码给直接解绑 --_-- . 更有甚者，之前听一个Uber的城市经理说，他们去到一个新城市准备开始运营的时候，就有“神秘人士”约到他们，说手里有其他约车服务的车主名单，可以“低价”提供给他们，方便他们在平台上建立起初始的一批车主用户。&/p&&br&&p&今年以后，在约车服务中，匿名电话中转的方式终于启用。现在，滴滴、Uber、易到用车都是清一色的使用中介号码来显示对方来电。这种防止互防骚扰的隐私保护机制就是云通讯来实现的，而和滴滴合作的应该就是国内目前做的最好的容联了。在一系列的交易单中，司机和客户只需把号码提交给云通讯机构即可，这要这一环节没有出问题，那么隐私便不会泄漏。相当于在O2O模式中加了一层保护，而透过这层保护依然可以评价服务提供方。&/p&&br&&p&这项技术并不是很难，但前期投入太大，或许有的公司看到消费者并没有在这方面形成消费的理念或者短期内无法形成这样的理念，于是便放弃了。而有的公司坚持下来，并不断完善，思考，把这个东西做的利远远大于弊，而逐渐被广泛运用到各行各业中。&/p&&br&&p&在互/物联网交易当中，评价机制提高了服务质量，加速了优胜劣汰，但也激发了供求双方和竞争者之间的矛盾。大部分消费者在购买到不符合预定用途或者不满意的商品和服务时，选择沉默，自认倒霉，其中有一部分就是因为看到了身边出现的各种寄寿衣、寄恐吓信，打电话喷三天三夜的卖家行径之后，采取多一事不如少一事的态度。但是，如果把约车的保护模式生搬硬套把云通讯入驻线上交易的话，无疑对卖家是不公平的。虽然提高了买家评论的真实性，但在这样一个网络上充斥着“键盘侠”的时代，这样的机制无疑给卖家套上了“减速+流血+伤害加深+诅咒+虚弱”的种种debuff，显然是弊大于利的。这种机制如何修改，做到因地制宜，是未来发展需要跨越的一大难关。&/p&&br&&p&因为之前我一直在硅谷工作，所以也经常在前同事们讨论硅谷初创公司的一些情况。在美国硅谷，今年6月23日，Twillo在纽交所上市，一夜之间从15美元每股上涨到收盘价28.33元，几乎翻了一倍，成为一只强力的“独角兽”。Twilio是干什么的？很简单，帮助应用的开发商在其应用中加入电话和短信功能，使用者直接在应用中点击就可以拨打服务提供方的电话，后续又在电话基础上加入网络电话功能，进一步缩小开发商的成本。对，这么一件事，缩小了大量的成本，所以它们成功了，而且他们还没有设置隐私保护功能；就像iphone也没有像小米，华为那样设置骚扰电话监控功能，况且Airbnb也不敢把用在国外的房屋合作模式生搬硬套到中国来。美国的诚信指数比中国高，而在现下的中国，这一功能再需要不过。希望这种匿名电话的模式以后成为标配（类似于用户密码要SHA-1混淆后存入DB一样），在各大O2O或者移动互联网应用上多保护用户的隐私信息。&/p&
我来回答一下这个问题。之前被Uber和滴滴司机都烦过，也多少因为使用约车服务被泄露过个人隐私信息。在共享经济时代，享受便利的同时往往伴随着价值的付出，要么是金钱，要么是隐私；这也是为什么我之前在分析 Airbnb 和 Uber 这种 online marketplace 的…
已有帐号？
无法登录？
社交帐号登录}

我就爱股票网