大公国际值得去吗 数据分析师面试 值不值得参加

最全数据分析师常见的面试问题(一)1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。或者如下阐述:算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用 分而治之 的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。文中,给出的最终算法是:第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、20XX.04.27);第二步、借助堆这个数据结构,找出Top K,时间复杂度为N logK。即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N *O(logK),(N为1000万,N 为300万)。ok,更多,详情,请参考原文文章出自,转载请保留此链接!。或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1, x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含10个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。还是典型的TOP K算法,解决方案如下:方案1:顺序读取10个文件,按照hash(query)的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。免责声明:本文仅代表作者个人观点,与本网无关。看完本文,记得打分哦:很好下载Doc格式文档马上分享给朋友:?知道苹果代表什么吗实用文章,深受网友追捧比较有用,值得网友借鉴没有价值,写作仍需努力相关自我介绍:
48小时热门当我面试企业数据分析师时,我在面什么 - 简书
<div class="fixed-btn note-fixed-download" data-toggle="popover" data-placement="left" data-html="true" data-trigger="hover" data-content=''>
写了7516字,被2人关注,获得了7个喜欢
当我面试企业数据分析师时,我在面什么
写本篇文章总结,一方面是因为明天要一个上午面试九位数据分析师候选人(压力好大...),充足的准备以确保能吃得上午饭是必须的;另一方面是希望以终为始探讨数据分析师的素质、能力、技术需求,总结如何进行人才选择,面试者们可以从另一个角度思考:如何进行能力展现,如果积累自己的职场简历,还有最基本和最重要的,我选择的是我真正热爱的领域吗?这里所言的数据分析师岗位,其实是一个统称,包括了数据分析师、数据模型师、数据管理及治理专家等数据类相关岗位。针对数据岗位工作特点拆分为如下两类:* 技术开发类* 治理类推进及体系建设类STEP1:面对每场面试、每位候选人,第一步、首先明确自己的要什么样的人,第一类还是第二类,重点关注的技能是什么,素质能力是什么等都需要首先明确清楚;* 技术开发类:逻辑、钻研、快速学习 、创新、沟通、 执行* 治理类推进及体系建设类:沟通、发散思维、逻辑推理、原则、执行STEP2:思考并预先规划评估维度:我对于候选人通常从八个维度进行面谈评估,讲结合候选人的不同情况分不同侧重进行考察
1.专业经验介绍项目经验:参考STAR原则:即针对Situation(情景)、Task(任务)、Action(行动)和Result(结果)四个维度的追问项目经验,从而深入了解面试者的能力和特质
重点通过面试者具体在何时,在什么样的项目环境、范围中,以什么样的团队分工,用怎样的知识技能经验,具体完成什么任务?并包括对困难的处理,对结果的反思。对结果的反思,我更希望从面试者这里主动提出总结,也会通过问题提出,例如:你认为数据分析成果落地的关键是什么?你认为这个项目流程方法哪些可以改进?2.行业了解通过让面试者对自己所处行业的分析,以及跨行业的对比,了解面试者是否具备宽阔的视野和对外部环境敏感的分析意识。例如:你认为互联网数据挖掘特点是什么?与其他行业对比哪些异同,在新的行业领域你会如何开展工作?3.技术匹配因为面试之前的笔试或机考,将对面试者的技术能力进行一定的评估,主要针对基础知识,以及实战技能。在这里将针对笔试做题的结果,进行有针对性的提问,例如你认为自己做的怎么样?对自己满意的地方,不满意的地方。并会针对具体某些题目的应答情况进行追问,深入了解面试者技术匹配情况。除此以外,还会对面试者的分析能力以及思考总结习惯,进行提问:例如:聚类或分类的各种算法优劣比较,如何结合案例选择,XXX算法的逻辑,弊端。4.发散创新思维
发散性思维经典试题很多,例如“窨井盖为什么是圆的”,“猜猜你在这个房间里能放下多少个网球”,但针对发散性思维的考察在近几年招聘技术岗位时反而逐渐降低了热度,往往是较多关注面试者参与项目或者技能集的匹配度,但思维能力却又是在实际工作中决定员工能否独当一面,脱颖而出的关键能力:是一直埋头工作还是不断思考改进,在交给一个全新课题时,是否能够有想象力,有创新力的不断勾勒明确前景蓝图以及扎实推进的路线。当然伴随着发散创新思维的考察,也需结合收敛思维能力的辅助,既有开阔的思路,也有能逐步收敛,分阶段落地的务实思维。5.逻辑推理逻辑推理能力作为IQ的一部分,通常在人力资源部的笔试是就进行考察,但在面试中通过观察面试者对于面试官问题的理解、分析以及是否可以有条不紊、思路清晰的回答,也是逻辑推理能力的很好验证点。6.沟通表达能力无论是找工作还是找伴侣,最好不要试图去掩饰自己,扮演别人,在自己最适合的环境 ,坦然的做自己,对于公司和个人才是双赢的选择。面试过程中常常会以这样的问题来了解面试者的沟通个性:“作为数据分析师,你在XXX项目中最喜欢和最不喜欢做的事分别是哪些,各举个例子”。我期待听到真诚的回答,真诚是建立信任的第一步,信任是能够让面试者有机会加入到团队中的第一步。面试时,我听到过很多真诚的答复:“我喜欢更多的和用户接触,实现业务需求”,“我不喜欢协调很多人”,“我喜欢做协调管理,不想要在做技术”... 这些坦然的表达,能让双方都做出最好的选择。做管理、做技术、做业务 不存在喜欢哪个,不喜欢哪个就失去或者得到哪些机会,只有适合自己的才是真正的、值得把握的机会。在这个领域,还需要特别关注的就是团队合作,包括对合作者的尊重,是否能够倾听,面临观点不一致时第一反应是什么?(这部分通过HR的场景模拟练习,能够所见一斑)。记得有一位专业面试锁定的候选人,在HR面试中被淘汰,追问原因,HR反馈:在场景模拟联系中从来没有见过这么容易攻击别人的人。7.承压能力面试问题:最近的一个月(在最近的项目中)遇到过什么难题?是如何解决的?最近一次是如何处理跨领域沟通问题的?一般的回答都很少是技术类问题,大多是沟通协调类的。这里重点关注的就是对出现困哪的协调是采用哪种方式。你的沟通协调、是否容易妥协?或者不容易妥协?每个人都会有着自己的原则,在日常中也会守着自己的原则。然而,要是你的原则与别人发生了冲突,在那种情况下,你会守住自己的原则,还是容易就此妥协?8.意愿热情你微信中关注哪些公众号?最近“xxx”事件你怎么看?你个人是否报名参加过IT类技术大会?你平时有哪些兴趣爱好?周末你一般做什么?这些并非是想得到生活中时时想着工作的回答,但候选人对于技术、对于数据分析的热情,我希望不要有明确的工作和生活的划分,工作中的积累和成就最终的受益者是自己。大家都听说过的十万小时定理,我们每天投入至少8小时以上的专业工作,难道不是打造最杰出自我的最好领域,在自己热爱的领域,精心打磨,自我雕琢,成就的首先是自己。这里是我对这些年面试数据分析候选人的一些思考和总结,当然这套结构化思路和思考也同样适用于其他岗位角色面试,希望对大家有帮助。——————————本文版权归:乔希 所有,转载请先联系我
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮
被以下专题收入,发现更多相似内容:
大数据,收录大数据相关技术的文章。
· 3596人关注
玩转大数据
· 1608人关注
收集与互联网、大数据相关的学习资料、文章,包括各种编程技巧,统计分析知识等等。
· 234人关注
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
选择支付方式:}

我要回帖

更多关于 什么值得买 面试 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信