千锋 大数据大数据面试题库

大数据面试题目
相关标签:
面试——通往各大企业的通道,是每一个求职者的必经之路。尤其是技术岗面试,相对于其他职位的应聘多了笔试这一道坎,而笔试正是展示一个技术人基本功的时刻。好好准备笔试,拿到一个不错的成绩,会给你接下来的面试环节加分不少。以下是千锋讲师总结的一些大数据的面试题目,有需要的可以拿去了。&1、SDD,DAG,Stage怎么理解?2、宽依赖 窄依赖怎么理解?3、Stage是基于什么原理分割task的?4、血统的概念5、任务的概念6、容错方法7、粗粒度和细粒度8、Spark优越性9、Spark为什么快10、Transformation和action是什么?区别?举几个常用方法11、SDD怎么理解12、spark 作业提交流程是怎么样的,client和 cluster 有什么区别,各有什么作用13、scala 语言有什么特点,什么是函数式编程?有什么优点?&14、scala 伴生对象有什么作用 15、scala 并发编程是怎么弄得,你对 actor 模型怎么理解有何优点 16、scala case class &有什么重要 17、修饰符 18、两个整数相除,保存到百分位 19、写个封装,抽象,继承,多态的类集。 20、jsp 的作用域的描述。21、说说 hbase 的 API 都有哪些 filter? 22、说说你用过的 storm? 23、自己熟悉大数据的部分说一下?24、hadoop 与 storm、spark 的比较?25、对一个字符串进行全排列?26、事务都有哪些特点?27、&hadoop 集群中的某个 block 不能 copy 数据到其他节点,怎么办?28、JVM的内存模型,GC在何时何地,做了什么事情29、用java实现LRU缓存30、实现单例,要求:线程安全、锁的性能31、目录拷贝功能:目录下上万文件需要拷贝备份,拷贝同时输出进度32、jps命令作用33、a和b两个文件各存放80亿URL,每个URL64字节,内存限制为4G,如何找出共同的URL34、start-hbase.sh为起点hbase的启动流程35、hbase的compact各大企业的面试题汇总依旧在搜集中,想要更多的面试题及其答案的小伙伴,欢迎到千锋教育咨询了解!
原创内容,请点击培训
人气:3088
人气:2564
人气:1901
人气:1275
只要一个电话
已有1152名同学预约成功!
我们为您免费回电!2018年大数据常见面试题及答案
随着互联网的发展,大数据技术逐渐深入人心,大数据技术人才也是层出不穷,而英雄不能无用武之地,只有经过层层面试才能获得施展才华的机会,而面试的首关就是一套技术面试题,不过你需要的大数据常见面试题扣丁学堂小编都给你准备好了,快来领取吧!
1、scala隐函数关键字
2、valx=y=1结果
1)x、y都是var,x变为Unit
2)都是val,报错
3、java内存模型
堆内存、栈内存、方法区
栈内存:保存局部变量
堆内存:存储数组和对象
方法区:代码区、字符串常量池、静态区
4、用mr设计一个分组排重计数算法
输入文件格式:二级域名,一级频道,二级频道,访问ip地址,访问者id
需求:按照二级域名,一级频道,二级频道分组,计算pageview数,计算独立ip数和独立访问者id数
5、hadoop中combiner的作用
当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响末了的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reducezui终的输入,是Combiner的输出
6、Linkedlist和ArrayList的区别
ArrayList是使用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,允许直接按序号索引元素,但是插入元素要涉及数组元素移动等内存操作,所以索引数据快而插入数据慢。LinkedList使用双向链表实现存储,按序号索引数据需要进行前向或后向遍历,但是插入数据时只需要记录本项的前后项即可,所以插入速度较快。
7、http安全问题
1)重要信息:MD5,AES加密
2)不太重要的数据:用签名
8、linux的启动顺序
通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行/etc/rc.d/sysinit,开启其他组件(/etc/modules.conf),执行运行级别,执行/etc/rc.d/rc.local,执行/bin/login,末后shell启动。
面对众多的大数据面试题库,只有单单这几个题吗?最后想要了解更多关于大数据发展前景趋势,请关注扣丁学堂官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供权威的大数据视频教程系统,通过千锋旗下金牌讲师在线录制的系统,让你快速掌握大数据从入门到精通大数据开发实战技能。扣丁学堂大数据学习群:。
【关注微信公众号获取更多学习资料】
大数据分析
大数据培训
大数据视频教程
Hadoop视频教程
大数据开发工程师
大数据在线视频
扣丁小程序
全国免费咨询热线
北京千锋互联科技有限公司版权所有
北京市海淀区宝盛北里西区28号天丰利商场4层
京ICP备号-6
Copyright (C) 2013 - 2018大数据常见面试题_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
内容提供机构
更多优质内容和服务
大数据常见面试题
0|0|暂无简介|
千锋教育是中国IT职业教育领先品牌,一直秉...|
总评分0.0|
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?您的当前位置:
大数据面试宝典(分析题)由沈阳千锋独家呈现
大数据面试宝典(分析题)由沈阳千锋独家呈现
金三银四,正值求职的黄金季节,求职大数据的小伙伴们,看过来了,千锋小编给你送福利了,千锋大数据面试宝典已经为你备好,请各位小主儿过目。
一、hive的使用,内外部表的区别,分区作用,UDF和Hive优化
(1)hive使用:仓库、工具
(2)hive内外部表:内部表数据永久删除,外部表数据删除后、其他人依然可以访问
(3)分区作用:防止数据倾斜
(4)UDF函数:用户自定义的函数(主要解决格式,计算问题),需要继承UDF类
java代码实现
class TestUDFHive extends UDF {
public String evalute(String str){
"hello"+str
}catch(Exception e){
str+"error"
(5)Hive优化:看做mapreduce处理
&a\排序优化:sort by 效率高于 order by
&b\分区:使用静态分区 (statu_date="",location="beijin"),每个分区对应hdfs上的一个目录
&c\减少job和task数量:使用表链接操作
&d\解决groupby数据倾斜问题:设置hive.groupby.skewindata=true ,那么hive会自动负载均衡
&e\小文件合并成大文件:表连接操作
&f\使用UDF或UDAF函数:
二、简要描述如何安装配置一个apache开原本hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。
1.创建hadoop用户
3.安装JDK,并配置环境变量
4.修改host文件映射
5.安装SSH,配置无秘钥通信
6.上传解压hadoop安装包
7.配置conf文件夹下的hadoop-env.sh、core-site.xlmapre-site.xml、hdfs-site.xml
8.配置hadoop的环境变量
9.Hadoop namenode -format
10.start-all
三、MapReduce优化
& 1.& 任务调度
&&& I/O 方面:Hadoop 会尽量将 Map 任务分配给 InputSplit 所在的机器,以减少网
络 I/O 的消耗。
& 2.数据预处理与 InputSplit 的大小
&&& 合理地设置 block块大小是很重要的调节方式。除此之外,也可以依靠合理地设置 Map 任务的数量来调节 Map 任务的数据输入。
& 3. Map 和 Reduce 任务的数量
&&& 当 Reduce 任务的数量是任务槽的 1.75 倍时,执行速度快的机器可以获得更多
的 Reduce 任务,因此可以使负载更加均衡,以提高任务的处理速度。
& 4. Combine 函数
&&& MapReduce 框架运行用户写的 combine 函数用于本地合并,这会大大减少网
络 I/O 操作的消耗
四、spark集群运算的模式
Spark 有很多种模式,比较简单的就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。
standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA
on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算
on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3
五、spark streaming 读取kafka数据的两种方式
这两种方式分别是:
Receiver-base
使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark
Executor的内存中,然后Spark
Streaming启动的job会去处理那些数据。然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用Spark Streaming的预写日志机制(Write Ahead Log,WAL)。该机制会同步地将接收到的Kafka数据写入分布式文件系统(比如HDFS)上的预写日志中。所以,即使底层节点出现了失败,也可以使用预写日志中的数据进行恢复。
Spark1.3中引入Direct方式,用来替代掉使用Receiver接收数据,这种方式会周期性地查询Kafka,获得每个topic+partition的新的offset,从而定义每个batch的offset的范围。当处理数据的job启动时,就会使用Kafka的简单consumer api来获取Kafka指定offset范围的数据。
以上五道大数据的经典面试题,各位小主先用着,待小编深度挖掘千锋讲师的满满大数据技术干货库,为大家谋福利!
千锋哈尔滨校区:http://hrb.mobiletrain.org/
哈尔滨校区地址:哈尔滨市松北区创新一路699号 科技创新城19号楼B座五楼
培训咨询专线:&
咨& 询& QQ& :
面授课程:全栈HTML5+培训、UI交互设计培训、PHP培训、Java+云数据培训、大数据开发培训、VR/AR/Unity游戏开发培训、Python培训、Linux云计算培训、全栈软件测试培训、Android培训、iOS培训
大数据面试宝典(分析题)由沈阳千锋独家呈现
免责声明:1)本信息由“”发布,由“北京千锋互联科技有限公司”负责信息的合法性;2)本站平台目的在于分享更多信息,不代表本站的观点和立场;信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。3)本信息如有侵权请将此链接发邮件至,本站将及时处理并回复。4)《新著作权法草案》第六十九条规定:网络服务提供者为网络用户提供存储、搜索或者链接等单纯网络技术服务时,不承担与著作权或相关权有关的信息审查义务。网络用户利用网络服务实施侵犯著作权或者相关权行为的,被侵权人可以书面通知网络服务提供者,要求其采取删除、屏蔽、断开链接等必要措施。《好看》依托百度技术,精准推荐优质短视频内容,懂你所好,量身打造最适合你的短视频客户端!}

我要回帖

更多关于 千锋大数据培训 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信