大数据开发技术面试注意哪些方面
大数据架构与开发
顾名思义大数据是一个以数据为核心的产业。大数据产业从数据的生命周期的传导和演变上可分为这几个部分:数据收集、数据储存、数据建模、数据分析、数据变现。
通过各种渠道收集数据,继而通过云数据中心储存,再通过数据科学家或业务进行建模和加工,最后数据分析找到大量看似不相关数据背后的因果关系。这些产生的信息可以作为宝贵的资产,帮助业务决策者对未来进行预测,减少试错成本,也可以降低成本风险,增强业务竞争力。
目前市场上人才需求观和部署企业自身大数据项目来看,大致分为3个方向:大数据架构、大数据开发、大数据分析。其中数据分析已经在(link)中为大家介绍了。
那么本期我们就聚焦技术要求更硬核的架构与开发职位。
让我们从目前市场上的需求入手,为大家分析这两个炙手可热的岗位。
某顶级独角兽互联网:数据开发工程师
大数据开发
大数据开发偏重应用实现,注重服务器端开发、数据库开发、呈现与可视化人机交互等衔接数据载体和数据加工各个单元以及用户的功能落地与实现。
主要研究方向
数据库开发:RDBMS、NoSQL、MySQL、Hive等。
数据流工具开发:Flume、Heka、Fluentd、Kafka、ZMQ等。
数据前端开发:HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
数据获取开发:爬虫、分词、自然语言学习、文本分类等。
某top互联网公司:资深大数据架构开发
大数据架构
大数据架构偏重基建和架构,更多注重的是Hadoop、Spark、Storm等大数据框架的实现原理、部署、调优和稳定性问题,以及它们与Flume、Kafka等数据流工具以及可视化工具结合技巧。再有就是一些工具的商业应用问题,如Hive、Cassandra、HBase、PrestoDB等。
能够将这些概念理解清楚,并能够用辩证的技术观点进行组合使用,达到软/硬件资源利用的最大化,服务提供的稳定化,这是大数据架构人才的目标。
主要研究方向
架构理论:高并发、高可用、并行计算、MapReduce、Spark等
数据流应用:Flume、Fluentd、Kafka、ZeroMQ等
存储应用:HDFS、Ceph等
软件应用:Hive、HBase、Cassandra、PrestoDB等。
可视化应用:HightCharts、ECharts、D3、HTML5、CSS3等。
大数据架构师对架构层面、数据流层面、存储层面、软件应用层面等都需要做比较深入的理解和落地应用。
不难发现大数据开发和架构很多的关键关键词是重合的,但一个主要是开发,一个主要是对于各种大数据技术的加以应用。
开发更注重的是熟练掌握,快速实现,应用要求的是懂得各种大数据技术功能上的异同,并且在选择实现方式时候的方案和取舍。大家可以根据自己的情况进行细分,但在面试中是可以兼顾的。
大数据开发面试技术栈
那么如何有条不紊准备大数据开发架构岗位的面试呢,我们为大家整理了6个主要的维度, 可以根据以下的目录查漏补缺。
1. 编程语言和手撕代码
对于大数据来说,我们有众多的工具和框架,Java还是主力编程语言。可以说做大数据,Java是必须要熟练掌握的。那么对于Java的学习,基础、并发、JVM都是重点。
2. 计算机基础
数据结构,包括常见的布隆过滤器,Bitmap,B+树,LSM Tree,跳表。计算机网络常见TCP-IP协议,网络连接。操作系统问题。Linux基础,Linux进程通信和线程通信, 数据库范式等。
3. Hadoop) no-repeat content-box;background-size:cover;">作者
网站TAG: