Skip to content

DaemonforY/BigData.github.io

Repository files navigation

大数据岗位各公司面试题汇总

滴滴

1、left semi join 为什么会比join快,且在mr处理的过程中,是通过什么原理/过程让其匹配到对应数据后不再继续匹配?

​ left semi join是以左表为准,在右表中查找匹配的记录,如果查找成功,则仅返回左边的记录,否则返回null,其基本实现流程如下图所示。

spark-sql-semi-join

参考链接:

2、在查询日志的过程中,怎么判断节点任务执行慢是因为数据倾斜还是节点本身性能问题(不是与其它节点比较,即不能再次运行对比)?

3、数据库的四种隔离机制,mysql属于哪种,通过什么实现的?共享锁和排他锁有什么区别?mysql的事务机制?

4、mysql的索引采用什么方式,你对索引的理解,索引为什么能加速查询,B+树的存储结构,索引算法有哪些?

5、聚簇索引与非聚簇索引的差异,索引的最左匹配原则是什么?

6、canal和Maxwell的区别?

7、Kafka对于传入数据的输出是否有序,对于每一个管道内的输入是否有序?

8、简述MR的执行过程

9、常见引擎参数的调节

10、HDFS常用命令

11、对于map join的理解

同第一个问题

12、数据存储格式ORC、parquet的区别

13、spark怎样申请Executor,采用了哪种client/cluster,为什么?对于client_thrift server 的了解

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages