大数据岗位各公司面试题汇总

滴滴

1、left semi join 为什么会比join快，且在mr处理的过程中，是通过什么原理/过程让其匹配到对应数据后不再继续匹配？

left semi join是以左表为准，在右表中查找匹配的记录，如果查找成功，则仅返回左边的记录，否则返回null，其基本实现流程如下图所示。

参考链接：

2、在查询日志的过程中，怎么判断节点任务执行慢是因为数据倾斜还是节点本身性能问题(不是与其它节点比较，即不能再次运行对比)？

3、数据库的四种隔离机制，mysql属于哪种，通过什么实现的？共享锁和排他锁有什么区别？mysql的事务机制？

4、mysql的索引采用什么方式，你对索引的理解，索引为什么能加速查询，B+树的存储结构，索引算法有哪些？

5、聚簇索引与非聚簇索引的差异，索引的最左匹配原则是什么？

6、canal和Maxwell的区别？

7、Kafka对于传入数据的输出是否有序，对于每一个管道内的输入是否有序？

8、简述MR的执行过程

9、常见引擎参数的调节

10、HDFS常用命令

11、对于map join的理解

同第一个问题

12、数据存储格式ORC、parquet的区别

13、spark怎样申请Executor，采用了哪种client/cluster，为什么？对于client_thrift server 的了解

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
.idea		.idea
flinkSourceAndPractices		flinkSourceAndPractices
interview		interview
spark		spark
sparkSourceAndPractices		sparkSourceAndPractices
src/main		src/main
target/classes		target/classes
总结		总结
README.md		README.md
_config.yml		_config.yml
index.html		index.html
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

大数据岗位各公司面试题汇总

滴滴

1、left semi join 为什么会比join快，且在mr处理的过程中，是通过什么原理/过程让其匹配到对应数据后不再继续匹配？

2、在查询日志的过程中，怎么判断节点任务执行慢是因为数据倾斜还是节点本身性能问题(不是与其它节点比较，即不能再次运行对比)？

3、数据库的四种隔离机制，mysql属于哪种，通过什么实现的？共享锁和排他锁有什么区别？mysql的事务机制？

4、mysql的索引采用什么方式，你对索引的理解，索引为什么能加速查询，B+树的存储结构，索引算法有哪些？

5、聚簇索引与非聚簇索引的差异，索引的最左匹配原则是什么？

6、canal和Maxwell的区别？

7、Kafka对于传入数据的输出是否有序，对于每一个管道内的输入是否有序？

8、简述MR的执行过程

9、常见引擎参数的调节

10、HDFS常用命令

11、对于map join的理解

12、数据存储格式ORC、parquet的区别

13、spark怎样申请Executor，采用了哪种client/cluster，为什么？对于client_thrift server 的了解

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

大数据岗位各公司面试题汇总

滴滴

1、left semi join 为什么会比join快，且在mr处理的过程中，是通过什么原理/过程让其匹配到对应数据后不再继续匹配？

2、在查询日志的过程中，怎么判断节点任务执行慢是因为数据倾斜还是节点本身性能问题(不是与其它节点比较，即不能再次运行对比)？

3、数据库的四种隔离机制，mysql属于哪种，通过什么实现的？共享锁和排他锁有什么区别？mysql的事务机制？

4、mysql的索引采用什么方式，你对索引的理解，索引为什么能加速查询，B+树的存储结构，索引算法有哪些？

5、聚簇索引与非聚簇索引的差异，索引的最左匹配原则是什么？

6、canal和Maxwell的区别？

7、Kafka对于传入数据的输出是否有序，对于每一个管道内的输入是否有序？

8、简述MR的执行过程

9、常见引擎参数的调节

10、HDFS常用命令

11、对于map join的理解

12、数据存储格式ORC、parquet的区别

13、spark怎样申请Executor，采用了哪种client/cluster，为什么？对于client_thrift server 的了解

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages