01 自我介绍
- 1.自我介绍
- 02 自我介绍

02 java基础
- 01 jdk和jre有什么不同
- 02 封装类型的意义
- 03 值传递和引用传递的不同
- 04 泛型中extends和super的区别是什么
- 05 hashCode的使用场景
- 06 为什么头插法容易形成死循环而尾插法不会
- 07 exception和error有啥区别
- 08 强引用，软引用，弱引用，虚引用的区别
- 09 内存泄漏和内存溢出
- 10 重写和重载的区别
- 11 Qps和Tps的区别
- 12 BIO,NIO,AIO的区别
- 13 hash冲突怎么解决
- 14 String,stringBuild,StringBuffer的区别
- 15 ==和equals的区别
- 16 mybatis中#{}和${}有啥区别
- 17 CAP及BASE理论
- 18 jdk各版本新特性及默认GC
- 19 进程、线程、协程

03 数据结构
- 01 数组+链表+跳表+二叉树
- 02 ArrayList和LinkedList的区别
- 03 ConcurrentHashMap和HashMap的扩容机制
- 04 HashMap和LinkedHashMap有啥区别
- 05 说一下HashMap的put方法的底层实现原理
- 06 CopyOnWriteArrayList是线程安全的吗
- 07 hashMap hashTable的区别
- 08 arrayList扩容时扩容多少
- 09 hashmap的负载因子为何是0.75
- 10 hashmap如何扩容的？
- 11 hashmap中hash冲突了会怎么处理
- 12 threadLocal的应用场景及问题

04 jvm
- 01.说说对JVM和JMM的理解
- 02 堆和栈的区别
- 03 java中的基本数据类型都是存储在栈中的吗？
- 04 对象在jvm中的创建过程
- 05 谈谈jvm常量池
- 06 常见的垃圾回收算法
- 07 你在实际项目中有排查过JVM方面的问题吗？
- 08 生产环境CPU占用过高，如何解决？
- 09 生产环境服务嚣变慢,如何诊断处理?
- 10 工作中常用的JVM配置参教有哪些?
- 11 简述一个类的创建过程？
- 12 谈谈对双亲委派机制的理解？
- 13 谈谈新生代，幸存区，老年代对应的垃圾回收是怎样的(待完善)
- 14 jvm怎么决定从轻量级锁进化为重量级锁
- 15 GC有哪些？分别用的是啥算法？
- 16 对象的内存布局
- 17 GC在各个分代中的作用
- 18 各个GC的内存布局
- 18 类加载机制

05 并发编程
- 01 synchronized和volatial关键字理解
- 02 锁升级的过程
- 03 CAS原理
- 04 wait,sleep,yield,join,notify的区别
- 05 怎么开启一个线程？
- 06 线程池怎么用，7大参数理解？如何配置？
- 07 信号量Semaphore(待完善)
- 08 死锁出现的原因以及怎么解决？
- 09 悲观锁和乐观锁
- 10 公平锁和非公平锁
- 11 什么叫可重入锁和不可重入锁
- 12 互斥锁和共享锁
- 13 乐观锁和悲观锁
- 13 锁消除和锁膨胀
- 14 countDownlanch实现原理
- 15 CyclicBarrier实现原理
- 16 AQS的实现原理
- 17 分布式锁的实现方式有哪些
- 18 线程池的原理
- 19 ReentrantLock和synchronized在现代jvm差别有多大？
- 19 ZGC与G1对锁竞争有没有影响？
- 21 reentrantlock的自旋策略跟jvm一样吗？
- 22 热点锁如何通过架构彻底消除
- 23 disruptor为啥几乎不需要锁？
- 24 聊聊虚拟线程
- 25 父子线程怎么通信
- 26 CompactableFuture原理

06 spring
- 01 谈谈你对IOC的理解
- 02 谈谈你对Aop的理解
- 03 Spring事务传播机制
- 04 事务隔离级别
- 05 spring事务的底层原理
- 06 spring事务失效的场景
- 07 spring框架中的设计模式有哪些(待完善)
- 08 说看过AOP相关源码,说下具体实现
- 09 说看过IOC相关源码,说下具体实现
- 10 aop的实现默认是使用jdk动态代理还是cglib
- 11 切面解析的顺序怎么确定？
- 12 spring怎么解决循环依赖的？
- 13 bean的生命周期
- 14 说说你对mspringMvc流程的理解
- 15 BeanFactory和applicationContext有什么区别
- 16 BeanFactory和FactoryBean有什么区别
- 17 spring中bean是线程安全的吗？
- 18 spring中支持的bean的作用域有哪几种？
- 19 spring是如何保证bean是单例的？
- 20 springmvc的底层工作流程
- 21 spring为何针对接口用jdk动态代理

07 springboot
- 01 自动装配原理？
- 02 springBoot常用注解？
- 03 拦截器和过滤器的区别
- 04 springBoot中配置优先级是怎样的?
- 05 springboot有哪些特点
- 06 如何自定义一个starter
- 07 谈谈springboot的SPI机制

08 springcloud
- 01 springCloud中组件常用的有哪些？
- 02.1 Gateway网关
- 02.2 Zuul网关
- 02.3 Gateway和Zuul的区别
- 03.1 Eureka注册中心
- 03.2 zookeeper注册中心
- 03.3 nacos注册中心
- 03.4 apploo注册中心
- 03.5 注册中心横向对比
- 04.1OpenFeign的原理
- 04.2 rpc原理
- 04.3 openfigne和rpc的对比
- 05.1 hystrix服务熔断和降级
- 05.2 sentinel限流及熔断的原理
- 05.3 hystricl和sentinel的对比
- 06.1 shiro权限组件
- 06.2 security安全组件
- 06.3 shiro和security权限上的区别
- 07 springcloud消息总线
- 11 seata的原理
- 12 seata事务有哪几种模式？

09 dubbo
- 01 dubbo的特点
- 02 dubbo的服务注册与发现的流程
- 03 dubbo服务之间的调用是阻塞的吗
- 04 dubbo服务间的调用，怎么实现的

11 mysql
- 01 ACID是什么意思？
- 02 数据库事务的隔离级别？
- 03 怎么解决幻读
- 04 mvcc机制？
- 05 redolog和binlog,undolog
- 06 B+树索引
- 07 mysql怎么优化数据库查询
- 09 分库分表后怎么做范围查找
- 08 分库分表怎么做的
- 10 统计sql例子
- 11 groupby语句后有索引查询和无索引查询有啥区别
- 12 聚簇索引和非聚簇索引的区别
- 13 主键索引和普通索引的区别
- 14.presto为何能加速查询？
- 15 什么叫索引下推，回表？
- 16 mysql主从的数据物理格式是怎样的？
- 17 为什么不遵守最左匹配原则索引会失效
- 18 怎么解析binlog日志
- 19 分组查询语句有哪些
- 20 mysql如何解决数据倾斜

12 redis
- 01 redis数据结构
- 02 redis性能好的原因？
- 03 说说IO多路复用
- 04 rdb和aof
- 05 缓存击穿，缓存穿透，缓存雪崩
- 06 怎么监控热key
- 07 说说布隆过滤器的原理？
- 08 redis如何做内存优化
- 09 redis分布式锁有用过吗？
- 10 分布式锁的应用场景
- 11 redis lua表达式为什么能保证原子性
- 12 redis你们用的是什么集群
- 12 redis大key问题
- 14 如何监听key过期时间并触发后置逻辑
- 15 redis如何做分页查询
- 16 redis如何查询指定库的数据
- 17 缓存预热怎么做
- 18 如何保证redis中缓存和数据库的一致性
- 19 redis的缓存淘汰策略
- 20 redis为何使用跳表而不是B+树
- 21 除了redission你还知道哪些分布式锁的实现
- 22 redission都提供了哪些类型的分布式锁
- 23 RedLock算法如何解决Redis集群脑裂问题
- 24 redis常用数据结构命令及代码实现
- 25 redis的线程模型
- 26 redis-lua表达式怎么写？代码里写lua脚本有啥优缺点？
- 27 redis支持事务吗？
- 28 Jedis redission redisTemplate有啥使用场景上的区别？
- 29 redis的集群模式有哪些？
- 30 redis的stream流用过了吗？
- 31 redis如何优化

13 rocketmq
- 01 rocketMq架构是怎样的,说说心跳机制
- 02 rocketMq怎么查找到对应的消息的？
- 03 rocketMq怎么避免消息不丢失？
- 04 rocketMq怎么避免消息不重复消费
- 05 rocketMq如何保证消息顺序消费？
- 06 rocketMq是pull模式还是push模式
- 07 rocketMq消息堆积怎么解决
- 08 说说rocketmq死信队列
- 09 rocketMq实现分布式事务了解吗？
- 10 rocketMq有哪些消费模式
- 11 rocketMq的延迟消息
- 12 rocketMq有哪些集群模式
- 13 rocketMq为何不用kafka的事务机制

14 kafka
- 01 kafkar如何保证消息不丢失？
- 01 kafka架构是怎样的
- 02 kafka如何避免消息的重复消费？
- 03 kafka如何保证消息的顺序消费
- 04 kafka怎么做分布式事务？
- 05 kafka的rebalance机制
- 06 kafka吞吐量高的原因
- 07 kafka异步刷盘机制
- 08 kafka副本同步机制
- 09 kafka消息丢失的场景及解决方案
- 10 kafka性能优化
- 11 kafka一定要依赖zk吗？

15 xxl-job
- 01 xxl-job的原理
- 02 xxl-jo和Quartz有啥区别
- 03 xxl-job服务注册与发现的原理是啥？
- 04 xxl-job如何实现任务的分片

16 elasticsearch
- 01 es倒排索引
- 02 es深分页问题
- 03 es中集群怎么实现选举
- 04 es索引文档的过程
- 05 es搜索的过程
- 06 es更新和删除的过程
- 07 并发情况下es如何保证读写一致性

17 wbe3
- (一)solidity基本语法规则
- (二)solidity内置对象及函数
- (三)solidity代理调用
- (四) ERC20 && ERC721 简介
- (五) solidity的位运算实践
- (六)Mocha+Chai测试框架
- (七)web3相关术语
- (八)web3术语扫盲
- (九)web3代币相关知识
- (十)web3交易相关知识
- (十一)web3下单策略相关知识
- (十二)web3撮合相关知识
- 13 EIP1559前后Gas有啥变化

20 设计模式
- 01.设计模式面试题

21 算法
- 01 算法面试题
- 02 计数器限流算法
- 03 滑动窗口限流算法
- 04 漏斗限流算法
- 05 令牌桶限流算法

22 linux
- 01 linux面试题

22 网络协议
- 01 三次握手及四次挥手
- 02 说一下jwt的认证流程
- 03 refreshToekn如何刷新token
- 04 netty的reactor模型
- 5 websocket你们怎么用的

23 docker
- 01 docker面试题

24 vue
- 01 vue的生命周期
- 02 vue2和vue3的区别
- 03 Vue怎么封装一个组件
- 04 全局状态管理的原理
- 05 vue组件之间怎么传值

30 场景题
- 01 openFeign使用过程中如何差异化配置超时时间
- 2 在你们交易所中Redis使用场景有哪些
- 3 kafka怎么保证你投递消息的可靠性
- 4 mysql怎么设计索引
- 5 分布式事务怎么做的
- 6 订单薄如何设计的
- 7 撮合引擎怎么设计
- 8 100万用户订阅怎么推送
- 9 钱包体现充值怎么设计
- 10 你们系统怎么做压测
- 11 让你实现一个rpc你会考虑哪些点
- 12 订单匹配流程
- 13 链路追踪你们是怎么做的
- 14 如何设计一个支持百万QPS的系统
- 15 秒杀系统怎么设计
- 16 如何实现一个高性能队列
- 17 CPU100%怎么排查怎么解决？
- 18 实际工作中怎么做Jvm调优
- 19 熔断和限流
- 20 Disruptor的原理及应用
- 21 kafka在整个交易系统中的流程是怎样的
- 22 kafka怎么保证同币对儿的订单按顺序消费

31 项目相关
- 01 项目亮点
- 02 项目难点

32 面经
- ai
  - 00 100道面试题
  - 01 结合DDD说明抽象类和接口的区别
  - 02 分布式锁隐患及锁续期原理
  - 03 Promotion Failed的原因及解决思路
  - 04 DDD领域驱动中聚合根的概念
  - 05 请分析RR可能导致锁范围扩大的原因和解决思路
  - 06 结合kafka的exactly-once说明如何实现一个无锁的幂等方案
  - 07 如何设计一个支持10万QPS的库存扣减系统
  - 08 导出频繁FullGC如何定位泄漏点，你是如何优化的
  - 09 设计一个强一致性方案保障故障转移时会话共享
  - 10 订单系统如何保证原子性和最终一致性
  - 11 如何保证缓存和数据库的一致性
  - 12 es怎么解决深分页的问题及索引优化有哪些方法
  - (一)Ai模拟面试第1弹
- 个人
  - 01 平安面试(22.3)
  - 02 华润面试(22.6)
  - 03 京东(23.2)
  - 04 微众银行(24.3)
  - 05 跨越速运(25.3)
  - 06 百维存储(25.3)
  - 07 明懿科技(25.3)
  - 08 拓维信息(25.3)
  - 09 鼎屹立(25.3)
  - 10 菲律宾LDR GROUP(26.3)
  - 11 迪拜PT集团(26.3)
  - 12 bybit(26.4)
  - 13 osl(26.4)
  - 14 okj(26.4)
  - 15 kucoin(26.4)

14.presto为何能加速查询？

vvEcho 2025-02-20 18:38:14

Categories： Tags：

1.执行引擎的革新

Hive 的局限性：

Hive 默认使用 MapReduce 作为执行引擎,需将查询分解为多个 Map 和 Reduce 任务,每个阶段均需将中间结果写入HDFS磁盘,导致高 I/O 开销和高延迟(适合批量处理,但无法满足交互式查询)

Presto 的优势：

Presto 采用内存计算 + 流水线处理模型：

内存计算：数据在处理过程中尽可能保留在内存中,减少磁盘读写(例如 JOIN 操作无需落盘)。

流水线执行：任务按流水线方式并行执行,前一步的输出直接作为下一步的输入,避免批处理阶段的等待

2.查询优化策略

动态代码生成(DCE):
Presto 在运行时生成高效代码(如针对特定查询生成优化的字节码),避免 Hive 中通用的解释器开销。

谓词下推(Predicate Pushdown):

将过滤条件(如WHERE子句)下推到数据源层(如HDFS),减少数据扫描量。

分区裁剪(Partition Pruning):

直接跳过不相关的数据分区(如时间分区),提升查询效率

3.并行化与资源利用

多线程模型：

Presto 将查询拆分为多个Split,每个 Split 由独立线程处理,充分利用多核 CPU 资源。

分布式执行：

Presto 集群中多个节点协同工作,支持横向扩展。例如,用户可能通过增加 Worker 节点提升并发处理能力

4.与 Hive 的无缝集成

元数据直接访问：

Presto 通过 Hive Connector 直接读取 Hive Metastore 的元数据(如表结构、分区信息),无需数据迁移即可查询 Hive 表。

高效数据读取：

Presto 针对 HDFS 上的 ORC/Parquet 列式存储格式进行优化(如谓词下推、列裁剪),减少 I/O 开销。

在大数据项目中,Hive存储原始数据,Presto 直接查询并生成清洗后的业务数据,无需额外 ETL。

Presto + Hive 的组合解决了以下痛点：

交互式查询：用户配置数据清洗规则时，Presto 提供秒级响应的预览功能（Hive 无法实现）。

复杂分析：如多表关联（JOIN）和聚合（GROUP BY），Presto 比 Hive 快 10 倍以上。

资源隔离：Presto 支持按队列分配资源，避免长查询阻塞短查询（用户项目中可能用于实时数据清洗与批量任务隔离）。

17 spring中bean是线程安全的吗？

04 微众银行(24.3)