更新时间: 2024-01-24 16:17:06#大数据技术 GFS 传统数据库 ACID ,也就是原子性(Atomic)、一致性(Consistency)、隔离性(Isolation)以及持久性(Durability) 而在大数据领域,很多时候因为分布式的存在,我们常常会退化到一个叫做 BASE 的模型。 BASE 代表着基本可用(Basically Available)、软状态(Soft State)以及最终一致性(Eventually Consistent)。 同步复制-备库 异步复制-只读master(影子), 可能有小小延迟 client与master之间只有控制流,与chunk之间是数据流 。减小master压力 #评论#评论 1 · 2024-01-24T07:25:43.637000Z实时处理可以用Spark,要处理流数据有Flink #评论 2 · 2024-01-24T07:26:47.611000Z其实,经过多年的发展,在Hadoop生态体系中很多模块已经被新的模块替换,比如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn,而完成了这些替代之后的Hadoop也早就是不是原来的Hadoop了。 #评论 3 · 2024-01-24T16:16:20.597000Z站在某个时间点,我们谈论的Hive数仓,一般默认包括HDFS存储系统、Yarn资源管理平台、Hive元数据管理、Spark计算引擎、Presto查询引擎,这些构成了离线数仓的技术栈。 #评论 4 · 2024-01-24T16:17:06.179000Zhttps://zhuanlan.zhihu.com/p/645180597