大数据 - 编程之家

CollapsingMergeTree就是一种通过以增代删的思路，的表引擎。它通过定义一个sign标记位字段，记录数据行的状态。如果sign标记为1，则表示这是一行有效的数据；如果sign标记为-1，则表示这行数据需要被删除。当CollapsingMergeTree分区合并时，同一数据分区内，sign标记为1和-1的一组数据会被抵消删除。每次需要新增数据时，写入一行sign标记为1的数据；需要删除数据时，则写入一行sign标记为-1的数据。此外，只有相同分区内的数据才有可能被折叠。......

时间：2022-08-31

大数据的薪资怎么样？想学大数据了？

猎聘大数据研究院发布了《2022未来人才就业趋势报告》从排名来看，2022年1-4月各行业中高端人才平均年薪来看，人工智能行业中高端人才平均年薪最高，为31.04万元；金融行业中高端人才以27.69万元的平均年薪位居第二；通信、大数据行业中高端人才平均年薪分别为27.51万元、25.23万元，位列第三、第四；IT/互联网行业中高端人才平均年薪23.02万元，位列第七。图表来源：《2022未来人才就业趋势报告》如果你觉得很高，被平均了这样？

时间：2022-08-31

一文搞懂什么是Hadoop?Hadoop的前世今生，Hadoop的优点有哪些？Hadoop面试考查重点，大数据技术生态体系

目录1.1 Hadoop 是什么 1.2 Hadoop 发展历史1.3 Hadoop 三大发行版本 1.4 Hadoop优势（4高） 1.5 Hadoop 组成（面试重点） 1.5.1 HDFS 架构概述 1.5.2 YARN 架构概述 1.5.3 MapReduce 架构概述 1.5.4 HDFS、YARN、MapReduce 三者关系 1.6 大数据技术生态体系 1.7 推荐系统框架图假如说购买一个东西，打开京东首页，购买一个东西，这个购买行为会被记录下来，通过Nginx负载均衡打入到日

时间：2022-08-26

大数据面试常见问题四——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题，你们是怎么解决的？4、如果抽取的数据有重复，怎么解决5、etl脚本开发以后，怎么运维6、一张特别大的表，几千万，几亿的表，怎么通过etl工具同步7、数据同步以后，源系统的表结构发生了改变，比如源系统的表增加了字段，你的kettle脚本是否会报错？8、有一张表下午5点才出数据，依赖的表早上十点就已经跑完了，是什么原因导致表这么慢出数据（从数仓同步数据，本来早上9点就要出结果，结果一直到下午4点才出结果）9、有一个job前一天执行成功了，

时间：2022-08-26

大数据工程师的日常工作内容是干嘛？

我们真的是Sqlboy吗？

时间：2022-08-26

大数据批量处理神器 - 自定义周期批量消费队列的实现

大数据批量处理神奇-自定义周期批量消费队列的实现周期批量消费队列(BlockingQueue)的实现LinkedBlockingQueue与ArrayBlockingQueue的比较

时间：2022-08-26

大数据ClickHouse二十：ClickHouse 可视化工具操作

tabix支持通过浏览器直接连接 ClickHouse，不需要安装其他软件，就可以访问ClickHouse。有两种使用方式，一种是直接浏览器访问配置。另一种是使用ClickHouse内嵌方式。

时间：2022-08-26

深度学习机器学习数据集资源汇总

目前个人认为较好的数据集网站主要有：数据集网站1.AI Studio数据集：开放数据集-百度AI Studio - 人工智能学习与实训社区2.天池数据集：数据集-阿里系唯一对外开放数据分享平台3.Papers With Code数据集：Machine Learning Datasets | Papers With Code4.Kaggle 数据集：Find Open Datasets and Machine Learning Projects | Kaggle5.Graviti O

时间：2022-12-21

【机器学习】python实现吴恩达机器学习作业合集含数据集

目录1.0 实现线性回归预测2.0 线性可分logistic逻辑回归2.1 线性不可分logistic逻辑回归3.0 logistic逻辑回归手写多分类问题3.1 神经网络正向传播4.0 神经网络反向传播（BP算法）5.0 方差与偏差6.0 SVM支持向量机7.0 kmeans聚类7.1 PCA主成分分析...

时间：2022-12-21

大数据技术之Hadoop入门概述、运行环境搭建、运行模式

文章目录1 Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 优势1.3 Hadoop 组成1.3.1 HDFS 架构概述2 组管理和权限管理2.1 组管理2.2 权限管理3 任务调度1 Hadoop 概述1.1 Hadoop 是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈1.2 Hadoop 优势（1）高可靠性：H.

时间：2022-12-21