大数据 - 编程之家

大数据内容分享(四)：Hadoop总结

文章浏览阅读838次，点赞12次，收藏24次。前面已经介绍了几乎企业里使用到的绝大多数大数据组件了，这里来个简单的总结，主要针对常见的操作进行总结。也方便自己和大家在工作中快速查阅。

时间：2024-02-04

基于Echarts构建大数据招聘岗位数据可视化大屏

文章浏览阅读1w次，点赞83次，收藏268次。本次项目是使用Echarts构建大数据招聘岗位信息可视化大屏，使用到的技术为前端三剑客（html、css、javascript）。_基于echart高校教师队伍大数据页面

时间：2024-02-04

【后端技术】术有千法，道本归一

文章浏览阅读2k次，点赞99次，收藏97次。聊一聊对整个后端技术栈的看法，术有千法，道本归一。

时间：2024-02-04

深度学习与大数据在自然语言处理（NLP）领域的结合，为我们打开了一个全新的篇章

文章浏览阅读955次，点赞25次，收藏23次。深度学习是机器学习的一个分支，通过构建多层神经网络模拟人脑神经元的工作方式。这种模拟方式使得深度学习能够实现对复杂数据的处理和理解。大数据则为深度学习提供了海量的训练数据，这些数据使得模型能够从中学习和提取有用的信息。这两者的结合，显著推动了NLP在许多方面的进步。

时间：2024-02-04

【大数据】Doris 构建实时数仓落地方案详解（三）：Doris 实时数仓设计

文章浏览阅读2.5k次，点赞9次，收藏28次。有时候我们还会在 DWS 层的基础上增加 DWT（Data Warehouse Topic），作为宽表，但是我们也可以将这一层保留在 DWS 中，作为 DWS 层的一部分。DM 层是数据集市层，在 OLAP 查询不理想的情况下，DM 层是需要大力建设的。现在技术发展了，OLAP 查询不再是瓶颈，我们将建设的重心下移到提供一致性对外数据服务的 DWS 层，DM 层的开发工作逐步减少。_实时数仓建设方案

时间：2024-02-04

ClickHouse为何能超越Elasticsearch？

文章浏览阅读1.7k次。ClickHouse还有一些其他的优点，比如异步的多主复制技术，能保证系统在不同副本上保持相同的数据，大多情况下能故障后自动恢复；采用SQL语法，比ES的DSL更加简单，学习成本更低……另外，ClickHouse也有一些缺点：•没有完整的事务支持。•无法像ES一样提供全文检索功能。•无法动态添加字段，需要提前定义好表schema。•无法支持高并发查询，默认配置QPS为100。•不适合高频地写入，否则会导致后台合并无法跟上新分区数量。_clickhouse可以替代es吗

时间：2024-02-04

【愚公系列】2024年02月大数据教学课程 016-Hadoop预备知识

文章浏览阅读946次，点赞30次，收藏27次。Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它由Apache软件基金会开发和维护。Hadoop的核心组件包括：Hadoop Distributed File System（HDFS）：用于存储大数据集的分布式文件系统。它可以将数据分布在集群的多个机器上，并提供了高可靠性和容错能力。MapReduce：一种用于分布式计算的编程模型。MapReduce将计算任务分解为多个独立的Map和Reduce阶段，并将它们分发到不同的机器上进行并行处理。

时间：2024-02-04

国内外交通数据集介绍（附参数说明）

文章浏览阅读1.3w次，点赞31次，收藏137次。本文对国内外部分交通数据集进行了介绍、对相关参数的进行了说明。_交通数据集

时间：2024-02-04

大数据分析案例-基于KNN算法对茅台股票进行预测

文章浏览阅读6.7k次，点赞52次，收藏70次。本次实验目的是研究茅台股票从2020年1月1日到2022年11月20日的股票价格变动情况，研究其变动趋势，构建涨跌预测模型。有利于政府、企业、股民等对其变动趋势做出相应的调整策略，规避风险。通过本次股票预测实验，我们发现茅台的股票价格在疫情初期，也就是2020年，股票价格持续上涨，到2021年2月达到最高峰后开始在一个月内迅速下跌，之后便跌跌涨涨循环往复。_knn预测股价

时间：2024-02-04

无人机航拍数据集整理

文章浏览阅读9.3k次，点赞13次，收藏90次。无人机航拍数据集整理（附下载链接）_飞机图片数据集

时间：2024-02-04

时间：2024-02-04

【大数据Hive】hive 行列转换使用详解

文章浏览阅读4.2k次，点赞76次，收藏71次。hive行列转换使用详解_hive中行列转换case when优缺点

时间：2024-02-04

大数据深度学习卷积神经网络CNN：CNN结构、训练与优化一文全解

文章浏览阅读2.4k次，点赞68次，收藏68次。卷积神经网络是一种前馈神经网络，它的人工神经元可以响应周围单元的局部区域，从而能够识别视觉空间的部分结构特征。卷积层: 通过卷积操作检测图像的局部特征。激活函数: 引入非线性，增加模型的表达能力。池化层: 减少特征维度，增加模型的鲁棒性。全连接层: 在处理空间特征后，全连接层用于进行分类或回归。卷积神经网络的这些组件协同工作，使得CNN能够从原始像素中自动学习有意义的特征层次结构。随着深度增加，这些特征从基本形状和纹理逐渐抽象为复杂的对象和场景表现。

时间：2024-02-04

打破数据孤岛：ChatGPT如何打通金融大数据的任督二脉？

文章浏览阅读6.8k次，点赞159次，收藏150次。本书是一本针对金融领域的数据分析和机器学习应用的实用指南。本书以ChatGPT为核心技术，结合Python编程和金融领域的基础知识，介绍如何利用ChatGPT处理和分析金融大数据，进行预测建模和智能决策。通过阅读本书，读者将掌握使用ChatGPT和其他工具进行金融大数据分析的基本原理和方法。无论是金融行业从业者还是数据分析员，都可以从本书中获得宝贵的实用知识，提升在金融领域的数据分析和决策能力。

时间：2024-02-04

大数据深度学习长短时记忆网络（LSTM）：从理论到PyTorch实战演示

文章浏览阅读2k次，点赞42次，收藏45次。LSTM的逻辑结构通过其独特的门控机制为处理具有复杂依赖关系的序列数据提供了强大的手段。其对信息流的精细控制和长期记忆的能力使其成为许多序列建模任务的理想选择。了解LSTM的这些逻辑概念有助于更好地理解其工作原理，并有效地将其应用于实际问题。我们首先定义一个LSTM类，该类使用PyTorch的nn.Module作为基类。out, _ = self.lstm(x) # LSTM层out = self.fc(out[:, -1, :]) # 全连接层return outinput_size。

时间：2024-02-04

Spring Cloud可视化智慧工地大数据云平台源码（人、机、料、法、环五大维度）

文章浏览阅读1.9k次，点赞61次，收藏51次。实时统计今日全国各区域项目出勤概况、劳务人员出勤数、管理人员出勤数、设备在线情况、视频监控率、环境监控率等项目数据信息，帮助集团可视化掌握工地实时动态，实现数字化管理施工。

时间：2024-02-04

大数据分析案例-基于随机森林模型对北京房价进行预测

自1998年我国取消了福利分房的政策后，房地产市场迅速开展蓬勃起来。同时，随着社会经济的快速开展，居民的经济条件越来越好，住房条件也在不断地提升。而住房是人民根本生活的保障，也是-一个家庭最重要的资产,从一定的层面.上反映了一个家庭整体的生活水王,多方面的因素使得房地产行业在短时间开展成为我国的支柱产业之一;成为了切实关乎人民生活和利益的重要产业。然而，随着房地产行业的开展，问题也慢慢突显出来，房价一直居高不下成为了一个大问题。作为国家的支柱产业,房地产的稳定发展关乎国计民生。近几年，房

时间：2022-12-20

机器学习实战——房价预测完整案例建议收藏慢慢品

文章目录获取数据查看数据结构获取数据下载数据可以直接通过浏览器下载压缩包，也可以通过函数来进行。import osimport tarfileimport urllib.requestDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"HOUSING_PATH = os.path.join("datasets", "housing") # datasetstestHOUSING_

时间：2022-12-19

网上商城系统MySql数据库设计项目实战

网上商城系统MySql数据库设计

时间：2022-12-19

常见气象数据获取方式及批量下载代码汇总

26个来源的气象数据获取代码

时间：2022-12-19

毕业设计基于大数据的共享单车数据分析与可视化

时间：2022-12-19

大数据分析案例-对电信客户流失分析预警预测

在进入21世纪以来，中国电信业告别了20世纪最后阶段的高速发展状态，转而进入稳步发展阶段。近年来，随着通信的成本逐年下降，电信市场用户覆盖率近乎100%，几乎没有可开发的新市场，移动、联通、电信三大电信企业完全占据了电信服务市场，电信行业的不断进步，使得各大电信运营商自身服务体系不断完善，目前我国的三大运营商均实现了全业务经营，这意味着行业内存在产品、服务、模式等方面的高度同质化，企业间难以实现差异化竞争优势。现如今的竞争环境，迫使运营商的经营重点向有利于电信消费者的方向移动，为了维持客户的保有量，对

时间：2022-12-19

卡尔曼滤波

目录1.卡尔曼滤波入门2.学卡尔曼滤波的必备知识2.1.状态空间表达式2.2.高斯分布2.3.方差2.4.超参数2.5.卡尔曼直观图解3.卡尔曼滤波3.1.卡尔曼公式理解3.2.调节超参数3.2.1.Q和R的取值3.2.2.P0和X0的取值3.2.3.卡尔曼滤波的使用...

时间：2022-12-19

Python大数据-电商产品评论情感数据分析

一、项目背景网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物，产生了海量的用户行为数据，用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。分析产品：韶音 AfterShokz Aeropex AS800骨传导蓝牙耳机运动无线耳骨传导耳机跑步骑行环法特别版（Aeropex AS800是AfterShokz韶音的网红新品，很多国内外

时间：2022-12-19

大数据项目之电商数仓、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试

但有时只有增量数据是不够的，我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前，先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。1）第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据，是bootstrap开始和结束的标志，不包含数据，中间的type为bootstrap-insert的数据才包含数据。2）一次bootstrap输出的所有记录的ts都相同，为bootstrap开始的时间。

时间：2022-12-06

[Hive]一篇带你读懂Hive是什么

✅作者简介：大家好,我是Philosophy7？让我们一起共同进步吧！

时间：2022-12-06

SPSS软件实操——ARIMA时间序列预测模型

案例：基于ARIMA模型对螺纹钢价格预测——以南昌市为例

时间：2022-12-06

[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件①

安装Hadoop、配置Hadoop 配置文件一、配置hadoop-env.sh文件二、配置 hdfs-site.xml 文件参数

时间：2022-12-06

主成分分析PCA及其可视化——python

一、主成分分析的原理主成分分析是利用降维的思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使问题得到简化，提高分析效率。主成分分析正是研究如何通过原来变量的少数几个线性组合...

时间：2022-11-28

关于我——人工智能专业大二的一年

作为人工智能专业的本科生，需要自己开辟一条适合自己走的路

时间：2022-11-25