大数据 - 编程之家

文章浏览阅读885次，点赞20次，收藏20次。

时间：2024-02-18

文章浏览阅读2.5k次，点赞61次，收藏60次。hive表常用优化策略

时间：2024-02-18

文章浏览阅读1.7k次，点赞44次，收藏17次。# 0 简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享 B站大数据分析可视化(源码+论文)项目获取：https://gitee.com/sinonfin/algorithm-sharing目前视频行业可以分为爱优腾为代表的长视频赛道，快手抖音为代表的短视频赛道，以及B站，B站的视频内容十分的丰富，因为独特的社区属性和基于UP主们的原创内容，打造了一个通过内容交流给用户带来愉悦感的社区型平台。长视频类型的平台就是指通过大量优质自制剧、综艺和电影版权来获取会员，对标的是Netflix。比如一部有可能要火的_b站每周必看榜数据分析

时间：2024-02-18

【大数据开发运维解决方案】超级详细的VMware16安装Redhat8&挂载镜像配置本地yum源&安装unixODBC教程

文章浏览阅读10w+次，点赞178次，收藏204次。这是一篇非常详细的介绍如何通过VMware安装redhat8操作系统的文章，并且介绍了如何配置网络让大家在windows机器通过xshell访问安装后的操作系统。以此为前提，给大家介绍了在没有yum源的内网环境中如何通过挂载系统镜像来制作yum源并介绍如何编译安装unixODBC。_vm配置本地yvm源

时间：2024-02-18

TikTok 是什么以及怎么分析运营数据

文章浏览阅读3.2k次。制作有创意的短视频内容：TikTok 是一个以短视频为主要形式的社交媒体应用，因此制作出有趣、有创意的短视频内容是吸引用户关注的关键。用户留存分析：分析用户的留存率，了解用户在不同时间段内的流失情况，以及用户留存的影响因素，例如产品体验、营销策略等。_tiktok短视频数据分析表

时间：2024-02-17

[Hadoop高可用集群]数仓工具之Hive的安装部署（超级详细，适用于初学者）

文章浏览阅读2.6k次，点赞2次，收藏14次。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive 建立在Hadoop 基础之上,Hive 与 Hadoop 紧密集成，其设计可快速对 PB 级数据进行操作。_完全分布式安装hive,配置oracle作为元数据库

时间：2024-02-17

瘦吧减脂 App 见证大数据与大健康的碰撞，成为数百万体重健康管理用户的选择...

文章浏览阅读871次，点赞22次，收藏20次。以数字化赋能健康管理为核心，着力打造集科技研发、智能硬件、生产物流、销售支持、社群服务、品牌支持、培训教育及大数据应用为一体的专业数字健康管理平台，神策数据签约客户瘦吧科技已累计服务全球数百万肥胖人群，注册用户遍及 103 个国家累计 370 万人次。为了更好地关注用户身体健康，以及为了让用户有更好的体验，瘦吧将先进的大数据分析与健康管理结合，带领团队创造性推出“瘦吧新一代科学减脂解决方案”，用“...

时间：2024-02-17

大数据Doris（六十五）：基于Apache Doris的数据中台2.0

文章浏览阅读1.2k次，点赞57次，收藏3次。对于明细数据在TiDB或者ES的，我们选择了在Flink中进行窗口聚合写入到下游Doris或者ES中。需要对监听的源表以及变更字段进行配置，在配置的interval时间窗口内多个源表进行扫描，然后将结果进行merge后生成参数，根据配置的threshold对参数进行拆分后传入多个insert sql中，并在每天凌晨进行T+1的全量聚合，修复微批计算的错误数据。由于之前我们的实时数仓只有ES，所以在使用Doris的初期，我们选择了通过Doris创建ES外表的方式来完善我们的Doris数仓底表。

时间：2024-02-17

物联网与大数据：创新应用与技术突破

文章浏览阅读893次，点赞22次，收藏17次。1.背景介绍物联网(Internet of Things, IoT)和大数据是当今最热门的技术趋势之一。物联网是指通过互联网将物体和日常生活中的各种设备连接起来，实现互联互通和信息共享。大数据则是指由于互联网、社交媒体等因素的兴起，数据量大、增长迅速、各种格式混合的数据集。物联网和大数据的结合，为我们提供了许多创新应用和技术突破。在这篇文章中，我们将从以下几个方面进行阐述：背景介绍...

时间：2024-02-17

spark介绍之spark streaming

文章浏览阅读1.7k次。spark streaming详细介绍_spark streaming

时间：2024-02-17

企业数字化转型有哪些好处？

文章浏览阅读1.2k次。从马车到汽车，从写信到智能手机，每一次技术革新所带来的都是生产力大发展，小到个人、家庭，大到企业、国家，都在每一轮技术革新中获得了好处。可以说，现在的企业数字化转型，就像是企业管理“工具”的一次大升级，成功转型势必会为企业带来更加强劲的发展动力。过时的技术、流程和客户关系管理困难是当前阻碍企业增长的主要障碍，数字化转型的主要目的之一，就是通过采用新技术和流程来简化操作、提高效率，并为客户提供更加卓越的客户体验。

时间：2024-02-17

不用机器学习不用大数据，给你讲通ChatGPT的深层原理

文章浏览阅读1.4w次，点赞137次，收藏143次。ChatGPT现在看来已经异常火爆了，很多人已经熟知，并且开始练习使用或者开始利用他开始实践了。但仍然有很多人在观望，在疑惑，今天狗哥不用那些高端大气的机器学习亦或是大数据还给你讲通ChatGPT深层到底是个啥逻辑。_chatgpt 源码不需要训练数据

时间：2024-02-17

大数据关联规则挖掘：Apriori算法的深度探讨

文章浏览阅读1.2k次，点赞40次，收藏34次。Apriori算法是一种用于挖掘数据集中频繁项集的算法，进而用于生成关联规则。这种算法在数据挖掘、机器学习、市场篮子分析等多个领域都有广泛的应用。关联规则挖掘是数据挖掘中的一个重要分支，其目标是发现在一个数据集中变量间存在的有趣的关联或模式。假设在一个零售商的交易数据中，如果客户购买了啤酒，他们也很有可能购买薯片。这里的“啤酒”和“薯片”就形成了一个关联规则。频繁项集是在数据集中出现次数大于或等于最小支持度（Minimum Support Threshold）的项的集合。

时间：2024-02-17

【大数据hive】hive 拉链表设计与实现

文章浏览阅读6.9k次，点赞68次，收藏79次。hive 拉链表设计与实现_如何实现拉链表流程

时间：2024-02-17

大数据中间件——Kafka

文章浏览阅读1.4k次。Kafka中间件的安装与启动_karafinstanceresolverexception

时间：2024-02-17

Hadoop与Spark横向比较【大数据扫盲】

文章浏览阅读1.9k次，点赞15次，收藏18次。例如，对于非常大的数据集，如果超过了 Spark 可以缓存的内存大小，Spark 可能需要频繁地将数据换出到磁盘，这会降低其性能。但由于 Spark 的内存计算特性，如果节点失败，可能需要从头开始重新计算，而 Hadoop 的 MapReduce 由于每个阶段的结果都保存在磁盘中，因此可能更能容忍节点失败。总的来说，Spark 和 Hadoop 的性能会根据具体的工作负载和数据集大小有所不同，但在大多数情况下，Spark 由于其内存计算的优势，通常会提供更高的性能。

时间：2024-02-17

Zookeeper 的安装配置

文章浏览阅读1.3k次，点赞4次，收藏6次。本文主要包括 zk 的简单介绍、zk 集群的安装配置以及zk 的启动。整个过程记录详细，每个步骤亲历亲为实测可用。同时，包含多个脚本文件的编写，便捷集群环境的搭建配置。_zookeeper安装和配置

时间：2024-02-16

Hudi源码 | Insert源码分析总结（二）(WorkloadProfile)

文章浏览阅读2.8k次，点赞51次，收藏36次。Hudi源码 | Insert源码分析总结（一）(整体流程)，继续进行Apache Hudi Insert源码分析总结，本文主要分析上文提到的关于的分析一共就这么多，主要是统计record中每个分区路径对应的insert/upsert数量以及upsert数据对应的fileId和,先持久化到.inflight文件中，然后给后面的使用。关于统计的这些信息是如何在中使用的，我们放在下篇文章中分析。_building workload profile

时间：2024-02-16

分布式计算第五章大数据多机计算：Hadoop

文章浏览阅读871次，点赞2次，收藏2次。• NameNode：每个集群一个（也可以有备份），用于维护文件系统的元数据（命名空间），执行文件系统命名空间上的操作，如打开、关闭、重命名文件和目录，以及确定块（Block）和DataNode的映射。• 针对大型数据集，典型文件大小为GB到TB级，不适合小文件读取，并应当在数百个节点上支持数千万的文件。由于数据中心的集群中往往包含数以万计的计算机，为顾及成本，集群往往使用较为廉价的普通商用硬件。• 在Hadoop中，计算是以作业（job）的形式发布，并被划分为任务（task）的形式执行。

时间：2024-02-16

元数据管理、治理、系统、建设方案、范例等

文章浏览阅读4.1k次，点赞8次，收藏41次。如果想建设好元数据系统，需要理解元数据系统的相关概念，如数据、数据模型、元数据、元模型、ETL、数据血缘等等。首先，要清楚数据的定义、数据模型的定义。数据一般是对客观事物描述的抽象，在数据库维度，数据是数据记录的简称，例如，个人的基本信息、产品信息等。数据模型是数据特征的抽象，它从抽象层次上描述了系统的静态特征、动态行为和约束条件，为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分，分别是数据结构、数据操作和数据约束。_数据治理元数据模板

时间：2024-02-16

Flink高手之路2-Flink集群的搭建

文章浏览阅读2.5k次。准备好数据文件上传hdfs首先要确保 hdfs 集群已经启动发现我们以前已经上传过了提交命令这个错误需要把flink-1.16.1与hadoop3进行集成。查看 flink web ui查看 hdfs web UI点击一个文件查看重启集群删除hdfs上以前创建的output文件夹提交任务，使用之前上传的数据查看结果杀掉hadoop001的master进程，并再次提交任务再次删除hdfs上之前创建的output文件夹再次提交任务，可以正常运行并查看结果，说明高可用搭建成功。_flink集群搭建

时间：2024-02-16

能源大数据：实现能源产业的竞争优势

文章浏览阅读833次，点赞24次，收藏14次。1.背景介绍能源大数据是一种利用大数据技术来分析、处理和优化能源产业的方法。在过去的几年里，能源产业面临着巨大的挑战，如能源供应的不稳定、能源价格的波动、环境污染等。这些问题使得能源产业需要更有效、更智能的方法来管理和优化其业务。大数据技术为能源产业提供了一种新的解决方案，通过对海量数据的分析和处理，能源大数据可以帮助能源产业更有效地管理资源、提高工作效率、降低成本、提高能源利用效率，并减...

时间：2024-02-16

大数据概念与术语简介

文章浏览阅读1.8k次，点赞46次，收藏37次。大数据是一个总称，用于描述从大型数据集中收集、组织、处理和获取见解所需的非传统策略和技术。虽然处理超出单台计算机的计算能力或存储容量的数据并不是一个新问题，但近年来，这种类型的计算的普及性、规模和价值大大扩展。在本文中，我们将从基本层面讨论大数据，并定义您在研究该主题时可能遇到的常见概念。我们还将高层次地审视当前在这一领域使用的一些流程和技术。“大数据”的确切定义很难确定，因为项目、供应商、从业者和业务专业人士使用它的方式各不相同。考虑到这一点，一般来说，大数据大型数据集。

时间：2024-02-16

python智慧交通数据分析系统时间序列预测算法爬虫出行速度预测拥堵预测大数据毕业设计（源码）✅

文章浏览阅读1k次，点赞14次，收藏10次。python智慧交通数据分析系统时间序列预测算法爬虫出行速度预测拥堵预测大数据毕业设计（源码）✅

时间：2024-02-16

【大数据学习问题记录】ssh 免密码登录（设置后仍需输密码的原因及解决方法）

文章浏览阅读1.3k次。当nameNode通过ssh连接到datanode时,datanode就会生成一个随机数并用namenode的公钥对随机数进行加密并发送给nameNode, namenode收到加密数值后,用私钥解密,并将解密数回传给datanode,datanode确认无误后就允许namenode进行连接了;Namenode作为客户端,要实现无密码公钥认证,连接到datanode上时需要在namenode上生成一个密钥对,包括一个公钥和一个私钥,而后将公钥复制到datanode上;链接本地~仍然需要密码。_ssh public key 配置后仍然需要输入密码

时间：2024-02-15

文章浏览阅读1.3k次，点赞24次，收藏27次。大数据毕业设计：租房推荐系统 python 租房大数据爬虫+可视化大屏计算机毕业设计（附源码+文档）✅_毕业设计基于大数据的个人租房推荐系统设计与实现

时间：2024-02-15

大数据 Hive - 实现SQL执行

文章浏览阅读1.3k次，点赞28次，收藏20次。从图上看，join的MapReduce计算过程和前面的group by稍有不同，因为join涉及两张表，来自两个文件（夹），所以需要在map输出的时候进行标记，比如来自第一张表的输出Value就记录为<1, X>，这里的1表示数据来自第一张表。这样经过shuffle以后，相同的Key被输入到同一个reduce函数，就可以根据表的标记对Value数据求笛卡尔积，用第一张表的每条记录和第二张表的每条记录连接，输出就是join的结果。问题的答案，也就是这个神奇的工具就是Hadoop大数据仓库Hive。_hive 提交sql到运行

时间：2024-02-15

【大数据Hive】hive select 语法使用详解

文章浏览阅读5.3k次，点赞88次，收藏85次。hive 查询语法使用详解_hive select查询语法

时间：2024-02-15

如何部署WebSpoon9.0.0(Kettle的Web版本)

文章浏览阅读1.5w次，点赞5次，收藏23次。基于开源ETL工具Kettle的Web版本，本文记录了从拉取项目到成功运行的全过程。_webspoon

时间：2024-02-15

大数据关键技术之数据采集电商数据采集电商API接口接入发展趋势

文章浏览阅读868次，点赞8次，收藏16次。现代的数据采集系统已经逐步向着网络化的方向发展。未来，数据的多模多态是数据存在的原始形式，对伴随技术发展、场景化发展和时长要求，需要将更多多模多态数据汇聚分析从而产生更大的社会价值和意义显得格外重要。但随着大数据和物联网等技术的提出，各行各业对数据采集的发展提出了更高的要求，同时其正逐步的向智能化、网络化、高速化、小型化的方向发展。未来，高速发展的行业，相对而言数据采集工作将发展和变革的更为明显，如人工智能领域、自动驾驶、智慧交通、环境监测、点子保健、零售和电商、能源管理等方面对数据采集的要求会更高。

时间：2024-02-15