开源经验分享 | 如何从一名小白成为Apache Hudi Contributor

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun

前言

参与Apache Hudi开源有一年多的时间了,马上1024了,虽然距离成为Apache Hudi Commiter还有很遥远的距离,但还是想跟大家分享一下自己的开源经验,讲一下自己如何从开源小白成为Apache Hudi Contributor的。

PR

如何提交PR,可以参考我转载的这篇:一行代码成为Apache Contributor,这篇文章讲述了怎么提交PR,怎么邮箱订阅以及Jira准备等,详细过程我就不再阐述了,这篇文章主要想分享自己的经验。

Contributor

我自己之前连Contributor是啥都不知道,其实只要你向社区提交过代码也就是在GitHub上提过PR并且你的代码被merge了,你就是Contributor了,再往上还有Commiter、PMC等,这些我之前都没听过,一般来说你贡献的代码比较多,比如贡献过一个比较大的模块如Hudi Spark SQL,或者你可以负责一个模块,经过PMC的提名、投票等,通过的话就会成为Commiter了,根据我的经验,当贡献代码行数过万时成为Commiter就比较有希望了,当然不是绝对的。Commiter有专门的Apache 账户,有权限merge代码,至于PMC,大家可以自己去了解。

上面提到当我们提交的代码mere后,我们就是Contributor了,那么怎么确认一下呢。一种方法是在PR的界面上,可以看到Contributor的标识

在这里插入图片描述

还可以在Contributor贡献列表中看到自己的名字:https://github.com/apache/hudi/graphs/contributors

在这里插入图片描述

当然这里只显示前100名,对于Contributor比较多的项目,我们只提交了一个PR,在这个页面就看不到自己的名字了,就很遗憾,我们可以拉取master最新代码,通过git log等命令模拟这个列表看到自己的名字,当然也可以在git 提交历史中看到自己的PR。而对于比较早期的项目,比如前几年Hudi的贡献者还不到100个,就可以直接看到自己的名字了,再比如现在的Apache Kyuubi项目https://github.com/apache/incubator-kyuubi/graphs/contributors,我只提交了一个PR,就可以看到自己的名字了。

在这里插入图片描述

对于第一次参与开源贡献PR的,能在贡献列表中看到自己的名字,还是非常开心的,反正我当时特别开心。

PR规范

对于修改单词拼写错误的也就是示例中的fix typo,我们是不需要在jira中创建issue的,标题就和示例中一样,前面加个[MINOR]即可,而对于修改代码逻辑的比如bug修复、添加新的特性支持,就要在jira里(https://issues.apache.org/jira/projects/HUDI/summary)先建一个issue,然后再在PR标题的前面加上[HUDI-对应的issueId],比如我的第二个PR:https://github.com/apache/hudi/pull/3415,标题为[HUDI-2279]Support column name matching for insert * and update set *,对应的jira为https://issues.apache.org/jira/browse/HUDI-2279

在这里插入图片描述

新建issue时,如下图

在这里插入图片描述

我们要填的有:问题类型、概要、模块、描述,问题类型有改进、故障、新功能等,概要就是标题,描述写具体我们要干啥,可以贴代码、异常信息等,也可以先建好之后再写描述,最后选一下分配给我,意思是我们自己认领这个issue,我们会自己提PR解决,当然也可以认领别人建的没有分配的issue。

对于PR的规范除了标题外,如果我们修改的逻辑比较复杂,我们需要写一下我们大概修改了什么,修改的逻辑是啥,当然这里也可以填写问题复现的过程,支持Markdown语法。

对于其他的Apache 项目,比如Spark,除了JIRA ID外还需要填写模块名称比如 [SPARK-32672][SQL],而有的项目JIRA不是必须的,比如Apache Kyuubi,至少我提交的一个PR是不需要的:https://github.com/apache/incubator-kyuubi/pull/3604

另外PR中的描述和交流都用英语,对于英语不好的,可以通过翻译辅助,开始可能比较困难,有经验了,就不会那么难了 。

代码规范

除了PR规范外,代码格式也是有规范的,每个项目的代码的规范也不太一样,一般的代码格式有空格、tab检查等,还有的import也会检查,Hudi Java代码的import会检查有没有导入.*的,比如java.util.*是不允许的,所以大家修改代码的时候需要注意规范,这样可以提高效率,否则PR的检查不会通过。除了代码格式外,我们还需要添加测试用例来验证我们修改的逻辑,关于怎么写测试用例,我们可以参考源码里其他的测试用例是怎么写的。

PR流程

我们提交了PR后,首先是需要其他的大佬们也就是Commiter或PMC review代码,如果修改的代码逻辑比较简单,且问题比较明显,可能很快就会有人review并且没问题的话就会merge到master了,如果逻辑复杂或者问题不明显或者有争议的可能会比较慢,我们需要慢慢等待,如果比较着急的话,可以主动@一下相关的Commiter或PMC帮忙review。

在这里插入图片描述

review的过程中,大佬们对于有疑问的地方,会提出问题让我们解答,对于代码逻辑或者代码规范不合适地方需要我们修改代码再次提交,这个过程可能会重复多次。当修改的没有问题的时候,大佬会先approved these changes

在这里插入图片描述


证明他觉得没问题了,可能会立即merge也可能会等其他的大佬再看看,再merge。

在这里插入图片描述


cc的意思是看看的意思,应该是see see的简写吧。

approved前后或者merge前后可能会留言LGTM,它是 look good to me的简写,意思是对我来说看起来不错,这可能对于第一次提交PR的人有点陌生,看到这句话我们可以不用回复。而像这样的简写还有很多,慢慢地我们就能知道它们是什么意思了。

在这里插入图片描述

Git经验

对于没有review的代码,如果我们需要修改代码重新提交,可以利用git commit --amend命令然后强制提交代码,这样看起来commit会整洁一些,另外可能项目环境不稳定,本来我们提交的代码没有问题,但是测试用例因为环境问题跑失败了,我们需要重新提交代码触发,这样也需要这个命令,这个命令可以不用修改代码,直接强制提交代码。

git commit --amend
## -f 强制提交
git push origin-dkl HUDI-2279 -f

而对于review后,reviewer需要我们修改相关的代码,我们修改后,最好是不用amend,需要提交一个新的commit,并且描述中填写我们修改了什么内容,方便reviewer查看比较我们修改了哪些内容。(这一点我也是最近才知道~)

在这里插入图片描述

另外GitHub国内网络不稳定,并且有的公司网连接不上GitHub、Jira等,我们可以用自己手机的热点,这样就可以连接上了。

其他Git相关的问题,可以自己网上搜索解决方案。比如如何解决冲突问题,虽然自己当时提PR时没有冲突,但是随着别人PR合并,可能就有冲突了,这个时候需要我们自己解决冲突。

在这里插入图片描述

代码

代码我们一定要基于master最新版,这样不会有冲突,也防止我们要改的内容已经被别人提交过了。

我们要首先学会自己打包源码,比如Hudi

## 默认版本
mvn clean package -DskipTests

## 指定Spark版本
mvn clean package -DskipTests -Dspark3.1 -Dscala-2.12

其他相关命令可以在源码中的README中查看,这样我们可以利用自己打的包验证我们修改的代码有没有问题,因为很多代码在本地是无法验证的,比如同步Hive相关的。

如何找到贡献点

对于刚入门的小白来说,比如当时的我,由于工作原因,写代码并不多,主要打杂(作者之前干过Python机器学习、JSP前后端、VUE纯前端等)或者写sql(大数据方向写sql还是比较多的),那么该怎么发现比较简单的自己能够贡献的点呢?分享自己的几点经验

  • 1、如果工作中用到了Hudi,那么大概率会发现问题,比如一些异常或者哪里不支持等,这样我们就可以根据异常相关信息,带着问题去看源码,看看是不是bug,如果是自己能看懂,并且比较简单就可以修复的话,我们就可以提交PR了,如果问题比较难解决,也没问题,至少我们对于源码多理解了一点,我们再看其他的问题,等我们有能力了再来解决。
  • 2、在自己学习时,比如根据官网文档写demo时,发现一些地方不支持或者有问题,可以debug跟一下代码,看看自己是否可以贡献PR。
  • 3、学习时对于自己感兴趣的点,比如预合并或者Clean是如何实现的,可能在学习的时候发现代码里的逻辑有问题或者有优化的地方,就可以提交PR了。其实在我们前面总结的几篇文章里可以发现,我在总结时就发现了问题,顺便提了PR,比如:Hudi DeltaStreamer使用总结
  • 4、没事就看看别人提交的自己感兴趣的PR,可以给自己一些灵感,或者发现别人提交的PR有bug,并且已经merge了,这样我们不仅可以学习别人提交的代码,也可以增加自己的贡献数。
  • 5、没事就拉一下最新代码,比如新版本发布了,我们测试一下新版本有没有bug,因为我们平时自己用的版本,可能很难发现问题了,但是新版的代码因为加了很多新功能等,就会暴露出一些问题。
  • 6、有时间可以在GitHub上看一下别人提交的issue,地址:https://github.com/apache/hudi/issues,如果有自己擅长的,也可以尝试提PR解决一下。
  • 7、当自己贡献代码比较多了,对代码理解比较深入了,就可以增加一些新的特性了。
  • 8、对于一些大厂来说,本身就基于源码开发了很多特性以支持自己的业务,他们会定期贡献到开源社区。对于很多小厂或者项目上用Hudi用的不多的来说,可能就比较难了,但是也可以作为一种思路,可以试着修改源码适应自己的需求,这样在自己的项目中验证没问题后,就可以贡献到社区了。这也就是为啥很多大佬一个PR就可以上万行代码,很快成为commiter的原因,当然他们本身就很强,可能是多个Apache 项目的Commiter。

开源的好处

首先开源是没有钱赚的~

  • 1、可以提升自己的代码水平,大佬的review也可以让自己学到很多。
  • 2、可以加深自己所用技术的理解,其实很多功能配置参数或者功能特性,网上包括官网资料很少或者没有(更新延迟),当我们熟悉了源码后,我们可以在源码里找到答案,直接解决我们的问题。
  • 3、可以给自己的简历加分,我看到很多招聘需求里提到,如果常用的技术组件有贡献代码的话,会加分或者优先考虑,还有大厂直接招这种开源岗位的。
  • 4、会认识很多大厂的大佬,认识很多优秀的人,如果想换工作的话,可以找他们内推。
  • 5、如果贡献比较多的话,会有大厂的负责人主动加你好友,问你有意向去他们那吗,比如我就被某大厂数据湖负责人加过好友问过面试意向。当然这并不代表我的水平已经能进大厂了,但起码多了一个机会。另外如果我们成为Commiter(主流开源技术)的话,我们进大厂就比较稳妥了,当然其实能够成为Commiter的,已经妥妥的大佬水平了。

相关阅读

原文地址:https://kelun.blog.csdn.net

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。