perl – 用git高效重写(rebase -i)很多历史

我有一个git存储库,在最新版本中有大约3500个提交和30,000个不同的文件.它代表了来自多个人的大约3年的工作,我们已经获得了使其全部开源的许可.我正在努力发布整个历史记录,而不仅仅是最新版本.为此,我感兴趣的是“回到过去”并在创建文件时在文件顶部插入许可证标题.我实际上有这个工作,但完全用ramdisk运行大约需要3天,但仍然需要一些手动干预.我知道它可以快得多,但我的git-fu不能完成任务.

问题是:如何更快地完成同样的事情?

我目前做什么(在脚本中自动化,但请耐心等待……):

>确定将新文件添加到存储库的所有提交(其中只有500个,fwiw):

git whatchanged --diff-filter=A --format=oneline

>将环境变量GIT_EDITOR定义为我自己的脚本,在文件的第一行只用一次编辑替换pick(你很快就会明白为什么).这是该操作的核心:

perl -pi -e 's/pick/edit/ if $. == 1' $1

>对于上面git以上输出的每个提交,在添加文件的提交之前调用交互式rebase:

git rebase -i decafbad001badc0da0000~1

我的自定义GIT_EDITOR(perl one-liner)更改选择进行编辑,我们将被删除到shell以更改新文件.另一个简单的header-inserter脚本在我试图插入的标题中查找已知的唯一模式(仅在已知文件类型中(*.[chS] for me)).如果它不存在,则插入它,然后git添加文件.这种天真的技术不知道在当前提交期间实际添加了哪些文件,但它最终做了正确的事情并且是幂等的(对同一文件多次运行是安全的),并且不是这整个过程瓶颈的地方无论如何.

在这一点上,我们很高兴我们已经更新了当前的提交,并调用:

git commit --amend
    git rebase --continue

反叛 – 继续是昂贵的部分.因为我们为whatchanged的输出中的每个修订调用一次git rebase -i,这就是很多重新定位.这个脚本运行的几乎所有时间都花在观看“Rebasing(2345/2733)”计数器增量上.

它也不仅仅是缓慢的.必须解决定期发生的冲突.至少在这些情况下(但可能更多)会发生这种情况:(1)当“新”文件实际上是现有文件的副本时,对其第一行(例如,#include语句)进行了一些更改.这是一个真正的冲突,但在大多数情况下可以自动解决(是的,有一个处理它的脚本). (2)删除文件时.通过确认我们想要用git rm删除它,这是可以轻易解决的. (3)有些地方似乎差异只是表现不好,例如,改变只是添加一个空行.其他更合理的冲突需要人工干预,但总的来说它们不是最大的瓶颈.最大的瓶颈绝对只是坐在那里盯着“Rebasing(xxxx / yyyy)”.

现在,单个rebase是从较新的提交启动到较旧的提交,即从git输出的顶部开始.这意味着第一个rebase影响了昨天的提交,最终我们将从3年前重新定位提交.从“较新”到“较旧”似乎是违反直觉的,但到目前为止,我并不认为这很重要,除非我们在调用rebase时将多个选项更改为编辑.我害怕这样做是因为冲突确实到来了,而且我不想处理冲突的浪潮,试图一次性改变一切.也许有人知道避免这种情况的方法吗?我无法想出一个.

我开始研究git对象1的内部工作原理!看起来似乎应该有一种更有效的方法来遍历对象图并只进行我想要进行的更改.

请注意,这个存储库来自一个SVN存储库,我们实际上没有使用标签或分支(我已经git过滤器将它们分开),所以我们确实有直线历史的便利.没有git分支或合并.

我确定我已经遗漏了一些关键信息,但是这个帖子似乎已经过了很长时间.我会尽力按要求提供更多信息.最后,我可能需要发布我的各种脚本,这是一种可能性.我的目标是弄清楚如何在git存储库中重写历史;不要讨论其他可行的许可和代码发布方法.

谢谢!

更新2012-06-17:Blog post以及所有血腥细节.

解决方法

运用
git filter-branch -f --tree-filter '[[ -f README ]] && echo "---FOOTER---" >> README' HEAD

本质上会在README文件中添加一个页脚行,历史看起来就像文件创建后一直存在,我不确定它是否足够有效,但这是正确的方法.

制作一个自定义脚本,你可能最终得到一个好的项目历史,做太多“魔术”(rebase,perl,脚本编辑等)可能会以意想不到的方式丢失或改变项目历史.

jon(OP)使用这种基本模式来实现显着简化和加速的目标.

git filter-branch -d /dev/shm/git --tree-filter \
'perl /path/to/find-add-license.pl' --prune-empty HEAD

一些性能关键的观察.

>使用-d<目录>指向ramdisk目录的参数(如/ dev / shm / foo)将显着提高速度.
>使用其内置语言功能从单个脚本执行所有更改,使用小实用程序(如查找)时完成的分支将使该过程多次减慢.避免这个:

git filter-branch -d /dev/shm/git --tree-filter \
'find . -name "*.[chS]" -exec perl /path/to/just-add-license.pl \{\} \;' \
--prune-empty HEAD

这是OP使用的perl脚本的清理版本:

#!/usr/bin/perl -w
use File::Slurp;
use File::Find;

my @dirs = qw(aDir anotherDir nested/DIR);
my $header = "Please put me at the top of each file.";

foreach my $dir(@dirs) {
  if (-d $dir) {
    find(\&Wanted,$dir);
  }
}

sub Wanted {
  /\.c$|\.h$|\.S$/ or return; # *.[chS]
  my $file = $_;
  my $contents = read_file($file);
  $contents =~ s/\r\n?/\n/g; # convert DOS or old-Mac line endings to Unix
  unless($contents =~ /Please put me at the top of each file\./) {
    write_file( $file,{atomic => 1},$header,$contents );
  }
}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


1. 如何去重 #!/usr/bin/perl use strict; my %hash; while(&lt;&gt;){ chomp; print &quot;$_n&quot; unless
最近写了一个perl脚本,实现的功能是将表格中其中两列的数据进行拼凑,然后将拼凑后的数据用“|”连接在一起。表格内容如下: 员工号码员工姓名职位入职日期1001张三销售1980/12/17 0:00:
表的数据字典格式如下:如果手动写MySQL建表语句,确认麻烦,还不能保证书写一定正确。写了个Perl脚本,可快速构造MySQL脚本语句。脚本如下:#!/usr/bin/perluse strict;m
巡检类工作经常会出具日报,最近在原有日报的基础上又新增了一个表的数据量统计日报,主要是针对数据库中使用较频繁,数据量又较大的31张表。该日报有两个sheet组成,第一个sheet是数据填写,第二个sh
在实际生产环境中,常常需要从后台日志中截取报文,报文的形式类似于.........一个后台日志有多个报文,每个报文可由操作流水唯一确定。以前用AWK写过一个,程序如下:beginline=`awk &
最近写的一个perl程序,通过关键词匹配统计其出现的频率,让人领略到perl正则表达式的强大,程序如下:#!/usr/bin/perluse strict;my (%hash,%hash1,@arra
忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架(巧的是 PerlBuzz 最近也有一篇相关的讨论帖),于是乎,决定在我自己的 blog 上也贴一下 :) 原生 CGI/FastCGI 的 web app 对于较小的应用非常合适,但稍复杂一些就有些痛苦,但运行效率是最高的 ;) 如果是自己用 Perl 开发高性能的站,多推荐之。 Catalyst, CGI::A
bless有两个参数:对象的引用、类的名称。 类的名称是一个字符串,代表了类的类型信息,这是理解bless的关键。 所谓bless就是把 类型信息 赋予 实例变量。 程序包括5个文件: person.pm :实现了person类 dog.pm :实现了dog类 bless.pl : 正确的使用bless bless.wrong.pl : 错误的使用bless bless.cc : 使用C++语言实
gb2312转Utf的方法: use Encode; my $str = "中文"; $str_cnsoftware = encode("utf-8", decode("gb2312", $str));   Utf转 gb2312的方法: use Encode; my $str = "utf8中文"; $str_cnsoftware = encode("gb2312", decode("utf-8
  perl 计算硬盘利用率, 以%来查看硬盘资源是否存在IO消耗cpu资源情况; 部份代码参考了iostat源码;     #!/usr/bin/perl use Time::HiRes qw(gettimeofday); use POSIX; $SLEEPTIME=3; sub getDiskUtl() { $clock_ticks = POSIX::sysconf( &POSIX::_SC_
1 简单变量 Perl 的 Hello World 是怎么写的呢?请看下面的程序: #!/usr/bin/perl print "Hello World" 这个程序和前面 BASH 的 Hello World 程序几乎相同,只是第一行换成了 #!/usr/bin/perl ,还有显示的时候用的是 print,而不是 echo。有了前面 BASH 基础和 C 语言的基础,许多 Perl 的知识可以很
本文介绍Perl的Perl的简单语法,包括基本输入输出、分支循环控制结构、函数、常用系统调用和文件操作,以及进程管理几部分。 1 基本输入输出 在 BASH 脚本程序中,我们用 read var 来实现从键盘的输入,用 echo $var 来实现输出。那么在 Perl 中将有一点变化。Perl 中将标准输入用关键词 表示;标准输出用 表示,标准错误输出用 表示。故而从标准输入读取数据可以写成: $
正则表达式是 Perl 语言的一大特色,也是 Perl 程序中的一点难点,不过如果大家能够很好的掌握他,就可以轻易地用正则表达式来完成字符串处理的任务,当然在 CGI 程序设计中就更能得心应手了。下面我们列出一些正则表达式书写时的一些基本语法规则。 1 正则表达式的三种形式 首先我们应该知道 Perl 程序中,正则表达式有三种存在形式,他们分别是: 匹配:m/<regexp>/ (还可以简写为 /
在学习Perl和Shell时,有很多人可能会问这样一个问题,到底先学习哪个或者学习哪个更好! 每个人都有自己的想法,以下是个人愚见,请多多指教! Perl是larry wall为解决日常工作中的一个编程问题而产生的,它最初的主要功能是用于分析基于文本的数据和生成这些数据的统计和结果;尽管初衷很简单,但是后来发展了很多特点: 1、Perl是一种借鉴了awk、C、sed、shell、C++、Java等
Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解一些常用的参数. (重点提示:在window下执行命令行程序的方式为 : perl -e "some code", 注意:是双引号啊,不是单引号,linux下执行时单引号) Safety Net Options 在使用 Perl 尝试一些聪明( 或 stupid) 的想法时, 错误难免会发生. 有经验的 P
转自: http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像perl代码,而不是像C或者BASIC代码,最好的办法就是去了解perl的内置变量。perl可以通过这些内置变量可以控制程序运行时的诸多方面。 本文中,我们一起领略一下众多内置变量在文件的输入输出控制上的出色表现。 行计数 我决定写这篇文章的一个原因就是,当我发现
2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # 2005 - 2007 # BackConnectShell + Rootlab t00l # priv8! # 3sk0rbut0@gmail.com # # Backconnect by data cha0s (modifica
转自: http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像perl代码,而不是像C或者BASIC代码,最好的办法就是去了解perl的内置变量。perl可以通过这些内置变量可以控制程序运行时的诸多方面。 本文中,我们一起领略一下众多内置变量在文件的输入输出控制上的出色表现。 行计数 我决定写这篇文章的一个原因就是,当我发现
黑莓 手机 屏幕发展历程对比 blackberry 各型号屏幕大小   黑莓手 机 一直在不断发展且新机型 也在不断上市. 因此,不同黑莓机型的屏幕分辨率也在不断变化着. 总的来说,屏幕分辨率一直在提高并且越来越清晰.我们对所有的黑莓 机型的屏幕分辨率做了个对比.~51blackberry ~com     可能大家特别感兴趣是新发布的黑莓机型,它的分辨率也是黑莓 机型中前所未有的.   黑莓 b
      公司里没有我用惯的UltraEdit的lisence了, 只能无奈转向开源的Notepad++, 找了半天才知道配置运行Perl的办法。         1,用Notepad++打开.pl文件,         2, F5或者Run->Run,打开运行窗口,在下面的框框里输入:Perl -w "$(FULL_CURRENT_PATH)", 然后Save,保存成一个命令就行,名字比如叫R