Unix/Linux编程实践教程–tail在OS X的实现

环境:OS X 10.12.4

tailhead的作用刚好相反,读出文件的最后n行。这个看起来好像比较简单,但是还是有很多需要考量的。大致考虑了下,我得出了三个方案。

Plan A

从头开始读,记录下每一个换行符的位置(定义一个变量记录了目前移动了几次),遇到EOF时,比如目前的换行符的个数为x,那么从第x - ( n - 1)个换行符的下一个字符开始打印至EOF即可。

优点

  • 可以使用缓存,减少系统调用。
  • 实现简单。

缺点

  • 需要读取整个文件的所有内容。
  • 记录每个换符的位置其实是比较费内存的,以前有一次接触过一个2个多G的文本文件,包含3000多万行。如果用一个int型数组来存这些个位置,大约需要114M内存,但int往往是不够的,假设3000万行,每个80个字符,总的字符数大约是24亿,超过signed int了。具体就不再缀述了。

Plan B

从尾开始读,每次向前跳1个字符,找到足够数据的换行符(不用存储换行符的位置),然后从那开始打印至EOF即可。

优点

  • 不用存储换行符的位置,空间代价小。
  • 实现简单。

缺点

  • 无法使用缓存字符,需要频繁的系统调用。

Plan C

从尾开始读,每次向前跳1024个字符,然后向下查找至上个End,过程中记录换行符的位置。

优点

  • 可以使用缓存,减少系统调用。

缺点

  • 需要记录换行符的位置。(此时最多记录1024个换行符的位置即可)
  • 实现相对复杂。(相对于前两个方案)

后来我仔细考虑了下,觉得可以将Plan B和Plan C结合一下,使用Plan B的方案实现tail,然后使用Plan C向前跳1024个字符的思想封装一个缓存模块,Plan B调用这个缓存模块获取上一个字符。这样的话,就可以结合它们的优点,同时消除缺点。

好,开始写缓存模块,可能大致是这样的。(和书中的utmplib.c类似)

xc_file_r.c

#include <unistd.h>
#include <fcntl.h>
#include <errno.h>
#include <stdio.h>
#include <stdlib.h>

char buf[BUFSIZ];
int cur = -1;
int num_sum = 0;
int fd = -1;

/* read only */
int xc_ropen(char *filename)
{
    /* open and then move to end */
    if((fd = open(filename,O_RDONLY)) == -1 || lseek(fd,0,SEEK_END) == -1){
        perror(filename);
        exit(1);
    }
    return fd;
}
int xc_rgetoffset(void)
{
    if(fd == -1)
        return -1;
    return lseek(fd,SEEK_CUR);
}
char xc_rreload(void)
{
    int bytes_read;
    static int pre_offset = -1;
    int offset;

    /* init */
    if(pre_offset == -1)
        pre_offset = xc_rgetoffset();
    /* the targer position is negative */
    if((offset = lseek(fd,-BUFSIZ,SEEK_CUR)) == -1)
        if(errno == EINVAL){ /* brace is needed to avoid `dangling else` */
            if((offset = lseek(fd,SEEK_SET)) == -1)
                perror("move"); 
        }else
            perror("move"); 
    num_sum = read(fd,buf,pre_offset - offset);
    cur = num_sum - 1;
    if(num_sum == 0)
        return EOF;
    if(num_sum == -1){
        perror("read");
        exit(1);
    }
    /* read option will move pointer to the next,so move back */
    lseek(fd,-num_sum,SEEK_CUR);
    pre_offset = offset;
    return buf[cur--];
}
char xc_rgetchar(void)
{
    if(fd == -1)
        return EOF;
    if(cur < 0)
        return xc_rreload();
    return buf[cur--];
}
void xc_rclose(void)
{
    if(fd != -1){
        if(close(fd) == -1){
            perror("close file");
            exit(1);
        }
        fd = -1;
    }
}

这时值得提的是,如果使用了lseek(fd,SEEK_END)之后,指针并不是指向最后一个字符,而是最后一个字符的下一个字符。还有就是lseek()的返回值是移动之后的位置相对于文件开始的位置的偏移(lseek() returns the resulting offset location as measured in bytes from the beginning of the file.),失败时返回-1。

还有一个问题就是如果现在的位置距离文件头还有不足BUFSIZ个字符,lseek()还向前移动BUFSIZ个字符时,lseek()会返回-1,并设置对应的errnoEINVAL

以上说明均参照man 2 lseek得出。

然后主体程序的实现就是比较简单的了,从后向前读,计算换行符个数,数够了之后从那个点开始打印即可。

tail.c

#include <stdio.h>
#include <stdlib.h>

void xc_ropen(char *filename);
char xc_rgetchar(void);
void xc_rclose(void);
int xc_rgetoffset(void);

void xc_open(char *aFName);
int xc_getchar(void);
void xc_close(void);
void xc_moveto(int offset);


int main(int ac,char *av[])
{
    char ch;
    int lines = 10;
    int cnt = 0;
    int offset;
    int char_count = 0;

    while(--ac && (*++av)[0] == '-'){
        switch(*++av[0])
        {
            case 'n':
                lines = atoi(*++av);
                if(lines <= 0){
                    fprintf(stderr,"Usage: tail [-n number] file. \n");
                    exit(1);
                }
                break;
            case 'c':
                /* do not implement */
                break;
        }
    }
    xc_ropen(*av);
    while((ch = xc_rgetchar()) != EOF){
        char_count++;
        if(ch == '\n')
            cnt++;
        if(cnt == lines){
            /* print from here on */
            xc_open(*av);
            char_count--;
            xc_moveto(-char_count);
            while((ch = xc_getchar()) != EOF)
                putchar(ch);
            xc_close();
            break;
        }
    }
    xc_rclose();
    return 0;
}

因为最后需要顺序打印出需要打印的部分,所有使用了以前写的xc_file.c

xc_file.c

#include <stdio.h>
#include <unistd.h>
#include <fcntl.h>
#include <stdlib.h>
#include <string.h>

/* BUFSIZ define in stdio.h,commonly is 1024 */
static unsigned char chBuf[BUFSIZ];
static int fd = -1;
static char fName[BUFSIZ];
static int chCur;
static int chSum;

void xc_readFromStdin(void)
{
    /* define in unistd.h */
    fd = STDIN_FILENO;
}

void xc_open(char *aFName)
{
    if((fd = open(aFName,O_RDONLY)) == -1){
        perror(aFName);
        exit(1);
    }
    strcpy(fName,aFName); /* record which file is opened */
    chCur = chSum = 0;
}

int xc_reload(void)
{
    int bytes_read;
    if((bytes_read = read(fd,chBuf,BUFSIZ)) > 0){
        chCur = 0;
        chSum = bytes_read;
        return chBuf[chCur++];
    }else if(bytes_read == -1){
        perror(fName);
        exit(1);
    }else if (bytes_read == 0)
        return EOF;
}

int xc_getchar(void)
{
    if(fd == -1)
        return EOF;
    if(chSum == chCur)
        return xc_reload();
    return chBuf[chCur++];
}

void xc_close(void)
{
    if(fd != -1)
    {
        if(close(fd) == -1){
            perror(fName);
            exit(1);
        }
        fd = -1;
    }
}
void xc_moveto(int offset)
{
    if(fd == -1)
        return ;
    if(lseek(fd,offset,SEEK_END) == -1){
        perror("target position are illegal");
        exit(1);
    }
}

效果

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


用的openwrt路由器,家里宽带申请了动态公网ip,为了方便把2280端口映射到公网,发现经常被暴力破解,自己写了个临时封禁ip功能的脚本,实现5分钟内同一个ip登录密码错误10次就封禁这个ip5分钟,并且进行邮件通知使用步骤openwrt为19.07.03版本,其他版本没有测试过安装bashmsmtpopkg
#!/bin/bashcommand1&command2&wait从Shell脚本并行运行多个程序–杨河老李(kviccn.github.io)
1.先查出MAMP下面集成的PHP版本cd/Applications/MAMP/bin/phpls-ls 2.编辑修改.bash_profile文件(没有.bash_profile文件的情况下回自动创建)sudovim~/.bash_profile在文件的最后输入以下信息,然后保存退出exportPATH="/Applications/MAMP/bin/php/php7.2.20/b
1、先输入locale-a,查看一下现在已安装的语言2、若不存在如zh_CN之类的语言包,进行中文语言包装:apt-getinstalllanguage-pack-zh-hans3、安装好后我们可以进行临时修改:然后添加中文支持: locale-genzh_CN.UTF-8临时修改> export LC_ALL='zh_CN.utf8'> locale永久
BashPerlTclsyntaxdiff1.进制数表示Languagebinaryoctalhexadecimalbash2#[0~1]0[0~7]0x[0~f]or0X[0~f]perl0b[0~1]0[0~7]0x[0~f]tcl0b[0~1]0o[0~7]0x[0~f]bashdifferentbaserepresntationreference2.StringlengthLanguageStr
正常安装了k8s后,使用kubect工具后接的命令不能直接tab补全命令补全方法:yum-yinstallbash-completionsource/usr/share/bash-completion/bash_completionsource<(kubectlcompletionbash)echo"source<(kubectlcompletionbash)">>~/.bashrc 
参考这里启动jar包shell脚本修改过来的#!/bin/bash#默认应用名称defaultAppName='./gadmin'appName=''if[[$1&&$1!=0]]thenappName=$1elseappName=$defaultAppNamefiecho">>>>>>本次重启的应用:$appName<
#一个数字的行#!/bin/bashwhilereadlinedon=`echo$line|sed's/[^0-9]//g'|wc-L`if[$n-eq1]thenecho$linefidone<1.txt#日志切割归档#!/bin/bashcd/data/logslog=1.logmv_log(){[-f$1]&&mv$1$2
#文件增加内容#!/bin/bashn=0cat1.txt|whilereadlinedon=[$n+1]if[$n-eq5]thenecho$lineecho-e"#Thisisatestfile.\n#Testinsertlineintothisfile."elseecho$linefidone#备份/etc目录#
# su - oraclesu: /usr/bin/ksh: No such file or directory根据报错信息:显示无法找到文件 /usr/bin/ksh果然没有该文件,但是发现存在文件/bin/ksh,于是创建了一个软连接,可以规避问题,可以成功切换到用户下,但无法执行系统自带命令。$. .bash_profile-ksh: .: .b
history显示历史指令记录内容,下达历史纪录中的指令主要的使用方法如果你想禁用history,可以将HISTSIZE设置为0:#exportHISTSIZE=0使用HISTIGNORE忽略历史中的特定命令下面的例子,将忽略pwd、ls、ls-ltr等命令:#exportHISTIGNORE=”pwd:ls:ls-ltr:”使用HIS
一.命令历史  1.history环境变量:    HISTSIZE:输出的命令历史条数,如history的记录数    HISTFILESIZE:~/.bash_history保存的命令历史记录数    HISTFILLE:历史记录的文件路径    HISTCONTROL:     ignorespace:忽略以空格开头的命令
之前在网上看到很多师傅们总结的linux反弹shell的一些方法,为了更熟练的去运用这些技术,于是自己花精力查了很多资料去理解这些命令的含义,将研究的成果记录在这里,所谓的反弹shell,指的是我们在自己的机器上开启监听,然后在被攻击者的机器上发送连接请求去连接我们的机器,将被攻击者的she
BashOne-LinersExplained,PartI:Workingwithfileshttps://catonmat.net/bash-one-liners-explained-part-oneBashOne-LinersExplained,PartII:Workingwithstringshttps://catonmat.net/bash-one-liners-explained-part-twoBashOne-LinersExplained,PartII
Shell中变量的作用域:在当前Shell会话中使用,全局变量。在函数内部使用,局部变量。可以在其他Shell会话中使用,环境变量。局部变量:默认情况下函数内的变量也是全局变量#!/bin/bashfunctionfunc(){a=99}funcecho$a输出>>99为了让全局变量变成局部变量
1、多命令顺序执行;  命令1;命令2  多个命令顺序执行,命令之间没有任何逻辑联系&&  命令1&&命令2  逻辑与,当命令1正确执行,才会执行命令2||  命令1||命令2  逻辑或,当命令1执行不正确,才会执行命令2例如:ls;date;cd/home/lsx;pwd;who ddif=输入文件of=输
原博文使用Linux或者unix系统的同学可能都对#!这个符号并不陌生,但是你真的了解它吗?首先,这个符号(#!)的名称,叫做"Shebang"或者"Sha-bang"。Linux执行文件时发现这个格式,会把!后的内容提取出来拼接在脚本文件或路径之前,当作实际执行的命令。 Shebang这个符号通常在Unix系统的脚本
1、历史命令history[选项][历史命令保存文件]选项:-c:  清空历史命令-w:  把缓存中的历史命令写入历史命令保存文件 ~/.bash_historyvim/etc/profile中的Histsize可改存储历史命令数量历史命令的调用使用上、下箭头调用以前的历史命令使用“!n”重复执行第n条历史
目录1.Shell脚本规范2.Shell脚本执行3.Shell脚本变量3.1环境变量3.1.1自定义环境变量3.1.2显示与取消环境变量3.1.3环境变量初始化与对应文件的生效顺序3.2普通变量3.2.1定义本地变量3.2.2shell调用变量3.2.3grep调用变量3.2.4awk调用变量3.3
   http://www.voidcn.com/blog/wszzdanm/article/p-6145895.html命令功能:显示登录用户的信息命令格式:常用选项:举例:w显示已经登录的用户及正在进行的操作[root@localhost~]#w 11:22:01up4days,21:22, 3users, loadaverage:0.00,0.00,0.00USER