bash – 用于显示文件和目录中每个单词的频率的Shell脚本

我在采访中遇到了一个问题

Shell script to show frequency of each word in file and in a directory

A
    - A1
        - File1.txt
        - File2.txt
    -A2
        - FileA21.txt
    -A3
        - FileA31.txt
        - FileA32.txt
B
    -B1
        - FileB11.txt
        - FileB12.txt
        - FileB13.txt
    -B2
        -FileB21.txt

我相信我理解这个问题是因为目录A和B是两个独立的目录,A1,A2和A; A3是A的子目录,B1和B2是B的子目录.所以我这样回答.

Find . ‘\(-name “A” –and –name “B”\)’ –type f –exec cat ‘{}’ \; | awk ‘{c[$1]++} END {for (i in c) print i,c[i]}’

但我仍然得到一个反馈,上面的脚本不够好.给定的脚本有什么问题？

主要限制是脚本假定每行只有一个单词. c [$1]只增加每行第一个字段的出现次数.

问题没有提及任何关于一行中单词数量的内容,所以我认为这不是意图 – 你需要在一行中查看每个单词.还有,空行怎么样？使用空行,$1将是空字符串,因此您的脚本将最终计算“空”字(它将很乐意显示为输出的一部分).

在awk中,一行中的字段数存储在内置变量NF中;因此很容易编写代码来循环遍历单词并增加相应的计数(并且它具有隐含地忽略没有单词的行的良好副作用).

所以,我会做这样的事情：

find . -type f -exec cat '{}' \; | awk '{ for (i = 1; i <= NF; i++) w[$i]++ } END { for (i in w) printf("%-10s %10d\n",i,w[i]) }'

为了简洁起见,我删除了参数中的目录名约束来查找(1),并使其更通用.

这可能是(可能)解决方案的主要问题,但问题是(有意)含糊不清,还有很多事情需要讨论：

>区分大小写吗？该解决方案将世界和世界视为不同的词语.这是期望的吗？
>标点符号怎么样？你好,你好！被视为同一个词？逗号怎么样？也就是说,我们需要解析并忽略标点符号吗？
>说到哪 – 什么是什么比什么？我们认为他们是不同的词吗？它与它相比？英语很棘手！
>最重要的(与上述要点相关),究竟是什么定义了一个词？我们假设一个单词是一系列非空格(awk中的默认值).这准确吗？
>如果输入中没有单词,我们该怎么办？这个解决方案什么都不打印 – 也许我们应该打印警告信息？
>一行中是否有固定数量的单词？还是随意的？ (例如,如果每行只有一个单词,那么你的解决方案就足够了)

FWIW,永远记住你在面试中的成功不是二元是/否.它不像：糟糕,你不能做X,所以我要拒绝你.或者：哎呀,错误的答案,你出去了.比答案更重要的是让你到达那里的过程,以及你是否知道(a)你做出的假设; (b)您的解决方案的局限性.上面的问题显示了考虑边缘情况的能力,澄清假设和要求的能力等,这比获得“正确”脚本更重要(可能没有“正确的脚本”这样的东西).

bash – 用于显示文件和目录中每个单词的频率的Shell脚本

相关推荐