Shell script to show frequency of each word in file and in a directory
A - A1 - File1.txt - File2.txt -A2 - FileA21.txt -A3 - FileA31.txt - FileA32.txt B -B1 - FileB11.txt - FileB12.txt - FileB13.txt -B2 -FileB21.txt
我相信我理解这个问题是因为目录A和B是两个独立的目录,A1,A2和A; A3是A的子目录,B1和B2是B的子目录.所以我这样回答.
Find . ‘\(-name “A” –and –name “B”\)’ –type f –exec cat ‘{}’ \; | awk ‘{c[$1]++} END {for (i in c) print i,c[i]}’
但我仍然得到一个反馈,上面的脚本不够好.给定的脚本有什么问题?
问题没有提及任何关于一行中单词数量的内容,所以我认为这不是意图 – 你需要在一行中查看每个单词.还有,空行怎么样?使用空行,$1将是空字符串,因此您的脚本将最终计算“空”字(它将很乐意显示为输出的一部分).
在awk中,一行中的字段数存储在内置变量NF中;因此很容易编写代码来循环遍历单词并增加相应的计数(并且它具有隐含地忽略没有单词的行的良好副作用).
所以,我会做这样的事情:
find . -type f -exec cat '{}' \; | awk '{ for (i = 1; i <= NF; i++) w[$i]++ } END { for (i in w) printf("%-10s %10d\n",i,w[i]) }'
为了简洁起见,我删除了参数中的目录名约束来查找(1),并使其更通用.
这可能是(可能)解决方案的主要问题,但问题是(有意)含糊不清,还有很多事情需要讨论:
>区分大小写吗?该解决方案将世界和世界视为不同的词语.这是期望的吗?
>标点符号怎么样?你好,你好!被视为同一个词?逗号怎么样?也就是说,我们需要解析并忽略标点符号吗?
>说到哪 – 什么是什么比什么?我们认为他们是不同的词吗?它与它相比?英语很棘手!
>最重要的(与上述要点相关),究竟是什么定义了一个词?我们假设一个单词是一系列非空格(awk中的默认值).这准确吗?
>如果输入中没有单词,我们该怎么办?这个解决方案什么都不打印 – 也许我们应该打印警告信息?
>一行中是否有固定数量的单词?还是随意的? (例如,如果每行只有一个单词,那么你的解决方案就足够了)
FWIW,永远记住你在面试中的成功不是二元是/否.它不像:糟糕,你不能做X,所以我要拒绝你.或者:哎呀,错误的答案,你出去了.比答案更重要的是让你到达那里的过程,以及你是否知道(a)你做出的假设; (b)您的解决方案的局限性.上面的问题显示了考虑边缘情况的能力,澄清假设和要求的能力等,这比获得“正确”脚本更重要(可能没有“正确的脚本”这样的东西).
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。