统计代码行数有几种写法?

标签:UNIX, Shell

昨晚突然想统计一下项目的代码行数,不过IDE没有提供这个功能,于是只能自己实现了。

我最先想到的就是用Python了。方法很多,例如用os.walk()来遍历目录,然后过滤文件后缀名为源代码的(如py、html、js和css),再按行读取每个符合的文件,合计所有文件的行数。粗略看上去要2个循环和一个正则表达式。如果不按行读取,而是直接读完再查找'\n'的数目,则可以减少一个循环,不过当需求变更为不统计空行时,它就变得不够通用了。

但又想到自己在用Mac OS X,这种问题交给shell来解决不是更轻量级么?幸运的是,很快我就找到了遍历目录的find和统计行数的wc命令。
仍沿用上述方法的话,就类似于这样的结构了:
for file in `find $path`
do
  wc -l "$file"
done
不过上述写法实际上只统计了每个文件的行数,而没有统计总和。由于wc的结果包含了文件名,我不得不用sed来过滤出行数,再用expr求值并累加起来,感觉并不比Python轻松。

但首先还是把for去掉吧,看上去比较繁琐。翻了下文档发现有个-exec参数,于是便能写成这样了:
find $path -exec wc -l {} \;

接下来忘掉那个臃肿的sed。既然wc的结果由2部分组成,第一部分是行数,那么直接用awk命令来累加第一部分即可:
find $path -exec wc -l {} \; | awk '{lines += $1} END {print lines}'

虽然结果是拿到了,可总感觉效率低了点。于是想到可以直接把所有文件合并起来,当成一个整体传给wc:
find $path | xargs cat | wc -l

这下效率果然高多了,瞬间就得到了结果,不过内存占用或许会比较多。于是又看了下wc的文档,发现它可以接受多个文件参数,最后会输出总行数,于是cat也就可以省略了:
find $path | xargs wc -l

再交换下wc和find的位置,连xargs也能省略了:
wc -l `find $path`

这下应该不需要担忧性能了,于是再处理一下过滤部分,让它只统计py、html、js和css文件:
wc -l `find $path -regex ".*\.\(py\|html\|js\|css\)"`

可恶的是这段代码可耻地失败了,它能在Linux上正常运行,Mac OS X却不认账⋯
不经意间我发现BSD的find对正则表达式的处理和Linux是有差异的,这样写就OK了:
wc -l `find -E $path -regex ".*\.(py|html|js|css)"`

当然,即使不懂这些差异,用grep也是可以的:
wc -l `find $path | grep ".*\.\(py\|html\|js\|css\)"`

不得不说UNIX Shell实在太强大了,完成这么简单的任务都能有如此多种做法,不知道你还能想出多少种呢~

1条评论 你不来一发么↓ 顺序排列 倒序排列

    向下滚动可载入更多评论,或者点这里禁止自动加载

    想说点什么呢?