牛年第一问:有自动整理相似数据/LOG的软件嘛?

工作中会使用一些软件,他们会产生大量数据,并且以一定的内容结构保存为多行log,或者txt,或者csv,或者excel。
这些数据要看也能看,但是如果几十笔数据需要分析对比,往往需要文本编辑器打开,用正则或者什么东西批量替换预处理一下,再粘贴到excel,再用筛选把相似的小节合并到一起。操作相当繁琐费事。
所以有没有软件能够自动分析多个文件,自动解析出数据结构,然后我可以对所有文件中的某一项的数据进行快速查看比较呢?

如果是apche服务器的log, 这种的话, 有专门的日志查看筛选工具.

不是特定软件的log,想找个通用的软件。
如果实在没有,打算自己试着凑一个出来(好处是慢慢搞总能凑合解决自己的大部分问题,坏处是自己能力有限估计要花大量时间,效率和美观方面也会很有问题)

excel导入数据

这种相似具体是如何地相似,发生不同的原因又是什么?先分析这个问题吧。
否则,硬干的话,或者效率还比不上你现用的工具。

你可以写个python脚本,把文件合并、预处理、导入excel这部分自动化,用excel数据分析熟练了之后就可以在python里自动分析了

带界面的软件不知道,感觉如果懂一点命令行的话,ES家的logstash和filebeat都是可以完成从多个入口(各种格式文件)输出成一种结构化数据
缺点就是需要数据库或者一个文件持久化(其实也算ETL洗数据了)

或者可以搜下非结构化数据处理这块

相似的原因是数据来源于相似条件下的实验,由同一个软件自动输出的log。
往往在不同的实验中,使用的工具、输出的log显然又是不同的。
工作用的电脑偶尔拷贝一个免安装的软件还行,现调试现编译一个专用工具也是不现实的。
所以现在一般靠人脑看个大概,然后对必须分析的东西手动预处理然后合并到excel里分析。

我举一个简单的例子,假设每次实验产生3笔数据(item1-3),需要进行10次实验。软件输出的数据是优先横向排布,输出够一定长度时自动换行(在本示意图中表现为输出3次实验数据进行换行)
目前手动处理,需要为每一笔数据标注这是第几次实验,然后把第3n 、3n+2次的数据剪切到第3n+1次实验的数据下方,对实验序号再进行排序。
要说很费力,也不是,还是有点费力,实验次数多了操作次数就多了,操作次数多了容易失误,失误了再核对就麻烦了

每笔数据存储为一个csv log的例子我也找了2个文件:
链接: https://pan.baidu.com/s/1cdvvye2tmOIPSFG33Ucm8w 提取码: t2ar

这些都是格式非常不规则的数据,一般只能自己针对每一种日志写一个脚本解析,没有通用软件能搞定的,再有就是看看你实验用的软件有没有办法输出其他格式的数据,比如自己解析实验软件的二进制日志。
python虽然不是免安装,但脚本不用编译,随时可以调试修改。

往python里导呗,能导入到pandas就成功一半了。
好像一些大的科学计算会有很大的数据量,这个时候效率也很重要。
这些方面都是自己写的,没人可以预先替你写一个你将来要研究的内容,哪不先知了?要么别人研究过的。