哪个大模型最适用于分析excel文件?

比如有10个excel文件,每个文件大概10000行数据,
要比较这些文件的差异,提取差异内容
要求准确,不要求速度
哪个大模型更适合干这种事儿?

补充:比如kimi,还是minimax,更适合干这种。我好决定买哪个模型的key

1 个赞

这只要让大模型调用python, 问题都不大吧

你能部署的大模型或者你有的大目前都行

听起来是个不太复杂的需求,您可以尝试详细描述您的问题,让大模型直接写一个 Python 脚本来处理。

此外,您也可以给一些示例,或许网上已经有现成的脚本/程序了。

1 个赞

哦,绕过模型,直接用python,我试试,忽略这个方式了。

另外就是我有些xls文件能达到2g或者3g,处理这种量级的文件,python也能搞定吗?

对于特别大的 xlsx 文件,可能先转成 csv 再处理会更安全。(但其实转成纯文本后,处理的方法就更多样了)

我没遇到过这么大的 xlsx 文件,不过如果电脑配置够高,应该也没事吧。

让大模型使用polars或者duckdb, 可以处理很大的数据,比如让大模型回答;

DuckDB Polars
语法 SQL DataFrame API
超大文件 :white_check_mark: 极好,流式处理 :white_check_mark: lazy模式
速度 极快 极快
内存占用 低(可超内存) 较低
适合场景 复杂查询、JOIN 数据清洗、转换

不过excel确实是个问题, 毕竟excel本质打包文件,好像不是很能流式处理

1 个赞

文件太大模型的上下文可能会爆掉吧
你让模型给你搞一个python做比较靠谱

office copolit我觉得还是不错的,我有日报报表里面的数据,好像只有他才能准确统计

这个容量,只要你的内存够,py处理起来是小意思了,当然,你要选对engine,不然读取很慢,不建议这么大的数据量用xlsx格式

其实 Microsoft Office 里自带了一个 xlsx 比较工具:Spreadsheet Comparer(不过应该是只有专业版的 Microsoft Office 才有)

点击 开始菜单 → Microsoft Office 工具 → Spreadsheet Comparer 就能启动它。

具体使用方法可参考本文:

1 个赞

第三方支援版:

1 个赞

感谢,这个不错,不过就是只能同时比较2个文件。