比如有10个excel文件,每个文件大概10000行数据,
要比较这些文件的差异,提取差异内容
要求准确,不要求速度
哪个大模型更适合干这种事儿?
补充:比如kimi,还是minimax,更适合干这种。我好决定买哪个模型的key
比如有10个excel文件,每个文件大概10000行数据,
要比较这些文件的差异,提取差异内容
要求准确,不要求速度
哪个大模型更适合干这种事儿?
补充:比如kimi,还是minimax,更适合干这种。我好决定买哪个模型的key
这只要让大模型调用python, 问题都不大吧
你能部署的大模型或者你有的大目前都行
听起来是个不太复杂的需求,您可以尝试详细描述您的问题,让大模型直接写一个 Python 脚本来处理。
此外,您也可以给一些示例,或许网上已经有现成的脚本/程序了。
哦,绕过模型,直接用python,我试试,忽略这个方式了。
另外就是我有些xls文件能达到2g或者3g,处理这种量级的文件,python也能搞定吗?
对于特别大的 xlsx 文件,可能先转成 csv 再处理会更安全。(但其实转成纯文本后,处理的方法就更多样了)
我没遇到过这么大的 xlsx 文件,不过如果电脑配置够高,应该也没事吧。
让大模型使用polars或者duckdb, 可以处理很大的数据,比如让大模型回答;
| DuckDB | Polars | |
|---|---|---|
| 语法 | SQL | DataFrame API |
| 超大文件 | ||
| 速度 | 极快 | 极快 |
| 内存占用 | 低(可超内存) | 较低 |
| 适合场景 | 复杂查询、JOIN | 数据清洗、转换 |
不过excel确实是个问题, 毕竟excel本质打包文件,好像不是很能流式处理
文件太大模型的上下文可能会爆掉吧
你让模型给你搞一个python做比较靠谱
office copolit我觉得还是不错的,我有日报报表里面的数据,好像只有他才能准确统计
这个容量,只要你的内存够,py处理起来是小意思了,当然,你要选对engine,不然读取很慢,不建议这么大的数据量用xlsx格式
其实 Microsoft Office 里自带了一个 xlsx 比较工具:Spreadsheet Comparer(不过应该是只有专业版的 Microsoft Office 才有)
点击 开始菜单 → Microsoft Office 工具 → Spreadsheet Comparer 就能启动它。
具体使用方法可参考本文:
第三方支援版:
感谢,这个不错,不过就是只能同时比较2个文件。