【开源自荐】AI-Media2Doc: 一键将音视频转化为小红书/知识笔记/思维导图/视频字幕等各种风格的文档。

hanshugithub · 2025 年6 月 1 日 14:39

软件名称

AI-Media2Doc(AI 图文创作助手)

应用平台

AI Web 应用, 本地部署执行

一句简介

一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

应用简介

AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 可以一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署, 支持前端自定义 prompt 进行精细化调整。

开源协议

MIT 协议

核心功能

完全开源：MIT 协议授权，支持本地部署。
隐私保护：无需登录注册，任务记录保存在本地
前端处理：采用 ffmpeg wasm 技术，无需本地安装 ffmpeg
多种风格支持：支持小红书/公众号/知识笔记/思维导图/内容总结/字幕等多种文档风格支持。
AI 对话：支持针对视频内容进行 AI 二次问答。
支持字幕导出: 结果一键导出为字幕文件。
支持自定义 Prompt：支持在前端自定义配置 prompt。
一键部署：支持 Docker 一键部署。

开发中功能：

基于字幕定位视频核心内容，智能截图并填充图文中。
重构 AI 助手对话界面, 目前 ai 生成的头像还是不够好看。

截图预览

我试了很多遍发现还是不能上传截图到图床，试了很多次还是失败。项目的截图以及上传到首页 Readme。感兴趣的朋友可以去项目主页查看。

首页

index

任务详情页

index

支持自定义每种风格的 prompt

index

开源地址

hanshugithub · 2025 年6 月 1 日 15:12

好奇怪, 我刚才试了下上传图床还是失败，显示的内容是"出错啦, 请重新上传" 有没有大佬可以解答下，论坛里面我也没有找到相应的解决办法

VIctoryRoad · 2025 年6 月 1 日 15:19

您说的是 https://h1.appinn.me/ 这个图床吗？这个图床似乎是借用的 Telegram 的服务器，在中国大陆的部分地区连接时会不稳定。建议您直接把 GitHub 的图片链接过来，比如这样：

![fig1](https://raw.githubusercontent.com/hanshuaikang/AI-Media2Doc/refs/heads/main/docs/images/ai_talk.pngg)

deanme · 2025 年6 月 2 日 02:11

支持用魔法打败这种本来就文字能解决的内容非要换成音视频形式的恶心操作~

hanshugithub · 2025 年6 月 2 日 04:01

感谢大佬，可以了，我之前以为是只有官方的图床的链接才不会被论坛屏蔽。

VIctoryRoad · 2025 年6 月 2 日 04:04

论坛系统不会主动屏蔽图床，理论上讲用任何图床都是没问题的。如果图片被屏蔽，一般而言是两种可能：

图床服务器被运营商封锁，比如 imgur 在中国大陆访问会不稳定。
托管图片的服务器有反盗链、反爬虫机制，比如微信公众号的图片，似乎是不可以在微信以外的地方访问的。

hanshugithub · 2025 年6 月 2 日 07:14

明白了，感谢答疑

hanshugithub · 2025 年7 月 6 日 14:59

AI-Media2Doc 已经正式支持智能从视频中截图并插入到文章指定位置

周末花时间肝出来了智能截图，和其他的开源项目采用周期截取视频帧丢给视觉大模型识别处理的方案不同。 AI-Media2Doc 基于字幕智能分析并且在前端使用 ffmpeg 进行截图再插入指定位置, 在避免了视觉大模型识别视频带来的额外成本的同时也能兼顾比较不错的效果。

实际效果如下:

fig1

AI-Media2Doc 仍然是完全免费的。图文功能做完之后 AI-Media2Doc 在我心中所有的基础核心功能都已经补齐，可算有一点生产力工具的样子了。

开启方式:

点击自定义设置->智能截图选择打开。

觉得这破玩意儿能帮助到你的小伙伴可以试下~ ，遇到任何问题可以直接提 issue 给我。

Kuma · 2025 年7 月 24 日 10:43

这个工具好耶，非常实用！

hanshugithub · 2025 年8 月 1 日 15:24

谢谢！最新版本优化了截图性能，更好用！

话题		回复	浏览量
开源自荐：自部署的多平台（YouTube/B站/抖音/小红书/播客）音视频转文字+总结服务发现频道	0	761	2026 年4 月 3 日
【自荐】VideoCaptioner - 基于 LLM 的智能视频字幕助手，支持生成、断句、优化、翻译全流程，一键高质量字幕视频合成！发现频道	12	1616	2024 年11 月 15 日
【工具自荐】MD2Card：让 Markdown 内容焕发新生 alpha	2	305	2025 年6 月 21 日
【自荐】PDFMathTranslate - 完整保留排版的 PDF 全文翻译器发现频道 appinned , pdf	120	9916	2025 年8 月 22 日
【开源自荐】一个全程免费的音频转录+校准+摘要工具，支持API调用发现频道	0	360	2025 年6 月 9 日

【开源自荐】AI-Media2Doc: 一键将音视频转化为小红书/知识笔记/思维导图/视频字幕等各种风格的文档。

软件名称

应用平台

推荐类型

一句简介

应用简介

开源协议

核心功能

开发中功能：

截图预览

首页

任务详情页

支持自定义每种风格的 prompt

开源地址

相关话题