曼哈顿的律师拿到一份 500 页的合同,每项条款都要能搜索。手动处理:一周。
芝加哥的会计收到 200 张扫描发票,每个数字都要录入表格。手动处理:四天。
斯坦福的研究员手里有 50 篇论文,表格、公式、图表全锁在 PDF 里。手动处理:两周。
大家都在为了复制粘贴浪费生命。
直到遇见 MinerU。
一款免费开源的神器,通杀 PDF、Word、PPT、Excel 和扫描图。按阅读顺序提取文本,表格变 HTML,公式变 LaTeX,手写体也能搞定。支持 109 种语言。
200 页的 PDF 丢进去,90 秒还你一份干净的 Markdown。
它凭什么秒杀其它 PDF 工具:
- 多栏布局:逐栏从上往下读,不跨页横读,像真人一样理解排版。
- 扫描件:内置 OCR,1995 年的老旧印刷照也能秒变文本。
- 数学公式:LaTeX 级识别,公式渲染分毫不差。
- 表格:合并单元格、多行表头、跨页长表,通通完美保留。
- 万页长文档:滑动窗口处理,无需手动拆分。
- 批量模式:丢进一个 500 份文档的文件夹,然后你就可以去喝咖啡了。
三种玩法:
- CLI:一行命令搞定。
- Python SDK:五行代码集成。
- Web 应用:https://mineru.net/ 上传即用,无需安装。
完美适配 Claude Desktop、Cursor、Windsurf、LangChain、LlamaIndex、RAGFlow、Dify 和 FastGPT。直接给你的 AI 智能体喂数据。
背后的故事:
上海人工智能实验室 OpenDataLab 团队为了训大模型,要从几百万份文档里抠文本。市面上的工具全歇菜了,他们索性自己造了一个,然后直接开源。
GitHub 斩获 68,551 Stars,基于 Apache 2.0 协议,商用个人通通免费。arXiv 上还有三篇技术报告背书。
Adobe Acrobat Pro 每年 239.88 刀,表格还是会乱。
ABBYY FineReader Corporate 每年 165 刀,公式还是不行。
Mistral OCR 每千页 2 刀,账单无底洞。
MinerU 成本为 0。本地运行,文档不出户,隐私拉满。
最炸裂的是:
律师 4 分钟搞定合同,条款秒搜。
会计 12 分钟录完 200 张发票数字。
研究员一个周日下午就写完了 50 篇论文的文献综述。
你公司手动处理了多年的文档,MinerU 几分钟搞定。
文档变文本,文本变数据,数据变答案。
把浪费在文书工作上的一周,重新拿回自己手里。曼哈顿的律师拿到一份 500 页的合同,每项条款都要能搜索。手动处理:一周。
芝加哥的会计收到 200 张扫描发票,每个数字都要录入表格。手动处理:四天。
斯坦福的研究员手里有 50 篇论文,表格、公式、图表全锁在 PDF 里。手动处理:两周。
大家都在为了复制粘贴浪费生命。
直到遇见 MinerU。
一款免费开源的神器,通杀 PDF、Word、PPT、Excel 和扫描图。按阅读顺序提取文本,表格变 HTML,公式变 LaTeX,手写体也能搞定。支持 109 种语言。
200 页的 PDF 丢进去,90 秒还你一份干净的 Markdown。
它凭什么秒杀其它 PDF 工具:
- 多栏布局:逐栏从上往下读,不跨页横读,像真人一样理解排版。
- 扫描件:内置 OCR,1995 年的老旧印刷照也能秒变文本。
- 数学公式:LaTeX 级识别,公式渲染分毫不差。
- 表格:合并单元格、多行表头、跨页长表,通通完美保留。
- 万页长文档:滑动窗口处理,无需手动拆分。
- 批量模式:丢进一个 500 份文档的文件夹,然后你就可以去喝咖啡了。
三种玩法:
- CLI:一行命令搞定。
- Python SDK:五行代码集成。
- Web 应用:https://mineru.net/ 上传即用,无需安装。
完美适配 Claude Desktop、Cursor、Windsurf、LangChain、LlamaIndex、RAGFlow、Dify 和 FastGPT。直接给你的 AI 智能体喂数据。
背后的故事:
上海人工智能实验室 OpenDataLab 团队为了训大模型,要从几百万份文档里抠文本。市面上的工具全歇菜了,他们索性自己造了一个,然后直接开源。
GitHub 斩获 68,551 Stars,基于 Apache 2.0 协议,商用个人通通免费。arXiv 上还有三篇技术报告背书。
Adobe Acrobat Pro 每年 239.88 刀,表格还是会乱。
ABBYY FineReader Corporate 每年 165 刀,公式还是不行。
Mistral OCR 每千页 2 刀,账单无底洞。
MinerU 成本为 0。本地运行,文档不出户,隐私拉满。
最炸裂的是:
律师 4 分钟搞定合同,条款秒搜。
会计 12 分钟录完 200 张发票数字。
研究员一个周日下午就写完了 50 篇论文的文献综述。
你公司手动处理了多年的文档,MinerU 几分钟搞定。
文档变文本,文本变数据,数据变答案。
把浪费在文书工作上的一周,重新拿回自己手里。
芝加哥的会计收到 200 张扫描发票,每个数字都要录入表格。手动处理:四天。
斯坦福的研究员手里有 50 篇论文,表格、公式、图表全锁在 PDF 里。手动处理:两周。
大家都在为了复制粘贴浪费生命。
直到遇见 MinerU。
一款免费开源的神器,通杀 PDF、Word、PPT、Excel 和扫描图。按阅读顺序提取文本,表格变 HTML,公式变 LaTeX,手写体也能搞定。支持 109 种语言。
200 页的 PDF 丢进去,90 秒还你一份干净的 Markdown。
它凭什么秒杀其它 PDF 工具:
- 多栏布局:逐栏从上往下读,不跨页横读,像真人一样理解排版。
- 扫描件:内置 OCR,1995 年的老旧印刷照也能秒变文本。
- 数学公式:LaTeX 级识别,公式渲染分毫不差。
- 表格:合并单元格、多行表头、跨页长表,通通完美保留。
- 万页长文档:滑动窗口处理,无需手动拆分。
- 批量模式:丢进一个 500 份文档的文件夹,然后你就可以去喝咖啡了。
三种玩法:
- CLI:一行命令搞定。
- Python SDK:五行代码集成。
- Web 应用:https://mineru.net/ 上传即用,无需安装。
完美适配 Claude Desktop、Cursor、Windsurf、LangChain、LlamaIndex、RAGFlow、Dify 和 FastGPT。直接给你的 AI 智能体喂数据。
背后的故事:
上海人工智能实验室 OpenDataLab 团队为了训大模型,要从几百万份文档里抠文本。市面上的工具全歇菜了,他们索性自己造了一个,然后直接开源。
GitHub 斩获 68,551 Stars,基于 Apache 2.0 协议,商用个人通通免费。arXiv 上还有三篇技术报告背书。
Adobe Acrobat Pro 每年 239.88 刀,表格还是会乱。
ABBYY FineReader Corporate 每年 165 刀,公式还是不行。
Mistral OCR 每千页 2 刀,账单无底洞。
MinerU 成本为 0。本地运行,文档不出户,隐私拉满。
最炸裂的是:
律师 4 分钟搞定合同,条款秒搜。
会计 12 分钟录完 200 张发票数字。
研究员一个周日下午就写完了 50 篇论文的文献综述。
你公司手动处理了多年的文档,MinerU 几分钟搞定。
文档变文本,文本变数据,数据变答案。
把浪费在文书工作上的一周,重新拿回自己手里。曼哈顿的律师拿到一份 500 页的合同,每项条款都要能搜索。手动处理:一周。
芝加哥的会计收到 200 张扫描发票,每个数字都要录入表格。手动处理:四天。
斯坦福的研究员手里有 50 篇论文,表格、公式、图表全锁在 PDF 里。手动处理:两周。
大家都在为了复制粘贴浪费生命。
直到遇见 MinerU。
一款免费开源的神器,通杀 PDF、Word、PPT、Excel 和扫描图。按阅读顺序提取文本,表格变 HTML,公式变 LaTeX,手写体也能搞定。支持 109 种语言。
200 页的 PDF 丢进去,90 秒还你一份干净的 Markdown。
它凭什么秒杀其它 PDF 工具:
- 多栏布局:逐栏从上往下读,不跨页横读,像真人一样理解排版。
- 扫描件:内置 OCR,1995 年的老旧印刷照也能秒变文本。
- 数学公式:LaTeX 级识别,公式渲染分毫不差。
- 表格:合并单元格、多行表头、跨页长表,通通完美保留。
- 万页长文档:滑动窗口处理,无需手动拆分。
- 批量模式:丢进一个 500 份文档的文件夹,然后你就可以去喝咖啡了。
三种玩法:
- CLI:一行命令搞定。
- Python SDK:五行代码集成。
- Web 应用:https://mineru.net/ 上传即用,无需安装。
完美适配 Claude Desktop、Cursor、Windsurf、LangChain、LlamaIndex、RAGFlow、Dify 和 FastGPT。直接给你的 AI 智能体喂数据。
背后的故事:
上海人工智能实验室 OpenDataLab 团队为了训大模型,要从几百万份文档里抠文本。市面上的工具全歇菜了,他们索性自己造了一个,然后直接开源。
GitHub 斩获 68,551 Stars,基于 Apache 2.0 协议,商用个人通通免费。arXiv 上还有三篇技术报告背书。
Adobe Acrobat Pro 每年 239.88 刀,表格还是会乱。
ABBYY FineReader Corporate 每年 165 刀,公式还是不行。
Mistral OCR 每千页 2 刀,账单无底洞。
MinerU 成本为 0。本地运行,文档不出户,隐私拉满。
最炸裂的是:
律师 4 分钟搞定合同,条款秒搜。
会计 12 分钟录完 200 张发票数字。
研究员一个周日下午就写完了 50 篇论文的文献综述。
你公司手动处理了多年的文档,MinerU 几分钟搞定。
文档变文本,文本变数据,数据变答案。
把浪费在文书工作上的一周,重新拿回自己手里。
A lawyer in Manhattan gets a 500-page contract. Every clause needs to be searchable. By hand: one week.
An accountant in Chicago gets 200 scanned invoices. Every number needs to land in a spreadsheet. By hand: four days.
A researcher at Stanford has 50 academic papers. Tables, formulas, charts locked inside PDFs. By hand: two weeks.
Every one of them is losing days of their life to copy-paste.
Now meet MinerU.
A free and open source tool that reads any PDF, Word doc, PowerPoint, Excel sheet, or scanned image. It pulls out the text in reading order. Tables become clean HTML. Equations become LaTeX. Handwriting handled. 109 languages.
You give it a 200-page PDF. You get clean Markdown back in 90 seconds.
What makes it different from every other PDF tool:
- Multi-column layouts. It reads top to bottom within each column. Not left to right across the page. Like a human reads.
- Scanned documents. OCR built in. Point it at a photo of a printed page from 1995. Get clean text back.
- Math formulas. LaTeX-quality recognition. Every equation renders correctly.
- Tables. Merged cells, multi-row headers, tables that span three pages. All preserved.
- Ten-thousand-page documents. Sliding window processing. No manual splitting.
- Batch mode. Point it at a folder of 500 documents. Walk away.
Three ways to use it:
- CLI. One command per document.
- Python SDK. Five lines of code.
- Web app at https://mineru.net/ Upload, click, download. No install.
Plugs into Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, and FastGPT. Feed extracted documents straight to your AI agent.
The story:
The OpenDataLab team at Shanghai AI Laboratory needed to extract clean text from millions of scientific documents to train a language model. Existing tools failed. They built their own. Then they open sourced it.
68,551 stars. MinerU Open Source License, built on Apache 2.0. Free for personal and commercial use. Three technical reports on arXiv.
Adobe Acrobat Pro charges $239.88 a year. It still loses your tables.
ABBYY FineReader Corporate charges $165 a year. It still cannot do equations.
Mistral OCR charges $2 per 1,000 pages. Your bill never stops.
MinerU costs $0. Runs on your laptop. Your documents never leave your machine.
Here is the wild part.
The lawyer got her contract back in 4 minutes. Every clause searchable.
The accountant fed 200 invoices in. Every number landed in a spreadsheet in 12 minutes.
The researcher fed his 50 papers in. He wrote his literature review on a Sunday afternoon.
The document your company has been processing by hand for years takes MinerU minutes.
Your documents become text. Your text becomes data. Your data becomes answers.
The week you used to lose to paperwork is back in your hands.
An accountant in Chicago gets 200 scanned invoices. Every number needs to land in a spreadsheet. By hand: four days.
A researcher at Stanford has 50 academic papers. Tables, formulas, charts locked inside PDFs. By hand: two weeks.
Every one of them is losing days of their life to copy-paste.
Now meet MinerU.
A free and open source tool that reads any PDF, Word doc, PowerPoint, Excel sheet, or scanned image. It pulls out the text in reading order. Tables become clean HTML. Equations become LaTeX. Handwriting handled. 109 languages.
You give it a 200-page PDF. You get clean Markdown back in 90 seconds.
What makes it different from every other PDF tool:
- Multi-column layouts. It reads top to bottom within each column. Not left to right across the page. Like a human reads.
- Scanned documents. OCR built in. Point it at a photo of a printed page from 1995. Get clean text back.
- Math formulas. LaTeX-quality recognition. Every equation renders correctly.
- Tables. Merged cells, multi-row headers, tables that span three pages. All preserved.
- Ten-thousand-page documents. Sliding window processing. No manual splitting.
- Batch mode. Point it at a folder of 500 documents. Walk away.
Three ways to use it:
- CLI. One command per document.
- Python SDK. Five lines of code.
- Web app at https://mineru.net/ Upload, click, download. No install.
Plugs into Claude Desktop, Cursor, Windsurf, LangChain, LlamaIndex, RAGFlow, Dify, and FastGPT. Feed extracted documents straight to your AI agent.
The story:
The OpenDataLab team at Shanghai AI Laboratory needed to extract clean text from millions of scientific documents to train a language model. Existing tools failed. They built their own. Then they open sourced it.
68,551 stars. MinerU Open Source License, built on Apache 2.0. Free for personal and commercial use. Three technical reports on arXiv.
Adobe Acrobat Pro charges $239.88 a year. It still loses your tables.
ABBYY FineReader Corporate charges $165 a year. It still cannot do equations.
Mistral OCR charges $2 per 1,000 pages. Your bill never stops.
MinerU costs $0. Runs on your laptop. Your documents never leave your machine.
Here is the wild part.
The lawyer got her contract back in 4 minutes. Every clause searchable.
The accountant fed 200 invoices in. Every number landed in a spreadsheet in 12 minutes.
The researcher fed his 50 papers in. He wrote his literature review on a Sunday afternoon.
The document your company has been processing by hand for years takes MinerU minutes.
Your documents become text. Your text becomes data. Your data becomes answers.
The week you used to lose to paperwork is back in your hands.

19
82
577
34.9K

















