网页抓取将彻底改变。
(100% 开源的大规模视觉搜索)
PixelRAG 是一款完全跳过 HTML 解析的检索系统。
它不再将页面抓取为文本并进行分块嵌入,而是直接对页面截图并进行图像检索。视觉语言模型直接从像素中读取答案。
为什么这很重要:解析正是网页 RAG 悄悄丢失信息的地方。
- 单个 HTML 转文本解析器可能会丢失页面 40% 以上的信息。
- 表格、图表和布局会被打平或直接丢弃。
- 仅仅更换解析器,在处理相同文档时准确率就能波动约 10 个百分点。
PixelRAG 索引的是用户真实看到的页面。团队为整个维基百科构建了视觉索引(3000万+ 截图),在纯文本问答上仍比最强的文本 RAG 基准高出 18.1%。
该仓库还附带了一个 Claude Code 插件,为 Claude 装上了“眼睛”。
它让 Claude 可以对任何 URL 进行截图并读取渲染后的页面,而不是抓取 DOM。这样你就可以给它一个实时网页、一篇 arXiv 论文或你的本地网站,问它“实际上长什么样”。
一个安装脚本搞定。无需 MCP 服务器,无需后端。
工作流程:
- 将每个文档(网页、PDF、图像)渲染为图像切片。
- 使用在截图上经过 LoRA 微调的 Qwen3-VL-Embedding 进行嵌入。
- 构建 FAISS 索引并提供搜索 API。
由于索引只是像素,更换更强大的读取模型即可提升准确率,无需重新索引。
全部基于 Apache-2.0 协议开源。
GitHub 仓库:https://github.com/StarTrail-org/PixelRAG
说到 RAG,我最近写了一篇文章介绍一种新方法,通过将语料库规模缩小 40 倍、单次查询 token 减少 3 倍,并将向量搜索相关性提高 2.3 倍,使检索效率大幅提升。
文章引用如下。网页抓取将彻底改变。
(100% 开源的大规模视觉搜索)
PixelRAG 是一款完全跳过 HTML 解析的检索系统。
它不再将页面抓取为文本并进行分块嵌入,而是直接对页面截图并进行图像检索。视觉语言模型直接从像素中读取答案。
为什么这很重要:解析正是网页 RAG 悄悄丢失信息的地方。
- 单个 HTML 转文本解析器可能会丢失页面 40% 以上的信息。
- 表格、图表和布局会被打平或直接丢弃。
- 仅仅更换解析器,在处理相同文档时准确率就能波动约 10 个百分点。
PixelRAG 索引的是用户真实看到的页面。团队为整个维基百科构建了视觉索引(3000万+ 截图),在纯文本问答上仍比最强的文本 RAG 基准高出 18.1%。
该仓库还附带了一个 Claude Code 插件,为 Claude 装上了“眼睛”。
它让 Claude 可以对任何 URL 进行截图并读取渲染后的页面,而不是抓取 DOM。这样你就可以给它一个实时网页、一篇 arXiv 论文或你的本地网站,问它“实际上长什么样”。
一个安装脚本搞定。无需 MCP 服务器,无需后端。
工作流程:
- 将每个文档(网页、PDF、图像)渲染为图像切片。
- 使用在截图上经过 LoRA 微调的 Qwen3-VL-Embedding 进行嵌入。
- 构建 FAISS 索引并提供搜索 API。
由于索引只是像素,更换更强大的读取模型即可提升准确率,无需重新索引。
全部基于 Apache-2.0 协议开源。
GitHub 仓库:https://github.com/StarTrail-org/PixelRAG
说到 RAG,我最近写了一篇文章介绍一种新方法,通过将语料库规模缩小 40 倍、单次查询 token 减少 3 倍,并将向量搜索相关性提高 2.3 倍,使检索效率大幅提升。
文章引用如下。
(100% 开源的大规模视觉搜索)
PixelRAG 是一款完全跳过 HTML 解析的检索系统。
它不再将页面抓取为文本并进行分块嵌入,而是直接对页面截图并进行图像检索。视觉语言模型直接从像素中读取答案。
为什么这很重要:解析正是网页 RAG 悄悄丢失信息的地方。
- 单个 HTML 转文本解析器可能会丢失页面 40% 以上的信息。
- 表格、图表和布局会被打平或直接丢弃。
- 仅仅更换解析器,在处理相同文档时准确率就能波动约 10 个百分点。
PixelRAG 索引的是用户真实看到的页面。团队为整个维基百科构建了视觉索引(3000万+ 截图),在纯文本问答上仍比最强的文本 RAG 基准高出 18.1%。
该仓库还附带了一个 Claude Code 插件,为 Claude 装上了“眼睛”。
它让 Claude 可以对任何 URL 进行截图并读取渲染后的页面,而不是抓取 DOM。这样你就可以给它一个实时网页、一篇 arXiv 论文或你的本地网站,问它“实际上长什么样”。
一个安装脚本搞定。无需 MCP 服务器,无需后端。
工作流程:
- 将每个文档(网页、PDF、图像)渲染为图像切片。
- 使用在截图上经过 LoRA 微调的 Qwen3-VL-Embedding 进行嵌入。
- 构建 FAISS 索引并提供搜索 API。
由于索引只是像素,更换更强大的读取模型即可提升准确率,无需重新索引。
全部基于 Apache-2.0 协议开源。
GitHub 仓库:https://github.com/StarTrail-org/PixelRAG
说到 RAG,我最近写了一篇文章介绍一种新方法,通过将语料库规模缩小 40 倍、单次查询 token 减少 3 倍,并将向量搜索相关性提高 2.3 倍,使检索效率大幅提升。
文章引用如下。网页抓取将彻底改变。
(100% 开源的大规模视觉搜索)
PixelRAG 是一款完全跳过 HTML 解析的检索系统。
它不再将页面抓取为文本并进行分块嵌入,而是直接对页面截图并进行图像检索。视觉语言模型直接从像素中读取答案。
为什么这很重要:解析正是网页 RAG 悄悄丢失信息的地方。
- 单个 HTML 转文本解析器可能会丢失页面 40% 以上的信息。
- 表格、图表和布局会被打平或直接丢弃。
- 仅仅更换解析器,在处理相同文档时准确率就能波动约 10 个百分点。
PixelRAG 索引的是用户真实看到的页面。团队为整个维基百科构建了视觉索引(3000万+ 截图),在纯文本问答上仍比最强的文本 RAG 基准高出 18.1%。
该仓库还附带了一个 Claude Code 插件,为 Claude 装上了“眼睛”。
它让 Claude 可以对任何 URL 进行截图并读取渲染后的页面,而不是抓取 DOM。这样你就可以给它一个实时网页、一篇 arXiv 论文或你的本地网站,问它“实际上长什么样”。
一个安装脚本搞定。无需 MCP 服务器,无需后端。
工作流程:
- 将每个文档(网页、PDF、图像)渲染为图像切片。
- 使用在截图上经过 LoRA 微调的 Qwen3-VL-Embedding 进行嵌入。
- 构建 FAISS 索引并提供搜索 API。
由于索引只是像素,更换更强大的读取模型即可提升准确率,无需重新索引。
全部基于 Apache-2.0 协议开源。
GitHub 仓库:https://github.com/StarTrail-org/PixelRAG
说到 RAG,我最近写了一篇文章介绍一种新方法,通过将语料库规模缩小 40 倍、单次查询 token 减少 3 倍,并将向量搜索相关性提高 2.3 倍,使检索效率大幅提升。
文章引用如下。
Web scraping will never be the same.
(100% open-source visual search at scale)
PixelRAG is a retrieval system that skips HTML parsing completely.
Instead of scraping a page into text and embedding chunks, it screenshots the page and retrieves the image. A vision-language model reads the answer straight off the pixels.
Why that matters: parsing is where web RAG quietly loses information.
- A single HTML-to-text parser can drop 40%+ of a page.
- Tables, charts, and layout get flattened or thrown out.
- Swapping parsers alone can move accuracy ~10 points on the same docs.
PixelRAG indexes the page a person actually sees. The team built a visual index of all of Wikipedia, 30M+ screenshots, and it still beats the strongest text RAG baseline by 18.1% on text-only QA.
The repo also ships a Claude Code plugin that gives Claude eyes.
It lets Claude screenshot any URL and read the rendered page instead of scraping the DOM. So you can hand it a live page, an arXiv paper, or your local site and ask what it actually looks like.
One setup script. No MCP server, no backend.
How the pipeline works:
- Renders each document (web, PDF, image) to image tiles.
- Embeds them with Qwen3-VL-Embedding, LoRA fine-tuned on screenshots.
- Builds a FAISS index and serves a search API.
A stronger reader model lifts accuracy with no re-indexing, since the index is just pixels.
Everything is open-source under Apache-2.0.
GitHub repo: https://github.com/StarTrail-org/PixelRAG
Talking about RAG, I recently wrote an article on a new approach that makes retrieval much more efficient by cutting corpus size by 40x, reducing tokens per query by 3x, and improving vector search relevance by 2.3x.
The article is quoted below.
(100% open-source visual search at scale)
PixelRAG is a retrieval system that skips HTML parsing completely.
Instead of scraping a page into text and embedding chunks, it screenshots the page and retrieves the image. A vision-language model reads the answer straight off the pixels.
Why that matters: parsing is where web RAG quietly loses information.
- A single HTML-to-text parser can drop 40%+ of a page.
- Tables, charts, and layout get flattened or thrown out.
- Swapping parsers alone can move accuracy ~10 points on the same docs.
PixelRAG indexes the page a person actually sees. The team built a visual index of all of Wikipedia, 30M+ screenshots, and it still beats the strongest text RAG baseline by 18.1% on text-only QA.
The repo also ships a Claude Code plugin that gives Claude eyes.
It lets Claude screenshot any URL and read the rendered page instead of scraping the DOM. So you can hand it a live page, an arXiv paper, or your local site and ask what it actually looks like.
One setup script. No MCP server, no backend.
How the pipeline works:
- Renders each document (web, PDF, image) to image tiles.
- Embeds them with Qwen3-VL-Embedding, LoRA fine-tuned on screenshots.
- Builds a FAISS index and serves a search API.
A stronger reader model lifts accuracy with no re-indexing, since the index is just pixels.
Everything is open-source under Apache-2.0.
GitHub repo: https://github.com/StarTrail-org/PixelRAG
Talking about RAG, I recently wrote an article on a new approach that makes retrieval much more efficient by cutting corpus size by 40x, reducing tokens per query by 3x, and improving vector search relevance by 2.3x.
The article is quoted below.
30
83
698
68.8K


























