MarkItDown 是微软开源的 Python 实用工具库,支持将各种文件转换为 Markdown 格式,适用于索引、文本分析等用途。
MarkItDown 目前支持以下文件:
- PowerPoint
- Word
- Excel
- 图片(EXIF 元数据和 OCR)
- 音频(EXIF 元数据和语音转录)
- HTML
- 基于文本的格式(CSV、JSON、XML)
- ZIP 文件(遍历内容)
该项目最近发布了一项“史诗级”更新 —— 支持 MCP。MarkItDown 现已提供 MCP(模型上下文协议)服务器 (MarkItDown-MCP),以便与 LLM 应用程序如 Claude Desktop 集成。
MarkItDown-MCP 提供两种主要的服务器模式:
-
STDIO模式(默认):通过标准输入/输出进行通信,非常适合与命令行工具和脚本集成。
-
SSE模式:作为服务器发送事件(Server-Sent Events)服务器在指定主机和端口上运行,支持基于 Web 和网络的集成。
Docker 支持
为了增强可移植性和隔离性,MarkItDown-MCP 提供了 Docker 支持。这在以下情况特别有用:
-
确保在不同系统上的环境一致性
-
将转换过程与主机系统隔离
-
与 Claude Desktop 等远程服务协作
Docker 集成包括挂载本地目录的功能,允许容器访问和转换本地文件,同时维持安全边界。
更多信息查看 markitdown-mcp。