from pdfdeal import Doc2X
# 从环境变量 DOC2X_APIKEY 获取 API Key, 或者可以将其作为字符串传递给 apikey 参数
# client = Doc2X(apikey="Your API key",debug=True)
= Doc2X(debug=True)
client
= client.pdf2file(
success, failed, flag ="tests/pdf/sample.pdf",
pdf_file="Output",
output_path="docx",
output_format
)print(success)
print(failed)
print(flag)
23 Doc2X
Doc2X 是武汉智识无垠推出的AI文档识别、转换与翻译工具。它能高精度识别各种文档,包括论文、财报等,支持将 PDF 转换为 Word、HTML 等多种格式。Doc2X 提供大模型加持的双语对照翻译功能,帮助用户快速理解文档内容,支持批量处理和 API 接入,解决不同需求。
23.1 如何使用 Doc2X
个人用户使用:
- 访问 Doc2X 的官网地址。
- 直接在线使用,无需下载或安装任何软件。
- 注册并登录账户,享受每天提供的免费文档转换和翻译服务额度。
文档识别与转换:
- 选择需要转换的 PDF 文件,上传至 Doc2X 平台。
- 选择输出格式,如 Word、LaTeX、HTML、Markdown 等。
- 在转换前,可以与原 PDF 进行对照跳转编辑,确保转换后的准确性。
多语言翻译:
- 基于 Doc2X 提供的多语言翻译功能,选择目标语言进行翻译。
- 支持 GPT、Deepseek、GLM 等大模型,提供双语对照翻译。
批量处理与 API 服务:
- 对于需要处理大量文档的用户,Doc2X 支持批量识别转换功能。
- 开发者可以通过访问官方网站使用 API 服务,集成 Doc2X 的功能到自己的应用中。
23.2 如何调用 API
先在官网注册创建自己的 APIKEY,最大创建数量为 3,按需求创建。
通过 pdfdeal
包来完成 PDF 的转换,pdfdeal
是 Doc2X API 的一个封装包,它支持:
- 将 PDF 文件转换为 docx
- 将文件夹中的所有文件转换为 docx 和 Markdown
- 将文本中 HTML 格式表格转换为 Markdown 格式
使用 pip 安装:
#| eval: false
pip install --upgrade pdfdeal
23.2.1 将 PDF 文件转换为 docx
23.2.2 将文件夹中的所有文件转换为 docx 和 Markdown
from pdfdeal import Doc2X
# client = Doc2X(apikey="Your API key",debug=True)
= Doc2X(debug=True)
client
= client.pdf2file(
success, failed, flag ="/Test/pdf",
pdf_file="./Output",
output_path="docx,md", # 可以根据实际需求选择输出格式
output_format
)print(success)
print(failed)
print(flag)
23.2.3 将文本中 HTML 格式表格转换为 Markdown 格式
from pdfdeal.file_tools import html_table_to_md
with open("old.md", "r") as f:
= f.read()
html = html_table_to_md(html)
md with open("Output/new.md", "w") as f:
f.write(md)