23  Doc2X

Doc2X 是武汉智识无垠推出的AI文档识别、转换与翻译工具。它能高精度识别各种文档,包括论文、财报等,支持将 PDF 转换为 Word、HTML 等多种格式。Doc2X 提供大模型加持的双语对照翻译功能,帮助用户快速理解文档内容,支持批量处理和 API 接入,解决不同需求。

23.1 如何使用 Doc2X

  • 个人用户使用:

    • 访问 Doc2X 的官网地址
    • 直接在线使用,无需下载或安装任何软件。
    • 注册并登录账户,享受每天提供的免费文档转换和翻译服务额度。
  • 文档识别与转换:

    • 选择需要转换的 PDF 文件,上传至 Doc2X 平台。
    • 选择输出格式,如 Word、LaTeX、HTML、Markdown 等。
    • 在转换前,可以与原 PDF 进行对照跳转编辑,确保转换后的准确性。
  • 多语言翻译:

    • 基于 Doc2X 提供的多语言翻译功能,选择目标语言进行翻译。
    • 支持 GPT、Deepseek、GLM 等大模型,提供双语对照翻译。
  • 批量处理与 API 服务:

    • 对于需要处理大量文档的用户,Doc2X 支持批量识别转换功能。
    • 开发者可以通过访问官方网站使用 API 服务,集成 Doc2X 的功能到自己的应用中。

23.2 如何调用 API

先在官网注册创建自己的 APIKEY,最大创建数量为 3,按需求创建。

通过 pdfdeal 包来完成 PDF 的转换,pdfdeal 是 Doc2X API 的一个封装包,它支持:

  • 将 PDF 文件转换为 docx
  • 将文件夹中的所有文件转换为 docx 和 Markdown
  • 将文本中 HTML 格式表格转换为 Markdown 格式

使用 pip 安装:

#| eval: false
pip install --upgrade pdfdeal

23.2.1 将 PDF 文件转换为 docx

from pdfdeal import Doc2X

# 从环境变量 DOC2X_APIKEY 获取 API Key, 或者可以将其作为字符串传递给 apikey 参数

# client = Doc2X(apikey="Your API key",debug=True)
client = Doc2X(debug=True)

success, failed, flag = client.pdf2file(
    pdf_file="tests/pdf/sample.pdf",
    output_path="Output",
    output_format="docx",
)
print(success)
print(failed)
print(flag)

23.2.2 将文件夹中的所有文件转换为 docx 和 Markdown

from pdfdeal import Doc2X

# client = Doc2X(apikey="Your API key",debug=True)
client = Doc2X(debug=True)

success, failed, flag = client.pdf2file(
    pdf_file="/Test/pdf",
    output_path="./Output",
    output_format="docx,md", # 可以根据实际需求选择输出格式
)
print(success)
print(failed)
print(flag)

23.2.3 将文本中 HTML 格式表格转换为 Markdown 格式

from pdfdeal.file_tools import html_table_to_md

with open("old.md", "r") as f:
    html = f.read()
    md = html_table_to_md(html)
    with open("Output/new.md", "w") as f:
        f.write(md)