微软发布 Markdown 的 Python 转换新工具

微信扫一扫,分享到朋友圈

微软发布 Markdown 的 Python 转换新工具

Markdown 是一种流行的轻量级标记语言,采用纯文本格式语法,易于阅读、书写和理解。由于其语法一致且可预测,Markdown 可使人工智能算法轻松解析和理解文本结构。它还得到了 GitHub、Jupyter 笔记本等流行工具的广泛支持。

微软最近在 GitHub 上发布了一款名为 MarkItDown 的开源工具。MarkItDown 是一个 Python 库,用于将文件和办公文档转换为 Markdown。转换后的文件可用于索引、文本分析等。微软的 MarkItDown 库目前支持以下文件格式:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • 图像(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML (对维基百科等的特殊处理)
  • 其他各种基于文本的格式(csv、json、xml 等)

开发人员还可以将 MarkItDown 库配置为使用大型语言模型来描述图像。为此,开发人员必须为 MarkItDown 对象设置 mlm_client 和 mlm_model 参数,如下所示:

from markitdown import MarkItDown

from openai import OpenAI

client = OpenAI()

md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")

result = md.convert("example.jpg")

print(result.text_content)

由于 MarkItDown 库采用 MIT 开源许可,开发人员可以自由使用、修改和分发。唯一的要求是在发布时包含原始许可证和版权声明。

开发者可在此处下载 MarkItDown Python 库。他们还可以使用 “pip install markitdown” 命令安装,或使用 “pip install -e” 命令从源代码中安装。

如果您不是开发人员,可以在这里试用 MarkItDown 库的网络应用程序:

https://msftmd.replit.app/

下一篇

传英伟达 RTX 5000 系列显卡仍有 8G 显存版

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部