社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

【Python】微软开源Python Markdown转换工具

机器学习初学者 • 8 月前 • 216 次点击  
分享一个microsoft开源的Python工具——markitdown,轻松将各类文件转换为Markdown格式。

markitdown支持的文件格式

  • PDF(.pdf)
  • PowerPoint(.pptx)
  • Word(.docx)
  • Excel(.xlsx)
  • 图片(支持EXIF元数据和OCR识别)
  • 音频(支持EXIF元数据和语音转录)
  • HTML(包括对Wikipedia等特殊处理)
  • 各种其他基于文本的格式(如csv、json、xml等)
  • ZIP(遍历压缩包内容并逐一转换每个文件)

markitdown使用

  • 安装
pip install markitdown
  • Python代码中使用小例子
from markitdown import MarkItDown  
# 导入MarkItDown类

markitdown = MarkItDown()  
# 创建MarkItDown对象

result = markitdown.convert("test.xlsx")  
# 转换test.xlsx为Markdown格式

print(result.text_content)  
# 输出转换后的内容
  • Python代码中使用小例子(借助大模型)
from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o"#指定使用"gpt-4o"模型
result = md.convert("example.jpg")
print(result.text_content)
  • 终端使用小例子
markitdown path-to-file.pdf > document.md
#将path-to-file.pdf转为document.md文件

进一步学习:https://github.com/microsoft/markitdown

-END-

往期精彩回顾




  • 交流群

请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。

也可以加入机器学习交流qq群772479961


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177113
 
216 次点击