分享一个microsoft开源的Python工具——markitdown,轻松将各类文件转换为Markdown格式。

markitdown支持的文件格式
- 各种其他基于文本的格式(如csv、json、xml等)
markitdown使用
pip install markitdown
from markitdown import MarkItDown
# 导入MarkItDown类
markitdown = MarkItDown()
# 创建MarkItDown对象
result = markitdown.convert("test.xlsx")
# 转换test.xlsx为Markdown格式
print(result.text_content)
# 输出转换后的内容
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o") #指定使用"gpt-4o"模型
result = md.convert("example.jpg")
print(result.text_content)
markitdown path-to-file.pdf > document.md
#将path-to-file.pdf转为document.md文件
进一步学习:https://github.com/microsoft/markitdown
请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。
(也可以加入机器学习交流qq群772479961)
