markdown是一种轻量级的标记语言,用于以简洁易读的方式编写文本内容,同时能够方便地转换为结构化的html文本或其他格式,常用于编写文档、博客、论坛帖子等。它与纯文本极为接近,几乎不带任何标记或格式,却仍能有效呈现文档的重要结构。markdown的详细使用说明可参考:markdown教程。
主流的大型语言模型(llm),如openai的gpt-4,天生便“精通”markdown,并且常常在未被提示的情况下将其融入回应之中。此外,markdown的规范还具有极高的编码效率,可谓一举多得。
因此,学习markdown语言的使用,并通过python实现markdown文本与其他格式文本的相互转换,能够提高文档编写的效率和质量,满足不同场景下的文档处理需求。
1 markitdown库
1.1 markitdown库介绍
markitdown库是一款轻量级的python版markdown格式解析与渲染工具,能够将多种文件格式高效转换为markdown格式,从而满足大语言模型(llms)及相关文本分析流程的需求。它专注于以markdown格式精准保留文档的关键结构与内容,包括标题、列表、表格、链接等元素。虽然其输出结果既美观又易于人类用户阅读,但其核心设计宗旨是为文本分析工具提供支持,因此对于那些需要高保真度转换以供人类阅读的文档,它可能并非最优选择。
目前,markitdown库支持以下文件类型的转换:
- powerpoint(按从上到下、从左到右的顺序读取内容)
- word
- excel
- 图片(支持exif元数据提取和光学字符识别ocr)
- 音频(支持exif元数据提取和语音转录)
- html
- 基于文本的格式(如csv、json、xml)
- zip文件(可遍历文件内的内容进行转换)
- youtube网址
- 以及其他更多类型!
markitdown库的官方仓库见:markitdown,markitdown需要在python3.10及以上版本运行,markitdown库安装代码如下:
pip install 'markitdown[all]~=0.1.0a1'
或者从源代码安装:
git clone git@github.com:microsoft/markitdown.git cd markitdown pip install -e packages/markitdown[all]
1.2 markitdown库使用示例
markitdown库将不同文件转换为markdown格式的方式非常简单。只需初始化工具类,然后调用类对象的convert方法对文件进行转换,并输出markdown格式字符串即可。
示例 1
以下代码展示了如何生成示例excel数据,并使用markitdown库将其转换为markdown格式的字符串和文件:
import pandas as pd import numpy as np # 生成一些示例数据 np.random.seed(0) data = { 'name': ['alice', 'bob', 'charlie', 'david', 'eve', 'frank'], 'age': [25, 30, 35, 40, 45, 50], 'gender': ['female', 'male', 'male', 'male', 'female', 'male'], 'score1': np.random.randint(0, 100, 6), 'score2': np.random.randint(0, 100, 6) } # 创建一个基本的dataframe df = pd.dataframe(data) # 添加多级索引 index = pd.multiindex.from_product([['group a', 'group b'], ['subgroup 1', 'subgroup 2', 'subgroup 3']], names=['group', 'subgroup']) df.index = index # 计算每行的总分和平均分 df['total score'] = df[['score1', 'score2']].sum(axis=1) df['average score'] = df[['score1', 'score2']].mean(axis=1) # 显示表格 # print(df) # 保存表格为xlsx文件 df.to_excel('test.xlsx') # 将excel转换为markdown文件 from markitdown import markitdown # 通过传递enable_plugins=fals参数,表明在进行转换时不启用插件功能 md = markitdown(enable_plugins=false) # 调用md对象的convert方法,将test.xlsx文件进行转换 result = md.convert("test.xlsx") # text_content为一个字符串 print(result.text_content) # 返回结果为字典 print(result.__dict__) # 将结果保存为markdown文件 # 定义要保存的markdown文件的文件名 output_file = "output.md" # 以写入模式打开文件,如果文件不存在则创建 with open(output_file, 'w', encoding='utf-8') as file: # 将转换后的文本内容写入文件 file.write(result.text_content)
示例 2
本示例展示了使用markitdown库将pdf文件转换为markdown数据,并开启azure document intelligence功能,也就是利用microsoft文档智能辅助进行转换。注意,此过程不会转换pdf中的图片。
import random import string # pip install fpdf from fpdf import fpdf from pil import image, imagedraw, imagefont # 生成随机文字 def generate_random_text(length): letters = string.ascii_letters + string.digits + string.punctuation return ''.join(random.choice(letters) for i in range(length)) # 生成随机图片 def generate_random_image(width, height): # 创建一个随机颜色的图片 image = image.new('rgb', (width, height), color=( random.randint(0, 255), random.randint(0, 255), random.randint(0, 255) )) draw = imagedraw.draw(image) font = imagefont.load_default() # 在图片上添加随机文字 text = generate_random_text(20) draw.text((10, 10), text, fill=(255, 255, 255), font=font) image_path = 'random_image.png' image.save(image_path) return image_path # 创建pdf并添加随机图片和文字 def create_pdf(): pdf = fpdf() pdf.add_page() # 添加随机文字到pdf顶部 top_text = generate_random_text(100) pdf.set_font("arial", size=12) pdf.multi_cell(0, 10, txt=top_text) # 生成随机图片 image_path = generate_random_image(300, 200) # 添加图片到pdf pdf.image(image_path, x=10, y=pdf.get_y(), w=100) # 移动到图片下方 pdf.ln(210) # 添加随机文字到pdf底部 bottom_text = generate_random_text(100) pdf.multi_cell(0, 10, txt=bottom_text) # 保存pdf pdf.output("test.pdf") # 创建pdf create_pdf() from markitdown import markitdown # 将文档转换为markdown # azure文档智能:可以使用microsoft文档智能进行转换 md = markitdown(docintel_endpoint="<document_intelligence_endpoint>") # 不会转换pdf中的图片 result = md.convert("test.pdf") print(result.text_content)
示例 3
本示例展示了借助markitdown库使用大语言模型生成图像描述。在初始化该工具类时,需提供大语言模型客户端(llm_client)和大语言模型名字(llm_model)。
from markitdown import markitdown from openai import openai client = openai() md = markitdown(llm_client=client, llm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)
2 python-markdown库
2.1 python-markdown库介绍
若需将markdown格式转换为html或其他格式,可以使用python中的python-markdown库。该库是markdown格式转换为html的纯python实现,它支持标准的markdown语法,并提供了许多扩展以增强功能。
python-markdown库的官方仓库见:python-markdown,python-markdown库需要在python3.7及以上版本运行,python-markdown库安装代码如下:
pip install markdown
2.2 python-markdown库使用示例
示例 1
本示例展示了如何基于python-markdown库将markdown文本转换为html。需注意,python-markdown库采用的是原始markdown语法,即当列表项由多个段落构成时,列表项中每个后续段落都必须以4个空格的缩进起始。
import markdown print(f'markdown version: {markdown.__version__}') # 定义markdown文本 markdown_text = """ # 这是一个markdown标题 这是一段普通文字,后续为列表项需要换行或者4个空格。 - 列表项 1 - 列表项 2 [markdown超链接](https://www.example.com) """ # 将markdown文本转换为 html html_text = markdown.markdown(markdown_text) # 打印转换后的html文本 print(html_text)
示例 2
本示例展示了基于python-markdown库从本地markdown文件中读取内容,并将其转换为htm格式:
import markdown def create_example_markdown(file_path): example_content = """ # markdown示例标题 这是一个示例的markdown文件内容。 ## 子标题 下面是一个无序列表: - 列表项 1 - 列表项 2 这里还有一个有序列表: 1. 有序项 1 2. 有序项 2 """ try: with open(file_path, 'w', encoding='utf-8') as file: file.write(example_content) print("示例 markdown 文件已创建。") except exception as e: print(f"错误: 创建文件时发生未知错误: {e}") def read_markdown_file(file_path): try: with open(file_path, 'r', encoding='utf-8') as file: return file.read() except filenotfounderror: print(f"错误: 文件 {file_path} 未找到。") return none except exception as e: print(f"错误: 读取文件时发生未知错误: {e}") return none # 创建本地示例markdown文件 file_path = 'example.md' create_example_markdown(file_path) markdown_text = read_markdown_file(file_path) if markdown_text is not none: html_text = markdown.markdown(markdown_text) print(html_text)
示例 3
本示例展示了在使用python-markdown库将markdown文本转换为html的过程中,如何运用自定义扩展函数来修改生成的html格式。例如为标题和列表项添加样式。
from markdown.treeprocessors import treeprocessor from markdown.extensions import extension class markdownstyleprocessor(treeprocessor): # 遍历html节点设置不同参数 def run(self, tree_root): for element in tree_root.iter(): if element.tag == "h1": element.set("class", "custom-h1") element.set("style", "color: #007bff; font-size: 2.5em; margin-bottom: 0.5em;") elif element.tag == "h2": element.set("class", "custom-h2") element.set("style", "color: #00ff00; font-size: 1.1em; margin-bottom: 0.3em;") class markdownstyleextension(extension): # 该方法用于扩展markdown对象 def extendmarkdown(self, markdown_obj): # markdown_style定义处理的名字。10表示表示处理器的优先级,值越大越往后处理 markdown_obj.treeprocessors.register(markdownstyleprocessor(markdown_obj), "markdown_style", 10) import markdown try: with open("example.md", "r", encoding="utf-8") as file: markdown_content = file.read() # 将markdown内容转换为html,同时使用自定义的扩展 html_result = markdown.markdown( markdown_content, extensions=[markdownstyleextension()] ) print(html_result) except exception as e: print(f"发生错误: {e}")
示例 4
python-markdown库集成了若干插件,用以支持不同类型markdown语法的转换。这些插件的调用可通过转换函数的extensions参数进行设置。以下是可扩展的功能及调用参数:
扩展功能 | 调用参数 | 模块路径 |
---|---|---|
额外功能 | extra | markdown.extensions.extra |
缩写 | abbr | markdown.extensions.abbr |
属性列表 | attr_list | markdown.extensions.attr_list |
定义列表 | def_list | markdown.extensions.def_list |
围栏代码块 | fenced_code | markdown.extensions.fenced_code |
脚注 | footnotes | markdown.extensions.footnotes |
html中的markdown | md_in_html | markdown.extensions.md_in_html |
表格 | tables | markdown.extensions.tables |
警告 | admonition | markdown.extensions.admonition |
代码高亮 | codehilite | markdown.extensions.codehilite |
遗留属性 | legacy_attrs | markdown.extensions.legacy_attrs |
遗留强调 | legacy_em | markdown.extensions.legacy_em |
元数据 | meta | markdown.extensions.meta |
新行转断行 | nl2br | markdown.extensions.nl2br |
合理列表 | sane_lists | markdown.extensions.sane_lists |
智能标点 | smarty | markdown.extensions.smarty |
目录 | toc | markdown.extensions.toc |
wiki链接 | wikilinks | markdown.extensions.wikilinks |
以下代码展示了如何基于python-markdown库从文件中读取markdown内容,并利用该库的扩展功能来增添额外特性,例如脚注、代码块和表格。
示例markdown文件如下:
# 示例 示例代码如下[^1]: print("hello world!") 示例表格如下[^2]: |姓名|年龄| |:-|-:| |张三|16| |李四|23| [^1]: 示例代码 [^2]: 示例表格
转换代码如下:
import markdown with open("example.md", "r", encoding="utf-8") as fd: markdown_text = fd.read() # 通过extensions参数设置转换格式 html_output = markdown.markdown( markdown_text, extensions=["tables", "footnotes", "fenced_code"] ) print(html_output)
以上就是利用python实现markdown文档格式转换详解的详细内容,更多关于python markdown格式转换的资料请关注代码网其它相关文章!
发表评论