一、引入必要的依赖
在开始之前,我们需要引入两个关键的库:一个是用于解析markdown的markdown4j,另一个是用于生成word文档的apache poi。这两个库将帮助我们完成从markdown到word的转换过程。
<dependencies>
<!-- markdown解析库 -->
<dependency>
<groupid>com.atlassian</groupid>
<artifactid>markdown4j</artifactid>
<version>2.3</version>
</dependency>
<!-- word文档生成库 -->
<dependency>
<groupid>org.apache.poi</groupid>
<artifactid>poi-ooxml</artifactid>
<version>5.2.3</version>
</dependency>
</dependencies>
二、解析markdown内容
首先,我们需要将markdown格式的内容解析成普通的文本。这一步骤中,我们将使用markdown4j库来完成markdown到html的转换,然后再进一步处理成纯文本。
import com.atlassian.markdown.markdownprocessor;
public class markdownparser {
public static string parsemarkdown(string markdowncontent) {
markdownprocessor markdownprocessor = new markdownprocessor();
return markdownprocessor.markdowntohtml(markdowncontent);
}
}
三、将解析后的内容写入word文档
接下来,我们将使用apache poi库将解析后的内容写入到word文档中。这一步骤中,我们将创建一个xwpf文档,并将解析后的内容添加到文档中。
import org.apache.poi.xwpf.usermodel.xwpfdocument;
import org.apache.poi.xwpf.usermodel.xwpfparagraph;
import org.apache.poi.xwpf.usermodel.xwpfrun;
import java.io.fileoutputstream;
import java.io.ioexception;
public class worddocumentgenerator {
public static void generateworddocument(string content, string outputpath) throws ioexception {
xwpfdocument document = new xwpfdocument();
xwpfparagraph paragraph = document.createparagraph();
xwpfrun run = paragraph.createrun();
run.settext(content);
try (fileoutputstream out = new fileoutputstream(outputpath)) {
document.write(out);
}
document.close();
}
}
四、完整的转换流程
最后,我们将上述两个步骤结合起来,实现一个完整的从markdown到word的转换流程。这一步骤中,我们将读取markdown文件的内容,解析后写入到word文档中。
import java.io.filereader;
import java.io.ioexception;
import java.io.bufferedreader;
public class markdowntowordconverter {
public static void main(string[] args) {
string markdownfilepath = "input.md";
string wordoutputpath = "output.docx";
try (bufferedreader reader = new bufferedreader(new filereader(markdownfilepath))) {
stringbuilder markdowncontent = new stringbuilder();
string line;
while ((line = reader.readline()) != null) {
markdowncontent.append(line).append("\n");
}
string parsedcontent = markdownparser.parsemarkdown(markdowncontent.tostring());
worddocumentgenerator.generateworddocument(parsedcontent, wordoutputpath);
system.out.println("markdown转换为word文档成功!");
} catch (ioexception e) {
e.printstacktrace();
}
}
}
五、总结
通过上述步骤,我们成功地将markdown格式的内容转换为了word文档。这一过程涉及到markdown的解析和word文档的生成,展示了java在文本处理和文档生成方面的强大能力。希望这一指南能够帮助你在实际开发中高效地完成类似任务。
六、方法补充
下面小编为大家整理了java将markdown格式转word的其他方法,希望对大家有所帮助
首先添加java处理的相关依赖:
<!-- excel工具 练习的项目自身的依赖-->
<dependency>
<groupid>org.apache.poi</groupid>
<artifactid>poi-ooxml</artifactid>
<version>4.1.2</version>
</dependency>
<!-- 新添加的依赖-->
<!-- markdown格式转换为html -->
<dependency>
<groupid>org.commonmark</groupid>
<artifactid>commonmark</artifactid>
<version>0.21.0</version>
</dependency>
<!-- poi-tl和poi-tl-plugin-markdown是处理markdown格式转换为word格式,处理只处理markdown转换为html,只需要commonnark依赖即可-->
<dependency>
<groupid>com.deepoove</groupid>
<artifactid>poi-tl</artifactid>
<version>1.10.1</version>
</dependency>
<dependency>
<groupid>com.deepoove</groupid>
<artifactid>poi-tl-plugin-markdown</artifactid>
<version>1.0.3</version>
</dependency>编写工具类
package com.xiaomifeng1010.common.utils;
import com.deepoove.poi.xwpftemplate;
import com.deepoove.poi.config.configure;
import com.deepoove.poi.data.style.*;
import com.deepoove.poi.plugin.markdown.markdownrenderdata;
import com.deepoove.poi.plugin.markdown.markdownrenderpolicy;
import com.deepoove.poi.plugin.markdown.markdownstyle;
import lombok.experimental.utilityclass;
import lombok.extern.slf4j.slf4j;
import org.apache.poi.xwpf.usermodel.xwpftable;
import org.apache.poi.xwpf.usermodel.xwpftablecell;
import org.commonmark.node.node;
import org.commonmark.parser.parser;
import org.commonmark.renderer.html.htmlrenderer;
import org.springframework.core.io.classpathresource;
import javax.servlet.http.httpservletresponse;
import java.io.file;
import java.io.ioexception;
import java.io.inputstream;
import java.net.urlencoder;
import java.nio.charset.standardcharsets;
import java.util.hashmap;
import java.util.map;
/**
* @author xiaomifeng1010
* @version 1.0
* @date: 2024-08-24 17:23
* @description
*/
@utilityclass
@slf4j
public class markdownutil {
/**
* markdown转html
*
* @param markdowncontent
* @return
*/
public string markdowntohtml(string markdowncontent) {
parser parser = parser.builder().build();
node document = parser.parse(markdowncontent);
htmlrenderer renderer = htmlrenderer.builder().build();
string htmlcontent = renderer.render(document);
log.info(htmlcontent);
return htmlcontent;
}
/**
* 将markdown格式内容转换为word并保存在本地
*
* @param markdowncontent
* @param outputfilename
*/
public void todoc(string markdowncontent, string outputfilename) {
log.info("markdowncontent:{}", markdowncontent);
markdownrenderdata code = new markdownrenderdata();
code.setmarkdown(markdowncontent);
markdownstyle style = markdownstyle.newstyle();
style = setmarkdownstyle(style);
code.setstyle(style);
// markdown样式处理与word模板中的标签{{md}}绑定
map<string, object> data = new hashmap<>();
data.put("md", code);
configure config = configure.builder().bind("md", new markdownrenderpolicy()).build();
try {
// 获取classpath
string path = markdownutil.class.getclassloader().getresource("").getpath();
log.info("classpath:{}", path);
//由于部署到linux上后,程序是从jar包中去读取resources下的文件的,所以需要使用流的方式读取,所以获取流,而不是直接使用文件路径
// 所以可以这样获取 inputstream resourceasstream = markdownutil.class.getclassloader().getresourceasstream("");
// 建议使用spring的工具类来获取,如下
classpathresource resource = new classpathresource("markdown" + file.separator + "markdown_template.docx");
inputstream resourceasstream = resource.getinputstream();
xwpftemplate.compile(resourceasstream, config)
.render(data)
.writetofile(path + "out_markdown_" + outputfilename + ".docx");
} catch (ioexception e) {
log.error("保存为word出错");
}
}
/**
* 将markdown转换为word文档并下载
*
* @param markdowncontent
* @param response
* @param filename
*/
public void convertanddownloadworddocument(string markdowncontent, httpservletresponse response, string filename) {
log.info("markdowncontent:{}", markdowncontent);
markdownrenderdata code = new markdownrenderdata();
code.setmarkdown(markdowncontent);
markdownstyle style = markdownstyle.newstyle();
style = setmarkdownstyle(style);
code.setstyle(style);
// markdown样式处理与word模板中的标签{{md}}绑定
map<string, object> data = new hashmap<>();
data.put("md", code);
configure configure = configure.builder().bind("md", new markdownrenderpolicy()).build();
try {
filename=urlencoder.encode(filename, standardcharsets.utf_8.name());
//由于部署到linux上后,程序是从jar包中去读取resources下的文件的,所以需要使用流的方式读取,所以获取流,而不是直接使用文件路径
// 所以可以这样获取 inputstream resourceasstream = markdownutil.class.getclassloader().getresourceasstream("");
// 建议使用spring的工具类来获取,如下
classpathresource resource = new classpathresource("markdown" + file.separator + "markdown_template.docx");
inputstream resourceasstream = resource.getinputstream();
response.setheader("content-disposition", "attachment; filename=" + urlencoder.encode(filename, "utf-8") + ".docx");
// contenttype不设置也是也可以的,可以正常解析到
response.setcontenttype("application/vnd.openxmlformats-officedocument.wordprocessingml.document;charset=utf-8");
xwpftemplate template = xwpftemplate.compile(resourceasstream, configure)
.render(data);
template.writeandclose(response.getoutputstream());
} catch (ioexception e) {
log.error("下载word文档失败:{}", e.getmessage());
}
}
/**
* 设置转换为word文档时的基本样式
* @param style
* @return
*/
public markdownstyle setmarkdownstyle(markdownstyle style) {
// 一定设置为false,不然生成的word文档中各元素前边都会加上有层级效果的一串数字,
// 比如一级标题 前边出现1 二级标题出现1.1 三级标题出现1.1.1这样的数字
style.setshowheadernumber(false);
// 修改默认的表格样式
// table header style(表格头部,通常为表格顶部第一行,用于设置列标题)
rowstyle headerstyle = new rowstyle();
cellstyle cellstyle = new cellstyle();
// 设置表格头部的背景色为灰色
cellstyle.setbackgroundcolor("cccccc");
style textstyle = new style();
// 设置表格头部的文字颜色为黑色
textstyle.setcolor("000000");
// 头部文字加粗
textstyle.setbold(true);
// 设置表格头部文字大小为12
textstyle.setfontsize(12);
// 设置表格头部文字垂直居中
cellstyle.setvertalign(xwpftablecell.xwpfvertalign.center);
cellstyle.setdefaultparagraphstyle(paragraphstyle.builder().withdefaulttextstyle(textstyle).build());
headerstyle.setdefaultcellstyle(cellstyle);
style.settableheaderstyle(headerstyle);
// table border style(表格边框样式)
borderstyle borderstyle = new borderstyle();
// 设置表格边框颜色为黑色
borderstyle.setcolor("000000");
// 设置表格边框宽度为3px
borderstyle.setsize(3);
// 设置表格边框样式为实线
borderstyle.settype(xwpftable.xwpfbordertype.single);
style.settableborderstyle(borderstyle);
// 设置普通的引用文本样式
paragraphstyle quotestyle = new paragraphstyle();
// 设置段落样式
quotestyle.setspacingbeforelines(0.5d);
quotestyle.setspacingafterlines(0.5d);
// 设置段落的文本样式
style quotetextstyle = new style();
quotetextstyle.setcolor("000000");
quotetextstyle.setfontsize(8);
quotetextstyle.setitalic(true);
quotestyle.setdefaulttextstyle(quotetextstyle);
style.setquotestyle(quotestyle);
return style;
}
public static void main(string[] args) {
string markdowncontent = "# 一级标题\n" +
"## 二级标题\n" +
"### 三级标题\n" +
"#### 四级标题\n" +
"##### 五级标题\n" +
"###### 六级标题\n" +
"## 段落\n" +
"这是一段普通的段落。\n" +
"## 列表\n" +
"### 无序列表\n" +
"- 项目1\n" +
"- 项目2\n" +
"- 项目3\n" +
"### 有序列表\n" +
"1. 项目1\n" +
"2. 项目2\n" +
"3. 项目3\n" +
"## 链接\n" +
"[百度](https://www.baidu.com)\n" +
"## 图片\n" +
"\n" +
"## 表格\n" +
"| 表头1 | 表头2 | 表头3 |\n" +
"|-------|-------|-------|\n" +
"| 单元格1 | 单元格2 | 单元格3 |\n" +
"| 单元格4 | 单元格5 | 单元格6 |";
todoc(markdowncontent, "test23");
}
}
到此这篇关于java实现将markdown格式内容转换为word文档的文章就介绍到这了,更多相关java markdown转word内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论