Ttidy Html转Xml(1)

8,567次阅读
没有评论

共计 2569 个字符,预计需要花费 7 分钟才能阅读完成。

import java.io.*;

import java.net.URL;

public class HtmlToXML {

private String url;

private String outFileName;

private String errOutFileName;

public HtmlToXML(String url, String outFileName, String errOutFileName) {

this.url = url; // 目标页面地址

this.outFileName = outFileName; // 输出文件的地址和名称

this.errOutFileName = errOutFileName; // 输出错误文件的地址和名称

}

public void convert() {

URL u;

BufferedInputStream in;

FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setXmlOut(true);

tidy.setXmlPi(true);   // 添加 标签 为输出的 XML 文件,这些参数是可选的。

tidy.setXmlSpace(true);

tidy.setCharEncoding(Configuration.ISO2022); // 这个很重要,如果没有它,就会出现中文乱码

/*

我看了一下源码,上面对 charEncoding 是这样规定的

/* character encodings */

public static final int RAW         = 0;

public static final int ASCII       = 1;

public static final int LATIN1      = 2;

public static final int UTF8        = 3;

public static final int ISO2022     = 4;

public static final int MACROMAN    = 5;

*/

try {

// 错误文件的输入地址和名称

tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));

u = new URL(url);

// 建立输入和输出文件

in = new BufferedInputStream(u.openStream());

out = new FileOutputStream(outFileName);

// 文件转换

tidy.parse(in, out);

// 资源释放

in.close();

out.close();

} catch (IOException e) {

System.out.println(this.toString() + e.toString());

}

}

public static void main(String[] args) {

/*

* Parameters are:

* URL of HTML file

* Filename of output file

* Filename of error file

*/

HtmlToXML t = new HtmlToXML(“http://www.baidu.com”,“c:/jtidy.htm”,“c:/jtidyError.htm”);

t.convert();

}

}

大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的 API 文档

————————————-

看了一下 JTidy 的 api 文档,现在网友的一些 Tidy 的方法明细列出来,供参考使用,漏掉的方法可以参考 API 文档。

public void setIndentContent(boolean IndentContent)  是否使用缩进

public void setSmartIndent(boolean SmartIndent)  节点结束后,是否另起一行

public void setQuoteMarks(boolean QuoteMarks)  用 “ 替换 “

public void setQuoteNbsp(boolean QuoteNbsp)

public Document parseDOM(java.io.InputStream in,java.io.OutputStream out)  转换为 DOM 对象

setAltText(java.lang.String altText)

加上默认的 alt 属性值

setBreakBeforeBR(boolean breakBeforeBR)

在换行
之前加一空行

setCharEncoding(int charencoding)

已废弃

setConfigurationFromFile(java.lang.String filename)

自我介绍一下,小编 13 年上海交大毕业,曾经在小公司待过,也去过华为、OPPO 等大厂,18 年进入阿里一直到现在。

深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024 年 Web 前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

Ttidy Html 转 Xml(1)

Ttidy Html 转 Xml(1)

既有适合小白学习的零基础资料,也有适合 3 年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了 95% 以上前端开发知识点,真正体系化!

Ttidy Html 转 Xml(1)

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:前端)

最后

资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料 PDF 完整版!

自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。

mg-x0jk7KOJ-1713561506492)]

[外链图片转存中…(img-ZmknMim4-1713561506493)]

资料过多,篇幅有限,需要文中全部资料可以点击这里免费获取前端面试资料 PDF 完整版!

自古成功在尝试。不尝试永远都不会成功。勇敢的尝试是成功的一半。

原文地址: Ttidy Html 转 Xml(1)

    正文完
     0
    Yojack
    版权声明:本篇文章由 Yojack 于2024-10-14发表,共计2569字。
    转载说明:
    1 本网站名称:优杰开发笔记
    2 本站永久网址:https://yojack.cn
    3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
    4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
    5 本站所有内容均可转载及分享, 但请注明出处
    6 我们始终尊重原创作者的版权,所有文章在发布时,均尽可能注明出处与作者。
    7 站长邮箱:laylwenl@gmail.com
    评论(没有评论)