博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
(六) 流机制解析器
阅读量:4047 次
发布时间:2019-05-25

本文共 4436 字,大约阅读时间需要 14 分钟。

DOM解析器读入的是一个完整的XML文档,然后将其转换成一个树形的数据结构,对于大多数应用,DOM都运行得很好,但是当文档很大,并且处理算法非常简单,可以在运行时解析节点,而不必看到所有的树形结构时,DOM可能会显得效率低下。在这种情况下,我们应该使用 流解析机制(streaming parser)。

SAX解析器使用的是事件回调(event callback),而StAX解析器提供了解析事件的迭代器。
1.使用SAX解析器
SAX解析器在解析XML输入结构时就报告事件,但不会以任何方式存储文档。由事件处理器决定是否要建立数据结构。实际上,DOM解析器是在SAX解析器的基础上建立起来的,它在接收到解析器事件时建立DOM树。
在使用SAX解析器时,需要一个处理器来定义不同的解析器事件的事件动作,ContentHandler接口定义了若干回调方法。
其中最重要的几个:
(1)startElement和endElement在每当遇到起始或终止标签时调用。
(2)characters每当遇到字符数据时调用。
(3)startDocument和endDocument分别在文档开始和结束时各调用一次。
例:解析一下片段

    
Helvetica
36
 

解析器确保产生一下调用
(1)startElement,元素名:font
(2)startElement,元素名:name
(3)characters,内容:Helvetica
(4)endElement,元素名:name
(5)startElement,元素名:size,属性:units="pt"
(6)characters,内容:36
(7)endElement,元素名:size
(8)endElement,元素名:font
处理器必须覆盖这些方法,让它们执行在解析文件时想要执行的动作。
SAX解析流程
(1)SAX解析需要SAXParser

SAXParserFactory factory = SAXParseFactory.newInstance();    SAXParser parser = factory.newSAXParser();
 

(2)开始解析文档

parser.parse(source, handler);
 

(3)这里的source可以是一个文件、一个URL字符串或者是一个输入流。处理器属于DefaultHandler的一个子类,DefaultHandler类为以下四个接口定义了空的方法:
    ContentHandler
    DTDHandler
    EntityResolver
    ErrorHandler
示例程序中定义了一个处理器,它覆盖了ContentHandler接口的startElement方法来观察带有href属性的a元素。

DefaultHandler hanler = new DefaultHandler(        public void startElement(String namespaceURI, String lname, String qname, Attributes attrs) throws SAXException{            if(lname.equalsIgnoreCase("a") && attrs != null){                for(int i=0;i
 

   
startElement方法有3个描述元素名的参数,其中qname参数以alias:localname的形式报告限定名。如果命名空间处理特征已经打开,那么namespaceURI和lname参数描述的就是命名空间和本地(非限定)名。
与DOM解析器一样,命名空间处理特性默认是关闭的,可以调用工厂类的setNamespaceAware方法来激活命名空间处理特性:

SAXParserFactory  factory = SAXParserFactory.newInstance();    factory.setNamespaceAware(true);    SAXParser saxParser = factory.newSAXParser();

 

DEMO

package xml.sax;import javax.xml.parsers.ParserConfigurationException;import javax.xml.parsers.SAXParser;import javax.xml.parsers.SAXParserFactory;import org.xml.sax.Attributes;import org.xml.sax.SAXException;import org.xml.sax.helpers.DefaultHandler;public class SAXTest {	public static void main(String[] args) {		String url;				if(args.length == 0){			url = "http://www.w3c.org";			System.out.println("Using" + url);		}else{			url = args[0];		}				DefaultHandler handler = new DefaultHandler(){			public void startElement(String namespaceURI, String lname, String qname, Attributes attrs){				if("a".equals(lname) && attrs !=null){					for(int i=0;i
 

2.使用StAX解析器

StAX解析器是一种“拉解析器(pull parser)”,与安装事件处理器不同,只需要使用基本循环来迭代所有事件

InputStream in = new URL(url).openStream();    XMLInputFactory factory = XMLInputFactory.newInstance();    XMLStreamReader parser = factory.createXMLStreamReader(in);       while(parser.hasNext()){        int event = parser.next();        System.out.println("Call parser methods to obtain event details");    }
 

例,解析下面的片断

        
Helvetica
36
 

解析器将产生以下事件:
(1)START_ELEMENT,元素名:font
(2)CHARACTERS,内容:空白字符
(3)START_ELEMENT,元素名:name
(4)CHARACTERS,内容:Helvetica
(5)END_ELEMENT,元素名:name
(6)CHARACTERS,内容:空白字符
(7)START_ELEMENT,内容:元素名:size
(8)CHARACTERS,内容:36
(9)END_ELEMENT,元素名:size
(10)CHARACTERS,内容:空白字符
(11)END_ELEMENT,元素名:font
要分析这些属性值,需要调用XMLStreamReader类的恰当方法
例:

String units = parser.getAttributeValue(null, "units");
 

    获取当前元素的units属性。
默认情况下,支持命名空间的处理,可以通过修改工厂来设置为无效。

XMLInputFactory factory = XMLInputFactory.newInstance();    factory.setProperty(XMLInputFactory.IS_NAMESPACE_AWARE, false);
 

DEMO

package xml.stax;import java.io.File;import java.io.FileInputStream;import javax.xml.stream.XMLInputFactory;import javax.xml.stream.XMLStreamReader;public class StAXTest {	public static void main(String[] args) {		try{			String filename = System.getProperty("user.dir") + File.separator + "conf" 					+ File.separator +"xml" + File.separator + "中文路径" + File.separator + "www.w3.org.xml";			File file = new File(filename);			FileInputStream in = new FileInputStream(file);						XMLInputFactory factory = XMLInputFactory.newInstance();			factory.setProperty(XMLInputFactory.IS_NAMESPACE_AWARE, false);			XMLStreamReader parser = factory.createXMLStreamReader(in);						while(parser.hasNext()){				int event = parser.next();				if(event == XMLStreamReader.START_ELEMENT){					if("a".equals(parser.getLocalName())){						String href = parser.getAttributeValue(null, "href");						if(href!=null){							System.out.println(href);						}					}				}			}						}catch(Exception e){			e.printStackTrace();		}			}}

 

 

 

 

 

 

 

 

转载地址:http://iayci.baihongyu.com/

你可能感兴趣的文章
安装k8s Master高可用集群
查看>>
忽略图片透明区域的事件(Flex)
查看>>
忽略图片透明区域的事件(Flex)
查看>>
AS3 Flex基础知识100条
查看>>
Flex动态获取flash资源库文件
查看>>
flex4 中创建自定义弹出窗口
查看>>
01Java基础语法-16. while循环结构
查看>>
01Java基础语法-18. 各种循环语句的区别和应用场景
查看>>
01Java基础语法-19. 循环跳转控制语句
查看>>
Django框架全面讲解 -- Form
查看>>
socket,accept函数解析
查看>>
今日互联网关注(写在清明节后):每天都有值得关注的大变化
查看>>
”舍得“大法:把自己的优点当缺点倒出去
查看>>
[今日关注]鼓吹“互联网泡沫,到底为了什么”
查看>>
[互联网学习]如何提高网站的GooglePR值
查看>>
[关注大学生]求职不可不知——怎样的大学生不受欢迎
查看>>
[关注大学生]读“贫困大学生的自白”
查看>>
[互联网关注]李开复教大学生回答如何学好编程
查看>>
[关注大学生]李开复给中国计算机系大学生的7点建议
查看>>
[茶余饭后]10大毕业生必听得歌曲
查看>>