共计 2568 个字符,预计需要花费 7 分钟才能阅读完成。
很早之前就想研究研究,一直没有合适的时间,今天刚好没啥事,乘机瞧一瞧 xpath 的“庐山真面目”。
Xpath 简介
XPath 全称 XML 路径语言(XML Path Language),它是一种用来确定 XML 文档中某部分位置的语言。XPath 基于 XML 的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于 XPointer 与 XSL 间的语法模型。但是 XPath 很快地被开发者采用来当作小型查询语言。
Xpath 术语
1. 节点
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。
Harry Potter
J K. Rowling
2005
29.99
2. 节点关系
在 XPath 中,节点关系可分为:父节点、祖先节点、同胞节点、子节点、后代节点;
Xpath 语法
1. 基本语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。以下方代码为例:
Harry Potter
29.99
Learning XML
39.95
- / 从当前选择的元素内选择子节点
- // 从当前选择的元素内选择后代节点
- . 选取当前节点。
- .. 选取当前节点的父节点。
- @ 选取属性。
# 选择 body
./html/body
//body
/html/body
# 选择所有名为 id 的属性
//@id
# 选择自身名 id 的属性
/@id
2. 谓语
# 选取属于 bookstore 子元素的第一个 book 元素。/bookstore/book[1]
# 选取属于 bookstore 子元素的最后一个 book 元素。/bookstore/book[last()]
# 选取属于 bookstore 子元素的倒数第二个 book 元素。/bookstore/book[last()-1]
# 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。/bookstore/book[position()<3]
# 选取所有拥有名为 lang 的属性的 title 元素。//title[@lang]
# 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。//title[@lang='eng']
# 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。/bookstore/book[price>35.00]
# 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。/bookstore/book[price>35.00]/title
3. 通配符
* # 匹配任何元素节点。@* # 匹配任何属性节点。node() # 匹配任何类型的节点。/book | /css | /newBook 选取若干节点
4.XPath 轴
ancestor #选取当前节点的所有先辈(父、祖父等)。ancestor-or-self #选取当前节点的所有先辈(父、祖父等)以及当前节点本身。attribute #选取当前节点的所有属性。child #选取当前节点的所有子元素。descendant #选取当前节点的所有后代元素(子、孙等)。descendant-or-self #选取当前节点的所有后代元素(子、孙等)以及当前节点本身。following #选取文档中当前节点的结束标签之后的所有节点。namespace #选取当前节点的所有命名空间节点。parent #选取当前节点的父节点。preceding #选取文档中当前节点的开始标签之前的所有节点。preceding-sibling #选取当前节点之前的所有同级节点。self #选取当前节点。
使用方法如下:
轴名称:: 节点测试 [谓语]
# 选取元素的所有属性
//*[@id="fixed"]/aside/attribute::*
//*[@id="fixed"]/aside/@*
5.xpath 运算符
参考文档:https://www.w3school.com.cn/xpath/xpath_operators.asp
6.xpath 函数
- count(/html//div),计算节点数量
- name(/html//div[1]),节点名称
// 选择不包含 class 属性的节点 var result = node.SelectNodes(".//span[not(@class)]"); // 选择不包含 class 和 id 属性的节点 var result = node.SelectNodes(".//span[not(@class) and not(@id)]"); // 选择不包含 class="expire" 的 span var result = node.SelectNodes(".//span[not(contains(@class,'expire'))]"); // 选择包含 class="expire" 的 span var result = node.SelectNodes(".//span[contains(@class,'expire')]");
JS 使用 xpath
1. 基本用法
var xpathResult = document.evaluate(
xpathExpression,
contextNode,
namespaceResolver,
resultType,
result
);
// 实际例子
document.evaluate(".//h2", document.body, null, XPathResult.ANY_TYPE, null);
2.XPathResult 对象
iterateNext()
,返回一个可迭代的对象,通过 iteratorNext() 迭代所有元素,一旦迭代完成所有的匹配节点,iterateNext() 将返回 null。如果在迭代过程中,文档发生突变(文档树被修改),将使迭代无效,并且 XPathResult 的 invalidIteratorState 属性设置为 true,抛出 NS_ERROR_DOM_INVALID_STATE_ERR 异常。snapshotItem(itemNumber)
方法用于单独访问每个节点,其中 itemNumber 是要检索的节点的索引。包含的节点总数可以通过 snapshotLength 属性访问。快照不随文档突变而改变,因此与迭代器不同,快照不会变得无效,但是它可能不对应于当前文档,例如节点可能已被移动,它可能包含不再存在的节点,或新节点可能已添加。-
singleNodeValue
属性用于访问 XPath 表达式的第一个找到的节点。如果节点集为空,这将为 null。对于无序子类型,返回的单个节点可能不是文档顺序中的第一个,但是对于有序子类型,保证以文档顺序获取第一个匹配的节点。
PHP 中使用 Xpath
xpath("from");
print_r($result);
?>
正文完