xml.dom.pulldom --- 支持構建部分 DOM 樹?
xml.dom.pulldom 模塊提供了一個“拉取解析器”,它能在必要時被用于產生文件的可訪問 DOM 的片段。 其基本概念包括從輸入的 XML 流拉取“事件”并處理它們。 與同樣地同時應用了事件驅動處理模型加回調函數的 SAX 不同,拉取解析器的用戶要負責顯式地從流拉取事件,并循環遍歷這些事件直到處理結束或者發生了錯誤條件。
警告
xml.dom.pulldom 模塊對于惡意構建的數據是不安全的。 如果你需要解析不受信任或未經身份驗證的數據,請參閱 XML 漏洞。
在 3.7.1 版更改: SAX 解析器默認不再處理一般外部實體以提升在默認情況下的安全性。 要啟用外部實體處理,請傳入一個自定義的解析器實例:
from xml.dom.pulldom import parse
from xml.sax import make_parser
from xml.sax.handler import feature_external_ges
parser = make_parser()
parser.setFeature(feature_external_ges, True)
parse(filename, parser=parser)
示例:
from xml.dom import pulldom
doc = pulldom.parse('sales_items.xml')
for event, node in doc:
if event == pulldom.START_ELEMENT and node.tagName == 'item':
if int(node.getAttribute('price')) > 50:
doc.expandNode(node)
print(node.toxml())
event 是一個常量,可以取下列值之一:
START_ELEMENTEND_ELEMENTCOMMENTSTART_DOCUMENTEND_DOCUMENTCHARACTERSPROCESSING_INSTRUCTIONIGNORABLE_WHITESPACE
node 是一個 xml.dom.minidom.Document, xml.dom.minidom.Element 或 xml.dom.minidom.Text 類型的對象。
由于文檔是被當作“展平”的事件流來處理的,文檔“樹”會被隱式地遍歷并且無論所需元素在樹中的深度如何都會被找到。 換句話說,不需要考慮層級問題,例如文檔節點的遞歸搜索等,但是如果元素的內容很重要,則有必要保留一些上下文相關的狀態(例如記住任意給定點在文檔中的位置)或者使用 DOMEventStream.expandNode() 方法并切換到 DOM 相關的處理過程。
-
class
xml.dom.pulldom.PullDom(documentFactory=None)?
-
class
xml.dom.pulldom.SAX2DOM(documentFactory=None)?
-
xml.dom.pulldom.parse(stream_or_string, parser=None, bufsize=None)? 基于給定的輸入返回一個
DOMEventStream。 stream_or_string 可以是一個文件名,或是一個文件類對象。 parser 如果給出,則必須是一個XMLReader對象。 此函數將改變解析器的文檔處理程序并激活命名空間支持;其他解析器配置(例如設置實體解析器)必須在之前已完成。
如果你將 XML 存放為字符串,則可以改用 parseString() 函數:
-
xml.dom.pulldom.parseString(string, parser=None)? 返回一個
DOMEventStream來表示 (Unicode) string。
DOMEventStream 對象?
-
class
xml.dom.pulldom.DOMEventStream(stream, parser, bufsize)? -
getEvent()? 返回一個元組,其中包含 event 和
xml.dom.minidom.Document形式的當前 node 如果 event 等于START_DOCUMENT,包含xml.dom.minidom.Element如果 event 等于START_ELEMENT或END_ELEMENT或者xml.dom.minidom.Text如果 event 等于CHARACTERS。 當前 node 不包含有關其子節點的信息,除非expandNode()被調用。
-
expandNode(node)? 將 node 的所有子節點擴展到 node 中。 例如:
from xml.dom import pulldom xml = '<html><title>Foo</title> <p>Some text <div>and more</div></p> </html>' doc = pulldom.parseString(xml) for event, node in doc: if event == pulldom.START_ELEMENT and node.tagName == 'p': # Following statement only prints '<p/>' print(node.toxml()) doc.expandNode(node) # Following statement prints node with all its children '<p>Some text <div>and more</div></p>' print(node.toxml())
-
reset()?
-
