Move case folding into the tokenizer. We now fail 4 tests although some are bugs in the test harness

jgraham · jgraham · commit e2fd65297a52 · 2007-07-12T23:09:26.000Z
--HG--
extra : convert_revision : svn%3Aacbfec75-9323-0410-a652-858a13e371e0/trunk%40892
diff --git a/src/html5lib/html5parser.py b/src/html5lib/html5parser.py
@@ -32,7 +32,8 @@ class HTMLParser(object):
     """HTML parser. Generates a tree structure from a stream of (possibly
         malformed) HTML"""
 
-    def __init__(self, strict = False, tree=simpletree.TreeBuilder, tokenizer=tokenizer.HTMLTokenizer):
+    def __init__(self, strict = False, tree=simpletree.TreeBuilder,
+                 tokenizer=tokenizer.HTMLTokenizer):
         """
         strict - raise an exception when a parse error is encountered
 
@@ -73,14 +74,14 @@ def __init__(self, strict = False, tree=simpletree.TreeBuilder, tokenizer=tokeni
         }
 
     def _parse(self, stream, innerHTML=False, container="div",
-               encoding=None):
+               encoding=None, **kwargs):
         
         self.tree.reset()
         self.firstStartTag = False
         self.errors = []
 
-        self.tokenizer = self.tokenizer_class(stream, encoding,
-                                              parseMeta=not innerHTML)
+        self.tokenizer = self.tokenizer_class(stream, encoding=encoding,
+                                              parseMeta=not innerHTML, **kwargs)
 
         if innerHTML:
             self.innerHTML = container.lower()
@@ -176,26 +177,11 @@ def normalizeToken(self, token):
             token["type"] = "StartTag"
 
         if token["type"] == "StartTag":
-            token["name"] = token["name"].translate(asciiUpper2Lower)
-
-            # We need to remove the duplicate attributes and convert attributes
-            # to a dict so that [["x", "y"], ["x", "z"]] becomes {"x": "y"}
-
-            # AT When Python 2.4 is widespread we should use
-            # dict(reversed(token.data))
-            if token["data"]:
-                token["data"] = dict([(attr.translate(asciiUpper2Lower), value)
-                    for attr,value in token["data"][::-1]])
-            else:
-                token["data"] = {}
-
-        elif token["type"] == "EndTag":
-            if token["data"]:
-               self.parseError(_("End tag contains unexpected attributes."))
-            token["name"] = token["name"].lower()
+            token["data"] = dict(token["data"][::-1])
 
         return token
 
+
     def resetInsertionMode(self):
         # The name of this method is mostly historical. (It's also used in the
         # specification.)
diff --git a/src/html5lib/liberalxmlparser.py b/src/html5lib/liberalxmlparser.py
@@ -27,28 +27,21 @@ class XMLParser(html5parser.HTMLParser):
 
     def __init__(self, *args, **kwargs):
         html5parser.HTMLParser.__init__(self, *args, **kwargs)
+        
         self.phases["initial"] = XmlRootPhase(self, self.tree)
 
     def normalizeToken(self, token):
-        if token["type"] == "StartTag" or token["type"] == "EmptyTag":
-            # We need to remove the duplicate attributes and convert attributes
-            # to a dict so that [["x", "y"], ["x", "z"]] becomes {"x": "y"}
 
-            # AT When Python 2.4 is widespread we should use
-            # dict(reversed(token.data))
+        if token["type"] in ("StartTag", "EmptyTag"):
             token["data"] = dict(token["data"][::-1])
 
-            # For EmptyTags, process both a Start and an End tag
-            if token["type"] == "EmptyTag":
-                save = self.tokenizer.contentModelFlag
-                self.phase.processStartTag(token["name"], token["data"])
-                self.tokenizer.contentModelFlag = save
-                token["data"] = {}
-                token["type"] = "EndTag"
-
-        elif token["type"] == "EndTag":
-            if token["data"]:
-               self.parseError(_("End tag contains unexpected attributes."))
+        # For EmptyTags, process both a Start and an End tag
+        if token["type"] == "EmptyTag":
+            save = self.tokenizer.contentModelFlag
+            self.phase.processStartTag(token["name"], token["data"])
+            self.tokenizer.contentModelFlag = save
+            token["data"] = {}
+            token["type"] = "EndTag"
 
         elif token["type"] == "Characters":
             # un-escape rcdataElements (e.g. style, script)
@@ -64,6 +57,13 @@ def normalizeToken(self, token):
 
         return token
 
+    def _parse(self, stream, innerHTML=False, container="div", encoding=None,
+               **kwargs):
+
+        html5parser.HTMLParser._parse(self, stream, innerHTML, container,
+                                      encoding, lowercaseElementName=False,
+                                      lowercaseAttrName=False)
+
 class XHTMLParser(XMLParser):
     """ liberal XMTHML parser """
 
diff --git a/src/html5lib/sanitizer.py b/src/html5lib/sanitizer.py
@@ -2,7 +2,7 @@
 from xml.sax.saxutils import escape, unescape
 from tokenizer import HTMLTokenizer
 
-class HTMLSanitizerMixin:
+class HTMLSanitizerMixin(object):
     """ sanitization of XHTML+MathML+SVG and of inline style attributes."""
 
     acceptable_elements = ['a', 'abbr', 'acronym', 'address', 'area', 'b',
@@ -188,7 +188,15 @@ def sanitize_css(self, style):
         return ' '.join(clean)
 
 class HTMLSanitizer(HTMLTokenizer, HTMLSanitizerMixin):
+    def __init__(self, stream, encoding=None, parseMeta=True,
+                 lowercaseElementName=False, lowercaseAttrName=False):
+        #Change case matching defaults as we only output lowercase html anyway
+        #This solution doesn't seem ideal...
+        HTMLTokenizer.__init__(self, stream, encoding, parseMeta,
+                               lowercaseElementName, lowercaseAttrName)
+
     def __iter__(self):
         for token in HTMLTokenizer.__iter__(self):
             token = self.sanitize_token(token)
-            if token: yield token
+            if token:
+                yield token
diff --git a/src/html5lib/tokenizer.py b/src/html5lib/tokenizer.py
@@ -32,9 +32,14 @@ class HTMLTokenizer(object):
 
     # XXX need to fix documentation
 
-    def __init__(self, stream, encoding=None, parseMeta=True):
+    def __init__(self, stream, encoding=None, parseMeta=True,
+                 lowercaseElementName=True, lowercaseAttrName=True,):
         self.stream = HTMLInputStream(stream, encoding, parseMeta)
-
+        
+        #Perform case conversions?
+        self.lowercaseElementName = lowercaseElementName
+        self.lowercaseAttrName = lowercaseAttrName
+        
         self.states = {
             "data":self.dataState,
             "entityData":self.entityDataState,
@@ -272,9 +277,15 @@ def emitCurrentToken(self):
         the state to "data" because that's what's needed after a token has been
         emitted.
         """
-
+        token = self.currentToken
         # Add token to the queue to be yielded
-        self.tokenQueue.append(self.currentToken)
+        if (token["type"] in ("StartTag", "EndTag", "EmptyTag")):
+            if self.lowercaseElementName:
+                token["name"] = token["name"].translate(asciiUpper2Lower)
+            if token["type"] == "EndTag" and token["data"]:
+               self.tokenQueue.append({"type":"ParseError",
+                                       "data":_("End tag contains unexpected attributes.")})
+        self.tokenQueue.append(token)
         self.state = self.states["data"]
 
 
@@ -511,10 +522,14 @@ def attributeNameState(self):
             # Attributes are not dropped at this stage. That happens when the
             # start tag token is emitted so values can still be safely appended
             # to attributes, but we do want to report the parse error in time.
+            if self.lowercaseAttrName:
+                self.currentToken["data"][-1][0] = (
+                    self.currentToken["data"][-1][0].translate(asciiUpper2Lower))
             for name, value in self.currentToken["data"][:-1]:
                 if self.currentToken["data"][-1][0] == name:
                     self.tokenQueue.append({"type": "ParseError", "data":
                       _("Dropped duplicate attribute on tag.")})
+                    break
             # XXX Fix for above XXX
             if emitToken:
                 self.emitCurrentToken()
diff --git a/src/html5lib/treebuilders/simpletree.py b/src/html5lib/treebuilders/simpletree.py
@@ -112,9 +112,9 @@ def __init__(self, name):
 
     def __unicode__(self):
         if self.name:
-            return "<!DOCTYPE %s>" % self.name
+            return u"<!DOCTYPE %s>" % self.name
         else:
-            return "<!DOCTYPE>"
+            return u"<!DOCTYPE>"
 
     toxml = __unicode__
     
@@ -128,7 +128,7 @@ def __init__(self, value):
         self.value = value
 
     def __unicode__(self):
-        return "\"%s\"" % self.value
+        return u"\"%s\"" % self.value
 
     def toxml(self):
         return escape(self.value)
@@ -142,20 +142,20 @@ def __init__(self, name):
         self.attributes = {}
         
     def __unicode__(self):
-        return "<%s>" % self.name
+        return u"<%s>" % self.name
 
     def toxml(self):
         result = '<' + self.name
         if self.attributes:
             for name,value in self.attributes.iteritems():
-                result += ' %s="%s"' % (name, escape(value,{'"':'&quot;'}))
+                result += u' %s="%s"' % (name, escape(value,{'"':'&quot;'}))
         if self.childNodes:
             result += '>'
             for child in self.childNodes:
                 result += child.toxml()
-            result += '</%s>' % self.name
+            result += u'</%s>' % self.name
         else:
-            result += '/>'
+            result += u'/>'
         return result
     
     def hilite(self):
diff --git a/tests/test_sanitizer.py b/tests/test_sanitizer.py
@@ -77,6 +77,11 @@ def buildTestSuite():
 
     return unittest.TestLoader().loadTestsFromTestCase(SanitizeTest)
 
+def sanitize_html(stream):
+  return ''.join([token.toxml() for token in
+      html5parser.HTMLParser(tokenizer=sanitizer.HTMLSanitizer).
+          parseFragment(stream).childNodes])
+
 def main():
     buildTestSuite()
     unittest.main()
diff --git a/tests/test_tokenizer.py b/tests/test_tokenizer.py
@@ -29,16 +29,14 @@ def processDoctype(self, token):
         self.outputTokens.append([u"DOCTYPE", token["name"], token["publicId"], token["systemId"], token["correct"]])
 
     def processStartTag(self, token):
-        self.outputTokens.append([u"StartTag", token["name"], token["data"]])
+        self.outputTokens.append([u"StartTag", token["name"], dict(token["data"][::-1])])
 
     def processEmptyTag(self, token):
         if token["name"] not in constants.voidElements:
             self.outputTokens.append(u"ParseError")
-        self.outputTokens.append([u"StartTag", token["name"], token["data"]])
+        self.outputTokens.append([u"StartTag", token["name"], dict(token["data"][::-1])])
 
     def processEndTag(self, token):
-        if token["data"]:
-            self.processParseError(None)
         self.outputTokens.append([u"EndTag", token["name"]])
 
     def processComment(self, token):
@@ -55,7 +53,7 @@ def processEOF(self, token):
         pass
 
     def processParseError(self, token):
-        self.outputTokens.append(u"ParseError")
+        self.outputTokens.append([u"ParseError", token["data"]])
 
 def concatenateCharacterTokens(tokens):
     outputTokens = []
@@ -73,9 +71,10 @@ def concatenateCharacterTokens(tokens):
 def normalizeTokens(tokens):
     """ convert array of attributes to a dictionary """
     # TODO: convert tests to reflect arrays
-    for token in tokens:
-        if token[0] == 'StartTag':
-            token[2] = dict(token[2][::-1])
+    for i, token in enumerate(tokens):
+        if token[0] == u'ParseError':
+            tokens[i] = token[0]
+            #token[2] = dict(token[2][::-1])
     return tokens
 
 def tokensMatch(expectedTokens, recievedTokens):
@@ -102,14 +101,14 @@ def runTokenizerTest(self, test):
             test['lastStartTag'] = None
         parser = TokenizerTestParser(test['contentModelFlag'], 
                                      test['lastStartTag'])
-            
-        tokens = normalizeTokens(parser.parse(test['input']))
+        tokens = parser.parse(test['input'])
         tokens = concatenateCharacterTokens(tokens)
         errorMsg = "\n".join(["\n\nContent Model Flag:",
                               test['contentModelFlag'] ,
                               "\nInput:", str(test['input']),
                               "\nExpected:", str(output),
                               "\nRecieved:", str(tokens)])
+        tokens = normalizeTokens(tokens)
         self.assertEquals(tokensMatch(tokens, output), True, errorMsg)
 
 def buildTestSuite():