awesome-python
diff --git a/‎src/html5parser.py
Lines changed: 9 additions & 11 deletions b/‎src/html5parser.py
Lines changed: 9 additions & 11 deletions
diff --git a/‎src/tokenizer.py
Lines changed: 15 additions & 13 deletions b/‎src/tokenizer.py
Lines changed: 15 additions & 13 deletions
diff --git a/‎tests/test_tokenizer.py
Lines changed: 1 addition & 1 deletion b/‎tests/test_tokenizer.py
Lines changed: 1 addition & 1 deletion
@@ -116,10 +116,12 @@ def _parse(self, stream, innerHTML=False, container="div",
             method = getattr(self.phase, "process%s" % type, None)
             if type in ("Characters", "SpaceCharacters", "Comment"):
                 method(token["data"])
-            elif type in ("StartTag", "Doctype"):
+            elif type == "StartTag":
                 method(token["name"], token["data"])
             elif type == "EndTag":
                 method(token["name"])
+            elif type == "Doctype":
+                method(token["name"], token["publicId"], token["systemId"], token["correct"])
             else:
                 self.parseError(token["data"])
 
@@ -161,10 +163,6 @@ def parseError(self, data="XXX ERROR MESSAGE NEEDED"):
         if self.strict:
             raise ParseError
 
-    def atheistParseError(self):
-        """This error is not an error"""
-        pass
-
     def normalizeToken(self, token):
         """ HTML5 specific normalizations to the token stream """
 
@@ -174,9 +172,7 @@ def normalizeToken(self, token):
             # element.  If it matches a void element atheists did the wrong
             # thing and if it doesn't it's wrong for everyone.
 
-            if token["name"] in voidElements:
-                self.atheistParseError()
-            else:
+            if token["name"] not in voidElements:
                 self.parseError(_("Solidus (/) incorrectly placed in tag."))
 
             token["type"] = "StartTag"
@@ -286,7 +282,7 @@ def processComment(self, data):
         # overridden.
         self.tree.insertComment(data, self.tree.openElements[-1])
 
-    def processDoctype(self, name, error):
+    def processDoctype(self, name, publicId, systemId, correct):
         self.parser.parseError(_("Unexpected DOCTYPE. Ignored."))
 
     def processSpaceCharacters(self, data):
@@ -322,9 +318,11 @@ def processEOF(self):
     def processComment(self, data):
         self.tree.insertComment(data, self.tree.document)
 
-    def processDoctype(self, name, error):
-        if error:
+    def processDoctype(self, name, publicId, systemId, correct):
+        if name.translate(asciiUpper2Lower) != "html" or publicId != None or\
+          systemId != None:
             self.parser.parseError(_("Erroneous DOCTYPE."))
+        # XXX need to check quirks mode here
         self.tree.insertDoctype(name)
         self.parser.phase = self.parser.phases["rootElement"]
 
 
@@ -608,8 +608,8 @@ def markupDeclarationOpenState(self):
             # Put in explicit EOF check
             if (not EOF in charStack and
                 "".join(charStack).upper() == u"DOCTYPE"):
-                self.currentToken = {"type":"Doctype", "name":"", "publicId":"",
-                  "systemId":"", "data":True}
+                self.currentToken = {"type":"Doctype", "name":"",
+                  "publicId":None, "systemId":None, "correct":True}
                 self.state = self.states["doctype"]
             else:
                 self.tokenQueue.append({"type": "ParseError", "data":
@@ -689,11 +689,13 @@ def beforeDoctypeNameState(self):
         elif data == u">":
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected > character. Expected DOCTYPE name.")})
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file. Expected DOCTYPE name.")})
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -725,7 +727,7 @@ def afterDoctypeNameState(self):
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         elif data == EOF:
-            self.currentToken["data"] = True
+            # XXX check spec ... self.currentToken["correct"] = False
             self.stream.queue.append(data)
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
@@ -759,13 +761,13 @@ def beforeDoctypePublicIdentifierState(self):
         elif data == ">":
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -781,7 +783,7 @@ def doctypePublicIdentifierDoubleQuotedState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -795,7 +797,7 @@ def doctypePublicIdentifierSingleQuotedState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data&q
F438
uot;:
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -816,7 +818,7 @@ def afterDoctypePublicIdentifierState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -838,7 +840,7 @@ def beforeDoctypeSystemIdentifierState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -854,7 +856,7 @@ def doctypeSystemIdentifierDoubleQuotedState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -868,7 +870,7 @@ def doctypeSystemIdentifierSingleQuotedState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -885,7 +887,7 @@ def afterDoctypeSystemIdentifierState(self):
         elif data == EOF:
             self.tokenQueue.append({"type": "ParseError", "data":
               _("Unexpected end of file in DOCTYPE.")})
-            self.currentToken["data"] = True
+            self.currentToken["correct"] = False
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
         else:
@@ -896,7 +898,7 @@ def afterDoctypeSystemIdentifierState(self):
 
     def bogusDoctypeState(self):
         data = self.stream.char()
-        self.currentToken["data"] = True
+        self.currentToken["correct"] = False
         if data == u">":
             self.tokenQueue.append(self.currentToken)
             self.state = self.states["data"]
 
@@ -33,7 +33,7 @@ def parse(self, stream, encoding=None, innerHTML=False):
         return self.outputTokens
 
     def processDoctype(self, token):
-        self.outputTokens.append([u"DOCTYPE", token["name"], token["data"]])
+        self.outputTokens.append([u"DOCTYPE", token["name"], token["correct"]])
 
     def processStartTag(self, token):
         self.outputTokens.append([u"StartTag", token["name"], token["data"]])