Merge pull request #245 from transifex/TX-13671-pptx-upload-fails

arisktfx · web-flow · commit ecaaadc0ada3 · 2021-11-15T15:55:25.000+02:00
TX-13671 - Skip `a:fld` tag
diff --git a/openformats/exceptions.py b/openformats/exceptions.py
@@ -8,3 +8,7 @@ class ParseError(OpenformatsError):
 
 class RuleError(OpenformatsError):
     pass
+
+
+class MissingParentError(OpenformatsError):
+    pass
diff --git a/openformats/formats/office_open_xml/parser.py b/openformats/formats/office_open_xml/parser.py
@@ -1,6 +1,7 @@
 import six
 from copy import copy
 
+from openformats.exceptions import MissingParentError
 from openformats.strings import OpenString
 from bs4 import BeautifulSoup
 from collections import defaultdict
@@ -90,9 +91,12 @@ def parse_paragraph(cls, paragraph, rels_soup):
                 text = u"".join([u" "*leading_spaces, text])
                 leading_spaces = 0
 
-            hyperlink_url = cls.get_hyperlink_url(
-                text_element, rels_soup
-            )
+            try:
+                hyperlink_url = cls.get_hyperlink_url(
+                    text_element, rels_soup
+                )
+            except MissingParentError:
+                continue
 
             if all([
                 text_elements_count == 2,
@@ -214,7 +218,7 @@ def compile_paragraph(cls, paragraph, rels_soup, stringset):
             # in order to extract the potential hyperlink url.
             translation_hyperlink_url = getattr(
                 translation_part.find_parent(attrs={'href': True}
-            ), 'attrs', {}).get('href', None)
+                                             ), 'attrs', {}).get('href', None)
 
             # Edit in place hyperlink url
             if hyperlink_url and translation_hyperlink_url:
@@ -235,7 +239,6 @@ def compile_paragraph(cls, paragraph, rels_soup, stringset):
             text_element.clear()
             text_element.insert(0, translation)
 
-
         if len(added_hl_text_elements) == len(deleted_hl_text_elements):
             cls.swap_hyperlink_elements(
                 added_hl_text_elements,
diff --git a/openformats/formats/pptx.py b/openformats/formats/pptx.py
@@ -10,6 +10,7 @@
 import six
 from bs4 import BeautifulSoup
 from openformats.handlers import Handler
+from openformats.exceptions import MissingParentError
 from openformats.formats.office_open_xml.parser import OfficeOpenXmlHandler
 
 
@@ -83,6 +84,7 @@ class PptxFile(object):
     </Relationships>
     ```
     """
+
     def __init__(self, content):
         self.__tmp_folder = "{}/{}".format(
             tempfile.gettempdir(), uuid.uuid4().hex
@@ -187,7 +189,7 @@ def set_slide(self, slide, content):
     def get_slide_rels(self, slide):
         if self.__slides[slide]['rels']['content'] is None:
             with io.open(self.__slides[slide]['rels']['path'], 'r') as f:
-                self.__slides[slide]['rels']['content']= f.read()
+                self.__slides[slide]['rels']['content'] = f.read()
 
         return self.__slides[slide]['rels']['content']
 
@@ -225,6 +227,9 @@ class PptxHandler(Handler, OfficeOpenXmlHandler):
     def get_hyperlink_url(cls, element, document_rels):
         parent = element.find_parent('a:r')
 
+        if not parent:
+            raise MissingParentError
+
         hyperlinks = parent.find_all('a:hlinkClick', limit=1)
         if hyperlinks:
             rel = document_rels.find(
@@ -323,7 +328,7 @@ def parse(self, content, **kwargs):
         template = pptx.compress()
         pptx.delete()
         return template, stringset
-    
+
     def compile(self, template, stringset, **kwargs):
         stringset = {
             string.string_hash: string for string in stringset
diff --git a/openformats/tests/formats/pptx/files/autofield.pptx b/openformats/tests/formats/pptx/files/autofield.pptx
diff --git a/openformats/tests/formats/pptx/test_pptx.py b/openformats/tests/formats/pptx/test_pptx.py
@@ -325,24 +325,30 @@ def test_hyperlinks_reordering(self):
         paragraph = soup.find_all('p:sp')[0]
         text_elements = paragraph.find_all('a:t')
 
-        self.assertEqual(text_elements[3].parent.rPr, text_elements_one_before[1].parent.rPr)
-        self.assertEqual(text_elements[1].parent.rPr, text_elements_one_before[3].parent.rPr)
+        self.assertEqual(text_elements[3].parent.rPr,
+                         text_elements_one_before[1].parent.rPr)
+        self.assertEqual(text_elements[1].parent.rPr,
+                         text_elements_one_before[3].parent.rPr)
 
         paragraph = soup.find_all('p:sp')[1]
         text_elements = paragraph.find_all('a:t')
 
-        self.assertEqual(text_elements[0].parent.rPr, text_elements_two_before[4].parent.rPr)
+        self.assertEqual(text_elements[0].parent.rPr,
+                         text_elements_two_before[4].parent.rPr)
         self.assertEqual(
             re.sub(r'rId\w+', 'rId', six.text_type(text_elements[0].parent.rPr)),
-            re.sub(r'rId\w+', 'rId', six.text_type(text_elements_two_before[4].parent.rPr))
+            re.sub(r'rId\w+', 'rId',
+                   six.text_type(text_elements_two_before[4].parent.rPr))
         )
         self.assertEqual(
             re.sub(r'rId\w+', 'rId', six.text_type(text_elements[1].parent.rPr)),
-            re.sub(r'rId\w+', 'rId', six.text_type(text_elements_two_before[6].parent.rPr))
+            re.sub(r'rId\w+', 'rId',
+                   six.text_type(text_elements_two_before[6].parent.rPr))
         )
         self.assertEqual(
             re.sub(r'rId\w+', 'rId', six.text_type(text_elements[2].parent.rPr)),
-            re.sub(r'rId\w+', 'rId', six.text_type(text_elements_two_before[6].parent.rPr))
+            re.sub(r'rId\w+', 'rId',
+                   six.text_type(text_elements_two_before[6].parent.rPr))
         )
 
     def test_tags_not_matching(self):
@@ -573,3 +579,18 @@ def test_slide_notes(self):
                 u'<tx>πρόταση</tx> από κάτω'
             ])
         )
+
+    def test_pptx_file_with_autofield(self):
+        """Test pptx file that contains automatically updated field
+        can be compiled normally
+        """
+        path = '{}/autofield.pptx'.format(self.TESTFILE_BASE)
+        with open(path, 'rb') as f:
+            content = f.read()
+
+        pptx = PptxFile(content)
+
+        self.assertTrue(u'/ppt/slides/slide1.xml' in pptx.get_slides())
+        slide = u'/ppt/slides/slide1.xml'
+        for text in [u'Title', u'text']:
+            self.assertTrue(text in pptx.get_slide(slide))