homeylab
diff --git a/‎.dockerignore
Lines changed: 2 additions & 0 deletions b/‎.dockerignore
Lines changed: 2 additions & 0 deletions
diff --git a/‎README.md
Lines changed: 5 additions & 5 deletions b/‎README.md
Lines changed: 5 additions & 5 deletions
diff --git a/‎bookstack_file_exporter/archiver/archiver.py
Lines changed: 4 additions & 34 deletions b/‎bookstack_file_exporter/archiver/archiver.py
Lines changed: 4 additions & 34 deletions
diff --git a/‎bookstack_file_exporter/archiver/asset_archiver.py
Lines changed: 166 additions & 0 deletions b/‎bookstack_file_exporter/archiver/asset_archiver.py
Lines changed: 166 additions & 0 deletions
@@ -162,6 +162,8 @@ cython_debug/
 
 ## Local
 local/
+.vscode/
+.github/
 
 ## test outputs
 bkps/
@@ -85,6 +85,9 @@ assets:
 ### Run via Pip
 The exporter can be installed via pip and run directly.
 
+#### Python Version
+_Note: This application is tested and developed on Python version `3.12.X`. The min required version is >= `3.8` but is recommended to install (or set up a venv) a `3.12.X` version._
+
 #### Examples
 ```bash
 python -m pip install bookstack-file-exporter
@@ -114,10 +117,7 @@ export LOG_LEVEL=debug
 python -m bookstack_file_exporter -c <path_to_config_file>
 ```
 
-#### Python Version
-_Note: This application is tested and developed on Python version `3.12.X`. The min required version is >= `3.8` but is recommended to install (or set up a venv) a `3.12.X` version._
-
-### Run Via Docker
+### Run via Docker
 Docker images are provided for `linux/amd64` and `linux/arm64` variants only at the moment. If another variant is required, please request it via Github Issue.
 
 #### Examples
@@ -239,7 +239,7 @@ More descriptions can be found for each section below:
 
 #### Valid Environment Variables
 General
-- `LOG_LEVEL`: default: `info``. Provide a valid log level: info, debug, warning, error.
+- `LOG_LEVEL`: default: `info`. Provide a valid log level: info, debug, warning, error.
 
 [Bookstack Credentials](#authentication)
 - `BOOKSTACK_TOKEN_ID`
 
@@ -5,7 +5,7 @@
 
 from bookstack_file_exporter.exporter.node import Node
 from bookstack_file_exporter.archiver import util
-from bookstack_file_exporter.archiver.page_archiver import PageArchiver, ImageNode
+from bookstack_file_exporter.archiver.page_archiver import PageArchiver
 from bookstack_file_exporter.archiver.minio_archiver import MinioArchiver
 from bookstack_file_exporter.config_helper.remote import StorageProviderConfig
 from bookstack_file_exporter.config_helper.config_helper import ConfigNode
@@ -17,7 +17,7 @@
 # pylint: disable=too-many-instance-attributes
 class Archiver:
     """
-    Archiver pulls all the necessary files from upstream 
+    Archiver helps handle archive duties: pulls all the necessary files from upstream 
     and then pushes them to the specified backup location(s)
 
     Args:
@@ -32,41 +32,15 @@ def __init__(self, config: ConfigNode):
         # for convenience
         self.base_dir = config.base_dir_name
         self.archive_dir = self._generate_root_folder(self.base_dir)
-        self._page_archiver = self._generate_page_archiver()
+        self._page_archiver = PageArchiver(self.archive_dir, self.config)
         self._remote_exports = {'minio': self._archive_minio, 's3': self._archive_s3}
 
-
     def get_bookstack_exports(self, page_nodes: Dict[int, Node]):
         """export all page content"""
         log.info("Exporting all bookstack page contents")
         # get images first if requested
         # this is because we may want to manipulate page data with modify_markdown flag
-        all_image_meta = self._get_page_image_map()
-        for _, page in page_nodes.items():
-            page_image_meta = []
-            if page.id_ in all_image_meta:
-                page_image_meta = all_image_meta[page.id_]
-            self._get_page_files(page, page_image_meta)
-            self._get_page_images(page, page_image_meta)
-
-    def _get_page_files(self, page_node: Node, image_meta: List[ImageNode]):
-        """pull all bookstack pages into local files/tar"""
-        log.debug("Exporting bookstack page data")
-        self._page_archiver.archive_page(page_node, image_meta)
-
-    def _get_page_image_map(self) -> Dict[int, ImageNode]:
-        if not self._page_archiver.export_images:
-            log.debug("skipping image export based on user input")
-            return {}
-        return self._page_archiver.get_image_meta()
-
-    def _get_page_images(self, page_node: Node, img_nodes: List[ImageNode]):
-        if not img_nodes:
-            log.debug("page has no images to pull")
-            return
-        log.debug("Exporting bookstack page images")
-        self._page_archiver.archive_page_images(page_node.parent.file_path,
-                                                page_node.name, img_nodes)
+        self._page_archiver.archive_pages(page_nodes)
 
     def create_archive(self):
         """create tgz archive"""
@@ -145,10 +119,6 @@ def _delete_files(self, file_list: List[str]):
         for file in file_list:
             util.remove_file(file)
 
-    def _generate_page_archiver(self)-> PageArchiver:
-        return PageArchiver(self.archive_dir, self.config)
-
-
     @staticmethod
     def _generate_root_folder(base_folder_name: str) -> str:
         """return base archive name"""
 
@@ -0,0 +1,166 @@
+from typing import Union, List, Dict
+# pylint: disable=import-error
+from requests import Response
+from re import sub as re_sub
+import logging
+import base64
+
+from bookstack_file_exporter.common import util as common_util
+
+log = logging.getLogger(__name__)
+
+_IMAGE_DIR_NAME = "images"
+_ATTACHMENT_DIR_NAME = "attachments"
+
+
+class AssetNode:
+    def __init__(self, meta_data: Dict[str, int | str | bool]):
+        self.id: int = meta_data['id']
+        self.page_id: int = meta_data['uploaded_to']
+        # self.page_name: str = page_name
+        self.url: str = meta_data['url']
+        self.name: str = self.url.split('/')[-1]
+        self._markdown_str = ""
+        self._relative_path_prefix: str = ""
+
+    def get_relative_path(self, page_name: str) -> str:
+        """image path local to page directory"""
+        return f"{self._relative_path_prefix}/{page_name}/{self.name}"
+
+    @property
+    def markdown_str(self):
+        """return markdown url str to replace"""
+        return self._markdown_str
+
+    def set_markdown_content(self, asset_data: Dict[str, int | str | bool]) -> None:
+        self._markdown_str = self._get_md_url_str(asset_data)
+
+    @staticmethod
+    def _get_md_url_str(asset_data: Dict[str, Union[int, str]]) -> str:
+        url_str = ""
+        if 'content' in asset_data:
+            if 'markdown' in asset_data['content']:
+                url_str = asset_data['content']['markdown']
+        # check to see if empty before doing find
+        if not url_str:
+            return ""
+        # find the link between two parenthesis
+        # - markdown format
+        return url_str[url_str.find("(")+1:url_str.find(")")]
+
+class ImageNode(AssetNode):
+    def __init__(self, meta_data: Dict[str, Union[int, str]]):
+        super().__init__(meta_data)
+        log.debug(self.url)
+        self._relative_path_prefix = f"{_IMAGE_DIR_NAME}"
+
+class AttachmentNode(AssetNode):
+    def __init__(self, meta_data: Dict[str, Union[int, str, bool]],
+                 base_url: str):
+        self.id: int = meta_data['id']
+        self.page_id: int = meta_data['uploaded_to']
+        self.url: str = f"{base_url}/{self.id}"
+        log.debug(self.url)
+        self.name = meta_data['name']
+        self._markdown_str = ""
+        self._relative_path_prefix = f"{_ATTACHMENT_DIR_NAME}"
+
+    @staticmethod
+    def _get_md_url_str(asset_data: Dict[str, int | str | dict]) -> str:
+        url_str = ""
+        if 'links' in asset_data:
+            if 'markdown' in asset_data['links']:
+                url_str = asset_data['links']['markdown']
+        # check to see if empty before doing find
+        if not url_str:
+            return ""
+        # find the link between two parenthesis
+        # - markdown format
+        return url_str[url_str.find("(")+1:url_str.find(")")]
+
+class AssetArchiver:
+    def __init__(self, urls: Dict[str, str], headers: Dict[str, str],
+                 verify_ssl: bool):
+        self.api_urls = urls
+        self.verify_ssl = verify_ssl
+        self._headers = headers
+        self._asset_map = {
+            'images': self._create_image_map,
+            'attachments': self._create_attachment_map
+        }
+
+    def get_asset_nodes(self, asset_type: str) -> Dict[str, ImageNode | AttachmentNode]:
+        """Get image or attachment helpers for a page"""
+        asset_response: Response = common_util.http_get_request(
+            self.api_urls[asset_type],
+            self._headers,
+            self.verify_ssl)
+        asset_json = asset_response.json()['data']
+        return self._asset_map[asset_type](asset_json)
+
+    def get_asset_data(self, asset_type: str,
+            meta_data: Union[AttachmentNode, ImageNode]) -> Dict[str, str | bool | int | dict]:
+        """Get asset data based on type"""
+        data_url = f"{self.api_urls[asset_type]}/{meta_data.id}"
+        asset_data_response: Response = common_util.http_get_request(
+            data_url,
+            self._headers,
+            self.verify_ssl)
+        return asset_data_response.json()
+
+    def get_asset_bytes(self, asset_type: str, url: str) -> bytes:
+        """Get raw asset data"""
+        asset_response: Response = common_util.http_get_request(
+            url,
+            self._headers,
+            self.verify_ssl)
+        match asset_type:
+            case "images":
+                asset_data = asset_response.content
+            case "attachments":
+                asset_data = self.decode_attachment_data(asset_response.json()['content'])
+        return asset_data
+
+    def update_asset_links(self, asset_type, page_name: str, page_data: bytes,
+            asset_nodes: List[ImageNode | AttachmentNode]) -> bytes:
+        """update markdown links in page data"""
+        for asset_node in asset_nodes:
+            asset_data = self.get_asset_data(asset_type, asset_node)
+            asset_node.set_markdown_content(asset_data)
+            if not asset_node.markdown_str:
+                continue
+            page_data = re_sub(asset_node.markdown_str.encode(),
+                               asset_node.get_relative_path(page_name).encode(), page_data)
+        return page_data
+
+    @staticmethod
+    def _create_image_map(json_data: Dict[str,
+            List[Dict[str, str | int | bool | dict]]]) -> Dict[int, List[ImageNode]]:
+        image_page_map = {}
+        for img_meta in json_data:
+            img_node = ImageNode(img_meta)
+            if img_node.page_id in image_page_map:
+                image_page_map[img_node.page_id].append(img_node)
+            else:
+                image_page_map[img_node.page_id] = [img_node]
+        return image_page_map
+
+    def _create_attachment_map(self,
+            json_data: Dict[str, List[Dict[str, str | int | bool | dict]]]) -> List[AssetNode]:
+        asset_nodes = {}
+        for asset_meta in json_data:
+            asset_node = None
+            if asset_meta['external']:
+                continue # skip external link, only get attachments
+            asset_node = AttachmentNode(asset_meta, self.api_urls['attachments'])
+            if asset_node.page_id in asset_nodes:
+                asset_nodes[asset_node.page_id].append(asset_node)
+            else:
+                asset_nodes[asset_node.page_id] = [asset_node]
+        return asset_nodes
+    
+    @staticmethod
+    def decode_attachment_data(b64encoded_data: str) -> bytes:
+        """decode base64 encoded data"""
+        asset_data = b64encoded_data.encode()
+        return base64.b64decode(asset_data)