Merge pull request #68 from MITLibraries/TIMX-427-improve-logging

ghukill · web-flow · commit 07f75ee13eb5 · 2025-01-15T09:07:13.000-05:00
TIMX 427 - improve logging
diff --git a/tests/test_read.py b/tests/test_read.py
@@ -4,19 +4,9 @@
 import pyarrow as pa
 import pytest
 
-DATASET_COLUMNS_SET = {
-    "timdex_record_id",
-    "source_record",
-    "transformed_record",
-    "source",
-    "run_date",
-    "run_type",
-    "run_id",
-    "action",
-    "year",
-    "month",
-    "day",
-}
+from timdex_dataset_api.dataset import TIMDEX_DATASET_SCHEMA
+
+DATASET_COLUMNS_SET = set(TIMDEX_DATASET_SCHEMA.names)
 
 
 def test_read_batches_yields_pyarrow_record_batches(fixed_local_dataset):
diff --git a/tests/test_records.py b/tests/test_records.py
@@ -0,0 +1,73 @@
+import re
+from datetime import date
+
+import pytest
+
+from timdex_dataset_api.record import DatasetRecord
+
+
+def test_dataset_record_init_with_valid_run_date_parses_year_month_day():
+    values = {
+        "timdex_record_id": "alma:123",
+        "source_record": b"<record><title>Hello World.</title></record>",
+        "transformed_record": b"""{"title":["Hello World."]}""",
+        "source": "libguides",
+        "run_date": "2024-12-01",
+        "run_type": "full",
+        "action": "index",
+        "run_id": "000-111-aaa-bbb",
+    }
+    record = DatasetRecord(**values)
+
+    assert record
+    assert (record.year, record.month, record.day) == (
+        "2024",
+        "12",
+        "01",
+    )
+
+
+def test_dataset_record_init_with_invalid_run_date_raise_error():
+    values = {
+        "timdex_record_id": "alma:123",
+        "source_record": b"<record><title>Hello World.</title></record>",
+        "transformed_record": b"""{"title":["Hello World."]}""",
+        "source": "libguides",
+        "run_date": "-12-01",
+        "run_type": "full",
+        "action": "index",
+        "run_id": "000-111-aaa-bbb",
+    }
+
+    with pytest.raises(
+        ValueError, match=re.escape("time data '-12-01' does not match format '%Y-%m-%d'")
+    ):
+        DatasetRecord(**values)
+
+
+def test_dataset_record_serialization():
+    values = {
+        "timdex_record_id": "alma:123",
+        "source_record": b"<record><title>Hello World.</title></record>",
+        "transformed_record": b"""{"title":["Hello World."]}""",
+        "source": "libguides",
+        "run_date": "2024-12-01",
+        "run_type": "full",
+        "action": "index",
+        "run_id": "abc123",
+    }
+    dataset_record = DatasetRecord(**values)
+
+    assert dataset_record.to_dict() == {
+        "timdex_record_id": "alma:123",
+        "source_record": b"<record><title>Hello World.</title></record>",
+        "transformed_record": b"""{"title":["Hello World."]}""",
+        "source": "libguides",
+        "run_date": date(2024, 12, 1),
+        "run_type": "full",
+        "action": "index",
+        "run_id": "abc123",
+        "year": "2024",
+        "month": "12",
+        "day": "01",
+    }
diff --git a/tests/test_write.py b/tests/test_write.py
@@ -1,8 +1,6 @@
 # ruff: noqa: S105, S106, SLF001, PLR2004, PD901, D209, D205
 import math
 import os
-import re
-from datetime import date
 from unittest.mock import patch
 
 import pyarrow.dataset as ds
@@ -14,74 +12,6 @@
     TIMDEX_DATASET_SCHEMA,
     TIMDEXDataset,
 )
-from timdex_dataset_api.record import DatasetRecord
-
-
-def test_dataset_record_init():
-    values = {
-        "timdex_record_id": "alma:123",
-        "source_record": b"<record><title>Hello World.</title></record>",
-        "transformed_record": b"""{"title":["Hello World."]}""",
-        "source": "libguides",
-        "run_date": "2024-12-01",
-        "run_type": "full",
-        "action": "index",
-        "run_id": "000-111-aaa-bbb",
-    }
-    record = DatasetRecord(**values)
-
-    assert record
-    assert (record.year, record.month, record.day) == (
-        "2024",
-        "12",
-        "01",
-    )
-
-
-def test_dataset_record_init_with_invalid_run_date_raise_error():
-    values = {
-        "timdex_record_id": "alma:123",
-        "source_record": b"<record><title>Hello World.</title></record>",
-        "transformed_record": b"""{"title":["Hello World."]}""",
-        "source": "libguides",
-        "run_date": "-12-01",
-        "run_type": "full",
-        "action": "index",
-        "run_id": "000-111-aaa-bbb",
-    }
-
-    with pytest.raises(
-        ValueError, match=re.escape("time data '-12-01' does not match format '%Y-%m-%d'")
-    ):
-        DatasetRecord(**values)
-
-
-def test_dataset_record_serialization():
-    values = {
-        "timdex_record_id": "alma:123",
-        "source_record": b"<record><title>Hello World.</title></record>",
-        "transformed_record": b"""{"title":["Hello World."]}""",
-        "source": "libguides",
-        "run_date": "2024-12-01",
-        "run_type": "full",
-        "action": "index",
-        "run_id": "abc123",
-    }
-    dataset_record = DatasetRecord(**values)
-
-    assert dataset_record.to_dict() == {
-        "timdex_record_id": "alma:123",
-        "source_record": b"<record><title>Hello World.</title></record>",
-        "transformed_record": b"""{"title":["Hello World."]}""",
-        "source": "libguides",
-        "run_date": date(2024, 12, 1),
-        "run_type": "full",
-        "action": "index",
-        "run_id": "abc123",
-        "year": "2024",
-        "month": "12",
-        "day": "01",
-    }
 
 
 def test_dataset_write_records_to_new_local_dataset(
@@ -115,7 +45,7 @@ def test_dataset_write_record_batches_uses_batch_size(
     total_records = 101
     batch_size = 50
     batches = list(
-        new_local_dataset.get_dataset_record_batches(
+        new_local_dataset.create_record_batches(
             sample_records_iter(total_records), batch_size=batch_size
         )
     )
diff --git a/timdex_dataset_api/__init__.py b/timdex_dataset_api/__init__.py
@@ -3,7 +3,7 @@
 from timdex_dataset_api.dataset import TIMDEXDataset
 from timdex_dataset_api.record import DatasetRecord
 
-__version__ = "0.6.0"
+__version__ = "0.7.0"
 
 __all__ = [
     "DatasetRecord",
diff --git a/timdex_dataset_api/config.py b/timdex_dataset_api/config.py
@@ -3,29 +3,21 @@
 
 
 def configure_logger(name: str) -> logging.Logger:
-    """Prepares and returns a logger instance for a given module name.
+    """Prepares a logger instance.
 
-    This approach is suitable for an installed and imported library such as this, where
-    any calling application logging levels and handlers should be utilized.
+    If the env var TDA_LOG_LEVEL is set, the logging level will override the logging
+    level of the calling context.
 
     Args:
         name (str): The name of the logger, typically __name__ is passed by caller
     """
     logger = logging.getLogger(name)
-    logger.addHandler(logging.NullHandler())
 
-    log_level = os.getenv("TDA_LOG_LEVEL", "INFO").strip().upper()
-    if log_level not in ["DEBUG", "INFO", "WARNING", "ERROR", "CRITICAL"]:
-        raise ValueError(f"Invalid log level: '{log_level}'")
-    logger.setLevel(getattr(logging, log_level))
-
-    handler = logging.StreamHandler()
-    handler.setFormatter(
-        logging.Formatter(
-            "%(asctime)s %(levelname)s %(name)s.%(funcName)s() "
-            "line %(lineno)d: %(message)s"
-        )
-    )
-    logger.addHandler(handler)
+    # set logger level if env var 'TDA_LOG_LEVEL' is set
+    if log_level := os.getenv("TDA_LOG_LEVEL"):
+        log_level = log_level.strip().upper()
+        if log_level not in logging.getLevelNamesMapping():
+            raise ValueError(f"Invalid log level: '{log_level}'")
+        logger.setLevel(getattr(logging, log_level))
 
     return logger
diff --git a/timdex_dataset_api/dataset.py b/timdex_dataset_api/dataset.py
@@ -316,7 +316,7 @@ def write(
                 "Dataset location must be the root of a single dataset for writing"
             )
 
-        record_batches_iter = self.get_dataset_record_batches(
+        record_batches_iter = self.create_record_batches(
             records_iter,
             batch_size=batch_size,
         )
@@ -341,7 +341,7 @@ def write(
         self.log_write_statistics(start_time)
         return self._written_files  # type: ignore[return-value]
 
-    def get_dataset_record_batches(
+    def create_record_batches(
         self,
         records_iter: Iterator["DatasetRecord"],
         *,
@@ -360,14 +360,10 @@ def get_dataset_record_batches(
                 group size in final parquet files
         """
         for i, record_batch in enumerate(itertools.batched(records_iter, batch_size)):
-            batch_start_time = time.perf_counter()
             batch = pa.RecordBatch.from_pylist(
                 [record.to_dict() for record in record_batch]
             )
-            logger.debug(
-                f"Batch {i + 1} yielded for writing, "
-                f"elapsed: {round(time.perf_counter()-batch_start_time, 6)}s"
-            )
+            logger.debug(f"Yielding batch {i+1} for dataset writing.")
             yield batch
 
     def log_write_statistics(self, start_time: float) -> None: