rename test fixtures

ghukill · ghukill · commit 99e20ecfe8d3 · 2024-12-05T09:43:28.000-05:00
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -29,13 +29,13 @@ def local_dataset(local_dataset_location):
 
 
 @pytest.fixture
-def new_temp_dataset(tmp_path) -> TIMDEXDataset:
+def new_dataset(tmp_path) -> TIMDEXDataset:
     location = str(tmp_path / "new_dataset")
     return TIMDEXDataset(location=location)
 
 
 @pytest.fixture
-def small_records_iter():
+def sample_records_iter():
     """Simulates an iterator of X number of valid DatasetRecord instances."""
 
     def _records_iter(num_records):
@@ -45,7 +45,7 @@ def _records_iter(num_records):
 
 
 @pytest.fixture
-def small_records_iter_without_partitions():
+def sample_records_iter_without_partitions():
     """Simulates an iterator of X number of DatasetRecord instances WITHOUT partition
     values included."""
 
diff --git a/tests/test_dataset_write.py b/tests/test_dataset_write.py
@@ -59,70 +59,66 @@ def test_dataset_record_serialization_with_partition_values_provided():
     }
 
 
-def test_dataset_write_records_to_new_dataset(new_temp_dataset, small_records_iter):
-    files_written = new_temp_dataset.write(small_records_iter(10_000))
+def test_dataset_write_records_to_new_dataset(new_dataset, sample_records_iter):
+    files_written = new_dataset.write(sample_records_iter(10_000))
     assert len(files_written) == 1
-    assert os.path.exists(new_temp_dataset.location)
+    assert os.path.exists(new_dataset.location)
 
     # load newly created dataset as new TIMDEXDataset instance
-    dataset = TIMDEXDataset.load(new_temp_dataset.location)
+    dataset = TIMDEXDataset.load(new_dataset.location)
     assert dataset.row_count == 10_000
 
 
-def test_dataset_reload_after_write(new_temp_dataset, small_records_iter):
-    files_written = new_temp_dataset.write(small_records_iter(10_000))
+def test_dataset_reload_after_write(new_dataset, sample_records_iter):
+    files_written = new_dataset.write(sample_records_iter(10_000))
     assert len(files_written) == 1
-    assert os.path.exists(new_temp_dataset.location)
+    assert os.path.exists(new_dataset.location)
 
     # attempt row count before reload
     with pytest.raises(DatasetNotLoadedError):
-        _ = new_temp_dataset.row_count
+        _ = new_dataset.row_count
 
     # attempt row count after reload
-    new_temp_dataset.reload()
-    assert new_temp_dataset.row_count == 10_000
+    new_dataset.reload()
+    assert new_dataset.row_count == 10_000
 
 
-def test_dataset_write_default_max_rows_per_file(new_temp_dataset, small_records_iter):
+def test_dataset_write_default_max_rows_per_file(new_dataset, sample_records_iter):
     """Default is 100k rows per file, therefore writing 200,033 records should result in
     3 files (x2 @ 100k rows, x1 @ 33 rows)."""
     total_records = 200_033
 
-    new_temp_dataset.write(small_records_iter(total_records))
-    new_temp_dataset.reload()
+    new_dataset.write(sample_records_iter(total_records))
+    new_dataset.reload()
 
-    assert new_temp_dataset.row_count == total_records
-    assert len(new_temp_dataset.dataset.files) == math.ceil(
-        total_records / MAX_ROWS_PER_FILE
-    )
+    assert new_dataset.row_count == total_records
+    assert len(new_dataset.dataset.files) == math.ceil(total_records / MAX_ROWS_PER_FILE)
 
 
-def test_dataset_write_record_batches_uses_batch_size(
-    new_temp_dataset, small_records_iter
-):
+def test_dataset_write_record_batches_uses_batch_size(new_dataset, sample_records_iter):
     total_records = 101
     batch_size = 50
     batches = list(
-        new_temp_dataset.get_dataset_record_batches(
-            small_records_iter(total_records), batch_size=batch_size
+        new_dataset.get_dataset_record_batches(
+            sample_records_iter(total_records), batch_size=batch_size
         )
     )
     assert len(batches) == math.ceil(total_records / batch_size)
 
 
-def test_dataset_write_to_multiple_locations_raise_error(small_records_iter):
+def test_dataset_write_to_multiple_locations_raise_error(sample_records_iter):
     timdex_dataset = TIMDEXDataset(
         location=["/path/to/records-1.parquet", "/path/to/records-2.parquet"]
     )
     with pytest.raises(
         TypeError,
         match="Dataset location must be the root of a single dataset for writing",
     ):
-        timdex_dataset.write(small_records_iter(10))
+        timdex_dataset.write(sample_records_iter(10))
 
 
 def test_dataset_write_mixin_partition_values_used(
-    new_temp_dataset, small_records_iter_without_partitions
+    new_dataset, sample_records_iter_without_partitions
 ):
     partition_values = {
         "source": "alma",
@@ -131,14 +127,14 @@ def test_dataset_write_mixin_partition_values_used(
         "action": "index",
         "run_id": "000-111-aaa-bbb",
     }
-    _written_files = new_temp_dataset.write(
-        small_records_iter_without_partitions(10),
+    _written_files = new_dataset.write(
+        sample_records_iter_without_partitions(10),
         partition_values=partition_values,
     )
-    new_temp_dataset.reload()
+    new_dataset.reload()
 
     # load as pandas dataframe and assert column values
-    df = new_temp_dataset.dataset.to_table().to_pandas()
+    df = new_dataset.dataset.to_table().to_pandas()
     row = df.iloc[0]
     assert row.source == partition_values["source"]
     assert row.run_date == datetime.date(2024, 12, 1)
@@ -148,10 +144,10 @@ def test_dataset_write_mixin_partition_values_used(
 
 
 def test_dataset_write_schema_partitions_correctly_ordered(
-    new_temp_dataset, small_records_iter
+    new_dataset, sample_records_iter
 ):
-    written_files = new_temp_dataset.write(
-        small_records_iter(10),
+    written_files = new_dataset.write(
+        sample_records_iter(10),
         partition_values={
             "source": "alma",
             "run_date": "2024-12-01",
@@ -167,13 +163,13 @@ def test_dataset_write_schema_partitions_correctly_ordered(
     )
 
 
-def test_dataset_write_schema_applied_to_dataset(new_temp_dataset, small_records_iter):
-    new_temp_dataset.write(small_records_iter(10))
+def test_dataset_write_schema_applied_to_dataset(new_dataset, sample_records_iter):
+    new_dataset.write(sample_records_iter(10))
 
     # manually load dataset to confirm schema without TIMDEXDataset projecting schema
     # during load
     dataset = ds.dataset(
-        new_temp_dataset.location,
+        new_dataset.location,
         format="parquet",
         partitioning="hive",
     )