update to support JSON submission

edsu7 · edsu7 · commit 8b889a46195a · 2022-09-01T11:25:05.000-04:00
diff --git a/payload-gen-seq-experiment/main.nf b/payload-gen-seq-experiment/main.nf
@@ -51,6 +51,7 @@ params.read_group_info_tsv = "NO_FILE2"
 params.file_info_tsv = "NO_FILE3"
 params.extra_info_tsv = "NO_FILE4"
 params.schema_url="NO_FILE5"
+params.metadata_payload_json="NO_FILE6"
 
 process payloadGenSeqExperiment {
   container "${params.container ?: container[params.container_registry ?: default_container_registry]}:${params.container_version ?: version}"
@@ -64,6 +65,7 @@ process payloadGenSeqExperiment {
     path read_group_info_tsv
     path file_info_tsv
     path extra_info_tsv
+    path metadata_payload_json
     val schema_url
 
   output:
@@ -74,13 +76,15 @@ process payloadGenSeqExperiment {
     args_read_group_info_tsv = !read_group_info_tsv.name.startsWith("NO_FILE") ? "-r ${read_group_info_tsv}" : ""
     args_file_info_tsv = !file_info_tsv.name.startsWith("NO_FILE") ? "-f ${file_info_tsv}" : ""
     args_extra_info_tsv = !extra_info_tsv.name.startsWith("NO_FILE") ? "-e ${extra_info_tsv}" : ""
+    args_metadata_payload_json= !metadata_payload_json.name.startsWith("NO_FILE") ? "-m ${metadata_payload_json}" : ""
     args_schema_url = !schema_url.startsWith("NO_FILE")  ? "-s ${schema_url}" : ""
     """
     main.py \
          ${args_experiment_info_tsv} \
          ${args_read_group_info_tsv} \
          ${args_file_info_tsv} \
          ${args_extra_info_tsv} \
+         ${args_metadata_payload_json} \
          ${args_schema_url}
     """
 }
@@ -94,6 +98,7 @@ workflow {
     file(params.read_group_info_tsv),
     file(params.file_info_tsv),
     file(params.extra_info_tsv),
+    file(params.metadata_payload_json),
     params.schema_url
   )
-}
+}
diff --git a/payload-gen-seq-experiment/main.py b/payload-gen-seq-experiment/main.py
@@ -23,7 +23,6 @@
    Edmund Su <edmund.su@oicr.on.ca>
  """
 
-
 import sys
 import uuid
 import json
@@ -173,7 +172,7 @@ def load_all_tsvs(exp_tsv, rg_tsv, file_tsv):
 
 def validate_args(args):
     if args.metadata_json and \
-            not (args.experiment_info_tsv or args.read_group_info_tsv or args.file_info_tsv):
+            not (args.experiment_info_tsv and args.read_group_info_tsv and args.file_info_tsv):
         return True
     elif not args.metadata_json and \
             (args.experiment_info_tsv and args.read_group_info_tsv and args.file_info_tsv):
@@ -182,8 +181,8 @@ def validate_args(args):
         sys.exit(textwrap.dedent(
             """
             Usage:
-                When '-m' is provided, no other arguments can be used
-                When '-m' is not provided, please provide all of these arguments: -x, -r and -f
+                When '-m' is provided, '-x','-r' and '-f' are ignored arguments can be used
+                When '-m' is not provided, please provide all of these arguments: '-x', '-r' and '-f'
                 Optionally '-s' a schema URL can be provided, which the payload will be validated against
             """
         ))
@@ -290,8 +289,11 @@ def main(metadata, extra_info=dict()):
                     sys.exit(f"Field '%s' in file '%s' with value '%s' does not match expected regex pattern '^%s[0-9]{1,32}$'" % (optional_file_field,input_file.get('name'),input_file.get(optional_file_field),EGA_FIELDS[optional_file_field]))
 
     for rg in metadata.get("read_groups"):
-        rg.pop('type')  # remove 'type' field
-        rg.pop('submitter_sequencing_experiment_id')  # remove 'submitter_sequencing_experiment_id' field
+        if "type" in rg:
+            print(rg)
+            rg.pop('type')  # remove 'type' field
+        if "submitter_sequencing_experiment_id" in rg:
+            rg.pop('submitter_sequencing_experiment_id')  # remove 'submitter_sequencing_experiment_id' field
         payload['read_groups'].append(rg)
 
 
@@ -327,7 +329,7 @@ def main(metadata, extra_info=dict()):
                         existing_ele['info'].update(extra_info[item][ele_to_update])
                     else:
                         existing_ele.update(extra_info[item][ele_to_update])
-
+                         
     validatePayload(payload,args)
     with open("%s.sequencing_experiment.payload.json" % str(uuid.uuid4()), 'w') as f:
         f.write(json.dumps(payload, indent=2))
@@ -391,4 +393,4 @@ def main(metadata, extra_info=dict()):
                 extra_info[row_type][row_id][row_field]=row_val
                 
 
-    main(metadata, extra_info)
+    main(metadata, extra_info)
diff --git a/payload-gen-seq-experiment/tests/checker.nf b/payload-gen-seq-experiment/tests/checker.nf
@@ -17,7 +17,9 @@
   along with this program.  If not, see <http://www.gnu.org/licenses/>.
 
   Authors:
+    Linda Xiang
     Junjun Zhang
+    Edmund Su
 */
 
 /*
@@ -48,6 +50,8 @@ params.read_group_info_tsv = "NO_FILE2"
 params.file_info_tsv = "NO_FILE3"
 params.extra_info_tsv = "NO_FILE4"
 params.schema_url = "NO_FILE5"
+params.metadata_payload_json = "NO_FILE6"
+
 params.expected_output = ""
 
 include { payloadGenSeqExperiment } from '../main'
@@ -68,7 +72,6 @@ process file_smart_diff {
     # Note: this is only for demo purpose, please write your own 'diff' according to your own needs.
     # remove date field before comparison eg, <div id="header_filename">Tue 19 Jan 2021<br/>test_rg_3.bam</div>
     # sed -e 's#"header_filename">.*<br/>test_rg_3.bam#"header_filename"><br/>test_rg_3.bam</div>#'
-
     diff <( cat ${output_file} | sed -e 's#"header_filename">.*<br/>#"header_filename"><br/>#' ) \
          <( ([[ '${expected_file}' == *.gz ]] && gunzip -c ${expected_file} || cat ${expected_file}) | sed -e 's#"header_filename">.*<br/>#"header_filename"><br/>#' ) \
     && ( echo "Test PASSED" && exit 0 ) || ( echo "Test FAILED, output file mismatch." && exit 1 )
@@ -83,6 +86,7 @@ workflow checker {
     file_info_tsv
     extra_info_tsv
     expected_output
+    metadata_payload_json
     schema_url
 
   main:
@@ -91,6 +95,7 @@ workflow checker {
       read_group_info_tsv,
       file_info_tsv,
       extra_info_tsv,
+      metadata_payload_json,
       schema_url
     )
 
@@ -108,6 +113,7 @@ workflow {
     file(params.file_info_tsv),
     file(params.extra_info_tsv),
     file(params.expected_output),
+    file(params.metadata_payload_json),
     params.schema_url
   )
 }
diff --git a/payload-gen-seq-experiment/tests/input/12c64309-4f21-4a86-8175-ca2340babadd.sequencing_experiment.payload.json b/payload-gen-seq-experiment/tests/input/12c64309-4f21-4a86-8175-ca2340babadd.sequencing_experiment.payload.json
@@ -0,0 +1,87 @@
+{
+  "analysisType": {
+    "name": "sequencing_experiment"
+  },
+  "studyId": "TEST-PRO",
+  "experiment": {
+    "submitter_sequencing_experiment_id": "TEST_EXP",
+    "sequencing_center": "EXT",
+    "platform": "ILLUMINA",
+    "platform_model": "HiSeq 2000",
+    "experimental_strategy": "WGS",
+    "sequencing_date": "2014-12-12"
+  },
+  "read_group_count": 3,
+  "read_groups": [
+    {
+      "submitter_read_group_id": "C0HVY.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8a",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    },
+    {
+      "submitter_read_group_id": "D0RE2.1",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8b",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    },
+    {
+      "submitter_read_group_id": "D0RH0.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8c",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    }
+  ],
+  "samples": [
+    {
+      "submitterSampleId": "HCC1143_BAM_INPUT",
+      "matchedNormalSubmitterSampleId": null,
+      "sampleType": "Total DNA",
+      "specimen": {
+        "submitterSpecimenId": "HCC1143_BAM_INPUT",
+        "tumourNormalDesignation": "Normal",
+        "specimenTissueSource": "Blood derived",
+        "specimenType": "Cell line - derived from normal"
+      },
+      "donor": {
+        "submitterDonorId": "HCC1143",
+        "gender": "Female"
+      }
+    }
+  ],
+  "files": [
+    {
+      "fileName": "test_rg_3.bam",
+      "fileSize": 14911,
+      "fileMd5sum": "178f97f7b1ca8bfc28fd5586bdd56799",
+      "fileType": "BAM",
+      "fileAccess": "controlled",
+      "dataType": "Submitted Reads",
+      "info": {
+        "data_category": "Sequencing Reads",
+        "ega_file_id": "EGAF000001"
+      }
+    }
+  ]
+}
diff --git a/payload-gen-seq-experiment/tests/input/submission_input.json b/payload-gen-seq-experiment/tests/input/submission_input.json
@@ -0,0 +1,70 @@
+{
+    "program_id": "TEST-PRO",
+    "submitter_sequencing_experiment_id": "TEST_EXP",
+    "sequencing_center": "EXT",
+    "platform": "ILLUMINA",
+    "platform_model": "HiSeq 2000",
+    "experimental_strategy": "WGS",
+    "sequencing_date": "2014-12-12",
+    "submitter_sample_id": "HCC1143_BAM_INPUT",
+    "matched_normal_submitter_sample_id": null,
+    "sample_type": "Total DNA",
+    "submitter_specimen_id": "HCC1143_BAM_INPUT",
+    "tumour_normal_designation": "Normal",
+    "specimen_tissue_source": "Blood derived",
+    "specimen_type": "Cell line - derived from normal",
+    "submitter_donor_id": "HCC1143",
+    "gender": "Female",
+    "read_group_count": 3,
+    "files": [
+      {
+      "name": "test_rg_3.bam",
+      "size": 14911,
+      "md5sum": "178f97f7b1ca8bfc28fd5586bdd56799",
+      "format": "BAM",
+      "data_type": "Submitted Reads",
+      "ega_file_id": "EGAF000001"
+      }
+    ],
+    "read_groups": [
+      {
+      "submitter_read_group_id": "C0HVY.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8a",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+      },
+      {
+      "submitter_read_group_id": "D0RE2.1",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8b",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+      },
+      {
+      "submitter_read_group_id": "D0RH0.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8c",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+      }
+    ]
+    } 
diff --git a/payload-gen-seq-experiment/tests/test-job-bam.json.nf.json b/payload-gen-seq-experiment/tests/test-job-bam.json.nf.json
@@ -0,0 +1,6 @@
+{
+    "metadata_payload_json": "input/submission_input.json",
+    "file_info_tsv": "input/file.v2.tsv",
+    "expected_output": "input/12c64309-4f21-4a86-8175-ca2340babadd.sequencing_experiment.payload.json",
+    "publish_dir": "outdir"
+}