bigcode-project
diff --git a/‎src/star_align/collect_snippets.py
Lines changed: 6 additions & 6 deletions b/‎src/star_align/collect_snippets.py
Lines changed: 6 additions & 6 deletions
diff --git a/‎src/star_align/self_ossinstruct.py
Lines changed: 6 additions & 3 deletions b/‎src/star_align/self_ossinstruct.py
Lines changed: 6 additions & 3 deletions
@@ -21,25 +21,25 @@ class Args:
     data_dirs: list[str]
     data_mix_weights: list[float]
 
-    max_seeds_to_collect: int = field(default=37340)
+    max_seeds_to_collect: int = field(default=100000000)
     continue_from: str | None = field(default=None)
 
     # Keep the following arguments unchanged for reproducibility
     seed: int = field(default=976)
 
     min_lines: int = field(default=5)
-    max_lines: int = field(default=25)
+    max_lines: int = field(default=30)
     min_doc_lines: int = field(default=10)
-    max_doc_lines: int = field(default=1000)
+    max_doc_lines: int = field(default=5000)
     max_avg_chars_per_line: int = field(default=80)
     # max_fragments: int = field(default=3)
     chunk_size: int = field(default=1000)
     # A small value lets one document be used by multiple seeds
-    content_chunk_lines: int = field(default=99999999999)
+    content_chunk_lines: int = field(default=100)
 
     dataset_name: str = field(default="bigcode/starcoderdata")
     data_files: list[str] | None = field(default=None)
-    max_considered_data: int | None = field(default=200000)
+    max_considered_data: int | None = field(default=500000000)
 
     collect_function: bool = field(default=False)
     max_nodes_to_traverse: int = field(default=20000)
@@ -576,7 +576,7 @@ def main():
         def get_seed_text(seed: str) -> str:
             return "".join(seed.split())
 
-        pbar = tqdm(total=args.max_seeds_to_collect)
+        pbar = tqdm(total=min(args.max_seeds_to_collect, len(dataset)))
         for example in dataset:
             if n_success >= args.max_seeds_to_collect:
                 break
 
@@ -411,9 +411,12 @@ async def main():
         num_proc=star_align.utils.N_CORES,
     )
     id_key = "seed"
-    assert len(set(d[id_key] for d in raw_dataset)) == len(
-        raw_dataset
-    ), "Duplicate seeds appear in the dataset"
+    if os.getenv("IGNORE_SEED_CHECK") is None:
+        assert len(set(d[id_key] for d in raw_dataset)) == len(
+            raw_dataset
+        ), "Duplicate seeds appear in the dataset"
+    else:
+        print("[Warning] Ignoring seed check")
 
     # Every run should produce the same data as long as the default params are not changed
     start_index = args.seed_code_start_index