Add min_p option to benchmark script; Add an example usage to the README

epicfilemcnulty · epicfilemcnulty · commit 5d685cde7783 · 2024-01-28T17:21:41.000+02:00
diff --git a/README.md b/README.md
@@ -138,6 +138,7 @@ To test generation latency (e.g. batch size = 1) with different sampling strateg
 ```
 python benchmarks/benchmark_generation_mamba_simple.py --model-name "state-spaces/mamba-2.8b" --prompt "My cat wrote all this CUDA code for a new language model and" --topp 0.9 --temperature 0.7 --repetition-penalty 1.2
 python benchmarks/benchmark_generation_mamba_simple.py --model-name "EleutherAI/pythia-2.8b" --prompt "My cat wrote all this CUDA code for a new language model and" --topp 0.9 --temperature 0.7 --repetition-penalty 1.2
+python benchmarks/benchmark_generation_mamba_simple.py --model-name "state-spaces/mamba-2.8b" --prompt "My cat wrote all this CUDA code for a new language model and" --minp 0.05 --temperature 0.7 --repetition-penalty 1.2
 ```
 
 To test generation throughput with random prompts (e.g. large batch size):
diff --git a/benchmarks/benchmark_generation_mamba_simple.py b/benchmarks/benchmark_generation_mamba_simple.py
@@ -22,6 +22,7 @@
 parser.add_argument("--temperature", type=float, default=1.0)
 parser.add_argument("--topk", type=int, default=1)
 parser.add_argument("--topp", type=float, default=1.0)
+parser.add_argument("--minp", type=float, default=0.0)
 parser.add_argument("--repetition-penalty", type=float, default=1.0)
 parser.add_argument("--batch", type=int, default=1)
 args = parser.parse_args()
@@ -62,6 +63,7 @@
         temperature=args.temperature,
         top_k=args.topk,
         top_p=args.topp,
+        min_p=args.minp,
         repetition_penalty=args.repetition_penalty,
     )
 else: