lmstudio로 돌려보았다.
최적이라고 생각하는 옵션을 공유해 보겠다.
약 150~160정도의 TPS가 나왔다. 이정도면 뭐 날라다니는 느낌
모델설정
openai/gpt-oss-20b MXFP4 12.11GB
환경설정에서
컨텍스트 길이 (Context Length)
20000 (20k) - 이건 미세하게 조정하면서 조금 더 늘릴수 있을듯 24k로 하니까 속도가 반토막남
GPU 오프로딩 (GPU Offload)
24 / 24 (이거 100% gpu에 올린다는 옵션일거다)
환경 설정
런타임
GGUF: CUDA 12 llama.cpp
하드웨어 가드레인
엄격함
GPUs
Limit Model Offload to Dedicated GPU Memory (<- false) 이건 의미 없을듯
NVIDIA GeForce RTX 5080 (-> true)
Offload KV Cache to GPU Memory (->True)
이 샛팅이었다.
최초 160 TPS에서 10K 정도 컨텍스트가 생기면 100TPS 까지 떨어졌다.
끝!
혹시 더 좋은 설정 있으면 공유해 주세요.
댓글 없음:
댓글 쓰기