Godwish Studio: rtx5080으로 gpt-oss-20b 4bit 돌려보고 정리

2025년 9월 3일 수요일

lmstudio로 돌려보았다.

최적이라고 생각하는 옵션을 공유해 보겠다.

약 150~160정도의 TPS가 나왔다. 이정도면 뭐 날라다니는 느낌

모델설정

openai/gpt-oss-20b MXFP4 12.11GB

환경설정에서

컨텍스트 길이 (Context Length)

20000 (20k) - 이건 미세하게 조정하면서 조금 더 늘릴수 있을듯 24k로 하니까 속도가 반토막남

GPU 오프로딩 (GPU Offload)

24 / 24 (이거 100% gpu에 올린다는 옵션일거다)

환경 설정

런타임

GGUF: CUDA 12 llama.cpp

하드웨어 가드레인

엄격함

GPUs

Limit Model Offload to Dedicated GPU Memory (<- false) 이건 의미 없을듯

NVIDIA GeForce RTX 5080 (-> true)

Offload KV Cache to GPU Memory (->True)

이 샛팅이었다.

최초 160 TPS에서 10K 정도 컨텍스트가 생기면 100TPS 까지 떨어졌다.

끝!

혹시 더 좋은 설정 있으면 공유해 주세요.

Godwish Studio