2025년 9월 3일 수요일

rtx5080으로 gpt-oss-20b 4bit 돌려보고 정리

lmstudio로 돌려보았다.

최적이라고 생각하는 옵션을 공유해 보겠다.

약 150~160정도의 TPS가 나왔다. 이정도면 뭐 날라다니는 느낌



모델설정

openai/gpt-oss-20b MXFP4 12.11GB

환경설정에서

컨텍스트 길이 (Context Length)

20000 (20k)  - 이건 미세하게 조정하면서 조금 더 늘릴수 있을듯 24k로 하니까 속도가 반토막남

GPU 오프로딩 (GPU Offload)

24 / 24 (이거 100% gpu에 올린다는 옵션일거다)


환경 설정

런타임

GGUF: CUDA 12 llama.cpp 


하드웨어 가드레인

엄격함


GPUs

Limit Model Offload to Dedicated GPU Memory (<- false) 이건 의미 없을듯

NVIDIA GeForce RTX 5080 (-> true)

Offload KV Cache to GPU Memory (->True)


이 샛팅이었다.


최초 160 TPS에서 10K 정도 컨텍스트가 생기면 100TPS 까지 떨어졌다.


끝!


혹시 더 좋은 설정 있으면 공유해 주세요.

댓글 없음:

댓글 쓰기

gtr9 pro, ai max+ 395, gpt-oss-120b 돌아간다~!

여러가지 샛팅을 해봤지만 잘 안되는 상황에서 검색을 해보니까 레모네이드 서버를 이용해서 amd에서 서빙하는것을 발견했다. 일단 윈도우에서 ram 64g vram 64g에서 돌아는 가는데 컨텍스트가 낮았다. 그런데 속도가 빠르고 gpu를 다 쓰길래 희망...