2025년 9월 25일 목요일

gtr9 pro, ai max+ 395, gpt-oss-120b 돌아간다~!

여러가지 샛팅을 해봤지만 잘 안되는 상황에서 검색을 해보니까

레모네이드 서버를 이용해서 amd에서 서빙하는것을 발견했다.

일단 윈도우에서 ram 64g vram 64g에서 돌아는 가는데 컨텍스트가 낮았다.

그런데 속도가 빠르고 gpu를 다 쓰길래 희망을 갖게 되었다.


하여간 듀얼부팅으로 맛만 보자는 생각으로 리눅스 데스크탑을 깔았고


레모네이드만 설치해서 해봤는데 ram 32g vram 96g 로 gpt-oss-120b를 돌리는데 성공했다.

올라마 서버처럼 그냥 레모네이드를 띄우면 됐고 레모네이드 자체 채팅은 tps가 나오지 않았다.


그래서 openwebui로 openai 연동으로 레모네이드를 연결했고 채팅의 답변에 있는 정보로 tps를 얻을 수 있었다.


처음은 약 50tps 나오고 이후 줄어들어 40대로 나온다.


일단 막 빠르진 않지만 사용하는데 큰 문제 없이 적당하다.


그래서 20b도 해봤는데 20b는 70tpb 정도 나오더라.


vllm 도 해보고 싶은데 아직은 못해봤고 검색해 봤는데 rocm이나 vulcan이나 큰 차이 없다는거 같다.


하여간 llm 돌리기 엄청 빠르진 않지만 큰 모델을 돌릴수 있기 때문에 적당하다고 느낀다.

이건 장점이다.


단점은 드라이버 문제인지 윈도우고 리눅스고 이런 저런 문제들이 있다는 것인데 시간이 지나면 해결이 될수도 있고 어찌 우회로가 없는것도 아니라서 이건 그냥 이해하고 가련다.

2025년 9월 20일 토요일

gtr9 pro, ai max+ 395, strix halo? 아 시발 계륵인가

좀 더 큰 모델을 돌리고 싶은 욕심에 맥스튜디오 울트라를 저울질 했었더랬다.

근데 600 넘는돈이 부담스러웠다. 96기가인것도 그렇고..

여기다 이 돈을 태우는게 맞나는 생각이 많았다.


지름신을 이겨내려면 뭔가를 사야 했는데 16코어 32쓰레드에 unified memory 128gb 라는 엄청난

장점의 머신이 있기에 질렀다. 발열을 위해서 그리고 바로 구매하기 위해서


gtr9 pro를 구매했다. 할인,관부가세 내주는 걸로 260 얼마 준거 같다.


윈도우 11프로도 oem으로 제공하고 있기에 ai를 생각 안 하면 나쁜 선택은 아니었다.


내가 가장 원한건 gpt-oss-120b를 돌리는 거였다.

96gb vram에 61gb 정도의 4q 모델을 돌리는것은 어렵지 않으리라 더 높은 모델도 돌리겠지 했다.


결과적으로는 간신히 돌린다.


난 아직 고수준으로 ai 서빙을 하고 있는 입장은 아니며 앞으로 더 좋은 방법이 나온다면 공유 하겠다.

대부분의 개인적으로 ai 돌리시는 분들이 ollama나 lmstudio를 사용할 것으로 보인다.


두 프로그램다 llama.cpp를 내부적으로 사용한다고 하는데 처리 방식이 사뭇다른것 같았다.

대단히 특이한 상황들을 많이 목격했는데 하나씩 이야기 해보겠다.


lmstudio

lmstudio는 서빙 방식을 정할수 있어서 그나마 자유도가 있다고 할수 있다.

cpu,vulcan,rocm 중 골라서 할수 있다.

cpu  제외하고 성공한 케이스가 1개 있는데 vulcan 4096 컨텍스트였다.

일단 선택 가능한 옵션이 렘을 64:64, 32:96으로 사용하는거였다.

32:96으로 96vram으로 하면 다 될줄 알았는데 다 실패했다.

이유는 ram에 올리고 vram에 복사하는거 같더라..???

아니 시발 61기가 짜리 올리는데 ram 61기가 이상 쓴다는거냐? 미쳤나? 근데 그런갑다.

성공한 케이스는 64:64 vulcan 4096 컨텍스트 ㅋㅋㅋㅋ 돌아는가더라

tps는 40 정도 나왔다.  rocm은 안되더라

cpu로 하니까 ram 사용량이 70기가 정도 되는데 20이하의tps가 나왔다.

7800x3d에서도 20 정도는 나온거 같은데 거기다 cpu 를 이빠이 쓰긴 하는데 32개로 나오는 코어 중에 16개만 쓰더라. 이러면 8 코어 16쓰래드 쓰는거라 이거 방법이 없나 싶긴했다.

결국 cpu로 돌리거나 vulcan 컨텍스트 거의 없이해서 돌리거나다  조금씩 올리면서 테스트해도

되겠지..


ollama

이 친구는 작은 모델을 올릴때 ram 사용량이 안 올라가고 서빙이 되더라 그래서 기대를 했는데

다 실패했다. 무슨 메모리 레이아웃이 안 맞는데..;;

64:64로 성공했었을수도 있다. 근데 그런 위나 아래나 큰 차이 없어서..


결국 컨텍스트 사이즈가 작은 것만 됐던 것 으로 기억한다.



최고의 단점

64:64, 32:96 이런거 전환하려면 리부팅 해야 한다.

amd 아드레날린인가 이거로 해보면 512ram 부터 시작해서 vram을 수정할수 있는데

작은건 몇개 있는데

내가 원하는 vram 7~80 정도 이런건 없고 64,96 이렇게 옵션이 적었다.

어떻게 안되려나..;


아직 제대로 쓰고 있지 못하고 있다. 어따쓰지 환불 가능한가? 이런 생각만 많이 든다.

다른거 연구 중이도 혹시나 더 좋은 일이 생긴다면 글 남기도록 하겠다..


혹시나 구매를 망설이시는분들은 좀 찾는게 좋을듯 내가 혹시나 아름다운 사이즈 나오면 공유하겄다.



2025년 9월 15일 월요일

qwen3-next-80b 모델 이제 lmstudio에서 사용 가능하다!!

 오늘 mlx 업데이트가 되었고 원래 모델 지원 안 한다고 안 되던 모델인

qwen3-next-80b 모델이 사용 가능해졌습니다.

전 맥스튜디오 m1 max 64gb 모델인데 엄격함 등급으로 실행에 성공했습니다.

안되면 가드레일 끄고 하면 될듯 (ram 땡겨 쓸지도)

mfxp4 양자화 42.37기가 버전입니다.

38 tps 나오네요. 쓸수는 있을듯

이 머신으로 돌리는 거의 최대 모델이기 때문에 기대가 있었는데 안되서 안타까웠는데

즐거운 소식입니다.



어느정도 사용해보고 이야기 하지만..

mlx 의 문제라곤 하는데 컨텍스트를 키워놔도 어느정도 지나면 문제가 생기는거 같습니다.

짧게 짧게 쓰면 될듯. 아직도 gguf 는 안되는데 되는게 어디냐 싶습니다.

나중에 문제가 해결 되겄죠 뭐.

2025년 9월 3일 수요일

rtx5080으로 gpt-oss-20b 4bit 돌려보고 정리

lmstudio로 돌려보았다.

최적이라고 생각하는 옵션을 공유해 보겠다.

약 150~160정도의 TPS가 나왔다. 이정도면 뭐 날라다니는 느낌



모델설정

openai/gpt-oss-20b MXFP4 12.11GB

환경설정에서

컨텍스트 길이 (Context Length)

20000 (20k)  - 이건 미세하게 조정하면서 조금 더 늘릴수 있을듯 24k로 하니까 속도가 반토막남

GPU 오프로딩 (GPU Offload)

24 / 24 (이거 100% gpu에 올린다는 옵션일거다)


환경 설정

런타임

GGUF: CUDA 12 llama.cpp 


하드웨어 가드레인

엄격함


GPUs

Limit Model Offload to Dedicated GPU Memory (<- false) 이건 의미 없을듯

NVIDIA GeForce RTX 5080 (-> true)

Offload KV Cache to GPU Memory (->True)


이 샛팅이었다.


최초 160 TPS에서 10K 정도 컨텍스트가 생기면 100TPS 까지 떨어졌다.


끝!


혹시 더 좋은 설정 있으면 공유해 주세요.

gtr9 pro, ai max+ 395, gpt-oss-120b 돌아간다~!

여러가지 샛팅을 해봤지만 잘 안되는 상황에서 검색을 해보니까 레모네이드 서버를 이용해서 amd에서 서빙하는것을 발견했다. 일단 윈도우에서 ram 64g vram 64g에서 돌아는 가는데 컨텍스트가 낮았다. 그런데 속도가 빠르고 gpu를 다 쓰길래 희망...