2025년 9월 20일 토요일

gtr9 pro, ai max+ 395, strix halo? 아 시발 계륵인가

좀 더 큰 모델을 돌리고 싶은 욕심에 맥스튜디오 울트라를 저울질 했었더랬다.

근데 600 넘는돈이 부담스러웠다. 96기가인것도 그렇고..

여기다 이 돈을 태우는게 맞나는 생각이 많았다.


지름신을 이겨내려면 뭔가를 사야 했는데 16코어 32쓰레드에 unified memory 128gb 라는 엄청난

장점의 머신이 있기에 질렀다. 발열을 위해서 그리고 바로 구매하기 위해서


gtr9 pro를 구매했다. 할인,관부가세 내주는 걸로 260 얼마 준거 같다.


윈도우 11프로도 oem으로 제공하고 있기에 ai를 생각 안 하면 나쁜 선택은 아니었다.


내가 가장 원한건 gpt-oss-120b를 돌리는 거였다.

96gb vram에 61gb 정도의 4q 모델을 돌리는것은 어렵지 않으리라 더 높은 모델도 돌리겠지 했다.


결과적으로는 간신히 돌린다.


난 아직 고수준으로 ai 서빙을 하고 있는 입장은 아니며 앞으로 더 좋은 방법이 나온다면 공유 하겠다.

대부분의 개인적으로 ai 돌리시는 분들이 ollama나 lmstudio를 사용할 것으로 보인다.


두 프로그램다 llama.cpp를 내부적으로 사용한다고 하는데 처리 방식이 사뭇다른것 같았다.

대단히 특이한 상황들을 많이 목격했는데 하나씩 이야기 해보겠다.


lmstudio

lmstudio는 서빙 방식을 정할수 있어서 그나마 자유도가 있다고 할수 있다.

cpu,vulcan,rocm 중 골라서 할수 있다.

cpu  제외하고 성공한 케이스가 1개 있는데 vulcan 4096 컨텍스트였다.

일단 선택 가능한 옵션이 렘을 64:64, 32:96으로 사용하는거였다.

32:96으로 96vram으로 하면 다 될줄 알았는데 다 실패했다.

이유는 ram에 올리고 vram에 복사하는거 같더라..???

아니 시발 61기가 짜리 올리는데 ram 61기가 이상 쓴다는거냐? 미쳤나? 근데 그런갑다.

성공한 케이스는 64:64 vulcan 4096 컨텍스트 ㅋㅋㅋㅋ 돌아는가더라

tps는 40 정도 나왔다.  rocm은 안되더라

cpu로 하니까 ram 사용량이 70기가 정도 되는데 20이하의tps가 나왔다.

7800x3d에서도 20 정도는 나온거 같은데 거기다 cpu 를 이빠이 쓰긴 하는데 32개로 나오는 코어 중에 16개만 쓰더라. 이러면 8 코어 16쓰래드 쓰는거라 이거 방법이 없나 싶긴했다.

결국 cpu로 돌리거나 vulcan 컨텍스트 거의 없이해서 돌리거나다  조금씩 올리면서 테스트해도

되겠지..


ollama

이 친구는 작은 모델을 올릴때 ram 사용량이 안 올라가고 서빙이 되더라 그래서 기대를 했는데

다 실패했다. 무슨 메모리 레이아웃이 안 맞는데..;;

64:64로 성공했었을수도 있다. 근데 그런 위나 아래나 큰 차이 없어서..


결국 컨텍스트 사이즈가 작은 것만 됐던 것 으로 기억한다.



최고의 단점

64:64, 32:96 이런거 전환하려면 리부팅 해야 한다.

amd 아드레날린인가 이거로 해보면 512ram 부터 시작해서 vram을 수정할수 있는데

작은건 몇개 있는데

내가 원하는 vram 7~80 정도 이런건 없고 64,96 이렇게 옵션이 적었다.

어떻게 안되려나..;


아직 제대로 쓰고 있지 못하고 있다. 어따쓰지 환불 가능한가? 이런 생각만 많이 든다.

다른거 연구 중이도 혹시나 더 좋은 일이 생긴다면 글 남기도록 하겠다..


혹시나 구매를 망설이시는분들은 좀 찾는게 좋을듯 내가 혹시나 아름다운 사이즈 나오면 공유하겄다.



댓글 없음:

댓글 쓰기

gtr9 pro, ai max+ 395, strix halo? 아 시발 계륵인가

좀 더 큰 모델을 돌리고 싶은 욕심에 맥스튜디오 울트라를 저울질 했었더랬다. 근데 600 넘는돈이 부담스러웠다. 96기가인것도 그렇고.. 여기다 이 돈을 태우는게 맞나는 생각이 많았다. 지름신을 이겨내려면 뭔가를 사야 했는데 16코어 32쓰레드에 un...