2025년 9월 25일 목요일

gtr9 pro, ai max+ 395, gpt-oss-120b 돌아간다~!

여러가지 샛팅을 해봤지만 잘 안되는 상황에서 검색을 해보니까

레모네이드 서버를 이용해서 amd에서 서빙하는것을 발견했다.

일단 윈도우에서 ram 64g vram 64g에서 돌아는 가는데 컨텍스트가 낮았다.

그런데 속도가 빠르고 gpu를 다 쓰길래 희망을 갖게 되었다.


하여간 듀얼부팅으로 맛만 보자는 생각으로 리눅스 데스크탑을 깔았고


레모네이드만 설치해서 해봤는데 ram 32g vram 96g 로 gpt-oss-120b를 돌리는데 성공했다.

올라마 서버처럼 그냥 레모네이드를 띄우면 됐고 레모네이드 자체 채팅은 tps가 나오지 않았다.


그래서 openwebui로 openai 연동으로 레모네이드를 연결했고 채팅의 답변에 있는 정보로 tps를 얻을 수 있었다.


처음은 약 50tps 나오고 이후 줄어들어 40대로 나온다.


일단 막 빠르진 않지만 사용하는데 큰 문제 없이 적당하다.


그래서 20b도 해봤는데 20b는 70tpb 정도 나오더라.


vllm 도 해보고 싶은데 아직은 못해봤고 검색해 봤는데 rocm이나 vulcan이나 큰 차이 없다는거 같다.


하여간 llm 돌리기 엄청 빠르진 않지만 큰 모델을 돌릴수 있기 때문에 적당하다고 느낀다.

이건 장점이다.


단점은 드라이버 문제인지 윈도우고 리눅스고 이런 저런 문제들이 있다는 것인데 시간이 지나면 해결이 될수도 있고 어찌 우회로가 없는것도 아니라서 이건 그냥 이해하고 가련다.

댓글 없음:

댓글 쓰기

gtr9 pro, ai max+ 395, gpt-oss-120b 돌아간다~!

여러가지 샛팅을 해봤지만 잘 안되는 상황에서 검색을 해보니까 레모네이드 서버를 이용해서 amd에서 서빙하는것을 발견했다. 일단 윈도우에서 ram 64g vram 64g에서 돌아는 가는데 컨텍스트가 낮았다. 그런데 속도가 빠르고 gpu를 다 쓰길래 희망...