2025년 9월 15일 월요일

qwen3-next-80b 모델 이제 lmstudio에서 사용 가능하다!!

 오늘 mlx 업데이트가 되었고 원래 모델 지원 안 한다고 안 되던 모델인

qwen3-next-80b 모델이 사용 가능해졌습니다.

전 맥스튜디오 m1 max 64gb 모델인데 엄격함 등급으로 실행에 성공했습니다.

안되면 가드레일 끄고 하면 될듯 (ram 땡겨 쓸지도)\

mfxp4 양자화 42.37기가 버전입니다.

38 tps 나오네요. 쓸수는 있을듯

이 머신으로 돌리는 거의 최대 모델이기 때문에 기대가 있었는데 안되서 안타까웠는데

즐거운 소식입니다.

2025년 9월 3일 수요일

rtx5080으로 gpt-oss-20b 4bit 돌려보고 정리

lmstudio로 돌려보았다.

최적이라고 생각하는 옵션을 공유해 보겠다.

약 150~160정도의 TPS가 나왔다. 이정도면 뭐 날라다니는 느낌



모델설정

openai/gpt-oss-20b MXFP4 12.11GB

환경설정에서

컨텍스트 길이 (Context Length)

20000 (20k)  - 이건 미세하게 조정하면서 조금 더 늘릴수 있을듯 24k로 하니까 속도가 반토막남

GPU 오프로딩 (GPU Offload)

24 / 24 (이거 100% gpu에 올린다는 옵션일거다)


환경 설정

런타임

GGUF: CUDA 12 llama.cpp 


하드웨어 가드레인

엄격함


GPUs

Limit Model Offload to Dedicated GPU Memory (<- false) 이건 의미 없을듯

NVIDIA GeForce RTX 5080 (-> true)

Offload KV Cache to GPU Memory (->True)


이 샛팅이었다.


최초 160 TPS에서 10K 정도 컨텍스트가 생기면 100TPS 까지 떨어졌다.


끝!


혹시 더 좋은 설정 있으면 공유해 주세요.

2025년 4월 21일 월요일

비트넷 1.58, bitnet 1.58 윈도우 빌드 안될때 chrono bitnet 1.58 chrono

검색이 걸릴지 모르겠습니다.

윈도우 빌드 해볼라고 했는데 참 c++ 안한지 오래라 많이 해맸네요


기본적으로는 github의 설치 가이드대로 하면 됩니다.


git clone --recursive https://github.com/microsoft/BitNet.git

cd BitNet


# (Recommended) Create a new conda environment

conda create -n bitnet-cpp python=3.9

conda activate bitnet-cpp


pip install -r requirements.txt


# Manually download the model and run with local path

huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T

python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s



일단 clang, cmake 관련은 하단으로 내리면 윈도우 관련 글이 있다.

"C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\VsDevCmd.bat" -startdir=none -arch=x64 -host_arch=x64

아나콘다 프롬프트로 해당 명령을 하면 되는데 위치가 다를 수 있기 때문에 배치 파일을 만들어서 하면 좋다.

매번 해야 하기 때문에 번거롭다.

visual studio도 c++ 개발 등 cmake 관련과 clang 으로 검색해서 나오는것들 설치해주고 하면 된다.



근데 제목의 내용은 하여간 이렇게 하란대로 다 했는데 안 된다.

그래서 llm 으로 물어보니 이러고 저러고 나오는데

간단하게 

C:\BitNet\3rdparty\llama.cpp\common

common.cpp
log.cpp

이렇게 2개에서 문제가 생기는데

error : no type named 'system_clock' in namespace 'std::chrono'


하여간 저 2개의 파일 상단에 보면

#include "log.h"

#include <condition_variable>
#include <cstdarg>
#include <cstdio>
#include <mutex>
#include <sstream>
#include <thread>
#include <vector>
#include <chrono>  <- 추가


이런식으로 해당 라인을 추가해주면 된다.

컴파일 로그를 보내 2개의 파일에서만 문제가 있었고 이후에는 컴파일이 잘 되서 실제로 잘 돌릴 수 있게 되었다.


급하게 글을 적은 이유는 맥으로도 실패(멈춤)했는데 윈도우에서도 안되서 답답했었고 결국

스스로 해결하게 되었는데 나같은 사람 있을까봐 글을 남긴다.

요즘 llm에는 글 긁어서 주면 뭔지 대충 알려줘서 편한거 같다.
하여간 혹시 같은 문제 있으면 이거 보고 해결보시길

qwen3-next-80b 모델 이제 lmstudio에서 사용 가능하다!!

 오늘 mlx 업데이트가 되었고 원래 모델 지원 안 한다고 안 되던 모델인 qwen3-next-80b 모델이 사용 가능해졌습니다. 전 맥스튜디오 m1 max 64gb 모델인데 엄격함 등급으로 실행에 성공했습니다. 안되면 가드레일 끄고 하면 될듯 (ra...