펜티엄 II로 구동되는 AI 언어 모델의 성공적인 구현

펜티엄 II로 AI 언어 모델 구동

EXO Labs가 놀라운 실험을 통해 26년 된 Windows 98 기반의 펜티엄 II PC에서 AI 언어 모델을 구동하는 데 성공했습니다. 이번 실험에서는 엘론엑스 펜티엄 II @ 350 MHz가 사용되었고, 이 고전적인 하드웨어에서도 현대적인 AI 언어 모델이 실행될 수 있음을 보여줬습니다.

AI 언어 모델은 보통 최신 하드웨어에서만 실행 가능한 것으로 여겨져 왔습니다.
구형 하드웨어에서의 성공적인 실행은 비슷한 실환경에서 실험할 가능성을 열어줍니다.

라마2.c 기반의 순수 C 추론 엔진

이 실험에서 사용된 코드는 Andrej Karpathy의 라마2.c를 기반으로 한 'lama98.c'입니다. 이 순수 C 추론 엔진은 비교적 간결한 700줄로 구성되어 있으며, 덕분에 Windows 98의 오래된 하드웨어에서도 호환 가능한 실행 파일로 변환할 수 있었습니다. 이를 통해 펜티엄 II에서도 놀라운 성능을 발휘했습니다.

'lama98.c'는 간결하고 최적화되어 메모리 사용이 적습니다.
고전적인 하드웨어 환경에 맞춘 코드 디자인이 돋보입니다.

AI 접근성 확대를 목표로 하는 EXO Labs

EXO Labs는 AI 접근성을 확대하기 위해 설립된 조직으로, 전 세계 누구나 AI 모델을 다양한 기기에서 실행할 수 있도록 돕고자 합니다. 대규모 기업들이 AI를 독점하는 것은 문화와 진실성에 악영향을 미친다고 여기며, EXO Labs는 더욱 열린 인프라를 구축하여 이러한 문제를 해결하고자 합니다.

AI의 민주화를 목표로 다양한 기술적 장벽을 허물고 있습니다.
다양한 기기에서의 실행 가능성을 연구함으로써 기술 불균형을 줄이고자 합니다.

과거의 하드웨어에서도 높은 성능 발휘

EXO Labs는 여러 도전 과제를 극복하며 윈도우 98 PC에서 LLM을 실행할 수 있었습니다. 이 과정에서 안드레 카프티의 코드 덕분에 35.9 tok/sec라는 인상적인 속도로 AI 언어 모델을 구동할 수 있었습니다. 이는 단일 코어 350MHz CPU에서도 상당한 성능을 발휘할 수 있음을 보여줍니다.

이러한 성능은 최적화된 코드와 메모리 관리 덕분에 발생했습니다.
한정된 자원에서도 높은 효율성을 이끌어냈다는 점에서 주목할 만합니다.

더 큰 모델에서의 실험 결과

EXO Labs는 더 큰 모델을 실험하기도 했습니다. 260K LLM이 35.9 tok/sec의 속도로 실행된 반면, 15M LLM은 1 tok/sec 조금 넘는 속도를 보였습니다. Llama 3.2 1B는 다소 느린 0.0093 tok/sec이었지만, 이는 구형 하드웨어에서 실행됐다는 점에서 여전히 의미 있는 결과입니다.