펜티엄 II로 구동되는 AI 언어 모델의 성공적인 구현

이미지

펜티엄 II로 AI 언어 모델 구동

EXO Labs가 놀라운 실험을 통해 26년 된 Windows 98 기반의 펜티엄 II PC에서 AI 언어 모델을 구동하는 데 성공했습니다. 이번 실험에서는 엘론엑스 펜티엄 II @ 350 MHz가 사용되었고, 이 고전적인 하드웨어에서도 현대적인 AI 언어 모델이 실행될 수 있음을 보여줬습니다.

  • AI 언어 모델은 보통 최신 하드웨어에서만 실행 가능한 것으로 여겨져 왔습니다.
  • 구형 하드웨어에서의 성공적인 실행은 비슷한 실환경에서 실험할 가능성을 열어줍니다.

라마2.c 기반의 순수 C 추론 엔진

이 실험에서 사용된 코드는 Andrej Karpathy의 라마2.c를 기반으로 한 'lama98.c'입니다. 이 순수 C 추론 엔진은 비교적 간결한 700줄로 구성되어 있으며, 덕분에 Windows 98의 오래된 하드웨어에서도 호환 가능한 실행 파일로 변환할 수 있었습니다. 이를 통해 펜티엄 II에서도 놀라운 성능을 발휘했습니다.

  • 'lama98.c'는 간결하고 최적화되어 메모리 사용이 적습니다.
  • 고전적인 하드웨어 환경에 맞춘 코드 디자인이 돋보입니다.

AI 접근성 확대를 목표로 하는 EXO Labs

EXO Labs는 AI 접근성을 확대하기 위해 설립된 조직으로, 전 세계 누구나 AI 모델을 다양한 기기에서 실행할 수 있도록 돕고자 합니다. 대규모 기업들이 AI를 독점하는 것은 문화와 진실성에 악영향을 미친다고 여기며, EXO Labs는 더욱 열린 인프라를 구축하여 이러한 문제를 해결하고자 합니다.

  • AI의 민주화를 목표로 다양한 기술적 장벽을 허물고 있습니다.
  • 다양한 기기에서의 실행 가능성을 연구함으로써 기술 불균형을 줄이고자 합니다.

과거의 하드웨어에서도 높은 성능 발휘

EXO Labs는 여러 도전 과제를 극복하며 윈도우 98 PC에서 LLM을 실행할 수 있었습니다. 이 과정에서 안드레 카프티의 코드 덕분에 35.9 tok/sec라는 인상적인 속도로 AI 언어 모델을 구동할 수 있었습니다. 이는 단일 코어 350MHz CPU에서도 상당한 성능을 발휘할 수 있음을 보여줍니다.

  • 이러한 성능은 최적화된 코드와 메모리 관리 덕분에 발생했습니다.
  • 한정된 자원에서도 높은 효율성을 이끌어냈다는 점에서 주목할 만합니다.

더 큰 모델에서의 실험 결과

EXO Labs는 더 큰 모델을 실험하기도 했습니다. 260K LLM이 35.9 tok/sec의 속도로 실행된 반면, 15M LLM은 1 tok/sec 조금 넘는 속도를 보였습니다. Llama 3.2 1B는 다소 느린 0.0093 tok/sec이었지만, 이는 구형 하드웨어에서 실행됐다는 점에서 여전히 의미 있는 결과입니다.

  • 이 실험은 제한된 환경에서 복잡한 모델이 어떻게 작동하는지 이해하는 데 기여합니다.
  • 향후 비슷한 실험이 다양한 구형 기기에서 실행될 가능성을 제시합니다.

출처 : 원문 보러가기