고전 하드웨어에서 AI 언어 모델 구현 도전

고전 하드웨어에서 AI 언어 모델 운용 가능성

EXO Labs는 최근 26년 된 Windows 98의 Pentium II PC에서 AI 대형 언어 모델을 실행해 주목받고 있습니다. 이 프로젝트는 Intel Pentium II CPU와 128MB RAM을 사용하는 매우 오래된 하드웨어에서 AI 소프트웨어가 가능하다는 것을 보여줍니다.

이러한 연구는 고전 하드웨어의 유용성을 재발견하고, 저사양 장비에서도 효율적인 AI 모델 구현 가능성을 탐구합니다.
오래된 기술 환경에서의 AI 실행은 신흥 시장이나 하드웨어 접근성이 낮은 지역에 잠재적 이점을 제공할 수 있습니다.

Llama – Windows 98에서의 놀라운 실행

EXO Labs는 Andrej Karpathy의 Llama2.c 기반의 맞춤형 순수 C 추론 엔진을 통해 이야기를 생성했습니다. 이 기법을 사용해 "Sleepy Joe"를 주제로 한 이야기가 빠르게 생성되는 모습을 소셜 미디어에 공개했습니다. 이는 제한된 하드웨어 자원에서 이루어진 굉장한 성과입니다.

Llama2.c 엔진은 최소한의 하드웨어 자원으로도 고성능 AI 기능을 가능하게 하는 최적화된 접근 방식을 나타냅니다.
이러한 작업은 제한된 자원에서의 프로세싱을 더욱 향상시키는 기술적 혁신을 필요로 하며, 중요성을 더합니다.

AI 민주화를 위한 EXO의 계획

EXO Labs는 AI 접근을 민주화하겠다는 목표로 2023년 9월에 설립되었습니다. 옥스퍼드 대학 출신 연구원과 엔지니어들이 모여 AI의 문화적, 사회적 영향력 확장을 위해 노력하고 있습니다. EXO는 누구나 거의 모든 기기에서 인공지능 모델을 훈련하고 실행할 수 있도록 열린 인프라를 구축하겠다는 의지를 밝히고 있습니다.

AI 민주화는 디지털 불균형을 최소화하고, 다양한 집단이 AI 기술을 활용하여 새로운 기회를 얻도록 도와줍니다.
EXO의 계획은 교육, 연구, 비즈니스 등 여러 분야에 AI의 접근성을 높이는 데 중요한 역할을 할 수 있습니다.

Windows 98에서 현대 코드 실행 도전

EXO는 Andrej Karpathy의 llama2.c를 활용, Borland C++ 5.02의 지원을 받아 Windows 98에서 실행 가능한 코드를 개발했습니다. 이 과정에서 여러 고난을 극복하며 700줄의 순수 C 코드로 Llama 2 아키텍처를 활용한 모델을 실행할 수 있었습니다.

이 프로젝트는 오래된 운영체제와 기술을 최대한 활용함으로써 소프트웨어 최적화 및 배포의 혁신적 접근을 시도합니다.
EXO의 도전은 역사적인 기술 재발견뿐만 아니라 신기술 적용의 피할 수 없는 장벽을 극복하는 데 기여합니다.

성능 및 한계 탐구

EXO 팀의 Alex Cheema는 Llama 아키텍처를 사용한 260K LLM이 Windows 98에서 초당 35.9 토큰을 생성하며 성능을 발휘했다고 설명했습니다. 더 큰 모델을 시험했을 때는 15M LLM이 초당 1 토큰 이상, Llama 3.2 1B는 매우 느린 속도(초당 0.0093 토큰)로 작동했습니다.