펜티엄 II에서 AI 언어 모델 구현 성공

윈도우 98에서의 AI 구현: 펜티엄 II의 도전

EXO Labs는 26년 된 윈도우 98 PC에서 AI 대형 언어 모델(LLM)을 실행하는 데 성공했습니다. 이번 시도가 놀라운 이유는, 이 구식 장비가 128MB RAM과 인텔 펜티엄 II CPU를 탑재한 것으로, AI를 구동하기에는 매우 제한된 자원이었기 때문입니다.

당시 윈도우 98은 오늘날과 비교했을 때 매우 초기의 운영체제로, 최신 소프트웨어 구동에 많은 어려움이 따릅니다.
인텔 펜티엄 II 프로세서는 주로 사무용 및 엔터테인먼트 용도로 사용되었으며 오늘날 AI 요구 사항에 미치지 못합니다.

35.9 tok/sec의 놀라운 성능

EXO Labs는 릴리즈한 블로그 게시물을 통해, 자신들이 개발한 순수 C 추론 엔진이 35.9 tok/sec의 속도로 스토리를 생성하는 모습을 공개했습니다. 이 프로젝트에는 Andrej Karpathy의 llama2.c 코드를 기반으로 한 llama98.c 엔진이 사용되었습니다.

35.9 tok/sec의 성능은 해당 환경에서 꽤 놀라운 결과로, 당시 컴퓨팅의 한계를 뛰어넘었습니다.
llama98.c 엔진은 기존 코드를 적절히 최적화하여 오랜 하드웨어에서도 성능을 발휘하도록 설계되었습니다.

AI 민주화를 위한 EXO Labs의 철학

EXO Labs는 AI 접근을 민주화하고자 하는 목표 하에 설립되었습니다. 이들은 AI가 일부 대기업에 의해 독점되는 것이 사회에 해로울 수 있다고 보고, 모든 사람이 AI 모델을 어떤 장치에서든 운영할 수 있도록 하는 개방형 인프라를 구축하고자 합니다.

EXO Labs는 중소기업과 개인 연구자도 AI 기술을 활용할 수 있는 환경 구축을 지향합니다.
이들의 철학은 AI 기술이 인류 발전을 위해 널리 사용될 수 있어야 한다는 신념에 기반합니다.

구형 컴퓨터에서 새로운 도전

프로젝트의 출발은 옛날 이베이에서 윈도우 98 PC를 구하는 것부터 시작했습니다. 데이터 전송 및 현대 코드를 구형 운영체제에 맞게 컴파일하는 과정에서 여러 도전에 직면했지만, 결국 Borland C++ 5.02를 활용해 문제를 해결할 수 있었습니다.

Borland C++ 5.02는 당시 널리 사용되던 개발 툴로, 레거시 시스템 지원에 유용합니다.
이 과정에서 EXO Labs는 데이터 호환성 문제를 해결하기 위한 다양한 트릭과 최적화 기술을 적용했습니다.

Andrej Karpathy 코드의 긍정적인 영향

EXO Labs는 프로젝트의 성공적 실현에 기여한 Andrej Karpathy의 llama2.c 코드에 감사의 말을 전했습니다. Karpathy는 이전에 테슬라의 AI 디렉터로 활동했으며 오픈AI의 창립팀에도 소속되어 있던 인물입니다.

그의 llama2.c 코드는 간결함과 효율성을 목표로 만들어져, 다양한 플랫폼에서 환경적 제약을 극복하도록 돕습니다.
Karpathy의 경험과 전문 지식은 AI 분야에서 중요한 자원이 되며, 이는 다양한 프로젝트에 긍정적인 영향을 미칩니다.

작은 모델이지만 의미 있는 성과

260K LLM은 크지 않은 모델이지만, 구식 350 MHz 단일 코어 PC에서도 만족스러운 속도로 실행되었습니다. EXO의 블로그에 따르면, 더 큰 15M LLM에서는 속도가 다소 느려졌으며, Llama 3.2 1B는 0.0093 tok/sec의 속도로 매우 느린 성과를 보였습니다.