윈도우 98에서 AI 언어 모델의 성공적인 운용
EXO Labs가 최근 소셜 미디어에 공개한 영상에서 26년 된 윈도우 98을 실행하는 펜티엄 II 컴퓨터 위에서 AI 대규모 언어 모델(LLM)이 작동하는 모습을 볼 수 있었습니다. 이 컴퓨터는 엘로넥스 펜티엄 II 350MHz, 128MB RAM 사양이며, 35.9 tok/sec의 속도로 이야기를 생성하는 인상적인 성능을 보여 주었습니다.
- 이 실험은 고급 하드웨어에 대한 의존도를 줄이고, 오래된 시스템에서도 AI 기능을 실현하는 가능성을 제시합니다.
- 이러한 성과를 통해 AI 기술은 더 많은 플랫폼과 환경에서 활용될 수 있는 기회를 열어줍니다.
엘로넥스 펜티엄 II로 LLM 작동하기
영상 속 컴퓨터는 EXO가 만든 커스텀 순수 C 추론 엔진인 llama98.c를 활용하여 AI 모델을 실행합니다. 이것은 Andrej Karpathy의 llama2.c에 기반한 엔진으로, 260K LLM을 35.9 tok/sec로 실행하는 데 성공했습니다. 이러한 성과는 문화와 진실을 지키기 위해 AI에 대한 접근을 민주화하려는 EXO의 사명과 연결됩니다.
- llama98.c는 기능적이고 효율적인 AI 모델 실행을 위한 맞춤형 솔루션으로 설계되었습니다.
- EXO Labs의 노력으로 AI 접근성이 확대되어 다양한 응용 분야에 활용될 수 있는 기초가 마련되었습니다.
EXO Labs의 도전과 성과
EXO는 옥스퍼드 대학의 연구자와 엔지니어들로 구성된 조직으로, AI 모델을 누구나 어디서나 실행할 수 있도록 인프라를 구축하는 것을 목표로 합니다. 윈도우 98 컴퓨터를 이베이에서 구입하여 프로젝트의 기초로 사용했으며, 데이터를 전송하기 위해 FTP를 활용하는 등의 노력을 기울였습니다.
- 이 실험은 AI의 저변 확대를 위한 새로운 표준을 제시하며, 과거의 기술을 현대적으로 재해석하는 사례입니다.
- 오픈 소스 기술과 고전적 기술을 결합하여 활용 가능한 새로운 방법을 지속적으로 탐구합니다.
카르파시의 코드에 대한 감사
Alex Cheema는 Andrej Karpathy의 코드에 감사를 표했습니다. 260K LLM 모델은 작고, 350MHz의 단일 코어 PC에서 적절한 속도로 실행되었습니다. 15M LLM은 약 1 tok/sec로 생성 속도가 떨어졌고, Llama 3.2 1B 모델은 0.0093 tok/sec로 매우 느리게 작동하도록 설정되었습니다.
- 이 성과는 컴퓨팅 자원이 제한된 환경에서도 AI 모델이 효과적으로 작동할 수 있음을 보여줍니다.
- Cheema의 감사는 개발자 간의 협력과 코드 공유가 AI 발전에 미치는 긍정적 영향을 강조합니다.
출처 : 원문 보러가기