26년 된 Windows 98에서 AI 모델 실행 성공
EXO Labs는 오래된 Windows 98에서 강력한 AI 대형 언어 모델을 실행하는데 성공했습니다. 이들은 이를 통해 제한된 자원으로도 고성능을 달성할 수 있음을 보여주었습니다.
- Windows 98은 1998년초에 발표된 이후, 주로 개인용 컴퓨터 시장에서 널리 사용되었습니다.
- 이 운영체제는 당시 인기 있던 여러 소프트웨어와 호환성을 제공하며 안정성을 지니고 있습니다.
엘로넥스 펜티엄 II PC에서 LL24M 실행
EXO Labs는 350MHz의 엘로넥스 펜티엄 II PC에서 LL24M을 실행하여 놀라운 성능을 기록했습니다. 이 비디오에서는 'Llama2.c' 기반의 순수 C 추론 엔진을 통해 "Sleepy Joe" 이야기를 생성하는 모습을 확인할 수 있습니다.
- 펜티엄 II는 1997년 인텔에서 출시한 프로세서로, MMX 기술을 탑재해 멀티미디어 성능을 향상시켰습니다.
- LL24M은 저사양 환경에서도 라마 아키텍처의 장점을 극대화할 수 있도록 설계되었습니다.
AI 접근성의 민주화를 목표로
EXO Labs는 AI 접근성을 민주화하기 위해 창립된 단체입니다. 옥스퍼드 대학교의 연구원들과 엔지니어들이 AI 거대 기업들의 독점을 경계하며, 누구나 어디서든 AI 모델을 실행할 수 있는 개방형 인프라 구축을 목표로 하고 있습니다.
- AI 민주화는 기술 격차를 줄이고 개인 개발자들에게도 기회를 제공하는 것을 목표로 합니다.
- 개방형 인프라는 낮은 비용으로도 기술 활용을 가능하게 하며, 다양한 연구 개발을 촉진합니다.
구형 기기에서의 데이터 전송과 코드 컴파일의 도전
이 오래된 기기에서 데이터를 전송하기 위해 EXO Labs는 'FTP'를 활용했습니다. 또한, 현대적인 코드를 Windows 98에서 작동하도록 컴파일하는 것은 쉽지 않았습니다. 하지만 Andrej Karpathy의 'Llama2.c'으로 이 문제를 해결할 수 있었습니다.
- FTP는 파일 전송 프로토콜로 네트워크 운영체제를 통한 파일 공유를 용이하게 하는 기술입니다.
- Windows 98에서는 현대적인 프로그래밍 언어 및 컴파일러와의 호환성이 제한적입니다.
35.9 tok/sec 성능 달성
EXO는 260K LLM과 Llama 아키텍처를 사용하여 Windows 98에서 35.9 tok/sec의 성능을 기록했습니다. 이는 고대 하드웨어에서 놀라운 성과를 보여주는 예시입니다. LLM의 크기가 증가할수록 성능은 점점 감소하지만, 작은 규모의 LLM은 훌륭한 속도를 유지했습니다.
- LLM은 텍스트 데이터를 학습하여 문맥에 맞는 응답을 생성하는 특성을 갖고 있습니다.
- Llama 아키텍처는 추론 속도를 최적화하기 위해 경량화된 구조를 특징으로 합니다.
출처 : 원문 보러가기