EXO Labs, 26년 된 하드웨어에서 AI 모델을 구동하다
EXO Labs는 26년된 Windows 98 Pentium II PC에서 대형 AI 언어 모델을 성공적으로 실행했습니다. 이 혁신적인 실험은 128MB RAM을 장착한 350MHz의 Pentium II CPU에서 가능했습니다.
- 이러한 실험은 오래된 컴퓨터 자원을 활용해 여전히 현대 기술의 일부분을 짊어질 수 있다는 것을 입증합니다.
- 이는 제한된 하드웨어 환경에서도 AI 모델을 동작시킬 수 있는 잠재력을 보여주는 사례입니다.
Llama를 활용한 AI 모델 생성
이들은 Andrej Karpathy의 Llama2.c를 기반으로 한 맞춤형 순수 C 추론 엔진을 사용해, 계정 '카라티'와 함께 완성된 llama98.c 코드를 실행했습니다. 결과는 35.9 tok/sec의 속도로 이야기를 생성하는 것이 가능했습니다.
- 이 구현은 최적화된 C 코드가 저성능 환경에서도 효과적으로 작동할 수 있음을 시사합니다.
- AI 기술의 발전은 개인적 혹은 학술적인 프로젝트에서 활용도를 높이는 계기가 될 것입니다.
AI 접근성의 민주화 추진
EXO Labs는 AI의 접근성을 널리 확장하려는 목표를 가지고 있으며, 일부 대기업이 AI를 통제하는 것을 막고자 합니다. 그 일환으로, 다양한 제한된 자원으로 AI 모델을 실행할 수 있는 능력을 대중에게 제시하고자 합니다.
- 이는 데이터 접근과 처리 능력을 민주화하여 더 많은 사용자가 AI를 활용할 수 있도록 도와줍니다.
- AI의 민주화는 교육, 연구자 및 소규모 기업에게 기회를 제공합니다.
Windows 98에서 코드 컴파일의 도전
고대의 Windows 98 PC를 활용하여 현대적인 코드를 컴파일하는 데에는 여러 난관이 있었습니다. 이를 위해 EXO는 Borland C++ 5.02 IDE와 컴파일러를 사용하며 코드를 조정하여 Windows 98 호환 실행 파일을 만들어냈습니다.
- This task showcases the ingenuity needed to bridge technology from different eras for practical use.
- Converting legacy environments to handle modern tasks demonstrates adaptability in software engineering.
작은 LLM의 가능성과 한계
260K LLM은 작지만, 350MHz의 단일 코어 PC에서도 준수한 성능을 보여주었습니다. 그러나 15M LLM으로 이동할 경우 생성 속도는 크게 느려졌으며, Llama 3.2 1B는 매우 느린 속도로 작동했습니다.
- 이는 LLM의 크기와 성능 관계를 명확히 보여주며, 모델 크기에 비례해 요구되는 자원을 이해하는 데 도움이 됩니다.
- 또한, 최적화 및 속도 개선이 필요하다는 점에서 다양한 연구 기회를 제시합니다.
출처 : 원문 보러가기