디지털 석유 io.net

io.net의 기원

io.net docs 글을 그대로 번역한 내용입니다.

2022년 6월 이전까지, io.net은 미국 주식 시장과 암호화폐 시장을 위한 기관급 양적 거래 시스템 개발에 전념했다. 이들의 주된 도전 과제는 복잡한 요구를 수용할 수 있는 강력한 백엔드 거래 시스템을 포함한 인프라를 구축하는 것이었다.

이들의 거래 전략은 고빈도 거래(HFT)에 가까워, 1,000개 이상의 주식과 150개의 암호화폐의 틱 데이터를 실시간으로 모니터링해야 했다. HFT는 강력한 컴퓨터 프로그램을 사용하여 몇 초의 일부에서 대량의 주문을 처리하는 거래 방법이다. 복잡한 알고리즘을 사용해 여러 시장을 분석하고 시장 조건에 따라 주문을 실행한다. 또한, 이들의 시스템은 각 자산에 대해 실시간으로 알고리즘 매개변수를 동적으로 백테스트하고 조정해야 하며, ETrade.com, Alpaca.markets, Binance.com을 통해 30,000명 이상의 개별 고객 거래를 원활히 할 수 있도록 최적화되어, 시장 이벤트에서 시스템 반응까지의 지연 시간을 200밀리초 이하로 유지해야 한다.

이러한 인프라를 구축하려면 일반적으로 MLOps 및 DevOps 전문가로 구성된 전담 팀이 필요하다. 그러나 OpenAI가 300,000개 이상의 CPU와 GPU에서 GPT-3/4 훈련을 분산하는 데 사용하는 오픈 소스 라이브러리인 Ray.io를 발견하면서 접근 방식을 혁신하고 인프라 관리를 간소화할 수 있었다. 이를 통해 백엔드를 구축하는 시간을 6개월 이상에서 60일 미만으로 단축했다.

백엔드에 Ray를 통합하고 GPU 및 CPU 작업자 클러스터에 애플리케이션을 배포할 준비를 마친 후, 이들은 고가의 GPU 온디맨드 클라우드 제공업체로 인해 시스템 운영 비용 문제에 직면했다.

예를 들어, NVIDIA A100 카드는 하루에 카드당 80달러 이상이다. 이들은 한 달 평균 25일 동안 50개 이상의 카드를 사용해야 했으며, 이는 100,000달러/월의 비용이 소요된다.

이러한 높은 가격은 이들과 같은 AI/ML 산업의 자금 자립 스타트업에 큰 도전 과제가 된다.

이러한 높은 가격에도 불구하고, AI 애플리케이션의 계산 요구 사항은 3개월마다 두 배, 18개월마다 10배로 증가하고 있다.

분산 애플리케이션은 ARPANET과 같은 컴퓨터 네트워크의 등장으로 시작되어 50년 이상 동안 존재해 왔다. 그동안 개발자들은 대규모 시뮬레이션, 웹 서비스 및 빅 데이터 처리를 포함한 애플리케이션과 서비스를 확장하기 위해 분산 시스템을 활용해 왔다.

그러나 분산 애플리케이션은 일반적으로 예외적인 경우였다. 심지어 오늘날에도 대부분의 학부생은 분산 애플리케이션을 포함한 프로젝트를 거의 완료하지 않는다. 그러나 이 환경은 분산 애플리케이션이 표준이 될 것으로 예상되는 방향으로 빠르게 변하고 있다. 이러한 변화는 두 가지 주요 트렌드, 즉 무어의 법칙의 종말과 새로운 기계 학습 애플리케이션의 급증하는 계산 요구 사항에 의해 추진된다. 그 결과, 애플리케이션 요구 사항과 단일 노드 성능 간의 급격한 격차가 발생하여 이들은 이러한 애플리케이션을 분산할 수밖에 없게 되었다.

무어의 법칙은 죽었다.

지난 40년 동안 무어의 법칙은 컴퓨터 산업의 전례 없는 성장을 이끌어왔다. 이 법칙에 따르면 프로세서 성능은 18개월마다 두 배가 된다. 그러나 성능 성장은 동일한 기간 동안 고작 10-20%로 둔화되었다. 무어의 법칙이 끝났음에도 불구하고 컴퓨팅 파워에 대한 수요는 증가했다. 이에 대응하여 컴퓨터 아키텍트들은 성능을 일반성보다 우선시하는 도메인 특화 프로세서를 개발하는 데 집중하고 있다.

도메인 특화 하드웨어는 충분하지 않다.

도메인 특화 프로세서는 특정 작업에 최적화되어 있으며 성능을 위해 일반성을 희생한다. 딥 러닝은 금융 서비스, 산업 제어, 의료 진단, 제조, 시스템 최적화 등을 포함한 다양한 애플리케이션 분야를 혁신하는 대표적인 작업이다. 기업들은 딥 러닝 작업을 지원하기 위해 Nvidia의 GPU 및 Google의 TPU와 같은 특수 프로세서를 개발하기 위해 경쟁하고 있다. GPU 및 TPU와 같은 가속기는 계산 능력을 증가시키지만, 근본적으로 향상 속도를 증가시키는 것이 아니라 단지 무어의 법칙을 미래로 연장할 뿐이다.

딥 러닝 애플리케이션 수요의 삼중고:
기계 학습 애플리케이션의 수요는 놀라운 속도로 증가하고 있다. 여기 세 가지 주요 작업을 예로 들어 설명한다:

훈련

OpenAI의 유명한 블로그 게시물에 따르면, 최첨단 기계 학습 결과를 달성하는 데 필요한 계산은 2012년 이후로 약 3.4개월마다 두 배가 되었다. 이는 18개월마다 거의 40배 증가한 것이며, 이는 무어의 법칙보다 20배 더 많다! 따라서 무어의 법칙이 끝나지 않았더라도 이러한 애플리케이션의 요구를 충족시키기에는 크게 부족할 것이다.

이러한 폭발적인 성장은 AlphaGo와 같은 틈새 기계 학습 애플리케이션에만 국한되지 않는다. 컴퓨터 비전 및 자연어 처리와 같은 주류 애플리케이션에서도 유사한 트렌드가 나타나고 있다. 예를 들어, 2014년의 seq2seq 모델과 2019년 수십억 문장 쌍의 사전 훈련 접근 방식을 비교하면 5,000배 이상의 비율이 나타난다. 이는 연간 5.5배 증가에 해당한다. 이러한 수치는 무어의 법칙이 제안하는 연간 1.6배 증가를 훨씬 능가한다.

튜닝

상황은 모델이 한 번만 훈련되지 않는다는 사실로 인해 더욱 악화된다. 모델의 품질은 레이어 수, 은닉 유닛 수, 배치 크기와 같은 다양한 하이퍼파라미터에 따라 달라진다. 최적의 모델을 찾기 위해 개발자는 다양한 하이퍼파라미터 설정을 검색해야 한다. 이 과정을 하이퍼파라미터 튜닝이라고 하며, 이는 많은 자원을 소모할 수 있다.

예를 들어, NLP 모델 사전 훈련을 위한 강력한 기술인 RoBERTa는 최소 17개의 하이퍼파라미터를 사용한다. 각 하이퍼파라미터당 최소 두 개의 값을 가정하면, 검색 공간은 130K 이상의 구성으로 이루어진다. 이 공간을 부분적으로 탐색하는 것만으로도 방대한 계산 자원이 필요하다. 또 다른 하이퍼파라미터 튜닝 작업의 예는 다양한 아키텍처를 테스트하고 성능이 가장 우수한 아키텍처를 선택하여 인공 신경망 설계를 자동화하는 신경 아키텍처 검색이다. 연구원들은 간단한 신경망을 설계하는 데에도 수백 수천 개의 GPU 컴퓨팅 날이 필요하다고 보고한다.

시뮬레이션

딥 뉴럴 네트워크 모델은 일반적으로 특수 하드웨어의 발전을 활용할 수 있지만, 모든 ML 알고리즘이 그런 것은 아니다. 특히, 강화 학습 알고리즘은 수많은 시뮬레이션을 포함한다. 이들 시뮬레이션은 복잡한 논리를 포함하기 때문에 일반적으로 GPU는 렌더링에만 사용되며 일반 목적 CPU에서 실행하는 것이 가장 좋다. 이는 최근 하드웨어 가속기의 발전을 활용하지 못함을 의미한다. 예를 들어, OpenAI는 최근 블로그 게시물에서 Dota 2 아마추어를 이길 수 있는 모델을 훈련하기 위해 128,000개의 CPU 코어와 256개의 GPU만을 사용했다고 보고했다.

Dota 2는 단지 게임에 불과하지만, 이들은 Pathmind, Prowler 및 Hash.ai와 같은 스타트업이 이 분야에서 등장하면서 의사 결정 애플리케이션을 위해 시뮬레이션을 사용하는 증가를 목격하고 있다. 시뮬레이터가 점점 더 정확한 환경 모델링을 목표로 함에 따라, 그 복잡성이 증가하여 강화 학습의 계산 복잡성에 또 다른 곱셈 인자를 추가한다.

왜 AI를 위해 분산 컴퓨팅이 필요한가

빅 데이터와 AI는 빠르게 우리의 세계를 변화시키고 있다. 기술 혁명은 위험을 동반하지만, 이들은 이 혁명이 10년 전만 해도 상상할 수 없었던 방식으로 우리의 삶을 향상시킬 수 있는 엄청난 잠재력을 보고 있다. 그러나 이 약속을 실현하려면 애플리케이션 요구와 하드웨어 능력 간의 빠르게 커지는 격차가 제기하는 엄청난 도전을 극복해야 한다. 이 격차를 해소하기 위해 분산 애플리케이션이 유일한 실행 가능한 솔루션처럼 보인다. 이는 개발자가 이러한 애플리케이션을 구축할 수 있도록 새로운 소프트웨어 도구, 프레임워크 및 교육과정이 필요하다는 것을 의미하며, 이는 컴퓨팅의 새로운 시대의 시작을 알린다.

io.net에서는 Ray와 같은 혁신적인 도구와 분산 시스템을 개발하여 애플리케이션 개발자가 이 새로운 시대로 나아가도록 돕는다.

io.net을 사용해야하는 이유

io.net은 가격 경쟁력뿐 아니라 뛰어난 확장성과 신속한 배포 기능으로 서비스 제공업체로서도 두각을 나타내고 있다. 플랫폼의 견고한 인프라는 높은 성능과 안정성을 보장하며, 고급 보안 조치는 사용자 데이터를 보호한다. 사용자 친화적인 인터페이스와 강력한 커뮤니티 지원을 갖춘 io.net은 효율성과 혁신을 모두 제공하는 네트워크 솔루션을 찾는 기업에게 매력적인 선택이다.

io.net 팀의 배경

io.net은 미국 주식 시장과 암호화폐 시장을 위한 기관급 퀀트 거래 시스템을 독점적으로 개발하는 회사로 2022년에 시작되었다. 설립자이자 CEO인 아마드 샤디드는 퀀트 시스템 엔지니어로서 풍부한 경험을 바탕으로 금융 모델링과 퀀트 트레이딩 시스템을 위한 고성능 컴퓨팅 시스템의 계산 능력을 활용하기 위해 소프트웨어와 알고리즘을 개발하고 최적화하는 데 주력하고 있다.

어떤 문제를 해결하려고 하는가?

많은 머신 러닝 엔지니어들은 기존 컴퓨팅 제공업체의 한계를 직접 겸험했다. AI 애플리케이션을 위한 GPU 컴퓨팅 용량에 대한 수요는 이미 AWS나 Azure와 같은 기존 클라우드 서비스 용량의 2.5배가 넘는다. 이러한 높은 수요로 인해 이러한 클라우드 서비스에 대한 비용과 액세스 권한은 점점 더 비싸지고 있다. 커뮤니티로서 io.net은 ML 스타트업에게 활용도가 낮은 컴퓨팅 리소스에 대한 비용 효율적인 액세스를 제공함으로써 이 문제를 해결할 수 있다.

주요 이점, 기존 솔루션과 비교했을 때 차이점

기존 제공업체와 비교했을 때 io.net은 시장의 다른 어떤 옵션보다 훨씬 더 우수하고 빠르며 저렴하다. 사용자는 세계 최고의 GPU 중에서 선택할 수 있는 무한한 유연성과 호스트, 위치, GPU 유형, 보안 수준 및 기타 사양을 포함한 클러스터 유형에 대한 강력한 제어권을 갖게 된다. 기존 제공업체에서는 보통 몇 주 또는 몇 달이 걸리는 클러스터를 단 몇 초 만에 배포할 수 있다. io.net은 이러한 모든 기능을 시중의 다른 클라우드 컴퓨팅 제공업체보다 최대 90% 저렴하게 제공한다.

io.net의 기술적 장점과 이를 통해 얻을 수 있는 이점

경쟁사 대비 io.net의 주요 장점은 저렴한 가격과 접근 용이성으로 진입 장벽이 경쟁적으로 낮다. 사용자는 사용한 만큼만 비용을 지불하고 클러스터를 조기에 종료할 경우 환불도 받을 수 있다. io.net은 빠른 속도로 성장하고 있으며 대규모 ML 및 AI 애플리케이션을 위해 io.net의 컴퓨팅 리소스를 활용하는 ML 스타트업이 점점 더 많아지고 있다.

사용자가 io.net 시스템에 기여하는 방법

GPU 전력을 공급하여 io.net에 기여함으로써 '일꾼'이 될 수 있다. GPU를 네트워크에 연결하는 데 관심이 있는 사람은 누구나 io.net 웹사이트에서 단계별 가이드를 확인할 수 있다. io.network에 GPU 전력을 공급함으로써 유휴 GPU 리소스를 수익화하여 수입원으로 전환할 수 있는 기회를 얻게 된다. 복잡한 모델과 알고리즘의 개발과 운영에 꼭 필요한 컴퓨팅 성능을 제공함으로써 AI와 머신러닝 산업을 지원하게 된다. 또한 고성능 컴퓨팅에 대한 액세스를 대중화한다는 더 큰 비전에 기여하는 기술 애호가 및 전문가로 구성된 성장하는 커뮤니티의 일원이 될 수 있다.

마무리

컴퓨팅 파워는 디지털 석유와 같다. 디지털 석유의 가격은 다음링크에서 확인 가능하다.
coinmarketcap - io.net