[깊이] 누가 엔비디아를 대체할 수 있습니까?

只铃识 · 发表于 2024-2-24 10:27:34

"우리는 도산까지 영원히 30일밖에 남지 않았다."엔비디아 창업자 황인훈의 입버릇이다.
이 말은 엔비디아 사장의 입에서 꽤 이상하게 나왔다. 왜냐하면 이 회사는 게임과 인공지능 칩의 선두주자로서 이미 상대와 비교할 수 없는 많은 이윤을 가지고 있기 때문이다.그러나 한때 엔비디아는 자금이 바닥나고 파산에 직면한 적이 있었다.
2022년 말부터 시작된 AI 열풍은 우환 의식이 강한 이 회사로 하여금 많은 이익을 얻게 하여 엔비디아의 매출과 이윤이 계속 폭주하도록 추진하고 있다: 지난 재무 분기에 엔비디아의 총 매출은 221억 달러로 전년 동기 대비 265%, 전년 동기 대비 22%, 순이익은 123억 달러로 전년 동기 대비 769% 증가했다.지난 회계연도 동안 엔비디아의 매출은 609억 달러로 전년 동기 대비 126% 증가했고, 순이익은 298억 달러로 전년보다 581% 증가했다.
2월 23일, 엔비디아의 시가는 폭등하고 잠시 2조딸라를 돌파하여 세계에서 시가가 세번째로 큰 상장회사이고 가장 가치있는 칩회사로 되였으며 세계에서 가장 강한 칩회사였던 인텔도 따라잡기 어려웠다.
"거의 완벽한" 비즈니스 모델
엔비디아는 과거에 GPU (그래픽 프로세서) 를 발명하여 게임 산업의 번창한 발전을 지탱했으며, 한때 암호화폐'채굴'에서 큰 돈을 벌었다는 것을 거의 알지 못했다.
AI 열풍이 불면서 그 사업은 다시 크게 진작되었다.현재 엔비디아는 AI가 80% 이상의 점유율을 빠르게 계산하는 것을 통제하고 있으며, 자신의 우위를 유지하기 위해 넓고 깊은'해자'를 파고 있어 그 성공이 눈에 띈다.
구체적으로 게임을 위해 태어난 GPU는 이미지, 과학 컴퓨팅 등의 용도를 잘 처리하기 때문에 대량의 데이터를 동시에 처리해야 하는 AI 컴퓨팅 등의 장면에 천연적으로 적합하다.
20년 전 엔비디아는 GPU를 프로그래밍하고 미세 조정할 수 있는 기초 소프트웨어 계층인 CUDA에 투자해 GPU로 데이터를 처리하는 복잡성을 줄이고 생태계를 구축하기 시작했지만 CUDA는 엔비디아 전용일 뿐 개발자가 자유롭게 조정할 수 없다는 의미다.
인수를 통해 엔비디아는 현재 AI 모델을 훈련하는 데 필수적인 커넥티드 기술인 서버 클러스터 데이터 전송에 필요한 네트워크 연결 능력도 갖췄다.이렇게 10여 년의 발전을 거쳐 엔비디아 GPU는 이미 일종의 AI 인프라가 되었다.
또한 칩 설계 회사로서 엔비디아는 칩 제조 등 업무를 TSMC, 삼성 등 외부 칩 파운드리 공장에 아웃소싱하여 반도체 산업 분업 협력 모델을 극대화한다-가장 경쟁력 있는 칩 제조 공정을 영원히 사용한다는 것은 엔비디아가 인텔이 오랫동안 칩 제조 기술 갱신 약속을 지키기 어려운 큰 잘못을 저지르지 않을 것임을 의미한다.
결국 엔비디아는 최고의 칩, 최고의 네트워크 기술, 최고의 소프트웨어를 제공했다.황인훈은 AI 시스템에서 가장 중요한 것은 하드웨어 구성 요소의 비용이 아니라 AI 애플리케이션을 훈련하고 실행하는 비용이라고 밝힌 바 있다.이런 점에서 황인훈은 엔비디아가 성가비 면에서 적수가 없다고 보고 있다.
상업적으로 볼 때, 엔비디아의 현재 모델은 거의 흠잡을 데가 없다. GPU 업계는 이미 창업 붐에서 거대 기업의 독주로 전환된 적이 있다. 엔비디아와 AMD 두 회사만 남았다.반도체의 발전이 나날이 발전함에 따라 기술과 자본의 문턱이 부단히 상승하고있는데 비해 엔비디아는 게임화면을 그리는 기술을 AI계산으로 평행하게 이전하는데 사용될것이며 외계를 제로베이스에서 시작하여 엔비디아에 도전하려는 노력은 첩첩첩하다.
그러나 엔비디아의 AI 컴퓨팅의'독점'현상은 만족스럽지 못하다. 경쟁사들은 엔비디아의 지배적 지위를 깨기 위해 애쓰고 있다. 고객도 두 번째 AI 칩 공급원이 필요하다.엔비디아의 GPU는 많은 장점을 가지고 있지만, AI에 사용할 때 전력 소비량이 너무 높고 프로그래밍이 복잡할 수 있다.스타트업부터 다른 칩 제조업체와 거대 기술 기업에 이르기까지 엔비디아의 경쟁자가 속출하고 있다.
분발하여 추격하는 칩 거물
오래된 칩 업체인 AMD는 엔비디아와 가장 비슷한 수준의 동업자로 꼽힌다.
엔비디아의 게임 칩 장기 경쟁사인 AMD도 자체 AI 프로세서 제품을 보유하고 있으며 계산력을 갈구하는 데이터센터 사업자와 장기적인 협력 관계를 맺고 있다.
과거에 AMD는 인수합병과 부서 재편 등 차세대 AI 전략 계획을 진행해 왔지만, 생성식 AI의 등장으로 이 회사의 제품 라인업이 더욱 확충되었다. 작년 12월에 발표된 MI300 칩은 복잡한 AI 대형 모델을 대상으로 1530억 개의 트랜지스터, 192GB의 메모리, 초당 5.3TB의 메모리 대역폭을 배치했다. 각각 엔비디아 최강 AI 칩 H100의 약 2배, 2.4배, 1.6배이다.
소프트웨어에서 AMD는 자체 ROCm 소프트웨어를 오픈소스화하고 보다 편리한 마이그레이션 도구를 제공하고자 합니다.그들은 CUDA 애플리케이션을 MI300이 실행할 수 있는 코드로'번역'해 엔비디아의 고객을 끌어들이려 했다.
엔비디아에 비해 AMD는 클라우드 AI 칩 시장에서 거의'0'에서 시작했는데, 이는 AI 칩 사업의 성장률이 상당히 빠를 것이라는 것을 의미한다.대형 고객들도 AMD의 칩을 기꺼이 시도해 ChatGPT를 개발한 OpenAI는 MI300을 이용해 일부 모델 훈련을 하겠다고 밝혔다.지난 분기에 MI300은 AMD 데이터 센터 GPU의 총 매출을 4억 달러 이상으로 끌어올려 회사 역사상 가장 빠르게 수익을 올린 제품이 되었다.
AMD CEO 수즈펑은 2027년까지 AI 칩의 전 세계 매출이 4000억 달러로 지난해 약 400억 달러보다 훨씬 높을 것으로 예상하고 있다. 이는 AMD가 일부 시장에서 승리해야 한다는 것을 의미한다.어떤 애널리스트는 시간이 지남에 따라 AMD의 AI 칩 분야 시장 점유율이 20% 에 달할 수 있다고 추정했다.
인텔도 AI 칩에서 뒤지는 것을 꺼리며 재정비에 나섰다.
인텔은 지난 1년 동안 생성형 AI가 엔비디아 칩에서만 작동할 수 있다는 주장에 반격해 Gaudi 2 칩의 제3자 테스트 성과를 대대적으로 홍보하고 고객이 폐쇄된 칩 생태에서 벗어날 수 있는 새로운 선택을 했다고 공언했다.
인텔의 최첨단 양산 AI 가속칩인 가우디 2는 엔비디아의 최신 H100에 비해 성능에서 밀렸고, 각 H100의 성능은 가우디 2보다 약 3.6배 앞선 것으로 추정된다.그러나 인텔은 Gaudi 2의 비용이 더 저렴하며 가격 우위가 H100과의 성비 격차를 줄일 수 있다고 생각한다.또한 인텔은 엔비디아에 대응하는 네트워크 기술과 CUDA와 유사한 소프트웨어를 갖추고 있다.
현재 인텔은 클라우드 AI 측면에서 엔비디아를 추격하기 위해 GPU 전략을 조정하고 있다.작년에 인텔은 기존의 Habana Labs, 데이터 센터 GPU 두 부문을 통합하여 2025년에 새로운 플랫폼"Falcon Shores"를 출시하여 AI 칩 설계 능력을 한 단계 강화할 것이라고 발표했다.
AMD와 인텔은 최근 몇 년 동안 AI 제품을 강화하기 위해 인수 활동을 진행해 왔다.
2022년 AMD는 350억 달러를 들여 프로그래밍 가능한 칩 회사인 셀링스를 인수했다. 셀링스가 설계한 칩은 제조 후 다시 프로그래밍할 수 있고 AI 컴퓨팅에 사용할 수 있다.인텔은 2019년 이스라엘 AI 스타트업 하바나 랩스를 약 20억 달러에 인수했다. 현재 인텔이 설계한 AI 칩은 주로 하바나 랩스 부문에서 나온다.
다른 길을 걷는 초창기 회사
만약 완전히 상업경쟁에 따른다면 큰 파도를 겪었던 GPU는 새로운 회사가 설 곳이 없을 수도 있고, 엔비디아의 GPU보다 AI에 더 적합한 칩을 제조할 수 있는 새로운 길을 개척한 스타트업들도 있다.
이들 회사는 AISC (전용 집적회로) 아키텍처를 사용하여 클라우드 AI 컴퓨팅 시나리오에 진입하는 것을 선택했다.
ASIC의 설계 아이디어는 일부 알고리즘을 하드웨어에 고정시켜 칩의 복잡도와 개발 난이도를 낮추고 특정 작업에 대한 효율을 높이는 것이지만 범용성과 유연성은 GPU보다 못하다.AISC 아키텍처를 기반으로 한 스타트업에는 Cerebras, Groq, Graphcore가 대표적이며 중국에는 캄브리아기, 수원, 비트콘티넨탈 등이 있다.
이 칩들은 현란한 이름을 가지고 있다.최근 인기를 끌고 있는 Groq와 같이 LPU (Language Processing Unit, 언어 프로세서) 라는 칩 제품을 출시하여 대형 모델 추리에 사용하였다.Groq가 제공하는 테스트 표현과 홍보에 따르면 Groq LPU에 의해 구동되는 AI Q&A 로봇은 ChatGPT (GPU에 의해 구동) 보다 훨씬 빠른 응답 속도를 제공합니다.
그러나 Groq LPU의 현재 구성으로 인한 장점은 뚜렷하지 않다는 것을 외부에서 발견했다.우선 LPU는 현재 추리용으로만 사용할 수 있으며 대형 모델 훈련은 지원되지 않는다.AI 회사가 대형 모델을 훈련해야 한다면 여전히 엔비디아 GPU를 구매해야 한다.또한 LPU는 비싸고 저용량의 특수 메모리 칩을 사용하여 비용에 우위를 점하지 못합니다.
알리바바의 전 수석 AI 과학자 자양칭은 Llama-2 70b 모델을 실행할 때 메모리 칩 용량의 제한으로 인해 H100보다 훨씬 많은 Groq LPU를 사용해야 하는데, 이는 동등한 데이터 처리량에서 Groq의 하드웨어 비용이 H100의 40배, 에너지 비용이 10배에 달한다는 것을 의미한다고 주장했다.
그러나 신생 칩 회사가 엔비디아를 상대로 시작한 경쟁은 결코 순탄치 않았다.엔비디아의 강력한 시장 지배력 하에서 높은 운영 비용과 알 수 없는 비즈니스 전망이 압박하면 그들은 매우 큰 곤경에 빠질 수 있다.
'영국의 엔비디아'로 불리는 스타트업 그래프코어가 그렇다.
그래프코어는 IPU(Intelligence Process Unit·스마트 프로세서)라는 AI 칩을 내세워 엔비디아를 경쟁사로 겨냥했다.앞서 그래프코어는 외부에 제공한 시연에서 그래프코어 IPU로 구동되는 일부 인공지능 모델에서 AI 질의응답 로봇의 답변이'도배'와 비슷한 속도 효과를 제공해 어느 정도 경쟁력을 갖췄다고 밝혔다.
그럼에도 불구하고 고객들은 그래프코어 IPU를 구매하기 어려운 엔비디아 GPU를 구매하는 경향이 있다.
이로 인해 이 회사는 작년의 인공지능 물결에도 더 큰 시장을 열고 수익을 내기 어려웠다.그래프코어가 지난해 10월 발표한 2022년 재무보고서에 따르면 세전 손실은 전년 동기 대비 11% 증가한 1억6100만 파운드에 달했다.매체에 따르면 그래프코어는 대형 기술 회사들과 협상을 벌여 매각을 모색하고 있다.
장기적으로 볼 때 초창기 칩기업의 가장 큰 도전은 역시 엔비디아에 필적할수 있는 소프트웨어생태를 구축해야 한다.그런 면에서 엔비디아 규제에서 벗어나려는 거대 기술 기업들이 더 기회가 있을 수 있다.
초기 AI 열풍이 점차 사라지고 거대 회사들이 경쟁에 뛰어들면서 벤처 투자가 초창기 AI 칩 회사로 몰리던 열정이 사라지고 있고, 초창기가 AI 칩에 있을 기회도 점차 막막해지고 있다.
더 큰 위협
사실, 엔비디아에게 더 큰 위협은 아마도 자신의 가장 큰 고객들로부터 올 것이다.
아마존, 구글, 마이크로소프트, 메타의 데이터센터는 모두 엔비디아의 제품을 사용하고 있으며 구매량이 엄청나다.이들 회사의 임원들은 모두 최근 재무제보 콘퍼런스콜에서 투자자들에게 올해 자본지출을 늘려 엔비디아의 AI 칩 구매에 직접 사용할 계획이라고 말했다.
글로벌 클라우드 시장에서는 아마존 AWS, 마이크로소프트 애저, 구글 클라우드가 대부분의 시장을 차지하고 있다.시장 조사 기관인 Synergy Research Group에 따르면 2023년 4분기에 전 세계 기업들이 클라우드에 쓴 비용은 전년 동기 대비 20% 가까이 증가한 740억 달러이며, 이 중 AWS, Azure, 구글 클라우드 등 3개 업체의 시장 점유율은 각각 31%, 24%, 11% 이다.
이런 재력이 많은 과학기술회사들은 그들의 데이터센터를 위해 자신의 AI칩을 설계할수 있는 능력이 있는데 사실상 그들도 이렇게 했다.
예를 들어 구글은 2016년 가장 먼저 TPU (Tensor Processing Unit, 장량 프로세서) 를 출시해 AI 컴퓨팅에 최적화했으며 현재 5세대까지 출시됐다.현재 구글은 자사의 최첨단 AI 모델인 Gemini와 개방형 AI 모델인 Gemma의 TPU 최적화에 힘입어 TPU를 외부로 보급하려 하고 있다.
세계 시장 점유율 1위인 클라우드 컴퓨팅 업체 아마존 AWS도 2018년부터 AI 훈련과 추리를 위한 트레니움과 인페르엔티아 두 계열의 AI 칩을 잇달아 출시하고 패키지 소프트웨어 도구인 뉴런을 선보였다.동시에 AWS는 클라우드에 엔비디아의 AI 시스템을 일부 대체하는 자체 개발 네트워크, 스토리지 및 컴퓨팅 시스템을 구축했다.
마이크로소프트도 여기에 가입했다.작년 11월, 마이크로소프트는 자체 기술 대회 기간에 자체 개발한 클라우드 AI 훈련과 추리 칩 Maia 100을 발표했는데, Maia 100은 5나노 공정을 채택하고 1050억 개의 트랜지스터를 보유하고 있다. 마이크로소프트는 이 칩을 마이크로소프트 클라우드를 위한 맞춤형 설계로 마이크로소프트 클라우드의 하드웨어 효율을 극대화하고 GPT 등 대형 모델 AI 컴퓨팅 수요를 만족시킨다고 밝혔다.
이들 대형 과학기술회사가 내놓은 새로운 칩은 반도체 하드웨어에서 엔비디아와 겨루고 심지어 자신의 상황에 맞춰 가장 적합한 AI 칩을 설계할 능력이 있다는 것을 보여준다.
그러나 현재 과학기술회사의 생성식 AI 군비경쟁하에서 자기집 칩이 완벽하지 못한 생태와 비교적 적은 생산량은 엔비디아칩을 대규모로 대체하기 어려우며 심지어 충분한 GPU가 결핍한것도 치명적이다.그러므로 비록 과학기술거두들이 모두 큰 힘을 들여 자신의 하드웨어를 설계하고있지만 한동안 그들은 여전히 엔비디아에 의존하게 된다.

		自动登录	找回密码
密码			立即注册

[깊이] 누가 엔비디아를 대체할 수 있습니까?

相关帖子