Groq"가장 빠른"AI 추리칩은 엔비디아 GPU보다 10배 빠르다고 한다

엔비디아가 지배하는 AI 칩 시장에서 오랫동안 뉴스가 없었지만, 용년 춘절이 막 지나자 Groq라는 스타트업이 전자로부터'가장 빠른'AI 추리 칩이라는 칭호를 받았다.
Groq는 LPU (언어 처리 장치) 의 추론 성능이 엔비디아 GPU (그래픽 프로세서) 의 10배이며 비용은 10분의 1에 불과하다고 주장한다.또한 Groq는 자체 개발한 추리 칩 LPU로 대형 모델의 생성 속도를 초당 500 token (텍스트의 최소 단위) 에 가깝게 하고 GPT-3.5의 초당 40 token을 깔아뭉갰다.
이는 소셜미디어에서 광범위한 토론을 불러일으켰다.2월 19일, Groq는 사용자에게 제품 체험 입구를 개방했다."빠름"은 Groq의 가속 추리를 거친 오픈 소스 대형 모델이 주는 가장 직관적인 느낌이다.어떤 사용자가 이 회사의 사이트에 접속하여 한 문제를 두드렸는데 번개같은 속도로 답안을 제시했는데 초당 278개의 token!이에 대해 일각에서는'내가 눈을 깜빡이는 것보다 더 빠르게 답장하고 있다'는 평가가 나온다.
그러나 Groq의 LPU는 추리 속도가 빠르지만 이런 빠르기도 돈이 많이 들어 일반 GPU보다 비용이 많이 든다.또한 LPU는 다소 전문적이어서 현재 Mixtral 8 × 7B-32K, Llama 2-70B-4K 오픈 소스 모델 두 개만 달릴 수 있다.Groq의 LPU가 앞으로 어떤 모델을 더 달릴 수 있을지에 대해 중국경영보 기자는 이 회사 측에 연락해 취재했지만 원고를 발송할 때까지 답변을 받지 못했다.
장궈빈 전자혁신망 CEO는 기자에게"인공지능 알고리즘은 어느 하나라도 엔비디아의 H100을 사용할 수 있지만 믹스트랄과 엘라마 2만이 그로크의 LPU를 사용할 수 있다.LPU는 ASIC(전용 칩)로서 특정 모델만 적용할 수 있어 범용성이 떨어지고 성비가 높지 않아 인공지능 분야 칩 회사의 개발 방향을 오도하지 않도록 과대 광고할 가치가 없다"고 말했다.
"빠름" 으로 전 세계를 뒤흔들다
"역사상 가장 빠른 대형 모델"이라는 견해가 있지만, Groq는"우리는 대형 언어 모델이 아니다.우리의 LPU 추리 엔진은 인공지능 언어 응용과 같은 시퀀스 구성 요소를 갖춘 새로운 종단간 처리 단위 시스템입니다."
Groq는 구글의 1세대 장량처리장치(TPU) 창조자 중 한 명인 조나단 로스 (Jonathan Ross) 가 2016년 설립한 것으로 알려졌다.그는 칩 설계가 소프트웨어 정의 네트워크 (SDN) 에서 영감을 얻어야 한다고 생각한다.
로스는 Groq의 존재는"빈부 격차"를 해소하고 AI 커뮤니티의 모든 사람들이 번창할 수 있도록 돕기 위한 것이라고 밝혔다.그는 또한 속도가 개발자의 아이디어를 비즈니스 솔루션으로 전환하고 삶을 변화시키는 응용 프로그램으로 전환하는 열쇠이기 때문에 이러한 목표를 달성하는 데 추리가 중요하다고 말했다.
2021년에 Groq는 유명 투자기관인 타이거 유니버설 매니지먼트 펀드, D1 캐피털이 투자한 3억 달러를 획득했으며, 총 융자액은 3억 6700만 달러에 달한다.
2023 년 고성능 컴퓨팅 회의 SC23에서 Groq는 초당 280 개 이상의 Token으로 응답을 생성하여 Llama-2 70B 추론의 성능 기록을 경신했습니다.2024년 1월, Groq는 처음으로 공개 벤치마킹에 참여하여 Anyscale의 LLMPerf 차트에서 다른 GPU 기반 클라우드 서비스 제공업체보다 훨씬 뛰어난 성적을 거두었다.
2월 13일, Groq는 ArtificialAnalysis.ai의 최신 LLM 벤치마크 테스트에서 다시 승리하여 지연과 처리량 등 핵심 성능 지표에서 8명의 참가자를 격파했다. 그 처리 처리량은 다른 추리 서비스의 4배에 달했고 비용은 Mistral 자신의 1/3에도 미치지 못했다.
Groq 혁신의 핵심은 LPU에 있으며, ChatGPT와 같은 언어 모델을 포함하여 전례없는 속도로 AI 모델을 가속화하기 위한 것입니다.LPU는 언어 처리 단위를 나타내며, 순차적 구성 요소를 갖춘 연산 집약적 응용 프로그램 (예: 큰 언어 모델 LLM) 에 가장 빠른 추론 서비스를 제공하는 새로운 종단간 처리 단위 시스템이라고 Groq 홈페이지는 설명했다.
LPU가 LLM 및 빌드 AI에서 GPU보다 훨씬 빠른 이유는 무엇입니까?LPU는 LLM의 밀도와 메모리 대역폭을 계산하는 두 가지 병목 현상을 극복하기 위한 것이라고 Groq 홈페이지는 설명했다.LLM의 경우 LPU의 컴퓨팅 능력이 GPU와 CPU보다 커서 각 단어를 계산하는 데 걸리는 시간을 줄인 후 텍스트 시퀀스를 더 빨리 생성할 수 있습니다.또한 외부 메모리 병목 현상을 제거함으로써 LPU 추리 엔진은 LLM에서 GPU보다 몇 단계 높은 수준의 성능을 제공할 수 있다.
빠른 대가는 좀 높죠
특히 Groq의 LPU는 고대역폭 메모리(HBM)를 활용하는 GPU와 달리 SRAM으로 데이터를 저장한다.그러나 이 디자인은 혁신적인 돌파구가 아니다. 바이두 쿤룬심과 영국의 그래프코어도 비슷한 내부 저장 방식을 사용한다고 한다.
또한 Groq LPU는 새로운 장량 흐름 프로세서 아키텍처를 기반으로 메모리 유닛과 벡터 및 매트릭스 딥 러닝 기능 유닛이 교차하여 기계 학습 워크로드 고유의 병렬성을 이용하여 추리를 가속화합니다.
연산 처리와 동시에 각 TSP는 네트워크를 통해 다른 TSP와 직접 정보를 교환할 수 있는 네트워크 교환 기능을 갖추고 있으며, 시스템의 병렬 처리 능력과 효율을 향상시키는 외부 네트워크 장치에 의존할 필요가 없다.
Groq는 PyTorch, TensorFlow 및 ONNX를 포함하여 모델 추론에 사용되는 다양한 기계 학습 개발 프레임워크를 지원할 수 있지만 LPU 추론 엔진을 사용한 ML 훈련은 지원하지 않습니다.
Groq 칩의 독특한 점에 대해 Groq와 가까운 투자자 k _ zeroS는 X 플랫폼 계정에 글을 올려 LPU는 GPU와 달리 시계열 명령어 세트 컴퓨터 (Temporal Instruction Set Computer) 아키텍처를 사용하며 GPU가 사용하는 SIMD (단일 명령어, 다중 데이터) 와는 다르다고 밝혔다.이 설계는 칩이 GPU처럼 HBM 메모리에서 데이터를 자주 재로드할 필요가 없도록 합니다.
Groq 칩은 GPU에 사용되는 메모리보다 약 20배 빠른 SRAM을 사용합니다.이는 HB 부족 문제를 피하고 비용을 절감하는 데도 도움이 된다. 현재 HBM의 공급은 삼성과 하이닉스뿐 아니라 패키지에서도 TSMC의 CoWoS 기술에 의존하고 있다.
더 많은 정보에 따르면 Groq의 칩은 14nm 공정으로 230MB SRAM을 탑재하여 메모리 대역폭을 보장하며 슬라이스의 메모리 대역폭은 80TB/s에 달한다.계산력 면에서 이 칩의 정형(8비트) 연산 속도는 750TOPs, 부동점(16비트) 연산 속도는 188TFLOPs이다.
충격을 받은 후, 많은 업계 거물들이 Groq가 빠른 대가가 좀 높다는 것을 발견했다.
원 페이스북 AI 과학자이자 알리 원 기술 부사장인 자양칭은 Groq LPU의 메모리 용량이 매우 작다 (230MB).간단히 계산하면 700억 매개변수 모델을 실행할 때 Groq 카드 305장이 필요한데, 이는 8장영위가 H100에 달하는 것을 사용하는 것과 같다.현재 가격으로 볼 때, 이는 동등한 처리량에서 Groq LPU의 하드웨어 비용이 H100의 약 40배, 에너지 비용이 약 10배라는 것을 의미한다.
칩전문가 요금흠 (J숙) 은 기자와의 인터뷰에서 동등한 계산력으로 볼 때 모두 INT8로 추리한다면 Groq를 채용하는 방안은 72개가 포함된 9대의 서버클러스터가 필요하고 H100이라면 동등한 계산력에 도달하려면 약 2대의 8카드서버가 수요되는데 이때의 INT8계산력은 이미 64P에 이르렀고 동시에 배치할수 있는 7B대모형의 수량은 80여개에 달한다고 표시했다.비용의 관점에서 볼 때, 9 대의 Groq 서버의 비용도 2 대의 H100보다 훨씬 높은 서버입니다.
제3자 웹사이트에서 Groq 칩을 탑재한 가속카드의 판매가격은 2만여 달러로 15만 위안 미만으로 H100의 2만5000~3만 달러보다 낮다.요약하자면, Groq의 아키텍처는 작은 메모리, 큰 계산력에 구축되어 있기 때문에 제한된 처리된 내용은 매우 높은 계산력에 대응하여 그 속도가 매우 빠르다.그러나 반대로 Groq의 매우 높은 속도는 매우 제한된 단일 카드 처리 능력에 기초하여 H100과 같은 처리량을 보장하려면 더 많은 카드가 필요합니다.
LPU가 좀 특별해요.
현재 Groq는 Mixtral 8 × 7B-32K, Llama 2-70B-4K, Mistral 7B-8K 등 세 개의 오픈 소스 모델만 지원하며, 처음 두 개는 컴파일러에서 실행할 수 있도록 개방되어 있다는 점을 지적해야 한다.
이에 대해 장궈빈은 "인공지능 알고리즘 하나라도 엔비디아의 H100을 사용할 수 있지만 믹스트랄과 엘라마 2만 그로크의 LPU를 사용할 수 있다"며 "큰 모델 회사가 그로크의 제품을 사용하려면 수요와 지정 규격을 먼저 정하고 기능 검증을 거쳐 마지막으로 생산된 제품만 사용할 수 있다"고 말했다.
장국빈은 다음과 같이 지적했다. Groq의 LPU는 전문적으로 큰 모형을 위해 만든 전용칩이기에 속도가 빠르고 정상에 속한다."속도가 빨라지고 효율이 높아졌으며 전기료도 절약되여 아주 수지가 맞는다.앞으로 시장 전망은 큰 모델을 지원하는 지능체, 휴대용 단말기와 같은 것이 있어야 한다"고 그는 말했다.
그러나 장국빈은 LPU라는 물건을 잘 보지 못한다며 한계가 너무 커 특정 모델만 사용할 수 있다고 말했다."앞으로 더 많은 큰 모델을 지원할 수도 있지만 범용성이 좋지 않다.현재 나는 일부 테스트를 보면 그것의 정밀도도 부족하다고 한다."장국빈은 하나의 비유로 정밀도가 부족하다고 해석했다. 교통이 복잡한 도시에서 LPU는 모든 사람들이 아침에 출근하는 방향을 수집한 다음 소프트웨어로 신호등을 결정하고 한 길의 모든 교통등을 끄고 모든 같은 방향의 차를 이 길에서 앞으로 몰게 했다.
"이것은 ASIC 칩이다. 특정 모델에만 적용될 수 있다. 통용성이 떨어지고 성가비가 높지 않다. 인공지능 분야 칩 회사의 개발 방향을 오도하지 않도록 과대 광고할 가치가 없다."장국빈은 또 인공지능이 천행백업에 깊이 들어가려면 장면마다 ASIC를 할 수 없고 통용 GPU가 좋다. 사실 여러 장면에서 사용할 수 있는 인공지능 프로세서가 필요하다고 말했다.
Groq의 비즈니스 모델은 대규모 시스템을 대상으로 하고 기업을 위해 배치되며 단일 카드/칩을 판매하지 않습니다.칩을 시스템에 대한 전체 기술 창고를 가지고 있고 중간 업체가 없기 때문에 단위 Token의 가격 우위를 형성할 수 있다.2023년 말 인터뷰에서 로즈는 GPU의 부족과 높은 비용을 고려할 때 Groq의 미래 발전 잠재력을 믿는다고 말했다."12개월 안에 10만 개의 LPU를 배치할 수 있고, 24개월 안에 100만 개의 LPU를 배치할 수 있다."
범용 VS 전용, 누가 더 좋아요?총알을 좀 더 날려야겠지.그러나 미국 현지시간으로 2월 22일 마감, 최신 재보가 예상을 초월한 자극으로 엔비디아의 주가는 785.38딸라로 16.4% 폭등했으며 시가는 하루 2733억딸라 (약 인민페 2조원) 폭등하여 미국주식사상 가장 큰 하루 시가증가폭기록을 세웠다.
엔비디아가 하룻밤 사이에 성장한 시가총액은 넷플릭스나 어도비의 시가총액 전체를 늘리거나 모건체이스나 골드만삭스의 시가총액 절반에 육박하는 셈이다.엔비디아의 시가총액은 다시 사상 최고치를 기록하여 2조 달러에 육박하여 마이크로소프트, 애플에 이어 세계에서 세 번째로 높은 시가총액이 되었다.

上がる！上がる！上がる！上がる！原油価格は高騰し続けるのか。最新の解析

わずか2日！金利低下50ベーシスポイント破たん予想10年債利回り4%上方に戻る

世界市場：米株3大指数が集団安、ナノ指数は1%超下落大手科学技術株が多数下落

機構：iPhone 16 Proモデルは第3週も引き続き強い需要を維持