找回密码
 立即注册
搜索
热搜: Apple Tesla Amazon
查看: 201|回复: 0

바이두 심떨림: 10만 카드 계산력 클러스터를 대상으로 계산 플랫폼 능력 문심 대모델 하루 조정량 7억 회 초과

[复制链接]

37

主题

0

回帖

137

积分

注册会员

积分
137
发表于 2024-9-26 13:34:26 | 显示全部楼层 |阅读模式

큰 모델의 매개변수 규모가 점점 커짐에 따라 계산력에 대한 수요는 기하급수적인 증가 추세를 보이고 있다.9월 25일 열린 2024 바이두 클라우드 대회에서 바이두 그룹 집행부총재, 바이두 스마트 클라우드 사업군 총재 선떨은 대형 모델 분야의 유명한 법칙인 Scaling Law (척도 법칙) 가 여전히 지속되고 있으며, 이 법칙은 모델 성능이 매개변수, 계산력, 데이터 세트의 규모가 증가함에 따라 향상될 것이며,"곧 더 많은 10만 카드 계산력 클러스터가 나타날 것"이라고 지적했다.
심떨의 관찰에 따르면 지난 한해동안 이미 고객의 모형훈련수요가 급증하고있음을 느꼈다.그는"2024년 대형 모델의 산업 착지가 가속화되고 있다"며"현재 천범대 모델 플랫폼에서 문심대 모델의 하루 평균 호출량은 7억 회를 넘고, 누적 사용자를 도와 3만 개의 대형 모델을 정교하게 조정하고 70여만 개의 기업급 응용을 시작했다"고 소개했다."
큰 모델 훈련 수요가 증가한다는 것은 필요한 계산력 클러스터 규모가 점점 커지고 있다는 것을 의미하며, 이와 동시에 모델 추리 비용의 지속적인 하락에 대한 기대도 점점 높아지고 있다.심떨림은 다음과 같이 표시했다. 이런 것들은 모두 GPU 관리의 안정성과 유효성에 대해 더욱 높은 요구를 제기했다.9월 25일, 바이두는 AI 이기종 컴퓨팅 플랫폼 바이4.0을 업그레이드하여 10만 카드 클러스터 배치와 관리 능력을 갖추었다.
심떨은 다음과 같이 소개했다. GPU 계산력클러스터에는 세가지 특징이 있다. 즉 극치규모, 극치고밀과 극치상호련결, 만카클러스터를 건설하는데 GPU의 구매원가만 해도 수십억원에 달한다.심떨림은 다음과 같이 강조했다. 계산력자원을 구축하는것은 단순히 GPU를 사서 GPU를 련결하면 되는것이 아니라 많은 기술이 필요하다."례를 들면 GPU칩의 모델이 더욱 다양하고 관리가 더욱 복잡하다.GPU는 많은 병렬 컴퓨팅을 수행해야 합니다.데이터의 전송량이 커지고 속도에 대한 요구가 더 높아졌다"고 소개했다. 따라서 바이컴퓨팅 플랫폼은 이기종 칩, 고속 상호 연결, 고효율 스토리지를 지원해야 한다.
심떨도 10만 카드를 관리하는 클러스터는 만 카드 클러스터를 관리하는 것과도 본질이 다르다고 말했다.우선, 물리적 차원에서 10만 카드 규모의 클러스터를 배치하면 약 10만 평방미터의 공간을 차지해야 하는데, 이는 14개의 표준 축구장 면적에 해당하며, 둘째, 에너지 소모 방면에서 이 서버들은 하루에 약 300만 킬로와트시의 전력을 소모해야 하는데, 이는 베이징시 둥청시의 하루 주민 전력 사용량에 해당한다.10만 카드 클러스터의 공간과 에너지에 대한 거대한 수요는 전통적인 기계실 배치 방식이 감당할 수 있는 범주를 훨씬 능가한다. 만약 지역 간 기계실 배치를 고려한다면 또 네트워크 차원에서 큰 도전을 가져올 것이다.또한 10만 카드 클러스터의 GPU 장애가 매우 빈번할 것이며, 효과적인 훈련 시간도 새로운 도전을 맞이할 것이다.
심떨은 다음과 같이 소개했다. 이런 난제에 대해 백4.0은 이미 10만카드급의 초대규모무체증HPN고성능네트워크, 10ms급 초고정밀도네트워크감시 및 10만카드클러스터를 대상으로 하는 분급고장회복능력을 구축했다."백 4.0은 바로 10만 카드 대규모 클러스터를 배치하기 위해 설계된 것이다.오늘의 백 4.0은 이미 성숙한 10만 카드 클러스터 배치와 관리 능력을 갖추고 있다. 바로 이러한 새로운 도전을 돌파하고 전체 산업에 지속적으로 앞선 계산력 플랫폼을 제공하려는 것이다."라고 심 떨림은 말했다.
바이두뿐만 아니라 점점 더 많은 과학기술 거두들이 AI 대형 모델 수요를 정면으로 향하여 자신의 계산력 인프라 능력을 향상시키고 있다.9월 초, 머스크는 AI 스타트업 xAI가 만든 슈퍼 AI 훈련 클러스터 Colossus가 이미 정식으로 출시되어 총 10만 개의 엔비디아 H100 GPU 가속 카드를 탑재했으며, 향후 몇 달 동안 10만 개의 GPU를 두 배로 늘릴 것이라고 발표했다.9월 19일 2024년 클라우드 서대회, 알리 클라우드도 GPU 위주의 AI 계산력은 미래 컴퓨팅 패러다임의 주도가 될 것이며, 알리 클라우드는 칩, 서버, 네트워크, 스토리지에서 방열, 전력 공급, 데이터 센터 등 방면에서 미래를 향한 AI 인프라를 업그레이드하고 있다고 밝혔다.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|www.LogoMoeny.com

GMT+8, 2024-12-1 00:30 , Processed in 0.096204 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表