|
11월 18일발 재중통신: 당지시간으로 일요일, The Information은 엔비디아의 신세대 Blackwell 프로세서가 고용량서버 선반에서 엄중한 과열문제가 존재한다고 보도했다.이러한 문제로 설계 조정과 프로젝트가 연기되면서 구글, 메타, 마이크로소프트 등 주요 고객들은 블랙웰 서버를 계획대로 배치할 수 있을지에 대해 우려하고 있다.
소식통에 따르면 Blackwell GPU는 AI 및 HPC(고성능 컴퓨팅)를 위해 설계되었으나 랙당 최대 120kW의 전력을 소비하는 72개의 프로세서를 장착한 서버에서 과열 문제가 발생했습니다.과열 문제로 인해 엔비디아는 GPU 성능을 제한할 뿐만 아니라 하드웨어도 손상시킬 수 있는 랙 설계를 여러 차례 수정했다.따라서 고객은 이러한 기술적 문제로 인해 데이터 센터의 프로세서 배포가 지연될 수 있다고 우려하고 있습니다.
이 신문은 이 문제를 해결하기 위해 노력해 온 엔비디아 직원들과 이 문제를 잘 아는 고객과 공급업체에 따르면 이 칩 제조업체는 과열 문제를 해결하기 위해 공급업체에 랙 설계를 바꾸라고 여러 차례 요구했지만 공급업체의 이름은 밝히지 않았다고 전했다.
"엔비디아는 선도적인 클라우드 서비스 제공업체와 협력하고 있으며, 이는 우리 엔지니어링 팀과 프로세스의 불가결한 부분이다.엔지니어링 반복은 정상적이며 예상된 것입니다."라고 이 회사 대변인은 언론에 보낸 성명에서 밝혔다.
10월 황인훈 엔비디아 CEO는 장기 파트너인 TSMC의 도움을 받아 엔비디아의 최신 블랙웰 AI 칩의 설계 결함이 복구됐다고 밝혔다.그는 당시 블랙웰 칩이 4분기에 출하될 것으로 예상했다.현재 언론에 따르면 개량된 Blackwell GPU는 이르면 내년 1월 말에야 출하될 것으로 예상된다.차세대 블랙웰 프로세서가 발열로 인해 3개월 지연될 수도 있다는 얘기다. |
|