본문 바로가기
사회경제

인공지능 반도체의 기술 동향

by 할로파파 2024. 4. 23.

인공지능 반도체의 기술 동향
김진섭 시스템반도체 PD KEIT
김병수 센터장 KETI
박시형 선임 KETI
우승택 선임 KEIT

요약

• 인공지능 반도체는 데이터와 알고리즘을 효과적으로 처리하기 위해 설계된 특수한 
종류의 반도체로, 저전력으로 데이터를 빠르고 효율적으로 처리하는 데 초점을 맞추고 
있다. 이 반도체들은 인공지능의 학습과 추론 기능을 실현하며, 기술 발전과 더불어 
빅데이터와 AI 서비스 분야에서 더욱 중요해지고 있다. 초기에는 CPU가 사용되었고 
연산 성능 향상을 위해 GPU가 도입되었으나, 대규모 연산 처리의 필요성이 증가하면서 
AI 특화 반도체에 대한 수요가 늘고 있다.
• 인공지능 반도체는 사용 목적과 플랫폼에 따라 분류된다. 첫번째 분류는 학습용과 
추론용으로 나눌 수 있으며, 학습용은 대규모 데이터를 활용해 지식을 습득하고 추론용은 
학습된 데이터를 바탕으로 적합한 결과를 도출해낸다. 두번째 분류는 서비스 플랫폼에 
따라 데이터센터 서버용과 엣지 디바이스용으로 나눌 수 있다. 데이터센터용은 병렬연산 
처리와 전력 효율성이 중요하며, 엣지 디바이스용은 연산 속도, 낮은 전력 사용, 경량화 
및 비용 효율성이 중요하다. 인공지능 반도체들은 각각의 응용 분야 요구사항에 맞게 
설계되어 다양한 분야에서 사용된다.
• 인공지능 기술이 미래 산업의 핵심 요소로 떠오르면서 전체 반도체시장에서 차지하는 
비중이 지속적으로 증가할 것으로 예상된다. 특히 데이터센터와 엣지 디바이스에서 
기존의 CPU, GPU로 수행하던 인공지능 연산이 고성능, 저전력의 FPGA, ASIC 기반의 
인공지능 반도체로 많은 부분 대체될 것으로 보인다. 또 인공지능 모델의 학습이 
중요해짐에 따라 데이터센터와 엣지 디바이스를 위한 학습 하드웨어의 비중이 증가할 
것으로 예측된다.
• 데이터센터와 엣지 환경에서의 인공지능 연산을 위한 다양한 최적화 방법들도 제안되고 
있다. 엣지 환경에서는 구글의 Edge TPU 등과 같은 엣지 가속기와 이를 위한 메모리, 
연산을 위한 효율적인 하드웨어 구조가 제안되고 있다. 또한 엣지 장치용 경량 모델과 
경량화 기법들이 연구·개발되고 있다. 데이터센터를 위한 인공지능 반도체는 초거대 
모델의 학습과 추론 가속을 위해 데이터 병렬 하드웨어 기술과 이를 활용한 가속기 
반도체들이 개발되고 있다. 더불어 대용량의 데이터를 전송함에 따라 전송 오버헤드를 
줄이기 위한 CXL, NVLINK, HBM 등의 기술이 개발되고 있다.


1 개요

 인공지능 반도체란 인공지능 서비스를 구현하는 데 필요한 데이터와 알고리즘을 효과적으로 처리할 
수 있도록 설계된 특수한 종류의 반도체이다. 이러한 반도체는 인공지능 기술의 중요한 부분인 학습과 
추론 기술을 실현하기 위해 저전력으로 데이터를 빠르고 효율적으로 처리하는 데 초점을 둔다. 
인공지능 기술의 발전과 함께, 특히 빅데이터 분석과 인공지능 서비스 분야에서 이러한 반도체의 
필요성이 커지고 있으며, 처음에는 CPU가 사용되다가 이후에는 연산 성능 향상을 위해 GPU가 
도입되었다. 그러나 대규모·대용량 연산 처리의 필요성이 증가하면서 인공지능을 위한 특화된 
반도체에 대한 수요가 점점 늘어나고 있다.
 인공지능 반도체는 사용 목적과 사용되는 플랫폼에 따라 다양한 형태로 분류될 수 있다. 이 분류는 
인공지능 기술의 발전과 함께 더욱 중요해지고 있다. 시스템 구현 목적에 따라서는 대규모 데이터를 
활용하여 딥러닝 등 알고리즘을 통해 지식을 습득하는 학습용 인공지능 반도체와 학습된 데이터를 
바탕으로 외부 명령에 대응하거나 주어진 상황을 인식하여 적합한 결과를 도출하는 추론용 반도체로 
구분할 수 있다. 서비스 플랫폼에 따라서는 데이터센터 서버용 인공지능 반도체와 엣지 디바이스용 
인공지능 반도체로 구분할 수 있다. 데이터센터 서버용 인공지능 반도체는 병렬연산 처리 능력과 전력 
효율성이 매우 중요하며, 확장성과 유연성을 고려하여 설계되어야 한다. 자율주행 차량, 드론, IoT 
기기 등에 사용되는 엣지 디바이스용 인공지능 반도체는 연산 속도의 가속, 낮은 전력 사용, 경량화 
및 비용 효율성이 주요 경쟁력이다. 이처럼 인공지능 반도체는 다양한 분야에서 광범위한 역할을 
수행하며, 분류에 따른 각각의 반도체는 특정 응용 분야의 요구사항에 맞게 설계된다.


그림 1. 인공지능 반도체의 응용 분야
출처: “AI Chips 2023-2033”, IDTechEx Research.

2 인공지능 반도체 시장 동향

 인공지능이 미래 산업의 핵심 요소로 자리매김함에 따라 전체 반도체시장에서 인공지능 반도체의 
비중이 증가하고 있다. 2019년 글로벌 반도체시장은 4,191억 달러에서 2024년 5,728억 달러로 평균 
6.4%의 성장률이 전망된다. 인공지능 반도체는 2019년 전체 시장의 2.9%인 123억 달러에서 
2024년 전체 시장의 7.7%인 439억 달러로 성장할 것으로 예측된다.
(단위: 백만 달러)


그림 2. AI 반도체 비중
출처: 「이코노믹 리뷰」(2020.11)

 전체 인공지능 반도체 시장에서 인공지능 반도체의 구현 플랫폼별 규모를 살펴보면 CPU(Central 
Processing Unit) 기반 플랫폼은 2019년 약 30억 달러에서 2025년 약 120억 달러로 성장하며, 
GPU(Graphics Processing Unit) 기반 플랫폼은 약 60억 달러에서 약 200억 달러로 성장할 것으로 
전망된다. FPGA(Field-Programmable Gate Array) 기반 플랫폼은 2025년에 약 10억 달러로 
CPU와 GPU 기반 플랫폼 시장보다는 작은 규모를 유지하는 반면, ASIC/ASSP(ApplicationSpecific Integrated Circuit/Application Specific Standard Product) 기반 플랫폼은 2019년 약 
20억 달러에서 2025년 약 300억 달러로 크게 성장할 것으로 전망된다. 최근까지 데이터센터에서 
GPU 플랫폼 기반의 인공지능 모델 학습 및 추론이 수행되었지만, 전력과 구성 비용이 증가함에 따라 
ASIC 기반의 저전력 가속기의 적용이 증가하고 있다.


그림 3. 인공지능 반도체 구현 플랫폼별 시장 규모
출처: Semiconductor Engineering(2019.03)

 인공지능 반도체 시장은 데이터센터용 인공지능 반도체와 엣지 컴퓨팅용 인공지능 반도체로 구분할 
수 있다. 데이터센터에서 추론을 위한 반도체 시장은 2017년 약 50억 달러에서 2025년 2배 증가한 
약 100억 달러로 전망된다. 10억 달러 미만이던 학습용 반도체 역시 2025년 약 50억 달러로 성장할 
것으로 전망된다. 엣지 컴퓨팅 환경에서도 인공지능 서비스에 대한 요구사항이 증가함에 따라 추론과 
학습을 위한 반도체 시장이 증가하고 있다. 엣지 컴퓨팅용 추론 반도체는 2017년 1억 달러에서 
2025년 약 45억 달러로 성장이 예측되며, 학습용 반도체도 1억 달러에서 15억 달러로 성장할 것으로 
전망된다.
(단위: 백만 달러)


그림 4. 인공지능 하드웨어 시장의 성장 전망
출처: Expert interviews; McKinsey analysis(2018.12)

 엣지 컴퓨팅 환경은 데이터센터와 다르게 다양한 장치로 구성된다. 엣지 컴퓨팅에서도 인공지능 
서비스의 필요성과 요구가 증가함에 따라 인공지능 반도체가 탑재되고 있다. 대표적인 엣지 컴퓨팅 
환경은 스마트폰, 태블릿, 인공지능 스피커, 웨어러블 장치와 산업용 엣지 장치(enterprise edge)로 
구분할 수 있다. 이러한 엣지 컴퓨팅 환경을 위한 인공지능 반도체가 2020년에는 7억 5천 개가 
적용되었지만, 2024년에는 약 16억 개로 2배 이상 증가할 것으로 예측된다. 특히 산업용 엣지 장치를 
위한 인공지능 반도체가 5배 이상 큰 폭으로 증가할 것으로 전망된다.
(단위: 백만 달러)


그림 5. 엣지 장치별 인공지능 칩 전망(2020~2024년)
출처: Deloitte Insights(2019.12)

3 인공지능 반도체 기술 동향

 인공지능 반도체는 활용 분야에 따라 데이터센터 및 엣지 컴퓨팅 등에 적용 가능하다. 현재 대부분의 
데이터센터용 인공지능 반도체는 학습과 추론을 모두 수행하지만, 엣지 컴퓨팅을 위한 인공지능 
반도체는 추론을 주로 수행하고 있다. 
 데이터센터와 엣지 컴퓨팅 환경에서 인공지능 반도체 구성 플랫폼별 비율을 살펴보면 데이터센터에서 
추론을 위해 2017년에는 GPU가 75%, ASIC가 10%, 기타 반도체가 15%였으며, 2025년에는 
GPU가 50%로 25%p 감소하고 ASIC이 40%로 30%p 증가할 것으로 전망된다. 학습용 반도체는 
2017년 GPU가 97%를 차지했지만, 2025년에는 ASIC가 50%, GPU가 40%를 차지할 것으로 
예측된다. 이는 GPU 기반 인공지능 반도체의 발열, 전력 소모와 구축 비용을 줄이기 위해 ASIC처럼 
저전력, 고효율 반도체로 전환이 되고 있음을 알 수 있다.
 엣지 컴퓨팅 환경에서 추론을 위해 2017년에는 CPU가 60%, ASIC가 30%의 비율을 차지하였지만, 
2025년에는 CPU를 사용하지 않고 ASIC가 40%p 상승한 70%, GPU가 20% 사용될 것으로 
전망된다. 학습을 위한 하드웨어도 2017년에는 50%가 CPU 기반이었지만, 2025년에는 ASIC가 
70%, FPGA가 20%로 대체될 전망이다.


그림 6. 분야별 인공지능 하드웨어의 구성
출처: Expert interviews; McKinsey analysis(2018.12)

엣지 컴퓨팅을 위한 인공지능 반도체 기술

 엣지 컴퓨팅 환경에서는 하드웨어의 한계로 인해 주로 추론 연산만 수행하고 있다. 하지만 네트워크 
사용이 불가능한 환경이나 개인 정보 보호가 중요한 환경에서는 엣지 장치에서 추론과 더불어 학습을 
하는 온-디바이스 학습에 대한 요구가 증가하고 있다. 특히 엣지 컴퓨팅 환경은 모바일, 자동차, 항공, 
공장 등 다양한 환경에서 사용되므로 현실적으로 모든 환경에 적용할 수 있는 엣지 인공지능 반도체를 
개발하는 것에 대한 어려움이 있다. 엣지 인공지능 반도체를 개발할 때 저비용, 실시간성, 
저사양-고성능 및 메모리 효율성과 같은 요구사항 등 여러 제약사항에 대한 고려가 필요하다.

1) 템플릿 기반 마이크로아키텍처 구조

 구글의 Edge TPU는 2015년에 구글에서 개발한 데이터센터용 머신 러닝 가속기인 Tensor 
Processing Units(TPUs)를 기반으로 엣지 환경을 위해 개발한 반도체다. 2TOPS/Watt의 성능을 
가지며 Google Coral, Google Pixel 등 스마트폰에 탑재되고 있다.
 Edge TPU 가속기는 매개변수화가 가능한 마이크로아키텍처 구성요소가 포함된 템플릿 기반 설계를 
활용한다. 이처럼 매개변수화된 설계를 통해 다양한 환경을 위한 아키텍처 구성을 탐색할 수 있다.


그림 7. Edge TPU 하드웨어의 구조
출처: Google Research(2021.02)

 Edge TPU의 템플릿 가속기는 처리 요소(Processing Elements, PE)의 2D 배열로 구성되며, 각 
PE는 SIMD(Single Instruction Multi Data) 방식으로 산술 연산을 수행한다. 온-칩(On-Chip) 
컨트롤러는 오프-칩(Off-chip) 메모리와 PE에서 데이터를 전송하는 데 사용된다. 컨트롤러는 활성화 
및 매개변수를 온-칩 스테이징(Staging) 버퍼로 가져오며, PE에서 실행될 하위 수준 명령을 읽어낸다.
 각 처리 엔진의 주요 아키텍처 구성 요소는 SIMD 방식으로 작업을 수행하기 위한 여러 컴퓨팅 레인이 
있는 단일 또는 다중 코어로, 각 PE는 모든 컴퓨팅 코어에서 공유되는 메모리를 가진다.
 각 코어에는 여러 컴퓨팅 레인이 있으며, 각 레인에는 다중 MAC(Multiply-Accumulate) 장치가 
있다. 코어 메모리는 병렬 컴퓨팅 레인과 SIMD MAC 장치의 처리량을 위해 다중 뱅크로 구성된다.
 엣지 장치는 일반적으로 온-칩 메모리 크기가 작으므로 Edge TPU는 스크래치 패드의 메모리 공간을 
효율적으로 사용하기 위해 신경망의 매개변수를 캐싱해서 추론 과정에서 매개변수를 재사용하는 
방식을 통해 외부 메모리 전송을 줄여 성능과 에너지 효율을 향상시킨다.

2) 초경량 인공지능 모델 지원 반도체 구조

 기존 CNN(Convolutional Neural Network) 기반 네트워크의 많은 연산량과 메모리 사용을 줄이기 
위해 BNN(Binarized Neural Network)와 같은 네트워크가 제안되었다. BNN은 네트워크의 
가중치와 활성화 연산 등을 +1 혹은 –1로 표현해 메모리 사용을 줄이고 기존의 곱셈 연산을 XNOR 
연산 등으로 대체해 연산량을 대폭 감소시킬 수 있다. 
 이러한 BNN 모델을 효율적으로 수행하기 위해서는 이를 위한 하드웨어 구조가 필요하다. BNN 
모델은 BMAC(Binary Multiply-accumulate) 연산을 통해 이진화된 가중치 및 활성화를 
수행하는데, 대규모 병렬 방식으로 LUT 기반 로직 패브릭에서 매핑(mapping)되고 실행될 수 
있으므로 FPGA를 통한 구현이 용이하다.


그림 8. BNN 하드웨어 및 모델의 구조
출처: ACM/SIGDA International Symposium on FPGA(2021.02)

 BNN 모델을 실행하기 위해서는 값을 이진화할 수 있도록 SIGN 함수와 이를 연산하는 XNOR 연산, 
MAC을 대체하기 위한 popcount 연산 기능이 제공되어야 한다. 이러한 XNOR 및 popcount 연산은 
LUT 패브릭으로 매핑 및 병렬화를 할 수 있다.

3) 온-디바이스 학습을 위한 하드웨어 구조

 인공지능 모델을 학습하기 위해서는 순전파(Forward Propagation, FP), 역전파(Backward 
Propagation, BP), 가중치 업데이트(Weight Gradient update, WG)의 과정을 거친다. 이러한 
과정은 반복적으로 수행되며, 많은 수의 연산과 외부 메모리 접근 등의 작업을 요구한다. 
 엣지 장치에서는 한정된 배터리로 인해 적은 메모리 용량과 제한된 연산 기능만 포함하고 있어서 
인공지능 모델을 학습하는 데 많은 제약이 있다. 온-디바이스 학습을 위해 하드웨어를 최적화하는 
여러 가지 방법들이 제안되었다.
 예를 들어 인공지능 모델의 학습에서 FP, BP, WG는 서로 다른 데이터 흐름을 가지는데, 최적의 
메모리 레이아웃은 각 데이터 흐름과 하드웨어 구조에 따라 결정된다. 행렬 곱셈(MatMul) 연산은 
FP와 BP에 가중치가 적재되지만, BP에만 전치된다(transposed). 이 과정에서 데이터 흐름과 메모리 
레이아웃 간의 불일치로 중복된 메모리 액세스로 인해 낮은 속도와 에너지 효율성 저하가 발생한다. 
이러한 구조에서는 메모리 대역폭의 효과적인 사용과 PE 활용도를 향상시키기 위해 메모리 재배열을 
적용할 수 있다. 메모리 재배열은 MatMul을 시작하기 전에 가장 안쪽의 가중치 배열 차원을 행에서 
열로 미리 재배열해 가중치 행렬을 병합해 접근하는 방식이다.
 또 다른 예로 ReLU, maxpooling 과정에서는 중복된 값(0 등)을 발생시킨다. 이때 희소 압축을 통해 
텐서를 0이 아닌 벡터와 인덱스 벡터로 표현해 데이터 바이트 크기를 줄일 수 있다. 인덱스 벡터를 
표현하는 방법으로는 ZVC(Zero-value Compression), RLE(Run-length Encoding) 등이 있다. 
이러한 압축 방법을 통해 외부 메모리 접근을 줄이고 온-디바이스 학습을 가능하게 할 수 있다.

 


그림 9. 온-디바이스 학습을 위한 연산 최적화 기법
출처: IEEE OJ-SSCS(2021.10)

데이터센터를 위한 인공지능 반도체 기술

 LLM(Large Language Model)은 기존의 CNN이나 다른 구조의 모델보다 월등한 성능을 보이고 
있다. LLM은 Transformer 구조를 기반으로 데이터 세트와 파라미터 크기가 스케일 업(scale-up) 
되는 형태로, 적용 분야에 맞춘 모델을 학습하지 않고 하나의 거대 모델을 생성해 여러 태스크에 
대응할 수 있다는 장점이 있다. 따라서 많은 기업이 기존의 모델들을 대신해 LLM 기반의 서비스를 
제공하기 위해 인공지능 반도체 기술 연구를 진행하고 있다. LLM은 많은 하드웨어 자원을 필요로 
하므로 아직은 데이터센터, 클라우드에서 모델 학습과 추론이 수행되고 있다.

1) ASIC 기반 Pod-level 데이터 병렬화 기술

 Google은 초거대 모델 PaLM(Pathways Language Model)의 학습을 위해 6,144개의 TPU v4 
칩을 사용했다. 이때 2개의 Pod를 구성하기 위해 각각 3,072개의 TPU v4 칩을 두 Pod에 할당하고 
768개의 호스트에 연결해 파이프라인(pipeline) 병렬화 없이 효율적인 학습이 가능하도록 설정했다. 
각 TPU v4 Pod는 모델의 모든 매개변수를 복사해서 가지고 있으며, 각 가중치 텐서는 12-way 모델 
병렬 처리와 256-way 완전 샤딩(Sharding) 데이터 병렬화로 각 TPU에 분할되어 있다.


그림 10. TPU v4 Pods 기반 Pathways 시스템
출처: “Palm: Scaling language modeling with pathways” arXiv(2022.04)

2) 초거대 모델을 위한 인공지능 반도체

 LLM은 트랜스포머 구조를 기반으로 동작하기 때문에 많은 기업에서는 트랜스포머 구조를 최적화하기 
위한 반도체를 개발하고 있다.
 NVIDIA의 Hopper 아키텍처는 트랜스포머 모델의 훈련을 가속하도록 설계된 NVIDIA 4세대 Tensor 
Core 및 트랜스포머 엔진 기술이 적용되어 혼합 FP 8 및 FP 16 정밀도를 적용해 메모리 사용을 
줄이고 계산 처리량을 증가시켰다. 특히 트랜스포머 엔진을 사용하면 데이터 포맷의 변경 없이 추론을 
진행할 수 있으며, 이를 통해 더 빠른 추론 속도를 구현한다. 즉 기존의 A100 GPU 대비 9배 빨라진 
학습 속도와 30배 빨라진 추론 성능을 보인다.


그림 11. NVIDIA Hopper 아키텍처의 트랜스포머 엔진 동작
출처: NVIDIA DEVELOPER(2022.03)


 또한 Hopper 아키텍처는 데이터를 가져오는 부분의 효율성을 향상시키기 위해 TMA(Tensor 
Memory Accelerator)를 사용해 대규모 데이터 블록과 다차원 텐서를 전역 메모리에서 공유 
메모리로 전송할 수 있는 하드웨어를 사용했다. TMA 작업은 요소별 주소 지정 대신 텐서 차원 및 
블록 좌표를 사용해 데이터 전송을 지정하는 복사 설명자를 사용하며, 다양한 텐서 레이아웃과 다양한 
메모리 액세스 모드 등을 지원해 주소 지정 오버헤드를 줄이고 효율성을 증가시켰다. 


그림 12. NVIDIA Hopper 아키텍처의 TMA 동작 방식
출처: NVIDIA DEVELOPER(2022.03)

3) 데이터센터 인공지능 연산 가속을 위한 차세대 인터커넥트 기술

 LLM의 학습과 추론에서 많은 메모리를 사용함에 따라 더 빠른 처리를 위해서는 인공지능 반도체뿐만 
아니라 이를 연결하는 인터커넥트 기술의 중요성이 증가하고 있다. 특히 기존의 CPU 중심 컴퓨팅에서 
CPU, 메모리, 가속기(GPU/NPU) 등이 한 시스템에서 동작하는 이기종 컴퓨팅(Heterogeneous 
Computing)으로 변화함에 따라 차세대 인터커넥트 기술이 중요해지고 있다.
 CXL(Compute eXpressLink)은 Intel, AMD, ARM, HP, Google, Meta, Microsoft 등 유력 
기업들이 참여하고 있으며, PCIe PHY(물리 계층)를 기반으로 가속기, 메모리를 포함하여 이기종 
컴퓨팅 환경에서의 효과적인 자원 공유 기법을 적용한 기술이다.
 또한 공정 미세화의 한계로 반도체 Die 크기 증가가 한계에 도달함에 따라 이를 극복하기 위해 여러 
개의 작은 Chip을 연결해 하나의 칩을 구성하는 Chiplet 기술이 제안되었다. Chiplet 간 연결 기술은
현재 반도체 제조사들이 각각 자체적으로 개발한 인터페이스를 사용하고 있어서 D2D(Die-to-Die) 
연결을 위한 표준 인터커넥트 기술에 대한 요구가 높아지고 있다.
 NVIDIA는 NVIDIA GPU 클러스터를 위해 NVLink 기술로 H100 Tensor 코어 GPU 기준 최대
18개의 NVLink 연결을 지원하며, PCIe Gen5의 최대 7배 이상인 900GB/s의 총대역폭을 지원한다.
이를 통해 컴퓨팅 집약적 워크로드에 더 높은 대역폭과 지연 시간 절감을 제공한다.


그림 13. CXL 구조


그림 14. Chiplet 구조
출처: “Universal Chiplet Interconnect Express” UCIe Consortium(2022.03)


그림 15. NVLink 구조
출처: “NVIDIA DGX-1: The Fastest Deep Learning System” NVIDIA DEVELOPER(2017.04)

 최근에는 LLM과 고성능 컴퓨팅을 위해 데이터를 빠르게 전송할 수 있는 메모리 반도체인 HBM(High 
Bandwidth Memory)에 대한 연구와 개발이 활발하게 진행되고 있다. HBM은 다수의 DRAM을 
수직으로 연결한 3D 형태의 반도체로 DRAM의 낮은 대역폭과 미세공정의 물리적 한계를 극복할 수 
있는 기술이다. HBM은 높은 대역폭을 통해 최대 1024-bit의 데이터를 동시에 전송할 수 있으며, 
GDDR에 비해 1GB 기준으로 약 19배 정도 적은 면적만으로 구현이 가능하다. 데이터센터에서 
인공지능 연산에 많이 사용되는 NVIDIA A100, H100에도 HBM 메모리 반도체가 적용되고 있다.


그림 16. SK 하이닉스의 HBM 3 구조
출처: 테크인사이츠, AMD; 「서울경제」(2023.04)



인공지능 반도체 관련 기업 동향

 국내외 주요 하드웨어 기업들은 인공지능 반도체 개발을 위해 다양한 시도를 하고 있다. 해외에서는 
NVIDIA, Intel, IBM, AMD 등의 전통적인 하드웨어 기업들과 더불어 Apple, Google, Tesla, 
Amazon 등의 IT 기업들도 인공지능 반도체를 개발하고 있다. 국내에서는 삼성전자와 SK하이닉스와 
같은 대기업과 퓨리오사AI, 리벨리온, SK사피온, 딥엑스 등 스타트업에서 인공지능 반도체를 개발하고 
있다. 

표 1. 국내외 주요 기업들의 인공지능 반도체 개발 현황


 NVIDIA, Intel을 비롯한 해외 기업들은 추론과 학습 가속을 위한 인공지능 하드웨어를 개발하고 
있으며, 국내에서는 대체로 추론 가속만 제공하는 인공지능 하드웨어 기술 개발이 진행되고 있다. 특히 
Google, Amazon 등은 여러 가속기를 클러스터링하고 최적화하는 기술을 보유하고 있지만, 국내 
기업은 아직 클러스터링에 관한 기술이 미비한 상태다. NVIDIA의 경우 데이터센터를 위한 GPU 
이외에도 엣지 컴퓨팅에서의 인공지능 가속화를 위한 Jetson 시리즈와 이를 위한 소프트웨어 
패키지도 제공하고 있다. 이외에도 STMicroelectronics, Huawei 등의 마이크로컨트롤러, 모바일 
기업에서도 하드웨어에 최적화된 인공지능 반도체 기술을 개발하고 있다.

4 결론 및 시사점

 최근에는 ChatGPT, LLaMA와 같은 대규모 언어 모델(LLM)의 출현이 일상생활과 업무 환경에 
상당한 영향을 미치고 있다. 이러한 생성형 인공지능 기반의 LLM 기술은 업무 자동화 및 보조를 통해 
산업 전반에 걸쳐 생산성을 향상할 수 있는 잠재력을 지니고 있다. 예를 들어, 레스토랑에서 예약 
전화와 메시지 응대에 AI를 도입하면 생산성을 약 27%까지 향상시킬 수 있다. 더 넓은 범위에서 
볼 때 생성형 AI의 적용은 산업 전반에 걸쳐 약 35%의 생산성 향상을 가져올 수 있으며, 특히 관리, 
법률, 조사와 같은 업무에서는 최대 40%까지 생산성 향상이 기대된다.


그림 17. 생성형 AI를 통한 산업별 생산성 개선 비율
출처: National Bureau of Economic Research; Bain & Company(2023.08)

 그러나 이러한 LLM의 학습과 추론 과정은 상당한 양의 데이터와 하드웨어 자원이 필요하다. 이러한 
과정은 주로 데이터센터나 클라우드 환경에서 진행되며, NVIDIA의 GPU가 주로 활용되고 있다. 
그러나 NVIDIA GPU의 공급 불안정성과 가격 상승, 높은 전력 소모 등은 중요한 문제로 남아 있다. 
이러한 문제는 다양한 인공지능 반도체의 개발을 통해 해결될 수 있을 것으로 기대되며, 인공지능 
반도체의 개발은 AI 기술의 효율성과 접근성을 높이는 데 중요한 역할을 할 것으로 예상된다.

출처 및 참고자료

1. Yazdanbakhsh, A., Akin, B., & Seshadri, K. K. (2021). Google Research. An Evaluation of Edge TPU 
Accelerators for Convolutional Neural Networks. 
2. Zhang, Y., Pan, J., Liu, X., Chen, H., Chen, D., & Zhang, Z. (2021, February). FracBNN: Accurate and 
FPGA-Efficient Binary Neural Networks with Fractional Activations. In The 2021 ACM/SIGDA International 
Symposium on Field-Programmable Gate Arrays. pp. 171-182.
3. Lee, J., & Yoo, H. J. (2021. 10). An overview of Energy-Efficient Hardware Accelerators for On-Device 
Deep-Neural-Network Training. IEEE Open Journal of the Solid-State Circuits Society, 1, pp. 115-128.
4. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., ... & Fiedel, N. (2022). Palm: 
Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
5. "[AI Brief 스페셜] 인공지능(AI) 반도체 산업 동향", 소프트웨어정책연구소, 2023.08.
6. 2023 인공지능 반도체, 한국과학기술기획평가원, 2023.04.
7. https://www.mckinsey.com/industries/semiconductors/our-insights/artificial-intelligence-hardware-ne
w-opportunities-for-semiconductor-companies
8. https://www2.deloitte.com/us/en/insights/industry/technology/technology-media-and-telecom-predic
tions/2020/ai-chips.html
9. https://www.bain.com/insights/how-generative-ai-will-supercharge-productivity-snap-chart

 

 

 

 

산업지능화 임베디드 SW기술 동향

산업지능화 임베디드 SW기술 동향 김도현 스마트제조 PD KEIT 김윤수 선임 KEIT 요약 • 산업지능화 임베디드 SW 기술은 산업의 디지털 혁신(DX) 및 역동성 촉진·확산을 위해 센서·부품·장비에 인공

hollopapa.tistory.com

 

 

민수기술 기반한 군 유무인 복합체계 기술 발전 방향

24 한국산업기술기획평가원 KEIT Issue Review • 민수기술 기반한 군 유무인 복합체계 기술 발전 방향 25 2. 민수기술 기반한 군 유무인 복합체계 기술 발전 방향 민수기술 기반 군 유무인 복합체계의

hollopapa.tistory.com

 

댓글