2025.07.15 01:00

소버린 AI가 화두다.

혹자는 ‘독도는 우리땅’이라고 자신있게 말할 수 있는 모델을 개발해야 한다고까지 한다.

사실, LLM은 Learning cost가 지나치게 높고, 일반 사람들이 생각하지 못하겠지만, 꽤나 노동 집약적이다. learning cost가 높다는 것이 단순히 GPGPU가 많이 소모된다는 의미가 아니라, GIGO를 막기 위해 양질의 데이터를 양질의 방법으로, 양질의 Question-Answer 쌍으로 만드는데 많은 노동이 들어간다는 의미이다.

단순히, 양질의 데이터를 모으는 것뿐만의 문제는 아니다. generative pre-trained transformer를 가능케한 **Attention Is All You Need가** 출간된지 선보인지 8년이 지났고, 기존의 방법론을 답습할 수 있는 여러 성능 개선 방법론은 모든 언어 모델에게 적용되는 제약이 되었다.

Benchmark에서 SOTA를 이루기 위해 치열한 승부를 벌이고 있는 플레이어들은 미국의 빅테크 기업들로, 이들 빅테크 기업들은 개개인의 역량과 무한정의 GPU 자원, 그리고 이미 한참 전부터 모으고 있던 데이터 수집 결과와 노동 집약의 결과로써 만들어 낸 ‘양질의 학습 데이터’를 증강하여, 언어 모델의 성능을 올리는 싸움을 걸고 있다.

이른바 어노테이션, 정제라고 하는 작업들인데, 문제는 이러한 방법론들이 논문의 방법으로 그대로 구전되고 있지는 않다는데 있다.

다시 소버린 AI로, 국적의 개념으로 돌아와서 보면, 언어 모델, 특히 open-source model은 지속 가능성이 충분하다. 다시 말하면, 오픈 소스로 위장한 contribution이 가능한 프로젝트는 장기적으로 어떤 부분에서는 항상 승리해왔고, 오픈 소스는 항상 클로즈드 소스와의 싸움에서 불편하지만 절반의 성능은 매번 보여주곤 했다. (리눅스나 아파치 같은 전설적인 프로젝트가 아니더라도, 구글은 이런 장기적인 싸움에 항상 능했다. Android, Chrome이 그 예이다. Transformer 구조도 구글이 만들었다는 걸 감안해보면 놀랍다.)

공개하는 모델마다 항상 SOTA를 기록하는 OpenAI는 deepseek shock 이후, 본인들도 closed-source 외에 open-weight 모델을 공개하겠다고 호언했다. 그러나 아직까지도 그 ‘오픈 웨이트 모델’은 공개되지 않은 채 남아있다. 왜 이 모델을 공개하지 못하는지는 상상에 맡기겠다. 아마 본인들의 방법으로 이룩해낸 결과는 지금까지 Technical Report외에는 구전하지 않았음에도 불구하고, ‘해자(moat)’을 구성하는 데 꽤 실패했다는 것을 세상에 공개하기 싫을 것이라고 생각해본다.

왜 소버린 AI를 말하는데 open-source/weight model을 꺼냈는지 눈치가 빠른 분이라면 알 수 있다.

나는 이 소버린 AI는 실패할 수 밖에 없는 운명에 있다고 자신한다. 현재까지의 결과로만 봐도, 빈약한 open-soruce 진영의 힘은 수전천석으로, 물방울도 끊임없이 떨어지면 돌에 구멍을 뚫는다.

빈약한 closed-source model들, 특히 국가 주도의 ‘소버린 AI’는 어떻게 해도 살아남을 재간이 없다는 말이다. 3년 후, 5년 후에는 물방울이 더 이상 떨어지지 않을 것이라고 확신하기 때문이다.

그럼에도 과도기적으로 필요하다.

수많은 ‘한국형 xx’의 결과가 어땠는지를 기억해본다면, 사실 ‘소버린’ 그 자체로는 의미가 없다. 언어모델은 노동집약적이고, 사실 GPGPU Power 문제보다 많은 사람의 시간이 들어가는 과제인데, 이는 국가적인 단위에서 진행되어야 할 만큼, 미국은 너무나 큰 자본, 인력을 가지고 있다.

언어 모델을 학습시킬 수 있는 자원을 모으기 위해서는 국가 단위의 힘이 필요한 시대에 살고 있기 때문에 필요하다. 역설적이지만, 이는 충분 관계다. 언어 모델에게 국적은 필요없지만, 우리나라는 언어 모델이 필요하다.

정확히는 Trial & Error를 영리 기업의 어떤 실험실 level이 아니라, 국가 단위의 학습 구조를 가지고 itertaion을 이룩할 수 있는 구조를 만들고, 산업을 육성하기 위해 필요한 과도기로 생각하고 있다.

소버린 AI를 조용히 응원하는 한 사람으로, 오늘 글을 마쳐본다. 이 글의 생산에 AI는 사용하지 않고, 머리에 있는 것만으로 썼으므로, 세부적인 사실에서 틀릴 수 있음을 말해본다.