‘사람이 쓴 글’ : Dead Internet Theory

2024.11.13 02:00

어떤 걸 쓸까. 하다가, 사람이 쓴 글에 대해 써보고자 한다.

최근 생각을 글로 옮기는 일을 더 자주 해야겠다는 생각이 든다.

글은 생각을 정리하는 틀이라는 말에 걸맞게, 정돈되게 쓰기 어렵고 나의 생각을 온전히 전하기에 그 사람의 본연을 잘 보여주는 도구다.

그러나 최근 글을 쓰는 능력을 상실하고 있는 사람들이 어디에서든 보인다.

내가 학부를 졸업할 때만 해도 가장 비주류였던 NLP는 이제 오버그라운드로 올라왔고, 그의 산물인 이제는 듣는 것만으로도 지겨울 수 있는 Sequence-to-Sequence로 생성하는 Generative Pre-trained Transformer language Model 때문이라는 생각이 든다.

최근 석사 논문 마무리를 위해 많은 논문을 보고 있지만, 언어 모델 논문들을 살펴볼 때, 큰 흐름은 아래와 같다.

흐름만 정리했지만, 접근들의 하나하나를 살펴볼 때 겸손해지고, 겸허해진다.

이전 딥러닝 방법론을 이용하여 모델을 경량화시키거나(e.g., Knowledge distillation),
보다 고품질의 텍스트들을 모종의 방법론으로 확보하여 학습시키거나,
학습시 들어가는 Computational overhead를 줄일 수 있는 방법을 만들거나, (e.g., 일부 weight를 러닝할 수 있도록 하는 등..)
여러 병렬 처리 방법, 근사를 이용한 Quantization을 이용하여 모델 학습/추론시 메모리 한계를 극복하려고 하거나,
특정 도메인에 더 많은 컨텍스트를 주입시켜 보다 도메인에 걸맞는 답변을 하게 만들거나, (e.g, Coder)…
생각의 사슬(CoT)과 같이, 순차적으로 생각하도록 하여 절차적인 생각과 구조화하여 성능을 올리거나,
치트키라도 친 듯 끝없는 양의 GPU를 이용하여, 범용 언어 모델을 만들거나, (e.g., openAI, Anthropic …)

보다 낮은 overhead로 사람이 쓴 글을 ‘학습’하고 ‘추론’하는 방법, 양질의 글을 선택하는 방법, 전략적인 하드웨어 레벨에서 접근 불가능한 학습 능력으로 좋은 모델을 만드는 방법… 등 아무튼 다양한 레벨에서 접근되고 있지만, 고품질의 글을 스스로 창작하는 능력은 여전히 어려운 과제이다.

이 속도라면, 언어 모델은 5년 내 지금까지 쌓아온 모든 활자를 학습하게 될 것이라고 보인다.

‘모든 원자의 위치를 알면, 과거와 현재와 미래를 예측할 수 있다’ 는 ‘라플라스의 악마’의 역설이라는게 존재한다.

지금까지 인류의 ‘정돈된 틀’의 집대성인 글을 모두 학습하게 된다면, 오히려 이제 개인의 고찰이 담긴 양질의 텍스트는 귀해질 것이라고 확신한다.

일부만 알고 편중된 사람의 시각은 때때로 유용하다는 말이다. ‘덜’ 학습된 언어 모델, 혹은 tempeature가 높아 randomness가 가미된 텍스트가 창의로워 보이는 것처럼,

전문가더라도 사람들은 ‘덜’ 학습되었고, 메타인지가 ‘덜’ 되었기 때문에 본인만의 시각으로 새로운 접근을 시도한다. 혹여 말이 안되는 것처럼 보여도.