언어 모델(Language)의 미래는 세계 모델(World Model)?

현재 가장 유명한 인공지능은 ‘언어 모델’(Language Model)이다. 여기서 ‘모델’이란 중핵(core) 프로그램이라고 이해하면 무난하다. 즉, ‘언어 모델’이라 함은 중핵에 ‘언어’가 있다는 의미다. 챗GPT, 클로드, 제미니, 하이퍼클로바X 등이 이에 속한다. 여기에 ‘텍스트+X’의 짝짓기 형태로 확장한 것이 ‘멀티모달’(multi-moda)이다. 모드(mode) 혹은 모달리티(modality)가 여럿이라는 뜻이다(가령 텍스트+이미지, 텍스트+소리, 텍스트+코드 등이 엮여 있다).

얀 르쿤은 ‘언어 모델’은 한계가 분명하다고 말한다. 언어는 세계의 극히 일부만 포착한다는 이유에서다. 그래서 제안하는 것이 ‘세계 모델’(World Model)이다. 하지만 ‘언어 모델’의 확장을 통해 여기에 도달할 수는 없고 그와는 완전히 다른 접근과 설계, 즉 전문 용어로 완전히 다른 아키텍처가 필요하다. 이 아키텍처를 어떻게 설계하느냐는 아직 분명치 않다. 하지만 르쿤의 기본적 통찰은 매우 철학적이다.

제3의 안으로 ‘토대 모델'(Foundation Model)이 제안되고 있기도 하다. ‘언어 모델’이 ‘언어’에 기반하고 있다는 한계를 벗어나기 위해서라는 점에서 ‘세계 모델’과 지향을 같이 하지만, ‘언어 모델’을 확장하는 방법이 통할 것이라고 전제한다는 점에서 ‘세계 모델’과 다르다. 이는 다분히 수사(rhetoric) 수준에 머문다는 생각이다.

그러면 앞으로는 어떻게 될까? 사실 새로운 아키텍처를 만든다는 건 쉬운 일이 아니다. 그나마 르쿤의 방향이 가장 바람직해 보인다(그림 참조). 르쿤은 세계 모델을 다음과 같이 정의한다.

(내용을 텍스트로 옮기면 아래와 같다)

Lots of confusion about what a world model is. Here is my definition:

Given:
– an observation x(t)
– a previous estimate of the state of the world s(t)
– an action proposal a(t)
– a latent variable proposal z(t)

A world model computes:
– representation: h(t) = Enc(x(t))
– prediction: s(t+1) = Pred( h(t), s(t), z(t), a(t) )
Where
– Enc() is an encoder (a trainable deterministic function, e.g. a neural net)
– Pred() is a hidden state predictor (also a trainable deterministic function).
– the latent variable z(t) represents the unknown information that would allow us to predict exactly what happens. It must be sampled from a distribution or or varied over a set. It parameterizes the set (or distribution) of plausible predictions.

The trick is to train the entire thing from observation triplets (x(t),a(t),x(t+1)) while preventing the Encoder from collapsing to a trivial solution on which it ignores the input.

Auto-regressive generative models (such as LLMs) are a simplified special case in which
1. the Encoder is the identity function: h(t) = x(t),
2. the state is a window of past inputs
3. there is no action variable a(t)
4. x(t) is discrete
5. the Predictor computes a distribution over outcomes for x(t+1) and uses the latent z(t) to select one value from that distribution.
The equations reduce to:
s(t) = [x(t),x(t-1),…x(t-k)]
x(t+1) = Pred( s(t), z(t), a(t) )
There is no collapse issue in that case.

그러나 ‘관찰(observation)’이라는 것이 정확히 어떤 작동을 뜻하는지는 분명치 않다. 동물에게 관찰은 지각(perception) 혹은 감각(sensation)과 같은 뜻인데, 그것은 진화 과정에서 형성되었고 분명한 목적과 관련되며, 특히 ‘뇌’로 향하고 ‘뇌’에서 나오는 감각-운동 회로(sensori-motrice scheme) ‘속’에서 이해된다(이에 대해서는 윅스퀼의 다음 도식을 참고할 수 있다). 그러나 인공적인 센서가 관찰한다는 건 관찰 종류의 수 측면에서도 빈약하고 그것이 동물의 관찰(가령 눈과 카메라)과 얼마나 같은 것인지도 의문스럽다.

야콥 폰 윅스퀼의 ‘기능 고리’

(아래는 ‘감각의 개수’ 관련한 2024년 8월 1일 포스팅)

인간의 감각은 몇 종류일까? 보통 5감을 떠올리겠으나, 실제로는 17개에 달한다. 시각, 청각, 후각, 미각, 촉각, 통증, 균형, 관절감각, 운동감각, 열, 추위, 혈압, 혈액 산소 함량, 뇌척수액의 산소도, 갈증, 굶주림, 폐의 팽창.

기계는 몇 종류의 감각(sensor)을 가질까? 그것을 인간(또는 동물)처럼 통합할 수 있을까? 통합의 정도는 어떠할까? 굳이 통합할 필요가 없는 걸까?

로봇에 센서와 모터를 달면 인간에 근접하는 정보를 수집할 수 있을까? 로봇 혹은 프로그램(AI 포함)이 감각들을 통합한다는 게 어떤 의미일까? 혹은 가능할까?

나아가 딥러닝 인공지능이 뇌를 모사했다고들 많이 말하는데, 그건 신경망의 작동 방식 중 극히 일부에 대해서만 성립할 뿐이다. 뇌는 기본적으로 ‘예촉 기계’이며, 생존과 번식이라는 기본 목적에 충실하다. 마음과 생각은 이 제약 조건 속에서 작동한다. 데이터를 학습해서 작동하는 인공지능은 과거의 패턴을 찾는 데 특화되어 있으며, 스스로 미래를 예측하는 능력이 없다. 요컨대 뇌는 미래를 항하고, 인공지능은 과거를 향한다. 뇌와 인공지능(딥러닝 기반 포함)은, 베르그손 혹은 들뢰즈의 표현을 빌리면, 본성상 다르다(diffèrent en nature).

내 생각에 ‘성공 사례’에 대한 연구가 더 이루어져야 한다. 대표적인 성공 사례는 바로 인간, 호모 사피엔스다. 공학이 나아가는 방식이 꼭 인간을 모델로 삼을 이유는 없다. 하지만 갈 길을 찾지 못할 때는 성공 사례를 더 파고드는 것이 일리가 있는 행동이다.

Comments

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.