사용인구 많은 언어 자료 학습하는 인공지능
다시 그 언어로 된 자료를 대량 생산하면서
소수어 빠르게 소멸…사고방식도 위축시켜
[서울=뉴시스] 강영진 기자 = 전 세계에서 사용되는 7000여 종의 언어 대부분이 챗GPT4와 같은 인공지능 때문에 빠르게 소멸될 것이라고 미 노스웨스턴대 이중언어및언어심리학연구소장이 19일(현지 시간) 강조했다. 이에 따라 인간의 사고 방식의 다양성도 크게 위축될 것이라는 진단이다. 다음은 비오리카 마리안 소장이 미 워싱턴포스트(WP)에 기고한 글 요약.
살아남을 언어들이 많지 않을 것이며 이에 따라 인간 사고의 다양성과 창의성도 위축될 것이다. 그 이유와 대책을 살펴보자.
우선 대언어모델은 글이나 대화를 생성하는 과정에서 확률에 의존한다. “베이컨”이라는 단어 뒤에 나올 수 있는 단어로 “달걀”을 추정하고 이보다 앞에 “아침 식사”나 “커피”라는 단어가 있다면 확률이 커진다는 식이다.
아침식사로 미슐랭 식당을 섭렵하는 경우가 아니라면 대언어 모델의 추측이 맞을 확률이 매우 크다. 인공지능 대언어 모델은 엄청나게 많은 자료로 학습한다. 책, 잡지, 신문, 온라인 컨텐트 등이 모두 대상이다. 자료가 많을수록 결과도 좋다. 그러나 수천 개에 달하는 언어 중 어떤 언어로 된 자료로 학습하느냐에 따라 결과가 달라진다.
영어, 만다린어, 러시아어, 독일어, 일본어 등 사용 인구가 많은 20개 언어로 된 자료가 주 학습 대상이다. 인공지능 자체가 이들 언어로 된 자료를 엄청나게 생성하기도 한다. 침입종 생물처럼 주도적 언어가 그렇지 못한 언어들을 축출하는 결과로 이어질 수 있는 것이다.
세계화, 이민, 문화 동질화 현상으로 인해 하와이어, 케추아어(잉카어), 포타와토미어(미 인디언 원주민어) 등이 이미 거의 소멸 직전이다. 매년 9개 언어가 사라진다. 대언어 모델이 소멸을 가속화한다.
문제는 언어가 사라지는데 그치지 않는다는 점이다. 새 세대가 사용하는 언어가 크게 축소되면 사고와 존재의 다양성이 무너진다.
언어는 인간의 사고를 규정한다. 언어는 정보를 인식, 처리, 구조화하는 강력한 방식이다. 우리는 언어를 통해 세상을 인식하고 기억하며 결정을 내리고 감정을 느끼며 미래를 직관한다.
사용하는 언어가 다른 사람들은 눈동자의 변화도 뇌의 활동도 다르다. 환경에서 주목하는 대상도 다르고 세상에 대한 기억과 해석도 다르다. 여러 언어를 사용하는 사람들은 각 언어 별로 활성화하는 별도의 신경망을 가지고 있다.
우리가 인식하는 현실은 경험의 산물이다. 감각 기관을 통해 투입된 것을 경험과 지식과 결합해 인식하는 것이다. 언어는 우리가 우주를 보는 프리즘이다.
우리의 현실이 수학, 논리학, 인공어 등의 상징 체계에 한정된다면 우리의 사고방식도 축소된다.
이를 막으려면 최소한 AI를 공공의 이익에 맞도록 개발하고 이용하도록 해야 한다. 또 AI 확산이 인간 사고에 미치는 영향을 평가할 충분한 시간을 갖기 위해 가능한 최대한 다양한 언어가 사용되도록 노력해야 한다.
언어의 다양성은 사고의 다양성을 뒷받침하는 강력한 기반이다.
◎공감언론 뉴시스 yjkang1@newsis.com