챗GPT·제미나이·클로드, 회계사·CEO 등 같은 직업 두고도 위험도 평가 엇갈려
연구진 “단일 AI 점수로 진로·전공 판단 말아야…실제 업무 변화 봐야”

500여명의 수습 회계사들이 14일 금융당국의 과도한 선발인원 확대를 비판하며 정부서울청사 앞에 집결했다. (사진=청년공인회계사회 제공) *재판매 및 DB 금지
[서울=뉴시스] 박영환 기자 = 인공지능(AI)이 어떤 일자리를 얼마나 위협할지 예측하는 지표가 AI 모델마다 엇갈린다는 연구 결과가 나왔다. 회계사처럼 같은 직업을 두고도 어떤 AI는 “위험하다”고 보고, 다른 AI는 훨씬 낮은 위험도를 매겼다.
미국 월스트리트저널(WSJ)은 10일(현지시간) 연구자들이 AI로 인한 일자리 상실 가능성을 예측할 때 활용해온 ‘노출 점수’가 생각보다 불확실할 수 있다고 보도했다.
AI가 노동시장에 미칠 영향은 최근 경제정책과 교육 분야의 핵심 쟁점으로 떠올랐다. 정부는 어떤 노동자가 AI로 대체될 위험이 큰지 파악해야 하고, 학교와 학생, 학부모는 어떤 전공과 직업이 AI 시대에도 비교적 안전한지 알고 싶어 한다.
경제학자들은 이를 가늠하기 위해 직업별 업무를 잘게 나눠 AI가 얼마나 빠르게 처리할 수 있는지 따지는 방식의 ‘노출 점수’를 만들어왔다. 제빵사가 반죽을 만들고 오븐에 넣는 업무를 하듯, 금융분석가는 기업을 평가하는 업무를 한다. AI가 대신하거나 보조할 수 있는 업무 비중이 클수록 해당 직업의 AI 노출도는 높다고 본다.
이런 점수는 연구 보고서와 컨설팅 자료, 정책 보고서 등에 널리 쓰이고 있다. 하지만 점수를 만드는 방식마다 한계가 있다. 사람이 직접 평가하면 주관이 개입될 수 있고, AI 플랫폼 이용자를 대상으로 한 설문은 전체 노동자를 대표하지 못할 수 있다. AI 모델에 직접 직업별 위험도를 평가하게 하는 방식도 최근 쓰이고 있지만, 이 역시 고유한 문제를 안고 있다.
지난달 미국 전미경제연구소(NBER) 홈페이지에 올라온 새 연구가 이 문제를 보여준다. 미셸 인 노스웨스턴대 교수와 호아 부 연구원, 클라우디아 퍼시코 아메리칸대 교수는 오픈AI의 챗GPT-5, 구글 딥마인드의 제미나이 2.5, 앤스로픽의 클로드 4.5에 어떤 직업이 AI에 가장 많이 노출돼 있는지 물었다.
답은 자주 엇갈렸다. 클로드는 회계사를 AI에 매우 취약한 직업으로 평가했지만, 제미나이는 훨씬 낮은 노출 순위를 매겼다. 광고 관리자와 최고경영자(CEO) 같은 직업도 모델별 평가가 달랐다. 챗GPT와 제미나이는 비교적 비슷한 답을 냈지만, 이 둘도 약 4분의 1가량은 서로 다른 판단을 보였다.
연구진은 이런 차이가 단순히 모델 성능 차이 때문만은 아니라고 봤다. 이미 AI를 많이 쓰는 직업군이 더 많은 데이터를 남기고, 그 데이터가 다시 AI 모델 학습에 반영되면서 해당 직업의 위험도가 높게 평가될 수 있다는 것이다. 금융분석가처럼 AI를 일찍 받아들인 직업은 AI 활용 기록과 관련 데이터가 많이 쌓이고, 그 결과 AI 모델이 해당 직업의 노출도를 더 높게 볼 가능성이 있다.
AI 모델 간 판단이 다르다는 사실 자체가 놀라운 일만은 아니다. AI 기술이 빠르게 바뀌고 있는 데다, AI가 사람의 평가나 노동자 설문보다 직업별 노출도를 더 잘 측정하는지도 아직 분명하지 않다. 연구진은 하나의 AI 모델이 내놓은 점수만 보지 말고 여러 모델의 결과를 비교하고, AI가 만든 노출 점수에는 상당한 불확실성이 있다는 점을 명확히 밝혀야 한다고 제안했다.
연구에 참여한 인 교수는 WSJ에 “직업을 바꿔야 한다거나 자녀의 전공을 바꿔야 한다는 결론을 내릴 때 하나의 지표에만 의존하지는 않을 것”이라고 말했다.
◎공감언론 뉴시스 [email protected]
미국 월스트리트저널(WSJ)은 10일(현지시간) 연구자들이 AI로 인한 일자리 상실 가능성을 예측할 때 활용해온 ‘노출 점수’가 생각보다 불확실할 수 있다고 보도했다.
AI가 노동시장에 미칠 영향은 최근 경제정책과 교육 분야의 핵심 쟁점으로 떠올랐다. 정부는 어떤 노동자가 AI로 대체될 위험이 큰지 파악해야 하고, 학교와 학생, 학부모는 어떤 전공과 직업이 AI 시대에도 비교적 안전한지 알고 싶어 한다.
경제학자들은 이를 가늠하기 위해 직업별 업무를 잘게 나눠 AI가 얼마나 빠르게 처리할 수 있는지 따지는 방식의 ‘노출 점수’를 만들어왔다. 제빵사가 반죽을 만들고 오븐에 넣는 업무를 하듯, 금융분석가는 기업을 평가하는 업무를 한다. AI가 대신하거나 보조할 수 있는 업무 비중이 클수록 해당 직업의 AI 노출도는 높다고 본다.
이런 점수는 연구 보고서와 컨설팅 자료, 정책 보고서 등에 널리 쓰이고 있다. 하지만 점수를 만드는 방식마다 한계가 있다. 사람이 직접 평가하면 주관이 개입될 수 있고, AI 플랫폼 이용자를 대상으로 한 설문은 전체 노동자를 대표하지 못할 수 있다. AI 모델에 직접 직업별 위험도를 평가하게 하는 방식도 최근 쓰이고 있지만, 이 역시 고유한 문제를 안고 있다.
지난달 미국 전미경제연구소(NBER) 홈페이지에 올라온 새 연구가 이 문제를 보여준다. 미셸 인 노스웨스턴대 교수와 호아 부 연구원, 클라우디아 퍼시코 아메리칸대 교수는 오픈AI의 챗GPT-5, 구글 딥마인드의 제미나이 2.5, 앤스로픽의 클로드 4.5에 어떤 직업이 AI에 가장 많이 노출돼 있는지 물었다.
답은 자주 엇갈렸다. 클로드는 회계사를 AI에 매우 취약한 직업으로 평가했지만, 제미나이는 훨씬 낮은 노출 순위를 매겼다. 광고 관리자와 최고경영자(CEO) 같은 직업도 모델별 평가가 달랐다. 챗GPT와 제미나이는 비교적 비슷한 답을 냈지만, 이 둘도 약 4분의 1가량은 서로 다른 판단을 보였다.
연구진은 이런 차이가 단순히 모델 성능 차이 때문만은 아니라고 봤다. 이미 AI를 많이 쓰는 직업군이 더 많은 데이터를 남기고, 그 데이터가 다시 AI 모델 학습에 반영되면서 해당 직업의 위험도가 높게 평가될 수 있다는 것이다. 금융분석가처럼 AI를 일찍 받아들인 직업은 AI 활용 기록과 관련 데이터가 많이 쌓이고, 그 결과 AI 모델이 해당 직업의 노출도를 더 높게 볼 가능성이 있다.
AI 모델 간 판단이 다르다는 사실 자체가 놀라운 일만은 아니다. AI 기술이 빠르게 바뀌고 있는 데다, AI가 사람의 평가나 노동자 설문보다 직업별 노출도를 더 잘 측정하는지도 아직 분명하지 않다. 연구진은 하나의 AI 모델이 내놓은 점수만 보지 말고 여러 모델의 결과를 비교하고, AI가 만든 노출 점수에는 상당한 불확실성이 있다는 점을 명확히 밝혀야 한다고 제안했다.
연구에 참여한 인 교수는 WSJ에 “직업을 바꿔야 한다거나 자녀의 전공을 바꿔야 한다는 결론을 내릴 때 하나의 지표에만 의존하지는 않을 것”이라고 말했다.
◎공감언론 뉴시스 [email protected]
