PaperReview

Generative AI at Work

Black940514 2026. 5. 12. 23:46

Generative AI at Work - 세미나 자료

저자: Erik Brynjolfsson, Danielle Li, Lindsey Raymond
발행년도: 2023년
인용수: None회
논문 링크: http://arxiv.org/abs/2304.11771v2
arXiv ID: 2304.11771


Problem & Motivation

생성형 AI(Generative AI)와 대형언어모델(LLM)이 실제 일터에서 사람의 생산성을 얼마나 바꾸는가는 2023년 시점까지 거의 답이 없던 질문이었다. ChatGPT, Copilot 같은 도구가 실험실 환경에서 놀라운 성능을 보였지만, 실제 기업 현장에서 비정형 업무를 처리하는 노동자에게 어떤 효과를 내는지는 미지수로 남아 있었다.

저자들은 이 공백을 메우기 위해 대규모 실제 기업 데이터에서 LLM 기반 대화형 어시스턴트의 도입 효과를 인과적으로 추정하는 첫 연구를 시도했다. 단순 실험실 평가가 아니라 5,172명의 고객지원 에이전트가 실제로 도구를 사용한 결과를 추적했다는 점이 핵심 기여였다.

기존 컴퓨터화(computerization) 연구는 routine task 자동화에 초점을 두고, 정형화된 규칙을 코드로 명시할 수 있는 일이 사라지는 동안 고숙련 보완(skill-biased technical change)이 임금 불평등을 키운다는 서사를 가지고 있었다. Autor, Acemoglu, Bresnahan 등이 정립한 이 패러다임에서는 IT가 도입될수록 고학력·고숙련 노동자의 가치가 올라가는 것이 자연스러웠다.

그러나 생성형 AI는 다르다. 사람이 명시적으로 룰을 적지 않아도 암묵지(tacit knowledge)를 데이터로부터 학습해 출력으로 재현한다. Polanyi's Paradox — "우리는 말로 설명할 수 있는 것보다 더 많이 안다" — 가 처음으로 기계 쪽으로 무너지는 사건이라 할 수 있다. 그래서 기존 기술 도입과 다른 분배 효과가 나타날 수 있다.

연구 대상으로 고객지원(customer support) 직군을 택한 이유도 명확했다. McKinsey 조사 기준 AI 도입률이 가장 높은 산업 중 하나이며, 에이전트 간 생산성 분산이 크고, 연 이직률이 60%에 달해 신규 교육 비용이 막대하다. AI가 작동할지 안 할지 가장 잘 드러나는 환경인 셈이었다.

논문의 한 줄 주장은 다음과 같이 요약되었다. LLM 기반 어시스턴트는 평균적으로 시간당 해결 건수(RPH)를 약 14% 올렸지만, 그 이득은 거의 전적으로 저숙련·신입 에이전트에게 집중되었다. 평균을 올리는 것이 아니라 분포를 압축한 것이다.


Background: LLM과 노동경제학의 교차점

논문은 1.1절에서 LLM의 기술적 기초를 경제학자 독자를 위해 간략히 소개했다. LLM은 시퀀스 데이터를 다루는 신경망으로, 거대한 텍스트 코퍼스로 다음 단어를 예측하도록 학습된다. 이를 통해 문법적으로 옳고 의미가 통하는 새 문장을 만들 수 있게 되었다.

핵심 기술 요소로는 pre-training, self-attention, positional encoding, 그리고 RLHF 스타일 fine-tuning이 거론되었다. 위치 인코딩으로 단어 순서를 보존하고, self-attention으로 멀리 떨어진 단어 간의 의미 관계를 잡아내며, 사전학습으로 비라벨 데이터를 활용하고, 강화학습 기반 후처리로 모델을 특정 응용에 맞춰 길들이는 구조였다.

전통적 컴퓨터화의 영향은 잘 알려진 대로였다. 기계는 routine task(데이터 입력, 부기, 조립)를 잘 했고, 그 결과 해당 일자리 임금이 떨어졌다. 동시에 프로그래밍·분석 같은 보완 스킬을 가진 노동자의 가치는 올라가 임금 불평등이 확대되는 skill-biased 패턴이 자리잡았다.

생성형 AI는 이 그림과 결정적으로 다르다. 명시적 룰 없이도 "전문적이고 친화적인 톤"으로 답장을 쓸 수 있다는 점이 Polanyi's Paradox를 무너뜨리는 신호였다. 코드로 적을 수 없는 암묵지를 LLM이 학습 예제로부터 흡수해 재현하는 능력은, 비정형 업무 영역으로 자동화 가능성이 확장된다는 뜻이었다.

여기에 더해 ML 모델은 사람이 만든 데이터로 훈련된다. 같은 일을 잘하는 사람과 못하는 사람의 예시를 함께 보면서, 모델은 자연스럽게 고성과자의 미세한 행동 패턴을 학습하게 된다. 그 결과 모델 출력을 따라 하기만 해도 저성과자에게는 "베스트 프랙티스 노출" 효과가 발생할 수 있다는 가설이 도출되었다.


연구 셋팅: AI Firm × Data Firm

연구 대상은 두 회사로 구성되었다. Data firm은 미국 SMB(중소기업)용 SaaS를 제공하는 Fortune 500 소프트웨어 기업이고, AI firm은 GPT 기반 챗 어시스턴트를 만들어 data firm에 납품한 별도 벤더였다.

Data firm의 에이전트는 약 5,172명이며, 그중 약 89%가 필리핀에 거주하면서 미국 SMB 고객의 기술지원 챗을 처리했다. 평균 챗 한 건의 길이는 약 40분으로, 진단과 응대에 시간이 많이 들어가는 비정형 업무에 해당했다.

AI 시스템은 GPT 계열 모델을 기반으로 하되 data firm의 고객-에이전트 대화 로그로 fine-tuning되었고, "탑 퍼포머"로 라벨된 에이전트의 응대 패턴을 특별히 가중치 있게 학습했다. RLHF 스타일로 공감 표현·기술 문서 인용·비전문적 어휘 회피가 강화되었다.

시스템 출력은 두 가지였다. 하나는 실시간 응답 제안(에이전트가 그대로 복사하거나 편집해 사용 가능), 다른 하나는 내부 기술 문서 링크 추천이었다. 핵심 설계 철학은 replace가 아니라 augment였다 — 최종 결정권은 사람 에이전트에게 있고, 추천을 무시할 자유가 보장되었다.

고객 채팅 화면 위에 AI 어시스턴트가 응답 후보와 기술 문서 링크를 동시에 띄워 주는 인터페이스 예시

위 이미지는 고객의 문의에 대해 AI가 두 가지 자연어 응답 후보를 띄우고("I can definitely assist you with this!" 같은 긍정 표현이 학습된 결과), 동시에 관련 내부 문서 링크를 추천해 주는 모습을 보여주었다. 에이전트는 제안을 그대로 채택할 수도, 편집할 수도, 무시할 수도 있었기 때문에 AI가 사람을 대체하지 않고 보조하는 구조임을 한눈에 확인할 수 있었다.

암묵지 전이 가설은 이 셋업에서 자연스럽게 도출되었다. 탑 퍼포머의 진단·응대 패턴이 모델 파라미터로 코드화되어, 신입·저숙련 에이전트의 화면에 실시간으로 노출되는 셈이었다. 매니저가 주당 20시간씩 코칭하던 일을, 모델이 매 메시지 단위로 대신해 주는 구조라 할 수 있다.


Data & Empirical Strategy

배포는 2020년 8월의 소규모 RCT 파일럿(약 50명)으로 시작해, 가을부터 겨울에 걸쳐 staggered rollout 방식으로 진행되었다. 라이선스 예산과 온보딩 교육 슬롯이 병목이라, 같은 팀에서도 누구는 일찍, 누구는 늦게 AI를 받게 되었다.

가을부터 겨울까지 단계적으로 에이전트들이 AI 도구에 접근하게 된 배포 일정 그래프

위 이미지는 2020년 10월 시점 팀 내 AI 접근 비율이 5%였다가 2021년 1월에는 약 70%까지 점진적으로 늘어났음을 보여주었다. 매니저들이 고객 대기 시간 폭증을 막기 위해 같은 팀 인원을 분산 배치하면서, 결과적으로 개인 단위 staggered adoption이 만들어졌다.

핵심 결과변수는 다음과 같이 정의되었다. Resolutions per Hour(RPH)가 주요 종합 생산성 지표였고, 이를 분해한 하위 지표로 Average Handle Time(AHT), Chats per Hour(CPH, 멀티태스킹 반영), Resolution Rate(RR), 그리고 고객 만족도인 Net Promoter Score(NPS)가 함께 추적되었다. RR과 NPS는 외주사 일부에서 결측이 있어 관측 범위가 더 좁았다.

핵심 인과 추정식은 표준적인 difference-in-differences 회귀였다.

수식

여기서 수식는 year-month 고정효과, 수식는 에이전트 고정효과, 수식는 근속(tenure) 통제, 수식는 에이전트 수식가 시점 수식에 AI 접근 권한을 받았는지 여부였다. 표준오차는 개인 단위에서 클러스터링되었다.

Staggered adoption 환경에서 단순 two-way FE는 이질적 처리효과 하에서 편향될 수 있다는 문제가 알려져 있다. 저자들은 이를 의식해 메인 결과를 Sun & Abraham (2021)의 IW estimator로 추정하고, robustness용으로 Callaway-Sant'Anna, Borusyak-Jaravel-Spiess, de Chaisemartin-D'Haultfœuille의 추정량까지 비교해 결과의 견고성을 확인했다.

처리 전·후 그리고 미처리 집단의 RPH·AHT·CPH·RR·NPS 분포가 다섯 패널로 비교된 히스토그램

위 이미지는 never/pre/post 세 집단의 원시 생산성 분포를 보여주었다. RPH 평균은 never 1.7, pre 2.0, post 2.5로 처리 후 분포 전체가 오른쪽으로 이동했고, AHT는 40분에서 35분으로 단축되었다. 단 NPS 패널(Panel E)에서는 세 집단의 분포가 거의 겹쳐, 고객 만족도에는 평균 효과가 없음이 raw data에서부터 드러났다.


주요 결과: 무엇이 증명되었나

평균 효과부터 정리하면, 가장 선호되는 스펙(year-month + agent + tenure FE)에서 RPH가 약 15% 증가했다. AHT는 -8.5%(3.7분 단축), CPH는 +15%(0.37건 증가), RR은 +1.3%p(통계적으로 유의하나 경제적으로는 작음), NPS는 -0.12%p(사실상 0)였다.

즉 AI는 속도와 멀티태스킹에서 큰 이득을 만들면서 해결률·만족도는 유지하는 패턴을 보였다. 품질을 깎아서 속도를 얻은 것이 아니라는 점이 핵심이었다.

처리 시점을 0으로 맞춘 event study 차트에서 RPH가 1개월차부터 즉시 상승해 5개월차까지 안정적으로 유지되는 모습

위 그래프는 Sun-Abraham IW estimator로 추정한 RPH의 event study였다. 처리 직전까지는 평평한 pre-trend가 유지되다가, 1개월차부터 즉시 상승해 2개월차에 안정 수준에 도달한 뒤 5개월차까지 효과가 지속되었다. 학습 지연 없이 도구 도입 즉시 생산성이 점프했음을 의미했다.

이질성(heterogeneity)이 이 논문의 가장 강한 발견이었다. 사전 숙련도(call handling speed, resolution rate, NPS의 합성 인덱스) 5분위로 나누었을 때, 최저 quintile은 RPH가 약 +35% 늘어난 반면 최고 quintile은 0에 가깝고 RR·NPS에서는 오히려 작지만 유의한 감소가 관찰되었다.

숙련도 5분위(왼쪽)와 근속 구간(오른쪽)에 따른 RPH 효과 차이를 보여주는 두 패널 그래프

위 그림에서 왼쪽 패널은 저숙련자에게 효과가 집중되어 오른쪽으로 갈수록 효과가 0으로 수렴하는 모습을 보여주었고, 오른쪽 패널은 근속 1개월 미만 신입에게 가장 큰 효과(+0.7 RPH)가 나타난 뒤 근속이 늘수록 단조적으로 감소해 1년 이상 베테랑에게는 효과가 거의 0에 가까웠다. 두 차원 모두에서 AI는 평균을 올리는 것이 아니라 하위 분포를 위로 끌어올린다는 메시지가 일관되게 나왔다.

Experience curve 가속 결과는 시각적으로 가장 인상적이었다. 처음부터 AI를 받은 에이전트는 입사 후 2개월만에, 미접근자가 6~10개월 걸려 도달하는 RPH 2.5 수준에 도달했다. 5개월차 이후로 RPH 3.0 이상까지 계속 올라가, AI가 단순히 출발점만 높이는 게 아니라 학습 곡선의 기울기 자체를 바꾼다는 증거가 제시되었다.


메커니즘과 추가 발견

Adherence(준수율) 분석은 메커니즘을 푸는 첫 단서였다. 평균 채택률은 약 38%로, 에이전트가 AI 제안을 무비판적으로 따르는 것이 아니라 선별적으로 수용하는 양상이었다. 그러나 채택률이 높은 최상위 quintile은 RPH가 약 25% 늘어난 반면 최하위 quintile은 10%에 그쳐, 추천을 따를수록 이득이 컸다.

특히 흥미로운 발견은 희귀한 문제(rare problems)에서 AI 효과가 더 컸다는 점이었다. 일반적인 ML 직관은 데이터가 많은 일에서 모델이 더 잘 작동한다는 것이지만, 인간 보완재로서의 AI 가치는 반대로 움직였다. 흔한 문제는 신입 에이전트도 이미 잘 풀기 때문에 AI가 추가하는 한계 가치가 작고, 드문 문제에서는 사람의 baseline 훈련이 부족해 AI 보완이 결정적이었다.

학습 채널의 직접 증거도 발견되었다. AI 시스템이 소프트웨어 outage(추천이 일시 중단되는 시간대)에 들어가도, 이미 AI에 노출된 적 있는 에이전트는 pre-AI 자기 자신보다 더 빨리 챗을 처리했다. 이는 AI 없이도 발휘되는 지속적 인적 자본 향상을 의미했고, 평소 추천을 잘 따랐던 사람일수록 outage 중 학습 효과가 더 컸다.

영어 유창성 개선 역시 흥미로운 부산물이었다. SiEBERT·Gemini로 텍스트를 채점한 결과, comprehensibility와 native fluency 모두 처리 후 유의하게 상승했고, 필리핀 거주 에이전트에서 효과가 특히 두드러졌다. AI 추천을 통해 미국식 영어 표현·관용구를 학습한 셈이었다.

업무 경험의 질에도 변화가 있었다. SiEBERT 기반 sentiment 분석에서 고객의 메시지 긍정도가 약 0.18 포인트(half SD) 상승했고, 매니저 호출 요청은 25% 감소했다. 추가로 신입 직군의 이직률이 약 40% 줄었는데, 단순 생산성을 넘어 노동 환경 자체가 개선되었음을 시사했다.


비판적 분석 & 정리

외적 타당성에는 명백한 한계가 있었다. 결과는 단일 firm × 단일 task(SMB 대상 챗 기반 기술지원)에서 도출되었으며, 제품과 문제 유형이 상대적으로 안정적인 환경이었다. 빠르게 변하는 산업, 더 창의적인 직군, 다국어/다문화 고객 환경에서는 다르게 나올 수 있었다.

측정 한계도 있다. RR과 NPS는 외주사가 자체 보고하는 데이터에 의존했고, 결측이 비무작위였을 가능성이 있다. 임금·실제 escalation 빈도 데이터는 부재해서, 보너스 변화나 매니저 인력 변화 같은 장기적 조직 효과는 측정할 수 없었다.

고숙련자 품질 하락의 메커니즘은 여전히 부분적으로만 설명되었다. AI 추천에 anchoring되어 더 좋은 답을 생각하지 않게 된 것인지, 자신의 스타일과 모델 스타일 사이의 미스매치에서 산만함이 생긴 것인지, 아니면 단순히 빠른 옵션이 매력적이라 인지 비용을 아낀 것인지 — 이 셋을 분리할 데이터는 부족했다.

장기 효과의 불투명성은 가장 큰 미해결 문제였다. 5개월 이후 데이터가 부족해 정상상태 효과는 알 수 없고, 무엇보다 AI 학습 데이터가 인간 행동에 의존하는 feedback loop 문제가 있다. 톱 퍼포머가 AI에 더 의존할수록 그들의 원조 행동이 줄어들고, 미래 모델 갱신 품질이 떨어질 수 있다는 우려가 결론부에서 직접 제기되었다.

후속 연구 방향은 자연스럽게 도출되었다. 코딩(Copilot), 법률, 컨설팅, 의료 등 다른 지식노동 직군과의 비교, AI 학습 기여자에 대한 보상 메커니즘 설계, 그리고 인간이 어느 작업을 맡고 AI가 어느 작업을 맡을지의 인간-AI 분업 균형 설계가 추가로 필요했다.

핵심 테이크어웨이는 세 가지로 정리되었다.

첫째, 생성형 AI는 평균이 아니라 분포를 바꾸었다. 평균 15% 향상의 이면에는 저숙련자 +35%, 고숙련자 0% (혹은 약간의 품질 하락)이라는 비대칭이 있었다. 이는 IT 도입의 전통적인 skill-biased 패턴을 뒤집는, 노동 분배 면에서 새로운 시그널이었다.

둘째, 주요 메커니즘은 암묵지의 확산이었다. 톱 퍼포머의 대화 패턴이 모델을 거쳐 신입에게 실시간 노출되었고, outage 분석은 이 노출이 일시적 도구 의존이 아닌 지속적 인적 자본 형성으로 이어진다는 증거를 보였다. 매니저 코칭을 부분적으로 대체할 수 있는 새로운 훈련 채널이 열린 셈이었다.

셋째, 보상·교육 제도의 재설계가 필요했다. 톱 퍼포머가 데이터를 제공해 모델이 만들어지지만 그들 자신은 이득이 적고, 오히려 시간이 지나면 자기 일자리의 가치가 평탄화될 수 있다. AI 학습 데이터 기여에 대한 명시적 보상과 인간 고유 역량을 키울 새로운 인센티브 구조가 정책·HR 차원에서 요구된다는 점이, 이 논문이 던지는 가장 큰 사회적 함의였다.