AI가 숙제를 대신하는 시대, 왜 다시 '구술 시험'인가?

생성형 AI의 고도화로 텍스트 기반 평가 체계가 붕괴하면서, 인간의 실질적 사고력과 이해도를 검증하기 위한 대면 구술 평가의 기술적·교육적 회귀 현상을 분석합니다.

우리는 지금껏 ‘결과물’로 능력을 증명하는 시대에 살았습니다. 잘 작성된 보고서, 정교한 코드 뭉치, 논리적인 에세이는 그 사람이 가진 지식과 역량을 대변하는 가장 강력한 지표였습니다. 하지만 LLM(대규모 언어 모델)의 폭발적인 성장으로 인해 이 공식은 완전히 깨졌습니다. 이제는 숙련된 전문가가 며칠을 고민해 작성한 결과물과, AI가 단 몇 초 만에 생성한 결과물을 외견상으로 구분하는 것이 거의 불가능해졌기 때문입니다.

이러한 현상은 단순히 교육 현장의 ‘부정행위’ 문제를 넘어, 지식 노동의 가치 측정 방식에 대한 근본적인 회의감을 불러일으킵니다. 텍스트라는 결과물이 더 이상 그 사람의 사고 과정을 보증하지 못한다면, 우리는 무엇을 통해 역량을 검증해야 할까요? 여기서 역설적으로 수세기 전의 평가 방식이었던 ‘구술 시험(Oral Exam)’이 다시금 주목받고 있습니다.

결과물의 시대에서 과정의 시대로: 패러다임의 전환

과거의 평가 체계는 ‘무엇을 알고 있는가(What you know)’를 확인하기 위해 최종 결과물을 제출하게 했습니다. 하지만 AI 시대의 핵심은 ‘어떻게 생각하는가(How you think)’와 ‘왜 그렇게 판단했는가(Why you decided)’를 검증하는 것입니다. AI는 정답에 가까운 텍스트를 생성할 수 있지만, 그 텍스트를 생성하기 위해 거친 논리적 추론 과정과 맥락적 이해를 실시간으로 설명하지는 못합니다.

구술 시험의 부활은 단순한 회귀가 아니라, AI가 대체할 수 없는 ‘인간의 실시간 인지 프로세스’를 확인하려는 전략적 선택입니다. 면접관이 질문을 던지고, 응시자가 즉석에서 논리를 구성하며, 꼬리에 꼬리를 무는 질문(Follow-up questions)을 통해 지식의 깊이를 파고드는 과정은 현재의 AI 모델이 흉내 낼 수 없는 고유의 영역입니다.

기술적 관점에서 본 AI 모델의 한계와 구술 평가의 유효성

최신 LLM들은 놀라운 추론 능력을 보여주지만, 여전히 ‘환각(Hallucination)’과 ‘확률적 텍스트 생성’이라는 본질적인 한계를 가지고 있습니다. AI가 작성한 완벽한 에세이를 제출한 학생이라 할지라도, 그 내용 중 특정 논거에 대해 “왜 이 관점을 선택했는가?” 혹은 “반대 사례가 제시된다면 어떻게 논리를 수정하겠는가?”라는 질문을 받았을 때, 스스로 사고하지 않았다면 즉각적으로 대응할 수 없습니다.

기술적으로 분석했을 때, 구술 평가는 다음과 같은 검증 메커니즘을 작동시킵니다.

실시간 적응형 추론: 미리 준비된 텍스트가 아니라, 변화하는 질문의 맥락에 맞춰 실시간으로 지식을 재구성하는 능력을 측정합니다.
메타인지 확인: 자신이 무엇을 알고 무엇을 모르는지를 정확히 인지하고 있는지를 확인하며, 이는 AI가 생성한 정답을 단순히 암기한 것과 실제 이해한 것을 구분하는 결정적 기준이 됩니다.
비언어적 맥락 파악: 망설임, 확신에 찬 어조, 논리적 비약 시의 당혹감 등 인간만이 가진 비언어적 신호를 통해 지식의 내재화 수준을 가늠합니다.

구술 평가 도입의 실무적 득과 실

물론 모든 평가를 구술로 전환하는 것은 현실적으로 불가능합니다. 효율성과 공정성 측면에서 명확한 트레이드오프(Trade-off)가 존재하기 때문입니다.

구분	구술 평가 (Oral)	서면 평가 (Written/AI-assisted)
검증 신뢰도	매우 높음 (사고 과정 직접 확인)	낮음 (AI 대필 가능성 상존)
평가 효율성	낮음 (1:1 대면 시간 필요)	높음 (대량 동시 평가 가능)
심리적 부담	높음 (실시간 압박감)	낮음 (수정 및 보완 가능)
평가 객관성	평가자의 주관 개입 가능성 높음	명확한 채점 기준 적용 용이

결국 핵심은 ‘하이브리드 모델’의 구축입니다. 서면 과제로 기본 역량을 확인하되, 그 결과물의 진위 여부와 깊이를 검증하는 ‘최종 관문’으로서 구술 평가를 배치하는 전략이 가장 유효합니다.

실제 적용 사례: 기업 채용과 교육 현장의 변화

최근 실리콘밸리의 테크 기업들은 코딩 테스트의 비중을 줄이고 ‘시스템 디자인 인터뷰’나 ‘라이브 코딩’의 비중을 높이고 있습니다. 단순히 돌아가는 코드를 짜는 것은 AI가 더 잘하기 때문입니다. 대신, “왜 이 아키텍처를 선택했는가?”, “트래픽이 10배 증가한다면 어디가 병목이 될 것인가?”와 같은 설계 철학과 문제 해결 과정을 집요하게 묻습니다.

대학 교육 현장에서도 변화가 감지됩니다. 일부 명문대에서는 AI를 활용한 과제 제출을 허용하는 대신, 학기 말에 제출한 과제 내용을 바탕으로 한 15분 내외의 개별 면담 시험을 필수 과정으로 도입하고 있습니다. 이는 AI를 ‘금지’하는 것이 아니라, AI를 도구로 활용해 더 높은 수준의 결과물을 내되, 그 결과물에 대한 ‘소유권(Ownership)’은 반드시 인간이 가져야 한다는 철학의 반영입니다.

실무자와 리더를 위한 액션 아이템

AI 시대에 인재를 평가하고 육성해야 하는 매니저나 교육자라면, 이제 평가의 중심축을 ‘결과’에서 ‘과정’으로 옮겨야 합니다. 지금 당장 실행할 수 있는 구체적인 방법은 다음과 같습니다.

‘Why’ 질문의 체계화: 결과물을 제출받을 때, 해당 결과물을 도출하기 위해 거친 의사결정 트리(Decision Tree)를 함께 제출하게 하거나, 이에 대해 질문하는 세션을 반드시 가지십시오.
라이브 디버깅/리뷰 세션 도입: 완성된 결과물을 보는 것이 아니라, 결과물을 수정하거나 개선하는 과정을 실시간으로 관찰하십시오. AI가 짠 코드를 어떻게 리뷰하고 수정하는지가 그 사람의 진짜 실력입니다.
오픈 북/오픈 AI 시험의 설계: AI 사용을 전제로 하되, AI가 절대 답할 수 없는 ‘개인적 경험’이나 ‘특수한 조직 내 맥락’이 결합된 문제를 출제하십시오.
평가 루브릭의 재정의: 문장력, 형식의 완결성 같은 ‘외형적 요소’의 배점을 낮추고, 논리적 일관성과 비판적 사고력 같은 ‘본질적 요소’의 배점을 높이십시오.

결론적으로, AI의 발전은 우리에게 ‘인간만이 할 수 있는 생각’이 무엇인지 다시 묻게 만들었습니다. 구술 시험의 귀환은 단순한 과거로의 회귀가 아니라, 기술의 정점에서 인간의 지성을 가장 순수하게 검증하려는 진화의 과정입니다. 도구에 의존하는 능력이 아니라, 도구를 지배하는 사고력을 증명하는 시대가 온 것입니다.

FAQ

Why Oral Exams Are Coming Back in the Age of AI Homework의 핵심 쟁점은 무엇인가요?

핵심 문제 정의, 비용 구조, 실제 적용 방법, 리스크를 함께 봐야 합니다.

Why Oral Exams Are Coming Back in the Age of AI Homework를 바로 도입해도 되나요?

작은 범위에서 실험하고 데이터를 확인한 뒤 단계적으로 확대하는 편이 안전합니다.

실무에서 가장 먼저 확인할 것은 무엇인가요?

목표 지표, 대상 사용자, 예산 범위, 운영 책임자를 먼저 명확히 해야 합니다.

법률이나 정책 이슈도 함께 봐야 하나요?

네. 데이터 수집 방식, 플랫폼 정책, 개인정보 관련 제한을 반드시 점검해야 합니다.

성과를 어떻게 측정하면 좋나요?

비용, 전환율, 클릭률, 운영 공수, 재사용 가능성 같은 지표를 함께 보는 것이 좋습니다.

지금 바로 시작할 수 있는 실무 액션

현재 팀의 AI 활용 범위와 검증 절차를 먼저 문서화합니다.
작은 파일럿 프로젝트로 KPI를 정하고 2~4주 단위로 검증합니다.
보안, 품질, 리뷰 기준을 자동화 도구와 함께 연결합니다.

AI가 숙제를 대신하는 시대, 왜 다시 ‘구술 시험’인가?