나는 얼마 전 업무 효율을 높이기 위해 챗GPT와 클로드(Claude)를 번갈아 쓰다가 문득 의구심이 들었다. 내가 작성한 프롬프트가 과연 최선인지, 아니면 그저 운 좋게 괜찮은 답변을 얻어낸 것뿐인지 확신이 서지 않았기 때문이다. 마침 커뮤니티에서 프롬프트의 품질을 수치로 측정해 준다는 무료 AI 평가 도구를 발견했고, 호기심에 내 ‘프롬프트 실력’을 테스트해 보기로 했다.
막연한 감이 아닌 수치로 보는 프롬프트의 품질
그동안 우리는 프롬프트를 짤 때 주로 ‘감’에 의존해 왔다. “조금 더 구체적으로 써봐”, “전문가처럼 행동해 줘” 같은 수식어를 붙여가며 결과물이 만족스러울 때까지 수정을 반복하는 식이다. 하지만 이런 방식은 시간이 너무 오래 걸릴뿐더러, 왜 이 프롬프트가 작동하는지에 대한 논리적인 근거를 찾기 어렵다.
내가 사용해 본 이 평가 도구는 내가 입력한 프롬프트를 분석해 0점에서 100점 사이의 점수를 매겨준다. 단순히 점수만 주는 것이 아니라, 명확성(Clarity), 맥락 제공(Context), 제약 조건(Constraints), 출력 형식(Output Format) 같은 세부 항목별로 점수를 쪼개어 보여준다. 처음 내 프롬프트를 넣었을 때 받은 점수는 62점이었다. 스스로 꽤 잘 썼다고 생각했는데, 생각보다 낮은 점수에 당혹스러우면서도 묘한 승부욕이 생겼다.
도구는 내 프롬프트에서 ‘맥락’ 부분이 부족하다고 지적했다. 내가 요청한 작업의 배경이나 최종 목적지를 명확히 설정하지 않았기 때문에, AI가 추측해서 답변해야 하는 영역이 너무 많다는 뜻이었다. 이 지점을 통해 나는 내가 그동안 AI를 ‘똑똑한 비서’가 아니라 ‘모든 것을 다 아는 신’처럼 대하며 설명을 생략해 왔다는 사실을 깨달았다.
90점을 향한 프롬프트 튜닝 과정
점수를 올리는 과정은 마치 퍼즐을 맞추는 것과 같았다. 가장 먼저 손댄 곳은 페르소나 설정이었다. 단순히 “마케터처럼 써줘”라고 했던 부분을 “10년 차 IT 서비스 B2B 마케팅 전문가로서, 전환율 최적화(CRO) 관점에서 분석해 줘”라고 구체화했다. 이렇게 바꾸자마자 명확성 점수가 눈에 띄게 상승했다.
그다음으로는 제약 조건을 추가했다. “길게 써줘”라는 모호한 표현 대신, “서론-본론-결론의 구조를 갖추되, 본론에서는 3가지 핵심 포인트를 불렛 포인트로 정리하고, 전체 분량은 공백 포함 800자 내외로 제한해 줘”라고 명시했다. AI에게 자유도를 주는 것이 아니라, 명확한 가이드라인이라는 ‘울타리’를 쳐주는 작업이었다.
마지막으로 예시(Few-shot)를 삽입했다. 내가 원하는 답변의 톤앤매너가 담긴 샘플 텍스트를 한두 문장 추가하자, 마침내 화면에 92점이라는 숫자가 떴다. 단순히 단어를 몇 개 바꾼 것이 아니라, AI가 사고하는 경로를 설계했다는 느낌이 들었다. 60점대 프롬프트와 90점대 프롬프트의 차이는 결국 ‘모호함의 제거’에 있었다.
평가 도구가 주는 진짜 가치: 메타 인지
사실 이 도구의 진정한 가치는 점수 그 자체보다, 내가 프롬프트를 작성하는 사고방식을 교정해 준다는 점에 있다. 점수를 올리기 위해 고민하는 과정에서 자연스럽게 ‘좋은 지시란 무엇인가’에 대한 기준이 세워지기 때문이다. 이전에는 결과물이 이상하면 “AI가 멍청하네”라고 생각했지만, 이제는 “내 프롬프트의 어떤 요소가 누락되어 AI가 길을 잃었을까?”를 먼저 생각하게 된다.
또한, 이런 도구는 팀 단위로 협업할 때 특히 유용할 것 같다. 각자 다른 스타일로 프롬프트를 짜는 팀원들이 공통의 평가 기준을 갖게 되면, ‘최적의 프롬프트 라이브러리’를 구축하는 속도가 훨씬 빨라질 것이다. 누군가 90점을 넘긴 프롬프트를 공유하면, 다른 팀원들은 그 구조를 템플릿 삼아 자신의 작업에 적용할 수 있기 때문이다.
물론 수치가 전부는 아니다. 100점을 맞았다고 해서 반드시 모든 상황에서 완벽한 답변이 나오는 것은 아니다. 하지만 최소한 ‘낙제점’ 수준의 프롬프트를 던져놓고 AI의 성능을 탓하는 비효율은 확실히 줄일 수 있다. 기본기를 다지는 훈련 도구로서 이만한 것이 없다는 생각이 들었다.
더 나은 소통을 위한 다음 단계
이번 경험을 통해 배운 가장 큰 교훈은 AI와의 소통 역시 인간 사이의 소통과 다르지 않다는 점이다. 상대방이 내 머릿속을 다 알고 있다고 가정하는 순간 오해가 생기듯, AI에게도 충분한 배경 설명과 명확한 기준을 제시해야만 최선의 결과가 나온다. 결국 프롬프트 엔지니어링이란 기술적인 스킬이라기보다, 논리적으로 생각하고 명확하게 전달하는 커뮤니케이션 능력의 확장판인 셈이다.
이제 나는 새로운 작업을 시작할 때마다 습관적으로 이 평가 도구에 내 초안을 넣어본다. 점수를 확인하며 부족한 부분을 채워 넣는 과정이 이제는 일종의 게임처럼 느껴지기 시작했다. 다음에는 단순히 텍스트 기반의 프롬프트를 넘어, 복잡한 워크플로우를 설계하는 체인 프롬프트(Chain-of-Thought)의 효율성을 어떻게 수치화할 수 있을지 고민해 보려 한다.
혹시 여러분도 매번 AI의 답변이 만족스럽지 않아 답답했던 적이 있지는 않은가? 그렇다면 무작정 다시 시도하기보다, 내 지시서의 점수를 먼저 매겨보는 것은 어떨까. 내 프롬프트의 취약점이 어디인지 아는 것만으로도, AI를 다루는 숙련도는 완전히 달라질 것이라 확신한다.