단순한 모델을 넘어 AI 시스템으로, Converge Bio가 그리는 신약 개발의 미래

keyword_508

“챗GPT처럼 프롬프트 하나 던진다고 바로 신약 후보 물질이 툭 튀어나올 것 같나요?” Converge Bio의 CEO 도브 거츠(Dov Gertz)가 던진 이 질문은 현재 AI 신약 개발 업계가 마주한 가장 뼈아픈 지점을 찌릅니다. 벤치마크 점수가 높은 모델과 실제 생물학자가 실험실에서 사용할 수 있는 시스템 사이에는 거대한 간극이 존재하기 때문입니다. 단순히 ‘똑똑한 모델’을 만드는 단계를 넘어, 연구 워크플로우에 직접 통합되는 ‘시스템’의 시대가 열리고 있습니다.

모델이 아닌 시스템에 투자하는 이유

최근 Converge Bio가 Bessemer Venture Partners의 주도로 2,500만 달러(약 330억 원) 규모의 시리즈 A 투자를 유치했다는 소식은 시사하는 바가 큽니다. 특히 Meta, OpenAI, Wiz의 임원들이 개인적으로 참여했다는 점은 실리콘밸리의 AI 거물들이 이제 단순한 LLM의 확장을 넘어, 바이오라는 특수 도메인에 AI가 어떻게 ‘실제로’ 구현되는지에 주목하고 있음을 보여줍니다.

현재 200개가 넘는 스타트업들이 AI를 연구 워크플로우에 심으려 경쟁하고 있습니다. 하지만 대부분은 특정 단백질 구조를 예측하는 단일 모델 수준에 머물러 있죠. Converge Bio의 접근 방식은 다릅니다. 이들은 DNA, RNA, 단백질 서열을 학습한 생성형 모델을 기반으로 하되, 이를 타겟 발굴, 항체 설계, 단백질 수율 최적화라는 세 가지 구체적인 시스템으로 구축했습니다. 즉, 생물학자가 코드를 짤 필요 없이 바로 결과물을 얻어 실험으로 검증할 수 있는 엔드투엔드(End-to-End) 환경을 제공하는 것입니다.

항체 설계 시스템의 내부 작동 원리

Converge Bio가 제공하는 항체 설계 시스템을 살펴보면, 왜 ‘시스템’이라는 표현을 쓰는지 알 수 있습니다. 이들은 단일 모델이 아니라 세 가지 구성 요소가 유기적으로 맞물린 파이프라인을 운영합니다. 먼저 생성형 모델이 새로운 항체 후보를 만들어내면, 예측 모델이 분자적 특성을 바탕으로 이를 필터링합니다. 마지막으로 물리 기반 모델을 사용하는 도킹(Docking) 시스템이 항체와 타겟 사이의 3차원 상호작용을 시뮬레이션합니다.

이런 워크플로우를 실제 개발 환경에서 구현한다면, 데이터 전처리부터 시뮬레이션까지의 파이프라인을 자동화하는 것이 핵심입니다. 예를 들어, 생성된 서열 데이터를 물리 시뮬레이션 툴로 넘기기 위해 다음과 같은 셸 스크립트 형태의 자동화 구조를 가질 수 있습니다.

# 항체 후보군 서열 파일(candidates.fasta)을 읽어 도킹 시뮬레이션 실행
# -p: 타겟 단백질 경로, -i: 입력 서열 파일, -o: 결과 저장 폴더

for sequence in $(grep ">" candidates.fasta | cut -d' ' -f1); do
    echo "Processing $sequence..."
    # 가상의 도킹 엔진 실행 명령
    ./docking_engine --protein ./targets/target_protein.pdb \
                     --input "$sequence" \
                     --output "./results/${sequence}_docking.out" \
                     --energy_cutoff -7.5 \
                     --timeout 3600
done

# 결과 파일 중 에너지 값이 가장 낮은(결합력이 강한) 상위 10개 추출
sort -k2,2n ./results/*.out | head -n 10 > top_candidates.txt

실제 환경에서는 Nevton didn't converge와 같은 수렴 에러가 빈번하게 발생합니다. 이는 물리 기반 시뮬레이션에서 타임스텝(timestep)이 너무 크거나 초기 구조가 불안정할 때 나타나는데, 이때는 --timestep 0.001과 같이 간격을 좁히거나 초기 구조를 최적화하는 relaxation 단계를 추가하여 해결해야 합니다.

AI 신약 개발 환경 구축하기

Converge Bio와 같은 시스템을 모방하여 개인 연구자나 소규모 팀이 AI 기반 단백질 분석 환경을 구축하려면, 먼저 적절한 컴퓨팅 자원과 라이브러리 설정이 필요합니다. 최근에는 AlphaFold2 이후로 오픈소스 도구들이 많아져 다음과 같은 순서로 기본 환경을 구성해 볼 수 있습니다.

  1. GPU 환경 준비: NVIDIA A100 또는 H100 급의 GPU와 CUDA 11.8 이상의 드라이버를 설치합니다.
  2. 콘다 환경 생성: conda create -n bio_ai python=3.9 명령으로 독립된 환경을 구축합니다.
  3. 핵심 라이브러리 설치: PyTorch와 함께 생물학적 서열 처리를 위한 Biopython, 분자 시뮬레이션을 위한 OpenMM 또는 RDKit을 설치합니다.
  4. 모델 가중치 로드: ESM-2(Evolutionary Scale Modeling)와 같은 사전 학습된 단백질 언어 모델의 가중치를 Hugging Face에서 다운로드하여 로드합니다.

설치 과정에서 ImportError: libcudnn.so.8 not found 같은 에러가 발생한다면, 이는 CUDA 툴킷과 cuDNN 버전이 일치하지 않기 때문입니다. 이 경우 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 명령으로 경로를 명시적으로 지정해주면 대부분 해결됩니다.

실험실의 시행착오를 줄이는 기술

신약 개발의 전통적인 방식은 수백만 달러의 비용과 수년의 시간을 들여 ‘시행착오(Trial and Error)’를 반복하는 것이었습니다. 하지만 Converge Bio가 지향하는 방향은 AI가 단순한 보조 도구가 아니라, 실험 설계의 정밀도를 높이는 필터가 되는 것입니다. 수만 개의 후보 물질 중 성공 확률이 높은 10개만을 추려내어 실험실로 보낼 수 있다면, R&D 타임라인은 획기적으로 단축될 수밖에 없습니다.

특히 이번 투자를 주도한 Bessemer와 더불어 Meta, OpenAI의 인물들이 참여했다는 점은, 이제 AI의 전장이 텍스트와 이미지를 넘어 ‘분자’와 ‘단백질’이라는 물리적 실체로 완전히 옮겨갔음을 의미합니다. 2026년의 신약 개발은 더 이상 운에 맡기는 도박이 아니라, 정교하게 설계된 AI 시스템의 출력값을 검증하는 과정이 될 것입니다.

이번에 배운 점과 생각할 거리

이번 사례를 통해 깨달은 점은 AI의 가치가 ‘모델의 성능’ 그 자체보다 ‘워크플로우에 어떻게 녹아드느냐’에 있다는 것입니다. 아무리 뛰어난 알고리즘이라도 사용자가 코드를 짜야 하거나 인프라를 직접 구축해야 한다면 현장에서는 외면받을 수밖에 없습니다. 결국 진정한 혁신은 기술적 고도화와 사용자 경험(UX)의 결합에서 나옵니다.

그렇다면 우리는 질문해봐야 합니다. 바이오 분야 외에, 여전히 ‘전통적인 시행착오’ 방식에 의존하고 있는 다른 산업 분야는 어디일까요? 그리고 그곳에 Converge Bio와 같은 ‘시스템적 접근’을 적용한다면 어떤 변화가 일어날까요?

댓글 남기기