생성형 AI가 설계하는 신약의 미래와 Converge Bio의 시스템적 접근

keyword_670

단순한 투자 유치 소식으로 보였다. 하지만 투자자 명단에 적힌 Meta, OpenAI, Wiz의 이름과 2,500만 달러라는 숫자를 곱씹어보니 이것은 단순한 자금 조달이 아니라 AI가 생명공학의 ‘운영 체제’를 바꾸려는 선언처럼 느껴졌다. 벤처 캐피털 Bessemer Venture Partners가 이끄는 이번 시리즈 A 라운드는 생성형 AI가 실험실의 벤치마크 점수를 넘어 실제 신약 개발 워크플로우에 어떻게 침투하고 있는지를 극명하게 보여준다.

모델이 아닌 시스템으로서의 AI

우리는 흔히 ChatGPT 같은 거대 언어 모델(LLM)에 프롬프트를 입력해 답을 얻는 방식에 익숙하다. 하지만 신약 개발의 영역은 그렇게 단순하지 않다. Converge Bio의 CEO Dov Gertz가 강조했듯, 생물학자에게 필요한 것은 단순히 ‘그럴듯한 분자 구조’를 제안하는 모델이 아니라, 실험적으로 검증 가능하고 실제 제조 공정에 적용할 수 있는 엔드-투-엔드(End-to-End) 시스템이다.

Converge Bio는 DNA, RNA, 단백질 서열을 학습한 생성형 모델을 기반으로 세 가지 구체적인 시스템을 구축했다. 항체 설계, 단백질 수율 최적화, 그리고 바이오마커 및 타겟 발견 시스템이 그것이다. 특히 항체 설계 시스템의 경우, 생성 모델이 새로운 항체를 만들면 예측 모델이 분자 특성을 필터링하고, 마지막으로 물리 기반의 도킹 시스템이 3차원 상호작용을 시뮬레이션하는 다층 구조를 가진다. 이는 단일 모델의 환각(Hallucination) 가능성을 시스템적 검증 단계로 상쇄하려는 공학적 접근이다.

바이오 데이터 파이프라인의 구축과 운영

엔지니어링 관점에서 보면, Converge Bio의 핵심은 고품질의 데이터 큐레이션과 이를 처리하는 파이프라인에 있다. 공개 데이터를 정제하는 것만으로는 부족하며, 고처리량 스크리닝(High-throughput screening)을 통해 얻은 자체 데이터셋을 모델에 피드백하는 루프를 만들어야 한다. 만약 우리가 유사한 분자 데이터 분석 환경을 구축한다면, Python 기반의 생물정보학 라이브러리와 GPU 가속 환경이 필수적이다.

예를 들어, 단백질 서열 데이터를 처리하고 모델에 입력하기 위한 기본적인 전처리 환경은 다음과 같은 방식으로 구성될 수 있다. RDKit과 같은 화학 정보학 라이브러리를 활용해 분자 구조를 SMILES 형태로 변환하고 이를 텐서로 바꾸는 과정이 필요하다.

# 분자 구조 분석 및 전처리를 위한 기본 환경 설정
pip install rdkit pandas torch biopython

# 간단한 SMILES 문자열을 분자 객체로 변환하는 스니펫
from rdkit import Chem
from rdkit.Chem import AllChem

def preprocess_molecule(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol is None:
        raise ValueError("Invalid SMILES string provided")
    # 3D 컨포머 생성 (도킹 시뮬레이션 준비 단계)
    mol = Chem.AddHs(mol)
    AllChem.EmbedMolecule(mol, AllChem.ETKDG())
    return mol

# 예시: 간단한 유기 분자 처리
try:
    molecule = preprocess_molecule("CC(=O)OC1=CC=CC=C1C(=O)O") # Aspirin
    print("Molecule successfully processed")
except ValueError as e:
    print(f"Error: {e}")

실제 운영 환경에서는 수만 개의 분자를 동시에 처리해야 하므로, 이를 API 형태로 서빙하여 생물학자들이 코드 없이 사용할 수 있게 만드는 것이 Converge Bio 전략의 핵심이다. 그들은 고객사가 자신의 독자적인 데이터를 사용하여 모델을 파인튜닝(Fine-tuning)할 수 있는 프라이빗 인스턴스 기능을 제공함으로써 데이터 소유권 문제를 해결했다.

실무 적용 단계와 트러블슈팅

생성형 AI를 신약 개발 워크플로우에 통합할 때는 인프라 설정 단계에서 예상치 못한 병목 현상이 자주 발생한다. 특히 대규모 단백질 구조 예측이나 도킹 시뮬레이션을 수행할 때 GPU 메모리 부족(OOM, Out of Memory) 에러가 빈번하게 나타난다. 이를 해결하기 위해 배치 사이즈를 동적으로 조절하거나, 모델의 가중치를 양자화(Quantization)하여 메모리 점유율을 낮추는 전략이 필요하다.

일반적으로 AI 기반 바이오 플랫폼을 구축하는 순서는 다음과 같다.

  1. 데이터 수집 및 정제: 공개 데이터베이스(UniProt, PDB 등)에서 서열 데이터를 수집하고 중복 및 오류 데이터를 제거한다.
  2. 임베딩 모델 학습: DNA/단백질 서열을 벡터 공간으로 투영하는 기초 모델(Foundation Model)을 학습시킨다.
  3. 태스크별 헤드 추가: 수율 최적화나 결합 친화도 예측을 위한 전용 예측 레이어를 추가한다.
  4. 실험 검증 루프 통합: AI가 제안한 후보 물질을 실제 랩(Wet-lab)에서 테스트하고, 그 결과를 다시 모델에 학습시킨다.

만약 시뮬레이션 서버에서 CUDA out of memory 에러가 발생한다면, 다음과 같이 환경 변수를 설정하거나 메모리 할당 방식을 변경해 볼 수 있다.

# PyTorch 환경에서 메모리 단편화를 줄이기 위한 설정
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128

# 또는 코드 내에서 캐시 비우기
import torch
torch.cuda.empty_cache()

AI가 바꾸는 R&D의 경제학

전통적인 신약 개발은 수억 달러의 비용과 수년의 시간이 소요되는 ‘시행착오의 연속’이었다. 하지만 Converge Bio가 보여준 성과는 이미 40개 이상의 프로그램을 완료하며 단일 나노몰(single-digit nanomolar) 수준의 강력한 결합 친화도를 가진 항체를 발견했다는 점에 있다. 이는 AI가 단순히 보조 도구가 아니라, R&D의 타임라인을 획기적으로 단축하는 핵심 엔진이 되었음을 의미한다.

결국 승부는 누가 더 좋은 ‘모델’을 가졌느냐가 아니라, 누가 더 효율적인 ‘데이터-모델-실험’의 루프를 구축했느냐에서 갈릴 것이다. Meta와 OpenAI의 임원들이 이 회사에 투자한 이유는 아마도 생성형 AI의 논리가 생물학이라는 거대한 데이터 셋과 만났을 때 발생하는 폭발적인 효율성을 보았기 때문일 것이다.

이번 사례를 통해 배운 점은 AI의 가치가 벤치마크의 성능 지표가 아니라, 실제 사용자가 코드를 한 줄도 쓰지 않고도 원하는 결과(Actionable output)를 얻게 만드는 ‘시스템적 통합’에 있다는 것이다. 우리는 이제 AI에게 무엇을 물어볼 것인가를 넘어, AI가 어떤 물리적 실체(신약)를 만들어낼 수 있는지를 고민해야 하는 시점에 와 있다. 과연 AI가 설계한 약이 임상 시험의 높은 벽을 넘어 우리 손에 쥐어지기까지 얼마나 더 많은 ‘시스템’들이 등장하게 될까?

댓글 남기기