About

AI로 단백질을 설계한다, 그런데 어떤 방법을 어떤 순서로?

셀디는 AI 신약개발 방법론(RFdiffusion·ProteinMPNN·AlphaFold·ESM 등) 문헌을 수집·연결해 방법 → 태스크 → 지표 → 응용의 파이프라인을 그래프로 돌려주는 플랫폼입니다. Galux·AIGEN 같은 AI 신약회사와 중견 바이오가 매일 반복하는 "어떤 방법이 최신이고 어떤 벤치마크에서 뭐가 SOTA인가" 를 논문 근거와 함께 경로 형태로 제시합니다.

왜 AI 신약개발 방법론인가

폭발 성장 분야. PubMed 기준 AI 단백질 설계 논문이 2020년 24편 → 2025년 195편으로 8배. bioRxiv·arxiv 포함하면 더 큼. 매일 새 모델·벤치마크가 쏟아짐.
돈을 쓰는 고객이 명확. Galux $47M, AIGEN 120억 등 한국만 10+ AI 신약회사, 글로벌 50+. 자체 방법론 서베이·벤치마킹은 PhD가 수동으로 함.
FDA 블로커 없음. 방법론 서베이·비교·추천은 연구 지원 도구라 규제 승인과 무관. 의사결정 도구로 바로 판매 가능.
인과 구조가 그래프에 맞음. 방법 → 태스크 → 벤치마크 → 성능 → 응용. BenevolentAI·Causaly는 이 레이어를 얕게 다룸. 구조화 쿼리·경로 탐색의 진가.

뭐가 고정이고 뭐가 흐르는가

"AlphaFold은 그대로 있는 모델인데 뭘 매일 구조화한다는 거지?"는 당연한 질문입니다. 답은 간단합니다: 우리는 모델 자체가 아니라 모델 주변의 문헌 흐름을 구조화합니다.

고정된 것 · 노드

· 모델 이름 (AlphaFold · RFdiffusion · ProteinMPNN · ESMFold)
· 태스크 (backbone 생성 · 서열 설계 · 구조 예측)
· 벤치마크 (CASP · SKEMPI · SAbDab · CAMEO)

모델은 버전만 가끔 갱신(AlphaFold2→3, ESM→ESM-3). 이름 자체는 수년간 live.

흐르는 것 · 엣지·메타데이터

· 응용 논문 ("Ras binder 설계에 RFdiffusion 사용")
· 실패 모드 ("pLDDT 높아도 결합 안 됨")
· 성능 수치 ("SKEMPI에서 Z 점수")
· 신규 변종·특화 모델 (RFdiffusion2 · Germinal · DualGPT-AB · BindCraft …)

매주 수십 편씩 추가. 이게 수동 서베이의 진짜 부담.

그래서 셀디가 답하는 질문은 "이번 주 bioRxiv에 나온 DualGPT-AB가 뭐야? Germinal과 뭐가 달라? 내 파이프라인이랑 비교하면?" 같은 것. PhD가 논문 10편 읽고 표 만드는 1–2주 작업을, 쿼리 한 번으로 대체합니다.

셀디의 접근 방식

자체 모델을 학습하거나 벤치마크를 실행하지 않습니다. 대신 이미 발표된 방법론 논문을 수집해 Claude로 구조화 삼중항을 추출하고, SQLite 그래프에 저장합니다. PhD 한 명이 수주~수개월 걸리는 문헌 정리·비교·벤치마크 표 작성 작업을 자동화합니다.

기존 방식

· PhD가 수동 문헌 리뷰·벤치마크 정리
· arxiv-sanity·Google Scholar 검색·정렬
· Slack·노션에 표 직접 유지보수
· 1–4주/주제, 스케일 안 됨

셀디 방식

· 자동 인제스트 + Claude 구조화 추출
· Method · Task · Metric · Application 그래프
· SQL로 쿼리·비교·경로 탐색
· 질의 초 단위, 전체 기관 공유

그래프의 구조

방법론 논문의 인과 구조는 생물학 논문과 다릅니다. "X는 Y에 결합한다" 가 아니라 "방법 X를 태스크 Y에 적용해 벤치마크 Z에서 W 점수 달성"이 기본 단위입니다.

엔티티 타입	예	문헌 영역
Method	RFdiffusion · ProteinMPNN · AlphaFold · ESMFold · ProGen2	생성 모델·구조 예측
Architecture	Diffusion · Transformer · GNN · PLM	모델 기반
Task	backbone 생성 · sequence 설계 · 구조 예측 · 결합 친화도 예측	문제 유형
Dataset / Benchmark	PDB · SAbDab · SKEMPI · CASP · ChEMBL	학습·평가 소스
Metric	pLDDT · PAE · iPAE · TM-score · Kd · 성공률	성능 측정
Application	de novo binder · therapeutic antibody · enzyme · vaccine	최종 사용처

각 엔티티 간 관계(uses, evaluated_on, outperforms, achieves)는 PubMed·bioRxiv·arxiv 논문에서 Claude API로 삼중항으로 추출되어 SQLite에 저장됩니다.

실제 사용 시나리오

1 방법론 파이프라인 추천

"de novo binder 설계, 지금 표준 파이프라인이 뭐야?"

RFdiffusion → ProteinMPNN → AlphaFold2 검증 경로와 각 단계 대안 방법·성공률·PMID 제시.
2 벤치마크 비교

"CASP15에서 AlphaFold2 vs RoseTTAFold, 어떤 태스크에서 차이나?"

두 모델의 벤치마크별 성능·논쟁 지점·지난 12개월 업데이트 요약.
3 신규 방법 트래킹

"최근 3개월 de novo 항체 설계 논문 + 어떤 모델이 새로 등장?"

DualGPT-AB·Germinal 같은 특화 모델의 등장·차별점·실험 검증 수준을 일자별로 모음.
4 실패 모드 · 안티패턴 탐색

"RFdiffusion으로 실패한 케이스 · 재현 안 된 주장은?"

성공 사례뿐 아니라 negative results·재현 실패·비판 논문도 같이 노출. 과신 방지.
5 사내 문헌 + 공개 문헌 병합

"우리 내부 실험 노트 + 최신 논문 합쳐서 우리 타겟에 맞는 최적 파이프라인 찾아줘"

기관 비공개 데이터를 공개 그래프에 얹어 조직 내부에서만 활용. SSO·감사 로그 지원.

그냥 ChatGPT·Gemini에게 물어보면 안 되나요?

캐주얼 질문("RFdiffusion 뭐 하는 모델?")은 Gemini Deep Research·ChatGPT로 충분합니다. 하지만 팀·조직이 매일 반복하는 작업에서는 한계가 치명적입니다.

항목	범용 LLM	셀디
PMID 환각	없는 PMID·잘못된 저널명 빈번, 검증 불가.	모든 주장이 실제 PubMed/bioRxiv 레코드로 역추적.
구조화 쿼리	"pLDDT > 0.9인 모든 경로" 같은 SQL 질문 불가.	그래프 + SQL로 필터·비교·랭킹 가능.
재현성	같은 질문에 다른 답. 팀 합의 불가.	동일 쿼리 → 동일 결과. 감사 로그로 추적.
최신성	훈련 컷오프에 묶임.	매일 PubMed·bioRxiv·arxiv 자동 인제스트.
스케일 비용	쿼리마다 수천 편 재처리 → 비쌈·느림.	그래프 사전 계산 → 초 단위 응답.
사내 문헌 병합	내부 실험·프리프린트 통합 어려움.	공개 그래프 위에 사내 논문·노트 얹어 질의.

핵심 차이. 범용 LLM은 "답"을 생성합니다. 셀디는 "구조화된 경로 + 검증된 근거"를 제공합니다. 팀·기관이 매일 같은 질문을 반복할 때, 매번 다르게 대답하는 LLM 대신 재현 가능한 그래프가 필요합니다.

이미 비슷한 서비스가 있지 않나요?

서비스	강점	한계 (AIDD 관점)
Causaly · BenevolentAI 엔터프라이즈 KG	5억+ 관계 규모, 대형 제약사 고객.	연 수억원. 생물학 중심, AI 방법론·벤치마크는 얕음. 한국 1급 지원 아님.
Papers with Code ML 방법론 카탈로그	ML 벤치마크·SOTA 추적 표준. 무료.	AIDD 도메인 비특화. 인과 그래프·경로 개념 없음. 정체 중.
Elicit · Consensus · Scite 범용 논문 AI	논문 요약·합의도·인용 맥락.	인과 그래프 없음. 방법 → 벤치마크 → 성능 경로 추적 불가.
arxiv-sanity · Semantic Scholar 학술 검색	방대한 커버리지. 저자·인용·필터 강함.	추출 기반 삼중항·경로 쿼리 없음. 방법 비교는 여전히 수동.

셀디의 빈틈.

AIDD 도메인 특화 — 방법·벤치마크·성능 지표를 1급 엔티티로.
인과 경로 탐색 — Method → Task → Metric → Application 그래프 질의.
한국어·한국 시장 맞춤 — 로컬 바이오 워크플로우에 녹아듦.
월 구독 가격대 — 엔터프라이즈가 아닌 시트 기반.
사내 문헌 병합 — 기관 비공개 데이터를 공개 그래프 위에 얹기.

셀디가 못 하는 것

솔직히 밝힙니다. 셀디는 자체 단백질 설계 모델을 학습하거나 벤치마크를 실행하지 않습니다. AI로 실제 분자를 만드는 Galux·AIGEN과는 다른 레이어에서 작동합니다. 셀디의 출력은 방법론 비교와 파이프라인 추천이지, 새 모델이나 웻랩 검증을 대체하지 않습니다 — 연구자가 "어디를 먼저 볼지" 알려주는 지도 역할에 집중합니다.

앱 미리보기 파일럿 문의