Related posts
Koleilat et al. (2025). MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation. MedIA 2025.
본 프로젝트는 범용 의료 세그멘테이션 모델 MedCLIP-SAMv2의 zero-shot segmentation 성능을 높이는, 즉 의료특화 파운데이션 모델인 BiomedCLIP의 종양/배경(혹은 특정 장기/배경) 구분 능력을 향상시키는 것입니다.
프로젝트의 핵심 아이디어는 Direct Preference Optimization, 일명 DPO를 BiomedCLIP을 미세조정하는 손실함수로 쓰자는 것입니다. DPO의 본래 인간의 선호도를 최대한 반영하기 위해 LLM을 최적화하는 수단 중 하나입니다. 우리 팀은 선호도와 같이 ‘정도’를 대상으로 하던 DPO를 양성/음성이라는 ‘이진 분류’ 문제에 적용하였고, ‘세그멘테이션’ 태스크를 최적화하는데 사용했습니다.
본론에 앞서 MedCLIP-SAM를 간략히 소개하겠습니다. MedCLIP-SAM은 종양 양성 이미지와 의사의 진단(텍스트)를 입력으로 받으면 가장 먼저 의료특화 파운데이션 모델인 BiomedCLIP이 활성화 점수 분포를 내놓게 됩니다. 활성화 점수는 각 이미지 패치로부터 추출된 그라디언트를 정규화한 값인데, ‘종양’이라는 단어에 해당하는 패치에 높은 점수를 주게 됩니다. 이 점수 분포는 Information Bottleneck 모듈로 전달되어 입력 텍스와의 상호정보량은 최대화하고, 원본 이미지와는 상호정보량은 최소화하는, 최적의 saliency map(마스킹 이미지 초안)을 추출합니다. saliency map은 프롬프트 형식으로 전처리된 후 최첨단 이미지 분할 모델 SAM에 바운딩 박스 프롬프트로 들어가게 됩니다. 그리고 SAM은 원본 이미지와 보조 프롬프트를 활용해 정교화된 마스킹 이미지, 즉 종양의 위치를 표현한 이미지를 출력합니다. 여기까지가 zero-shot segmentation 단계에 해당하며 MedCLIP-SAM은 사전단계인 DHN-NCE fine-tuning과 최종단계인 weakly supervised segmentation도 포함하고 있습니다.
언급한 세 단계 중에서도 저희 팀의 핵심 목표는 바로 DHN-NCE fine-tuning 단계에서 DHN-NCE loss 대신 DPO loss를 사용해 성능을 도모하는 것입니다.

다만 DPO 손실함수 특성을 고려했을 때 애로사항이 하나 있었습니다. 바로 한 종양 이미지에 대해 ‘동일한’ 환자의 정상 이미지를 구해야 한다는 것이었습니다. DPO 수식은 양성/음성 데이터를 모두 요구하였고 두 이미지 간 종양 유무만 부각해야 했기 때문에 동일한 환자의 정상 데이터가 필요했습니다. 직면한 문제는 다음과 같이 정리됩니다.
제 핵심 기여를 요약하자면

위 그림에서 미세조정을 위한 데이터 구성 및 사용할 DPO 수식을 표현했습니다. DPO 보상함수 항은 양성/정상에 더불어 할루시네이션(첨자에 -표기), 비할루시네이션(첨자에 +표기) 여부도 고려하기 위해 총 4개 항으로 구성됩니다. 이렇게 구성된 수식은 같은 모델(ours,reference) 내에서 할루시네이션, 비할루시네이션 데이터 간 점수 차를 벌리고 reference 모델 대비 ours 모델의 점수를 올리는 방향으로 학습하게 합니다.
데이터 증강 측면에서는 단일 종양 이미지에 대해 음성 샘플을 생성하고, 할루시네이션/비할루시네이션 텍스트에 한번씩 매칭해주니 데이터가 4배로 증가하는 효과가 있습니다.
Durrer et al. (2024). Denoising Diffusion Models for Inpainting of Healthy Brain Tissue. arXiv:2402.17307.
정상 데이터가 없는 Figshare를 고려해 자기 지도 학습 기반의 디퓨전 모델을 고려하게 되었고 BraTS challenge(뇌MRI 정상 조직 복원 챌린지) 공개 솔루션 중 관련 논문을 참고했습니다. 이 논문은 종양을 마스킹 이미지로 가린 뒤 나머지 영역에 대해서만 노이징, 디노이징을 수행합니다. 또한 배경 유지를 위해 3채널 구조를 사용했고, 해상도를 중요시하는 의료도메인 특성을 고려해 pixel space에서 loss를 계산했습니다. 그러나 뇌종양의 경우 종양 부위 자체와 더불어 주변 조직들에도 종양 흔적(예. 부푼 종양에 의해 찌그러짐)이 남기 마련인데 해당 논문은 그 점까지 고려하지 못한 한계가 있었습니다. 이에 저는 종양으로 의심되는 부분까지 마스킹 이미지에 포함했습니다.

종양 의심 부위는 파운데이션 모델 BiomedCLIP와 gscore-cam을 결합한 모듈을 활용하여 추출했습니다. SSL을 위한 최종 마스킹 이미지는 노이징, 디노이징 과정 그리고 reconstruction loss 계산에서도 제외했습니다. 한편 복원할 부위를 나타내는 마스킹 이미지는 마스킹되지 않은 영역 중에서 샘플링하였고, 실제 종양 모양을 반영하기 위해 종양 형태를 그대로 본땄습니다.
또한 측면/정면/윗면 총 세 구도를 골고루 학습시키기 위해 전체 데이터셋에서 세 구도가 차지하는 비율을 반영해 statified sampling하였습니다. 최종적으로 90장의 stratified samples와 10장의 소수 샘플로 훈련 데이터셋을 구성했습니다.
![]()
두번째로 고안한 방법은 텍스트로 된 진단 내용 대신 소수의 정상 이미지들만 SD의 조건부 프롬프트로 넣는 방법이었습니다. 의학 용어를 SD의 조건부 임베딩로 활용하기 위해선 크로스 어텐션 접합부와 SD를 full-finetuning할 필요가 있었습니다. FT의 부담을 줄이기 위해, 저는 이미지 자체를 프롬프트로 활용하기로 하고 관련 논문을 참고했습니다.
Ding et al. (2024) The CLIP Model is Secretly an Image-to-Prompt Converter. NeurIPS 2024.
해당 논문은 CLIP의 이미지 임베딩을 텍스트 임베딩으로 변환하는 closed-form 행렬이 존재함을 보입니다.
다른 한편 텍스트를 살리는 방법도 생각해 보았습니다. 저는 알아듣기 힘든 진단문을 순화하기 위해 VQA를 통과한 정상 텍스트들을 블렌딩하는 방법을 떠올렸습니다.

세번째로 고안한 방법은 CLIP 공간에서 의미론적 벡터의 선형성이 성립한다는 점을 살려 일반적인 ‘종양’ 벡터를 활용하는 것이었습니다.

초음파의 경우 기존의 음성->양성 생성모델을 통해 생성된 이미지를 역으로 음성으로 변환하는 태스크를 수행함으로써 원본 정상이미지와 생성물 간 FID 평가지표를 사용하게 되었습니다.
유사도 점수가 CLIP 텍스트 인코더 입력에 민감하다는 문제

저는 DPO가 상대적인 거리를 벌리는데 집중한다는 문제에도 관심을 기울이고 있었습니다. 특히 저희는 ‘정도’ 회귀보다 ‘분류’에 가까운 문제를 다루기 때문에, 저는 양성/음성을 가르는 threshold가 존재한다는 가정과 DPO가 그 threshold를 간과할 수 있겠다는 가정을 세웠습니다.
✅ 원본 마스킹 이미지를 5x5 grid로 보고(텍스트로 위치 설명 가능한 범위 제한) 종양 부위(하얀 부위)가 속하지 않은 grid를 할루시네이션 위치로 선정


BENIGN case
POSITIVE PROMPT:
A mammogram showing a sharply marginated, round mass suggestive of a benign breast tumor. The tumor is located in the upper middle part of the image, horizontally oriented, with a clear boundary.
✅ NEGATIVE PROMPT created by Mistral-7B-Instruct-v0.2 based on TripletCLIP
A mammogram displaying a round, irregularly marginated mass indicative of a malignant breast tumor. The tumor is situated in the lower left part of the image, vertically oriented, with an indistinct boundary.
MALIGNANT case
POSITIVE PROMPT:
A mammogram displaying an irregular, invasive mass suggestive of a malignant breast tumor. The tumor is located in the upper middle part of the image, horizontally oriented, with a blurry boundary.
✅ NEGATIVE PROMPT created by Mistral-7B-Instruct-v0.2 based on TripletCLIP
A mammogram displaying a well-defined, round mass indicative of a benign breast tumor. The tumor is situated in the lower left part of the image, vertically oriented, with a clear boundary.

UDIAT set only case
UDAIT (train), BUSI (test) case


Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis, CVPR 2025
발생생물학에 영감을 받은 디퓨전 모델인 Neural Cellular Diffusion의 성능을 위해 실험을 진행 중입니다.
Biomedclip was fine-tuned by adopting the EgoBridge architecture. When co-training paired images, Optimal Transport was applied between tumor regions, and contrast learning was applied between tumor and background.
TACE: Tumor-Aware Counterfactual Explanations (2024)
종양 의심 부위를 Blob이라는 클러스터를 이용해 세그멘테이션 및 정상 조직 복원 태스크를 수행한 논문입니다. 외부 분류기를 학습 파이프라인에 포함시키기 때문에 BiomedCLIP의 지식을 주입하기 좋은 방법론이라고 생각했습니다.
앞서 여러 생성 방법론들이 언급되었지만 사실 논문 투고를 위해 통일된 음성 샘플 생성모델을 선정할 필요가 있다고 판단하였다. 이에 추가적인 실험을 진행하여 CT,MRI,Ultrasound 세 모달리티에 동시에 적용가능한 방법론을 선정하려고 합니다.