본문 바로가기

scFoundation

(8)
[논문 공부]MSDM: GENERATING TASK-SPECIFIC PATHOLOGY IMAGES WITH A MULTIMODAL CONDITIONED DIFFUSION MODEL FOR CELL AND NUCLEI SEGMENTATION 아카이브 논문2025.10.20링크드인에서 우연히 본 논문인데 biology 분야에서 생성모델을 어떻게 활용하는지 궁금했던터라 한번 살펴보기로 결심했다. 요약을 먼저 하자면,이 논문에서는 세포, 핵 segmentation을 위해 병리 이미지를 생성하는 MSDM이라는 모델을 제안하고 있다. 결과적으로 segmentation model이 다양한 병리 이미지를 잘 분할하지 못하는 문제를 해결하고 싶었던 것 같은데, 이 논문에서는 segmentation model 자체의 모델 (구조) 개선이 아니라, 모델은 기존에서 잘 사용되는 모델을 그대로 사용하되, 성능을 개선하는 보조적인 방법으로써 데이터 증강을 시도했고, MSDM을 통해 합성한 병리 image-mask 쌍을 학습 데이터에 추가하여 데이터 증강을 함으로써..
[논문 공부] A joint analysis of single cell transcriptomics and proteomics using transformer 논문 제목: A joint analysis of single cell transcriptomics and proteomics using transformer출판연도: 2025년 1월학회/저널: npj Systems Biology and Application(Nature Publishing Group) AbstractCITE-seq은 단일 세포 수준에서 RNA 발현량과, 단백질 발현량을 동시에 측정할 수 있는 강력한 방법이지만, 높은 실험 비용이 발생한다는 한계를 지니고 있다. 따라서, 본 논문에서는 scTEL이라는 새로운 딥러닝 프레임워크를 제안한다.scTEL은, transformer encoder layers에 기반하였고, 시퀀싱된 RNA 발현으로부터, 같은 세포 내의 unobserved prote..
[논문 공부] scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders 논문 제목: scButterfly: a versatile single-cell cross-modality translation method via dual-aligned variational autoencoders출판 날짜: 2024년 6월키워드: scButterfly, VAE, cross-modality translation, multi-omics Abstract각각의 세포에서 multi-omics를 동시에 profiling하는 최근의 발전은 세포 이질성, 분자 계층 구조 연구를 가능하게 했다. 하지만, 기술적인 한계로 인해 이를 동시에 측정할 경우 비용 문제와, noisy한 데이터가 얻어진다는 한계가 존재한다. 본 논문에서는 dual-aligned variational encoder와 data aug..
[논문 공부] scGPT: toward building a foundation model for single-cell multi-omics using generative AI 제목: scGPT: toward building a foundation model for single-cell multi-omics using generative AI출판: Nature Methods(2024년 2월)키워드: scGPT, foundation model, generative pretraining 중요도Introduction, Abstract > Methods > Discussion > (Background) > Results AbstractFoundation model을 개발함에 있어서 large-scale diverse datasets + pretrained transformer의 조합이 등장하였다. 이 조합은 세포생물학에서도 사용될 수 있는데, 그 이유는 언어에서 text가 word의..
Geneformer - BERT Geneformer 코드에서 아래 부분은 BERT의 인코더 부분은 공통이고, task별로 다른 output head, 즉 task-specific head가 붙은 모델 클래스를 불러오는 부분이다.BERT가 transformer의 encoder-only model인데, Geneformer는 6개의 transformer encoder units으로 구성된 모델(=encoder only)이므로 그냥 BERT를 불러온 것. from transformers import ( BertForMaskedLM, BertForSequenceClassification, BertForTokenClassification,) task-specific head라는 것은 즉, MLM head -> BertForMas..
[코드 해석] Geneformer HuggingFace 참고https://huggingface.co/ctheodoris/Geneformer/tree/main ctheodoris/Geneformer at main huggingface.co 요구사항은 requirements.txt 참고(패키지 설치) 모델 관련 폴더Geneformer/├── Geneformer-V1-10M├── Geneformer-V2-104M├── Geneformer-V2-104M_CLcancer // 암 세포 데이터에 대해 특화된 pretrained 버전으로 보임 ├── Geneformer-V2-316Mpretrained 된 모델 가중치가 저장됨.V1, V2는 버전, 10M, 104M..등은 파라미터 개수 config.json: 모델 구조 설정(hidden_size,..
[논문 공부] Transfer learning enables predictions in network biology (Geneformer) 제목: Transfer learning enables predictions in network biology출판: Nature Article (2023년 5월)요약: Geneformer Abstract최근, transfer learning이 대두되고 있는데, 이는 large-scale general datasets에서 pretrained된 딥러닝 모델을 downstream tasks에서 fine-tuning후 사용하는 것을 의미한다. 본 논문에서는 context-aware, attention 기반 딥러닝 모델인 Geneformer를 개발하였다. 이 모델은 3천만 single-cell transcriptomes 대규모 corpus를 기반으로 pretrained되어 데이터가 제한된 네트워크 생물학 환경에서도..
[논문 공부] Transformers in single-cell omics: a review and new perspectives 제목: Transformers in single-cell omics: a review and new perspectives출판: Nature Methods (2024년 8월)요약: single-cell omics 분석에 transformer 모델 활용, 다양한 모델 리뷰 및 한계, 향후 연구방향 제시 Abstract양질의 데이터셋이 생겨나면서, 현재의 single-cell models의 한계가 두드러졌다.이에 따라, transformer가 새로운 foundation model로 등장하기 시작하였다. 그 이유는 transformer가 heterogeneous, large-scale datasets의 generalization 능력을 가지고 있기 때문이다.이 논문에서는 먼저 transformer 구조를 제시..