분류 전체보기 21

[논문 리뷰] Accurate predictions on small data with a tabular foundation model (TabPFN)

Introduction연구 배경수작업으로 설계된 알고리즘 구성 요소들은 더 높은 성능을 보이는 end-to-end 학습 방식으로 대체되어 왔다. 컴퓨터 비전에서는 SIFT와 HOG와 같은 수작업 특징들이 학습된 convolution으로 대체되었고, 자연어 처리에서의 문법 기반 접근 방식은 학습된 transformer로 대체되었다.표형 데이터셋은 텍스트나 이미지와 같은 비가공 데이터 형태와 구별되는 다양한 특성을 가진다.딥러닝 방법들은 전통적으로 표형 데이터에서 어려움을 겪어왔으며, 이는 데이터셋 간의 이질성과 원시 데이터 자체의 이질성 때문이다. 이러한 이유로 트리 기반 모델과 같은 비딥러닝 방법들이 지금까지 가장 강력한 경쟁자로 자리잡아 왔다.기존 연구의 한계전통적인 머신러닝 모델들은 아래와 같은 한계..

카테고리 없음 2026.04.06

[논문 리뷰] TabNet: Attentive Interpretable Tabular Learning

1. Introduction연구 배경DNN은 이미지, 텍스트, 오디오 분야에서 두드러진 성공을 보여왔으며, 원시 데이터를 의미 있는 표현으로 효율적으로 인코딩하는 표준 아키텍처들이 빠른 발전을 이끌었다.반면, 테이블 데이터는 가장 흔한 데이터 유형임에도 불구하고, 딥러닝 기반 접근이 상대적으로 덜 탐구되어 왔다. 현재까지도 앙상블 결정 트리의 다양한 변형이 대부분의 응용에서 지배적인 성능을 보이고 있다. 그 이유는 아래와 같다.표현 효율성 : DT 기반 방법은 테이블 데이터에서 흔히 나타나는 결정 경계를 근사하는 데 효율적이다.높은 해석 가능성 : 기본적인 트리 구조를 통해 해석이 쉽고, 앙상블 모델에서도 다양한 사후 해석 기법이 존재한다.빠른 학습 속도 : 트리 기반 모델은 일반적으로 학습 속도가 빠르..

카테고리 없음 2026.04.06

[Denoising Diffusion Probabilistic Models] 논문 리뷰

1. Introduction연구 배경최근 Deep Generative Models은 다양한 데이터 도메인에서 고품질 샘플 생성 성능을 보여왔으며, 이미지 및 오디오 생성에서 매우 높은 품질을 달성했다.GAN (Generative Adversarial Networks)Autogressive ModelsFlow-Based ModelsVAEs (Variational Autoencoders)또한, GAN과 경쟁 가능한 이미지 생성 성능을 보이는 모델들도 등장하기 시작했다.EBM (Energy-Based Models)Score Matching 기반 Model기존 연구(Diffusion)의 한계Diffusion 모델이 존재하기는 했으나, 고품질 샘플 생성 능력이 입증되지 않았다.기존 확률 모델들과 비교했을 때, l..

카테고리 없음 2026.03.25

[DeepSeek] 논문 리뷰

1. Introduction연구 배경추론 능력의 중요성 : 추론 능력은 인간 지능의 핵심 요소이며, 수학 문제 해결, 논리적 추론, 프로그래밍과 같은 복잡한 인지 작업 수행이 필수적이다.추론 능력 향상을 위한 방법론 등장 :Chain-of-Thought(CoT) 프롬프팅을 사용하면, 모델이 중간 추론 과정을 생성하면서 복잡한 문제 해결 성능이 향상된다.post-training 단계에서 multi-stop reasoning trajectory를 학습하면, 추가적인 성능 향상이 관찰된다.기존 연구의 한계인간 주석에 의존하기 때문에, 확장성이 제한되고, 동시에 인지적 편향이 도입될 수 있다.모델이 인간의 사고 과정을 그대로 모방하도록 제한되기 때문에, 성능이 인간이 제공한 예시의 수준에 의해 제한된다.인간 추..

카테고리 없음 2026.03.11

[DPO] 논문 리뷰

1. Introduction기존 LLM의 문제 : 방대한 데이터로 학습해서 뛰어난 능력을 가지지만, 그 데이터에는 원치 않는 행동이나 잘못된 정보도 섞여 있을 수 있음→ 모든 걸 그대로 쓰게 하면 위험할 수 있기 때문에, 안전하고 유용한 방식으로만 반응하도록 조정해야 함 기존 문제 해결 방법 : PPO기반 RLHFRLHF : 인간 선호도 데이터셋을 보상 모델에 적합시키고, PPO와 같은 RL을 사용하여 원래 모델에서 과도하게 벗어나지 않으면서 높은 보상을 할당받는 응답을 생성하도록 언어 모델 정책을 최적화시키는 방법문제 : 지도 학습보다 훨씬 복잡하며, 상당한 계산 비용이 발생함본 논문의 아이디어 : DPODPO : 보상 모델링이나 강화 학습을 없애고 인간 선호도에 부합하도록 언어 모델을 직접 최적화하는..

카테고리 없음 2025.08.13

[LLaMA] 논문 리뷰

1. Introduction기존 연구 방향- 대규모 텍스트 말뭉치로 사전학습된 언어 모델을 few-shot으로 새로운 작업에 활용함- 모델 크기를 키울수록 성능이 향상된다는 관찰 아래, 수천억~수조개 파라미터급 초대형 모델 개발을 진행함기존 연구의 한계- 주어진 학습 예산 내에서 더 큰 모델 보다 더 많은 토큰으로 학습한 상대적으로 작은 모델이 효율적일 수 있음- 서비스 환경에서 중요한 추론 속도와 비용을 충분히 반영하지 않아, 대형 모델이 실사용에 적합하지 않을 수 있음- 대부분의 대형 모델이 비공개 또는 문서화되지 않은 데이터에 의존함본 논문에서의 아이디어- 7B, 13B, 33B, 65B 파라미터 모델을 포함한 5가지 크기 범위에서, 기존보다 훨씬 많은 토큰으로 학습한 언어 모델인 LLaMA를 제..

카테고리 없음 2025.08.07

[CoT] 논문 리뷰

1. Introduction연구 배경 : 언어 모델의 크기를 키우는 것은 성능 향상과 샘플 효율성 증진 등의 다양한 이점들이 있지만, 단순히 모델 크기를 키운다고 해서 어려운 과제에서 높은 성능을 달성하지는 못함 대형 언어 모델의 추론 능력을 끌어낼 수 있는 기존 방법과 한계1. 자연어 기반 추론 과정 생성 (우리가 푸는 과정 자체를 일일이 자연어로 모델에게 가르치는 것 !)-> 단순한 입력-출력 쌍보다 훨씬 복잡한 고품질의 추론 데이터를 대량으로 만드는 데 많은 비용이 듦2. 문맥 기반의 few-shot 학습 (예시 몇 개 던져주고, 알아서 따라해보라고 하는 것 !)-> 추론 능력이 요구되는 작업에서 잘 작동하지 않으며, 모델 규모를 키워도 성능 향상이 제한적임 본 논문의 아이디어: 입력, 사고의 흐름..

카테고리 없음 2025.07.24

[Chinchilla] 논문 리뷰

1. Introduction연구 배경 : 최근 거대한 LLMs들이 개발되며, 모델 파라미터 수가 500B를 초과하는 수준에 도달함→ 훈련에 막대한 연산량과 에너지 비용이 들어감 (훈련 가능한 연산량은 정해져 있는데 ...) 기존 연구의 한계기존 연구 : 모델 크기가 증가하면, 성능이 향상한다는 power-law 관계를 제시함→ 연산량이 10배 증가 시, 모델 크기 5.5배 증가, 학습 토큰 수 1.8배 증가해야한다고 주장→ 즉, 모델 크기를 중심으로 확장해야 성능이 올라간다고 주장함(like ) 본 논문의 아이디어: 고정된 연산량(FLOPs) 예산이 주어졌을 때, 모델 크기와 훈련 토큰 수의 균형은 어떻게 설정해야 할까?→ 모델 크기와 토큰 수를 동일 비율로 증가시켜야 성능이 최적화된다고 주장함 본 논문..

카테고리 없음 2025.07.16

[LoRA] 논문 리뷰

1. Introduction배경현대 NLP 응용은 하나의 대규모 사전학습(pre-trained) 언어모델을 다양한 다운스트림 과제에 맞춰 fine-tuning하는 방식을 채택합니다.하지만 fine-tuning은 모델의 모든 파라미터를 업데이트하므로, 과제별로 모델 전체를 저장·배포해야 해 비용 및 관리 측면에서 비효율적이며, GPT-3(175B)와 같은 극대화된 모델에서는 현실적인 장애가 됩니다.그니까 정리하면,범용 덱스트로 미리 커다란 모델 학습 -> 각 모델에 맞춰 추가 학습할 때, 원래 학습된 모델의 모든 파라미터를 그 도메인 데이터에 맞춰 파인튜닝 진행 여기서 문제 ! 모델 크기가 수십억 ~ 수백억 파라미터이다보니, 파인튜닝하다 모델 전체를 새로 저장하고 관리하는 데에 문제가 생김 기존 파라미터 ..

카테고리 없음 2025.07.08

[RAG] 논문 리뷰

1. IntroductionRAG의 등장 배경 기존 모델 (ex. GPT, BERT, T5, BART 등)사전학습된 신경 언어 모델 ( 외부 문서나 지식베이스를 실시간으로 검색하지 않아도,학습된 파라미터 속에 간접적으로 저장된 지식을 기반으로 답변을 생성하는 모델 )문제쉽게 확장하거나 수정할 수 없음예측 결과에 대한 명확한 근거 제공 어려움사실이 아닌 내용을 생성할 수 있음 부분적 해결책 (ex. REALM, ORQA)파라메트릭 메모리(모델의 파라미터 안에 저장된 지식)와 논파라메트릭 메모리 (외부 문서를 검색해서 활용하는 지식)를 결합한 하이브리드 모델대표 모델 : REALM, ORQA ( 마스킹 언어 모델 : 파라메트릭 모델 + 미분 가능한 검색기 : 논파라메트릭 모델)특징지식 수정, 확장 가능 (외..

카테고리 없음 2025.06.30