DeepSeek-V3 능력 해체
MMLU (Massive Multitask Language Understanding) is a new benchmark designed to measure knowledge acquired during pretraining by evaluating models exclusively in zero-shot and few-shot settings.
MMLU(Massive Multitask Language Understanding)는 모델을 제로샷 및 퓨샷 설정에서만 평가하여 사전 학습 중에 습득한 지식을 측정하도록 설계된 새로운 벤치마크입니다.
* One-shot learning : 하나의 샘플 이미지로 클래스를 인식
* Few-shot learning : 몇개의 샘플이미지로 클래스를 인식
* Zero-shot learning : 자연어 처리에서 라벨링되지 않은 (이름붙여 지지 않은) 새로운 클래스(종류)에 대한 분류 작업을 이전에 학습된 모델을 사용하여 분류하는 것. 예를 들어 고양이 사진을 보여주지 않고, 고양이의 특징을 설명 한뒤 고양이를 분류하도록 학습.
C-Eval
C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice questions spanning 52 diverse disciplines and four difficulty levels, as shown below. You may explore our dataset examples at Explore, or check our paper for more details.
C-Eval은 기초 모델을 위한 포괄적인 중국어 평가 모음입니다. 아래에 표시된 대로 52개의 다양한 학문과 4개의 난이도에 걸친 13948개의 객관식 문제로 구성되어 있습니다. Explore에서 데이터 세트 예제를 살펴보거나 자세한 내용은 논문을 확인하세요.
Dataset Card for MATH-500
This dataset contains a subset of 500 problems from the MATH benchmark that OpenAI created in their Let's Verify Step by Step paper. See their GitHub repo for the source file: https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits
MATH-500용 데이터세트 카드
이 데이터세트에는 OpenAI가 Let's Verify Step by Step 논문에서 만든 MATH 벤치마크의 500개 문제 하위 집합이 포함되어 있습니다. 소스 파일은 GitHub 리포지토리에서 확인하세요: https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits