본문 바로가기

인공지능

SWE-bench는 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가

반응형

 

SWE-bench는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크입니다. 이 벤치마크는 GitHub의 12개 인기 있는 Python 저장소에서 수집된 2,294개의 이슈-풀 리퀘스트 쌍으로 구성되어 있습니다. 모델은 주어진 코드베이스와 이슈 설명을 기반으로 해당 문제를 해결하는 패치를 생성하는 과제를 수행합니다.

주요 특징:

  • 실제 데이터 기반 평가: SWE-bench는 실제 오픈 소스 프로젝트에서 발생한 이슈와 그에 대한 해결책을 포함하여, 모델의 현실 세계 문제 해결 능력을 평가합니다.
  • 아카이브
  • 다양한 평가 지표: 모델이 생성한 패치의 정확성을 평가하기 위해 단위 테스트를 활용하며, 이는 PR 이후의 동작을 기준으로 합니다.
  • SWEBench
  • 확장된 버전: SWE-bench의 확장판인 **SWE-bench+**는 데이터셋의 품질과 유효성을 분석하여, 솔루션 누출, 약한 테스트 케이스, 데이터 누출 등의 문제를 식별하고 개선점을 제안합니다.
  • 아카이브

활용 방법:

  • 데이터셋 다운로드: SWE-bench와 그 경량 버전인 SWE-bench Lite는 Hugging Face Datasets를 통해 다운로드할 수 있습니다.
  • SWEBench
  • 평가 환경 설정: Docker를 활용한 컨테이너화된 평가 환경을 제공하여, 재현 가능한 평가를 지원합니다.
  • GitHub
  • 모델 평가: 모델이 생성한 패치를 SWE-bench의 평가 도구를 통해 테스트하고, 성능을 측정할 수 있습니다.
  • GitHub

최근 동향:

  • SWE-bench Verified: OpenAI와의 협력을 통해 인간 검증을 거친 500개의 샘플로 구성된 SWE-bench Verified가 출시되어, 평가의 신뢰성과 견고성을 향상시켰습니다.
  • OpenAI
  • SWE-agent: SWE-agent는 SWE-bench 테스트 세트에서 12.47%의 해결률을 달성하며, 최신 성능을 보여주고 있습니다.
  • SWEBench

참고 자료:

SWE-bench는 LLM의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하는 데 중요한 도구로 활용되고 있으며, 지속적인 개선과 확장을 통해 AI 연구에 기여하고 있습니다.

 

 

 

반응형