본문 바로가기

인공지능

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence), 인공지능의 일반화 능력 평가

반응형

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)는 인공지능의 일반화 능력을 평가하기 위해 2019년 프랑수아 숄레(François Chollet)가 개발한 벤치마크입니다. 이 벤치마크는 AI 시스템이 학습된 데이터 외부에서 새로운 기술을 얼마나 효율적으로 습득할 수 있는지를 측정합니다.

ARC-AGI의 특징:

  • 추상적 추론 평가: ARC-AGI는 주어진 예시로부터 규칙을 추론하여 문제 속 그림에 대응하는 올바른 결과를 산출하는 방식으로, AI의 추론 능력을 평가합니다.
  • Tech Recipe
  • 인간 수준의 지능 측정: 이 벤치마크는 AI 시스템이 인간과 유사한 수준의 이해력과 문제 해결 능력을 갖추고 있는지를 평가하는 데 중점을 둡니다.
  • Momentous History

최근 성과:

  • 2024년 ARC Prize: 2024년 ARC Prize 대회에서는 최고 점수가 55.5%로 상승하였지만, 여전히 인간 수준인 85%에는 미치지 못했습니다.
  • 브런치
  • GPT-4의 성과: AI 연구자 라이언 그린브라트는 GPT-4를 활용하여 ARC-AGI에서 50%의 정답률을 달성했다고 발표했습니다.
  • Tech Recipe

한계와 비판:

  • 디자인 결함 가능성: 일부 연구자들은 ARC-AGI 테스트 자체에 디자인 결함이 있을 수 있다는 의문을 제기하고 있습니다.
  • Momentous History
  • LLM의 한계: 프랑수아 숄레는 현재 AI 업계가 대형 언어 모델(LLMs)에 지나치게 집중하고 있으며, LLM은 기존 패턴을 학습하여 활용하는 통계적 모델로, 새로운 상황에서의 일반화 능력이 부족하다고 지적합니다.
  • 브런치

향후 전망:

프랑수아 숄레는 ARC-AGI의 해결 시점을 "1년에서 3년 사이"로 예상하고 있으며, 이는 AI 연구의 지속적인 발전에 따라 달라질 수 있습니다.

참고 자료:

ARC-AGI는 인공지능의 일반화 능력을 평가하는 중요한 도구로, AI 연구자들에게 새로운 도전과제를 제시하고 있습니다.

반응형