본문 바로가기

반응형

인공지능

(46)
SWE-bench는 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가 SWE-bench는 대규모 언어 모델(LLM)의 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위해 개발된 벤치마크입니다. 이 벤치마크는 GitHub의 12개 인기 있는 Python 저장소에서 수집된 2,294개의 이슈-풀 리퀘스트 쌍으로 구성되어 있습니다. 모델은 주어진 코드베이스와 이슈 설명을 기반으로 해당 문제를 해결하는 패치를 생성하는 과제를 수행합니다. SWEBench주요 특징:실제 데이터 기반 평가: SWE-bench는 실제 오픈 소스 프로젝트에서 발생한 이슈와 그에 대한 해결책을 포함하여, 모델의 현실 세계 문제 해결 능력을 평가합니다. 아카이브다양한 평가 지표: 모델이 생성한 패치의 정확성을 평가하기 위해 단위 테스트를 활용하며, 이는 PR 이후의 동작을 기준으로 합니다. SWEBe..
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence), 인공지능의 일반화 능력 평가 ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)는 인공지능의 일반화 능력을 평가하기 위해 2019년 프랑수아 숄레(François Chollet)가 개발한 벤치마크입니다. 이 벤치마크는 AI 시스템이 학습된 데이터 외부에서 새로운 기술을 얼마나 효율적으로 습득할 수 있는지를 측정합니다. Momentous HistoryARC-AGI의 특징:추상적 추론 평가: ARC-AGI는 주어진 예시로부터 규칙을 추론하여 문제 속 그림에 대응하는 올바른 결과를 산출하는 방식으로, AI의 추론 능력을 평가합니다. Tech Recipe인간 수준의 지능 측정: 이 벤치마크는 AI 시스템이 인간과 유사한 수준의 이해력과 문제 해결 능력을..
OpenAI 새로운 인공지능 모델인 o3 OpenAI는 2024년 12월 20일에 새로운 인공지능 모델인 o3와 그 경량 버전인 o3-mini를 발표했습니다. 이 모델들은 이전의 o1 모델을 기반으로 하며, 복잡한 문제를 해결하기 위한 추론 능력을 향상시키는 데 중점을 두고 있습니다. 로이터주요 특징:향상된 추론 능력: o3 모델은 복잡한 수학, 과학 문제 및 코딩 작업에서 뛰어난 성능을 보이며, 단계별 논리적 과정을 통해 문제를 해결하는 데 특화되어 있습니다. Wired두 가지 버전: OpenAI는 o3와 o3-mini 두 가지 버전을 제공하며, 현재 내부 안전성 테스트를 진행 중입니다. 외부 연구자들에게도 테스트를 위한 접근 권한을 신청받고 있으며, 신청 기간은 2025년 1월 10일까지입니다. 로이터출시 일정: o3-mini는 2025년 ..
오디오 생성 및 편집 분야에서 주목받는 인공지능모델 최근 오디오 생성 및 편집 분야에서 주목받는 모델들은 다음과 같습니다:Fugatto: 다양한 텍스트 지시와 선택적 오디오 입력을 기반으로 오디오를 합성하고 변환하는 모델입니다. 이 모델은 오디오와 언어 간의 의미 있는 관계를 학습하여, 복합적인 지시를 수행할 수 있습니다.UniAudio: 음성, 소리, 음악, 노래 등 다양한 오디오 유형을 생성할 수 있는 범용 오디오 생성 모델입니다. 다양한 입력 조건(예: 음소, 텍스트 설명, 오디오 자체)을 기반으로 여러 종류의 오디오를 생성하며, 100,000시간 이상의 멀티소스 오디오 데이터를 활용하여 학습되었습니다.AudioBox: 자연어 프롬프트를 통해 통합된 오디오 생성을 수행하는 모델로, 음성 및 사운드 등 다양한 오디오 모달리티에서 전례 ..
CAT4D https://cat-4d.github.io/ CAT4D: Create Anything in 4D with Multi-View Video Diffusion ModelsWe present CAT4D, a method for creating 4D (dynamic 3D) scenes from monocular video. CAT4D leverages a multi-view video diffusion model trained on a diverse combination of datasets to enable novel view synthesis at any specified camera poses and timestampscat-4d.github.io CAT4D: Create Anything in 4D wit..
Fugatto,World’s Most Flexible Sound Machine Debuts ​NVIDIA의 Fugatto는 텍스트와 오디오 입력을 기반으로 음악, 음성, 사운드를 생성하거나 변형할 수 있는 혁신적인 생성형 AI 모델입니다. 이 모델은 다양한 오디오 생성 및 변형 작업을 지원하며, 사용자가 텍스트 프롬프트를 통해 원하는 사운드를 직접 제어할 수 있도록 설계되었습니다.주요 기능:텍스트 기반 오디오 생성: 사용자는 텍스트 프롬프트를 입력하여 특정한 음악이나 사운드를 생성할 수 있습니다. 예를 들어, "전자 음악과 함께 개들이 짖는 소리"와 같은 지시를 통해 해당 사운드를 만들어낼 수 있습니다.오디오 변형: 기존의 오디오 파일을 입력하여 악기를 추가하거나 제거하고, 목소리의 억양이나 감정을 변경하는 등 다양한 변형이 가능합니다. 예를 들어, 피아노로 연주된 멜로디를 사..
LiveCodeBench LiveCodeBench는 대규모 언어 모델(LLM)의 코드 관련 응용 분야에서의 성능을 포괄적이고 오염 없이 평가하기 위해 개발된 벤치마크입니다.이 벤치마크는 LeetCode, AtCoder, CodeForces와 같은 세 개의 경쟁 플랫폼에서 지속적으로 새로운 문제를 수집하여, LLM의 코드 생성 능력뿐만 아니라 자기 수정(self-repair), 코드 실행, 테스트 출력 예측 등 다양한 코드 관련 기능을 평가합니다.현재 LiveCodeBench는 2023년 5월부터 2024년 5월까지 발표된 400개의 고품질 코딩 문제를 포함하고 있습니다.이러한 문제를 통해 18개의 기본 LLM과 34개의 명령어 튜닝된 LLM을 평가한 결과, 기존 벤치마크에서의 잠재적 과적합과 모델 간의 성능 차이를 발견하였습..
MATH-500, 수학과 관련된 대학 강의 코드, 시험 명칭, 문제 세트, 또는 특정 수학적 평가 MATH-500은 수학과 관련된 대학 강의 코드, 시험 명칭, 문제 세트, 또는 특정 수학적 평가를 나타낼 수 있습니다. 아래는 MATH-500이 어떤 맥락에서 사용될 수 있는지와 관련된 정보를 제공하는 일반적인 경우들입니다. 추가 정보를 알려주시면 더 구체적인 답변을 제공할 수 있습니다.1. 대학 강의 코드정의:MATH-500은 대학 또는 학계에서 제공되는 고급 수학 강의를 나타내는 코드일 가능성이 있습니다.예시:주제: "고급 미적분학", "수학적 분석", "응용 선형대수학" 등.학위 과정: 학사, 석사, 박사 과정.평가 항목: 문제 풀이, 프로젝트 제출, 중간 및 기말 시험.사용 사례:"MATH-500: 응용 수학적 방법론" 과목은 데이터 과학이나 물리학과 관련된 고급 수학 도구를 다룰 수 있음.2...

반응형