스텝펀, ‘스텝 3.7 플래시’ 공개..."클로드 97% 성능인데 비용은 1/9"

차세대 AI 모델, 이미지 이해와 작업 수행 능력 대폭 향상

새롭게 공개된 인공지능 모델은 이미지를 이해하는 기능을 처음으로 갖추었으며, 프로그래밍 작업 처리와 도구 활용, 긴 시간이 필요한 복잡한 업무 수행에서 이전 버전보다 훨씬 뛰어난 성과를 보여주었습니다.

총 1980억 개에 달하는 변수를 보유한 이 모델은 희소 전문가 혼합 방식을 기반으로 설계되었습니다. 언어 처리 부분과 이미지 인식 부분을 결합하여 글과 그림을 동시에 이해할 수 있도록 만들어졌습니다.

실제 계산 과정에서는 전체 변수 중 약 110억 개만 활성화하는 구조를 채택했습니다. 이를 통해 대규모 모델의 성능은 유지하면서도 실제 처리 비용은 소규모 모델 수준으로 낮출 수 있었습니다.

소프트웨어 개발 평가에서 56.26%를 기록하며 이전 모델보다 약 5% 향상된 결과를 보였습니다. 명령줄 기반 작업 능력 평가에서도 59.55%를 달성하여 크게 개선되었습니다.

특히 다양한 실행 환경에서의 안정성이 개선되었습니다. 이전 모델이 환경에 따라 43~73%의 큰 성능 차이를 보인 반면, 새 모델은 64.5~71.5% 범위로 편차가 줄어들어 어떤 플랫폼에서도 일관된 성능을 발휘할 수 있게 되었습니다.

일반적인 작업은 가벼운 모델이 처리하고, 복잡한 계획 수립이나 반복 실패 상황에서만 더 강력한 상위 모델의 도움을 받는 ‘조언자 모드’를 새롭게 도입했습니다.

이 모드를 사용하면 최고 성능 모델의 97% 수준에 도달하면서도 작업당 비용은 9분의 1 수준인 0.19달러에 불과합니다.

시각 검색 도구를 통해 최신 정보나 드문 물체를 찾을 수 있으며, 시각 질의응답 평가에서 79.16%를 기록했습니다. 이는 주요 경쟁 모델들과 비슷하거나 앞서는 수준입니다.

이미지 확대, 축소, 자르기, 영역 분석 등을 자동으로 수행할 수 있으며, 초고해상도 이미지 분석에서도 89.13%(4K), 86.34%(8K)의 높은 점수를 달성했습니다.

모델은 명시적으로 학습받지 않았음에도 여러 도구를 스스로 조합해 사용하는 능력을 보였습니다. 예를 들어 화면 코드를 생성한 뒤 직접 실행하여 결과를 확인하고, 문제가 있으면 자동으로 수정하는 행동이 관찰되었습니다.

안드로이드 환경에서 여러 앱을 넘나들며 긴 작업을 수행하는 평가에서 61.87%를 기록하여 주요 경쟁 모델들을 앞질렀습니다.

도구를 활용한 검색 기반 추론에서 47.20%를 기록하며 이전 텍스트 전용 점수인 35.68%를 크게 상회했습니다. 다양한 검색 평가에서도 75.82%, 92.82%의 우수한 성과를 보였습니다.

연구 능력 평가에서는 71.68%를 달성하여 주요 경쟁 모델을 앞섰으며, 최상위 모델에 근접한 성능을 보였습니다.

여러 도구를 협력하여 사용하는 능력 평가에서 49.5%, 실제 환경에서 자율 작업을 수행하는 능력 평가에서 67.1%를 기록했습니다.

개발사는 이 모델을 “질문에 답하는 AI가 아니라 실제 업무를 수행하는 작업 중심 모델”이라고 정의했습니다.

금융, 회계, 데이터 분석 등 산업별 전문가들과 협력하여 전문 지식을 모델에 내재화했으며, 44개 직군을 평가하는 테스트에서도 45.8%의 성과를 달성했습니다.

API 사용 가격은 입력 기준 100만 토큰당 0.20달러(캐시 활용 시 0.04달러), 출력 기준 100만 토큰당 1.15달러로 책정되었습니다. 모델은 오픈소스로 공개되어 누구나 다운로드하여 사용할 수 있습니다.

Post Views: 4