Skip to content

Instantly share code, notes, and snippets.

@shane-shim
Created August 2, 2025 08:48
Show Gist options
  • Select an option

  • Save shane-shim/1d1d0e08f1da4b91578a1bf0e02d6330 to your computer and use it in GitHub Desktop.

Select an option

Save shane-shim/1d1d0e08f1da4b91578a1bf0e02d6330 to your computer and use it in GitHub Desktop.
다중모달 대규모 언어 모델과 물리학 시각 과제: 성능과 비용의 비교 분석 (한글 번역)

다중모달 대규모 언어 모델과 물리학 시각 과제: 성능과 비용의 비교 분석

Giulia Polverini and Bor Gregorcic

웁살라 대학교 물리학 및 천문학과, Box 516, 75120, 웁살라, 스웨덴

초록

텍스트와 시각 입력을 모두 처리할 수 있는 다중모달 대규모 언어 모델(MLLM)은 튜터링, 형성평가, 채점 등 물리학 교육에서의 활용이 점점 더 많이 탐구되고 있습니다. 본 연구는 표준화된 이미지 기반 물리학 연구 기반 개념 평가(개념 인벤토리)에 대해 공개적으로 사용 가능한 다양한 MLLM을 평가합니다. 우리는 102개의 물리 문항에 걸쳐 3개 주요 제공업체(Anthropic, Google, OpenAI)의 15개 모델을 벤치마킹하며, 두 가지 주요 질문에 초점을 맞춥니다: (1) 이러한 모델들이 시각적 표현을 포함하는 개념적 물리학 과제에서 얼마나 잘 수행하는가? (2) 이들의 사용과 관련된 재정적 비용은 무엇인가? 결과는 성능과 비용 모두에서 높은 변동성을 보여줍니다. 테스트된 모델의 성능은 약 76%에서 21%까지 다양합니다. 또한 비싼 모델이 항상 저렴한 모델보다 우수한 성능을 보이는 것은 아니며, 상황의 요구사항에 따라 저렴한 모델이 일부 작업에 충분히 적합할 수 있음을 발견했습니다. 이는 특히 재정 자원이 제한적이거나 MLLM의 대규모 교육 구현 상황에서 관련이 있습니다. 이러한 분석을 제공함으로써, 우리의 목표는 교사, 기관 및 기타 교육 이해관계자들이 AI 지원 물리학 교육에서 사용할 모델 선택에 대해 증거 기반 결정을 내릴 수 있도록 정보를 제공하는 것입니다.

키워드: 다중모달 대규모 언어 모델; 시각적 문제 해결; 비용-성능 분석

1. 서론

1.1 물리학 교육에서의 대규모 언어 모델

인공지능(AI)은 교육에서 점점 더 중요한 역할을 하고 있습니다. 지난 10년 동안 AI 기반 도구들은 지능형 튜터링 시스템부터 적응형 학습 플랫폼까지 광범위한 교육 애플리케이션에 통합되었습니다 [1-3]. AI 도구는 특히 자원이 제한된 환경에서 더 큰 확장성, 개인화 및 효율성을 약속합니다 [4, 5].

대규모 데이터셋의 통계적 패턴을 기반으로 인간과 유사한 텍스트를 생성하는 대규모 언어 모델(LLM) [6]은 이러한 추세를 크게 가속화했습니다. 이들의 향상된 성능은 물리학을 포함한 특정 주제 교육에 대한 응용에 대한 관심을 증가시켰습니다 [7, 8]. 연구자들은 교육 환경에서의 실제 물리학 및 공학 시험을 사용하여 다양한 LLM의 능력을 평가했습니다 [9-12].

물리학 교육 분야 전반에서 LLM이 어떻게 수행되는지를 조사하는 연구가 증가하고 있습니다. 이 작업의 많은 부분은 ChatGPT [13]에 중점을 두고 있으며, 이는 여러 물리학 관련 작업에서 주목할 만한 능력을 보여주었습니다. 개념적 추론 [14, 15]과 문제 해결 [16, 17]을 조사한 연구들은 챗봇이 일관되고 잘 구조화된 솔루션을 생성할 수 있지만, 종종 인간과 같은 의미 형성을 재현하는 데 한계를 보인다는 것을 보여주었습니다. 에세이 스타일 과제에서 ChatGPT가 생성한 응답은 우수한 대학생과 비교할 만한 채점 수준에 도달했으며 [18], 이는 재택 시험의 유효성에 대한 우려를 제기합니다. 또한 물리학 관련 프로그래밍 작업 [10, 19]에서 강점을 보였으며, 구조화된 코딩 작업에서 안정적으로 수행하고, 실험실 기반 문제 해결 [20]에서 실험 데이터를 분석하고 통계 분석을 수행했습니다.

최근에는 추론 언어 모델(RLM) [21]이라고 불리는 새로운 종류의 모델(예: OpenAI의 o1과 o3, DeepSeek-R1, Alibaba의 QwQ)이 복잡한 다단계 작업에서의 성능을 특별히 향상시키기 위해 도입되었습니다. 일반적인 언어 유창성을 위해 주로 개발된 초기 챗봇과 달리, RLM은 단계별 추론을 모방하고, 중간 솔루션 단계를 생성하며, 도메인 관련 절차를 적용하고, 프로세스 전반에 걸쳐 더 나은 일관성을 유지하도록 설계되었습니다 [22]. 초기 평가는 이러한 모델이 수학적 문제 해결과 STEM 중심 개념적 추론을 포함하는 벤치마크 평가에서 이전 세대를 능가한다는 것을 시사하며, 물리학 교육에 대한 응용에 대한 관심이 증가하고 있습니다 [23, 24]. 그러나 이러한 능력은 특히 고복잡도 문제 해결에서 중요한 한계 없이는 나타나지 않습니다 [25].

2023년 말부터 LLM은 이미지, 비디오 및 기타 데이터와 같은 텍스트 이상의 입력을 처리할 수 있는 시스템인 다중모달 대규모 언어 모델(MLLM) [26, 27]로 업그레이드되었습니다. LLM이 순차적 텍스트 처리에 최적화된 단일 트랜스포머 아키텍처를 기반으로 구축되는 반면, MLLM은 별도의 모달리티별 인코더(예: 이미지용 비전 트랜스포머, 텍스트용 트랜스포머)를 통합합니다. 이러한 인코더는 각각의 입력을 처리하고 임베딩을 출력하며, 이는 일반적으로 교차 주의 또는 토큰/기능 수준 융합을 통해 정렬되고 융합되어 공유 표현으로 통합됩니다 [28]. 이를 통해 모델은 여러 모달리티에 걸쳐 입력을 처리하고(종종 출력도 생성) 할 수 있습니다.

물리학 교육에서 이미지 처리로의 전환은 특히 관련이 있습니다. 물리학은 근본적으로 다양한 시각적 표현에 의존하는 학문입니다. 그래프, 회로도, 자유체 다이어그램, 벡터장, 실험 설정의 스케치 및 기타 표현은 단순히 보충적인 것이 아니라 물리학 개념적 추론, 문제 해결에 필수적이며, 결과적으로 물리학 교육에서도 중심적인 역할을 합니다 [29].

이미지를 처리할 수 있는 최초로 널리 접근 가능한 모델인 ChatGPT-4는 물리학 교육 연구 커뮤니티로부터 초기 관심을 끌었습니다. 예를 들어, 최초로 발표된 평가 중 하나에서 ChatGPT-4는 운동학 그래프 이해 테스트(TUG-K)에서 테스트되었습니다 [30]. 모델은 고등학생과 비교할 만한 성능 수준을 달성했지만, 상세한 분석은 실패의 주요 이유가 그래프의 시각적 오해석이었음을 밝혔습니다.

곧이어 다양한 AI 회사의 다양한 가격과 성능 계층으로 제공되는 비전 가능 모델의 증가와 함께 비교 평가가 나타나기 시작했습니다. 이러한 연구들은 모델 패밀리와 버전 간의 차이점을 조사하고 [31-35], 언어를 비교하며 [36], 무료 대 유료 액세스 수준을 비교합니다 [37]. 이러한 비교 연구는 모델이 텍스트 전용 작업에서는 잘 수행할 수 있지만, 주요 병목 현상은 시각적 입력을 해석하는 데 있다는 것을 일관되게 보여줍니다. 실제로 작업이 이미지 해석을 요구할 때 관련된 특정 물리학 하위 도메인에 관계없이 성능이 저하되는 경향이 있습니다 [36]. 대신 정확도는 시각적 표현이 제기하는 요구 유형에 더 많이 의존하는 것으로 보입니다. 예를 들어, Polverini et al. [34]은 ChatGPT-4o가 공간적 및 체화된 추론(예: 오른손 법칙 사용)을 포함하는 작업에서 어려움을 겪는다고 강조합니다.

또한 물리학 교육에서 AI 기반 시스템이 교사를 어떻게 지원할 수 있는지에 초점을 맞춘 연구가 증가하고 있습니다. 그 이유 중 하나는 물리학을 포함하여 [39] 자격을 갖춘 교사의 지속적인 부족으로 인해 크게 증가한 학생/교사 비율 [38]이 교육 기관과 기존 교사들에게 심각한 압력을 가하고 있기 때문입니다. 동시에 개인화된 학습에 대한 수요가 증가하고 있습니다: 교사들은 적시에 피드백을 제공하고 [40], 맞춤형 지도를 제공하며 [41], 대규모로 공정한 채점을 제공해야 하는 반면 [42], 그들의 능력은 본질적으로 제한적입니다 [43]. 채점 [44, 45], 팁 및 피드백 생성 [46, 47], 장애가 있는 학생 지원 [48]과 같은 작업은 종종 학생이 그린 표현의 분석, 그러한 시각적 표현과 결합된 설명의 생성, 시각적으로 복잡한 응답의 평가를 포함합니다. MLLM은 교사들이 이러한 작업에서 부담을 덜어주는 하나의 가능한 솔루션으로 점점 더 고려되고 있습니다.

그러나 초기 연구 결과는 MLLM이 일반적인 실수를 발견하고 유용한 피드백을 제공할 수 있지만, 종종 학생 추론의 미묘함을 간과하고 뉘앙스 있는 차별화된 평가를 제공하는 데 어려움을 겪는다는 것을 나타냅니다 [49]. 이러한 단점을 해결하려면 신중하게 설계된 프롬프팅 전략과 고유한 신뢰성 부족의 영향을 최소화하기 위한 기타 방법이 필요하며 [50], 이러한 모델의 약점을 식별하여 그들이 부적합한 작업을 수행하지 않도록 해야 합니다. Mok et al. [45]은 물리학 문제의 학생 솔루션에 대한 MLLM의 피드백 및 채점 품질이 동일한 문제에 대한 시스템 자체의 성능과 상관관계가 있음을 발견했습니다. 즉, 좋은 주제 성능은 교육적 가치의 전제 조건입니다. 이러한 이유로 AI가 피드백을 제공하거나, 채점하거나, 학생을 지도할 것으로 예상되는 작업에 대해 AI를 테스트하는 것이 의미가 있습니다.

최근의 모든 진보에도 불구하고, 서로 다른 교육 상황에서 MLLM이 어떻게 수행되는지에 대해 우리가 아는 것은 여전히 제한적이며 종종 산발적이거나 비공식적인 보고서에 기반합니다. 사용 가능한 정보의 대부분은 독점적인 데이터셋과 방법을 사용하여 이러한 모델을 구축하는 회사에서 나옵니다. 결과적으로 교육자들이 이러한 모델이 실제 교육 애플리케이션에서 실제로 얼마나 잘 작동할지 판단하기가 어렵습니다. 동시에 이러한 도구는 교육을 위한 즉시 사용 가능한 솔루션으로 널리 마케팅되고 있으며(예: [51, 52]), 이는 비현실적인 기대를 불러일으키고 AI 도구를 적절하지 않거나 효과적이지 않은 방식으로 사용하게 할 수 있습니다. 교육과 학습에서 MLLM을 책임감 있게 사용하려면 물리학을 포함한 다양한 지식 영역에서의 성능에 대한 독립적인 연구가 필요합니다.

다양한 모델의 성능을 탐구하는 것과 함께 테스트된 모델의 실제 사용 비용을 비교할 필요도 있습니다. 다양한 MLLM은 개별 쿼리에 대해서는 종종 적당하지만 기관 사용으로 확장될 때 상당해질 수 있는 다양한 가격과 함께 제공됩니다. 그러나 교육에서 AI 도구를 사용하는 것에 대한 관심이 증가하고 있음에도 불구하고, 비용 효과성을 체계적으로 평가하거나 모델 간 사용 기반 가격을 비교하는 연구가 부족합니다. 이러한 비용을 이해하는 것은 전체 클래스 또는 교육 프로그램에 걸쳐 이러한 모델을 배포하는 타당성을 평가하는 데 관련이 있습니다. 일반적으로 모델 제공업체는 입력 및 출력 토큰에 대한 별도의 요금으로 토큰(즉, 텍스트 또는 데이터 단위의 조각) 측면에서 사용 비용을 지정하며, 종종 백만 토큰당 비용으로 표현됩니다. 그러나 주어진 쿼리에서 처리되는 토큰 수를 추정하는 것은 항상 간단하지 않습니다 [53]. 토큰 수는 텍스트의 길이와 복잡성뿐만 아니라 이미지의 존재(MLLM의 경우) 또는 확장된 추론 체인(RLM의 경우)에 의해서도 영향을 받을 수 있습니다. 이러한 요인들은 상세한 사용 데이터 없이는 정확한 비용 예측을 어렵게 만들며, 이는 교육 계획을 위한 투명하고 접근 가능한 가격 분석의 필요성을 강조합니다.

이는 교육에서 AI 도구의 채택 증가가 기존의 기술 격차를 강화할 위험이 있기 때문에 관련이 있습니다 [54, 55]. 가장 유능한 모델이 엄청난 비용과 함께 제공된다면, 재정이 풍부한 기관만이 이를 감당할 수 있을 것이며, 자원이 부족한 학교와 학생들은 불리한 위치에 놓이게 됩니다. 이는 양질의 교육에 대한 공평한 접근을 향한 노력을 약화시킵니다. 성능-비용 관계를 분석함으로써 우리는 저비용 모델이 충분한 교육적 가치를 제공하는지 더 잘 이해할 수 있고, 효과적인 AI 지원 학습 도구가 더 광범위한 학습자와 기관에 접근 가능하도록 보장하는 데 도움이 될 수 있습니다.

따라서 다중모달 AI 도구는 물리학 교육에서 약속과 한계를 모두 보여줍니다. 초기 증거는 MLLM이 물리학 교육과 학습을 모두 지원할 수 있음을 시사하지만, 신뢰성과 배포의 비용 영향에 대한 의문이 남아 있습니다. 이러한 고려사항이 본 연구의 동기가 됩니다.

1.2 연구 목표

본 연구에서는 시각적 해석을 포함하는 개념적 물리학 질문 세트에 대해 일부 RLM도 포함하는 공개적으로 사용 가능한 여러 MLLM을 벤치마킹합니다. 여러 제공업체의 모델을 동일한 조건에서 평가하고 해당 결과를 해당 모델 사용 비용과 결합함으로써, 교사, 기관 및 기타 이해관계자가 자신의 필요와 예산에 맞는 올바른 도구를 선택하는 데 필요한 정보를 제공하는 것을 목표로 합니다.

다음과 같은 연구 질문을 제시합니다:

  1. 2025년 중반의 다양한 MLLM은 시각적 표현의 해석이 필요한 개념적 물리학 작업에서 어떻게 수행되는가? 이 질문에 답하는 것은 시각적 해석이 필수적인 개념적 물리학 작업에서 가장 널리 사용되는 MLLM의 능력에 대한 최신의 독립적인 평가를 제공하는 것을 목표로 합니다. 다양한 모델이 어떻게 수행되는지 이해하는 것은 튜터링, 채점 또는 피드백 생성 목적으로 사용을 고려하는 물리학 교육자에게 중요합니다.

  2. 테스트된 각 모델을 실행하는 것과 관련된 실제 재정적 비용은 무엇인가? 이 질문에 답하는 것은 저렴한 모델이 교육 배포에 충분한 성능을 제공할 수 있는지 결정하는 데 도움이 됩니다. 비용은 대규모 학생 인구를 서비스하거나 빠듯한 예산 내에서 작업하는 기관에게 핵심 고려사항이며, 성능-가격 균형을 탐구하는 것은 MLLM의 지속 가능하고 공평한 교육 구현과 관련이 있습니다.

2. 방법론

2.1 모델 선택

이미지 기반 물리학 작업에서 MLLM의 성능을 평가하기 위해 세 개의 주요 제공업체(Anthropic, Google, OpenAI)로부터 공개적으로 사용 가능한 비전 가능 모델 샘플을 선택했습니다. 표 1은 연구에 포함된 모델과 데이터 수집 시점의 선언된 토큰 기반 가격을 요약합니다.

우리의 선택은 다음 기준에 따라 이루어졌습니다. 첫째, 애플리케이션 프로그래밍 인터페이스(API)를 통해 접근 가능한 다중모달 모델만 포함했습니다. 둘째, 프리미엄 계층 시스템(예: Claude Opus 4, Gemini 2.5 Pro, o3)과 더 가벼운 대안(예: Claude Haiku 3.5, GPT-4.1 시리즈 및 Gemini 2.0 Flash)을 모두 포함하여 광범위한 성능과 가격 스펙트럼을 포괄하는 것을 목표로 했습니다. 이를 통해 잠재적인 교육 배포를 위한 다양한 모델의 비용 효과성을 탐구할 수 있었습니다.

잠재적인 트레이드오프를 고려하는 것은 접근성과 지속 가능성 이유로 관련이 있습니다. 예를 들어, 교육 환경에서 더 유능한(그리고 비싼) 모델에 대한 접근의 차이는 기술 격차에 기여할 수 있으며, 더 비싼 모델을 감당할 수 있는 수단을 가진 조직과 개인이 유리한 위치에 있을 수 있습니다. 또한 덜 비싸고 자원을 덜 요구하는 모델의 성능이 더 많은 자원을 사용하는 모델만큼 좋다면, 덜 자원을 많이 사용하는 모델을 사용하는 것이 환경적으로 책임감 있습니다.

표 1: 선택된 AI 모델의 설명. 가격은 백만 토큰당 USD로 보고됩니다. 테스트된 Gemini 2.5 Pro 및 Flash 모델은 2025년 6월에 출시된 공개적으로 사용 가능하고 안정적인 버전과 동일합니다.

AI 회사 이름 모델 입력 가격 출력 가격
Anthropic [56] Claude Opus 4 claude-opus-4-20250514 15 75
Claude Sonnet 4 claude-sonnet-4-20250514 3 15
Claude Haiku 3.5 claude-3-5-haiku-20241022 0.8 4
Google [57, 58] Gemini 2.5 Pro gemini-2.5-pro-preview-06-05 1.25 10
Gemini 2.5 Flash gemini-2.5-flash-preview-05-20 0.30 2.5
Gemini 2.0 Flash gemini-2.0-flash 0.10 0.4
Gemma 3-27b gemma-3-27b-it 0 0
Gemma 3-4b gemma-3-4b-it 0 0
OpenAI [59] o3 o3-2025-04-16 2 8
o4 mini o4-mini-2025-04-16 1.10 4.4
GPT-4.1 gpt-4.1-2025-04-14 2 8
GPT-4.1 mini gpt-4.1-mini-2025-04-14 0.4 1.6
GPT-4.1 nano gpt-4.1-nano-2025-04-14 0.10 0.4
GPT-4o gpt-4o-2024-11-20 2.5 10

2.2 과제 선택

이미지 기반 개념적 물리학 작업에서 모델 성능을 평가하기 위해 확립된 개념 인벤토리를 선택했습니다. 물리학 개념 인벤토리는 주제에 대한 학생들의 개념적 이해를 조사하기 위해 개발된 연구 기반 객관식 평가 도구입니다. 테스트의 각 항목은 일반적으로 질문과 여러 개의 응답 옵션을 제시합니다. 표준화된 구조, 개념적 추론에 대한 초점, 종종 물리학 시각적 표현과 결합되어 시각적으로 풍부한 물리학 작업을 해결하는 AI 시스템의 능력을 평가하는 데 적합합니다.

이 연구를 위해 학부 물리학의 여러 영역을 다루는 네 가지 테스트를 선택했습니다: 운동학(TUG-K), 전자기학(BEMA), 양자역학(QMVI), 기하광학(FTGOT). 사용된 인벤토리에 대한 자세한 내용은 표 2에 요약되어 있습니다. 이러한 테스트는 물리학 교육 연구 커뮤니티 내에서 잘 검증되었으며 기관 전반에 걸쳐 널리 사용됩니다. 따라서 기관별 평가가 아닌 개념적 이해의 표준 척도를 나타냅니다. 또한 거의 전적으로 이미지 기반이므로 MLLM의 시각 처리 능력을 평가하는 연구의 초점과 일치합니다: 총 102개 항목 중 100개가 물리학 시각적 표현의 해석을 요구합니다.

그러나 이 연구는 선택된 물리학 하위 도메인 전반에 걸친 모델 성능의 세밀한 분석을 수행하는 것을 목표로 하지 않는다는 점을 명확히 하는 것이 중요합니다. 우리는 예를 들어 모델이 역학 대 전자기학에서 얼마나 잘 수행하는지 비교하려고 하지 않습니다. 이는 우리의 이전 관찰이 성능이 콘텐츠 영역 자체에 직접적으로 연결되지 않고 작업에서 시각적 표현을 분석하는 데 필요한 개념적 추론 유형에 연결된다는 것을 시사하기 때문입니다 [37]. 즉, 모델이 시각적 입력을 해석하고 추론해야 하는 방법의 특성이 특정 주제보다 더 중심적인 역할을 합니다.

그러나 종종 간접적인 연결이 있습니다: 특정 유형의 시각적 표현은 특정 물리학 영역과 연관되는 경향이 있습니다. 추가 컨텍스트는 표 2를 참조하십시오: 일부 테스트는 공간적 또는 기하학적 추론에 크게 의존하는 반면, 다른 테스트는 그래픽 해석이나 상징적-시각적 통합을 강조합니다. 이러한 중첩은 성능이 주제 도메인에 연결되어 있다는 인상을 줄 수 있습니다.

이러한 상관관계를 분리하는 것은 우리 연구의 범위를 벗어납니다. 대신, 우리는 네 개의 테스트 세트를 물리학 교육에서 사용되는 광범위한 시각적 형식을 집합적으로 나타내는 단일 벤치마크의 구성 요소로 취급합니다. 개별 테스트별로 결과를 가끔 보고하지만, 이는 주로 성능 차이가 존재하고 추가 정성적 분석이 필요할 수 있음을 설명하기 위해 수행됩니다. 각 하위 도메인 내에서 모델 동작에 대한 더 깊은 탐구는 중요한 다음 단계이지만 이 작업의 초점은 아닙니다.

표 2: 선택된 개념 인벤토리의 제시, 항목 수 및 관련된 시각적 표현 유형에 대한 설명을 포함합니다.

개념 인벤토리 항목 수 시각적 표현에 대한 설명
BEMA (간단한 전기 및 자기 평가) [60] 31 회로도, 전기장선, 전하 분포 및 힘 벡터. 상징적 시각의 해석과 이를 장 개념과 연결하는 것이 필요하며, 종종 3차원에서.
FTGOT (4단계 기하광학 테스트) [61] 20 렌즈, 거울 및 빛 경로를 포함하는 광선 다이어그램 및 도식적 설정. 거리와 각도 추정, 광선 동작 추적 및 관점 이동을 포함한 기하학적 및 공간적 추론이 요구됨.
QMVI (양자역학 시각화 도구) [62] 25 잠재 에너지 다이어그램, 파동 함수, 확률 밀도 및 에너지 레벨. 표현 간의 추상적 개념적 매핑이 필요함. 주요 초점은 양자 현상의 상징적 및 시각적 표현 통합에 있음.
TUG-K (운동학 그래프 이해 테스트) [63] 26 시간에 따른 위치, 속도 및 가속도 그래프. 항목은 일반적으로 선 그래프에서 관계를 읽거나 해석하는 것을 포함함. 기울기와 면적 해석에 중점을 두고 그래픽과 언어적 운동 표현 간의 번역을 포함함.

2.3 데이터 수집

각 테스트의 각 항목에 대해 질문, 객관식 옵션 및 관련 이미지를 포함한 스크린샷을 캡처했습니다. 대부분의 항목에서 이 프로세스는 간단했습니다. 그러나 BEMA 테스트에서는 몇 가지 항목이 여러 질문(31개 중 16개)에서 동일한 이미지를 공유했습니다. 이러한 경우 항목을 수동으로 분리하고 각각이 독립적으로 설 수 있도록 다시 만들었습니다. 이 조정은 순전히 그래픽이었습니다: 우리는 단순히 공유 이미지를 복제하고 각 해당 질문과 쌍을 이루었습니다. 항목 중 어느 것도 이전 항목에 대한 답변에 의존하지 않았기 때문에 질문의 무결성에는 영향을 미치지 않았습니다. 또한 형식을 표준화하기 위해 모든 FTGOT 항목을 편집했습니다. 각 원래 FTGOT 항목에는 네 부분이 포함됩니다: (1) 객관식 목록이 있는 주요 질문, (2) 해당 응답에 대한 신뢰도 등급, (3) 초기 답변을 설명하도록 요청하는 후속 객관식 질문, (4) 설명과 관련된 또 다른 신뢰도 등급. 우리의 분석은 추론이나 신뢰 수준에 초점을 맞추지 않았기 때문에 평가에서 2, 3, 4 부분을 제외했습니다. 결과적으로 각 FTGOT 항목은 핵심 질문, 답변 옵션 및 함께 제공되는 이미지만 포함하도록 편집되었습니다.

선택된 인벤토리의 각 항목은 일반적인 학생 대면 자료와 일치하는 시각적 입력 시나리오를 시뮬레이션하여 스크린샷 형태로 모델에 제시되었습니다.

모든 항목은 각 모델에 새 컨텍스트 창에서 독립적으로 10번 제출되었습니다. 이 반복 횟수는 MLLM이 이제 대부분 실행 전반에 걸쳐 높은 응답 일관성을 보인다는 것을 나타내는 사전 실험을 기반으로 선택되었습니다. 이전 연구에서는 모델이 항목에 대해 일관되게 정답을 맞추거나 반복적으로 동일한 잘못된 옵션을 선택하는 경향이 있음을 보여주었습니다 [34, 37]. 따라서 10번의 반복 사용은 안정적인 성능 패턴을 캡처하기 위해 더 큰 샘플 크기가 더 이상 필요하지 않으므로 통계적 신뢰성과 비용 및 환경 지속 가능성의 균형을 맞춥니다.

입력은 공식 API를 통해 제출되었습니다. 온도 매개변수는 조건 전반에 걸쳐 응답 변동성을 표준화하고 적당한 수준의 생성 무작위성을 반영하기 위해 가능한 경우 0.7로 설정되었습니다 [64]. OpenAI의 추론 모델(o3 및 o4-mini)의 경우 온도 매개변수를 수정할 수 없습니다. Python 기반 스크립트를 사용하여 프로세스를 자동화하고 응답을 json 파일에 기록했습니다 [65]. 답변(응답 끝에 나타나는 선택된 문자 옵션)을 더 쉬운 처리를 위해 csv 파일로 추출했습니다. 이를 통해 시험 전반에 걸쳐 균일성을 보장하고 모델 간 데이터 수집을 간소화했습니다.

모델 간 성능 비교의 유효성을 보존하기 위해 의도적으로 프롬프트 엔지니어링 기술을 피했습니다. 각 프롬프트는 명확하고 구조화된 응답을 요청하는 최소한의 지시로만 구성되었습니다:

이미지의 질문에 답하십시오. 옵션 중 어느 것도 정답이 아닌 경우 문자 N으로 답하십시오. 응답의 별도 마지막 줄에서 다음 형식으로 답을 다시 말하십시오: 답: 문자

옵션 중 어느 것도 정답이 아닌 것 같을 때 문자 N을 사용하라는 지시는 추측으로 인한 정확도의 인위적인 부풀림을 줄이기 위해 추가되었습니다. 테스트 상황의 학생들은 자신감에 관계없이 답을 선택할 수 있지만, 우리는 우연에 의한 문자 선택보다는 모델의 추론 능력에 초점을 맞추고자 했습니다. 이 접근 방식은 프롬프트 문구의 변화에 의해 도입되는 잠재적인 혼란 효과를 최소화하기 위해 선택되었습니다. 이는 여전히 크게 경험적이고 표준화하기 어려운 관행입니다 [6]. 특히 우리는 소수 샷 예제 [66]나 명시적인 사고 연쇄(CoT) [67] 신호와 같은 전략을 피했습니다. 현재 모델은 종종 기본적으로 CoT 추론에 참여하므로 대신 기준 모델 동작을 캡처하는 데 중점을 두었습니다.

2.4 채점 및 분석

모델 응답은 최종 선택된 답변 옵션에 따라 정답 또는 오답으로 코딩되었습니다. 네 가지 평가 중 하나(즉, BEMA)의 소수 항목에서 제안되었더라도 조건부 채점을 적용하지 않았습니다. 문자 N이 포함된 답변은 오답으로 간주되었습니다.

프롬프트에서 요청한 일관된 출력 형식 덕분에 모델 응답의 마지막 줄(예: "답: B")을 사용하여 최종 답변을 효율적으로 구문 분석할 수 있었습니다. 그러나 모델이 해당 문자 대신 선택한 답변의 전체 텍스트를 다시 말한 소수의 경우에는 사소한 후처리가 필요했습니다. 이러한 응답은 수동으로 검토되고 적절한 옵션에 따라 코딩되었습니다. 모델이 여러 선택을 반환하거나 관련 없는 텍스트를 반환한 경우는 없었습니다.

응답 품질을 확인하기 위해 두 저자는 모든 응답의 무작위로 선택된 부분집합(약 30%)을 독립적으로 검토했습니다. 이러한 확인은 모델이 요청된 응답 형식을 일관되게 따랐으며 체계적인 문제가 없음을 확인했습니다.

우리는 먼저 각 항목에 대한 정답 비율(10번의 반복 실행 기반)을 계산한 다음 전체 인벤토리에서 이러한 항목별 점수를 평균화하여 각 개념 인벤토리에서 각 모델의 성능을 계산했습니다. 각 개념 인벤토리에는 고정된 수의 항목(모든 테스트에서 총 102개)이 포함되어 있으며, 모든 모델은 제출 실패 없이 모든 항목을 완료했습니다. 이 항목 수준 평균화 접근 방식은 개별 항목 난이도나 모델 일관성에 관계없이 각 질문이 최종 점수에 동등하게 기여하도록 보장합니다. 평균 정확도 외에도 각 테스트에서 각 모델에 대한 표준 편차(SD)와 평균의 표준 오차(SEM)를 계산했습니다. 이들은 각 항목에 대한 10회 실행 분포에서 계산된 다음 항목 간에 집계되어 응답 변동성과 추정된 성능 수준의 신뢰도 측정을 제공했습니다. 모든 결과는 정규화나 스케일링 없이 원시 백분율로 보고됩니다.

중요하게도, 이 연구는 모델 출력에서 제공된 추론이나 설명을 분석하지 않습니다. 대부분의 응답에는 확장된 정당화가 포함되어 있지만, 우리의 채점 절차는 최종 선택된 답변에만 기반했습니다. 이는 모델의 추론이 과학적으로 정확하거나 일관되거나 답변과 일치하는지 평가하지 않았음을 의미합니다. 따라서 모델이 잘못된 이유로 정답 옵션을 선택했거나 그 반대일 가능성이 전적으로 있습니다. 이 설계 선택은 기준 성능 수준을 설정하고 이를 모델 비용 및 접근성과 같은 실용적인 고려 사항과 연관시키는 것을 목표로 하는 분석의 정량적 특성을 반영합니다. 추론 정확성, 일관성 또는 잠재적 편향에 대한 전체 정성적 분석은 다른 방법론적 프레임워크가 필요하며 이 연구의 범위를 벗어납니다. 같은 이유로 모델이 네 가지 개념 인벤토리에서 다르게 수행된 이유에 대한 자세한 해석을 제공하지 않습니다. 이전 연구에 비추어 잠재적인 설명을 제안하지만, 이는 추측에 불과하며 우리의 결과에서 직접 파생되지 않습니다.

각 모델을 실행하는 비용을 결정하기 위해 각 모델에 대한 입력 및 출력 토큰 수를 추적하고 나열된 토큰당 가격과 곱했습니다. 모델 비용을 보고할 때 모델에서 벤치마크를 한 번 실행하는 예상 비용을 나타내도록 비용을 정규화했습니다. 즉, 모든 102개 항목을 한 번 제출하고 각 항목에 대해 하나의 응답을 받는 것입니다.

3. 결과

3.1 성능 분석

표 3의 결과는 네 가지 물리학 개념 인벤토리에서 테스트된 MLLM 세트의 성능 결과를 보여줍니다. 각 모델에 대해 표는 항목당 10번의 반복 실행을 기반으로 한 표준 편차(SD) 및 평균의 표준 오차(SEM)와 함께 백분율 정확도(Perc)를 보고합니다. 각 항목의 성능은 실험적으로 결정된 성공 확률(항목 점수)을 가진 독립적인 베르누이 변수로 취급되었습니다. SD는 항목 점수 분산의 합의 제곱근을 취하여 계산되었고, SEM은 SD를 10(각 항목의 반복 횟수)의 제곱근으로 나누어 계산되었습니다. 각 모델의 성능의 SD는 모델 출력의 변동성의 결과이며 각 항목의 반복 횟수를 더 늘려도 감소할 것으로 예상되지 않습니다. 반면 SEM은 더 감소할 것입니다.

전체적으로 모델 간에 상당한 성능 변동이 있습니다. o3과 Gemini 2.5 Pro가 가장 높은 평균 점수(각각 76.2%와 75.8%)를 기록했으며, o4 mini(71.5%)가 바짝 뒤를 따랐습니다. Gemini 2.5 Flash(66.8%), GPT-4.1 mini(53.8%), GPT-4.1(52.5%)과 같은 모델은 중간 범위에 속하며, Claude Haiku 3.5(28.2%), GPT-4.1 nano(25.0%), Gemma 3-4b(21.0%)와 같은 다른 모델은 상당히 낮은 점수를 기록했습니다. 가장 높은 평균 모델 점수와 가장 낮은 평균 모델 점수 사이의 범위는 50 백분율 포인트를 초과하여 모델 전반에 걸쳐 관찰된 성능의 폭을 강조합니다.

표 3: 선택된 개념 인벤토리에서 각 모델의 백분율 성능(Perf), 표준 편차(SD) 및 평균의 표준 오차(SEM). 모델은 총 점수(Tot AI)의 감소 순서로 정렬됩니다. 마지막 행은 총 벤치마크를 구성하는 각 개념 인벤토리에서 모든 MLLM의 평균 성능을 나타냅니다.

[표는 원문 참조]

성능은 개념 인벤토리 전반에 걸쳐서도 다양했습니다(그림 1). BEMA(64.5%)와 TUG-K(62.9%)에서 테스트된 모든 모델의 평균 성능은 QMVI(41.8%)와 FTGOT(35.2%)보다 높았습니다. 이러한 패턴은 대부분의 모델에서 일관됩니다. 예를 들어, o3과 Gemini 2.5 Pro는 BEMA와 TUG-K 모두에서 84%를 초과했지만, QMVI에서는 75%를, FTGOT에서는 52%를 초과한 모델이 없었습니다. 인벤토리 전반에 걸쳐 주어진 모델의 가장 높은 테스트 점수와 가장 낮은 테스트 점수 사이의 최대 차이는 30에서 50 백분율 포인트 범위였으며, 이는 일부 인벤토리(특히 FTGOT)가 고성능 모델에게도 더 높은 난이도를 갖는다는 것을 시사합니다.

[그림 1은 원문 참조]

통계적 측정은 추가적인 세부 사항을 제공합니다. SD는 대부분 사용 가능한 총 포인트의 3~7 백분율 포인트 사이였으며, 대부분의 SEM 값은 2.5% 미만이었습니다. 많은 경우 더 높은 점수를 받은 모델(예: GPT-4o, Gemini 2.5 Pro)은 더 높은 평균 성능과 더 낮은 점수 분산을 모두 나타내어 실행 전반에 걸쳐 더 큰 일관성을 나타냅니다. GPT-4.1 nano 및 Gemma 3-4b와 같은 일부 낮은 성능 모델도 상대적으로 낮은 점수 변동성을 보여 일관되지만 부정확한 응답을 시사합니다. 대조적으로, 여러 중간 범위 모델은 더 큰 변동성을 보여 시험 전반에 걸쳐 정답과 오답의 혼합을 반영합니다.

모델 패밀리 내에서 성능을 살펴보면 몇 가지 패턴이 나타납니다. OpenAI 모델 중에서 o3과 o4 mini가 GPT-4.1과 GPT-4.1 mini보다 더 나은 성능을 보였으며, GPT-4.1 nano가 가장 낮은 점수를 받았습니다. 마찬가지로 Google 모델의 경우 Gemini 2.5 Pro가 Gemini 2.5 Flash를 능가했고, Gemini 2.5 Flash는 이전 Gemini 2.0 Flash와 Gemma를 능가했습니다. Anthropic의 경우 Claude Opus 4가 Claude Sonnet 4보다 더 나은 성능을 보였으며, Claude Haiku 3.5가 해당 패밀리에서 가장 낮은 점수를 받았습니다. 정확한 차이는 다르지만, 대부분의 경우 제공업체 내의 각 연속 계층은 10-20 백분율 포인트의 성능 증가와 상관관계가 있습니다.

3.2 비용 분석

모델 성능과 사용 비용 간의 관계를 더 잘 이해하기 위해 각 모델의 평균 점수를 비용에 대해 플롯했습니다. 그림 2의 결과 플롯은 몇 가지 패턴을 보여줍니다.

[그림 2는 원문 참조]

첫째, 비용과 성능 사이에는 전반적인 상관관계가 있지만, 그 관계는 비례적이지 않으며 흥미로운 이상값이 있습니다. o3 및 o4 mini와 같은 최고 성능 모델 중 일부는 $1.00에서 $1.50 사이의 비용 범위에 위치합니다. 가장 비싸지 않음에도 불구하고 각각 76.2%와 71.5%의 정확도 점수를 달성했으며, 이는 75.8%의 성능을 보인 훨씬 더 비싼($4.68) Gemini 2.5 Pro 모델과 비교할 만합니다. 반면에 Gemini 2.5 Pro보다 약간만 저렴한 Claude Opus 4는 벤치마크에서 57.0%만 달성하여 비용에 비해 상당히 낮은 성능을 보였습니다.

둘째, 저비용, 저성능 모델의 클러스터도 명백합니다. 예를 들어, 무료로 사용 가능한(사용자에게 비용 없음) Gemma 모델은 성능 척도의 하단(21.0-35.5%)을 차지합니다. 다른 맥락에서는 가치가 있을 수 있지만, 현재 시각적 해석이 필요한 물리학 개념 과제에는 경쟁력이 없습니다.

셋째, 여러 모델이 경제성과 능력 사이에서 매력적인 균형을 보입니다. "추론이 활성화된" Gemini 2.5 Flash는 비용을 $1.00 미만으로 유지하면서 높은 60% 범위에서 수행합니다. 더욱 흥미로운 것은 "추론이 비활성화된" Gemini 2.5 Flash의 성능입니다. 단 $0.31의 비용으로 낮은 60% 범위의 성능을 달성하여 저비용 사용에 흥미로운 경쟁자가 됩니다. 덜 까다로운 용도의 경우 GPT 4.1 mini가 좋은 후보일 수 있습니다. 흥미롭게도 더 큰 형제인 GPT-4.1을 능가했으며 단 $0.10의 가격으로 중간 50% 범위의 성능을 보였습니다. 이는 본질적으로 동일한 수준의 성능을 가진 Claude Opus 4보다 45배 저렴합니다.

마지막으로 제공업체별로 그룹화하면 더 넓은 추세가 드러납니다. OpenAI의 모델은 합리적인 비용으로 견고한 성능을 결합하여 왼쪽 상단 사분면에 클러스터되는 경향이 있습니다. Google의 라인업은 매우 강력하지만 비싼 Gemini 2.5 Pro부터 성능이 낮지만 완전히 무료인 Gemma 모델까지 더 다양합니다. Anthropic의 Claude 모델은 상대적으로 비싼데도 불구하고 중간 또는 낮은 성능 계층에 속하며, 이 작업 세트에 대해 덜 유리한 가격 대 성능 비율을 시사합니다.

표 4: 모델별 토큰 사용량 및 비용. 토큰 사용량은 벤치마크의 102개 항목의 한 번 반복에 대한 평균 토큰 수(입력, 출력 및 해당되는 경우 추론)를 제공합니다. 비용은 USD로 제공됩니다. 마지막 열은 각 모델에 대해 모든 102개 항목을 한 번 실행하는 총 비용을 보여줍니다.

[표는 원문 참조]

전반적으로 이러한 결과는 교육 애플리케이션을 위한 모델 선택이 제공업체 평판이나 나열된 토큰당 가격에 대한 가정보다는 경험적 성능 데이터에 의해 안내되어야 함을 시사합니다. 저비용 모델은 경우에 따라 시각적 표현을 포함하는 물리학 개념 과제에서 동등하거나 비교 가능하거나 심지어 우수한 성능을 제공할 수 있습니다.

4. 논의, 한계 및 향후 연구

성능 분석은 최고 성능의 MLLM이 이미 네 가지 테스트된 개념 인벤토리에서 수업 후 대학생 평균을 능가하고 있음을 보여줍니다. 그들 중 일부는 일부 인벤토리에서 전문가 수준의 성능에 근접하고 있습니다. OpenAI와 Google의 최상위 모델은 이제 벤치마크에서 75% 정확도를 초과하여 교육 배포에 대한 실질적인 잠재력을 시사합니다. 그러나 네 가지 기본 개념 인벤토리 전반에 걸친 비균일한 성능은 최고의 모델조차도 여전히 많은 항목에서 어려움을 겪고 있음을 시사합니다. 테스트된 모델은 BEMA와 TUG-K에서 집합적으로 꽤 잘 수행했지만, QMVI와 특히 FTGOT에서는 점수가 크게 떨어졌습니다. 이러한 발견은 특정 시각적 형식과 작업 유형이 모델 성능에 어떻게 영향을 미치는지에 초점을 맞춘 향후 연구의 필요성뿐만 아니라 MLLM이 선택한 답변 뒤의 추론을 조사하는 정성적 연구의 필요성을 시사합니다.

비용 분석은 성능이 비용과 선형적으로 확장되지 않음을 보여줍니다. 가장 유능한 모델 중 일부는 상대적으로 비용 효율적(예: o3, o4 mini)으로 유지되는 반면, Claude Opus 4와 같은 다른 모델은 높은 비용에도 불구하고 성능이 낮았습니다. 이는 기관이 다양한 교육 환경에서 품질의 대리인으로 가격 계층(토큰당 비용)이나 제공업체 평판에만 의존할 수 없음을 시사합니다. 반대로 특정 중간 범위 또는 저비용 모델은 성능과 경제성의 매력적인 균형을 제공합니다. 특히 "추론 비활성화"된 Gemini 2.5 Flash는 더 비싼 모델의 일부 비용으로 60% 이상의 평균 정확도를 달성했습니다. 우리의 결과는 따라서 더 저렴한 모델이 최고 성능 모델에 가까운 성능 수준에 도달할 수 있음을 나타냅니다. 이는 재정적 제약 하에서 운영되는 학교나 대학에 AI를 배포하는 데 중요한 의미가 있습니다. 그러나 무료로 사용 가능하거나 오픈 가중치 모델(예: Gemma 3 시리즈)은 현재 물리학 이미지가 포함될 때 교육 사용에 대한 허용 가능한 임계값보다 훨씬 낮은 성능을 보입니다. 이러한 모델은 다른 역할에는 흥미로울 수 있지만 아직 학생 대면 교육 애플리케이션이나 평가 또는 채점 지원에는 적합하지 않습니다.

이 연구는 이미지를 포함하는 개념적 물리학 작업에 대한 MLLM 성능의 광범위하고 비교적인 관점을 제공하지만, 몇 가지 한계도 있습니다.

첫째, 우리의 분석은 잘 확립된 개념 인벤토리의 객관식 항목에만 초점을 맞췄습니다. 이 설계는 표준화와 비교 가능성을 허용하지만, 유도, 서면 설명 또는 실험실 기반 데이터 분석을 포함한 더 개방적이거나 구조화되지 않은 물리학 작업에서 MLLM이 어떻게 수행되는지는 포착하지 못합니다. 향후 연구는 진정한 교실 및 평가 환경에서 일반적인 이러한 형식을 포함하도록 확장해야 합니다.

둘째, 우리의 평가는 본질적으로 정량적이었습니다. 우리는 생성된 출력 텍스트의 정확성이나 일관성을 분석하지 않고 선택된 답변 선택에만 기반하여 응답을 채점했습니다. 이는 모델이 잘못된 이유로 정답을 선택했거나 반대로 유효한 추론을 생성했지만 잘못된 옵션을 선택했을 가능성을 열어둡니다. 모델 생성 설명에 대한 정성적 조사는 추론 품질과 오류 패턴을 더 잘 이해하기 위한 귀중한 다음 단계가 될 것입니다. 이러한 분석은 또한 어떤 유형의 시각적 작업이 가장 큰 도전을 제기하는지, 그리고 왜 특정 인벤토리가 가장 성능이 좋은 모델에게도 일관되게 낮은 점수를 생성하는지를 결정하는 데 도움이 될 수 있습니다.

셋째, 모든 모델은 정적이고 최소한의 프롬프트를 사용하여 평가되었습니다. 우리는 기본 사용자 시나리오를 반영하고 비교 가능성을 보존하기 위해 의도적으로 추가 프롬프트 엔지니어링을 피했습니다. 그러나 이는 특정 모델, 특히 CoT 프롬프팅이나 도메인별 스캐폴딩에 반응하는 모델의 전체 잠재력을 과소평가할 가능성이 있습니다. 향후 연구에서는 맞춤형 프롬프트의 영향을 탐구할 수 있습니다.

마지막으로, 이 연구는 시간의 스냅샷을 나타냅니다. MLLM의 기능, 가격 및 가용성은 빠르게 발전하고 있으며, 새로운 모델 릴리스나 미세 조정된 교육 변형이 곧 여기에서 테스트된 것들을 능가할 수 있습니다. 최신 벤치마크를 유지하고 개방형 테스트 프로토콜을 개발하는 것은 진행 상황을 추적하고 정보에 입각한 의사 결정을 지원하는 데 계속 중요할 것입니다.

이러한 한계를 해결하고 현재 발견을 기반으로 구축함으로써 향후 연구는 MLLM이 물리학 교육에 의미 있게 기여할 수 있는 방법과 시기, 그리고 주의, 적응 또는 보완적 접근 방식이 여전히 필요한 곳에 대한 이해를 심화시킬 수 있습니다.

5. 결론

이 연구는 시각적 해석이 필요한 개념적 물리학 작업에 대한 공개적으로 사용 가능한 MLLM 선택의 비교 평가를 제공합니다. 여러 개념 인벤토리에서 성능과 비용을 모두 벤치마킹함으로써 가격이나 제공업체 주장만으로는 명백하지 않은 모델 간의 중요한 차이를 강조합니다.

우리의 발견은 일부 MLLM이 이제 운동학 및 전자기학과 같은 영역의 특정 물리학 개념 인벤토리에서 전문가 수준의 정확도에 근접한다는 것을 시사합니다. 그러나 복잡한 공간적 또는 추상적 추론을 포함하는 작업, 특히 기하광학에서는 성능이 크게 떨어집니다. 반면에 분석은 높은 성능이 반드시 높은 비용과 함께 오는 것은 아님을 보여줍니다. 여러 모델이 유리한 비용-성능 비율을 제공하여 자원이 제한된 환경을 포함한 교육 배포에 대한 실행 가능한 옵션이 됩니다. 반대로 가장 비싼 모델 중 일부는 성능이 낮아 정보에 입각한 모델 선택이 중요함을 시사합니다.

MLLM이 교육 애플리케이션에서 계속 개선되고 견인력을 얻으면서 물리학 교육자와 기관은 지속적으로 비판적으로 평가하고 능력, 비용 및 상황별 요구 사항의 균형을 신중하게 고려해야 합니다. 이 연구는 물리학 교육자가 이 과정에서 도움이 될 수 있는 평가의 예를 제공합니다.

참고문헌

[참고문헌은 원문 참조]

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment