"PaperBanana", AI Scientist 위한 논문 일러스트 생성 AI


개요

PaperBanana는 학술 논문의 텍스트(방법론 설명)와 캡션을 입력받아, 출판 가능한 수준의 방법론 다이어그램과 통계 그래프를 자동으로 생성하는 에이전트 기반 AI 프레임워크다. Google Cloud AI Research와 중국 베이징대학교 연구진이 공동으로 개발했으며, 기존 AI Scientist 모델들이 텍스트나 코드 생성에는 강하지만 시각 자료 생성에는 취약하다는 문제를 정면으로 해결하고자 설계됐다. 연구 워크플로에서 그림 작업이 병목 현상으로 작용하는 현실을 타개하는 데 핵심 가치를 둔다.


문제 의식

논문용 이미지는 높은 정확성과 미적 완성도를 동시에 갖춰야 하기 때문에, 자동화가 가장 어려운 영역 중 하나였다. 기존 도구들은 각각 뚜렷한 한계를 안고 있었다. TikZ나 Python 기반의 코드형 시각화 도구는 복잡한 시각적 표현을 구현하는 데 한계가 있었고, 반대로 DALL-E나 Stable Diffusion 같은 일반 이미지 생성 모델은 환각(Hallucination) 현상으로 인해 세부 내용이 부정확하거나 텍스트 렌더링에 실패하는 경우가 잦았다. 학술 자료에 요구되는 엄밀한 수준을 맞추기엔 두 접근법 모두 역부족이었던 셈이다.


핵심 기술 - 5단계 에이전트 워크플로

PaperBanana가 기존 방식과 가장 크게 다른 점은, 단일 프롬프트 하나로 이미지를 뽑아내는 방식이 아니라 5개의 전문화된 AI 에이전트가 순차적으로 협업하는 구조를 채택했다는 데 있다.

첫 번째는 검색 에이전트이다. 데이터베이스에서 입력된 논문과 유사한 도메인 및 시각적 구조를 가진 고품질 참고 자료를 찾아오는 역할을 맡는다. 두 번째 기획 에이전트는 텍스트로 작성된 방법론 설명을 바탕으로, 검색된 참고 자료를 활용해 구체적인 이미지 설계 문서를 작성한다. 세 번째 스타일리스트 에이전트는 NeurIPS 스타일 등 학술적 표준에 맞춰 색상 팔레트, 레이아웃 같은 미적 요소를 다듬는다. 네 번째 시각화 에이전트가 설계된 내용을 바탕으로 실제 이미지를 생성하며, 마지막으로 다섯 번째 비평 에이전트가 생성된 이미지가 원문과 일치하는지, 시각적 오류는 없는지 점검하고 수정 피드백을 제공한다. 이 검증 루프는 품질 기준을 충족할 때까지 최대 3회 반복된다.


주요 특징 및 차별점

PaperBanana의 또 다른 강점은 이미지 유형에 따라 생성 방식을 나눠 적용하는 하이브리드 전략에 있다. 미적 표현이 중요한 방법론 다이어그램에는 최신 이미지 생성 모델(Nano-Banana-Pro)을 사용하는 반면, 수치 정확도가 생명인 통계 그래프는 Python 코드(Matplotlib)를 생성해 직접 실행하는 방식을 택했다. 후자의 접근은 환각 문제를 코드 실행 단계에서 원천적으로 차단한다는 점에서 특히 의미 있다.

스타일 측면에서도 차별화를 꾀했다. 학계에서 선호하는 부드러운 파스텔 톤, 명확한 계층 구조, 일관된 레이아웃 등 이른바 학술적 미적 기준을 학습하여 자동으로 적용한다. 더불어 NeurIPS 2025 논문에서 추출한 292쌍의 테스트 데이터를 기반으로 구축한 PaperBananaBench를 통해 성능을 객관적으로 검증할 수 있는 평가 체계도 마련했다.


성능 평가

PaperBanana는 기존의 Vanilla 방식이나 Few-shot 방식 등과 비교했을 때, 충실도(Faithfulness), 간결성(Conciseness), 가독성(Readability), 미적 완성도(Aesthetics) 등 모든 주요 지표에서 우수한 결과를 기록했다. 특히 전반적인 종합 점수에서는 기존 모델 대비 약 17%의 향상을 이뤄냈다.


한계 및 향후 과제

물론 아직 해결해야 할 과제도 남아 있다. 우선 생성 결과물이 래스터(Raster) 이미지 형태이기 때문에, 벡터 그래픽처럼 특정 요소만 선택해 세밀하게 재편집하기 어렵다는 점이 실용적 한계로 지적된다. 또한 복잡한 연결선이나 화살표 방향 같은 미세한 구조적 정확도는 인간 전문가 수준에 미치지 못하는 경우가 있어, 이 부분에서의 지속적인 개선이 요구된다.

* 출처 : 
https://arxiv.org/pdf/2601.23265

PaperBanana — AI 학술 일러스트레이션 프레임워크
Google Cloud AI × Peking University

PaperBanana

학술 논문의 텍스트와 캡션을 입력받아, 출판 가능한 수준의 방법론 다이어그램과 통계 그래프를 자동으로 생성하는 에이전트 기반 AI 프레임워크.

개발 Google Cloud AI Research + 베이징대학교
벤치마크 PaperBananaBench — NeurIPS 2025 논문 292쌍
성능 기존 대비 종합 점수 +17% 향상
PaperBanana
Retriever
Planner
Visualizer
Critic
Stylist

시각화가 병목인가

기존 AI 과학자 모델들은 텍스트와 코드 생성에는 뛰어나지만, 논문용 그림 생성은 정확성과 미적 완성도를 동시에 요구하기 때문에 자동화가 가장 어려운 영역으로 남아 있었습니다.

01

TikZ / Python 도구의 한계

코드 기반 시각화 도구는 복잡한 구조적 다이어그램을 표현하는 데 유연성이 부족하고, 미적 완성도를 확보하려면 전문가 수준의 수작업이 요구됩니다.

02

이미지 생성 모델의 환각

DALL-E, Stable Diffusion 등 일반 이미지 생성 모델은 세부 수치나 텍스트 렌더링에서 환각(Hallucination) 현상이 잦아, 학술 출판물에 직접 사용하기 어렵습니다.

협업하는 전문 에이전트들

단일 프롬프트 대신, 5개의 전문화된 AI 에이전트가 순차적으로 협업하여 이미지를 생성·검증합니다.

1
Retriever Agent 검색

데이터베이스에서 입력 논문과 유사한 도메인 및 시각적 구조를 가진 고품질 참고 자료(Reference)를 검색합니다. 맥락에 맞는 비교 대상을 확보함으로써 이후 단계의 품질 기준을 높입니다.

2
Planner Agent 기획

텍스트로 된 방법론 설명을 바탕으로, 검색된 참고 자료를 활용해 구체적인 이미지 설계 문서(Design Document)를 작성합니다. 레이아웃 구조와 요소 배치를 계획하는 단계입니다.

3
Stylist Agent 스타일

NeurIPS 등 학술 표준에 맞춰 색상 팔레트, 레이아웃, 폰트 등 미적 요소를 조정합니다. 학계에서 선호하는 소프트 파스텔 톤과 명확한 레이아웃 기준을 자동으로 적용합니다.

4
Visualizer Agent 생성

설계 문서와 스타일 가이드를 바탕으로 실제 이미지를 생성합니다. 방법론 다이어그램은 Nano-Banana-Pro 모델을, 통계 그래프는 Python(Matplotlib) 코드 생성·실행 방식을 사용해 환각을 원천 차단합니다.

matplotlib / Nano-Banana-Pro
5
Critic Agent 검증

생성된 이미지가 원문과 일치하는지, 시각적 오류는 없는지 점검하고 구체적인 수정 피드백을 제공합니다. 품질 기준을 충족할 때까지 최대 3회 반복하여 결과물을 개선합니다.

↻ 최대 3회 반복 검증 루프

하이브리드 생성 전략

다이어그램: 이미지 생성 모델

미적 표현과 구조적 다양성이 중요한 방법론 도식은 최신 이미지 생성 모델(Nano-Banana-Pro)을 활용해 풍부한 시각적 표현을 구현합니다.

통계 그래프: Python 코드 실행

수치 정확도가 절대적으로 중요한 그래프는 Matplotlib 코드를 생성·실행하는 방식으로 환각 문제를 원천 차단합니다. 데이터 무결성을 보장합니다.

def plot(): plt.bar(…)

학술 스타일 자동화

학계에서 선호하는 소프트 파스텔 팔레트, 명확한 계층 구조, 일관된 타이포그래피 등 '학술적 미적 기준'을 학습하여 별도 디자인 작업 없이 출판 가능한 수준을 달성합니다.

PaperBananaBench 결과

기존 베이스라인 대비 상대적 개선 (%)
충실도 Faithfulness 0
간결성 Conciseness 0
가독성 Readability 0
미적 완성도 Aesthetics 0
종합 점수 Overall 0
벤치마크 데이터 / NeurIPS 2025 논문
테스트 쌍 292개
평가 방법 — Human + Automated Scoring
+17%
기존 모델 대비
종합 점수 향상
Vanilla, Few-shot 방식 등 기존 접근법 대비 충실도, 간결성, 가독성, 미적 완성도 모든 지표에서 우수한 성능을 기록했습니다. 특히 종합 점수에서 약 17%의 향상을 달성했습니다.

여전히 개선이 필요한 영역

래스터 이미지의 편집 한계

생성된 결과물이 래스터(Raster) 이미지 형태라, 벡터 그래픽처럼 특정 요소만 선택하여 세밀하게 재편집하기 어렵습니다. 수정이 필요한 경우 재생성이 필요할 수 있습니다.

미세 구조 정확도

인간 전문가에 비해 복잡한 연결선, 화살표 방향, 세부 레이블 배치 등 미세한 구조적 정확도는 여전히 개선이 필요합니다. 고도로 복잡한 아키텍처 도식에서 오류 가능성이 있습니다.

Comments

Popular posts from this blog

🧑‍🏫[칼럼] 미래 인재상, T자형 하이브리드로 설계하라

AI 활용 6대 영역 및 인간-AI 협력 역할 분석