비영어권 LLM 현황
비영어권 LLM(대형언어모델)은 자국 언어와 문화의 특수성을 반영하고, 글로벌 LLM에서 소외되기 쉬운 언어적 한계를 극복하기 위한 전략으로 주목받고 있다. 현재 아랍어, 일본어, 한국어, 중국어, 러시아어, 인도네시아어 등 비영어권 주요 언어를 중심으로 각국이 독자적인 LLM을 개발하고 있으며, 일부는 다국어를 포괄하는 유럽형 모델로 확장되고 있다.
< 비영어권 LLM 종합 표 > (2024–2025 기준)
비영어권 LLM(대형언어모델)은 자국 언어와 문화의 특수성을 반영하고, 글로벌 LLM에서 소외되기 쉬운 언어적 한계를 극복하기 위한 전략으로 주목받고 있다. 현재 아랍어, 일본어, 한국어, 중국어, 러시아어, 인도네시아어 등 비영어권 주요 언어를 중심으로 각국이 독자적인 LLM을 개발하고 있으며, 일부는 다국어를 포괄하는 유럽형 모델로 확장되고 있다.
< 비영어권 LLM 종합 표 > (2024–2025 기준)
모델명 | 주요 언어 | 파라미터 수 | 공개 여부 | 대표 적용 사례 |
Falcon 2 11B | 아랍어 | 11B | 공개 | 공공 서비스 번역 지원 |
Jais 13B | 아랍어 + 영어 | 13B | 공개 | COP28 기후문서 요약 |
Mistral Large | 유럽 다국어 | 12B | 공개 | EU 번역 AI 시험 통과 |
Aya-101 | 101개 언어 | 13B | 공개 | 다국어 지시 따르기 정확도 94% |
DeepSeek V2 | 중국어 + 영어 | 67B | 공개 | 바이두 검색, BMW 자동차 음성비서 |
OpenHPI | 독일어 | 비공개 | 비공개 | 공공 디지털 교과서 지원 |
Fugaku LLM | 일본어 | 미공개 | 연구용 | 행정 자동화, 입시 필터링 |
Sahabat-AI | 인도네시아어 + 방언 | ~13B | 부분공개 | 교통 자동응답, 교육 번역 |
GPT-SW3 | 스웨덴어 | 20B | 공개 | 공공기관 보고서 요약, 교육 협업 |
Viking 7B | 핀란드어, 노르웨이어 등 | 7B | 공개 | 북유럽 정부 공동 번역 플랫폼 |
YandexGPT 3.0 | 러시아어 | 비공개 | 비공개 | 검색, 브라우저 비서 ‘Alice’ 운영 |
KoGPT / HyperCLOVA | 한국어 | 수십억 단위 | 일부 공개 | 카카오톡·네이버 서비스용 챗봇 |
PanGu-Σ / Ernie Bot | 중국어 | 100B+ 이상 | 일부 공개 | 화웨이·바이두 AI 제품군 기반 |
Navarasa 2.0 / Bhashini | 힌디어 및 인도 언어 | 다양 | 일부 공개 | 공공 서비스, 저소득층 언어 접근 |
PLLUM | 폴란드어 | 미공개 | 비공개 | 공공 행정 및 서비스 |
Masakhane / Aya | 스와힐리 등 아프리카 언어 | 다양 | 공개 | 언어 소수권 보호, 교육 번역 |
Aleph Alpha | 독일어 + 유럽 언어 | 다양 | 일부 공개 | 독일 기업 솔루션 및 GPT 대안 |
Comments
Post a Comment