万益资讯网

LG发布多模态模型EXAONE 4.5

AIPress.com.cn报道

4月9日消息,LG人工智能研究院(LGAIResearch)发布新一代多模态人工智能模型EXAONE4.5。该模型能够同时理解文本与图像信息,面向合同、技术图纸及财务报表等复杂文档的分析与推理场景,标志着LG在构建自有AI基础模型生态方面的进一步推进。

EXAONE4.5将自主研发的视觉编码器(VisionEncoder)与大语言模型整合为统一系统,形成视觉语言模型(Vision-LanguageModel)。LG表示,该模型能够对包含文本、图表与视觉信息的复杂文档进行综合理解,并在多项视觉理解和推理任务中表现出较高准确度。

根据LGAIResearch披露的数据,在五项STEM相关评测中,EXAONE4.5的平均得分达到77.3,高于GPT-5mini、ClaudeSonnet4.5以及通义千问Qwen3235B等模型。在涉及通用视觉理解与文档推理的13项评测指标中,该模型也整体超过GPT-5mini、ClaudeSonnet4.5和Qwen3-VL。

在编程能力方面,EXAONE4.5在LiveCodeBenchv6基准测试中获得81.4分,高于谷歌Gemma4的80.0分。在图表分析能力测试ChartQAPro中,该模型取得62.2的成绩,显示出对复杂图表结构的理解能力。

LG方面表示,这些测试结果表明该模型不仅能够识别文本和视觉元素,还具备一定的上下文理解与推理能力,可在复杂信息环境中完成问答与分析任务。

在模型规模方面,EXAONE4.5拥有330亿参数,约为此前发布的K-EXAONE模型的七分之一,但在文本理解和推理性能上保持接近水平。研究团队称,这一效率提升主要得益于其采用的混合注意力结构(HybridAttention)与多Token预测推理技术。

EXAONE4.5支持多语言,包括韩语、英语、西班牙语、德语、日语和越南语。LG表示,该模型是其K-EXAONE基础模型项目的重要组成部分,该项目旨在构建可支撑企业与产业应用的AI基础设施。

LGAIResearch同时宣布,EXAONE4.5已在HuggingFace平台开放,用于研究、学术和教育用途。

LGAIResearchEXAONE实验室负责人李镇植(LeeJin-sik)表示,该模型的推出意味着公司正进入多模态AI阶段,未来将进一步扩展模型能力至语音、视频以及现实环境理解,推动AI在工业场景中的实际决策与执行能力。

LGAIResearch信任与安全办公室负责人KimMyoung-shin则表示,研究团队正在探索让AI更深入理解韩国历史、文化与社会语境的问题。他认为,尽管越来越多AI系统能够处理韩语,但对历史和文化背景的理解仍然是更具挑战性的方向。(AI普瑞斯编译)