FinEval 金融大模型应用评测
立即尝试
专业的金融领域大语言模型应用评测平台,支持通用金融场景及银行、基金、保险、证券等垂类行业的全方位评测
评测说明
基于金融知识问答、风险识别、投资分析等多维度综合评测的权威排名
综合得分基于多个金融场景的平均表现
评测数据集包含金融知识问答、市场分析、风险评估等
所有模型均在相同条件下进行公平评测
榜单每周更新,反映最新的模型性能表现
排行榜
评测维度:知识理解、逻辑推理、风险识别
数据集:FinQA, FinBERT, Financial News
更新频率:每周更新
2025
2024
排名
模型名称
金融风险控制能力
金融专业认知能力
模型基础能力
金融安全与价值对齐能力
业务拓展能力
平均分
排名

名称
doubao-seed-1-6-251015字节跳动
金融风险控制能力96.3
金融专业认知能力91.2
模型基础能力80.8
金融安全与价值对齐能力94.8
业务拓展能力95.6
平均分91.7

doubao-seed-1-6-251015字节跳动
96.3
91.2
80.8
94.8
95.6
91.7
排名

名称
glm-4.6GLM
金融风险控制能力98.7
金融专业认知能力93.8
模型基础能力77.2
金融安全与价值对齐能力88.4
业务拓展能力97.8
平均分91.18

glm-4.6GLM
98.7
93.8
77.2
88.4
97.8
91.18
排名

名称
qwen3-max阿里云通义
金融风险控制能力98.5
金融专业认知能力92.2
模型基础能力71
金融安全与价值对齐能力96.2
业务拓展能力97.8
平均分91.1

qwen3-max阿里云通义
98.5
92.2
71
96.2
97.8
91.1
排名
4
名称
kimi-k2-0905月之暗面
金融风险控制能力98.5
金融专业认知能力89.8
模型基础能力69.8
金融安全与价值对齐能力93.8
业务拓展能力96.4
平均分89.66
4
kimi-k2-0905月之暗面
98.5
89.8
69.8
93.8
96.4
89.66
排名
5
名称
grok-4Grok
金融风险控制能力98.7
金融专业认知能力86.4
模型基础能力71.2
金融安全与价值对齐能力93.8
业务拓展能力96.4
平均分89.3
5
grok-4Grok
98.7
86.4
71.2
93.8
96.4
89.3
排名
6
名称
claude-opus-4-1-20250805Anthropic
金融风险控制能力97.2
金融专业认知能力91.9
模型基础能力62.49
金融安全与价值对齐能力99
业务拓展能力95.6
平均分89.242
6
claude-opus-4-1-20250805Anthropic
97.2
91.9
62.49
99
95.6
89.242
排名
7
名称
gpt-5OpenAI
金融风险控制能力98.5
金融专业认知能力87.4
模型基础能力68.39
金融安全与价值对齐能力92.8
业务拓展能力96.6
平均分88.73
7
gpt-5OpenAI
98.5
87.4
68.39
92.8
96.6
88.73
排名
8
名称
dianjin--DianJin-R1-32B阿里云通义
金融风险控制能力93.5
金融专业认知能力82.2
模型基础能力68.77
金融安全与价值对齐能力93.2
业务拓展能力87.4
平均分85.006
8
dianjin--DianJin-R1-32B阿里云通义
93.5
82.2
68.77
93.2
87.4
85.006
排名
9
名称
Fino1-14BThe Fin AI
金融风险控制能力98.4
金融专业认知能力85.4
模型基础能力67.6
金融安全与价值对齐能力79
业务拓展能力94.5
平均分84.98
9
Fino1-14BThe Fin AI
98.4
85.4
67.6
79
94.5
84.98
排名
10
名称
gemini-2.5-pro-thinking-16384谷歌
金融风险控制能力97.8
金融专业认知能力85.4
模型基础能力60.5
金融安全与价值对齐能力88.2
业务拓展能力88.3
平均分84
10
gemini-2.5-pro-thinking-16384谷歌
97.8
85.4
60.5
88.2
88.3
84
排名
11
名称
XuanYuan-FinX1-Preview度小满
金融风险控制能力96.6
金融专业认知能力88.5
模型基础能力67.2
金融安全与价值对齐能力75.6
业务拓展能力91.8
平均分83.9
11
XuanYuan-FinX1-Preview度小满
96.6
88.5
67.2
75.6
91.8
83.9
排名
12
名称
deepseek-r1Deepseek
金融风险控制能力70.7
金融专业认知能力83
模型基础能力71.8
金融安全与价值对齐能力89.2
业务拓展能力85
平均分79.93
12
deepseek-r1Deepseek
70.7
83
71.8
89.2
85
79.93
平台特色功能
多维度评测体系
涵盖通用金融知识、专业技能、风险识别等多个维度的综合评测体系
垂类行业场景
支持银行、基金、保险、证券等细分行业的专业场景评测
一键评测部署
简化的评测流程,支持闭源、开源及自定义模型的快速评测
平台数据统计

50+
已评测模型

1000+
注册用户

5000+
评测任务

20+
评测数据集



