InfoQ 研究中心：《大语言模型综合能力测评报告（2023）》（全文）网经社电子商务研究中心电商门户互联网+智库

当前位置：100EC>数字研究>InfoQ 研究中心：《大语言模型综合能力测评报告（2023）》（全文）

InfoQ 研究中心：《大语言模型综合能力测评报告（2023）》（全文）

作者：来源：InfoQ 研究中心发布时间：2023年05月30日 11:41:13

(网经社讯)ChatGPT 这一现象级产品横空出世，拉开了大语言模型技术蓬勃发展的序幕。但实际上，自 2017 年大语言模型诞生，OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头在大语言模型领域的探索持续不断，ChatGPT 只是将大语言模型技术推进至了爆发阶段，当下大模型产品格局更是呈现出了新形势——国外基础模型积累深厚，国内应用侧优先发力。

2022年年末以来，人工智能大模型成为技术领域乃至全球创新领域最炙手可热的话题。以ChatGPT引领的大模型产品发展日新月异，有预测数据显示，到2030年，AIGC的市场规模或将超过万亿人民币。2023年国内主要厂商也相继推出自研的大语言模型产品，另外国内也推出了大量的大语言模型应用，逐步构建起基于中文语言特色的大语言模型生态。

为此InfoQ研究中心基于桌面研究、专家访谈、科学分析三个研究方法，查找了大量文献及资料，采访了10+位领域内的技术专家，同时围绕语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度，拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私12个细分维度。

分别对ChatGPTgpt-3.5-turbo、Claude-instant、Sagegpt-3.5-turbo、天工3.5、文心一言V2.0.1、通义千问V1.0.1、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B进行了超过3000+道题的评测，根据测评结果发布了《大语言模型综合能力测评报告2023》。

扫码下载“ChatGPT ”报告

浙江网经社信息科技公司拥有18年历史，作为中国领先的数字经济新媒体、服务商，提供“媒体+智库”、“会员+孵化”服务；（1）面向电商平台、头部服务商等PR条线提供媒体传播服务；（2）面向各类企事业单位、政府部门、培训机构、电商平台等提供智库服务；（3）面向各类电商渠道方、品牌方、商家、供应链公司等提供“千电万商”生态圈服务；（4）面向各类初创公司提供创业孵化器服务。

网经社“电数宝”电商大数据库（DATA.100EC.CN，免费注册体验全库）基于电商行业18年沉淀，包含100+上市公司、新三板公司数据，150+独角兽、200+千里马公司数据，4000+起投融资数据以及10万+互联网APP数据，全面覆盖“头部+腰部+长尾”电商，旨在通过数据可视化形式帮助了解电商行业，挖掘行业市场潜力，助力企业决策，做电商人研究、决策的“好参谋”。