清华发布大模型性能报告:GPT-4第一 更懂中文的还是百度

8月10日消息,AI大模型成为今年的热点,OpenAI的ChatGPT一马当先,微软、谷歌、Meta紧随其后,国内科技巨头也迅速跟进,现在国内据说已经有上百款大模型问世了。

这么多大模型中,实力到底如何?日前清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》,将国内外的大模型做了一番对比。

该报告还探讨了这些模型在不同知识领域,如创意写作、代码编程、舆情分析、历史知识等方面的回答情况,以及其在解决实际问题中的有效性和局限性。

从生成质量、使用与性能、安全与合规三个维度,对目前市场上的7个大型语言模型进行了全面的综合评估。

清华发布大模型性能报告:GPT-4第一 更懂中文的还是百度

在这7款大模型中,GPT-4获得了毫无悬念的第一,第二名是百度的文心一言,其次是GPT-3.5,后面就是Claude、讯飞星火、阿里云的通义千问及昆仑的天工。

虽然GPT-4各方面领先,但是对国内用户来说,更懂中文的大模型才是关键,这方面百度的文心一言更好,在部分中文语义理解方面,文心一言以92%的得分率排名榜首,超越讯飞星火、GPT-4。

这跟百度的大模型包含大量中文文本有关系,因此能够更好地处理本土文化相关的内容。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 我国 5G 融合应用创新要加快推进

    我国5G牌照发放3年来,在国家政策的支持下,在产业链各方的共同努力下,坚持以建促用、建用并举,我国5G在网络建设、用户规模发展、融合应用创新和发展等方面走在了世界前列。如今,5G融合应用加速落地,5G行业应用创新标杆案例不断涌现,5G赋能产业的应用范围不断扩大、程度不断深化、水平不断提高,5G正成为推动经济社会数字化转型的重要引擎。

    2026年1月2日
  • IDC:2026年中国网络安全IT支出规模将达318.6亿美元

    从中国市场来看,IDC预计2026年中国网络安全IT支出规模将达到318.6亿美元(约2144.18亿元人民币),全球占比约为11.1%,五年CAGR约为21.2%。

    2026年1月2日
  • 无人驾驶试点也要守住安全底线

    无人驾驶只有大规模使用,才能够验证能否达到商业化,或者技术积累是否足够。但是大规模使用的前提,必须以安全为基础。当前全球无人驾驶技术并不成熟,自动驾驶系统的感知、识别和决策系统还存在瓶颈,整体的稳定性和可靠性还需要提升。自动驾驶“无人化商业运营”从试点到真正落地,还要经历一个相当长的时间。

    2026年1月2日
  • 国家层面智慧停车相关政策汇总及解读

    为更快速有效解决停车难问题,政府鼓励推动传统停车场向智慧停车场改造的同时也与各企业加大合作,促进智慧停车场的建设,国家相继出台支持智慧停车发展的政策和激励措施。受益于政策激励和跨界布局,智慧停车产业迎来了发展新方向,各地停车设施建设的步伐明显加快,升级后的停车场拥有更强大的管控力,并有效缓解了停车压力。

    2026年1月2日
  • 未来感十足!这个“警察”不简单!

    近日,滨江区中赢康康谷美食街来了一位新警员――“滨”sir。科技感的外形、加上友好的安全提示喊话,让这位警用巡逻机器人一上岗就引来了一大波围观。

    2026年1月2日
  • 广州公布100个人工智能应用案例

    使用人工智能技术,让微型巴士实现自动驾驶;通过人工智能模型和远程诊疗平台,将治疗致盲眼病的经验输送到缺乏专家的地方;基于“南沙交通大脑”,用数字孪生每一幕交通场景,造出交通“元宇宙”……

    2026年1月2日