当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
大三做的海报,离就业差多远?
将 bug 译作「蚆蛒」,将 debug 译作「揥蚆蛒」,音译兼意译,是不是很巧妙?
为啥中国把《水浒传》拍得这么土?
女生到底应不应该穿***的衣服?
为什么零知识证明(ZKP)领域的开源项目几乎都用Rust实现?
腰椎间盘突出有多痛苦?
Rust如何离线发布商业闭源库?
为什么年轻人不要养龟?
为什么说 CPU 是人造物的巅峰?
鸿蒙折叠屏笔记本为什么敢卖26999?
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
你们的腰椎间盘突出,怎么治好的?
能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
为什么欧美影视喜欢露点?
为什么腰突不受到医学界的重视?
为什么突破性的技术总是最先发生在西方?
postgres集群的选择?
什么是 AI Agent(智能体)?
如果不能使用linux,只能选鸿蒙与windows,你会选哪个?
曹玉磊冒充「清华院长」频繁参加活动遭官方打***,他为何能堂而皇之以***身份开展活动?其将受到哪些处罚?
为什么女儿的反应这么强烈?
阿里云为什么没有一年的免费云服务?
我应该设置多少kb才能让他不能玩游戏?
“哨兵模式”涉嫌泄密,你支持封杀特斯拉吗?
为什么很多公司都不招大龄码农?
***拍大尺度片子时摄影师不会看光吗?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
小腿能粗到什么地步?
如何评价张靓颖刘宇宁《九万字》?
韦东奕(北大韦神)要是去写游戏引擎代码,能不能把虚幻引擎按在地上摩擦?数学好真能‘降维打击吗?