当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
NAS明明没那么好用,为什么还有那么多人坚持选择使用?
什么是微软式中文?
如何看待使用mac mini当7*24h的服务器?
如何评价钟南山院士?
哪张照片让你觉得刘亦菲美得不可方物?
相对于PR、FCPX等同类软件,为什么Avid media composer在国内用的人很少?
以色列为什么要打伊朗?
美军 B-2 轰炸机参与袭击伊朗核设施,B-2轰炸机战斗力如何?会摧毁伊朗核设施吗?
有一个***约你出去,你会去吗?
年纪轻轻为什么会得腰肌劳损?
孩子为什么越大越不愿意跟我们说话?
Linux 下有没有类似 Everything 的搜索工具?
冬天也要穿胸罩吗?
评价一下Proxmox VE与ESXi的优劣?
Go 编译器为什么重视编译速度,而不太重视译后代码性能?
有些家长可以恶心到什么程度?
为什么 macOS 并不差,可市场总敌不过 Windows?
哪个编程语言是你的最爱?
软路由是否被过度神化?
如何看待现在大多数男人都不谈恋爱了?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
中小企业 SaaS 创业公司如何做市场推广?
为什么欧美影视喜欢露点?
你在武汉做过最孤独的一件事?
换过电池的苹果手机内部发现被加装了一个部件,有大佬知道这是干什么的吗?
做个web服务器,gin框架和go-zero怎么选?
公司就一个后端一个前端,有必要搞微服务吗?
你们的腰突是怎么突然好的?
我的儿子随我姓,为啥婆家反应那么大?
Obsidian中有哪些好用的插件值得推荐?