当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
有哪些事,是社会底层人认识不到的?
j***aer总是说有分布式了,单体性能就不重要了,这种说法对吗?
你卡过最厉害的bug是什么?
python的包管理器uv可以替代conda吗?
为什么伊朗的防空系统失效了?
可以随身携带一个Linux系统吗?
大量消息在 MQ 里长时间积压,该如何解决?
有没有GUI框架开发难度小,***消耗又不多,而且又跨平台?
目前中国程序员和美国程序员的差距在哪里?
印度是真的烂还是咱们在信息茧房里面?
为什么有些人不喜欢春晚提到饺子?
光速每秒30万km,那动力是啥?
一岁宝宝高烧39度,爸爸还能睡得着,离吗?
熊猫烧香技术含量高吗?高在哪里?
最讨厌和哪种人打羽毛球?
现在读写速度最快的硬盘,能在30年前的计算机上当做内存使用吗?
什么时候你意识到自己不年轻了呢?
为什么不用rust重写Nginx?
***购图形工作站,写了丽台T1000的需求,结果奸商写了个GTX1650的显卡还中了,我该如何反驳?
为什么管理一严,员工就走人?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
go 有哪些成熟点的后台管理框架?
中国的防空系统能有效防止B2、B21这类飞翼隐身战略轰炸机入侵吗?
我国为什么没有类似CIA和克格勃的对外情报机构?
为什么微信不向telegram学习?
内存为什么不能设计成二维寻址?
电视机为什么有大流量上传?
如何看待盲人UP主蒙眼炒鸡蛋在成都各大医院都买不到胰岛素,最后进抢救室?
如何看待某日本小学校园餐只有一小块鸡肉?
Linux有日常使用的可能性吗?