openai o1 有哥们体验吗？说说感受

44 条回复 • 2024-09-15 11:46:33 +08:00

1

ibazhx

2024 年 9 月 13 日

一周只能 30 次

2

xe2vherd

2024 年 9 月 13 日

听说擅长的方向是推理，比如做做奥赛什么的？，跟 claude 的使用场景不太一样

3

hardto

2024 年 9 月 13 日

推理吊打 claude ，感觉 o1-mini 吊打 o1

4

Folder

2024 年 9 月 13 日

感觉就是话贼多, 一个回答能老长了看起来都费劲.
话说从 4o 开始回答就变得长了很多, 是不是以为字越多回答越有含金量啊.

5

haoji

2024 年 9 月 13 日

o1-preview 一个劲的给你分析，最后出结果，适合需要“解题过程”的场景

6

kai4tech111

OP

2024 年 9 月 13 日

@Avafly #4 是的 gpt 家族风格，应该和后期人工对齐有关

7

cherryas

2024 年 9 月 13 日

cot 是数学推理的必要方向这是楼下李奶奶都知道的事。强是强，也确实跨时代，但是本质就是 cot+agent ，其它模型半年内应该能追上来

8

kai4tech111

OP

2024 年 9 月 13 日

@haoji #5 有点像做数学题多写解题过程就能多拿分一样

9

kai4tech111

OP

2024 年 9 月 13 日

@ibazhx #1 看看公开的 api 价格就知道了，15$/1M input token, 60$/1M output token
（之前还听说要增加一个 pro 套餐才能用，看来还是太人道了）

10

kai4tech111

OP

2024 年 9 月 13 日

@cherryas #7 虽然大家都知道，但敢为先还是值得肯定的，不然都等着抄别人那就完了

11

yena

2024 年 9 月 13 日 via iPhone

出了一道补全至完全二叉树的题，还是做不出来

12

bhy

2024 年 9 月 13 日

@yena 能具体说说，或者分享下对话记录吗？

13

wweerrgtc

2024 年 9 月 13 日

肯定是比以前厉害不少, 但是和 claude 3.5 比, 我不知道, 只开了一个会员

看演示视频, 其实也是一些简单问题, 不是很复杂的

14

lunafreya

2024 年 9 月 13 日 via iPhone

但人家拿出了新的 Scaling Law, 把玄学变成了科学，至少是经验科学

15

wweerrgtc

2024 年 9 月 13 日

@bhy #12
chatgpt.com/share/66e3930f-1694-8013-bdeb-62849a73883b

16

kyro00000

2024 年 9 月 13 日

到底有 ai 能做有机化学题吗? 头疼..

17

otakustay

2024 年 9 月 13 日

@Avafly 因为 Transformer 注定了前文越准确生成就越准确嘛，话多不就是为了替用户你把前文补上

18

easyii

2024 年 9 月 13 日

那写代码的话是 Claude 好用还是 ChatGPT 现在是 ChatGPT 会员

19

meeop

2024 年 9 月 13 日

1

用我最喜欢的写 todolist 测试,和之前的 4o 差不多,但是因为新模型多了一个分析用户输入的步骤,自动扩展完善了我的 promot,todolist 自带了删除,划掉按钮,还有已完成的 todo 的过滤器

但是上述要求我并没有说

对于普通用户,这可能更好,输出效果变好
对于生产或者更专业的用户,这就有点坑了,ai 自动帮你脑补了你没要求的功能

20

lihanst

2024 年 9 月 13 日

@ibazhx poe 一个月只能用 30 来次..,

21

SLKun

2024 年 9 月 13 日

在做数学题方面感觉显著好于之前的所有模型就是太贵了

22

guanchayuan

2024 年 9 月 13 日

解答这题还不如 4o：

有 5 个重量都互不相同的箱子，每个的重量都小于 100 千克。将这些箱子两两组合在一起称重，得到的结果分别是：113 ，116 ，110 ，117 ，112 ，118 ，114 ，121 ，120 与 115 千克，请问最重的箱子为多少千克？

你们可以试试。

23

Hyxiao

2024 年 9 月 13 日

这玩意输出太猛了，我反复跟他强调几遍了，别给出这么多的信息，还是不肯改

24

wweerrgtc

2024 年 9 月 13 日

@guanchayuan #22
o1 给的答案：62.5 千克

正确答案是多少?

25

Folder

2024 年 9 月 13 日 via iPhone

@otakustay 很多是没用的废话，比如把我的内容重复一次然后回答，莫名其妙附上一大段代码，以前不这样的。特别用了 claude 之后对比更强烈了。

26

HKzy

2024 年 9 月 13 日

摆烂了，俺们现在都用豆包

27

xe2vherd

2024 年 9 月 13 日

@guanchayuan 这题就不对啊，五个箱子分别重？

28

xe2vherd

2024 年 9 月 13 日

5 个箱子重量从大到小 x_1, x_2, x_3, x_4, x_5

x_1 + x_2 = 121
x_4 + x_5 = 110

29

xe2vherd

2024 年 9 月 13 日

x_1 + x_3 = 120,
x_5 + x_3 = 112,
x_1 + x_2 + x_3 + x_4 + x_5 = (重量和) / 4 = 289

解上面五个方程得到 54, 56, 58, 59,62

30

aiqinxuancai

2024 年 9 月 13 日

我感觉实际上他是对某个模型进行多次调用，实现类似 dify 多步工作流的处理方式。

比如：
第 1 次调用，拆分问题
第 2 次调用，针对拆分后的问题进行解答
第 3 次调用，纠正解答的中存在的问题并重新解答

再或者：
第 1 次调用，解决问题
第 2 次调用，指出解决方案中存在的问题
第 3 次调用，根据指出的问题再次解答

31

kai4tech111

OP

2024 年 9 月 13 日

@easyii #18 省流，claude

32

kai4tech111

OP

2024 年 9 月 13 日

@aiqinxuancai #30 是的有额外的推理过程，看他们的 api 介绍里就能发现，而且计费也包含这部分

33

guanchayuan

2024 年 9 月 13 日

@zmxnv123 你这个是哪个 AI 模型解答的。还是人工解答的。

34

casatAway

2024 年 9 月 13 日

@hardto 怎么个吊打 claude ，你比了啥，就得出这结论

35

ztmzzz

2024 年 9 月 13 日 via iPhone

1

o1 更新了训练数据，现在学到了 lean4 了，4o 只学到了 lean3

36

xuelang

2024 年 9 月 13 日

https://selfboot.cn/2024/09/13/gpto1_hands_on/
早上就把 preview 额度干完了。。试了下，代码和推理有一点提高，不过也没有和 Claude 拉开很大差距。
中文理解和生成，还得是 Claude3.5

37

piero66

2024 年 9 月 13 日

很强，有一定的思维能力，更接近懂点东西的真人的解题方式了

38

rqYzyAced2NbD8fw

2024 年 9 月 14 日

@guanchayuan

```text
There are 5 crates, each has a unique weight less than 100kg. The crates are weighted in groups of two and the results obtained are 113, 116, 110, 117, 112, 118, 114, 121, 120 and 115 kg. What's the weight of the heaviest crate?```

```text
To solve this problem, we’ll need to find the unique weights of the five crates based on the sums of all possible pairs. Here’s a step-by-step explanation:

Step 1: List the given sums and identify the smallest and largest sums.

...

Conclusion:

The weights of the crates are:

• a = 54 kg
• b = 56 kg
• c = 58 kg
• d = 59 kg
• e = 62 kg

Answer: 62 kg

```

鸡巴啰嗦了一大堆最后总算是解出来了，就这题的表现来看确实不如 gpt4o 。

39

guanchayuan

2024 年 9 月 14 日

@LanhuaMa 我用中文没解出来，英文可以？那下次是不是可以先翻译，然后用英语来解数学题？

40

rqYzyAced2NbD8fw

2024 年 9 月 14 日

@guanchayuan 我日常问 gpt 都是英文的，中文 gpt 感觉有点唐，不敢让他指导我写代码...

图省事可以让 GPT 先把你上一句话翻译一遍，然后叫他根据翻译的内容用英文输出，这样也能取得类似英文的质量的

41

NiaoBlush

2024 年 9 月 14 日 via iPhone

搜了好几道题目分别用 4o 和 o1 试了下，大多数给的答案是对的，以下是一道给出答案不一样的：

题目：一个人在林中散步时，无意中听到了几个强盗在商量如何分赃。强盗们说，如果每人分 6 匹布，则剩余 5 匹；如果每人分 7 匹布，则少 8 匹。请问：共有几个强盗？几匹布？

4o 给的答案：设共有 $ x $ 个强盗，布匹总数为 $ y $。

根据题意，列出以下方程：
1. 每人分 6 匹布，剩余 5 匹：即 $ y \equiv 5 \pmod{6} $，表示 $ y = 6x + 5 $。
2. 每人分 7 匹布，少 8 匹：即 $ y \equiv -8 \pmod{7} $，也就是 $ y \equiv -8 + 7 = -1 \equiv 6 \pmod{7} $，表示 $ y = 7x - 8 $。

于是我们有两组同余条件：
\[
y \equiv 5 \pmod{6}
\]
\[
y \equiv 6 \pmod{7}
\]

通过解这组同余方程，可以求出总共有多少强盗以及多少匹布。根据求解得出，最终答案为：
**总共有 59 匹布，9 个强盗**。

o1 给的答案：

42

NiaoBlush

2024 年 9 月 14 日 via iPhone

接上面，o1 给的答案：**答案：**

共有 **13** 个强盗，**83** 匹布。

---

**解题过程：**

设强盗人数为 $ x $，布的总数为 $ y $。

1. **每人分 6 匹布，剩余 5 匹：**

\[
y = 6x + 5 \quad \text{（ 1 ）}
\]

2. **每人分 7 匹布，还差 8 匹：**

\[
y + 8 = 7x \quad \text{（ 2 ）}
\]

3. **解方程组：**

将方程（ 1 ）代入方程（ 2 ）：

\[
6x + 5 + 8 = 7x \\
6x + 13 = 7x \\
7x - 6x = 13 \\
x = 13
\]

4. **求布的总数：**

将 $ x = 13 $ 代入方程（ 1 ）：

\[
y = 6 \times 13 + 5 = 78 + 5 = 83
\]

**结论：**

共有 **13** 个强盗，**83** 匹布。

43

assassing

2024 年 9 月 14 日

1

怼了两天把额度用完，结论是在编程方面不如 GPT-4 。注意不是 4o ，这个 o1 像在 4o 路线上演变出来的。o1mini 回答大概率和 o1 一模一样，不用纠结他们之间的区别。

特点 1：输出超长，但如果持续对话会发现它经常重复前面回答过的内容。生成代码方面会有优势，以前代码要分多次输出，有时会中断，现在不担心这个问题。当然我还没来得及考察代码质量。

特点 2：输出稳定，多次问同一个问题，回答大概只有 10% 不同，如果应用在图像生成上会很有用。但由于幻觉依旧，也就是你的问题它给你错误回答，重复问它还是给你同样的错误答案，而不像以前重新生成会有改观。

特点 3：有所保留，这点从 4o 开始感受明显。就像一个高中数学老师被调任教小学，你问它初中数学知识，它反复给你讲解小学数学概念。只有在追问 5 轮之后它才开始说一些真正的重点，浪费很多时间。

也许是时候试试 Claude 了？

44

rebeccaMyKid

2024 年 9 月 15 日

@Avafly 输出太长+1 ，日常使用感觉有点倒退。可能适合拿来一些需要详细 reasoning 的问题？目前就我浅浅的常识，感觉还是 4o 好用。