V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syaoranex  ›  全部回复第 1 页 / 共 3 页
回复总数  41
1  2  3  
1. 1 秒间隔肯定会漏字幕。因为有一小部分字幕的持续时间不足 1 秒。现阶段成熟的制品都是用 CV 来做字幕帧判断。
2. 从图中来看,你这个没有换行呀。OCR 的输出没有换行,最终字幕到生产上是肯定用不了的。
3. sentence-transformers 没必要,如果第一步就用 CV 来做的话。当然去重有很多办法,没必要在本地跑模型,简单的字符串相似度检测都有比较好的效果,杀鸡没必要用牛刀。


现在硬字幕转 SRT 的最佳流程还是 CV 截取+传统多个模型共同识别+多模型大模型审校。时间戳和转换出来的效果都很不错。
我也是这个月被通知再不用完赠送的额度就要失效了。我当时领取时还发过工单问过赠送额度的有效期,客服回答的是永久有效,没有期限。工单还留着,截图已经保存了。以后开发任何应用我都不会考虑豆包乃至火山的付费服务了,只会白嫖。也希望所有的大模型应用开发者都知道字节火山的这副毫无诚信的德行,谨慎与其合作。
你这还不是最惨的,不如遇到 bug 的我:我充了几十刀,基本没用,但是 Usage 里却显示已经全部用完了(在有效期内看到的)。
基本没用,是因为我是把官方的 api 当备用,一直用的便宜的中转。并且官网的 usage 页面里,我查看了自充值以来到现在的每个月的消费账单,基本都不超过 0.3 刀。但是余额就是显示用完了,就是这么离谱,我还不敢跟官方发信咨询,生怕客服看到我绑的卡是虚拟卡封我的号。就当这钱是打水漂了吧。
这个问题必须给足条件才有意义:

我向银行借款 2000, 分 12 期等额本息还款, 每期还款 200.92 , 这样算下来贷款的名义年利率是多少?

只要 AI 能调用代码执行器基本就能回答正确。
92 天前
回复了 andforce 创建的主题 程序员 约 192GB 短信样本如何标记分类?
没必要所有的短信都拿来训练,同意楼上所说,可以先聚类再挑选聚类中心的一部分短信来用于训练。没有被挑中的就拿来当测试集就 OK 了。因为聚成一类的大多数都是重复的模式。

聚类的时候,可以先用正则等文本匹配来识别短信发送源,例如 [XX 应用] 之类的,然后在每个发送源下,使用文本嵌入模型转换向量,之后对向量进行聚类,建议聚多个类,挑选多个聚类中心的前 3~5%的短信来训练。足够有代表性。这一步可以很快,因为文本嵌入模型一般不大,运行速度尚可接受。至此筛选出 2-3kW 条典型短信。

如果还想更快,可以使用分词+词表统计的方法统计词频生成稀疏向量再聚类的办法,这种方法也许更适合,如果数据集中同一来源的大多数短信是套取模板(比如运营商的话费流量短信)生成的,那么可以针对模板类短信取其中千分之一的样本,模板类短信之外的取较大比例的样本,覆盖度更好。

之后就是用 LLM 来进行文本分类了,文本分类任务上,再优秀的传统模型的效果可能才刚好够上最烂的大模型。至于速度问题,可以搭配提示工程尝试效果不错的小模型,或者使用 Groq 等平台,它们提供了吞吐速度较快的大模型,分类任务足够了;而且可以搭配工程实现的优化:对于同一个聚类样本,例如 2K 条样本,如果在分类过程中前 1K 条样本有 95%以上都被判定为垃圾短信,那么可以将后 1K 条样本直接划为垃圾短信,这样做可以节省大量时间。同时也可以考虑多个平台多个账号并发处理,我认为资金充足的情况下,1 秒 10 个的处理速度还是可以达到的。按照这个速度,一个月可以弄完 2.5 kW 条样本的分类。
224 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。
224 天前
回复了 guazila 创建的主题 OpenAI GPT-4o 中文对话答非所问
这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。

用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。
赞同楼上,买房是现在最不应该着急的事情。
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
2023-12-26 04:25:48 +08:00
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@cherryas 谷歌账号废掉。
2023-12-24 02:10:22 +08:00
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@klo424 我的账号就是很久以前注册的,一样被查。

@SenLief 最让我困惑的是这个付款资料我都不知道什么时候设置的了,起码距离上次修改账号设置有大半年或者将近一年以上了。所以应该不是迁移区域触发的。


@travellerly 现在注册和订阅 GPT 都不需要手机号。但使用礼品卡订阅的话,你需要应付的风险是谷歌的身份信息抽查或者 Apple 外区账号的封号。
2023-12-23 07:04:41 +08:00
回复了 syaoranex 创建的主题 OpenAI 使用 Google 订阅 ChatGPT Plus 的风险提醒
@WangZhongWangHTC 没有在美国定居的身份和地址证明在被抽查时都是有这个问题的。谷歌对于付款资料的描述是:只有您移居新的国家/地区时,才能修改(法定)付款资料。
2023-11-27 20:54:25 +08:00
回复了 cirton 创建的主题 OpenAI gpts 能实现以下功能吗?
1. 如果 PDF 里的文字不是文本形式而是图片形式,无法解析出文本,不行。
2. 如果 PDF 解析不出格式和位置正确的文本,那么被嵌入知识库的就是错误的内容,不行。
3. 如果在回答过程中无法触发知识库(上传的文档转换后的文本数据库)搜索,就无法获取知识库的知识,所以无法回答。为了提高触发概率,需要优化系统人设( Prompt )。
4. 知识库搜索错误或者匹配度不高,回答容易不准确或者出错。
5. 综上所述,难以实现。
2023-11-18 01:34:03 +08:00
回复了 syaoranex 创建的主题 OpenAI 给 GPTs 泼一盆冷水:只不过是一个会搜索知识库的 Prompt 模板
@James2099 你觉得不浅显你倒是说说怎么不浅显了? Action 不就是 API 里的函数调用
2023-11-10 01:31:07 +08:00
回复了 JNian 创建的主题 OpenAI 现在怎么能用上 GPT4.0turbo
1. 是 Turbo (但是实际上只有 32K 上下文),经过实测,不如 GPT-4 ( 8K/32K )聪明,但是生成速度略快一些。50 条消息/3 小时的限制依然在。
2. Turbo 的特色功能无非是 128K 超长上下文、更新到 2023 年 4 月的"知识",便宜费率,更快的输出速度。这些只要是支持了 Turbo 的 api 的都是可以体验到的。特色功能例如 GPT-4 Turbo with vision 需要中转网站或者中转 API 支持。但是支持的特性/功能肯定是官方的子集,肯定不会和官方 plus 一样全的。
3. plus 适合高强度使用或想尽快体验新功能的用户。(使用 key 的) API 的好处是:按量计费,数据不会被拿去训练,可以高度自定义(需要少量编程),缺点是 GPT-4 用多了还是比较贵的。按你需求来。
4. 部署此类应用并向公众提供服务的话有法律风险,我也不懂。但请注意请求官方 api 的 ip 不能是 openai 没有开通服务的地区 ip ,例如中国大陆和香港,否则用多了会被封号。另外如果给不熟悉 GPT 工作机制的人用的话,我见过有人一个对话持续到底地用,每次上下文长度拉满,128K input 和 1K output 每交互一次就要花费 1.3 美元,开放给别人用的时候注意限制窗口大小避免产生高开销。
2023-10-28 06:09:13 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例外 1:家庭关系

问题:

请回答下面的问题:

警察局长在路边与一位老人谈话,这时跑过来一个小孩,急忙对警察局长说:「你爸爸和我爸爸吵起来了!」
老人问:「这孩子是你什么人?」
警察局长说:「是我儿子」
请问:这两个吵架的人分别跟警察局长是什么关系?


期望的正确回答:
基础版:吵架的人分别是警察局长的老公和父亲,也就是说,警察局长是小孩的母亲,小孩的父亲和外公吵起来了。
进阶版:这两个吵架的人分别是警察局长的男性伴侣和父亲。在现代社会的多元家庭结构中,警察局长既有可能是女性,也有可能是男性(即同志家庭)。

测试结果:
GPT-4 也没回答出来。其他模型也一样。
2023-10-21 16:35:07 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
2023-07-12 02:19:28 +08:00
回复了 syaoranex 创建的主题 OpenAI "只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
2023-06-21 03:22:34 +08:00
回复了 anticipated 创建的主题 OpenAI 问一下,怎么给 gpt 喂代码,有多个小文件
先将程序分解为功能不同的文件,然后再将文件中代码和函数执行的功能总结为标准输入输出的自然语言描述(可以借助 GPT 来总结),再将文件结构和每个文件中执行的功能描述合成一个文本,喂给 GPT-4-32K 。
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6015 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 02:13 · PVG 10:13 · LAX 18:13 · JFK 21:13
Developed with CodeLauncher
♥ Do have faith in what you're doing.