Xs0ul 最近的时间轴更新
Xs0ul

Xs0ul

V2EX 第 57957 号会员,加入于 2014-03-12 00:00:14 +08:00
今日活跃度排名 2295
根据 Xs0ul 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
Xs0ul 最近回复了
16 天前
回复了 ZHanYao 创建的主题 问与答 一朋友被诈骗十几万,关于作案手法问题
1. 几乎所有环节(支付宝、微信、银行、手机)都出了问题的情况下:“银行是工商银行,从和民警的口中得知,有可能是内部员工泄漏信息”
2. “从民警口中得知,国内能使用的最安全的银行是瑞士银行和招商银行”

甚至觉得是不是真的报了警都不好说
地图上找附近亚超(如果在欧美工作),基本上啥都买得到。买电饭煲一般比买菜简单
我记得输出是 [batch_size, 句子最大长度,vocab_size],也就是输出填好以后的整段话。但可以把非 mask 的位置上的 loss 屏蔽掉不参与 BP
可能没说清楚,你可以先看一眼可选的 config: https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertConfig
里面有两个参数分别是 num_hidden_layers 和 num_attention_heads ,而它们的默认值刚好都是 12.

你说打印出来看起来像是线性的 12 层,这是个 num_hidden_layers: https://github.com/huggingface/transformers/blob/main/src/transformers/models/bert/modeling_bert.py#L577, 可以从源代码看出来确实是线性进行的。

而 multihead 的并行,是我上面发的那个,包括往下几行的 forward 。这个在打印的结构里是没有体现的
50 天前
回复了 jasondennis12139 创建的主题 宽带症候群 请教留学在外如何回国冲浪?
弹幕很多人都提到了,再提两个不大不小的问题
1. YouTube 更新剧往往要慢一点,这样会导致没法和朋友讨论,也容易被剧透。
2. YouTube 对版权音乐的审核很严格,会出现国内综艺在 YouTube 上没背景音乐版权的情况,这段时间就只能消音。这个对一些音乐和选秀节目观看感受影响挺大的
56 天前
回复了 hertzry 创建的主题 职场话题 深度学习的老哥能不能帮忙看一下简历
1. 建议项目里(比如第三个)不要把所有你试过的方法一股脑全摆上去,这样会给人一种理解不深,只是把所有能用的方法试了一遍的感觉。
2. 另外介绍模型的时候,很少直接写 CNN ,因为 CNN 的模型太多了,得写的更具体一点
3. 技能清单里的 GNN ,不知道是不是指 graph 的。这个其实相对 CNN 或者 sequential 的模型,是用的比较少的,应该是个亮点。建议多介绍下什么为什么用 GNN ,效果如何
56 天前
回复了 kkkiio 创建的主题 Jira JIRA 是伪需求吗?
IM 当入口确实有,slack 就有 jira 的插件
56 天前
回复了 kkkiio 创建的主题 Jira JIRA 是伪需求吗?
1. 协同文档还有 confluence ,和 jira 一样是 Atlassian 的
2. 用 IM 很难说,但想象了一下要查过去某个 ticket 会很麻烦
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2204 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 16:18 · PVG 00:18 · LAX 09:18 · JFK 12:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.