secsilm 最近的时间轴更新
这是个什么内容?
2019-05-16 11:01:32 +08:00
secsilm's repos on GitHub
Python · 23 人关注
bifrost
Connect gpus with your eyes.
14 人关注
awesome-posts
选取数据科学和机器学习领域内比较好的英文文章进行翻译
Python · 13 人关注
2019-nCoV-dash
新型冠状病毒(2019-nCoV)肺炎(COVID-19)疫情展示
Python · 6 人关注
csdn2md
Export csdn blogs to markdown files.
Jupyter Notebook · 4 人关注
analyzing-python-survey-2017
Simple analysis on python survey 2017 dataset.
Jupyter Notebook · 4 人关注
awsome-colabs
A collection of awsome colab notebooks.
2 人关注
DMTK
Microsoft Distributed Machine Learning Tookit
0 人关注
100-times-faster-nlp
🚀100 Times Faster Natural Language Processing in Python - iPython notebook
0 人关注
AlphagoVSKeJie-Match-Time
柯洁和 AlphaGo 的比赛中走的每一步的时间分析
0 人关注
An-Intuitive-Introduction-to-Probability-Course-Notes
《An Intuitive Introduction to Probability》课程的学习笔记。
Jupyter Notebook · 0 人关注
analyzing-jay-chou-songs
A simple analysis on Jay Chou songs.
Jupyter Notebook · 0 人关注
analyzing-python-survey-2018
Simple analysis on python survey 2018 dataset.
0 人关注
app-starter-kit
Streamlit App Starter Kit helps kick start your Streamlit app creation.
Shell · 0 人关注
Bash-Snippets
A collection of small bash scripts for heavy terminal users
0 人关注
bert-tf2-keras
0 人关注
blog
Public repo for HF blog posts
Python · 0 人关注
chihou
A package for notifying you by email when something is done.
0 人关注
COVID-19
Novel Coronavirus (COVID-19) Cases, provided by JHU CSSE
0 人关注
cpython
The Python programming language
0 人关注
CWS-IN-WWW19
CSS · 0 人关注
dash-app-stylesheets
Hosting Dash app stylesheets
Python · 0 人关注
diffusers
🤗 Diffusers: State-of-the-art diffusion models for image and audio generation in PyTorch
Jupyter Notebook · 0 人关注
docs-l10n
Translations of TensorFlow documentation
0 人关注
DXY-COVID-19-Data
2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse
0 人关注
FASPell
产学界最强(SOTA)的简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
Python · 0 人关注
flask-demo
JavaScript · 0 人关注
frontend-nanodegree-resume
0 人关注
github-cheat-sheet
A list of cool features of Git and GitHub.
Python · 0 人关注
halo
Beautiful terminal spinners in Python
0 人关注
hello-world
My first step to Github
secsilm

secsilm

V2EX 第 263479 号会员,加入于 2017-10-30 11:20:18 +08:00
今日活跃度排名 201
根据 secsilm 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
secsilm 最近回复了
3 分钟前
回复了 qdwang 创建的主题 分享发现 ChatGPT 还不是最可怕的
@clockwise9 #70 我们这边也观察到 LLM 的确定性或者说稳定性比较差,受输入的影响比较大,当然可能是数据的原因。现在 distil 版的模型基本上速度很快了,准确率也不会下降很多( 1-2 个点),可以满足我们的需求,base 版的模型其实速度也还可以,毕竟有一些专用的加速芯片等手段来加速(虽然还不完善)。

@wangxiaoaer #74 这个难以确定,毕竟我也没有 GPT 的训练集😂要注意的一点是,你在网上搜不到不代表不在训练集里。
15 小时 1 分钟前
回复了 qdwang 创建的主题 分享发现 ChatGPT 还不是最可怕的
作为 NLP 从业者,首先我对 GPT 系持怀疑态度,我就基于我的经验,发表一下个人愚见。

先不说文本生成这种难度较高的任务,就连文本分类这种最最基础的任务,在很多场景下达到 95% 以上的准确率仍然是很困难的( Bert 系),他就是学不会。楼上有人说模型参数量很大,有人说模型不是单纯记训练集,可是现实是,模型很可能就是在背书,参数量越大背得越好。

不知道大家有没有想过,GPT 这种 LLM ( Large Language Model )的训练集是非常之巨大的,那么在评测模型的时候,也就是在测试集中是不是有可能出现训练集中的数据或者类似数据?这个现象叫 benchmark data contamination 。GPT 的作者也发现了这个现象,但是他已经来不及重新训练了(费用太高)。

我个人认为,现阶段模型的作用已经相对较小了,最重要的是数据,也就是 Andrew Ng 所说的 data-centric AI ,正所谓 GIGO ( Garbage In Garbage Out ),构建一个成熟稳定强大的人工智能系统,现在重点和难点已经变成如何获取干净、有效、足够的数据。模型已经基本定型,小修小改影响不了多少。

关于背书和数据的重要性,还可以参见 GitHub Copilot ,是不是很多是直接拿的现有代码(训练集)?

希望模型在背背背之后,某一天可以突然真正理解其中奥义,那时候才是真正变成了自己的知识,就像我们小时候死记硬背古诗,长大后某天突然理解了真正含义。那要造成这个突变,是数据扮演了更重要的角色还是模型?以后还难说。

个人愚见。
7 年了,今年由于太忙,更新少了点。
发现现在招行专业版客户端导出账单只能导出为 PDF 了,还是说我没找对地方?
29 天前
回复了 secsilm 创建的主题 问与答 iPad Pro 2021 扩展坞接显示器没反应
@shfan #1 好吧,我用的是绿联六合一的
40 天前
回复了 vipppppp 创建的主题 问与答 各位怎么看待少儿编程?
建议进行英语等语言学习。
42 天前
回复了 Yuigahama 创建的主题 Android 刚收到 Pixel 7 Pro
@cxtrinityy #3 同感,实体指纹多好用,非得搞屏下指纹,我现在用的米 10pro ,体验依然不如实体指纹。
东方树叶喝过一次太难喝,心想怎么会有这么难喝的饮料
试过用 iPad Pro11 在地铁上读论文,体验还可以。
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4964 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 02:23 · PVG 10:23 · LAX 18:23 · JFK 21:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.