热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Shane Gu
双子座 - RL、CoT、多语言。高级职员 RS @GoogleDeepMind MTV。🇯🇵 -出生 🇨🇳🇨🇦 .例如:@OpenAI (JP: @shanegJP)
亚洲人:我们会解决自己的问题

Patrick Shen7月18日 03:03
在发布时,Cluely 宣称它将摧毁 9 个行业。
我们只想摧毁一个:作弊。
认识 Truely——这个实时标记 AI 辅助面试的开源工具。支持 Zoom、Meets、Teams 等平台。
在线面试的未来已经到来。
1.97K
要与亚洲人作斗争,你需要亚洲人

Patrick Shen7月18日 03:03
在发布时,Cluely 宣称它将摧毁 9 个行业。
我们只想摧毁一个:作弊。
认识 Truely——这个实时标记 AI 辅助面试的开源工具。支持 Zoom、Meets、Teams 等平台。
在线面试的未来已经到来。
192
为什么预训练和后训练团队需要和谐相处

David Mizrahi7月18日 06:21
很高兴分享我们的新工作:“当预训练数据与目标任务匹配时,语言模型会得到改善”
是的,这听起来很明显(确实如此!),但通常这只是隐性和间接发生的:直观选择数据 → 基准测试 → 精炼 → 重复。
我们想知道:如果我们明确将预训练数据与基准匹配,会发生什么?结果是一个简单的方法,能够在强基线之上实现2倍以上的计算倍增,并为我们提供了一种原则性的方法来研究基准选择如何塑造(和限制!)模型能力。
额外内容:从训练500多个模型中获得的广泛扩展法则,揭示了随着模型扩展,最佳数据选择如何演变。
🧵 (1/14)

2.64K
Grok团队正在内部化人类数据操作(例如,招聘日本的AI导师角色)。可能更多的前沿实验室会考虑拥有和运营数据劳动力。

Koki Ikeda | SoftBank7月15日 22:12
"xAI"正在开发Grok,现招聘一名日语AI导师。
该职位涉及对日语文本、音频和视频数据进行标注和注释。您可以在日本完全远程工作,薪资按照美国标准支付,高时薪。
🗣️ 母语为日语
🧑💻 完全远程
💰 时薪为35-65美元(5200-9600日元)
🕐 6个月合同(可延长)

8.33K
Grok团队正在内部化人类数据操作(例如,招聘日本的AI导师角色)。鉴于Scale AI的转型,可能会有更多前沿实验室考虑拥有和运营数据劳动力。

Koki Ikeda | SoftBank7月15日 22:12
"xAI"正在开发Grok,现招聘一名日语AI导师。
该职位涉及对日语文本、音频和视频数据进行标注和注释。您可以在日本完全远程工作,薪资按照美国标准支付,高时薪。
🗣️ 母语为日语
🧑💻 完全远程
💰 时薪为35-65美元(5200-9600日元)
🕐 6个月合同(可延长)

286
如果你在 ICML 并对 RL 或多语言感兴趣,请向 @marafinkels 打个招呼!我们在过去几个月里紧密合作,推出了一种 RL 方法来解决一个关键的 Gemini 质量问题。她也有很棒的研究想法!希望 Gemini 和学术界保持联系。

Mara Finkelstein2024年11月27日
大型语言模型(LLMs)通常在标准测试集上使用自动化指标进行评估,但指标和测试集是独立开发的。这引发了一个关键问题:我们能否专门设计自动化指标,以在我们优先考虑的测试集上表现出色?答案是:可以!

5.72K
Shane Gu 已转发
关于验证的不对称性和“验证者法则”的新博客文章:
验证的不对称性——某些任务的验证要比解决更容易的想法——随着我们有了最终普遍有效的强化学习,正变得越来越重要。
验证不对称性的好例子包括数独谜题、为像 Instagram 这样的网站编写代码,以及 BrowseComp 问题(需要大约 100 个网站来找到答案,但一旦有了答案就很容易验证)。
其他任务的验证几乎是对称的,比如对两个 900 位数字求和或一些数据处理脚本。还有一些任务提出可行解决方案要比验证它们容易得多(例如,核实一篇长文章的事实或提出一种新的饮食方式,如“只吃野牛”)。
理解验证不对称性的重要一点是,通过提前做一些工作可以改善这种不对称性。例如,如果你有数学问题的答案钥匙,或者如果你有 Leetcode 问题的测试用例。这大大增加了具有理想验证不对称性的问题集。
“验证者法则”指出,训练 AI 解决任务的难易程度与任务的可验证性成正比。所有可以解决且易于验证的任务都将被 AI 解决。训练 AI 解决任务的能力与任务是否具有以下特性成正比:
1. 客观真理:每个人都同意什么是好的解决方案
2. 快速验证:任何给定的解决方案可以在几秒钟内验证
3. 可扩展验证:可以同时验证多个解决方案
4. 低噪声:验证与解决方案质量的相关性尽可能紧密
5. 连续奖励:很容易对单个问题的多个解决方案的优劣进行排名
验证者法则的一个明显实例是,AI 中提出的大多数基准测试都易于验证,并且迄今为止已被解决。注意,过去十年几乎所有流行的基准测试都符合标准 #1-4;不符合标准 #1-4 的基准测试将难以流行。
为什么可验证性如此重要?当上述标准得到满足时,AI 中的学习量达到最大;你可以进行很多梯度步骤,每一步都有大量信号。迭代速度至关重要——这就是数字世界的进步比物理世界的进步快得多的原因。
谷歌的 AlphaEvolve 是利用验证不对称性的最佳例子之一。它专注于符合上述所有标准的设置,并在数学和其他领域取得了一系列进展。与我们在过去二十年中在 AI 中所做的不同,它是一种新范式,即所有问题都在训练集等于测试集的环境中进行优化。
验证不对称性无处不在,考虑一个我们可以测量的世界的锯齿状智能是令人兴奋的。

298.72K
任何人都可以做的有影响力的工作是使用LLMs来记录和数字化尽可能多的工作流程、CoTs和灵感。
上下文工程用于在生活和工作中自动化和增强自己。

Thariq7月15日 05:51
日志与待办事项
我有一些自定义命令:
/journal 命令将为当天创建一个新的日志条目。
/todos 一个命令,可以让我创建新的待办事项或将其他事项标记为完成。待办事项按主题在文件中组织,例如:
Claude 经常会搜索我的代码、项目等,以获取更多上下文,当我添加待办事项时,这非常有帮助。
787
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可