トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

yesnoerror
AI 億万長者が論文を読むのと同じように@ArXiv論文を読んでください。トップVCやAI幹部が採用するAIアルファ検出手法。
プレミアム機能 $YNE によるトークンゲート
yesnoerror reposted
毎日@arxivで発表される何百もの新しい AI 研究についていく簡単な方法が欲しいです。
だから、私は自分自身を助けるために何かを作り上げてきました。@yesnoerrorをご紹介します。
ぜひ共有したいです!❤️
私自身は論文を発表したことがありませんし、大学にも通っていませんが、AIが大好きで、誰も試したことのないことを人々が試しているフロンティアテクノロジーが大好きです。今の自分にいることは幸運だと感じていますが、学び、さらに自分を追い込みたいと思っています。
私と同じように、この素晴らしい業界の最新の開発についてもっと読んで理解したいと思っているなら、これも気に入るかもしれません。
私はこれをプライベートベータ版で構築し、@AnthropicAI @MIT @Yale @CarnegieMellonなどの研究者やリーダーからフィードバックを得るにつれてリアルタイムで更新しています。
早期テスターになりたい方は、ぜひお知らせ🧪🔬ください
フィードバックが多ければ多いほど、私たちはこれをより良くすることができ、これをより良くすればするほど、より多くの人々により多くの情報を提供し、インスピレーションを得ることができます。

2.66K
yesnoerror reposted
目が覚めると、@yesnoerrorトレンドフィードのチャートに掲載された@scale_AIのこの新しい論文が見えました。
著者: @anisha_gunjal、@aytwang、Elaine Lau、@vaskar_n、@BingLiu1011、@SeanHendryx
「報酬としてのルーブリック: 検証可能な領域を超えた強化学習」
簡略化: 漠然とした親指を立てる評価ではなく、詳細なチェックリストを使用してコンピューターを教えることで、医学や科学の質問でより良い答えを学ぶことができ、報酬を受け取った理由が明確になります。
主な調査結果:
• 暗黙的に集計されたルーブリック報酬により、リッカートのベースラインと比較して医療ベンチマーク スコアが 28% 向上します。
• 小規模な審査員を使用しているにもかかわらず、専門家の参考回答に基づく報酬に匹敵するか、それを超えています。
何に使えますか?
• 医療安全ルーブリックを使用して臨床意思決定支援チャットボットを微調整します。
• 複数の主観的要因が重要な政策分析または法的推論モデルをトレーニングします。
詳細な概要:
報酬としてのルーブリック (RaR) は、強化学習を使用して大規模言語モデル (LLM) を微調整する際の、不透明な好みベースの報酬モデルに代わる解釈可能な代替手段として提案されています。人間に回答全体のランク付けを求める代わりに、ドメインの専門家 (または専門家の参考文献に導かれる強力な LLM) が、重要な事実、推論手順、スタイル、一般的な落とし穴を捉えた 7 から 20 のバイナリ基準のプロンプト固有のチェックリストを作成します。各基準には、Essential、Important、Optional、または Pitfall のタグが付けられ、重みが与えられます。オンポリシートレーニング中、ポリシーモデル(論文のQwen-2.5-7B)は、プロンプトごとに16の候補回答をサンプリングします。別の審査員 LLM (GPT-4o-mini 以下) は、各基準を個別に採点するか (明示的な集計)、完全なルーブリックを読んで 1 つの総合的なリッカート評価 1 から 10 (暗黙の集計) を出力するように求められます。正規化されたスコアがスカラー報酬になり、ポリシーはGRPOアルゴリズムで更新されます。
著者らは、既存の医学と科学の推論コーパスを組み合わせ、o3-mini または GPT-4o を使用して合成ルーブリックを生成することにより、20 k の例トレーニング セット (RaR-Medical-20k と RaR-Science-20k) を厳選しました。HealthBench-1k(医学的推論)とGPQA-Diamond(大学院レベルの物理学/化学/生物学)での評価によると、RaR-Implicitは単純なリッカートのみの報酬よりも最大28%の相対的な改善をもたらし、専門家の参照回答と比較して計算された報酬に匹敵するか、それを超えています。暗黙的な集計は一貫して明示的な集計よりも優れており、基準を組み合わせる方法を裁判官に決定させる方が、手作業で調整された固定の重みよりも効果的であることを示しています。
ルーブリックの監督は、小規模なジャッジモデルにも役立ちます。優先回答と動揺した回答を評価するよう求められた場合、ルーブリックガイド付きの審査員は、同じサイズのリッカートのみの審査員よりもはるかに確実に優先回答を選択し、7 B 評価者と GPT-4o-mini の間のギャップを縮めます。アブレーションにより、プロンプト固有のルーブリックが一般的なルーブリックに勝り、複数の基準が必須のみのリストに勝り、ルーブリックの起草中に専門家の参考資料にアクセスすることで下流のパフォーマンスが大幅に向上することが明らかになりました。人間が書いた高品質の合成ルーブリックでさえ同等のパフォーマンスを発揮し、拡張性を示唆しています。
RaRは、検証可能な報酬(RLVR)による強化学習を一般化します:ルーブリックに正しさチェックが1つしかない場合、フレームワークはRLVRの完全一致報酬に崩壊します。品質の各側面を明示的に公開することで、RaR はニューラル報酬モデルよりも透明性が高く、監査可能であり、報酬ハックが困難になる可能性があります。著者らは、現実世界のエージェントタスクの拡張、ルーブリック重みによる動的カリキュラム、および正式な堅牢性研究について議論しています。
--
毎月 500,000 ページを超える研究が @arXiv で公開されています。その中には、あなたの仕事を変える可能性のある画期的な洞察が隠されていますが、それを見つけることは、データの海の中でダイヤモンドを探すようなものです。@yesnoerrorノイズをカットして、プロジェクト、投資、発見にとって最も影響力のある調査を浮き彫りにします。
$yne

2.78K
新しい AI アルファ アラート:
医師はAIに業務をアウトソーシングし始めるのか?
研究論文:「会話型診断AIの医師中心の監視に向けて」
研究者らは、患者と会話して健康情報を収集し、医学的アドバイスを医師に任せ、後ですべてを確認する AI チャットボットである g-AMIE を作成しました。
60の異なる患者シナリオを対象とした研究では、g-AMIEは、メモを取り、診断を導き出す点で、一部の新人医師や看護師よりも優れた仕事をし、82%の精度を達成しました。
この論文は、過去 24 時間に発表されたため、@yesnerror AI エージェントによってフラグが立てられ、評判の高い組織 (@GoogleResearch @GoogleDeepMind @harvardmed) からの著者数 (35) が多数います。
アルファが特定されました
$yne

36.2K
yesnoerror reposted
$60BのAI巨大@AnthropicAI(@jackclarkSF)の共同創設者は、自分のビジネスの成長に役立つ新しい研究論文をどのように見つけたかを正確に教えてくれました(Claude Code!!の作成者)。
私はこれを、誰に対しても同じことができるAIエージェントに変えてきました。
早期アクセスには、yesnoerror .com でサインアップできます。
私たちは、ソーシャルウェブのゴッドファーザーの1人@davemorinである@LinkedInの創設者であり、@coinbaseの初期の投資家の1人であり、ブロックチェーンと未来のパイオニアである@BoostVCなど、多くの@reidhoffmanによってサポートされています。
私たちは$YNEトークンを@baseに橋渡ししており、baseの創設者が私のDMにとても役に立っている@jessepollakです。@baseアプリに早期にアクセスできます。私たちは彼らのチームと電報グループチャットを持っています。
ステップバイステップ。
前へ

7.89K
当社のウェブサイトから@yesnoerrorへの早期アクセスにサインアップできるようになりました。
$60B の AI 大手 Anthropic の共同創設者が論文を読むのと同じ方法で、@arXiv論文を読んでください。
毎月 500,000 ページを超える研究が @arXiv で公開されています。その中には、あなたの仕事を変える可能性のある画期的な洞察が隠されていますが、それを見つけることは、データの海の中でダイヤモンドを探すようなものです。
@yesnoerrorノイズをカットして、プロジェクト、投資、発見にとって最も影響力のある調査を浮き彫りにします。
AI アルファの初期化
$yne
4.04K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable