Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Song Tử - RL, CoT, đa ngôn ngữ. Nhân viên cấp cao RS @GoogleDeepMind MTV. 🇯🇵 -sinh ra 🇨🇳🇨🇦 . ví dụ: @OpenAI (JP: @shanegJP)
Shane Gu đã đăng lại
🚨 Toán Olympiad + AI:
Chúng tôi đã chạy Gemini 2.5 Pro của Google trên các bài toán IMO 2025 mới. Với việc tạo prompt và thiết kế pipeline cẩn thận, nó đã giải được 5 trong số 6 bài — điều này thật đáng chú ý cho những nhiệm vụ đòi hỏi sự hiểu biết sâu sắc và sáng tạo.
Mô hình có thể giành huy chương vàng! 🥇
#AI #Toán #LLMs #IMO2025
218,88K
Người châu Á: chúng tôi sẽ tự giải quyết rắc rối của mình

Patrick Shen03:03 18 thg 7
Tại buổi ra mắt, Cluely tuyên bố rằng nó sẽ tiêu diệt 9 ngành công nghiệp.
Chúng tôi ở đây để tiêu diệt chỉ một: gian lận.
Gặp gỡ Truely — công cụ mã nguồn mở phát hiện các cuộc phỏng vấn hỗ trợ AI trong thời gian thực. Hoạt động với Zoom, Meets, Teams và nhiều hơn nữa.
Tương lai của các cuộc phỏng vấn trực tuyến đã đến.
2,01K
Để chiến đấu với người châu Á, bạn cần người châu Á.

Patrick Shen03:03 18 thg 7
Tại buổi ra mắt, Cluely tuyên bố rằng nó sẽ tiêu diệt 9 ngành công nghiệp.
Chúng tôi ở đây để tiêu diệt chỉ một: gian lận.
Gặp gỡ Truely — công cụ mã nguồn mở phát hiện các cuộc phỏng vấn hỗ trợ AI trong thời gian thực. Hoạt động với Zoom, Meets, Teams và nhiều hơn nữa.
Tương lai của các cuộc phỏng vấn trực tuyến đã đến.
238
Tại sao các đội tiền huấn luyện và hậu huấn luyện cần phải hòa hợp với nhau

David Mizrahi06:21 18 thg 7
Rất hào hứng để chia sẻ công việc mới của chúng tôi: “Các mô hình ngôn ngữ cải thiện khi dữ liệu tiền huấn luyện phù hợp với các nhiệm vụ mục tiêu”
Vâng, nghe có vẻ hiển nhiên (và đúng là như vậy!), nhưng thường thì điều này chỉ xảy ra một cách ngầm và gián tiếp: chọn dữ liệu một cách trực quan → chuẩn mực → tinh chỉnh → lặp lại.
Chúng tôi tự hỏi: điều gì sẽ xảy ra nếu chúng tôi rõ ràng khớp dữ liệu tiền huấn luyện với các chuẩn mực? Kết quả là một phương pháp cực kỳ đơn giản mang lại hệ số tính toán gấp 2 lần trở lên so với các chuẩn mực mạnh và cho chúng tôi một cách có nguyên tắc để nghiên cứu cách lựa chọn chuẩn mực hình thành (và hạn chế!) khả năng của mô hình.
Thêm vào đó: các quy luật mở rộng rộng rãi từ việc huấn luyện hơn 500 mô hình cho thấy cách lựa chọn dữ liệu tối ưu phát triển khi các mô hình mở rộng.
🧵 (1/14)

2,68K
Nhóm Grok đang nội bộ hóa các hoạt động dữ liệu con người (ví dụ: tuyển dụng cho vai trò gia sư AI cho tiếng Nhật). Có khả năng nhiều phòng thí nghiệm tiên phong đang nghĩ về việc sở hữu và vận hành lao động dữ liệu.

Koki Ikeda | SoftBank22:12 15 thg 7
"xAI," đang phát triển Grok, đang tìm kiếm một Gia sư AI người Nhật.
Công việc bao gồm việc gán nhãn và chú thích dữ liệu văn bản, âm thanh và video tiếng Nhật. Bạn có thể làm việc hoàn toàn từ xa từ Nhật Bản, và mức lương là một mức cao theo tiêu chuẩn của Mỹ.
🗣️ Người nói tiếng Nhật bản địa
🧑💻 Hoàn toàn làm việc từ xa
💰 Mức lương theo giờ từ $35–65 (5200-9600 yen)
🕐 Hợp đồng 6 tháng (có khả năng gia hạn)

8,37K
Nhóm Grok đang nội bộ hóa các hoạt động dữ liệu con người (ví dụ: tuyển dụng cho vai trò gia sư AI cho tiếng Nhật). Với sự chuyển đổi của Scale AI, có khả năng nhiều phòng thí nghiệm tiên phong sẽ nghĩ đến việc sở hữu và vận hành lao động dữ liệu.

Koki Ikeda | SoftBank22:12 15 thg 7
"xAI," đang phát triển Grok, đang tìm kiếm một Gia sư AI người Nhật.
Công việc bao gồm việc gán nhãn và chú thích dữ liệu văn bản, âm thanh và video tiếng Nhật. Bạn có thể làm việc hoàn toàn từ xa từ Nhật Bản, và mức lương là một mức cao theo tiêu chuẩn của Mỹ.
🗣️ Người nói tiếng Nhật bản địa
🧑💻 Hoàn toàn làm việc từ xa
💰 Mức lương theo giờ từ $35–65 (5200-9600 yen)
🕐 Hợp đồng 6 tháng (có khả năng gia hạn)

324
Nếu bạn đang ở ICML và quan tâm đến RL hoặc tính đa ngôn ngữ, hãy chào @marafinkels! Chúng tôi đã làm việc chặt chẽ trong vài tháng qua để phát triển một phương pháp RL nhằm khắc phục một vấn đề chất lượng nghiêm trọng của Gemini. Cô ấy cũng có nhiều ý tưởng nghiên cứu tuyệt vời! Hy vọng Gemini x academia sẽ giữ liên lạc.

Mara Finkelstein27 thg 11, 2024
Các LLM thường được đánh giá bằng các chỉ số tự động trên các bộ dữ liệu kiểm tra tiêu chuẩn, nhưng các chỉ số và bộ dữ liệu kiểm tra được phát triển độc lập. Điều này đặt ra một câu hỏi quan trọng: Chúng ta có thể thiết kế các chỉ số tự động đặc biệt để xuất sắc trên các bộ dữ liệu kiểm tra mà chúng ta ưu tiên không? Câu trả lời: Có!

5,76K
Shane Gu đã đăng lại
Bài viết blog mới về sự bất đối xứng của việc xác minh và "luật của người xác minh":
Sự bất đối xứng của việc xác minh – ý tưởng rằng một số nhiệm vụ dễ xác minh hơn là giải quyết – đang trở thành một ý tưởng quan trọng khi chúng ta có RL cuối cùng hoạt động một cách tổng quát.
Những ví dụ tuyệt vời về sự bất đối xứng của việc xác minh là những thứ như câu đố sudoku, viết mã cho một trang web như instagram, và các vấn đề BrowseComp (mất khoảng 100 trang web để tìm câu trả lời, nhưng dễ xác minh khi bạn có câu trả lời).
Các nhiệm vụ khác có sự gần như đối xứng của việc xác minh, như cộng hai số 900 chữ số hoặc một số kịch bản xử lý dữ liệu. Tuy nhiên, một số nhiệm vụ dễ đề xuất các giải pháp khả thi hơn là xác minh chúng (ví dụ, kiểm tra sự thật của một bài luận dài hoặc nêu một chế độ ăn mới như "chỉ ăn thịt bò bison").
Một điều quan trọng cần hiểu về sự bất đối xứng của việc xác minh là bạn có thể cải thiện sự bất đối xứng bằng cách làm một số công việc trước. Ví dụ, nếu bạn có đáp án cho một bài toán toán học hoặc nếu bạn có các trường hợp kiểm tra cho một bài toán Leetcode. Điều này làm tăng đáng kể tập hợp các vấn đề có sự bất đối xứng xác minh mong muốn.
"Luật của người xác minh" tuyên bố rằng độ dễ dàng trong việc đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với mức độ có thể xác minh của nhiệm vụ đó. Tất cả các nhiệm vụ có thể giải quyết và dễ xác minh sẽ được AI giải quyết. Khả năng đào tạo AI để giải quyết một nhiệm vụ tỷ lệ thuận với việc nhiệm vụ đó có các thuộc tính sau:
1. Sự thật khách quan: mọi người đều đồng ý về những gì là giải pháp tốt
2. Dễ xác minh: bất kỳ giải pháp nào cũng có thể được xác minh trong vài giây
3. Có thể mở rộng để xác minh: nhiều giải pháp có thể được xác minh đồng thời
4. Ít tiếng ồn: việc xác minh có tương quan chặt chẽ với chất lượng giải pháp càng nhiều càng tốt
5. Phần thưởng liên tục: dễ dàng xếp hạng độ tốt của nhiều giải pháp cho một vấn đề duy nhất
Một ví dụ rõ ràng về luật của người xác minh là thực tế rằng hầu hết các tiêu chuẩn được đề xuất trong AI đều dễ xác minh và cho đến nay đã được giải quyết. Lưu ý rằng gần như tất cả các tiêu chuẩn phổ biến trong mười năm qua đều phù hợp với tiêu chí #1-4; các tiêu chuẩn không đáp ứng tiêu chí #1-4 sẽ gặp khó khăn để trở nên phổ biến.
Tại sao khả năng xác minh lại quan trọng đến vậy? Số lượng học tập trong AI xảy ra được tối đa hóa khi các tiêu chí trên được thỏa mãn; bạn có thể thực hiện rất nhiều bước gradient mà mỗi bước có nhiều tín hiệu. Tốc độ lặp lại là rất quan trọng – đó là lý do mà tiến bộ trong thế giới kỹ thuật số nhanh hơn rất nhiều so với tiến bộ trong thế giới vật lý.
AlphaEvolve từ Google là một trong những ví dụ vĩ đại nhất về việc tận dụng sự bất đối xứng của việc xác minh. Nó tập trung vào các thiết lập phù hợp với tất cả các tiêu chí trên, và đã dẫn đến một số tiến bộ trong toán học và các lĩnh vực khác. Khác với những gì chúng ta đã làm trong AI trong hai thập kỷ qua, đây là một mô hình mới ở chỗ tất cả các vấn đề đều được tối ưu hóa trong một môi trường mà tập huấn luyện tương đương với tập kiểm tra.
Sự bất đối xứng của việc xác minh có mặt ở khắp mọi nơi và thật thú vị khi tưởng tượng về một thế giới trí tuệ gồ ghề nơi bất cứ điều gì chúng ta có thể đo lường sẽ được giải quyết.

298,73K
Công việc có ảnh hưởng mà bất kỳ ai cũng có thể làm là sử dụng LLM để ghi chép và số hóa càng nhiều quy trình làm việc, CoTs và nguồn cảm hứng của bạn.
Kỹ thuật ngữ cảnh để tự động hóa và tăng cường bản thân trong cuộc sống và công việc.

Thariq05:51 15 thg 7
Nhật ký & Công việc cần làm
Tôi có một vài lệnh tùy chỉnh:
/l journal lệnh sẽ tạo một mục nhật ký mới cho ngày hôm nay.
/todos một lệnh cho phép tôi tạo công việc mới hoặc đánh dấu những công việc khác là đã hoàn thành. Các công việc cần làm được tổ chức theo chủ đề trong các tệp, ví dụ: ‘
Claude thường xuyên tìm kiếm mã của tôi, các dự án, v.v. để có thêm ngữ cảnh khi tôi thêm một công việc cần làm, điều này rất hữu ích.
814
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất