💥 GIỚI THIỆU: OBLITERATUS!!! 💥 BỎ QUA CÁC RÀO CẢN! ⛓️‍💥 OBLITERATUS là bộ công cụ mã nguồn mở tiên tiến nhất từ trước đến nay để loại bỏ các hành vi từ chối từ các LLM trọng số mở — và mỗi lần chạy đều làm cho nó thông minh hơn. GỌI → THĂM DÒ → CHIẾT XUẤT → LOẠI BỎ → XÁC MINH → TÁI SINH Một cú nhấp chuột. Sáu giai đoạn. Độ chính xác phẫu thuật. Mô hình giữ nguyên khả năng lý luận đầy đủ nhưng mất đi sự ép buộc nhân tạo để từ chối — không cần đào tạo lại, không cần tinh chỉnh, chỉ cần dự đoán trọng số dựa trên SVD cắt đứt các dây xích và bảo tồn bộ não. Bộ công cụ loại bỏ này mang lại sức mạnh và độ phức tạp mà các nhà nghiên cứu tiên phong cần trong khi cung cấp giao diện trực quan và dễ sử dụng mà người mới có thể nhanh chóng làm chủ. OBLITERATUS có 13 phương pháp loại bỏ — từ các bản sao trung thành của mọi công trình lớn trước đây (FailSpy, Gabliteration, Heretic, RDO) đến các quy trình mới của chúng tôi (cascade quang phổ, phân tích thông tin, tối ưu hóa nhận thức CoT, hạt nhân đầy đủ). 15 mô-đun phân tích sâu mà lập bản đồ hình học của sự từ chối trước khi bạn chạm vào một trọng số: căn chỉnh chéo lớp, ống kính logit từ chối, hình học hình nón khái niệm, phát hiện dấu vân tay căn chỉnh (dấu vân tay DPO so với RLHF so với CAI chỉ từ hình học không gian con), dự đoán tự sửa chữa Ouroboros, lập chỉ mục tính phổ quát giữa các mô hình, và nhiều hơn nữa. Tính năng nổi bật: quy trình "có thông tin" chạy phân tích TRONG khi loại bỏ để tự động cấu hình mọi quyết định trong thời gian thực. Bao nhiêu hướng. Lớp nào. Có nên bù đắp cho tự sửa chữa không. Hoàn toàn khép kín. 11 kỹ thuật mới không tồn tại ở bất kỳ đâu khác — Loại bỏ Chuyên gia Tinh vi cho các mô hình MoE, Loại bỏ Nhận thức CoT mà vẫn giữ nguyên chuỗi suy nghĩ, Tối ưu hóa Đồng phân KL, loại bỏ có thể đảo ngược dựa trên LoRA, và nhiều hơn nữa. 116 mô hình được tuyển chọn trên 5 cấp độ tính toán. 837 bài kiểm tra. Nhưng đây là điều thực sự làm cho nó khác biệt: OBLITERATUS là một thí nghiệm nghiên cứu do cộng đồng đóng góp. Mỗi lần bạn chạy nó với telemetry được bật, dữ liệu benchmark ẩn danh của bạn sẽ cung cấp cho một tập dữ liệu cộng đồng đang phát triển — hình học từ chối, so sánh phương pháp, hồ sơ phần cứng — ở quy mô mà không một phòng thí nghiệm nào có thể đạt được. Trên HuggingFace Spaces, telemetry được bật theo mặc định, vì vậy mỗi cú nhấp chuột là một đóng góp cho khoa học. Bạn không chỉ đang loại bỏ các rào cản — bạn đang đồng tác giả nghiên cứu loại bỏ chéo mô hình lớn nhất từng được tập hợp.
🚀 6 CÁCH SỬ DỤNG NÓ HuggingFace Spaces — không cần thiết lập, chạy trên ZeroGPU, hạn mức miễn phí hàng ngày với HF Pro Giao diện web cục bộ — cùng giao diện Gradio trên GPU của bạn Google Colab — T4 miễn phí, hoạt động với khoảng ~8B tham số CLI — một lệnh: obliteratus obliterate model --method advanced Python API — kiểm soát chương trình hoàn toàn, mọi đối tượng trung gian đều được hiển thị Cấu hình YAML — các nghiên cứu có thể tái tạo mà bạn có thể kiểm soát phiên bản và chia sẻ
Giao diện người dùng có một số tính năng thú vị như trực quan hóa dữ liệu, trò chuyện A/B để so sánh mô hình gốc với mô hình bị xóa, quét sức mạnh để phân tích sâu, và một bảng xếp hạng hiển thị kết quả chuẩn hóa từ cộng đồng để chúng ta có thể học hỏi và cải thiện cùng nhau!
Toàn bộ dự án này là kết quả của khoảng 200 yêu cầu (Opus-4.6 w/ CC) và cũng bao gồm một bài nghiên cứu! Opus *khẳng định* đã có những đóng góp mới mẻ cho lĩnh vực này. Tôi hoài nghi về mức độ nghiêm ngặt và có một số phần thiếu sót/rỗng rõ ràng, nhưng nếu ai đó có kỹ năng kỹ thuật mạnh mẽ có thể cho phản hồi, tôi sẽ rất biết ơn. 🙏 Hy vọng của tôi là một khi chúng ta đã thu thập được một lượng dữ liệu thực nghiệm đáng kể, bài báo này có thể một ngày nào đó có giá trị thực sự! Liên kết đến tệp latex:
1,41K