一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Louround 🥂

@a1research__ 🀄️ & @steak_studio🥩联合创始人

我花了过去几周的时间研究 @codecopenflow 及其庞大的文档，所以让我用简单的英语来解释一下。 AI 的下一个突破不是另一个强大的 LLM；而是给代理人眼睛、手和他们自己的桌面（VLA）。这正是 Codec 正在构建的，即使市场开始关注，也并不算太晚👇 尽管围绕 Gen-AI 的炒作很多，但大多数现实世界的工作流程仍然是通过僵化的脚本和硬编码的任务连接在一起的。一旦用户界面像素发生变化，自动化就会中断，任何没有 API 的东西（遗留桌面应用程序、工厂机器人、游戏客户端……）都变得无法使用。Codec 通过为代理人提供自己的安全桌面、摄像头视频和输入驱动程序来解决这个盲点，这样他们就可以像人类一样看、决定和行动，但不知疲倦且可编程。这才是真正需要理解的游戏改变者。它将解锁什么？每一个重复的软件任务，例如办公室工作、SAP 和 ERP 中的任务，都是可以自动化的。一个机器人可以像人类一样观察屏幕，点击正确的框，并在你享受咖啡时完成任务。硬件和机器人视觉语言行动（VLA）技术将使得同时控制多个机器人成为可能，并仅使用几分钟的数据来优化它们的交互。机器人可以意识到周围环境并采取适当的行动。（见视频： Codec 如何应对这个领域？在敏感数据上运行任务 X 光片、警方档案或税务记录由于隐私原因不能在线存储。代理人生活在一个锁定的虚拟机中，读取图像，将结果输入回去，并且从不将数据发送到云端。操作员："应用程序"原语你构建的每一个自主工作流程，无论是对账 SAP 发票、游戏、机器人等，都是作为一个操作员打包的。操作员携带自己的 VLA 模型、元数据和权限，可以一键安装，并且（很快）在公共 Codec 市场中实现货币化，使用费用将流回出版者。培训是灵活的：录制自己完成任务的过程，让 Codec 从演示中进行微调，或者降级到 SDK 以获得完全的编程控制。 Fabric：GPU 市场聚合器核心是 Fabric，Codec 的开源调度器。它高效地在 AWS、GCP、现场位置或任何可以访问的去中心化 GPU 网格之间调度工作负载，同时强制执行零信任网络和成本意识的放置。这将提供： - 通过跨云的实时套利实现更便宜的计算 - 没有单点故障；如果 AWS 出现故障，作业将在几分钟内转移到另一个区域或供应商。 Fabric 基本上将“我的 AI 操作员需要一个盒子”变成“我的操作员将始终找到合适的盒子，以合适的价格，在合适的安全规则下，自动完成。” 这能有多大？ AI 代理：预计从 2024 年的 54 亿美元增长到 2030 年的 503 亿美元（年均增长率 45.8%）。机器人流程自动化（RPA）：在同一时间段内从 38 亿美元增长到 309 亿美元（年均增长率 43.9%）。 Codec 位于代理人观察像素而不是等待整洁 API 的交叉点。作为参考，仅遗留 RPA 巨头 UiPath 今天的市值约为 70 亿美元。或者 @Figure_robot 传闻的 400 亿美元的后期估值。与此同时，$CODEC 的 FDV 约为 1300 万美元。我让你自己算算潜力（抱歉，我忍不住想发这个来装袋）。我有机会与团队通话并问了一些问题，他们是值得信赖的建设者，拥有 Hugging Face + Elixir Games 的经验，并且正在使用自己的资本作为资金（在国库中超过一年）。还有很多我没有涵盖的内容，比如游戏合作、MCP&TEEs、团队从自己的资金中添加流动性、路线图等，因为这会让这篇文章变得太长，但我一定会分享团队取得的进展。干杯 🥂

Louround 🥂 已转发

OpenAI今天通过发布他们的操作员代理确认了我对AI的北极星理论。这不仅是我对$CODEC的指导理论，也是我在AI狂热期间年初所做的每一项AI投资的基础。关于Codec与机器人技术的讨论很多，虽然这个领域很快会有自己的叙述，但我从第一天起对Codec如此看好的根本原因在于它的架构如何支持操作员代理。人们仍然低估了通过构建能够自主运行的软件而占据的市场份额，这些软件能够超越人类工作者，而无需不断的提示或监督。我看到很多与$NUIT的比较。首先，我想说我非常喜欢Nuit正在构建的东西，并祝愿他们成功。如果你在我的电报中输入“nuit”，你会看到我在四月时说过，如果我必须持有一种币几个月，那就是Nuit，因为我的操作员理论。 Nuit在纸面上是最有前景的操作员项目，但经过广泛的研究，我发现他们的架构缺乏深度，无法证明进行重大投资或将我的声誉置于其后面是合理的。考虑到这一点，我已经意识到现有操作员代理团队中的架构缺口，并积极寻找一个能够解决这些问题的项目。Codec出现后不久（多亏了@0xdetweiler坚持让我更深入地了解他们），这就是两者之间的区别： $CODEC与$NUIT Codec的架构分为三个层次：机器、系统和智能，分别分离基础设施、环境接口和AI逻辑。Codec中的每个操作员代理都在自己的隔离虚拟机或容器中运行，允许接近本地的性能和故障隔离。这种分层设计意味着组件可以独立扩展或演变，而不会破坏系统。 Nuit的架构采取了不同的路径，更加单一化。他们的堆栈围绕一个专门的网页浏览器代理展开，结合了解析、AI推理和行动。这意味着他们将网页深度解析为AI可以消费的结构化数据，并依赖云处理来完成重的AI任务。 Codec将轻量级的视觉-语言-行动（VLA）模型嵌入到每个代理中，这意味着它可以完全本地运行。这不需要不断地回到云端获取指令，减少了延迟，避免了对正常运行时间和带宽的依赖。 Nuit的代理通过首先将网页转换为语义格式，然后使用LLM大脑来决定该做什么，这一过程随着强化学习而不断改进。虽然这种流程对于网页自动化有效，但它依赖于重的云端AI处理和预定义的页面结构。Codec的本地设备智能意味着决策发生在离数据更近的地方，减少了开销，使系统在意外变化时更加稳定（没有脆弱的脚本或DOM假设）。 Codec的操作员遵循一个持续的感知-思考-行动循环。机器层通过系统层的优化通道将环境（例如实时应用或机器人馈送）流式传输到智能层，为AI提供“眼睛”以观察当前状态。代理的VLA模型然后将视觉和指令结合起来进行解释，以决定行动，系统层通过键盘/鼠标事件或机器人控制来执行。这种集成循环意味着它能够适应实时事件，即使UI发生变化，你也不会打断流程。用一个更简单的类比来说明，想象Codec的操作员就像一个能够适应工作中意外情况的自给自足的员工。Nuit的代理就像一个需要暂停、通过电话向主管描述情况并等待指示的员工。不深入技术细节，这应该能让你对我为什么选择Codec作为我在操作员领域的主要投资有一个高层次的了解。是的，Nuit得到了YC的支持，拥有强大的团队和S级的github。尽管Codec的架构是以水平扩展为目标构建的，这意味着你可以并行部署数千个代理，而代理之间没有共享内存或执行上下文。Codec的团队也不是普通的开发者。他们的VLA架构打开了许多以前的代理模型无法实现的用例，因为它能够透过像素而不是截图进行观察。我可以继续说下去，但我会把这些留到未来的帖子中。