我花了下午的时间测试 ChatGPT 的新消费自动化产品 - Agent。 它在哪些方面表现良好,在哪些方面又有所不足? 它与 Operator(以及像 Perplexity 的 Comet 这样的新产品)相比如何? 我的评测 👇
它也常常在简单任务上“过度”表现——但无法完成更复杂的任务。 例如,代理花了一整分钟来找到最近一次1:1的日期/时间,却无法安排新的会议(下面是4倍速⬇️) Comet在不到10秒的时间内找到了相同的信息并发送了新的邀请。
ChatGPT的隐私和安全限制也造成了障碍。 代理同意为@illscience制作一张生日海报,从我的日历中提取日期,并从互联网上找到他的照片。 但最终结果(花了13分钟)出于“隐私原因”删除了他的名字和照片🤦‍♀️
Agent真正擅长什么? 在非时间敏感的研究或计算任务上抢先一步。 例如,Agent在25分钟内创建了NVIDIA的DCF模型(可下载的Excel格式!)。 格式并不是我会做的那样,但这已经是一个很大的进步。
258.97K