我们需要新的基准来评估低复杂度解决方案的编码问题。 每个新功能就像塔中的一块积木,而当前的基准只评估每块积木的组装效果。 我们需要评估,跟踪在塔倒塌之前你能堆叠多高的积木。