比如它们需要先查找信息然后编写一个 h 脚本再绘制图表使用多个工具串联起来解决问题时模型表现得非常糟糕。而这对人类来说是非常自然的。 v : 是的但这些操作没有被记录下来是这个意思吗?也就是说模型无法学习到这些步骤。
W: 完全正确。这些推理链条在人类解决复杂问题时非常常见我们会自然地使用一系列工具思考问题并推理下一步需要做什么。如果遇到错误我们会回过头重新考虑。很多这样的智能链条数据今天根本不存在。
这是一个需要生成的数据例子。 退一步讲首先需要在数据上取得的进展 乌干达 whatsapp 数据 是增加数据的复杂性朝前沿数据迈进。其次是增加数据的生产量捕捉更多人类在实际工作中的行为。
W: 是的捕捉更多人类的操作行为同时投资于合成数据或混合数据。
利用合成数据同时让人类参与其中从而生成更高质量的数据。我们需要像对待芯片生样看待数据生产。 就像我们讨论芯片生产的边界确保有足够的生产能力来制造芯片。对于数据也是一样的我们需要有效的数据生产边界能够生成海量数据来支持模型训练。
最后一个经常被忽视的方面是对模型的测量确保我们能够科学地分析模型的不足之处从而精确确定需要添加哪种数据来提高模型的性能。 v : 大科技公司相对于独立实验室在数据资源上有多大的优势呢? W: 大公司在利用现有数据资源时面临很多监管问题。