最近发布的 GPT-4.1 不仅在性能上超越了前代,更在数据交互领域引发了变革。本文深入探讨了 GPT-4.1 的技术特点,尤其是在 SQL 查询生成方面的强大能力,以及它对数据分析师工作方式的深远影响。

当一个名为“Quasar Alpha”的神秘模型跳入现场时,我公开宣布这很可能是 OpenAI 最新的旗舰模型。虽然我错误地称它为“GPT-5”,但我 100% 正确,这确实是 OpenAI 的最新模型。
前不久,“GPT-4.1”正式发布,这些模型的有效性令人发指。然而,没有讨论的是它对各地数据分析师的现实影响。
什么是 GPT-4.1?
GPT-4.1 系列是 OpenAI API 中提供的三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。
这些模型几乎在所有方面都优于 GPT-4o 和 GPT-4o mini,尤其是在编码和指令跟随方面。它们还具有更大的上下文窗口 — 支持多达 100 万个token —并且实际上能够使用整个窗口。
然而,对于任何新模型,我不一定相信它们的创造者对他们性能的评价。我喜欢亲自测试它们。
Google 和 OpenAI 之间争夺“最佳 AI 模型”
2024 年,OpenAI 系列模型被认为是最好的。这种情况在 2025 年发生了翻天覆地的变化。
- DeepSeek R1 以首创的廉价 “推理” 模型抢尽风头;
- xAI 发布了 Grok,这是另一个非常有效的模型,特别是对于搜索或推理任务;
- Google 发布了 Gemini Flash2,它的性能优于所有其他主要的大型语言模型而价格只是其中的一小部分;
- Anthropic 发布了 Claude 3.7Sonnet,就原始性能而言,它是世界上最好的 AI模型之一;
随着所有这些版本的发布,GPT-4 失去了“最佳 AI 模型”的称号。该头衔属于 Anthropic(凭借 Claude 3.7 Sonnet 的原始功能)和 Google(凭借 Gemini Flash 2.0 的成本效益)。
在复杂推理任务中测试所有其他大型语言模型
为了测试这些模型的有效性,我在一项复杂的推理任务中对每个大型语言模型进行了测试,该任务的重点是用于财务分析的 SQL 查询生成。这项任务涉及向每个模型询问 60 个财务问题,并让模型生成能够正确回答这些问题的 SQL 查询。

GPT-4.1 的成功率最高,为 93.3%,平均分最高,为 0.884,以微弱优势超过双子座 2.5 Pro 的 92.5% 成功率和 0.880 的平均分。
特别有趣的是性价比平衡。虽然 GPT-4.1 以高价位(每百万token 2.00 美元输入/8.00 美元输出)提供最佳原始性能,但它与 Gemini 2.5 Pro(1.25 美元/10.00 美元)的价格段相似。
将此与以前的“世界上最好的模型”(Claude 3.7 Sonnet)相比,Google 和 OpenAI 毫不费力地赢得了这个奖项。它们在成本、速度和原始性能方面更好。
[fancyad id=”45″]
Gemini 2.0 Flash 与 GPT-4.1-mini 相比仍然具有竞争力,但成本几乎是 4 倍。虽然 GPT-4.1-nano 的定价与 Flash 相似,但它是迄今为止在该任务的每个指标上表现最差的模型,因此它几乎无法用于该任务。
其他模型甚至不在对话中。Grok、DeepSeek 和 Llama 4 都比 OpenAI 和 Google 模型更差、更昂贵、更慢。在这项任务中,OpenAI 在纯粹性能方面是赢家(以非常微弱的优势),而 Google 在成本效益方面仍然是赢家。竞争从未如此激烈。
GPT-4.1 的 SQL 查询生成能力的影响
GPT-4.1 所展示的进步,尤其是在 SQL 查询生成方面,对多个行业都有深远的影响。像 GPT-4.1 这样的大型语言模型正在迅速改变数据驱动任务的执行方式,以非凡的精度和效率自动执行复杂的查询。
从历史上看,为复杂的数据分析生成 SQL 查询需要大量的手动工作。数据分析师必须:
- 清楚地理解并定义业务问题;
- 将这种理解映射到可用的数据库上,确保以正确的表和字段为目标;
- 手动编写和优化 SQL 查询,这通常是一个迭代且耗时的过程;
例如,考虑投资者希望根据公司是否随着时间的推移而提高运营效率来做出决策。要回答一个简单的问题,例如“查找过去 3 年利润率不断提高的公司”,他们必须:
- 访问金融数据库(通常使用 Bloomberg Terminal 等昂贵的平台或自定义 API);
- 将所有这些数据合并到自定义数据库(或上帝保佑 Excel 工作表)中;
- 识别并联接包含利润和收入数据的多个表;
- 编写和优化复杂的 SQL 语句以计算年同比利润率;
- 通过反复试验手动验证结果的准确性;
这种传统方法虽然有效,但耗时、成本高且容易出错。最重要的是,它使绝大多数人完全无法进行财务分析。
GPT-4.1 改变了游戏规则
现在,同一位投资者可以直接向模型提出问题,该模型会在几秒钟内生成准确、优化的 SQL 查询。对生产力和准确性的影响是巨大的:
- 速度:查询生成立即发生,而不是花费数小时或数天;
- 准确性:GPT-4.1 在生成复杂 SQL 查询方面取得了 88.5% 的平均分数,显着减少了人为错误;
- 可访问性:非技术人员现在无需深厚的 SQL 专业知识即可执行复杂的数据分析;
现在,同一位投资者可以访问像 NexusTrade 这样的应用程序,并在几秒钟内免费获得他们的答案。例如:

不过它会变得更好。如果我这个非技术人员有后续问题,我就不必去找数据科学团队浪费资源。我可以问 AI。
查找过去 3 年利润率不断提高的公司。筛选出仅市值超过 250 亿美元且在过去 3 年中一直盈利的股票:

对此的影响是巨大的。“价值投资”由大型机构把关的日子已经一去不复返了,分析这些数据需要花费数百万美元。现在,任何人都可以进行真实的财务分析,并对结果的准确性有合理的信心。
数据质量和来源重要性
但是,GPT-4.1 的 SQL 生成的有效性在很大程度上取决于底层数据的质量。对于精确的财务分析,稳健和准确的基本面数据至关重要。你不能依赖 scarperper、unverify、third source 来获取你的数据。
GPT-4.1 的到来标志着数据分析的一个分水岭,这应该让各行各业的专业人士既兴奋又警惕。凭借其前所未有的 93.3% 的复杂 SQL 查询生成成功率,我们见证了一个时代的开始,过去需要数年才能掌握的专业技术技能现在可以通过自然语言获得。数据分析师、财务顾问和 SQL 专家可能会发现他们的专属域名突然向所有人开放——这种民主化威胁着既定的职业道路,同时创造了非凡的新机会。
作者:来学习一下