AIBaZiResearchOpen Source

上海交大团队发布: AI 在传统干支推理任务上的表现已接近人类专家

2026年2月1日|AuraMate Research

AI 能理解中国传统命理学的推理逻辑吗?

ChatGPT、DeepSeek、Gemini——这些全球最强的 AI 大模型,能写代码、做翻译、甚至通过律师考试。那么,它们能否理解中国传统干支体系中复杂的符号推理逻辑?

传统干支命理学(又称"四柱推命")是一套建立在天干地支组合之上的结构化推理系统,涉及五行生克、十神关系、时间周期等多层次的符号运算。这套体系的推理复杂度远超一般常识问答——它要求推理者同时处理多重变量之间的交互关系,并在时间维度上进行动态推断。

一个值得深入研究的问题是: AI 在这类结构化符号推理任务上的能力究竟如何? 和受过专业训练的人类专家相比,差距有多大?

为了回答这个问题,我们来自上海交通大学的研究团队开展了一项系统性研究: 以传统文化知识竞赛的专业题目为基准,对 AI 大模型与人类专家进行标准化对比评测,发表了学术论文 BaziQA-Benchmark,并将所有数据和评测代码完全开源。

研究结果出乎所有人的意料。

更重要的是,这不是一次主观的“谁说得更像”的比较,而是一场可以复现、可以对照、可以被独立验证的标准化学术评测。

评测方案: 200 道专业传统文化知识竞赛真题

我们从 2021 年到 2025 年连续五届传统文化知识竞赛中,精选了 200 道四选一的选择题。这些题目由资深传统文化研究者出题,是真正专业级别的干支推理题——不是网上的娱乐测试题目。

之所以选用选择题,原因很简单: 评分标准清晰。每道题只有对或错,避免主观因素干扰,让 AI 和人类专家在同一规则下正面比拼。

评测范围涵盖了传统干支分析中最常见的九大推理领域:

领域推理维度典型问题
事业职业发展方向推断适合什么行业? 何时有转机?
财富经济趋势与时机推断哪年经济状况较好?
感情人际关系与情感推断婚姻关系走向如何?
家庭家庭关系动态推断与父母关系如何? 子女情况?
健康身体状况推断哪些年份需要关注健康?
性格个人特质推断性格特征? 适合什么角色?
学业学业发展推断学业发展是否顺利?
流年分析特定年份综合推断某年发生了什么重要事件?
其他综合性推断整体格局如何?

为了确保公平,我们给每个 AI 提供了完全相同的、事先计算好的干支数据——四柱信息、十神关系、大运流年等全部结构化数据一字不差。所有 AI 在同一起跑线上作答。

你可以把它理解为: 干支信息由统一引擎排好、输入完全一致,所有“选手”只需要做同一件事——把推理做对

AI vs 人类专家: 差距没你想的那么大

我们不仅测试了当今最强的五款 AI 大模型,还将它们的成绩与传统文化知识竞赛的冠亚季军直接对比。结果令人惊讶——请注意,四选一题目随机猜测的正确率基线是 25%:

年份最强通用 AIAI 准确率竞赛冠军竞赛亚军竞赛季军
2025DeepSeek-V337.0%50.0%47.5%45.0%
2024Gemini-3-Pro38.5%50.0%47.5%45.0%
2023GPT-5.136.0%37.5%35.0%32.5%
2022DeepSeek-V336.0%40.0%37.5%35.0%
2021DeepSeek-V337.0%

数据清晰地显示: 在 2023 年,最强通用 AI(GPT-5.1,36.0%)已经超过了竞赛季军(32.5%),仅比冠军低 1.5 个百分点! 在 2022 年,DeepSeek-V3 的成绩(36.0%)同样与季军(35.0%)仅一步之遥。

如果你对这些数字没有直觉,换一个说法: 在真正的专业级推理任务上,AI 已经不是“凑热闹”的水平,而是能稳定进入强手区间——甚至在部分年份,已经能超过竞赛前三名中的一位选手。

干支命理推理是一个极其困难的结构化推理任务——即使是竞赛的冠军选手,准确率也只有 37.5%~50%。在这样的高难度赛道上,AI 大模型的表现已经令人刮目相看。

36.0% 2023 年最强 AI 准确率
37.5% 2023 年竞赛冠军准确率
1.5% AI 与冠军的差距

从"接近"到"超越": 结构化推理协议的技术突破

通用 AI 已经能和人类专家掰手腕,但我们的研究发现,只要用对推理方法,AI 的准确率还能进一步提升

关键不在于让 AI “多写一点”,而在于让它按正确的顺序思考: 先看全局,再抓主因,最后才下结论。这样得到的推断不仅更准确,也更稳定、更具可解释性。

我们在论文中提出了结构化推理协议(SRP)——一套经过严格学术验证的干支推理方法论,引导 AI 按照正确的步骤进行结构化推理:

  1. 全局扫描 —— 先看大局: 五行平衡、日主强弱、整体格局
  2. 力量排序 —— 在当前时间背景下,找出最关键的作用力,分出主次
  3. 事件推断 —— 根据核心力量,推断对应的人生事件

SRP 的价值在于把“专家的直觉”转化为可执行的推理步骤: 每一步都能落到明确的依据上,让结果更可靠,也让推理过程具备可解释性。

这套方法带来了显著的准确率提升:

领域准确率提升
流年分析+8~10 个百分点
感情推断+3~14 个百分点
事业推断最高 +15 个百分点
学业推断最高 +30 个百分点

我们基于这套方法论构建了一个可验证的推理引擎原型——AuraMate 灵伴,用于进一步验证 SRP 在实际应用场景中的效果。该引擎不只输出结论,还会展示完整的推理路径: 如何扫描干支结构、如何排序关键力量、又如何把这些力量映射到具体推断。

以下是 SRP 引擎与通用 AI 及人类专家的对比数据:

年份SRP 引擎最强通用 AI竞赛冠军竞赛季军
202542.0%37.0%50.0%45.0%
202434.5%38.5%50.0%45.0%
202334.5%36.0%37.5%32.5%
202237.5%36.0%40.0%35.0%
202139.0%37.0%
42.0% SRP 引擎 2025 年最高分
37.5% 五年平均准确率
超越季军 2022、2023 年数据

关键数据一目了然:

  • 2022 年,SRP 引擎(37.5%)超越竞赛季军(35.0%),追平亚军(37.5%)
  • 2023 年,SRP 引擎(34.5%)超越竞赛季军(32.5%),接近冠军(37.5%)
  • 2025 年,SRP 引擎达到 42.0%,比最强通用 AI 高出 5 个百分点
  • 五年平均,SRP 引擎(37.5%)稳定领先所有通用 AI

为什么结构化推理方法表现更优?

多数通用 AI 在处理干支推理任务时,往往缺乏系统化的分析流程,输出结果的稳定性和可解释性不足。原因在于通用大模型缺少针对这类结构化推理任务的专门优化。

SRP 方法论的核心优势在于将学术验证的推理方法、高精度干支计算和领域专用策略结合在一起,形成了一套系统化的分析框架:

  1. 高精度干支计算引擎 —— 干支数据是一切分析的基石。我们使用自主研发的计算引擎,确保天干地支、十神关系、大运流年等每一个细节都精确无误。
  2. 结构化推理引擎 —— 采用论文验证的 SRP 方法,按照"全局扫描 → 力量排序 → 事件推断"的严谨步骤来分析,确保每一步推理都有据可依。
  3. 九大推理领域专项优化 —— 针对感情、事业、健康、财富、流年等领域分别进行推理策略调优,每个领域都使用最适合的分析方法,实现全面均衡的高准确率表现。
  4. 持续迭代优化 —— 通过数据反馈不断迭代推理策略,推理引擎的准确率持续提升。

在这个连人类冠军也只有 37.5%~50% 准确率的高难度赛道上,SRP 结构化推理方法已经实现了与人类专家比肩的表现——并且还在持续优化中。

数据开源,接受学术检验

我们已将 BaziQA 的完整数据集和评测代码全部开源。我们相信: 只有经得起客观学术检验的方法,才具有真正的参考价值。

如果你对 AI 在传统文化结构化推理领域的能力感兴趣,欢迎查看我们的开源论文和数据集,了解更多研究详情。

研究团队将持续深耕这一交叉学科领域,不断推进 AI 在复杂符号推理任务上的能力边界。