上海交大团队发布: AI 在传统干支推理任务上的表现已接近人类专家
AI 能理解中国传统命理学的推理逻辑吗?
ChatGPT、DeepSeek、Gemini——这些全球最强的 AI 大模型,能写代码、做翻译、甚至通过律师考试。那么,它们能否理解中国传统干支体系中复杂的符号推理逻辑?
传统干支命理学(又称"四柱推命")是一套建立在天干地支组合之上的结构化推理系统,涉及五行生克、十神关系、时间周期等多层次的符号运算。这套体系的推理复杂度远超一般常识问答——它要求推理者同时处理多重变量之间的交互关系,并在时间维度上进行动态推断。
一个值得深入研究的问题是: AI 在这类结构化符号推理任务上的能力究竟如何? 和受过专业训练的人类专家相比,差距有多大?
为了回答这个问题,我们来自上海交通大学的研究团队开展了一项系统性研究: 以传统文化知识竞赛的专业题目为基准,对 AI 大模型与人类专家进行标准化对比评测,发表了学术论文 BaziQA-Benchmark,并将所有数据和评测代码完全开源。
研究结果出乎所有人的意料。
更重要的是,这不是一次主观的“谁说得更像”的比较,而是一场可以复现、可以对照、可以被独立验证的标准化学术评测。
评测方案: 200 道专业传统文化知识竞赛真题
我们从 2021 年到 2025 年连续五届传统文化知识竞赛中,精选了 200 道四选一的选择题。这些题目由资深传统文化研究者出题,是真正专业级别的干支推理题——不是网上的娱乐测试题目。
之所以选用选择题,原因很简单: 评分标准清晰。每道题只有对或错,避免主观因素干扰,让 AI 和人类专家在同一规则下正面比拼。
评测范围涵盖了传统干支分析中最常见的九大推理领域:
| 领域 | 推理维度 | 典型问题 |
|---|---|---|
| 事业 | 职业发展方向推断 | 适合什么行业? 何时有转机? |
| 财富 | 经济趋势与时机推断 | 哪年经济状况较好? |
| 感情 | 人际关系与情感推断 | 婚姻关系走向如何? |
| 家庭 | 家庭关系动态推断 | 与父母关系如何? 子女情况? |
| 健康 | 身体状况推断 | 哪些年份需要关注健康? |
| 性格 | 个人特质推断 | 性格特征? 适合什么角色? |
| 学业 | 学业发展推断 | 学业发展是否顺利? |
| 流年分析 | 特定年份综合推断 | 某年发生了什么重要事件? |
| 其他 | 综合性推断 | 整体格局如何? |
为了确保公平,我们给每个 AI 提供了完全相同的、事先计算好的干支数据——四柱信息、十神关系、大运流年等全部结构化数据一字不差。所有 AI 在同一起跑线上作答。
你可以把它理解为: 干支信息由统一引擎排好、输入完全一致,所有“选手”只需要做同一件事——把推理做对。
AI vs 人类专家: 差距没你想的那么大
我们不仅测试了当今最强的五款 AI 大模型,还将它们的成绩与传统文化知识竞赛的冠亚季军直接对比。结果令人惊讶——请注意,四选一题目随机猜测的正确率基线是 25%:
| 年份 | 最强通用 AI | AI 准确率 | 竞赛冠军 | 竞赛亚军 | 竞赛季军 |
|---|---|---|---|---|---|
| 2025 | DeepSeek-V3 | 37.0% | 50.0% | 47.5% | 45.0% |
| 2024 | Gemini-3-Pro | 38.5% | 50.0% | 47.5% | 45.0% |
| 2023 | GPT-5.1 | 36.0% | 37.5% | 35.0% | 32.5% |
| 2022 | DeepSeek-V3 | 36.0% | 40.0% | 37.5% | 35.0% |
| 2021 | DeepSeek-V3 | 37.0% | — | — | — |
数据清晰地显示: 在 2023 年,最强通用 AI(GPT-5.1,36.0%)已经超过了竞赛季军(32.5%),仅比冠军低 1.5 个百分点! 在 2022 年,DeepSeek-V3 的成绩(36.0%)同样与季军(35.0%)仅一步之遥。
如果你对这些数字没有直觉,换一个说法: 在真正的专业级推理任务上,AI 已经不是“凑热闹”的水平,而是能稳定进入强手区间——甚至在部分年份,已经能超过竞赛前三名中的一位选手。
干支命理推理是一个极其困难的结构化推理任务——即使是竞赛的冠军选手,准确率也只有 37.5%~50%。在这样的高难度赛道上,AI 大模型的表现已经令人刮目相看。
从"接近"到"超越": 结构化推理协议的技术突破
通用 AI 已经能和人类专家掰手腕,但我们的研究发现,只要用对推理方法,AI 的准确率还能进一步提升。
关键不在于让 AI “多写一点”,而在于让它按正确的顺序思考: 先看全局,再抓主因,最后才下结论。这样得到的推断不仅更准确,也更稳定、更具可解释性。
我们在论文中提出了结构化推理协议(SRP)——一套经过严格学术验证的干支推理方法论,引导 AI 按照正确的步骤进行结构化推理:
- 全局扫描 —— 先看大局: 五行平衡、日主强弱、整体格局
- 力量排序 —— 在当前时间背景下,找出最关键的作用力,分出主次
- 事件推断 —— 根据核心力量,推断对应的人生事件
SRP 的价值在于把“专家的直觉”转化为可执行的推理步骤: 每一步都能落到明确的依据上,让结果更可靠,也让推理过程具备可解释性。
这套方法带来了显著的准确率提升:
| 领域 | 准确率提升 |
|---|---|
| 流年分析 | +8~10 个百分点 |
| 感情推断 | +3~14 个百分点 |
| 事业推断 | 最高 +15 个百分点 |
| 学业推断 | 最高 +30 个百分点 |
我们基于这套方法论构建了一个可验证的推理引擎原型——AuraMate 灵伴,用于进一步验证 SRP 在实际应用场景中的效果。该引擎不只输出结论,还会展示完整的推理路径: 如何扫描干支结构、如何排序关键力量、又如何把这些力量映射到具体推断。
以下是 SRP 引擎与通用 AI 及人类专家的对比数据:
| 年份 | SRP 引擎 | 最强通用 AI | 竞赛冠军 | 竞赛季军 |
|---|---|---|---|---|
| 2025 | 42.0% | 37.0% | 50.0% | 45.0% |
| 2024 | 34.5% | 38.5% | 50.0% | 45.0% |
| 2023 | 34.5% | 36.0% | 37.5% | 32.5% |
| 2022 | 37.5% | 36.0% | 40.0% | 35.0% |
| 2021 | 39.0% | 37.0% | — | — |
关键数据一目了然:
- 2022 年,SRP 引擎(37.5%)超越竞赛季军(35.0%),追平亚军(37.5%)
- 2023 年,SRP 引擎(34.5%)超越竞赛季军(32.5%),接近冠军(37.5%)
- 2025 年,SRP 引擎达到 42.0%,比最强通用 AI 高出 5 个百分点
- 五年平均,SRP 引擎(37.5%)稳定领先所有通用 AI
为什么结构化推理方法表现更优?
多数通用 AI 在处理干支推理任务时,往往缺乏系统化的分析流程,输出结果的稳定性和可解释性不足。原因在于通用大模型缺少针对这类结构化推理任务的专门优化。
SRP 方法论的核心优势在于将学术验证的推理方法、高精度干支计算和领域专用策略结合在一起,形成了一套系统化的分析框架:
- 高精度干支计算引擎 —— 干支数据是一切分析的基石。我们使用自主研发的计算引擎,确保天干地支、十神关系、大运流年等每一个细节都精确无误。
- 结构化推理引擎 —— 采用论文验证的 SRP 方法,按照"全局扫描 → 力量排序 → 事件推断"的严谨步骤来分析,确保每一步推理都有据可依。
- 九大推理领域专项优化 —— 针对感情、事业、健康、财富、流年等领域分别进行推理策略调优,每个领域都使用最适合的分析方法,实现全面均衡的高准确率表现。
- 持续迭代优化 —— 通过数据反馈不断迭代推理策略,推理引擎的准确率持续提升。
在这个连人类冠军也只有 37.5%~50% 准确率的高难度赛道上,SRP 结构化推理方法已经实现了与人类专家比肩的表现——并且还在持续优化中。
数据开源,接受学术检验
我们已将 BaziQA 的完整数据集和评测代码全部开源。我们相信: 只有经得起客观学术检验的方法,才具有真正的参考价值。
如果你对 AI 在传统文化结构化推理领域的能力感兴趣,欢迎查看我们的开源论文和数据集,了解更多研究详情。
研究团队将持续深耕这一交叉学科领域,不断推进 AI 在复杂符号推理任务上的能力边界。