南京理工大学发布国内首个人文社会科学学术大语言模型
http://www.huaue.com  2026年5月9日  来源:南京理工大学

  日前,南京理工大学沈思教授团队开源发布国内首个人文社会科学领域学术大语言模型——“兰章”,标志着南京理工大学在“AI+人文社会科学”知识体系构建方面迈出重要一步。“兰章”凭借百亿词元的坚实数据基础以及两阶段深度优化训练,较好地解决了当前通用AI工具在人文社科全文本挖掘、复杂概念和论证逻辑理解方面“盲域”和“幻觉”问题,不仅可以辅助用户系统地获取和梳理海量学术资源,还能够帮助人文社会科学领域学者总体评价既有成果并敏锐发现新学术研究契机。

  “兰章”研发团队历时五年,构建了总规模116亿词元的人文社会科学学术语料库,涵盖CSSCI、CNKI人文社科期刊、人大复印报刊资料、教育部人文社科获奖著作全文(1992——2025年)等中文学术资源以及SSCI、A&HCI期刊摘要及Project MUSE、Project Gutenberg(1992——2025年)等学术资源,保证了学科的均衡覆盖以及期刊与著作的深度集成。“兰章”凭借百亿级词元的坚实数据基础,较好解决了通用AI工具主要依靠论文标题、摘要等简单信息挖掘语料,难以理解完整文本中复杂概念和论证逻辑的难点痛点问题。

  “兰章”研发团队选取人文社会科学全文本评测中表现较好的Qwen3-8B与Qwen3-32B基础模型进行两阶段的深度优化训练:在第一阶段,运用116亿词元的学术资料系统融入人文社科学科知识和学术表达方式,提升基础模型的的全文本理解能力;在第二阶段,团队围绕核心学术任务设计15697条训练指令,在多学科专家验证基础上反复精细调优,形成并持续提升模型的专业推理能力。经过深度优化训练,“兰章”表现显著优于多款通用模型,有效解决了跨语言环境下低频专业术语的识别盲区问题和学术文本生成中的逻辑碎片问题,图书自动分类准确率比通用模型高出30%。

  团队负责人沈思教授介绍,“大模型不是代替学者思考,而是立足实际学术研究,把自主知识体系的构建延伸到模型化和计算化的层面,从工具层面为人文社会科学学术创新提供持续支持。”目前,“兰章”已上线魔搭社区试运行,15697条训练指令数据已全部开源共享。

  近年来,学校高度重视哲学社会科学工作,积极推进一般社会科学与学校优势学科群的交叉融合,以数智技术赋能哲学社会科学研究。“兰章”的发布,是学校积极推进精品化特色化哲学社会科学研究,加快构建中国哲学社会科学自主知识体系进程中的又一最新成果。

  “兰章”研发团队负责人沈思现为经济管理学院教授,博士生导师,主要研究方向为信息检索、大语言模型,近五年主持国家社科基金重点项目、国家社科基金后期资助项目、国家自然科学基金面上项目、江苏省哲学社会科学基金、江苏省自然科学基金等项目7项,2025年获江苏省第十八届哲学社会科学成果奖二等奖。

  附:“兰章”大语言模型开源地址

  https://modelscope.cn/models/njauzwh/HssaLLM-8B

  https://modelscope.cn/models/njauzwh/HssaLLM-32B

  https://modelscope.cn/datasets/njauzwh/HssaLLM-SFT-data

 关于南京理工大学更多的相关文章请点击查看 

特别说明:由于各方面情况的不断调整与变化,华禹教育网(Www.Huaue.Com)所提供的信息为非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性,仅供参考,相关信息敬请以权威部门公布的正式信息为准。