近日,山西大学人工智能学院、大数据科学与产业研究院联合山西财经大学信息学院及香港城市大学计算机科学系,在复杂关联结构挖掘领域取得重要研究进展。相关成果发表于国际人工智能与模式识别领域顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence。该研究由成红红副教授担任第一作者,钱宇华教授担任通讯作者,梁新彦副教授、梁吉业教授和香港城市大学张青富教授共同完成。

随着大数据与人工智能的发展,从海量复杂数据中识别有价值的变量关联机制,已成为数据科学与科学发现的基础性挑战。现有方法在复杂关联结构识别中普遍面临三方面瓶颈:难以应对真实数据的非线性与不确定性特征,依赖全局统计建模而忽略局部结构信息,以及缺乏统一公平的关联评估机制,导致复杂关联关系难以被可靠识别。
针对上述问题,研究团队提出“邻域洞察(Neighborhood Insight)”视角,首次从局部邻域结构出发刻画变量关联机制,揭示关联关系本质上对应跨变量空间邻域结构的结构性映射,而无关联情形则表现为该结构映射的消失与随机化。在此基础上,研究建立了邻域平滑性与邻域半径传播界,从理论上刻画了关联关系与邻域共现结构之间的内在对应机制,为基于局部结构的关联分析提供了重要的理论支撑。在方法层面,提出最大邻域系数(MNC),通过多尺度k近邻信息粒建模与互信息融合,实现对关联结构的跨尺度统一度量与公平比较,突破传统假设驱动方法与全局统计建模的局限。进一步构建了最大邻域非参数探索统计量(MNNE),实现对关联强度与结构形态的联合刻画,可同时揭示非单调性、复杂结构及函数形态特征。
研究在WHO全球指标、酵母表达、Friedman回归及半导体材料等多类真实数据上进行了系统验证。结果表明,该方法在关联刻画的普适性与评价公平性方面均统计优于现有先进方法,并能够有效揭示潜在未知关联结构,为复杂数据中的关联机制探索与科学规律发现提供了新的方法支撑。
本研究得到了国家自然科学基金重大项目(T2495251)、国家自然科学基金重点项目(62136005)、国家自然科学基金青年科学基金项目(62506217)、演化科学智能山西省重点实验室课题的资助。(通讯员:张颖)
编辑:高富灿