数据挖掘与智能信息系统实验室
数据挖掘与智能信息系统实验室成立于2000年,研究方向:大数据挖掘及应用、机器学习和模式识别等。实验室主要研究成员8名,其中:教授4名,副教授4名,博士生导师3名,获博士学位7名。设有海量数据分析与并行计算山西省科技创新重点团队1个,并拥有集群平台等大型科研设备等;与美国Auburn大学、国家天文台、中科院自动所等科研单位,建立了长期密切合作关系。近年来,主持承担了国家自然科学基金面上项目8 项、国家自然基金委-天文联合基金1项,国家青年科学基金项目2项,以及国家“863”高技术发展计划基金项目子课题、模式识别国家重点实验室开放课题、山西省重大研发项目、山西省自然科学基金、山西省青年科学基金、山西省回国留学人员科研资助课题等30多项科研项目;在关联规则挖掘、离群与分类知识提取、天文光谱数据挖掘技术、聚类分析、概念格与粗糙集理论、计算机视觉等领域进行了深入的理论和应用研究,并已取得了一些阶段性的研究成果,特别是采用离群数据挖掘结合模糊识别的方法,从SDSS DR9 154万条星系光谱数据中,新发现了165条具有两套速度系统的光谱星系对,该发现对于尘埃消光、尘埃分布、星系并合及演化等研究具有重要的科学价值,该成果已发表在天文学领域的顶级杂志之一《Monthly Notices of the Royal Astronomical Society》上;在CCF A类国际顶级期刊《IEEE Transactions on Computers》《IEEE Transactions on Parallel and Distributed Systems》,以及《IEEE Transactions on Systems, Man, and Cybernetics: Systems》《Expert Systems With Applications》《Data & Knowledge Engineering》《Knowledge-Based Systems》《Soft Computing》《软件学报》《自动化学报》等国内外知名学术刊物和会议上,发表论文200余篇,其中:SCI收录50多篇、EI收录100多篇;获国家授权发明专利2项,出版学术专著3部。
研究方向之一:大数据挖掘及应用
围绕国家重大科学工程LAMOST项目的实际需求和科学目标,在关联规则挖掘及并行化,离群数据挖掘及并行化,聚类分析及并行化,天体光谱数据挖掘技术,集群性能优化(数据放置、负载均衡、I/O和能耗等)等领域进行了深入研究,尤其是采用离群数据挖掘和模糊逻辑相结合的技术,新发现了175条具有两套速度系统的光谱星系对,对尘埃消光与分布、星系合并及演化等研究具有重要的科学价值(2014年发表在天文学顶级杂志《MNRAS》上);在Hadoop 集群环境下,提出了面向频繁模式并行挖掘任务的大数据划分策略,有效地解决了过渡数据迁移问题,并降低了计算负载(2017年发表在CCF A类刊物《IEEE TPDS》上);在Hadoop 集群环境下,提出了一种数据划分方法,有效地缓解了K近邻连接操作中的数据倾斜和负载均衡问题,可广泛应用在大数据挖掘、数据库等领域(于2017年被CCF A类刊物《IEEE TPDS》录用)。
研究方向之二:机器学习与模式识别
围绕地方经济和社会发展的重大需求,在聚类分析及应用、概念格理论与知识提取、粒计算和图像语义标注、三维重建与视觉测量、摄像机标定等领域进行了深入研究,取得了一系列成果, 尤其是在Hadoop 集群环境下,采用LSH将大数据集划分为独立Chunks的策略,提出了一种并行子空间层次聚类方法,其聚类过程具有良好的可扩展性,可广泛应用在大数据挖掘等领域,该成果发表在CCF A类国际顶级期刊《IEEE Transactions on Computers》上;提出了两种新的概念格结构(加权概念格和约束概念格),分别证明了其代数性质和知识表示的完备性,并有效地实现了局部离群和关联知识的表示和提取(2012年发表在CCF B类刊物《Data & Knowledge Engineering》上)。