时间:2016年 4月 9日(校历第6 周的周六 )时间 8:00-9:30
地点:信息工程学院会议室
参加人员:柴变芳,胡吉朝,才秀凤,马力肖,傅玥,安素芳,陈嶷瑛,许冀伟, 尹立杰,黄红艳
主题: PLSA的EM算法及在线算法、演化算法、并行算法
内容:
PLSA对称模型参数估计EM算法:E步估计文档-词共现集合的潜在主题概率分布,进而计算全数据(文档,词,潜在主题)联合概率分布的期望;M步估计模型的参数,包括主题上文档分布、主题上词分布及主题分布。多次迭代直到达到终止条件。
演化算法:PLSA模型参数多,用蚁群算法估计输入变量过多,查询是否已有文献基于群智能实现主题模型参数估计。
在线算法:PLSA的online算法实现方式已在多篇文献中出现,Online PLSA Batch Updating Techniques Including Out-of-Vocabulary Words可查阅相关文献,读懂文献进而将online PLSA与PPL的online算法结合。
并行算法:Semi-supervised PLSA for Document Clustering中给出PLSA的map-reduce算法框架,文档编号d,词编号w,将文档和词共现矩阵分为S块,(i,j)map端对应文档满足d%S=i,w%S=j。每个map端只计算相应文档的相应参数,reduce整合隐变量分布。下一步基于map-reduce实现PLSA参数估计。
VSM模型及tf-idf计算实例。