20 May 2005, 09:39 UTC

尝试Tag的自动聚类

昨天读了几位兄台的文章,看到了Tag的无序性的问题和解决办法。正好最近也在做一个Tag的小工具,也考虑过这个问题。正好写出来跟大家分享一下。 我的解决办法是在不影响Tag优点的情况下,为Tag自动分配类型。在数据结构中引入一个属性:AutoType,即Tag的外层分类字段。 我想到的实现方法有两种: 1.比较简单的实现方法是,用和Tag关系不大的属性来决定Tag的AutoType,比如域名、日期、自动编号、IP等等。这个解决办法比较简单,能处理的事情也相对简单,比如网摘里面我只是收集门户网站的文章,那么AutoType就应该分成:sina,sohu,netease,tom等,然后通过文章的域名分别给Tag加上相应的AutoType。共享的时候就可以使用AutoType的名字来访问比如:/tag/sina/ 2.就是真正的自动聚类算法,比较类似baidu和google的中文分词,以前yahoo和sohu的目录搜索等等,Tag的AutoType也可以参考关键字的分类方式,先准备出每个AutoType里面都有哪个最简分类(或者词根),然后根据Tag再放在相应的AutoType里面。简单的例子,准备一个AutoType叫“游戏”,基本上是最简的Tag了,那么使用Tag:网络游戏、手机游戏、电子游戏等,都可以自动聚类到AutoType游戏里。 AutoType也可以有层次关系,这样就更复杂了,那就得请教卢亮chedong了,搜索引擎的方法可以借鉴。 以上相关内容,期待各Tag同好一起研究~ 参考文章,如下:

comments powered by Disqus