利用文本挖掘技术来找出网络中的“小鲜词”
发布时间:2021-01-17 22:15:30 所属栏目:大数据 来源:网络整理
导读:开始之前,先看一下从人人网中发现的90后用户爱用的词 是不是很好玩,哈哈。写这篇文章就是让你简单的自动的从文本中找出新的词,这样就知道现在的年轻人喜欢什么了(对于博主这种上了年纪的人来说,真的是很有用,呜呜) 项目结构 当然,text.dat和common.d
|
NewWordDiscoverTest.javapackage grid.test;
import grid.common.TextDatReader;
import grid.text.evolution.NewWordDiscover;
import java.io.IOException;
import java.util.Set;
public class NewWordDiscoverTest {
private final static String path = "text.dat";
public static void main(String args[]) throws IOException {
// Replace your document here
String document = TextDatReader.read(path);
NewWordDiscover discover = new NewWordDiscover();
long start = System.currentTimeMillis();
Set<String> words = discover.discover(document);
System.out.println("Speed: " + (double) document.length()
/ (System.currentTimeMillis() - start) * 1000);
System.out.println("New words size: " + words.size());
System.out.println("New word is: "+"n");
for (String str : words) {
System.out.println(str+"n");
}
}
}
抽词测试,结果如下
ParticipleTest.javapackage grid.test;
import grid.text.participle.MechanicalParticiple;
import java.util.Vector;
public class ParticipleTest {
private static String document = "我是中国人";
public static void main(String args[]) {
MechanicalParticiple participle = new MechanicalParticiple();
Vector<String> vec = participle.partition(document);
System.out.println(vec);
}
}
分词测试,结果如下
怎么样,很酷吧,你还可以试着用《天龙八部》数据集玩下,看看主角是不是乔帮主。如果发现了什么新鲜词,请告诉博主,咱也不落后哈! (编辑:清远站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |




