文本可视化作用•文本可视化的作用有以下四点:•理解-理解主旨•组织-组织、分类信息•比较-对比文档信息•关联-关联文本的pattern和其他信息•举个例子,针对一篇文章,文本可视化能更快的告诉我们文章在讲什么;针对社交网络上的发言,文本可视化可以帮我们信息归类,情感分析;针对一个大新闻,文本可视化可以帮我们捋顺事情发展的脉络、每个人物的关系等等;针对一系列的文档,我们可以通过文本可视化来找到它们之间的联系等等
•词汇级(LexicalLevel)、语法级(SyntacticLevel)和语义级(SemanticLevel)
•不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算法,语义级用主题抽取算
以上这些都在第二步文本信息挖掘中进行,其中文本数据预处理是将无效数据过滤,提取有效词等;文本特征抽取是指提取文本的关键词、词频分布、语法级的实体信息、语义级的主题等;文本特征的度量是指在多种环境或多个数据源所抽取的文本特征进行深层分析,如相似性、文本聚类等
这里就简单笼统地说一下文本分析的基础方法,有兴趣的同学可以自行搜索学习,我们把重点放在可视化设计上
标签云和Wordle是目前研究领域和Web上最受欢迎的文本内容可视化方法了,它们都是基于关键词的文本内容可视化
文本可视化类型文本数据大致可分为三种:单文本、文档集合和时序文本数据
对应的文本可视化也可分为三类:文本内容的可视化文本关系的可视化文本多层面信息的可视化基于关键词的文本内容可视化•DocuBurst文档散(DocuBurst[5])也是基于关键词的文本可视化,不过它还通过径向布局体现了词的语义等级
如下图所示,外层的词是内层词的下义祠,颜色饱和度的深浅用来体现词频的高低
DocumentCards•文档卡片(DocumentCards)[6]则是结合了文档中的关键词和关键图片进行可视化,布