Classification of web resources using user generated terms
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In this study, we suggest a useful method to classify web resources based on social tag information generated by users. We attempted to examine whether social tags could be a tool of classifying websites in a certain domain. We applied two statistical methods, including principal component analysis (PCA) and hierarchical clustering for classifying websites in the domain of consumer health information. First, PCA method was applied to identify different dimensions of the selected websites. Six dimensions were extracted from PCA: women, seniors, kids/parenting, drugs, men, and research. Second, we conducted a hierarchical clustering analysis to group similar websites in different hierarchical levels. These two methods reveal that social tags well represent the characteristics of individual websites in the domain of health information. This study yields a methodological implication that social tags can be used to automatically classify resources on the Web.
在本文的研究中,我们提出了根据用户生成的社会标签信息进行Web资源分类的方法。我们试图研究在某个领域里,社会标签是否能成为对网站进行分类的工具。为此,我们将主成分分析法(PCA)和层次聚类法两种统计方法应用到消费者健康信息领域的网站分类中。首先,我们使用PCA方法识别所选网站的不同维度。使用PCA方法从网站中提取六个维度:女性、老人、儿童/育儿、药物、男性、研究。然后,我们使用层次聚类法在不同的层级对相似的网站分组。以上两种方法揭示了社会标签能够很好地表达健康信息领域的个人网站的特征。这个研究为使用社会标签进行Web资源自动分类提供了理论依据。
En este estudio, proponemos un método útil para clasificar recursos web basado en los marcadores sociales de información creados por los usuarios. Intentamos examinar si las etiquetas sociales pueden ser una herramienta para la clasificación de páginas web de determinados temas. En el estudio, aplicamos dos métodos estadísticos: el Análisis de Componentes Principales (en inglés, PCA) y el agrupamiento jerárquico para la clasificación de sitios web de divulgación médica. Lo primero que hicimos fue utilizar el método PCA para identificar las diferentes áreas temáticas de las páginas web seleccionadas y así se extrajeron seis apartados: mujeres, personas mayores, niños/padres, medicamentos, hombres e investigación. En segundo lugar, se realizó un análisis de agrupamiento jerárquico para reunir sitios web similares en niveles jerárquicos diferentes. Estos dos métodos revelaron que las etiquetas sociales representan bastante bien las características de las páginas web individuales del campo de la divulgación médica. Este estudio proporciona, por tanto, un procedimiento que permite que las etiquetas sociales puedan ser utilizadas para la clasificación automática de recursos de la Web.
在本文的研究中,我们提出了根据用户生成的社会标签信息进行Web资源分类的方法。我们试图研究在某个领域里,社会标签是否能成为对网站进行分类的工具。为此,我们将主成分分析法(PCA)和层次聚类法两种统计方法应用到消费者健康信息领域的网站分类中。首先,我们使用PCA方法识别所选网站的不同维度。使用PCA方法从网站中提取六个维度:女性、老人、儿童/育儿、药物、男性、研究。然后,我们使用层次聚类法在不同的层级对相似的网站分组。以上两种方法揭示了社会标签能够很好地表达健康信息领域的个人网站的特征。这个研究为使用社会标签进行Web资源自动分类提供了理论依据。
En este estudio, proponemos un método útil para clasificar recursos web basado en los marcadores sociales de información creados por los usuarios. Intentamos examinar si las etiquetas sociales pueden ser una herramienta para la clasificación de páginas web de determinados temas. En el estudio, aplicamos dos métodos estadísticos: el Análisis de Componentes Principales (en inglés, PCA) y el agrupamiento jerárquico para la clasificación de sitios web de divulgación médica. Lo primero que hicimos fue utilizar el método PCA para identificar las diferentes áreas temáticas de las páginas web seleccionadas y así se extrajeron seis apartados: mujeres, personas mayores, niños/padres, medicamentos, hombres e investigación. En segundo lugar, se realizó un análisis de agrupamiento jerárquico para reunir sitios web similares en niveles jerárquicos diferentes. Estos dos métodos revelaron que las etiquetas sociales representan bastante bien las características de las páginas web individuales del campo de la divulgación médica. Este estudio proporciona, por tanto, un procedimiento que permite que las etiquetas sociales puedan ser utilizadas para la clasificación automática de recursos de la Web.
Description
Keywords
Citation
Jackson, J. E. (1991).A user's guide to principal components (Vol. 244). Wiley-Interscience.
Kipp, M. E. I. (2005). Complementary or Discrete Contexts in Online Indexing: A Comparison of User, Creator, and Intermediary Keywords. Canadian Journal of Information and Library Science, 29(4):419–436.
Kipp, M. E. I. (2011). Tagging of Biomedical Articles on CiteULike: A Comparison of User, Author and Professional Indexing. Knowledge Organization 38(3): 245-261.
Kipp, M. E.I., & Campbell, D. G. (2007). Patterns and inconsistencies in collaborative tagging systems: An examination of tagging practices. Proceedings of the American Society for Information Science and Technology,43(1): 1-18.
Kipp, M. E. I. and Joo, S. (2010). Application of structural equation modelling in exploring tag patterns: A pilot study. Proceedings of the American Society for Information Science and Technology, 47: 1–2. doi: 10.1002/meet.14504701325.
Ricca, F., Tonella, P., Girardi, C., & Pianta, E. (2004). An empirical study on keyword-based web site clustering. In Program Comprehension, 2004. Proceedings. 12th IEEE International Workshop on, 204-213.
Ricca, F., Pianta, E., Tonella, P., & Girardi, C. (2008). Improving Web site understanding with keyword‐based clustering. Journal of Software Maintenance and Evolution: Research and Practice, 20(1): 1-29.
Tonella, P., Ricca, F., Pianta, E., & Girardi, C. (2003, September). Using keyword extraction for web site clustering. In Web Site Evolution, 2003. Theme: Architecture. Proceedings. Fifth IEEE International Workshop on, 41-48.
Xie, I. and Joo, S. (2012). Factors affecting the selection of search tactics: Tasks, knowledge, process, and systems. Information Processing & Management, 48(2): 254-270.
Yoon, J. (2009). Towards a user-oriented thesaurus for non-domain-specific image collections. Information Processing & Management 45(4): 452-468.