Página 1 dos resultados de 502 itens digitais encontrados em 0.008 segundos

Particle Competition and Cooperation in Networks for Semi-Supervised Learning

Breve, Fabricio; Liang, Zhao; Quiles, Marcos; Pedrycz, Witold; Liu, Jiming
Fonte: IEEE COMPUTER SOC; LOS ALAMITOS Publicador: IEEE COMPUTER SOC; LOS ALAMITOS
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
99.1466%
Semi-supervised learning is one of the important topics in machine learning, concerning with pattern classification where only a small subset of data is labeled. In this paper, a new network-based (or graph-based) semi-supervised classification model is proposed. It employs a combined random-greedy walk of particles, with competition and cooperation mechanisms, to propagate class labels to the whole network. Due to the competition mechanism, the proposed model has a local label spreading fashion, i.e., each particle only visits a portion of nodes potentially belonging to it, while it is not allowed to visit those nodes definitely occupied by particles of other classes. In this way, a "divide-and-conquer" effect is naturally embedded in the model. As a result, the proposed model can achieve a good classification rate while exhibiting low computational complexity order in comparison to other network-based semi-supervised algorithms. Computer simulations carried out for synthetic and real-world data sets provide a numeric quantification of the performance of the method.; State of Sao Paulo Research Foundation (FAPESP); Brazilian National Council of Technological and Scientific Development (CNPq)

Semi-supervised learning guided by the modularity measure in complex networks

Silva, Thiago Christiano; Liang, Zhao
Fonte: ELSEVIER SCIENCE BV; AMSTERDAM Publicador: ELSEVIER SCIENCE BV; AMSTERDAM
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
99.09669%
Semi-supervised learning techniques have gained increasing attention in the machine learning community, as a result of two main factors: (1) the available data is exponentially increasing; (2) the task of data labeling is cumbersome and expensive, involving human experts in the process. In this paper, we propose a network-based semi-supervised learning method inspired by the modularity greedy algorithm, which was originally applied for unsupervised learning. Changes have been made in the process of modularity maximization in a way to adapt the model to propagate labels throughout the network. Furthermore, a network reduction technique is introduced, as well as an extensive analysis of its impact on the network. Computer simulations are performed for artificial and real-world databases, providing a numerical quantitative basis for the performance of the proposed method.; State of Sao Paulo Research Foundation (FAPESP); Brazilian National Council of Technological and Scientific Development (CNPq)

A semi-supervised classification technique based on interacting forces

Cupertino, Thiago Henrique; Gueleri, Roberto Alves; Liang, Zhao
Fonte: Elsevier; Amsterdam Publicador: Elsevier; Amsterdam
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
89.06856%
Semi-supervised learning is a classification paradigm in which just a few labeled instances are available for the training process. To overcome this small amount of initial label information, the information provided by the unlabeled instances is also considered. In this paper, we propose a nature-inspired semi-supervised learning technique based on attraction forces. Instances are represented as points in a k-dimensional space, and the movement of data points is modeled as a dynamical system. As the system runs, data items with the same label cooperate with each other, and data items with different labels compete among them to attract unlabeled points by applying a specific force function. In this way, all unlabeled data items can be classified when the system reaches its stable state. Stability analysis for the proposed dynamical system is performed and some heuristics are proposed for parameter setting. Simulation results show that the proposed technique achieves good classification results on artificial data sets and is comparable to well-known semi-supervised techniques using benchmark data sets.; São Paulo State Research Foundation (FAPESP); Brazilian National Council for Scientific and Technological Development (CNPq); Coordination for the Improvement of Higher Education Personnel (CAPES); Selected papers from the XII Brazilian Symposium on Neural Networks (SBRN 2012). Curitiba...

Semi-supervised learning to support the exploration of association rules

Carvalho, Veronica Oliveira de; Padua, Renan de; Rezende, Solange Oliveira
Fonte: Springer; Cham Publicador: Springer; Cham
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
98.71953%
In the last years, many approaches for post-processing association rules have been proposed. The automatics are simple to use, but they don’t consider users’ subjectivity. Unlike, the approaches that consider subjectivity need an explicit description of the users’ knowledge and/or interests, requiring a considerable time from the user. Looking at the problem from another perspective, post-processing can be seen as a classification task, in which the user labels some rules as interesting [I] or not interesting [NI], for example, in order to propagate these labels to the other unlabeled rules. This work presents a framework for post-processing association rules that uses semi-supervised learning in which: (a) the user is constantly directed to the [I] patterns of the domain, minimizing his exploration effort by reducing the exploration space, since his knowledge and/or interests are iteratively propagated; (b) the users’ subjectivity is considered without using any formalism, making the task simpler.; CAPES; FAPESP (2013/12392-0); 16th International Conference on Data Warehousing and Knowledge Discovery (DaWaK). Munich, Germany. 2-4 September 2014.

Graph construction based on labeled instances for semi-supervised learning

Berton, Lilian; Lopes, Alneu de Andrade
Fonte: International Association of Pattern Recognition - IAPR; Linköping University; Lund University; Uppsala University; Institute of Electrical and Electronics Engineers - IEEE; Stockholm Publicador: International Association of Pattern Recognition - IAPR; Linköping University; Lund University; Uppsala University; Institute of Electrical and Electronics Engineers - IEEE; Stockholm
Tipo: Conferência ou Objeto de Conferência
Português
Relevância na Pesquisa
98.71953%
Semi-Supervised Learning (SSL) techniques have become very relevant since they require a small set of labeled data. In this context, graph-based algorithms have gained prominence in the area due to their capacity to exploiting, besides information about data points, the relationships among them. Moreover, data represented in graphs allow the use of collective inference (vertices can affect each other), propagation of labels (autocorrelation among neighbors) and use of neighborhood characteristics of a vertex. An important step in graph-based SSL methods is the conversion of tabular data into a weighted graph. The graph construction has a key role in the quality of the classification in graph-based methods. This paper explores a method for graph construction that uses available labeled data. We provide extensive experiments showing the proposed method has many advantages: good classification accuracy, quadratic time complexity, no sensitivity to the parameter k > 10, sparse graph formation with average degree around 2 and hub formation from the labeled points, which facilitates the propagation of labels.; Sao Paulo Research Foundation (FAPESP) (Grant 2011/21880-3 and 2011/22749-8)

O algoritmo de aprendizado semi-supervisionado co-training e sua aplicação na rotulação de documentos; The semi-supervised learning algorithm co-training applied to label text documents

Matsubara, Edson Takashi
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 26/05/2004 Português
Relevância na Pesquisa
99.56105%
Em Aprendizado de Máquina, a abordagem supervisionada normalmente necessita de um número significativo de exemplos de treinamento para a indução de classificadores precisos. Entretanto, a rotulação de dados é freqüentemente realizada manualmente, o que torna esse processo demorado e caro. Por outro lado, exemplos não-rotulados são facilmente obtidos se comparados a exemplos rotulados. Isso é particularmente verdade para tarefas de classificação de textos que envolvem fontes de dados on-line tais como páginas de internet, email e artigos científicos. A classificação de textos tem grande importância dado o grande volume de textos disponível on-line. Aprendizado semi-supervisionado, uma área de pesquisa relativamente nova em Aprendizado de Máquina, representa a junção do aprendizado supervisionado e não-supervisionado, e tem o potencial de reduzir a necessidade de dados rotulados quando somente um pequeno conjunto de exemplos rotulados está disponível. Este trabalho descreve o algoritmo de aprendizado semi-supervisionado co-training, que necessita de duas descrições de cada exemplo. Deve ser observado que as duas descrições necessárias para co-training podem ser facilmente obtidas de documentos textuais por meio de pré-processamento. Neste trabalho...

Aprendizado semissupervisionado multidescrição em classificação de textos; Multi-view semi-supervised learning in text classification

Braga, Ígor Assis
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 23/04/2010 Português
Relevância na Pesquisa
99.66546%
Algoritmos de aprendizado semissupervisionado aprendem a partir de uma combinação de dados rotulados e não rotulados. Assim, eles podem ser aplicados em domínios em que poucos exemplos rotulados e uma vasta quantidade de exemplos não rotulados estão disponíveis. Além disso, os algoritmos semissupervisionados podem atingir um desempenho superior aos algoritmos supervisionados treinados nos mesmos poucos exemplos rotulados. Uma poderosa abordagem ao aprendizado semissupervisionado, denominada aprendizado multidescrição, pode ser usada sempre que os exemplos de treinamento são descritos por dois ou mais conjuntos de atributos disjuntos. A classificação de textos é um domínio de aplicação no qual algoritmos semissupervisionados vêm obtendo sucesso. No entanto, o aprendizado semissupervisionado multidescrição ainda não foi bem explorado nesse domínio dadas as diversas maneiras possíveis de se descrever bases de textos. O objetivo neste trabalho é analisar o desempenho de algoritmos semissupervisionados multidescrição na classificação de textos, usando unigramas e bigramas para compor duas descrições distintas de documentos textuais. Assim, é considerado inicialmente o difundido algoritmo multidescrição CO-TRAINING...

Classificação semi-supervisionada baseada em desacordo por similaridade; Semi-supervised learning based in disagreement by similarity

Gutiérrez, Victor Antonio Laguna
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 03/05/2010 Português
Relevância na Pesquisa
99.44416%
O aprendizado semi-supervisionado é um paradigma do aprendizado de máquina no qual a hipótese é induzida aproveitando tanto os dados rotulados quantos os dados não rotulados. Este paradigma é particularmente útil quando a quantidade de exemplos rotulados é muito pequena e a rotulação manual dos exemplos é uma tarefa muito custosa. Nesse contexto, foi proposto o algoritmo Cotraining, que é um algoritmo muito utilizado no cenário semi-supervisionado, especialmente quando existe mais de uma visão dos dados. Esta característica do algoritmo Cotraining faz com que a sua aplicabilidade seja restrita a domínios multi-visão, o que diminui muito o potencial do algoritmo para resolver problemas reais. Nesta dissertação, é proposto o algoritmo Co2KNN, que é uma versão mono-visão do algoritmo Cotraining na qual, ao invés de combinar duas visões dos dados, combina duas estratégias diferentes de induzir classificadores utilizando a mesma visão dos dados. Tais estratégias são chamados de k-vizinhos mais próximos (KNN) Local e Global. No KNN Global, a vizinhança utilizada para predizer o rótulo de um exemplo não rotulado é conformada por aqueles exemplos que contém o novo exemplo entre os seus k vizinhos mais próximos. Entretanto...

Abordagens para aprendizado semissupervisionado multirrótulo e hierárquico; Multi-label and hierarchical semi-supervised learning approaches

Metz, Jean
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 25/10/2011 Português
Relevância na Pesquisa
99.48228%
A tarefa de classificação em Aprendizado de Máquina consiste da criação de modelos computacionais capazes de identificar automaticamente a classe de objetos pertencentes a um domínio pré-definido a partir de um conjunto de exemplos cuja classe é conhecida. Existem alguns cenários de classificação nos quais cada objeto pode estar associado não somente a uma classe, mas a várias classes ao mesmo tempo. Adicionalmente, nesses cenários denominados multirrótulo, as classes podem ser organizadas em uma taxonomia que representa as relações de generalização e especialização entre as diferentes classes, definindo uma hierarquia de classes, o que torna a tarefa de classificação ainda mais específica, denominada classificação hierárquica. Os métodos utilizados para a construção desses modelos de classificação são complexos e dependem fortemente da disponibilidade de uma quantidade expressiva de exemplos previamente classificados. Entretanto, para muitas aplicações é difícil encontrar um número significativo desses exemplos. Além disso, com poucos exemplos, os algoritmos de aprendizado supervisionado não são capazes de construir modelos de classificação eficazes. Nesses casos, é possível utilizar métodos de aprendizado semissupervisionado...

Impacto da geração de grafos na classificação semissupervisionada; Impact of graph construction on semi-supervised classification

Sousa, Celso André Rodrigues de
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 18/07/2013 Português
Relevância na Pesquisa
89.82161%
Uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos e métodos de geração de grafos foram propostos pela comunidade científica nos últimos anos. Apesar de seu aparente sucesso empírico, a área de aprendizado semissupervisionado carece de um estudo empírico detalhado que avalie o impacto da geração de grafos na classificação semissupervisionada. Neste trabalho, é provido tal estudo empírico. Para tanto, combinam-se uma variedade de métodos de geração de grafos com uma variedade de algoritmos de aprendizado semissupervisionado baseado em grafos para compará-los empiricamente em seis bases de dados amplamente usadas na literatura de aprendizado semissupervisionado. Os algoritmos são avaliados em tarefas de classificação de dígitos, caracteres, texto, imagens e de distribuições gaussianas. A avaliação experimental proposta neste trabalho é subdividida em quatro partes: (1) análise de melhor caso; (2) avaliação da estabilidade dos classificadores semissupervisionados; (3) avaliação do impacto da geração de grafos na classificação semissupervisionada; (4) avaliação da influência dos parâmetros de regularização no desempenho de classificação dos classificadores semissupervisionados. Na análise de melhor caso...

Particle Competition and Cooperation in Networks for Semi-Supervised Learning

Breve, Fabricio Aparecido; Zhao, Liang; Quiles, Marcos; Pedrycz, Witold; Liu, Jiming
Fonte: Institute of Electrical and Electronics Engineers (IEEE), Computer Soc Publicador: Institute of Electrical and Electronics Engineers (IEEE), Computer Soc
Tipo: Artigo de Revista Científica Formato: 1686-1698
Português
Relevância na Pesquisa
99.1466%
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP); Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq); Semi-supervised learning is one of the important topics in machine learning, concerning with pattern classification where only a small subset of data is labeled. In this paper, a new network-based (or graph-based) semi-supervised classification model is proposed. It employs a combined random-greedy walk of particles, with competition and cooperation mechanisms, to propagate class labels to the whole network. Due to the competition mechanism, the proposed model has a local label spreading fashion, i.e., each particle only visits a portion of nodes potentially belonging to it, while it is not allowed to visit those nodes definitely occupied by particles of other classes. In this way, a divide-and-conquer effect is naturally embedded in the model. As a result, the proposed model can achieve a good classification rate while exhibiting low computational complexity order in comparison to other network-based semi-supervised algorithms. Computer simulations carried out for synthetic and real-world data sets provide a numeric quantification of the performance of the method.

Particle Competition and Cooperation in Networks for Semi-Supervised Learning with Concept Drift

Breve, Fabricio Aparecido; Zhao, Liang
Fonte: IEEE Publicador: IEEE
Tipo: Conferência ou Objeto de Conferência Formato: 6
Português
Relevância na Pesquisa
99.32219%
Concept drift is a problem of increasing importance in machine learning and data mining. Data sets under analysis are no longer only static databases, but also data streams in which concepts and data distributions may not be stable over time. However, most learning algorithms produced so far are based on the assumption that data comes from a fixed distribution, so they are not suitable to handle concept drifts. Moreover, some concept drifts applications requires fast response, which means an algorithm must always be (re) trained with the latest available data. But the process of labeling data is usually expensive and/or time consuming when compared to unlabeled data acquisition, thus only a small fraction of the incoming data may be effectively labeled. Semi-supervised learning methods may help in this scenario, as they use both labeled and unlabeled data in the training process. However, most of them are also based on the assumption that the data is static. Therefore, semi-supervised learning with concept drifts is still an open challenge in machine learning. Recently, a particle competition and cooperation approach was used to realize graph-based semi-supervised learning from static data. In this paper, we extend that approach to handle data streams and concept drift. The result is a passive algorithm using a single classifier...

Particle competition and cooperation to prevent error propagation from mislabeled data in semi-supervised learning

Breve, Fabricio; Zhao, Liang
Fonte: Universidade Estadual Paulista Publicador: Universidade Estadual Paulista
Tipo: Conferência ou Objeto de Conferência Formato: 79-84
Português
Relevância na Pesquisa
99.45488%
Semi-supervised learning is applied to classification problems where only a small portion of the data items is labeled. In these cases, the reliability of the labels is a crucial factor, because mislabeled items may propagate wrong labels to a large portion or even the entire data set. This paper aims to address this problem by presenting a graph-based (network-based) semi-supervised learning method, specifically designed to handle data sets with mislabeled samples. The method uses teams of walking particles, with competitive and cooperative behavior, for label propagation in the network constructed from the input data set. The proposed model is nature-inspired and it incorporates some features to make it robust to a considerable amount of mislabeled data items. Computer simulations show the performance of the method in the presence of different percentage of mislabeled data, in networks of different sizes and average node degree. Importantly, these simulations reveals the existence of the critical points of the mislabeled subset size, below which the network is free of wrong label contamination, but above which the mislabeled samples start to propagate their labels to the rest of the network. Moreover, numerical comparisons have been made among the proposed method and other representative graph-based semi-supervised learning methods using both artificial and real-world data sets. Interestingly...

Semi-supervised learning with graphs methods using signal processing = Métodos de aprendizado semi-supervisionado com grafos usando processamento de sinais; Métodos de aprendizado semi-supervisionado com grafos usando processamento de sinais

Diego Alonso Chávez Escalante
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 27/06/2014 Português
Relevância na Pesquisa
79.692583%
No aprendizado de máquina, os problemas de classificação de padrões eram tradicionalmente abordados por algoritmos de aprendizado supervisionado que utilizam apenas dados rotulados para treinar-se. Entretanto, os dados rotulados são realmente difíceis de coletar em muitos domínios de problemas, enquanto os dados não rotulados são geralmente mais fáceis de recolher. Também em aprendizado de máquina só o aprendizado não supervisionado é capaz de aprender a topologia e propriedades de um conjunto de dados não rotulados. Portanto, a fim de conseguir uma classificação utilizando o conhecimento a partir de dados rotulados e não rotulados, é necessário o uso de conceitos de aprendizado supervisionado tanto como do não supervisionado. Este tipo de aprendizagem é chamado de aprendizado semi-supervisionado, que declara ter construído melhores classificadores que o tradicional aprendizado supervisionado em algumas condições especificas, porque não só aprende dos dados rotulados, mas também das propriedades naturais dos dados não rotulados como por exemplo a distribuição espacial deles. O aprendizado semi-supervisionado apresenta uma ampla coleção de métodos e técnicas para classificação, e um dos mais interessantes e o aprendizado semi-supervisionado baseado em grafos...

The relevance of labels in semi-supervised learning depends on category structure

Vong, W.K.; Perfors, A.; Navarro, D.J.
Fonte: Cognitive Science Society Publicador: Cognitive Science Society
Tipo: Conference paper
Publicado em //2014 Português
Relevância na Pesquisa
88.85043%
The study of semi-supervised category learning has shown mixed results on how people jointly use labeled and unlabeled information when learning categories. Here we investigate the possibility that people are sensitive to the value of both labeled and unlabeled items, and that this depends on the structure of the underlying categories. We use an unconstrained free-sorting categorization experiment with a mixture of both labeled and unlabeled stimuli. The results showed that when the distribution of stimuli involved distinct clusters, participants preferred to use the same strategies to sort the stimuli regardless of whether they were given any additional category label information. However, when the stimuli distribution was ambiguous, the sorting strategies people used were strongly influenced by the labeled information given. We capture performance in both cases with an extension to Anderson’s Rational Model that does not know the exact number of category labels in advance.; Wai Keen Vong, Amy Perfors, Daniel Navarro

Semi-Supervised Learning For Identifying Opinions In Web Content

Yu, Ning
Fonte: [Bloomington, Ind.] : Indiana University Publicador: [Bloomington, Ind.] : Indiana University
Tipo: Doctoral Dissertation
Português
Relevância na Pesquisa
98.80376%
Thesis (Ph.D.) - Indiana University, Information Science, 2011; Opinions published on the World Wide Web (Web) offer opportunities for detecting personal attitudes regarding topics, products, and services. The opinion detection literature indicates that both a large body of opinions and a wide variety of opinion features are essential for capturing subtle opinion information. Although a large amount of opinion-labeled data is preferable for opinion detection systems, opinion-labeled data is often limited, especially at sub-document levels, and manual annotation is tedious, expensive and error-prone. This shortage of opinion-labeled data is less challenging in some domains (e.g., movie reviews) than in others (e.g., blog posts). While a simple method for improving accuracy in challenging domains is to borrow opinion-labeled data from a non-target data domain, this approach often fails because of the domain transfer problem: Opinion detection strategies designed for one data domain generally do not perform well in another domain. However, while it is difficult to obtain opinion-labeled data, unlabeled user-generated opinion data are readily available. Semi-supervised learning (SSL) requires only limited labeled data to automatically label unlabeled data and has achieved promising results in various natural language processing (NLP) tasks...

Semi-supervised learning for relevance feedback on image retrieval tasks

Guimaraes Pedronette, Daniel Carlos; Calumby, Rodrigo T.; Torres, Ricardo da S.; IEEE
Fonte: Ieee Publicador: Ieee
Tipo: Conferência ou Objeto de Conferência Formato: 243-250
Português
Relevância na Pesquisa
99.0721%
Relevance feedback approaches have been established as an important tool for interactive search, enabling users to express their needs. However, in view of the growth of multimedia collections available, the user efforts required by these methods tend to increase as well, demanding approaches for reducing the need of user interactions. In this context, this paper proposes a semi-supervised learning algorithm for relevance feedback to be used in image retrieval tasks. The proposed semi-supervised algorithm aims at using both supervised and unsupervised approaches simultaneously. While a supervised step is performed using the information collected from the user feedback, an unsupervised step exploits the intrinsic dataset structure, which is represented in terms of ranked lists of images. Several experiments were conducted for different image retrieval tasks involving shape, color, and texture descriptors and different datasets. The proposed approach was also evaluated on multimodal retrieval tasks, considering visual and textual descriptors. Experimental results demonstrate the effectiveness of the proposed approach.

Particle competition and cooperation for semi-supervised learning with label noise

Breve, Fabricio A.; Zhao, Liang; Quiles, Marcos G.
Fonte: Elsevier B.V. Publicador: Elsevier B.V.
Tipo: Artigo de Revista Científica Formato: 63-72
Português
Relevância na Pesquisa
99.33945%
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP); Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq); Processo FAPESP: 2011/17396-9; Processo FAPESP: 2011/18496-7; Processo FAPESP: 2011/50151-0; Processo FAPESP: 2013/07375-0; Semi-supervised learning methods are usually employed in the classification of data sets where only a small subset of the data items is labeled. In these scenarios, label noise is a crucial issue, since the noise may easily spread to a large portion or even the entire data set, leading to major degradation in classification accuracy. Therefore, the development of new techniques to reduce the nasty effects of label noise in semi-supervised learning is a vital issue. Recently, a graph-based semi-supervised learning approach based on particle competition and cooperation was developed. In this model, particles walk in the graphs constructed from the data sets. Competition takes place among particles representing different class labels, while the cooperation occurs among particles with the same label. This paper presents a new particle competition and cooperation algorithm, specifically designed to increase the robustness to the presence of label noise, improving its label noise tolerance. Different from other methods...

A boosted semi-supervised learning framework for web page filtering

He, Z.; Li, X.; Hu, W.
Fonte: IEEE; Online Publicador: IEEE; Online
Tipo: Conference paper
Publicado em //2009 Português
Relevância na Pesquisa
99.00564%
The World Wide Web provides great convenience for users to obtain information. However, there exists much harmful information on the Internet, such as pornographic content and prohibited drugs' information. Thus, how to filter harmful Web pages on the Internet is quite an important issue. In general, the problem of harmful Web page filtering is converted to that of Web page classification, which needs plenty of well labeled training samples. However, the cost of labeling a large set of Web pages is very expensive. To address this problem, we adopt a semi-supervised framework for Web page filtering. In this framework, each Web page is represented by bags of different features, extracted using its HTML structure. Then a semi-supervised learning strategy is taken for efficiently obtaining well labeled training samples. Finally, a boosting classifier is utilized for harmful Web page filtering. Experiments have demonstrated the effectiveness of our framework.; Zhu He, Xi Li and Weiming Hu

Rotulação de indivíduos representativos no aprendizado semissupervisionado baseado em redes: caracterização, realce, ganho e filosofia; Representatives labeling for network-based semi-supervised learning:characterization, highlighting, gain and philosophy

Araújo, Bilzã Marques de
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 29/04/2015 Português
Relevância na Pesquisa
99.29824%
Aprendizado semissupervisionado (ASS) é o nome dado ao paradigma de aprendizado de máquina que considera tanto dados rotulados como dados não rotulados. Embora seja considerado frequentemente como um meio termo entre os paradigmas supervisionado e não supervisionado, esse paradigma é geralmente aplicado a tarefas preditivas ou descritivas. Na tarefa preditiva de classificação, p. ex., o objetivo é rotular dados não rotulados de acordo com os rótulos dos dados rotulados. Nesse caso, enquanto que os dados não rotulados descrevem as distribuições dos dados e mediam a propagação dos rótulos, os itens de dados rotulados semeiam a propagação de rótulos e guiam-na à estabilidade. No entanto, dados são gerados tipicamente não rotulados e sua rotulação requer o envolvimento de especialistas no domínio, rotulando-os manualmente. Dificuldades na visualização de grandes volumes de dados, bem como o custo associado ao envolvimento do especialista, são desafios que podem restringir o desempenho dessa tarefa. Por- tanto, o destacamento automático de bons candidatos a dados rotulados, doravante denominados indivíduos representativos, é uma tarefa de grande importância, e pode proporcionar uma boa relação entre o custo com especialista e o desempenho do aprendizado. Dentre as abordagens de ASS discriminadas na literatura...