Atividade

108214 - Um processo de Mineração de Textos com Foco na Coleta de Dados

Período da turma: 10/10/2022 a 14/10/2022

Selecione um horário para exibir no calendário:
 
 
Descrição: Resumo:

A mineração de textos é um processo que visa extrair conhecimento de dados textuais ou automatizar processos envolvendo dados textuais, como detecção de spams, classificação de notícias, e sensoriamento web. O processo de mineração de textos pode ser dividido em 5 etapas: identificação do problema, pré-processamento, extração de padrões, pós-processamento e utilização do conhecimento. Na primeira etapa, identificação do problema, um dos itens a serem definidos é a coleção de texto ou coleções de textos que serão utilizadas no processo. Porém, na maioria dos cursos ou aulas sobre Mineração de Textos, assume-se que as coleções de textos já foram coletadas e estão disponíveis. Entretanto, em muitas situações é necessário coletar os textos na web para dar desenvolvimento em pesquisas em ou aplicações nas empresas. Dado isso, esse minicurso tem como foco o ensino de como coletar dados na web, com foco em dados textuais, e como gerar bases estruturadas a partir desta coleta [1]. A partir do momento que têm-se a base coletada, serão apresentados os demais passos de um processo de mineração de textos, como o pré-processamento, a extração de padrões e o pós processamento [2], porém, de maneira mais sucinta. Vale ressaltar que os conceitos empregados para a coleta de dados textuais na web podem ser empregados para a coleta de outros tipos de dados. Este minicurso será dado utilizando a linguagem Python e as bibliotecas BeautifulSoap para a coleta de dados, Pandas para a manipulação de dados e ScikitLearn para o pré-processamento, extração de padrões e pós-processamento dos dados.


Referências:
[1] AGGARWAL, Charu C. Machine learning for text. Cham: Springer, 2018.
[2] MITCHELL, Ryan. Web Scraping com Python: Coletando mais dados da web moderna. Novatec Editora, 2019.

Carga Horária:

3 horas
Tipo: Optativa
Vagas oferecidas: 300
 
Ministrantes: Rafael Geraldeli Rossi


 
 voltar

Créditos
© 1999 - 2024 - Superintendência de Tecnologia da Informação/USP