108214 - Um processo de Mineração de Textos com Foco na Coleta de Dados |
Período da turma: | 10/10/2022 a 14/10/2022
|
||||
|
|||||
Descrição: | Resumo:
A mineração de textos é um processo que visa extrair conhecimento de dados textuais ou automatizar processos envolvendo dados textuais, como detecção de spams, classificação de notícias, e sensoriamento web. O processo de mineração de textos pode ser dividido em 5 etapas: identificação do problema, pré-processamento, extração de padrões, pós-processamento e utilização do conhecimento. Na primeira etapa, identificação do problema, um dos itens a serem definidos é a coleção de texto ou coleções de textos que serão utilizadas no processo. Porém, na maioria dos cursos ou aulas sobre Mineração de Textos, assume-se que as coleções de textos já foram coletadas e estão disponíveis. Entretanto, em muitas situações é necessário coletar os textos na web para dar desenvolvimento em pesquisas em ou aplicações nas empresas. Dado isso, esse minicurso tem como foco o ensino de como coletar dados na web, com foco em dados textuais, e como gerar bases estruturadas a partir desta coleta [1]. A partir do momento que têm-se a base coletada, serão apresentados os demais passos de um processo de mineração de textos, como o pré-processamento, a extração de padrões e o pós processamento [2], porém, de maneira mais sucinta. Vale ressaltar que os conceitos empregados para a coleta de dados textuais na web podem ser empregados para a coleta de outros tipos de dados. Este minicurso será dado utilizando a linguagem Python e as bibliotecas BeautifulSoap para a coleta de dados, Pandas para a manipulação de dados e ScikitLearn para o pré-processamento, extração de padrões e pós-processamento dos dados. Referências: [1] AGGARWAL, Charu C. Machine learning for text. Cham: Springer, 2018. [2] MITCHELL, Ryan. Web Scraping com Python: Coletando mais dados da web moderna. Novatec Editora, 2019. |
||||
Carga Horária: |
3 horas |
||||
Tipo: | Optativa | ||||
Vagas oferecidas: | 300 | ||||
Ministrantes: |
Rafael Geraldeli Rossi |
![]() |
Créditos © 1999 - 2023 - Superintendência de Tecnologia da Informação/USP |