This dataset is automatically updated (Sheduled run 1º day of Month)
Fala turma, Tudo bom?
Esse dataset contém informações da CVM, Fundamentus e Yahoo Finance. E faz parte do nosso projeto anual da faculdade de engenharia da computação de criar um sistema SAD. Como já estamos consumindo esses dados e eles são públicos, e estamos utilizando o kaggle como nosso motor de ingestão de dados na AWS, não nos custaria nada disponibilizar esses arquivos aqui para a galera do Kaggle. Vou dar mais detalhes a baixo.
Link do nosso site: http://theras.online
Link da CVM: https://dados.cvm.gov.br
Link da Fundamentus: https://www.fundamentus.com.br
Nos ajude com um pix, qualquer valor já nos ajudaria!
PIX: 63acaea3-7669-4380-9784-68148e421375 (chave aleatória) | Marcus Vinicius Souza Rodrigues
QrCode (PIX):
Qualquer dúvida pode me chamar no Whatsapp: (11)94937-0306
Meu Linkedin: https://www.linkedin.com/in/marcus-vinicius-贺辰淼/
Turma, os arquivos estão em formato parquet visto que estamos utilizando o PySpark para fazer o ETL, e estamos buscando ter o máximo de aproveitamento das ferramentas. E como esse formato é extremamente rápido, resolvemos adotar no nosso projeto.
Infelizmente não vamos conseguir disponibilizar o notebook que utilizamos para pegar essas informações, visto que contém as chaves da nossa conta AWS.
Como ainda estamos desenvolvendo nosso projeto, vamos estar colocando outras informações aqui nesse dataset, como por exemplo o resultado do nosso modelo de Machine Learning.
Eu vou mostrar para vocês como está nosso Pipeline de ingestão de dados:
A gente focou em criar um modelo funcional e montar um front end com o flutter, para termos um 'entregável'. E por isso a necessidade de criar esse pipeline, visto que estamos fazendo de forma manual. Falta nos modernizar um outro pipeline que é voltado em fazer as predições e clusterizações, que vai consumir os dados desse pipeline de ingestão, e nesse processo vamos melhorar os modelos que temos atualmente. Temos melhorias para o front end, que tem várias features no nosso backlog.
A gente fez uma modelagem de dados também, de todas as tabelas disponibilizadas. Com objetivo de padronizar os campos e trazer qualidade e domínio dos dados.
Olha como ficou as tabelas la no AWS Redshift e AWS S3:
Olha uma fotinha do notebook que roda esse processo aqui no Kaggle: