17/05/2025 –, Tula Pilar
Idioma: Português brasileiro
A apresentação buscará mostrar as tentativas e alternativas para a criação de uma infraestrutura soberana, distribuída e participativa para o treinamento de aprendizado de máquina, independente das Big Techs, com baixo impacto ambiental e com a finalidade de democratizar o acesso ao treinamento de modelos complexos.
A apresentação trará a proposta de uma infraestrutura para o treinamento de machine learning que seja distribuída em milhares de máquinas de apoiadores voluntários, com alto nível de segurança e proteção da privacidade. Em vez de apostarmos na concentração de poder computacional em um único espaço, como os Data Centers de hiperescala, queremos utilizar o processamento distribuído envolvendo os computadores de participantes que doem um tempo ocioso de seus computadores para treinar modelos de aprendizado de máquina.
A computação participativa distribuída é inspirada em projetos de computação em grade (grid), tal como o projeto seti@home e o software BOINC. Além disso, existe a possibilidade de treinamento não centralizado de modelos de aprendizado de máquina, tais como, a ferramenta PySyft que permite utilizar informações não públicas, sem ver nem obter uma cópia dos dados em si. Para integrar o rol de possibilidades, temos ainda os projetos de Aprendizado Federado (FL) que desacoplaram a capacidade do aprendizado de máquina da necessidade de armazenar os dados na nuvem.
Professor da UFABC; pesquisador de redes digitais e das implicações tecnopolíticas da IA. Criador e apresentador do podcast Tecnopolítica. Foi membro do Comitê Gestor da Internet no Brasil e presidiu o Instituto Nacional de Tecnologia da Informação. Ativista do software livre. Criador e apresentador do podcast Tecnopolítica.