Dados do Bluesky já estão a ser usados para treinar a IA e utilizadores estão descontentes

19 Comentários

A Bluesky já está a enfrentar o seu primeiro grande problema de IA, apesar da posição da rede social. Tinham indicado recentemente que não iriam treinar a IA generativa com dados de utilizadores. O primeiro lote de informação recolhida por terceiros surgiu agora e está a deixar muitos utilizadores descontentes.

Bluesky dados IA treinar utilizadores

Bluesky está a ser usado para treinar IA

Um milhão de publicações públicas do Bluesky, completas com informações de identificação do utilizador, foram rastreadas e depois enviadas para a empresa de IA Hugging Face. O conjunto de dados foi criado pelo bibliotecário de aprendizagem automática Daniel van Strien.

Este lote de dados era destinado a ser utilizado no desenvolvimento de modelos de linguagem e processamento de linguagem natural. Além disso, era para usar na análise geral de tendências de redes sociais, moderação de conteúdo e padrões de publicação. Contém identificadores descentralizados (DIDs) de utilizadores e ainda possui uma função de pesquisa para encontrar conteúdo de utilizadores específicos.

First dataset for the new @huggingface.bsky.social @bsky.app community organisation: one-million-bluesky-posts 🦋

📊 1M public posts from Bluesky’s firehose API
🔍 Includes text, metadata, and language predictions
🔬 Perfect to experiment with using ML for Bluesky 🤗

huggingface.co/datasets/blu…

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 26, 2024 at 1:50 PM

Segundo a descrição do conjunto de dados, o conjunto “contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”

Utilizadores estão a ficar descontentes

Os utilizadores da Bluesky não optaram por tais utilizações do seu conteúdo, mas tal também não é expressamente proibido pela rede social. Isto significa que o conteúdo do Bluesky está aberto e disponível para os programadores de terceiros que a plataforma está a tentar atrair.

I’ve removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.

[image or embed]

— Daniel van Strien (@danielvanstrien.bsky.social) November 27, 2024 at 2:19 AM

Este poderá ser um importante sinal de alerta para muitos dos milhões de novos utilizadores do site. Muitos dos quais abandonaram o X na sequência da nova política de formação em IA. A plataforma respondeu que “o Bluesky é uma rede social aberta e pública, muito semelhante aos sites da própria Internet”. Tal como os ficheiros robots.txt, nem sempre impede empresas externas de rastrearem.

Logo após a publicação do artigo, o conjunto de dados foi removido do Hugging Face. Daniel van Strien escreveu numa publicação que removeu os dados do Bluesky do repositório. Embora quisesse apoiar o desenvolvimento de ferramentas para a plataforma, reconhece que esta abordagem violou os princípios de transparência e consentimento na recolha de dados. Pediu ainda desculpa por esse erro.

Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA

Comentários

19

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

  1. Avatar de 36.71Hz
    36.71Hz

    18 Nov 2024 “Bluesky manda uma farpa ao X! Não usará dados dos utilizadores para treinar a IA” E os burrinhos foram todos atrás.

    1. Avatar de Cenas+e+coisas
      Cenas+e+coisas

      E esta’ errado o que foi dito pela Bluesky? efectivamente nao usou nem tenciona usar os dados para AI training. Agora ser facil o scraping dos dados e’ outro problema que eles teem de resolver

  2. Avatar de Rodrigo
    Rodrigo

    Os woke e a extrema esquerda começam a entrar em parafuso, hehehe.

    1. Avatar de João
      João

      Vestes a camisola de qualquer marca ou empresa. E lutas por isso como se de alguma coisa importante se tratasse. É apenas uma rede social.
      Até a marca do açúcar deve ser motivo de grande discussão contigo.
      Estas redes sociais só fazem falta a pessoas como tu, que papam qualquer teoria e que acham sempre que têm algo muito importante a dizer ou partilhar.
      É uma necessidade constante, da aprovação dos outros. Isso também já está estudado.

      1. Avatar de To Canelas
        To Canelas

        Fachos e a sua visão a preto e branco, no pun intended.

  3. Avatar de Rodrigo
    Rodrigo

    Como criar um IA woke e de extrema esquerda e já agora com uma pitada LGBTZCVGHJKiLo++!.

  4. Avatar de Cenas+e+coisas
    Cenas+e+coisas

    Pergunto-me se existe alguma acao legal contra alguem que publicamente vai contra os terms of service de uma aplicacao com a Bluesky que disse explicitamente que nao iria usar os dados da sua plataforma para treinar AI.

    Nao que queira que haja prisao ou algo do genero contra o bibliotecario, mas retirar os dados de uma plataforma e gritar “eu fiz isso mas foi para o bem de todos e para treinar tecnologia” nao me parece uma desculpa boa o suficiente para evitar algum problema legal.

  5. Avatar de Ze
    Ze

    Primeiro a ilegalidade, depois um pedido de desculpa.. séc XXI justiça do séc x

  6. Avatar de Bruno M.
    Bruno M.

    AHAHAHAHA Onde anda a esquerdalha e os “anti-musk” que criticavam o mesmo e o X e endeusavam a BlueSky?!

    -Quando é que o povo percebe que serviços gratuitos, implicam cederem muita coisa para que possam continuar a usá-los?!

    Dizer que não usa os dados para treinar IA, mas depois ler isto:
    “”contém 1 milhão de publicações públicas recolhidas da API firehose (Application Programming Interface) do Bluesky Social, destinadas à investigação de aprendizagem automática e experimentação com dados de redes sociais. Cada publicação contém conteúdo de texto, metadados e informações sobre os suportes anexos e relações de resposta.”
    Bem é o mesmo que usar dados para treinar IA ou outras coisas identicas.

  7. Avatar de Toni da Adega
    Toni da Adega

    Acreditar o que uma empresa ou plataforma diz é um erro. Por muito que neguem, todas as empresas utlizam os dados dos utilizadores para treinar IA e outras coisas.

  8. Avatar de Julio Albert
    Julio Albert

    Até ontem estava tirando onda com o Twitter/X.

    O mundo não gira, capota.

  9. Avatar de joão
    joão

    OH NOOOOOOOOOOOO!!!

    AHAHAHAHAH

    E AGORA???? AHAHAHA

  10. Avatar de Guelindão
    Guelindão

    Temos pena

  11. Avatar de André
    André

    Lol.
    Todos preocupados com isto. Eu só uso, e queria que a bluesky fosse maior , porque não suporto a publicidade do x.
    O resto não me importa com a IA

  12. Avatar de Igor
    Igor

    Os ladrões da IA. O bluesky foi um pequeno paraiso, com a vibe das redes sociais de há 10-12 anos atrás. Quando as pessoas eram felizes a partilhar e comunicar no seu nicho. Sem pensar em agendas politicas. Longe das pessoas toxicas e limitadas que dividem o mundo entre esquerdalha e direitalha.

  13. Avatar de rjSampaio
    rjSampaio

    esta malta com tantos comentarios contra a bluesky, e nao sabem ler nem a noticia…

    A culpa nao é da bluesky, se os dados são publicos, qualquer pessoa pode usalos, neste caso o “culpado” é da huggingface.

    Isto é o mesmo que um de nos pegarmos em todos os artigos do PPLWARE e usar para modelar um AI.