Sabia que tem ajudado na digitalização de livros antigos?

56 Comentários

reCAPTCHA – A evolução do projecto CAPTCHA

Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um utilizador (garantindo que é um utilizador e não uma máquina/programa de computador), perante uma página/serviço Web.

Luis von Ahn, um dos criadores dos captchas, apresentou recentemente no Ted.com a evolução do projecto captcha à qual foi dado o nome de reCAPTCHA. Luis von Ahn referiu que o tempo que um utilizador gasta a interpretar uma CAPTCHA não é usado para qualquer finalidade. Assim, porque não aproveitar esse tempo e conceito associado ao projecto CAPTCHA para digitalizar livros?

capcha_000

Veja o vídeo da apresentação do Luis von Ahn intitulada Massive-scale online Collaboration; e leia a tradução que preparamos em português:

Luis von Ahn

Quantos de vocês já tiveram de preencher um formulário na Web onde vos pediram para ler uma sequência distorcida de caracteres como esta? Quantos de vocês acharam isto irritante? OK, espetacular, fui eu que inventei isso…ou pelo menos fui um dos que inventou isso. A esta coisa chama-se CAPTCHA.

capcha_00

E está ali para certificar que quem está a preencher o formulário é sem duvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes.

capcha_01

Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto os programas informáticos simplesmente ainda não o conseguem fazer tão bem. Por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever caracteres distorcidos é para prevenir os “burlões” de escrever um software que consiga comprar milhões de bilhetes…dois de cada vez, etc, etc.

Os CAPCTHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes, a sequência de caracteres aleatórios que é mostrada ao utilizador, não é muito “feliz”. Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W A I T, que obviamente formam uma palavra. Mas a melhor parte é a mensagem que os serviços da Yahoo receberam cerca de 20 minutos mais tarde.

Texto: “Ajudem-me! Estou a espera há mais de 20 minutos e nada acontece” 🙂

capcha_02

O projecto CAPTCHA foi algo que desenvolvemos aqui na Universidade de Camegie Mellon há cerca de 10 anos e é usado por todo o mundo. Deixem-me falar-vos de um projecto que desenvolvemos posteriormente e que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos de reCAPTCHA, que é algo que começamos aqui na Camegie Mellon, e que transformamos numa Startup. E, há cerca de um ano e meio, a Google comprou esta empresa.

capcha_03

Este projecto começou através da seguinte percepção:  Aproximadamente 200 milhões de CAPTACHs são escritos todos os dias por pessoas em todo o mundo. Quando escrevemos um CAPCTHA, desperdiçamos cerca de 10 segundos do nosso tempo  e se multiplicarmos isso por 200 milhões, percebemos que a humanidade, no seu todo, gasta cerca de 500.000 horas todos os dias a escrever CAPTCHAS irritantes. No entanto, não nos podemos livrar dos CAPTCHAS pois parte da segurança da Web depende deles!

Existe alguma forma de reaproveitar este esforço para algo que seja com para a humanidade?

Reparem no seguinte: Quando escrevem o CAPTCHA, durante esse 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores ainda não conseguem fazer!

Como é que conseguimos que os 10 segundos “desperdiçados” se transformem em algo útil?De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no entanto podemos dividi-lo em períodos de 10 segundos, de tal forma que, sempre que alguém escreve um CAPTCHA se resolva uma pequena parte deste problema?

E a resposta é “sim!” e é isso que estamos a fazer agora. Por isso o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a “autenticar-se” como humanos, mas também estão a ajudar a digitalizar livros.

Escrever CAPTCHAS estão a ajudar a escrever livros. Como funciona?

Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um…O Internet Archive tem outro, A Amazon agora com o Kindle…etc.

Basicamente a forma como funciona é: começa-se por pegar num livro velho e depois digitalizamo-lo. Digitalizar um livro é como tirar uma fotografia digital a cada página do livro. Isto é, uma imagem com texto por cada página do livro. O próximo passo no processo é o computador decifrar todas as palavras da imagem, usando para isso uma tecnologia denominada de OCR…o problema é que o OCR não é perfeito!…especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, fazendo com que o OCR não consiga reconhecer muitas palavras. Por exemplo, para livros escritos há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras.

O que se está a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas leiam por nós, enquanto escrevem um CAPTCHA nos vários serviços da Internet.

capcha_04

Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.

Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!

O Twitter, Facebook e cerca de 350.000 outros sites, já estão a usar o reCAPTCHA. Atualmente, com o número de sites que estão a usar o novo reCAPTCHA, o numero de palavras obtidas diariamente é realmente grande.  Por serem dadas duas palavras, acontecem também situações “engraçadas”. Como as palavras são fornecidas de forma aleatórias, podem aparecer coisas como “mau Cristão”…não tem nada de mal, nem sequer queremos insultar ninguém…são coisas do sistema! 🙂

capcha_05

750,000,00 (cerca de 10% da população mundial), é o numero de pessoas que já ajudaram a digitalizar, pelo menos uma vez, um livro através do sistema reCAPTCHA, aumentando assim o “conhecimento humano” digitalizado.

Como é que conseguimos que  100 milhões de pessoas, gratuitamente, traduzam a Web para as principais linguas? Concentrem-se a partir ddo minuto 9h15 o objectivo do novo projecto que se chama Duolingo e que brevemente apresentaremos no Pplware.

Sabia que ajudava na digitalização de livros antigos. O que acha desta ideia?

Agradecimento ao Francisco, pela sugestão do tema!

Partilhar:
Tags:

Comentários

56

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

  1. Avatar de Blizard

    É uma ideia altamente eficiente, obviamente!
    Ajudar sem esforço extra.

  2. Avatar de Pedro Pinho
    Pedro Pinho

    Num mar de banalidades, trivialidades e consumismo que a internet consegue ser, é bom vermos algo realmente construtivo e de valor ser feito…
    O pessoal do reCAPTCHA está de parabéns!…

  3. Avatar de João Canudo

    E com isto estamos mais uma vez a fazer com que a google predomine no mercado da internet, sem o nosso conhecimento.

    1. Avatar de Ricardo Amaral
      Ricardo Amaral

      /inserir aqui meme de facepalm

  4. Avatar de Cris.
    Cris.

    Impressive ! 😀

  5. Avatar de Pedro
    Pedro

    Realmente a ideia é fantástica!

    Mas para deitar achas para a fogueira…

    Quanto vou pagar por um livro que ajudei a digitalizar?

    🙂

    1. Avatar de André Meireles
      André Meireles

      Bem, pelo que está numa das imagens acima, leio que “Google Acquires reCAPTCHA”.

      Sendo assim, creio que o valor que vais pagar quando o livro estiver digitalizado e no repositório da google é.. 0!;)

  6. Avatar de Bruno
    Bruno

    Nunca mais vou reclamar dos Captchas xD

  7. Avatar de Pedro

    Não sabia, muito bom.
    Mas deixo uma crítica ao facto de, pelo menos que me lembre, ser só palavras em inglês. Muito conhecimento, principalmente livros antigos estão escritos nas mais variadas línguas.

  8. Avatar de rafael
    rafael

    Ideia genial!! nunca tinha pensado nisto!

  9. Avatar de nuno
    nuno

    E esta hein….

  10. Avatar de Pedro
    Pedro

    Genial!!!!!!!!

  11. Avatar de Sergio
    Sergio

    Inicialmente colocava as duas palavras, depois descobri que não era necessário e passei só para uma. Mas aqui há uns meses atras li este assunto num blog de tecnologia qq e voltei a colocar as duas palavras e dar o meu contributo

  12. Avatar de paulex
    paulex

    Hum ideia fantástica, mas à imagem dos Captchas não está já associado a um respectivo código/texto dactilografado? Ou seja, o conteúdo da imagem, não está já digitado sob a forma de texto que permite a comparação entre o que digitamos e o arquivo associado à imagem? Desculpem a ignorância de estiver a dizer uma barbaridade.

    1. Avatar de Pedro
      Pedro

      Uma das palavras sim uma das palavras é conhecida… o que permite confirmar se és humadno 😛

      Mas a outra é desconhecida… esta ate a podes errar que o sistema n tem capacidade para perceber…
      😉

      1. Avatar de paulex
        paulex

        Ah já percebi obrigado pela partilha 😉 Agora já faz sentido.

        1. Avatar de Duarte alves
          Duarte alves

          É por isso que a palavra só fica OK para ser digitalizada após varias validações corretas por parte dos utilizadores, como diz no artigo:
          “Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente.”

    2. Avatar de paulex
      paulex

      correcção: “…Desculpem a ignorância se estiver a dizer uma barbaridade.”

  13. Avatar de Francisco Monteiro
    Francisco Monteiro

    Mais uma ideia impressionante que o google implementa. Também conheci este projecto há pouco tempo, acredito que se houver bastante adesão no projecto Duolingo, podemos vir a ter acesso ao (Eu sei português e quero aprender alemão). Actualmente para aprender alemão, tem que se saber inglês ou espanhol neste site. Mas isso será matéria, como o Pedro disse para um próximo artigo.

    Parabéns pelo artigo Pedro.

    1. Avatar de Pedro Pinto

      Obrigado Francisco pela sugestão do tema do artigo.

      PP

      1. Avatar de Francisco Monteiro
        Francisco Monteiro

        u r welcome

  14. Avatar de Marisa Pinto

    Muito bom este artigo! Eu desconhecia por completo, e como devoradora de livros (infelizmente tenho lido menos), acho que estas ideias são as que fazem falta no mundo.
    Ainda agora para o soundcloud as palavras que surgiram foram:
    ntradth e 51.2
    Penso que para o livro seja entao a 51.2 a não ser se seja um livro ucraniano 😀

    Cumprimentos 😉

    1. Avatar de Pedro
      Pedro

      heheh Pelo que percebi a palavra do livro é sempre a mais fácil de interpretar.

      1. Avatar de Lino Domingues
        Lino Domingues

        Pedro depende dos livros as palavras dos livros sao sempre as que o OCR nao consegue identificar

  15. Avatar de Abílio
    Abílio

    Excelente, parabéns pelo artigo Pedro.

  16. Avatar de Joao
    Joao

    Por acaso já sabia que ajudava na digitalização de livros à muito tempo.

    Acho é incrédulo como é que tanta gente que por aqui comenta e que está obviamente ligado ao mundo das TI’s não saber o que estava a fazer ao introduzir um CAPTCHA. Ainda por cima isto é algo que fazemos provavelmente todas as semanas, como é que nunca vos despertou curiosidade para pesquisar sobre o assunto?

    De qualquer das formas o artigo é muito bom. Parabéns.

    1. Avatar de TI&TI
      TI&TI

      Eu faço todos os dias e nunca soube dessa “2ª finalidade”.
      E também posso por a questão de outra forma, não haverá coisas mais importantes que se deva saber “no mundo das TI” ?
      E quem já o sabia, tem mais competências no “mundo das TI” que os restantes?
      Quantas ideias relacionadas com as TI são postas em prática diaramente? Alguém as conhece todas?

      Em nome dos ignorantes, agradeço a informação.

      1. Avatar de Joao
        Joao

        Claro que há coisas mais importantes, concordo plenamente. No entanto acho estranho porque já surgiram inúmeros artigos sobre isto no passado (não em português) pelo que pensei que a maioria sabia o que estava a fazer ao digitar um captcha.

        Como já referi, apenas demonstrei estranheza por verificar que a maioria desconhecia, esta “2ª finalidade”. Não queria ofender ninguém.

        Cumps.

      2. Avatar de eu
        eu

        de acordo ctg,o mundo infelizmente está cheio de pessoas q se julgam os maiores. como é o caso do joão

  17. Avatar de António Pereira
    António Pereira

    A ideia é excelente, mas serei só eu que não suporto os CAPTCHA? Por vezes há alguns que são simplesmente impossíveis de ser compreendidos e só prejudicam o utilizador.

  18. Avatar de Goncalo Alves
    Goncalo Alves

    eu escrevo sempre a palavra q e precisa e a outra e sempre nigga
    trolololol

    1. Avatar de Francisco Monteiro
      Francisco Monteiro

      Consegues sempre perceber qual é a digitalizacão da palavra obrigatória?

      1. Avatar de César Ribeiro
        César Ribeiro

        a palavra obrigatória é aquela que é mais fácil de ler 😀

        Mas sempre pus as duas, for the sake of knowledge.

  19. Avatar de Pedro Domingues
    Pedro Domingues

    Tenho uma questão. Se nós estamos a ajudar na digitalização de duas palavras em cada captcha, como é que ele sabe que escrevi o que está realmente lá se supostamente sou eu que as vou digitalizar?

    1. Avatar de TI&TI
      TI&TI

      A resposta está no artigo.

    2. Avatar de IR
      IR

      “Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.

      Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É assim que o nosso sistema funciona !!!”

      1. Avatar de Pedro Domingues
        Pedro Domingues

        Ah são precisas 10 pessoas para confirmar! Ok 😀
        Muito bom sistema!

    3. Avatar de Gil
      Gil

      Não são as duas é apenas uma e só é aceite a nova palavra quando um determinado número de pessoas escreve a mesma palavra.

      São apresentadas duas palavras, uma o computador conhece, a outra é desconhecida e é essa que é a contribuição para a digitalização do livro.

    4. Avatar de Joel Henriques
      Joel Henriques

      como diz no artigo um o pc não tem como saber se é veridica ou não a outra sim ele tem a imagem associada a uma palavra se errares essa ele recusa o pedido que fizeres
      mas saber qual é a que o pc sabe podes falhar pelo menos 50% das vezes
      mais vale dar uma pequena ajudita e fazer bem as coisas

      1. Avatar de Pedro Domingues
        Pedro Domingues

        Não vejo qual o interesse de saber qual das duas é a conhecida ou a desconhecida. Meto sempre as duas.

  20. Avatar de Ruaben
    Ruaben

    ajudei a mudar o mundo! sinto-me mais util. 😛
    não fazia a minima, muito bom

  21. Avatar de AC
    AC

    Fantástico! sem dúvida… mas há tanta gente em todo mundo a precisar de trabalhar para comer… E com tanto dinheiro que o mundo digital dá… não sei se não considero isto uma exploração sem autorização

  22. Avatar de guy
    guy

    Já sabia disto. Acho a ideia muito boa e tenho colaborado desde que descobri para que servia a 2ª palavra, mas agora a dificuldade da palavra de verificação está terrível. Acho que estão a abusar bué. Quando se tem de escrever o captcha 3-4 vezes pa acertar perde-se a boa vontade. As queixas de exploração tb têm alguma razão mas ao menos é trabalho útil.

  23. Avatar de Scheldon
    Scheldon

    Isso soa como uma desculpa para as pessoas pararem de reclamar desses tumores que tanto irritam.

    1. Avatar de Marisa Pinto

      Eu também acho que as pessoas reclamam de qualquer coisa, mas quando devem reclamar dos seus direitos, encolhem-se, ficam com medo e não fazem nada, eheh

      Cumprimentos

  24. Avatar de sergio
    sergio

    a meio do vídeo pensei: então se o computador não sabe o que a palavra quer dizer como é que vai saber que os utilizadores estão a dizer a verdade?

    depois vi que era tão simples com 2 palavras e pensei sou mesmo burro lol

    1. Avatar de POliveira
      POliveira

      Tal como eu e provavelmente 98% das pessoas 🙂
      Dos restantes, 1% são iluminados que perceberam logo como fazer a “despistagem” e os outros 1% são os que nem estavam a entender nada, portanto nem tiveram essa dúvida xD

  25. Avatar de César Oliveira

    Os capchas tem sido uma das maiores barreiras á acessibilidade e usabilidade de um site.

    Eu abomino Capchas

    Cumprimentos
    César Oliveira
    http://www.profissionalweb.net

  26. Avatar de Angelo Brito
    Angelo Brito

    Estive ainda com mais atenção quando falaram do duolingo, realmente é uma solução muito boa mas… o portugues (uma das linguas pouco traduzidas na internet) continua a ser posta de lado… no site apenas surge Ingles, Alemão, Espanhol e Francês…

    1. Avatar de POliveira
      POliveira

      @Angelo Brito

      Agora já surge o Português 😀

  27. Avatar de Tiago Correia

    Normalmente os CAPTCHAs dão para escrever sem acentos, nos livros digitais, também irá ficar sem acentos??

    1. Avatar de sergio
      sergio

      secalhar essa é a palavra que o captchas conhece, a outra é a que tu identificas-te

  28. Avatar de POliveira
    POliveira

    Impressionante como ideias geniais podem ser tão simples!
    O projecto duolingo mencionado no vídeo também é bastante promissor!

  29. Avatar de Paulo
    Paulo

    Pois é, eu não quero ser crítico pq tenho até tendência de ser fã de todas as ideias inteligentes. Então sou fã de mais esta, como o marketing consegue pegar numa coca cola, integrá-la num marketing da felicidade q leva até a esquecer o quão mal esta faz à saúde.

    Aqui é igual, um marketing muito bonitinho para a tecnologia mais irritante da internet!

    Mas, está muito boa a ideia e claro, o marketing também!