Microsoft atinge marco histórico no reconhecimento da fala

20 Comentários

A Inteligência Artificial é, sem dúvida, uma das tecnologias do futuro e hoje em dia já podemos ver vários progressos a rumar nesse sentido. As grande tecnológicas mundiais já têm os seus próprios assistentes virtuais: Siri, Cortana, Google Assistant; e tentam conectar cada vez mais estas assistentes pessoais aos seus sistemas operativos, de modo a tornar esta tecnologia mais simples, necessária e orgânica.

O último passo neste sentido vem da Microsoft, mais precisamente da equipa de investigação em linguagem, reconhecimento da fala e diálogo, que anunciou ter atingido um marco histórico no reconhecimento de fala por parte dos seus sistemas virtuais.

reconhecimento de fala

Ao longo dos últimos 25 anos, a indústria tecnológica tem vindo a tentar atingir um nível de reconhecimento da fala idêntico ao humano nos seus sistemas. A Microsoft anunciou ter atingido um recorde nessa categoria, tendo atualmente uma margem de erro de 5,1% na identificação e reconhecimento da fala e discurso/diálogo.

Esta é uma melhoria de 12% face ao registo efetuado em 2016, que se situava nos 5,9% de margem de erro. No entanto, o que torna este progresso um marco histórico é o facto de este registo de 5,1% de margem de erro ser o padrão estabelecido numa conversa entre humanos. Ou seja, o reconhecimento da fala da Microsoft, neste momento, tem o mesmo grau de precisão de um humano!

Para conseguir estes resultados, a equipa da Microsoft Research aprimorou o conjunto de ferramentas que usava anteriormente, especialmente as suas redes acústicas com tecnologia neural.

reconhecimento de fala

Para além disto, adicionou novas tecnologias, entre as quais o CNN-BLSTM (convolutional neural network combined with bidireccional long-short-term memory) que melhorou consideravelmente a interpretação de discursos provenientes de diferentes timbres.

A Microsoft congratula-se de conseguir trazer, desta forma, melhorias para vários serviços que são usados diariamente por milhões de pessoas, entre os quais a Cortana, o Presentation Translator do PowerPoint e as API do seus Serviços Cognitivos.

Apesar de ter atingido um marco histórico na categoria, a Microsoft afirma que tem ainda muitos progressos a realizar nesta tecnologia, dos quais destaca atingir o nível de reconhecimento da fala humano em ambientes mais ruidosos, em reconhecer com mais precisão discursos provenientes de diferentes sotaques. Mais importante, a Microsoft quer que esta tecnologia consiga, para além de reconhecer e transcrever discursos, entender e interpretar o contexto e significado dos diálogos.

Pode ler mais sobre o assunto no relatório técnico que a Microsoft disponibilizou.

Comentários

20

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

  1. Avatar de Alexandre
    Alexandre

    Pergunta: Existe algum assitente que reconheça diferente vozes? Examplo: Google home foi ativado automaticamente por cause de uma publicidade via TV. Nunca devia ter ativado automaticament e deveria reconhecer a voz to utilizador. Existe algo que faça esta distinção?

    1. Avatar de R
      R

      posso estar redondamente enganado!… mas tenho ideia de que a xbox ( que usa a cortana acho eu…) consegue reconhecer vozes de diferentes utilizadores.

    2. Avatar de Rui
      Rui

      Sim, tenho a Siri configurada no Iphone e quando digo Hey Siri ela automaticamente abre e fica em escuta, mas se for outra pessoa ignora, contudo após eu a abrir qualquer pessoa pode interagir com ela.

  2. Avatar de AiOGajo
    AiOGajo

    Entretanto Cortana em Português nada 🙁

    1. Avatar de Eduardo
      Eduardo

      pois … infelizmente … 🙁

    2. Avatar de -_-'
      -_-‘

      Como sempre…. só br… PT-PT nada!!… Não interessamos a ninguém!…

      1. Avatar de Gonçalo Oliveira
        Gonçalo Oliveira

        É uma questão de mercado. PT tem 10 milhões de habitantes. BR tem 200 milhões.

      2. Avatar de ACMSeBr
        ACMSeBr

        PT-BR é mais fácil e o PT-PT e mais EXATO, Bonito!
        Por isso eles fazem PT-BR ;-D

      3. Avatar de PT-PT e PT--BR
        PT-PT e PT–BR

        Em 2016:
        – população do Brasil 208 milhões
        – população de Portugal 10 milhões (menos de 5% da população do Brasil).

        Poucos mas bons 😉
        Em todo o caso, tem que se agradecer ao Brasil que o PT (seja PT-BR ou PT-PT) “risque” (ainda “risca” bastante) na cena internacional.

        Mas, em regra, os assistentes virtuais, mais virados para o PT-BR, percebem sem dificuldade o PT-PT, até o PT-AL(entejano).
        Quanto à conteúdos é que é diferente – podem saber os resultados do “brasileirão” e não saber os do “campeonato nacional 🙂

        1. Avatar de Lucas BR
          Lucas BR

          PT-PT é mais bonito onde? PT-BR é muito mais prático e menos complicado, do que adianta ser chique se pouca gente fala?
          E outra “poucos mas bons”? NUNCA! O Brasil tem vários problemas, mas agradeçam a gente por pensarem em traduzirem as coisas pra português já que se dependesse do país de vocês, isso dificilmente aconteceria.

          1. Avatar de Mario
            Mario

            Comentário sem sentido. Parece uma resposta de quem tem complexos de inferioridade.
            PT-BR é mais prático e menos complicado, para um brasileiro, claro. E há uma coisa, que se chama subtileza, que qualquer pessoa minimamente inteligente percebe que dizer “poucos, mas bons” não tem que ter uma conotação depreciativa para com os outros. Quer dizer que apesar de sermos poucos, também somos bons no que fazemos. Não somos melhores, nem piores. Tão simples quanto isso. Para quê complicar?

          2. Avatar de Bruno
            Bruno

            Chique? Agora um Português falar português é chique?
            O povo brasileiro tem imensas qualidades e devemos agradecer ao Brasil por muitas coisas como consequência de falar português, mas traduções não é propriamente uma delas. Tanto não é difícil de acontecer que há muita coisa traduzida para português de Portugal. Ser pequeno não significa ser irrelevante, outras línguas com pequenas populações têm traduções.

          3. Avatar de Woot!
            Woot!

            Menos complicado? Para quem? No brasil a maioria das pessoas nem sabe falar, usam “vim” em vez de “vir”, usam as formas verbais do você quando usam tu, usam as formas verbais do tu quando usam você.

            Etc etc etc.

  3. Avatar de Paulo
    Paulo

    Desconheço. Acho que ainda não chegaram lá. Usar 1 botão para ativar os comandos no momento parece ser a alternativa a esse problema.

  4. Avatar de Pedro Oliveira
    Pedro Oliveira

    Todos os sistemas de reconhecimento de voz, Google, Amazon, MS e Apple estão a ser preparados para destingirem as vozes e terem comportamentos diferentes de acordo com quem fala com eles. Ou seja, esse não será um problema. No entanto, nenhum sistema é infalível…

  5. Avatar de gigbola
    gigbola

    Sou so eu que acho estranho falar para um telemóvel e esperar que ele responda?
    Isto daqui a uns tempos, qdo as multinacionais criarem os psicólogos virtuais não poderá se tornar em máquinas de lavagem cerebral?
    A Coreia do norte devia mandar uns mísseis nos centros de investigação destas coisas…….

    1. Avatar de Carlos Homem
      Carlos Homem

      Se toda a gente pensasse assim ainda nem à idade da pedra alguma vez tínhamos chegado.
      Se quiseres podes muito bem ir viver para uma caverna com alguém que tenha os mesmos medos que tu e criar uma família de homens das cavernas com esperança média de vida da ordem dos 30 anos.

  6. Avatar de Francisco Moreira
    Francisco Moreira

    Até pode reconhecer as palavras a 100%, agora “entender e interpretar o contexto e significado dos diálogos”… boa sorte.

  7. Avatar de João Terra
    João Terra

    2 anos depois do windows 10 para pc e o cortana em PT-PT não funciona, só funciona em PT-BR? Quero o meu money de volta Microsoft!!!!!

  8. Avatar de jea
    jea

    O assistente não faz chamadas telefônicas por voz. Horrível