NASA quer indexar a Deep Web

Há uma parte da internet que é a maior parte dela, em fato de que está escondido do Google. É privado, ilícita, ou simplesmente desconhecida. E a NASA quer indexá-la.

A agência espacial anunciou no mês passado que vai unir forças com a Defense Advanced Research Projects Agency (DARPA) para ajudar a dar sentido a essa parte da Internet comumente referido como o Web profunda ou Escura. A maioria dos utilizadores da Internet ouviu pela primeira vez sobre isso, se eles já ouviu falar sobre ele em tudo, no contexto da Silk Road, o mercado de drogas on-line agora extinta que foi hospedado em um serviço Web escondido. Silk Road era apenas acessível usando o navegador The Onion Router, ou TOR.

Agora, a missão da NASA para explorar o universo inclui os mais distantes do ciberespaço. “É um território desconhecido”, Chris Mattmann, a vantagem da NASA no projeto, disse à fusão em uma entrevista por telefone. Num comunicado de imprensa, a NASA explicou que ele vai ajudar a DARPA com seu programa de Memex, que está trabalhando para “acessar e catalogar este mundo on-line misterioso.”

CFoBG8KVEAED_ql

Talvez agências governamentais espera inundar a Web escura com luz do sol e ajudar a limpar o lugar. Além de ser o esgoto da Web por conseguir drogas ilícitas, os canais ocultos da Internet têm historicamente abrigado alguns atores ilegais bastante desagradável, incluindo assassinos e pedófilos.

Mas grande parte da Deep-Web que responde por cerca de 96 por cento da Internet-não tem nada a ver com TOR e é inacessível por razões mais mundanas. Alguns sites não estão ligados pelo Google, porque eles estão atrás de private-paywalls, por exemplo, ou simplesmente não vale a pena os esforços do Google para indexar, como dados científicos. Esse é o tipo de informações em que Jet Propulsion Laboratory da NASA está interessada, porque é onde as informações de suas nave espacial envia de volta para a Terra.

screen-shot-2015-06-08-at-6-07-50-pm

screen-shot-2015-06-08-at-6-05-34-pm

A ideia é organizar o acesso ao conteúdo do Abismo de Web, e construir uma alternativa ao motor de busca Google, que dará a NASA a melhor maneira de acessar dados que estão sendo enviados por suas máquinas. Um subproduto não intencional disto será, eventualmente, permitindo que todos mais acesso às partes ocultas da Internet.

O objetivo é não apenas construir “realmente um grande motor de busca para coisas ruins na internet escondido”, principal pesquisador do JPL em Memex, Chris Mattmann, disse à fusão. Quando naves espaciais da NASA enviar informações à Terra, está em um formato de arquivo que o Google não é muito bom em entendimento. “[Esses arquivos] começa na segunda parte da web, que normalmente chamamos de Dark Web profunda … se você ir ao Google, você provavelmente estará à 10-30 cliques de distância a partir da informação dos dados reais da ciência.”

Dados da NASA é despejado nesta parte escura, inacessível (mas não inacessível) da web porque os conjuntos de dados faz sentido para os seres humanos, mas não para os rastreadores da web que indexa a Internet. Com Memex, Mattmann disse, os internautas será “apenas 1-4 cliques de distância a partir dos dados da ciência.”

iceberg20150522b

Não vai ser fácil. Mattmann explicou que “a maioria das pessoas são boas em motores de busca [de construção para] seu domínio específico, mas não são capazes de girar.” Sites como o Fandango e Yelp só são realmente bons em desenvolvimento de motores de busca que servem para pesquisas específicas, como filmes em seu bairro ou comentários das empresas locais. Pesquisando na Deep Web em vários domínios é muito mais complicado.

E, Mattmann disse, Memex está atravessando “os mesmos tipos de dores de crescimento do Search Engine”, como todos os motores de busca. “Ser capaz de entender quais sites são relevantes, por onde começar a rastrear. Muitas dessas operações de rastreamento pode levar dias ou semanas … O Google não se desenvolveu inicialmente”.

Há outras versões mais simples do Memex já disponíveis. “Se você já usou a máquina de Wayback do Internet Archive,” que lhe dá passado versões de um site não é acessível através do Google, então você tecnicamente procurou a Deep Web, disse Mattmann.

screen-shot-2015-06-05-at-2-35-52-pm

Mas uma vez Memex, lançado em setembro do ano passado, é plenamente realizado, poderia ser uma alternativa viável para o Google, talvez. “Eu não sei se qualquer programa do governo poderia ser um concorrente a uma entidade comercial”, disse Mattman, mas Memex está fazendo algo que o Google não tem interesse. “Não é em sua linha de fundo”, explicou Mattmann, para fazer o tipo de web rastejando, DARPA e a NASA estão dispostos a fazer.

Para DARPA, este é o círculo completo: Anteriormente conhecido como ARPA, a agência desenvolveu algo chamado ARPANET no final dos anos 1960. ARPANET foi uma primeira versão do Internet tal como a conhecemos. Agora DARPA vai ajudar a tornar mais fácil.

arpanet_logical_map_march_1977

“O que Arpanet era da Internet”, disse Mattmann.

Se for esse o caso, podemos estar à beira de uma revolução de pesquisa.

Fonte: Fusion.net

Anúncios

Sites anônimos da ‘deep web’ é fácil de monitorar, diz estudo

Mais uma notícia está rolando por aí e novamente é sobre a segurança do TOR, já faz um tempo que a segurança do TOR vem se comprometendo, eu deixei de confiar no TOR após tantas especulações a respeito de sua segurança, mas enfim, segue a notícia publicada pelo G1 informando como é fácil o monitoramento de sites .onion

Dois pesquisadores de segurança realizaram um estudo e descobriram que o acesso aos sites anônimos da rede Tor, muitas vezes chamados de “sites da deep web”, pode ser facilmente monitorado. Os detalhes da pesquisa foram apresentados por Filipo Valsorda e George Tankersley na sexta-feira (29) na conferência de segurança Hack in the Box, em Amsterdã, na Holanda.

No lugar de “.com” ou “.com.br”, os sites da “deep web” do Tor usam endereços terminados em “.onion”. Essas páginas, chamadas de serviços ocultos, só podem ser acessadas com o uso do programa Tor, que tenta tornar o acesso à rede anônimo. Um internauta conectado à Tor utiliza intermediários para acessar a web, seja na internet comum ou em sites da própria rede.

Por causa dos intermediários na conexão, não é possível identificar a verdadeira origem de um acesso realizado por meio da rede Tor. Para que uma pessoa mal-intencionada não possa monitorar os usuários manipulando um único intermediário, são elencados diversos intermediários para cada conexão.

Mas os pesquisadores descobriram que o sistema que escolhe os intermediários para acessos dentro da própria rede Tor é falho. Usando um notebook Macbook Pro, a dupla conseguiu em 15 minutos “convencer” a rede Tor a elencar sistemas que eles controlavam como intermediários para acesso ao site do Facebook pela rede Tor (https://facebookcorewwwi.onion – o Facebook criou um endereço na rede Tor em outubro de 2014).

Controlando todos os seis sistemas intermediários, é possível realizar um “ataque de correlação”, em que o tráfego de entrada é comparado com o de saída. Com isso é possível analisar quem está acessando o quê. Autoridades policiais teriam mais facilidade para realizar esse monitoramento com a colaboração de provedores.

Segundo os pesquisadores, o mecanismo de intermediação dos sites “.onion” é mais vulnerável do que a intermediação de sites comuns a partir da rede Tor. Em outras palavras, acessar o site “facebook.com” pelo Tor é mais seguro do que acessar o endereço que o Facebook criou para acesso específico pela rede Tor.

A privacidade dos sites “.onion” é discutida desde novembro passado, quando uma operação policial prendeu 17 pessoas e derrubou diversos sites da rede Tor. Na ocasião, um desenvolvedor do Tor, que se identificou como “phobos”, afirmou que o mecanismo de serviços ocultos não tem recebido atenção e que não há recursos para investir no desenvolvimento de melhorias.

Fonte: G1