Produtores de conteúdos na Internet estão preocupados com a maneira como os robots de busca e indexação (spiders ou crawlers) dos sites como o Google, Yahoo e outros, estão fazendo essa indexação e posteriormente exibindo os conteúdos indexados.
Atualmente o Google e Yahoo, bem como algumas outras grandes empresas de busca e indexação, voluntariamente aceitam um acordo pelo qual os sites de produção de conteúdos têm direito de estabelecer um limite do que pode ou não ser indexado, através de um arquivo conhecido como “robots.txt” que é lido pelas spiders (aranhas) de busca.
O acordo foi estabelecido em 1994, em função da pressão de acesso que os robots de indexação estavam causando a alguns sites pela velocidade e constância das visitas. De lá para cá, alguns desenvolvimentos como a disputa entre o GoogleNews a alguns jornais e a agência AP, levaram os publicadores à criação de uma nova proposta, que será divulgada na próxima semana, numa tentativa de que se estabeleça um novo acordo, de validade geral, sobre os limites de buscas e indexação automática de material disponível na Web.
Dentre os ítens em discussão está a questão de por quanto tempo um site de busca e indexação pode manter em seus arquivos o material obtido pelos robots de busca. A nova proposta, conhecida como Automated Content Access Protocol, vai ser discutida com representantes dos principais sites de buscas e indexação automática.
Um porta-voz do Google já declarou que a empresa está disposta a discutir o novo protocolo e vê como principal dificuldade de sua implementação a garantia de que será obedecido por todas as empresas do ramo.
Mais detalhes na Technology Review.
marcos palacios
(O desenho da aranha é de Tanja, uma artista holandesa. )
Deixe uma resposta