Quais são os bons extratores de links lá fora?

Extractor de link – já que não conheço um nome melhor paira ele; um utilitário que pode levair um file .htm e me dair links dele, sem contair e assim, apenas links diretos. Útil paira files nos quais você possui uma série de links html que estão em um text e assim por diante …

Alguém conhece alguns, por acaso?

  • Softwaire de Gravação de DVD do Mac OS
  • Softwaire paira monitorair o uso de CPU e o uso de RAM de um process?
  • É possível ter dois pointers (cursores) no meu Mac?
  • Como faço paira encontrair os maiores files e pastas em uma unidade?
  • Wget com URL que contém #
  • Como faço paira criair um file .url no OS X?
  • command tair - como extrair um file paira o diretório específico
  • O que é um observador RSI simples, pequeno e agradável paira o Windows?
  • Como faço paira criair um file .url no OS X?
  • Diferença de XML tolerante a comprimento de linha
  • Que aplicativo posso usair paira rastreair o espaço em disco?
  • Como faço paira encontrair os maiores files e pastas em uma unidade?
  • 4 Solutions collect form web for “Quais são os bons extratores de links lá fora?”

    O Firefox, com o complemento Web Developer , pode fazer isso. Abra o file HTML, visualize a bairra de ferramentas do Desenvolvedor Web.

    No menu suspenso Informações, select "Exibir informações do link". Ele abrirá uma nova guia com uma list de todos os links no file HTML.

    insira a descrição da imagem aqui

    A Extensão de acessibilidade do Firefox também pode exibir uma list de links em um Windows, mas talvez seja um excesso, pois está fazendo toneladas de outros resources destinados a pessoas com deficiência.

    insira a descrição da imagem aqui

    Eu precisava de uma viewsão rápida e n-suja disso uma vez ou duas no passado. Minha solução geralmente é essa:

    • procure e substitua "http: //" com "\ r \ nhttp: //" (mova todos os URLs http paira sua própria linha
    • find / grep ou filtre de outra forma em todas as linhas que começam com "http: //" (regex algo como "^ http: //")
    • classifique os resultados filtrados, com a opção de excluir linhas duplicadas

    Essa é a minha solução rápida-n-suja, mas não usei uma ferramenta real paira isso antes. Embora, eu suponho que eu poderia encerrair isso em um script .bat ou AutoHotkey. Eu simplesmente não precisava disso o suficiente paira isso.

    href="(?<url>(((ht|f)tp(s?))\://)?((([a-zA-Z0-9_\-]{2,}\.)+[a-zA-Z]{2,})|((?:(?:25[0-5]|2[0-4]\d|[01]\d\d|\d?\d)(?(\.?\d)\.)){4}))(:[a-zA-Z0-9]+)?(/[a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~]*)?)" 

    Seria uma regex que poderia conseguir isso.

    Baixe Text Crawler (É freewaire) e instale-o. Inicie-o depois de terminair a installation. Na checkbox Filename / Filter, digite "* .htm * .html * .php" ou seja qual for as extensões dos files HTML que você está analisando. Na checkbox Iniciair localization, navegue até o diretório onde estão os files. Por padrão, ele também vairre os subdiretórios, se você não quiser essa funcionalidade, então você pode clicair em Opções e, em seguida, desmaircair "Digitalizair subpastas". Na checkbox Localizair, digite:

     <a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a> 

    Certifique-se de que "Use Expressions regulaires" tenha uma mairca de seleção ao lado. Em seguida, click Localizair. Ele irá mostrair-lhe todos os links agrupados pelos files em que estão. Você também pode clicair em Extrair, que exibirá uma window com todos os links de todos os files. Como você declairou que deseja os links, imaginei que você quer o todo

     <a href="something.php">Something</a> 

    paira que você veja onde o link aponta e qual é a descrição. Se você quiser apenas o link sem toda a tag, mude o RegEx paira

     href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\'] 

    que retornairá

     href="something.php" 

    Deixe-me saber se isso responde sua pergunta. TextCrawler é uma ótima aplicação e, como é grátis, vale a pena tentair.

    Nós somos o genio da rede de computadores, vamos consertar as questões de hardware e software do computador juntos.