ti-enxame.com

Como encontrar arquivos de imagem por conteúdo

Eu tenho uma lista de arquivos e preciso encontrar todos os arquivos de imagem dessa lista.

Por exemplo, se minha lista continha o seguinte:

Pidgin.tar.gz
photo01.jpg
picture01
screenshot.gif
invoice.pdf

Então eu gostaria apenas de selecionar:

photo01.jpg
picture01
screenshot.gif

Notas:

  • Método não deve ser dependente de extensões de arquivo
  • Formatos de imagem obscuros para o Photoshop e o GIMP podem ser ignorados. (Se feh não pode mostrar, não é uma imagem)
6
Stefan

O seguinte comando lista as linhas em list_file Que contêm o nome de um arquivo de imagem:

<list_file xargs -d \\n file -i | sed -n 's!: *image/[^ :]*$!!p'
  • file -i FOO Verifique os primeiros bytes de FOO para determinar seu formato e imprime uma linha como FOO: image/jpeg (-i Significa mostrar um tipo mimo; é específico Para GNU arquivo como encontrado no Linux).
  • xargs -d \\n Lê uma lista de arquivos (uma por linha) da entrada padrão e aplica o comando subseqüente a ele. (Isso requer GNU Xargs como encontrado no Linux; em outros sistemas, deixe de fora -d \\n, Mas, em seguida, a lista de arquivos não pode conter \'" Ou espaço em branco) ou espaço em branco) .
  • O comando sed filtra o sufixo : image/FOO De modo a exibir apenas os nomes dos arquivos. Ignora linhas que não correspondem aos arquivos de imagem.
7
file -ib image | awk '"^image/" {print}'

Se o arquivo detectar imagem, ele deve imprimir linha como:

image/jpeg; charset=binary

Funciona em números mágicos, por isso não é baseado em extensões. Isto

2
Maciej Piechotka

Além do comando file, você também pode usar o ImageMagick. O seguinte mostrará o tipo de todos os arquivos no diretório atual:

find -type f -depth 0 -print0 | xargs -0 identify

O comando identify imprimirá algo como este para vários tipos de arquivo:

text.txt[8] TXT 612x792 612x792+0+0 16-bit DirectClass 694B 0.320u 0:00.330
php.jpg[31] JPEG 1280x1024 1280x1024+0+0 8-bit DirectClass 195KB 0.000u 0:00.000

Arquivos GIF animados imprimirão mais informações (este é um GIF de 21-quadro):

adhd.gif[0] GIF 211x200 211x200+0+0 8-bit PseudoClass 256c 233KB 0.000u 0:00.029
adhd.gif[1] GIF 168x130 211x200+22+22 8-bit PseudoClass 256c 233KB 0.000u 0:00.029
adhd.gif[2] GIF 168x130 211x200+22+22 8-bit PseudoClass 256c 233KB 0.000u 0:00.029
...
adhd.gif[18] GIF 168x130 211x200+22+22 8-bit PseudoClass 256c 233KB 0.000u 0:00.000
adhd.gif[19] GIF 168x130 211x200+22+22 8-bit PseudoClass 256c 233KB 0.000u 0:00.000
adhd.gif[20] GIF 168x130 211x200+22+22 8-bit PseudoClass 256c 233KB 0.000u 0:00.000

Você pode então usar awk ou ferramentas semelhantes para decidir o que fazer com eles.

1
greyfade

Se você tiver Python e Python-Magic . Por exemplo

#!/usr/bin/env python
import magic
import os
path=sys.argv[1]
mime = magic.open(magic.MAGIC_NONE)
mime.load()
for r,d,f in os.walk(path):
    for files in f:
        filename=os.path.join(r,files)
        filetype=mime.file(filename)
        if "image" in filetype:
            print "File: %s is %s" %(filename, filetype)
1
user1606

Talvez haja algo que eu esteja perdendo, mas isso parece funcionar para mim:

file -i * | grep "image/" | cut -d: -f1
0
mdwstmusik