ti-enxame.com

Envie dados via formulário da Web e extraia os resultados

Meu python é Iniciante. Eu nunca escrevi um raspador ou rastreador da Web. Eu escrevi um código python python para conectar-se a uma API e extrair os dados que Eu quero. Mas, para alguns dados extraídos, quero obter o sexo do autor. Encontrei este site http://bookblog.net/gender/genie.php mas a desvantagem é que não há uma API disponível. Eu queria saber como escrever um python para enviar dados para o formulário na página e extrair os dados de retorno. Seria uma grande ajuda se eu pudesse obter alguma orientação sobre isso.

Esta é a forma dom:

<form action="analysis.php" method="POST">
<textarea cols="75" rows="13" name="text"></textarea>
<div class="copyright">(NOTE: The genie works best on texts of more than 500 words.)</div>
<p>
<b>Genre:</b>
<input type="radio" value="fiction" name="genre">
fiction&nbsp;&nbsp;
<input type="radio" value="nonfiction" name="genre">
nonfiction&nbsp;&nbsp;
<input type="radio" value="blog" name="genre">
blog entry
</p>
<p>
</form>

página de resultados dom:

<p>
<b>The Gender Genie thinks the author of this passage is:</b>
male!
</p>
15
add-semi-colons

Não é necessário usar mecanizar, basta enviar os dados corretos do formulário em uma solicitação POST.

Além disso, usar uma expressão regular para analisar o HTML é uma má ideia. Seria melhor usar um analisador de HTML como lxml.html.

import requests
import lxml.html as lh


def gender_genie(text, genre):
    url = 'http://bookblog.net/gender/analysis.php'
    caption = 'The Gender Genie thinks the author of this passage is:'

    form_data = {
        'text': text,
        'genre': genre,
        'submit': 'submit',
    }

    response = requests.post(url, data=form_data)

    tree = lh.document_fromstring(response.content)

    return tree.xpath("//b[text()=$caption]", caption=caption)[0].tail.strip()


if __name__ == '__main__':
    print gender_genie('I have a beard!', 'blog')
26
Acorn

Você pode usar mecanizar para enviar e recuperar conteúdo e o módulo re para obter o que deseja. Por exemplo, o script abaixo faz isso para o texto da sua própria pergunta:

import re
from mechanize import Browser

text = """
My python level is Novice. I have never written a web scraper 
or crawler. I have written a python code to connect to an api and 
extract the data that I want. But for some the extracted data I want to 
get the gender of the author. I found this web site 
http://bookblog.net/gender/genie.php but downside is there isn't an api 
available. I was wondering how to write a python to submit data to the 
form in the page and extract the return data. It would be a great help 
if I could get some guidance on this."""

browser = Browser()
browser.open("http://bookblog.net/gender/genie.php")

browser.select_form(nr=0)
browser['text'] = text
browser['genre'] = ['nonfiction']

response = browser.submit()

content = response.read()

result = re.findall(
    r'<b>The Gender Genie thinks the author of this passage is:</b> (\w*)!', content)

print result[0]

O que isso faz? Ele cria um mechanize.Browser E vai para o URL fornecido:

browser = Browser()
browser.open("http://bookblog.net/gender/genie.php")

Em seguida, ele seleciona o formulário (como existe apenas um formulário a ser preenchido, será o primeiro):

browser.select_form(nr=0)

Além disso, define as entradas do formulário ...

browser['text'] = text
browser['genre'] = ['nonfiction']

... e envie:

response = browser.submit()

Agora, obtemos o resultado:

content = response.read()

Sabemos que o resultado está na forma:

<b>The Gender Genie thinks the author of this passage is:</b> male!

Então, criamos um regex para correspondência e usamos re.findall():

result = re.findall(
    r'<b>The Gender Genie thinks the author of this passage is:</b> (\w*)!',
    content)

Agora o resultado está disponível para seu uso:

print result[0]
17
brandizzi

Você pode usar mecanizar , consulte exemplos para obter detalhes.

from mechanize import ParseResponse, urlopen, urljoin

uri = "http://bookblog.net"

response = urlopen(urljoin(uri, "/gender/genie.php"))
forms = ParseResponse(response, backwards_compat=False)
form = forms[0]

#print form

form['text'] = 'cheese'
form['genre'] = ['fiction']

print urlopen(form.click()).read()
1
jan zegan