如何创建一个Python脚本来从一个站点获取文本并将其重新发布到另一个站点？

如何解决如何创建一个Python脚本来从一个站点获取文本并将其重新发布到另一个站点？

| 我想创建一个Python脚本来从此站点获取Pi的位数： http://www.piday.org/million.php 并将它们重新发布到此站点： http://www.freelove-forum.com/index.php 我不是在发送垃圾邮件，也不是在胡闹，这是与创建者和网站管理员的开玩笑，如果您愿意的话，这是迟来的Pi日庆祝活动。

解决方法

导入urllib2和BeautifulSoup

import urllib2
from BeautifulSoup import BeautifulSoup

指定URL并使用urllib2获取

url = \'http://www.piday.org/million.php\'
response = urlopen(url)

然后使用BeautifulSoup，它使用页面中的标记来构建字典，然后可以使用定义数据的相关标记查询字典以提取所需的内容。

soup = BeautifulSoup(response)

pi = soup.findAll(\'TAG\')

其中\'TAG \'是您要查找的标识pi的相关标签。指定您要打印的内容

out = \'<html><body>\'+pi+\'</html></body>

然后，您可以使用python内置文件操作将其写入您提供的HTML文件中。

f = open(\'file.html\',\'w\')
f.write(out)
f.close()

然后，您可以使用网络服务器提供文件\'file.html \'。如果您不想使用BeautifulSoup，则可以使用re和urllib，但是它不像BeautifulSoup那样“漂亮”。 ,当您发布帖子时，将发送一个POST请求并将其发送到服务器。查看您网站上的代码：

<form action=\"enter.php\" method=\"post\">
  <textarea name=\"post\">Enter text here</textarea> 
</form>

您将发送参数为post的POST请求（命名为IMO的错误对象），它是您的文本。至于您要从中获取的站点，如果您查看源代码，则Pi实际上位于带有此URL的ѭ9中：

 http://www.piday.org/includes/pi_to_1million_digits_v2.html

查看该源代码，您可以看到该页面只是单个<p>标记，直接从<body>标记继承而来（该站点没有<!DOCTYPE>，但我将其中一个）：

<!DOCTYPE html>

<html>
  <head>
    ...
  </head>

  <body>
    <p>3.1415926535897932384...</p>
  </body>
</html>

由于HTML是XML的一种形式，因此您将需要使用XML解析器来解析网页。我使用BeautifulSoup，因为它可以很好地处理格式错误或无效的XML，但对于完全有效的HTML则更好。要下载实际的页面（将其输入XML解析器中），可以使用Python内置的urllib2。对于POST请求，我将使用Python的标准httplib。所以一个完整的例子是这样的：

import urllib,httplib
from BeautifulSoup import BeautifulSoup

# Downloads and parses the webpage with Pi
page = urllib.urlopen(\'http://www.piday.org/includes/pi_to_1million_digits_v2.html\')
soup = BeautifulSoup(page)

# Extracts the Pi. There\'s only one <p> tag,so just select the first one
pi_list = soup.findAll(\'p\')[0].contents
pi = \'\'.join(str(s).replace(\'\\n\',\'\') for s in pi_list).replace(\'<br />\',\'\')

# Creates the POST request\'s body. Still bad object naming on the creator\'s part...
parameters = urllib.urlencode({\'post\':      pi,\'name\':      \'spammer\',\'post_type\': \'confession\',\'school\':    \'all\'})

# Crafts the POST request\'s header.
headers = {\'Content-type\': \'application/x-www-form-urlencoded\',\'Accept\':       \'text/plain\'}

# Creates the connection to the website
connection = httplib.HTTPConnection(\'freelove-forum.com:80\')
connection.request(\'POST\',\'/enter.php\',parameters,headers)

# Sends it out and gets the response
response = connection.getresponse()
print response.status,response.reason

# Finishes the connections
data = response.read()
connection.close()

但是，如果您将其用于恶意目的，请务必知道服务器记录了所有IP地址。 ,您可以使用任何Python发行版中的urllib2模块。它允许您在打开文件系统上的文件时打开URL。因此，您可以使用

pi_million_file = urllib2.urlopen(\"http://www.piday.org/million.php\")

解析生成的文件，该文件将成为您在浏览器中看到的网页的HTML代码。然后，您应该使用正确的URL来使用PI进行网站POST。

如何创建一个Python脚本来从一个站点获取文本并将其重新发布到另一个站点？

如何解决如何创建一个Python脚本来从一个站点获取文本并将其重新发布到另一个站点？

解决方法

相关推荐