The script does not extract numbers. I need help!

A forum for general discussion of the Python programming language.

The script does not extract numbers. I need help!

Postby floriano » Thu Jun 06, 2013 1:05 pm

I am a beginner, this script works for me but mistakenly:
Can anyone help me fix this code? This script does not extract numbers, why?
Code: Select all
 from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

class NameSpider(BaseSpider):
    name = "name"
    allowed_domains = ["example.com/"]
    start_urls = [
         "http://www.example.com/"
    ]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//td')
        for site in sites:
           
            extractcontent = site.select('text()').extract()
            print  extractcontent 

This is what extract.
Code: Select all
 [u'\n\t\t\t\t\t\t', u'\n\t\t\t\t\t\t']
[u'  ', u' \n\t\t\t\t\t\t\t\t Text']
[u'Text ']
[u'Text ']
[u'\n\t\t\t\t\t\t\t\tText ']
[u' -  ']
[u'\n\t\t\t\t\t\t\t\tText ']
[]
[u'\n\t\t\t\t\t\t', u'\n\t\t\t\t\t\t']
[u'  ', u' \n\t\t\t\t\t\t\t\t Text']
[u'Text ']
[u'Text ']
[u'\n\t\t\t\t\t\t\t\tText ']
[u' ', u'\n\t\t\t\t\t\t\t\t ']
[u'\n\t\t\t\t\t\t\t\tText ']
[]
[u'Text ']
[u'\n\t\t\t\t\t\t\t\tText ']
[u' ', u'\n\t\t\t\t\t\t\t\t ']
[u'\n\t\t\t\t\t\t\t\tText '] 


Thanks in advance for any help!
Last edited by floriano on Thu Jun 06, 2013 7:57 pm, edited 1 time in total.
floriano
 
Posts: 15
Joined: Thu Jun 06, 2013 9:10 am

Re: The script extracts the mistakes: u'\n\t\t\t\t\t\t'

Postby floriano » Thu Jun 06, 2013 7:55 pm

Ok, I solved the problem by extracting mistake.

The script does not extract numbers. If someone, can help me?

Thanks in advance!
floriano
 
Posts: 15
Joined: Thu Jun 06, 2013 9:10 am

Re: The script does not extract numbers. I need help!

Postby stranac » Thu Jun 06, 2013 7:59 pm

We have no idea what you're trying to parse.
How are we supposed to know why it's not extracting some mysterious numbers we can't see?

floriano wrote:Ok, I solved the problem by extracting mistake.

The script does not extract numbers.

That makes no sense.
Friendship is magic!

R.I.P. Tracy M. You will be missed.
User avatar
stranac
 
Posts: 1143
Joined: Thu Feb 07, 2013 3:42 pm

Re: The script does not extract numbers. I need help!

Postby floriano » Thu Jun 06, 2013 9:25 pm

Like this is the cod.
But not extract the numbers, the number is in tag <a>

Code: Select all
 <table id="dedcontent">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta http-equiv="Content-Type" content="text/html; charset=utf-8">
               <tr>
                  <td>
                  <table>
                     <tr>
                                                                                                                     <td colspan="5" style="text-align:left;padding-left:4px;" class="category">  <img src="http://www.nnnnn.com/images/world/menu.gif">
                         This is a text </td>
                     </tr>
                                          <tr>
                        <td class="date" colspan="5">June 05 </td>
                     </tr>
                                          <tr>
                        <td style="test-align:left;width:40px;">This is a text</td>
                        <td style="padding-right:4px; width:180px;text-align:right">
                        This is a text </td>
                                                <td style="width:40px;text-align:center"> <nobr><a id="I1" name="I1" href="javascript:MoreInformation(1,'1048','1527875','TT','home');">
                        This is a number</a></nobr>
                         </td>
                        <td style="padding-left:5px; width:180px;text-align:left">
                        This is a text </td>
                        <td style="width:40px;text-align:center"></td>
                     </tr>
                                          <tr>
                        <td style="test-align:left;width:40px;">This is a text</td>
                        <td style="padding-right:4px; width:180px;text-align:right">
                        This is a text </td>
                                                <td style="width:40px;text-align:center"> <nobr><a id="I2" name="I2" href="javascript:MoreInformation(2,'1048','1527874','TT','home');">
                        This is a number</a></nobr>
                         </td>
                        <td style="padding-left:5px; width:180px;text-align:left">
                        This is a text </td>
                        <td style="width:40px;text-align:center"></td>
                     </tr>
                                       </table>
                  </td>
                                 <tr>
                  <td>
                  <table>
                     <tr> 


Now not extract wrong (u\t\t\t\t) but not extract the numbers, the number is in tag <a>

Thanks again!
Floriano
floriano
 
Posts: 15
Joined: Thu Jun 06, 2013 9:10 am


Return to General Discussions

Who is online

Users browsing this forum: Crimson King, Google Feedfetcher, Google [Bot] and 2 guests