Changeset 1333 for trunk

Show
Ignore:
Timestamp:
10/12/10 19:33:38 (20 months ago)
Author:
gbooker
Message:

Correction for IMDB's new site
Fixes #390

Location:
trunk/SapphireFrappliance/MetaDataImporting/Scrapers
Files:
2 modified

Legend:

Unmodified
Added
Removed
  • trunk/SapphireFrappliance/MetaDataImporting/Scrapers/common/imdb.xml

    r995 r1333  
    2525                <RegExp input="$$2" output="&lt;details&gt;\1&lt;/details&gt;" dest="5"> 
    2626                        <RegExp conditional="!fullcredits" input="$$1" output="\1" dest="6"> 
    27                                 <expression noclean="1">&gt;Writer.*?:&lt;/h5&gt;(.*?)&lt;/div&gt;</expression> 
     27                                <expression noclean="1">&gt;\s*Writer.*?:\s*&lt;/h4&gt;(.*?)&lt;/div&gt;</expression> 
    2828                        </RegExp> 
    2929                        <RegExp conditional="fullcredits" input="$$1" output="\1" dest="6"> 
     
    3131                        </RegExp> 
    3232                        <RegExp input="$$6" output="&lt;credits&gt;\1&lt;/credits&gt;" dest="2+"> 
    33                                 <expression repeat="yes">&lt;a href=&quot;/name/[^&gt;]*&gt;([^&lt;]*)&lt;</expression> 
     33                                <expression repeat="yes">&lt;a\s*href=&quot;/name/[^&gt;]*&gt;([^&lt;]*)&lt;</expression> 
    3434                        </RegExp> 
    3535                        <expression noclean="1"/> 
     
    3939                <RegExp input="$$2" output="&lt;details&gt;\1&lt;/details&gt;" dest="5"> 
    4040                        <RegExp input="$$1" output="\1" dest="6"> 
    41                                 <expression noclean="1">&lt;table class=&quot;cast&quot;&gt;(.*?)&lt;/table&gt;</expression> 
     41                                <expression noclean="1">&lt;table class=&quot;cast_list&quot;&gt;(.*?)&lt;/table&gt;</expression> 
    4242                        </RegExp> 
    4343                        <RegExp input="$$6" output="&lt;actor&gt;&lt;thumb&gt;\1_SX$INFO[imdbscale]_SY$INFO[imdbscale]_\2&lt;/thumb&gt;&lt;name&gt;\3&lt;/name&gt;&lt;role&gt;\4&lt;/role&gt;&lt;/actor&gt;" dest="7"> 
    44                                 <expression clear="yes" repeat="yes" noclean="1,2" trim="3,4">&lt;img src=&quot;(?:([^&quot;]*\.)[^&quot;]*(\.jpg))?[^&gt;]*[^&quot;]*&quot;nm&quot;&gt;&lt;a href=&quot;[^&quot;]*[^&gt;]*&gt;([^&lt;]*)&lt;[^&quot;]*&quot;ddd&quot;&gt; ... [^&quot;]*&quot;char&quot;&gt;(.*?)&lt;/td&gt;</expression> 
     44                                <expression clear="yes" repeat="yes" noclean="1,2" trim="3,4">&lt;img.*?src=&quot;(?:([^&quot;]*\.)[^&quot;]*(\.jpg))?[^&gt;]*[^&quot;]*&quot;name&quot;&gt;\s*&lt;a\s*href=&quot;[^&quot;]*[^&gt;]*&gt;([^&lt;]*)&lt;[^&quot;]*&quot;ellipsis&quot;&gt;\s*...[^&quot;]*&quot;character&quot;&gt;(.*?)&lt;/td&gt;</expression> 
    4545                        </RegExp> 
    4646                        <RegExp input="$$7" output="&lt;actor&gt;&lt;thumb&gt;\1&lt;/thumb&gt;\2&lt;/actor&gt;" dest="2+"> 
     
    5353                <RegExp input="$$2" output="&lt;details&gt;\1&lt;/details&gt;" dest="5"> 
    5454                        <RegExp conditional="!fullcredits" input="$$1" output="\1" dest="6"> 
    55                                 <expression clear="yes" noclean="1">&gt;Director.*?&lt;/h5&gt;(.*?)&lt;/div&gt;</expression> 
     55                                <expression clear="yes" noclean="1">&gt;\s*Director.*?&lt;/h4&gt;(.*?)&lt;/div&gt;</expression> 
    5656                        </RegExp> 
    5757                        <RegExp conditional="fullcredits" input="$$1" output="\1" dest="6"> 
     
    5959                        </RegExp> 
    6060                        <RegExp input="$$6" output="&lt;director&gt;\1&lt;/director&gt;" dest="2+"> 
    61                                 <expression clear="yes" repeat="yes">&lt;a href=&quot;/name/[^&gt;]*&gt;([^&lt;]*)&lt;</expression> 
     61                                <expression clear="yes" repeat="yes">&lt;a\s*href=&quot;/name/[^&gt;]*&gt;([^&lt;]*)&lt;</expression> 
    6262                        </RegExp> 
    6363                        <expression noclean="1"/> 
  • trunk/SapphireFrappliance/MetaDataImporting/Scrapers/imdb.xml

    r1307 r1333  
    11<?xml version="1.0" encoding="UTF-8"?> 
    2 <scraper framework="1.1" date="2010-07-22" name="IMDb.com" content="movies" thumb="imdb.png" language="en"> 
     2<scraper framework="1.1" date="2010-10-12" name="IMDb.com" content="movies" thumb="imdb.png" language="en"> 
    33        <include>common/imdb.xml</include> 
    44        <include>common/tmdb.xml</include> 
     
    7777                        </RegExp> 
    7878                        <RegExp input="$$1" output="&lt;title&gt;\1&lt;/title&gt;" dest="5+"> 
    79                                 <expression trim="1" noclean="1">&lt;h1&gt;([^&lt;]*)</expression> 
     79                                <expression trim="1" noclean="1">&lt;h1[^&lt;]*&gt;\s*([^&lt;]*)</expression> 
    8080                        </RegExp> 
    8181                        <RegExp input="$$1" output="&lt;year&gt;\1&lt;/year&gt;" dest="5+"> 
     
    8383                        </RegExp> 
    8484                        <RegExp input="$$1" output="&lt;top250&gt;\1&lt;/top250&gt;" dest="5+"> 
    85                                 <expression>Top 250: #([0-9]*)&lt;/a&gt;</expression> 
     85                                <expression>Top 250 #([0-9]*)&lt;/strong&gt;</expression> 
    8686                        </RegExp> 
    8787                        <RegExp input="$$1" output="&lt;mpaa&gt;\1&lt;/mpaa&gt;" dest="5+"> 
    88                                 <expression>MPAA&lt;/a&gt;:&lt;/h5&gt;&lt;div class=&quot;info-content&quot;&gt;(.[^&lt;]*)</expression> 
     88                                <expression>MPAA&lt;/a&gt;\)&lt;/h4&gt;\s*Rated (.[^ ]*)</expression> 
    8989                        </RegExp> 
    9090                        <RegExp input="$$1" output="&lt;certification&gt;\1 \3&lt;/certification&gt;" dest="5+"> 
     
    9292                        </RegExp> 
    9393                        <RegExp input="$$1" output="&lt;tagline&gt;\1&lt;/tagline&gt;" dest="5+"> 
    94                                 <expression>&lt;h5&gt;Tagline:&lt;/h5&gt;\n&lt;div class=&quot;info-content&quot;&gt;\n([^&lt;]*)</expression> 
     94                                <expression>Taglines:&lt;/h4&gt;\s*([^&lt;]*)</expression> 
    9595                        </RegExp> 
    9696                        <RegExp input="$$1" output="&lt;runtime&gt;\1&lt;/runtime&gt;" dest="5+"> 
    97                                 <expression trim="1">&lt;h5&gt;Runtime:&lt;/h5&gt;[^0-9]*([^&lt;]*)</expression> 
     97                                <expression trim="1">Runtime:&lt;/h4&gt;[^0-9]*([^&lt;]*)</expression> 
    9898                        </RegExp> 
    9999                        <RegExp input="$$1" output="&lt;rating&gt;\1&lt;/rating&gt;&lt;votes&gt;\2&lt;/votes&gt;" dest="5+"> 
    100                                 <expression>&lt;b&gt;([0-9.]+)/10&lt;/b&gt;[^&lt;]*&lt;a href=&quot;ratings&quot; class=&quot;tn15more&quot;&gt;([0-9,]+) votes&lt;/a&gt;</expression> 
     100                                <expression>&lt;b&gt;([0-9.]+)&lt;/b&gt;&lt;span[^&gt;]*&gt;/10&lt;/span&gt;&lt;/span&gt;[^&lt;]*&lt;a [^&lt;]*&gt;([0-9,]+) votes&lt;/a&gt;</expression> 
    101101                        </RegExp> 
    102102                        <RegExp input="$$1" output="&lt;genre&gt;\1&lt;/genre&gt;" dest="5+"> 
    103                                 <expression repeat="yes">&quot;/Sections/Genres/[^/]*/&quot;&gt;([^&lt;]*)&lt;/a&gt;</expression> 
     103                                <expression repeat="yes">&quot;/genre/[^/]*&quot;&gt;([^&lt;]*)&lt;/a&gt;</expression> 
    104104                        </RegExp> 
    105105                        <RegExp input="$$1" output="&lt;studio&gt;\1&lt;/studio&gt;" dest="5+"> 
     
    107107                        </RegExp> 
    108108                        <RegExp input="$$1" output="&lt;outline&gt;\1&lt;/outline&gt;&lt;plot&gt;\1&lt;/plot&gt;" dest="5+"> 
    109                                 <expression>Plot:&lt;/h5&gt;\n&lt;div class=&quot;info-content&quot;&gt;\n([^&lt;]*)</expression> 
     109                                <expression>Storyline&lt;/h2&gt;\n\n&lt;p&gt;([^&lt;]*)</expression> 
    110110                        </RegExp> 
    111111                        <RegExp input="$$1" output="&lt;oscars&gt;1&lt;/oscars&gt;" dest="5+"> 
    112                                 <expression>Awards:&lt;/h5&gt;\n&lt;div class=&quot;info-content&quot;&gt;\nWon Oscar</expression> 
     112                                <expression>&lt;b&gt;Won Oscar\.&lt;/b&gt;</expression> 
    113113                        </RegExp> 
    114114                        <RegExp input="$$1" output="&lt;oscars&gt;\1&lt;/oscars&gt;" dest="5+"> 
    115                                 <expression>Awards:&lt;/h5&gt;\n&lt;div class=&quot;info-content&quot;&gt;\nWon ([0-9]*) Oscars</expression> 
     115                                <expression>&lt;b&gt;Won ([0-9]*) Oscars\.&lt;/b&gt;</expression> 
    116116                        </RegExp> 
    117117                        <RegExp input="$$1" output="&lt;releasedate&gt;\1&lt;/releasedate&gt;" dest="5+"> 
    118                                 <expression>&lt;h5&gt;Release Date:&lt;/h5&gt;\n&lt;div class=&quot;info-content&quot;&gt;\n([^&lt;]*?) \(</expression> 
     118                                <expression>Release Date:&lt;/h4&gt;\n([^&lt;]*?)\s*\(</expression> 
    119119                        </RegExp> 
    120120                        <RegExp input="$$2" output="&lt;url function=&quot;GetIMDBPlot&quot;&gt;$$3plotsummary&lt;/url&gt;" dest="5+">