source: trunk/SapphireFrappliance/MetaDataImporting/Scrapers/imdb.xml @ 1334

Revision 1334, 10.0 KB checked in by gbooker, 3 years ago (diff)

Also find single match search result titles which are of the form "Title (Video Year)", like the "Dead like Me" movie.

Line 
1<?xml version="1.0" encoding="UTF-8"?>
2<scraper framework="1.1" date="2010-12-12" name="IMDb.com" content="movies" thumb="imdb.png" language="en">
3        <include>common/imdb.xml</include>
4        <include>common/tmdb.xml</include>
5        <include>common/movieposterdb.xml</include>
6        <include>common/impa.xml</include>
7        <include>common/dtrailer.xml</include>
8        <GetSettings dest="3">
9                <RegExp input="$$5" output="&lt;settings&gt;\1&lt;/settings&gt;" dest="3">
10                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Full Cast Credits&quot; type=&quot;bool&quot; id=&quot;fullcredits&quot; default=&quot;false&quot;&gt;&lt;/setting&gt;" dest="5">
11                                <expression/>
12                        </RegExp>
13                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Fanart from themoviedb.org&quot; type=&quot;bool&quot; id=&quot;fanart&quot; default=&quot;true&quot;&gt;&lt;/setting&gt;" dest="5+">
14                                <expression/>
15                        </RegExp>
16                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Posters from themoviedb.org&quot; type=&quot;bool&quot; id=&quot;tmdbthumbs&quot; default=&quot;true&quot;&gt;&lt;/setting&gt;" dest="5+">
17                                <expression/>
18                        </RegExp>
19                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Posters from IMPAwards&quot; type=&quot;bool&quot; id=&quot;impawards&quot; default=&quot;true&quot;&gt;&lt;/setting&gt;" dest="5+">
20                                <expression/>
21                        </RegExp>
22                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Posters from MoviePosterDB&quot; type=&quot;bool&quot; id=&quot;movieposterdb&quot; default=&quot;false&quot;&gt;&lt;/setting&gt;" dest="5+">
23                                <expression/>
24                        </RegExp>
25                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable IMDb Trailers&quot; type=&quot;bool&quot; id=&quot;trailer&quot; default=&quot;true&quot;&gt;&lt;/setting&gt;" dest="5+">
26                                <expression/>
27                        </RegExp>
28                        <RegExp input="$$1" output="&lt;setting label=&quot;Enable Trailers from Dtrailer.com&quot; type=&quot;bool&quot; id=&quot;dtrailer&quot; default=&quot;false&quot;&gt;&lt;/setting&gt;" dest="5+">
29                                <expression/>
30                        </RegExp>
31                        <RegExp input="$$1" output="&lt;setting label=&quot;IMDb Poster &amp;amp; Actor Thumb(s) Size&quot; type=&quot;labelenum&quot; values=&quot;192|256|384|512|1024&quot; id=&quot;imdbscale&quot; default=&quot;512&quot;&gt;&lt;/setting&gt;" dest="5+">
32                                <expression/>
33                        </RegExp>
34                        <RegExp input="$$1" output="&lt;setting label=&quot;Input Alternative IMDb Source&quot; type=&quot;text&quot; id=&quot;url&quot; default=&quot;akas.imdb.com&quot;&gt;&lt;/setting&gt;" dest="5+">
35                                <expression></expression>
36                        </RegExp>
37                        <expression noclean="1"/>
38                </RegExp>
39        </GetSettings>
40        <NfoUrl dest="3">
41                <RegExp input="$$1" output="&lt;url&gt;http://www.\1/title/tt\2/&lt;/url&gt;&lt;id&gt;tt\2&lt;/id&gt;"  dest="3">
42                        <expression clear="yes" noclean="1">(imdb.com/)Title\?([0-9]*)</expression>
43                </RegExp>
44                <RegExp input="$$1" output="&lt;url&gt;http://www.\1\2/&lt;/url&gt;&lt;id&gt;tt\2&lt;/id&gt;"  dest="3+">
45                        <expression clear="yes" noclean="1">(imdb.com/title/tt)([0-9]*)</expression>
46                </RegExp>
47        </NfoUrl>
48        <CreateSearchUrl dest="3" SearchStringEncoding="iso-8859-1">
49                <RegExp input="$$1" output="&lt;url&gt;http://$INFO[url]/find?s=tt;q=\1$$4&lt;/url&gt;" dest="3">
50                        <RegExp input="$$2" output="%20(\1)" dest="4">
51                                <expression clear="yes">(.+)</expression>
52                        </RegExp>
53                        <expression noclean="1"/>
54                </RegExp>
55        </CreateSearchUrl>
56        <GetSearchResults dest="8">
57                <RegExp input="$$5" output="&lt;?xml version=&quot;1.0&quot; encoding=&quot;iso-8859-1&quot; standalone=&quot;yes&quot;?&gt;&lt;results&gt;\1&lt;/results&gt;" dest="8">
58                        <RegExp input="$$1" output="\1" dest="7">
59                                <expression clear="yes">/title/([t0-9]*)/faq</expression>
60                        </RegExp>
61                        <RegExp input="$$1" output="&lt;entity&gt;&lt;title&gt;\1&lt;/title&gt;&lt;year&gt;\2&lt;/year&gt;&lt;url&gt;http://$INFO[url]/title/$$7/&lt;/url&gt;&lt;id&gt;$$7&lt;/id&gt;&lt;/entity&gt;" dest="5">
62                                <expression clear="yes" noclean="1">&lt;meta name=&quot;title&quot; content=&quot;([^&quot;]*) \((?:Video )?([0-9]*)\)</expression>
63                        </RegExp>
64                        <RegExp input="$$1" output="\1" dest="4">
65                                <expression noclean="1">(&gt;&lt;a href=&quot;/title.*)</expression>
66                        </RegExp>
67                        <RegExp input="$$4" output="&lt;entity&gt;&lt;title&gt;\2&lt;/title&gt;&lt;year&gt;\3&lt;/year&gt;&lt;url&gt;http://$INFO[url]/title/\1/&lt;/url&gt;&lt;id&gt;\1&lt;/id&gt;&lt;kind&gt;\4&lt;/kind&gt;&lt;/entity&gt;" dest="5+">
68                                <expression repeat="yes" noclean="1,2">&gt;&lt;a href=&quot;/title/([t0-9]*)/[^&gt;]*&gt;([^&lt;]*)&lt;/a&gt; *\(([0-9]*)(?:\)[^/]*\(([a-z A-Z]*)\))?</expression>
69                        </RegExp>
70                        <expression clear="yes" noclean="1"/>
71                </RegExp>
72        </GetSearchResults>
73        <GetDetails dest="3">
74                <RegExp input="$$5" output="&lt;details&gt;\1&lt;/details&gt;" dest="3">
75                        <RegExp input="$$2" output="&lt;id&gt;\1&lt;/id&gt;" dest="5">
76                                <expression/>
77                        </RegExp>
78                        <RegExp input="$$1" output="&lt;title&gt;\1&lt;/title&gt;" dest="5+">
79                                <expression trim="1" noclean="1">&lt;h1[^&lt;]*&gt;\s*([^&lt;]*)</expression>
80                        </RegExp>
81                        <RegExp input="$$1" output="&lt;year&gt;\1&lt;/year&gt;" dest="5+">
82                                <expression>a href=&quot;/year/([0-9]*)</expression>
83                        </RegExp>
84                        <RegExp input="$$1" output="&lt;top250&gt;\1&lt;/top250&gt;" dest="5+">
85                                <expression>Top 250 #([0-9]*)&lt;/strong&gt;</expression>
86                        </RegExp>
87                        <RegExp input="$$1" output="&lt;mpaa&gt;\1&lt;/mpaa&gt;" dest="5+">
88                                <expression>MPAA&lt;/a&gt;\)&lt;/h4&gt;\s*Rated (.[^ ]*)</expression>
89                        </RegExp>
90                        <RegExp input="$$1" output="&lt;certification&gt;\1 \3&lt;/certification&gt;" dest="5+">
91                                <expression repeat="yes">&lt;a href=&quot;[^?]*\?certificates=[^&quot;]*&quot;&gt;([^&lt;]*)&lt;/a&gt;[^&lt;]*(&lt;i&gt;([^&lt;]*)&lt;/i&gt;)?</expression>
92                        </RegExp>
93                        <RegExp input="$$1" output="&lt;tagline&gt;\1&lt;/tagline&gt;" dest="5+">
94                                <expression>Taglines:&lt;/h4&gt;\s*([^&lt;]*)</expression>
95                        </RegExp>
96                        <RegExp input="$$1" output="&lt;runtime&gt;\1&lt;/runtime&gt;" dest="5+">
97                                <expression trim="1">Runtime:&lt;/h4&gt;[^0-9]*([^&lt;]*)</expression>
98                        </RegExp>
99                        <RegExp input="$$1" output="&lt;rating&gt;\1&lt;/rating&gt;&lt;votes&gt;\2&lt;/votes&gt;" dest="5+">
100                                <expression>&lt;b&gt;([0-9.]+)&lt;/b&gt;&lt;span[^&gt;]*&gt;/10&lt;/span&gt;&lt;/span&gt;[^&lt;]*&lt;a [^&lt;]*&gt;([0-9,]+) votes&lt;/a&gt;</expression>
101                        </RegExp>
102                        <RegExp input="$$1" output="&lt;genre&gt;\1&lt;/genre&gt;" dest="5+">
103                                <expression repeat="yes">&quot;/genre/[^/]*&quot;&gt;([^&lt;]*)&lt;/a&gt;</expression>
104                        </RegExp>
105                        <RegExp input="$$1" output="&lt;studio&gt;\1&lt;/studio&gt;" dest="5+">
106                                <expression repeat="yes">&quot;/company/[^/]*/&quot;&gt;([^&lt;]*)&lt;/a&gt;</expression>
107                        </RegExp>
108                        <RegExp input="$$1" output="&lt;outline&gt;\1&lt;/outline&gt;&lt;plot&gt;\1&lt;/plot&gt;" dest="5+">
109                                <expression>Storyline&lt;/h2&gt;\n\n&lt;p&gt;([^&lt;]*)</expression>
110                        </RegExp>
111                        <RegExp input="$$1" output="&lt;oscars&gt;1&lt;/oscars&gt;" dest="5+">
112                                <expression>&lt;b&gt;Won Oscar\.&lt;/b&gt;</expression>
113                        </RegExp>
114                        <RegExp input="$$1" output="&lt;oscars&gt;\1&lt;/oscars&gt;" dest="5+">
115                                <expression>&lt;b&gt;Won ([0-9]*) Oscars\.&lt;/b&gt;</expression>
116                        </RegExp>
117                        <RegExp input="$$1" output="&lt;releasedate&gt;\1&lt;/releasedate&gt;" dest="5+">
118                                <expression>Release Date:&lt;/h4&gt;\n([^&lt;]*?)\s*\(</expression>
119                        </RegExp>
120                        <RegExp input="$$2" output="&lt;url function=&quot;GetIMDBPlot&quot;&gt;$$3plotsummary&lt;/url&gt;" dest="5+">
121                                <expression/>
122                        </RegExp>
123                        <RegExp conditional="!fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-credits.html&quot; function=&quot;GetIMDBCast&quot;&gt;$$3&lt;/url&gt;" dest="5+">
124                                <expression/>
125                        </RegExp>
126                        <RegExp conditional="!fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-credits.html&quot; function=&quot;GetIMDBDirectors&quot;&gt;$$3&lt;/url&gt;" dest="5+">
127                                <expression/>
128                        </RegExp>
129                        <RegExp conditional="!fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-credits.html&quot; function=&quot;GetIMDBWriters&quot;&gt;$$3&lt;/url&gt;" dest="5+">
130                                <expression/>
131                        </RegExp>
132                        <RegExp conditional="fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-fullcredits.html&quot; function=&quot;GetIMDBCast&quot;&gt;$$3fullcredits&lt;/url&gt;" dest="5+">
133                                <expression/>
134                        </RegExp>
135                        <RegExp conditional="fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-fullcredits.html&quot; function=&quot;GetIMDBDirectors&quot;&gt;$$3fullcredits&lt;/url&gt;" dest="5+">
136                                <expression/>
137                        </RegExp>
138                        <RegExp conditional="fullcredits" input="$$2" output="&lt;url cache=&quot;$$2-fullcredits.html&quot; function=&quot;GetIMDBWriters&quot;&gt;$$3fullcredits&lt;/url&gt;" dest="5+">
139                                <expression/>
140                        </RegExp>
141                        <RegExp conditional="tmdbthumbs" input="$$2" output="&lt;url function=&quot;GetTMDBThumbsById&quot;&gt;$$3&lt;/url&gt;" dest="5+">
142                                <expression/>
143                        </RegExp>
144                        <RegExp conditional="impawards" input="$$2" output="&lt;url cache=&quot;$$2-posters.html&quot; function=&quot;GetIMPALink&quot;&gt;$$3posters&lt;/url&gt;" dest="5+">
145                                <expression/>
146                        </RegExp>
147                        <RegExp conditional="movieposterdb" input="$$1" output="&lt;url function=&quot;GetMoviePosterDBLink&quot;&gt;http://www.movieposterdb.com/browse/search?type=movies&amp;amp;query=\1&lt;/url&gt;" dest="5+">
148                                <expression>/title/tt([t0-9]*)/faq</expression>
149                        </RegExp>
150                        <RegExp conditional="trailer" input="$$1" output="&lt;url function=&quot;GetIMDBTrailer&quot;&gt;http://$INFO[url]/video/imdb/vi\1/player&lt;/url&gt;" dest="5+">
151                                <expression>/vi([0-9]*)/&quot;</expression>
152                        </RegExp>
153                        <RegExp conditional="dtrailer" input="$$1" output="&lt;url function=&quot;GetDTrailerLink&quot;&gt;http://en.dtrailer.com/movies/search/\1&lt;/url&gt;" dest="5+">
154                                <expression trim="1" noclean="1">&lt;title&gt;([^&lt;|^(]*)</expression>
155                        </RegExp>
156                        <RegExp input="$$2" output="&lt;url cache=&quot;$$2-posters.html&quot; function=&quot;GetIMDBThumbs&quot;&gt;$$3posters&lt;/url&gt;" dest="5+">
157                                <expression/>
158                        </RegExp>
159                        <RegExp conditional="fanart" input="$$2" output="&lt;url function=&quot;GetTMDBFanartById&quot;&gt;$$3&lt;/url&gt;" dest="5+">
160                                <expression/>
161                        </RegExp>
162                        <expression noclean="1"/>
163                </RegExp>
164        </GetDetails>
165</scraper>
Note: See TracBrowser for help on using the repository browser.