P e r l & L W P b y S e a n M B u r k e " F e t c h i n g w e b p a g e s , P a r s i n g H T M L , W r i t i n g S p i d e r s , & M o r e " T a b l e o f C o n t e n t s I n t r o d u c t i o n t o t h e 2 0 0 7 o n l i n e e d i t i o n o f P e r l & L W P F o r e w o r d P r e f a c e C h a p t e r 1 : I n t r o d u c t i o n t o W e b A u t o m a t i o n C h a p t e r 2 : W e b B a s i c s C h a p t e r 3 : T h e L W P C l a s s M o d e l C h a p t e r 4 : U R L s C h a p t e r 5 : F o r m s C h a p t e r 6 : S i m p l e H T M L P r o c e s s i n g w i t h R e g u l a r E x p r e s s i o n s C h a p t e r 7 : H T M L P r o c e s s i n g w i t h T o k e n s C h a p t e r 8 : T o k e n i z i n g W a l k t h r o u g h C h a p t e r 9 : H T M L P r o c e s s i n g w i t h T r e e s C h a p t e r 1 0 : M o d i f y i n g H T M L w i t h T r e e s C h a p t e r 1 1 : C o o k i e s , A u t h e n t i c a t i o n , a n d A d v a n c e d R e q u e s t s C h a p t e r 1 2 : S p i d e r s A p p e n d i x A : L W P M o d u l e s A p p e n d i x B : H T T P S t a t u s C o d e s A p p e n d i x C : C o m m o n M I M E T y p e s A p p e n d i x D : L a n g u a g e T a g s A p p e n d i x E : C o m m o n C o n t e n t E n c o d i n g s A p p e n d i x F : A S C I I T a b l e A p p e n d i x G : U s e r ' s V i e w o f O b j e c t - O r i e n t e d M o d u l e s I n d e x C o l o p h o n C o p y r i g h t P a g e 2 h t t p : / / l w p i n t e r g l a c i a l c o m / I S B N - 1 0 : 0 5 9 6 0 0 1 7 8 9 I S B N - 1 3 : 9 7 8 - 0 5 9 6 0 0 1 7 8 0 J u n e 2 0 0 2 : F i r s t e d i t i o n , O ' R e i l l y M a r c h 2 0 0 7 + : O n l i n e e d i t i o n 1 1 G e t t h e p r i n t e d i t i o n : O ' R e i l l y · I s b n n u · P o w e l l ' s · A m a z o n · A m a z o n - U K 3 I n t r o d u c t i o n t o t h e 2 0 0 7 o n l i n e e d i t i o n I n 2 0 0 2 , I p u b l i s h e d t h e b o o k P e r l & L W P w i t h O ' R e i l l y , a f t e r a b o u t t w o y e a r s o f s p o r a d i c y e t f r e n z i e d w r i t i n g I w a s p l e a s e d t o s e e t h a t t h e b o o k w a s w a s r a t h e r w e l l r e c e i v e d , w h i c h i s f a n c y p u b l i s h i n g t a l k f o r " p e o p l e b o u g h t i t a n d l i k e d i t " B u t n o w , a f t e r f i v e y e a r s , a s t h e b o o k h a s b e g u n s h i m m y i n g i t s w a y i n t o t h e l o n g t a i l ( a n d / o r o n t o a d o z e n c r a p p y R u s s i a n w a r e z s i t e s ) , I ' v e d e c i d e d t o p o s t t h e t e x t o f t h e b o o k o n l i n e , a l o n g w i t h o c c a s i o n a l c o r r e c t i o n s a n d y e a r s - l a t e r m u s i n g s T h e a f t e r - t h e - f a c t m u s i n g s l o o k l i k e t h i s , w i t h t h i s s p e c i a l f a n c y f o r m a t t i n g ! Y a y , C S S ! N o w , t h i s i s n ' t a " s e c o n d e d i t i o n " o f t h e b o o k , b u t i t ' s a b i t m o r e t h a n j u s t a " f i r s t e d i t i o n w i t h c o r r e c t i o n s " L e t ' s j u s t c a l l i t " e d i t i o n 1 1 " A l t h o u g h m o s t o f t h e e x a m p l e s i t e s m e n t i o n e d i n t h e b o o k ( f o r e x a m p l e , F r e s h A i r ' s ) h a v e b e e n t o t a l l y r e d e s i g n e d i n t h e s e p a s t f i v e y e a r s , t h a t s h o u l d n ' t a t a l l a f f e c t y o u r r e a d i n g o f t h e s e c t i o n s t h a t d i s c u s s t h e m - - u n l e s s y o u a r e t h e o d d r e a d e r t h a t w a n t s t o r u n e x a c t l y t h a t s a m p l e c o d e o n e x a c t l y t h a t s i t e , i n w h i c h c a s e y o u a r e , i n d e e d , a n o d d r e a d e r I n g e n e r a l , t h e m a t e r i a l o f t h e b o o k i s b a s i c a l l y a s r e l e v a n t t o d a y ( 2 0 0 7 a s I w r i t e t h i s ) a s i t w a s f i v e y e a r s a g o , a n d I m y s e l f s t i l l u s e t h e L W P c l a s s e s o n a d a i l y b a s i s , a s I s c r a p e a n d m a n i p u l a t e d a t a i n v a r i o u s w a y s A n d I ' l l a l s o n o t e t h a t t h e n e w e r t e c h n o l o g i e s o f A J A X ( i e , f i n a l l y - i t - w o r k s J a v a S c r i p t ) a r e i n m a n y w a y s s o s i m i l a r t o L W P t h a t k n o w i n g o n e m a k e s i t a l m o s t t r i v i a l t o l e a r n t h e o t h e r ( a n d u s u a l l y , i n t h e p r o c e s s , L W P c o m e s o u t l o o k i n g s a n e r , b y t h e w a y ) E n j o y y o u r r e a d ! I f y o u w a n t t o t h a n k m e i n s o m e m a t e r i a l f o r m , c o n s i d e r m y A m a z o n w i s h l i s t , a n d n o t e I ' m j u s t a s d e l i g h t e d w i t h u s e d b o o k s a s n e w I f y o u w a n t t o r e a d m o r e o f t h i n g s I ' v e w r i t t e n , t h e n h e r e ' s m y b o o k o n R T F ( i n c l u d i n g i n s t r u c t i o n s o n m a k i n g a n o r i g a m i C D c a s e , a n d f e a t u r i n g d i r t y l i m e r i c k s i n L a t i n ) ; a n d h e r e ' s a b o o k c o n t a i n i n g a f u n b u n c h o f a r t i c l e s t h a t I w r o t e f o r T h e P e r l J o u r n a l Y o u c a n a l s o r e a d t h e s e t h i n g s o n O ' R e i l l y ' s o n l i n e b o o k s i t e , S a f a r i — S e a n M B u r k e K e t c h i k a n , A l a s k a , 2 0 0 7 4 F o r e w o r d b y G i s l e A a s , P r i m a r y a u t h o r a n d m a i n t a i n e r o f L W P I s t a r t e d p l a y i n g a r o u n d w i t h t h e W e b a l o n g t i m e a g o — a t l e a s t , i t f e e l s t h a t w a y T h e f i r s t v e r s i o n s o f M o s a i c h a d j u s t s h o w e d u p , G o p h e r a n d W a i s w e r e s t i l l h o t t e c h n o l o g y , a n d I d i s c o v e r e d a n H T T P s e r v e r p r o g r a m c a l l e d P l e x u s W h a t w a s d i f f e r e n t w a s i t w a s i m p l e m e n t e d i n P e r l T h a t m a d e i t e a s y t o e x t e n d C G I w a s n o t i n v e n t e d y e t , s o a l l w e h a d w e r e s e r v l e t s ( a l t h o u g h w e d i d n ' t c a l l t h e m t h a t t h e n ) O v e r t i m e , I m o v e d f r o m h a c k i n g o n t h e s e r v e r s i d e t o t h e c l i e n t s i d e b u t s t a y e d w i t h P e r l a s t h e p r o g r a m m i n g l a n g u a g e o f c h o i c e A s a r e s u l t , I g o t i n v o l v e d i n L W P , t h e P e r l w e b c l i e n t l i b r a r y A l o t h a s h a p p e n e d t o t h e w e b s i n c e t h e n T h e s e d a y s t h e r e i s a l m o s t n o e n d t o t h e i n f o r m a t i o n a t o u r f i n g e r t i p s : n e w s , s t o c k q u o t e s , w e a t h e r , g o v e r n m e n t i n f o , s h o p p i n g , d i s c u s s i o n g r o u p s , p r o d u c t i n f o , r e v i e w s , g a m e s , a n d o t h e r e n t e r t a i n m e n t A n d t h e g o o d n e w s i s t h a t L W P c a n h e l p a u t o m a t e t h e m a l l T h i s b o o k t e l l s y o u h o w y o u c a n w r i t e y o u r o w n u s e f u l w e b c l i e n t a p p l i c a t i o n s w i t h L W P a n d i t s r e l a t e d H T M L m o d u l e s S e a n ' s d o n e a g r e a t j o b o f s h o w i n g h o w t h i s p o w e r f u l l i b r a r y c a n b e u s e d t o m a k e t o o l s t h a t a u t o m a t e v a r i o u s t a s k s o n t h e W e b I f y o u a r e l i k e m e , y o u p r o b a b l y h a v e m a n y e x a m p l e s o f w e b f o r m s t h a t y o u f i n d y o u r s e l f f i l l i n g o u t o v e r a n d o v e r a g a i n W h y n o t w r i t e a s i m p l e L W P - b a s e d t o o l t h a t d o e s i t a l l f o r y o u ? O r a t o o l t h a t d o e s r e s e a r c h f o r y o u b y c o l l e c t i n g d a t a f r o m m a n y w e b p a g e s w i t h o u t y o u h a v i n g t o s p e n d a s i n g l e m o u s e c l i c k ? A f t e r r e a d i n g t h i s b o o k , y o u s h o u l d b e w e l l p r e p a r e d f o r t a s k s s u c h a s t h e s e T h i s b o o k ' s f o c u s i s t o t e a c h y o u h o w t o w r i t e s c r i p t s a g a i n s t s e r v i c e s t h a t a r e s e t u p t o s e r v e t r a d i t i o n a l w e b b r o w s e r s T h i s m e a n s s e r v i c e s e x p o s e d t h r o u g h H T M L E v e n i n a w o r l d w h e r e p e o p l e e v e n t u a l l y h a v e d i s c o v e r e d t h a t t h e W e b c a n p r o v i d e r e a l p r o g r a m - t o - p r o g r a m i n t e r f a c e s ( t h e c u r r e n t " w e b s e r v i c e s " c r a z e ) , i t i s l i k e l y t h a t H T M L s c r a p i n g w i l l c o n t i n u e t o b e a v a l u a b l e w a y t o e x t r a c t i n f o r m a t i o n f r o m t h e W e b I s t r o n g l y b e l i e v e t h a t P e r l a n d L W P i s o n e o f t h e b e s t t o o l s t o g e t t h a t j o b d o n e R e a d i n g P e r l a n d L W P i s a g o o d w a y g e t y o u s t a r t e d I t h a s b e e n f u n w r i t i n g a n d m a i n t a i n i n g t h e L W P c o d e b a s e , a n d S e a n ' s w r i t t e n a f i n e b o o k a b o u t u s i n g i t E n j o y ! — G i s l e A a s P r i m a r y a u t h o r a n d m a i n t a i n e r o f L W P 5 P r e f a c e C O N T E N T S : P r e f a c e A u d i e n c e f o r T h i s B o o k S t r u c t u r e o f T h i s B o o k O r d e r o f C h a p t e r s I m p o r t a n t S t a n d a r d s D o c u m e n t s C o n v e n t i o n s U s e d i n T h i s B o o k C o m m e n t s & Q u e s t i o n s A c k n o w l e d g m e n t s P e r l s o a r e d t o p o p u l a r i t y a s a l a n g u a g e f o r c r e a t i n g a n d m a n a g i n g w e b c o n t e n t P e r l i s e q u a l l y a d e p t a t c o n s u m i n g i n f o r m a t i o n o n t h e W e b M o s t w e b s i t e s a r e c r e a t e d f o r p e o p l e , b u t q u i t e o f t e n y o u w a n t t o a u t o m a t e t a s k s t h a t i n v o l v e a c c e s s i n g a w e b s i t e i n a r e p e t i t i v e w a y S u c h t a s k s c o u l d b e a s s i m p l e a s s a y i n g " h e r e ' s a l i s t o f U R L s ; I w a n t t o b e e m a i l e d i f a n y o f t h e m s t o p w o r k i n g , " o r t h e y c o u l d i n v o l v e m o r e c o m p l e x p r o c e s s i n g o f a n y n u m b e r o f p a g e s T h i s b o o k i s a b o u t u s i n g L W P ( t h e L i b r a r y f o r W o r l d W i d e W e b i n P e r l ) a n d P e r l t o f e t c h a n d p r o c e s s w e b p a g e s F o r e x a m p l e , i f y o u w a n t t o c o m p a r e t h e p r i c e s o f a l l O ' R e i l l y b o o k s o n A m a z o n c o m a n d b n c o m , y o u c o u l d l o o k a t e a c h p a g e y o u r s e l f a n d k e e p t r a c k o f t h e p r i c e s O r y o u c o u l d w r i t e a n L W P p r o g r a m t o f e t c h t h e p r o d u c t p a g e s , e x t r a c t t h e p r i c e s , a n d g e n e r a t e a r e p o r t O ' R e i l l y h a s a l o t o f b o o k s i n p r i n t , a n d a f t e r r e a d i n g t h i s o n e , y o u ' l l b e a b l e t o w r i t e a n d r u n t h e p r o g r a m m u c h m o r e q u i c k l y t h a n y o u c o u l d v i s i t e v e r y c a t a l o g p a g e C o n s i d e r a l s o a s i t u a t i o n i n w h i c h a p a r t i c u l a r p a g e h a s l i n k s t o s e v e r a l d o z e n f i l e s ( i m a g e s , m u s i c , a n d s o o n ) t h a t y o u w a n t t o d o w n l o a d Y o u c o u l d d o w n l o a d e a c h i n d i v i d u a l l y , b y m o n o t o n o u s l y s e l e c t i n g e a c h l i n k i n y o u r b r o w s e r a n d c h o o s i n g S a v e a s , o r y o u c o u l d d a s h o f f a s h o r t L W P p r o g r a m t h a t s c a n s f o r U R L s i n t h a t p a g e a n d d o w n l o a d s e a c h , u n a t t e n d e d B e s i d e s e x t r a c t i n g d a t a f r o m w e b p a g e s , y o u c a n a l s o a u t o m a t e s u b m i t t i n g d a t a t h r o u g h w e b f o r m s W h e t h e r t h i s i s a m a t t e r o f u p l o a d i n g 5 0 i m a g e f i l e s t h r o u g h y o u r c o m p a n y ' s i n t r a n e t i n t e r f a c e , o r s e a r c h i n g t h e l o c a l l i b r a r y ' s o n l i n e c a r d c a t a l o g e v e r y w e e k f o r a n y n e w b o o k s w i t h " N a v a j o " i n t h e t i t l e , i t ' s w o r t h t h e t i m e a n d p i e c e o f m i n d t o a u t o m a t e r e p e t i t i v e p r o c e s s e s b y w r i t i n g L W P p r o g r a m s t o s u b m i t d a t a i n t o f o r m s a n d s c a n t h e r e s u l t i n g d a t a 6 0 1 A u d i e n c e f o r T h i s B o o k T h i s b o o k i s a i m e d a t s o m e o n e w h o a l r e a d y k n o w s P e r l a n d H T M L , b u t I d o n ' t a s s u m e y o u ' r e a n e x p e r t a t e i t h e r I g i v e q u i c k r e f r e s h e r s o n s o m e o f t h e q u i r k i e r a s p e c t s o f H T M L ( e g , f o r m s ) , b u t i n g e n e r a l , I a s s u m e y o u k n o w w h a t e a c h o f t h e H T M L t a g s m e a n s I f y o u k n o w b a s i c r e g u l a r e x p r e s s i o n s a n d a r e f a m i l i a r w i t h r e f e r e n c e s a n d m a y b e e v e n o b j e c t s , y o u h a v e a l l t h e P e r l s k i l l s y o u n e e d t o u s e t h i s b o o k I f y o u ' r e n e w t o P e r l , c o n s i d e r r e a d i n g L e a r n i n g P e r l ( O ' R e i l l y ) a n d m a y b e a l s o T h e P e r l C o o k b o o k ( O ' R e i l l y ) I f y o u r H T M L i s s h a k y , t r y t h e H T M L P o c k e t R e f e r e n c e o r H T M L : T h e D e f i n i t i v e G u i d e ( O ' R e i l l y ) I f y o u d o n ' t f e e l c o m f o r t a b l e u s i n g o b j e c t s i n P e r l , r e a d i n g A p p e n d i x G , " U s e r ' s V i e w o f O b j e c t - O r i e n t e d M o d u l e s " i n t h i s b o o k s h o u l d b e e n o u g h t o b r i n g y o u u p t o s p e e d 7 0 2 S t r u c t u r e o f T h i s B o o k T h e b o o k i s d i v i d e d i n t o 1 2 c h a p t e r s a n d 7 a p p e n d i x e s , a s f o l l o w s : C h a p t e r 1 , " I n t r o d u c t i o n t o W e b A u t o m a t i o n " c o v e r s i n g e n e r a l t e r m s w h a t L W P d o e s , t h e a l t e r n a t i v e s t o u s i n g L W P , a n d w h e n y o u s h o u l d n ' t u s e L W P C h a p t e r 2 , " W e b B a s i c s " e x p l a i n s h o w t h e W e b w o r k s a n d s o m e e a s y - t o - u s e y e t l i m i t e d f u n c t i o n s f o r a c c e s s i n g i t C h a p t e r 3 , " T h e L W P C l a s s M o d e l " c o v e r s t h e m o r e p o w e r f u l i n t e r f a c e t o t h e W e b C h a p t e r 4 , " U R L s " s h o w s h o w t o p a r s e U R L s w i t h t h e U R I c l a s s , a n d h o w t o c o n v e r t b e t w e e n r e l a t i v e a n d a b s o l u t e U R L s C h a p t e r 5 , " F o r m s " d e s c r i b e s h o w t o s u b m i t G E T a n d P O S T f o r m s C h a p t e r 6 , " S i m p l e H T M L P r o c e s s i n g w i t h R e g u l a r E x p r e s s i o n s " s h o w s h o w t o e x t r a c t i n f o r m a t i o n f r o m H T M L u s i n g r e g u l a r e x p r e s s i o n s C h a p t e r 7 , " H T M L P r o c e s s i n g w i t h T o k e n s " p r o v i d e s a n a l t e r n a t i v e a p p r o a c h t o e x t r a c t i n g d a t a f r o m H T M L u s i n g t h e H T M L : : T o k e P a r s e r m o d u l e C h a p t e r 8 , " T o k e n i z i n g W a l k t h r o u g h " i s a c a s e s t u d y o f d a t a e x t r a c t i o n u s i n g t o k e n s C h a p t e r 9 , " H T M L P r o c e s s i n g w i t h T r e e s " s h o w s h o w t o e x t r a c t d a t a f r o m H T M L u s i n g t h e H T M L : : T r e e B u i l d e r m o d u l e C h a p t e r 1 0 , " M o d i f y i n g H T M L w i t h T r e e s " c o v e r s t h e u s e o f H T M L : : T r e e B u i l d e r t o m o d i f y H T M L f i l e s C h a p t e r 1 1 , " C o o k i e s , A u t h e n t i c a t i o n , a n d A d v a n c e d R e q u e s t s " d e a l s w i t h t h e t o u g h e r p a r t s o f r e q u e s t s C h a p t e r 1 2 , " S p i d e r s " e x p l o r e s t h e t e c h n o l o g i c a l i s s u e s i n v o l v e d i n a u t o m a t i n g t h e d o w n l o a d o f m o r e t h a n o n e p a g e f r o m a s i t e A p p e n d i x A , " L W P M o d u l e s " i s a c o m p l e t e l i s t o f t h e L W P m o d u l e s A p p e n d i x B , " H T T P S t a t u s C o d e s " i s a l i s t o f H T T P c o d e s , w h a t t h e y m e a n , a n d w h e t h e r L W P c o n s i d e r s t h e m e r r o r o r s u c c e s s A p p e n d i x C , " C o m m o n M I M E T y p e s " c o n t a i n s t h e m o s t c o m m o n M I M E t y p e s a n d w h a t t h e y m e a n A p p e n d i x D , " L a n g u a g e T a g s " l i s t s t h e m o s t c o m m o n l a n g u a g e t a g s a n d t h e i r m e a n i n g s ( e g , " z h - c n " m e a n s M a i n l a n d C h i n e s e , w h i l e " s v " i s S w e d i s h ) A p p e n d i x E , " C o m m o n C o n t e n t E n c o d i n g s " i s a l i s t o f t h e m o s t c o m m o n c h a r a c t e r e n c o d i n g s ( c h a r a c t e r s e t s ) a n d t h e t a g s t h a t i d e n t i f y t h e m 8 A p p e n d i x F , " A S C I I T a b l e " i s a t a b l e t o h e l p y o u m a k e s e n s e o f t h e m o s t c o m m o n U n i c o d e c h a r a c t e r s I t s h o w s e a c h c h a r a c t e r , i t s n u m e r i c c o d e ( i n d e c i m a l , o c t a l , a n d h e x ) , a n d a n y H T M L e s c a p e s t h e r e m a y b e f o r i t A p p e n d i x G , " U s e r ' s V i e w o f O b j e c t - O r i e n t e d M o d u l e s " i s a n i n t r o d u c t i o n t o t h e u s e o f P e r l ' s o b j e c t - o r i e n t e d p r o g r a m m i n g f e a t u r e s 9 0 3 O r d e r o f C h a p t e r s T h e c h a p t e r s i n t h i s b o o k a r e a r r a n g e d s o t h a t i f y o u r e a d t h e m i n o r d e r , y o u w i l l f a c e a m i n i m u m o f c a s e s w h e r e I h a v e t o s a y " y o u w o n ' t u n d e r s t a n d t h i s p a r t o f t h e c o d e , b e c a u s e w e w o n ' t c o v e r t h a t t o p i c u n t i l t w o c h a p t e r s l a t e r " H o w e v e r , o n l y s o m e o f w h a t e a c h c h a p t e r i n t r o d u c e s i s u s e d i n l a t e r c h a p t e r s F o r e x a m p l e , C h a p t e r 3 , " T h e L W P C l a s s M o d e l " l i s t s a l l s o r t s o f L W P m e t h o d s t h a t y o u a r e l i k e l y t o u s e e v e n t u a l l y , b u t t h e t y p i c a l t a s k w i l l u s e o n l y a f e w o f t h o s e , a n d o n l y a f e w w i l l s h o w u p i n l a t e r c h a p t e r s I n c a s e s w h e r e y o u c a n ' t i n f e r t h e m e a n i n g o f a m e t h o d f r o m i t s n a m e , y o u c a n a l w a y s r e f e r b a c k t o t h e e a r l i e r c h a p t e r s o r u s e p e r l d o c t o s e e t h e a p p l i c a b l e m o d u l e ' s o n l i n e r e f e r e n c e d o c u m e n t a t i o n 1 0 0 4 I m p o r t a n t S t a n d a r d s D o c u m e n t s T h e b a s i c p r o t o c o l s a n d d a t a f o r m a t s o f t h e W e b a r e s p e c i f i e d i n a n u m b e r o f I n t e r n e t R F C s T h e m o s t i m p o r t a n t a r e : R F C 2 6 1 6 : H T T P 1 1 h t t p : / / t o o l s i e t f o r g / h t m l / 2 6 1 6 R F C 2 9 6 5 : H T T P C o o k i e s S p e c i f i c a t i o n h t t p : / / t o o l s i e t f o r g / h t m l / 2 9 6 5 R F C 2 6 1 7 : H T T P A u t h e n t i c a t i o n : B a s i c a n d D i g e s t A c c e s s A u t h e n t i c a t i o n h t t p : / / t o o l s i e t f o r g / h t m l / 2 6 1 7 R F C 2 3 9 6 : U n i f o r m R e s o u r c e I d e n t i f i e r s : G e n e r i c S y n t a x h t t p : / / t o o l s i e t f o r g / h t m l / 2 3 9 6 H T M L 4 0 1 s p e c i f i c a t i o n h t t p : / / w w w w 3 o r g / T R / h t m l 4 0 1 / H T M L 4 0 1 F o r m s s p e c i f i c a t i o n h t t p : / / w w w w 3 o r g / T R / h t m l 4 0 1 / i n t e r a c t / f o r m s C h a r a c t e r s e t s h t t p : / / w w w i a n a o r g / a s s i g n m e n t s / c h a r a c t e r - s e t s C o u n t r y c o d e s h t t p : / / w w w i a n a o r g / r o o t - w h o i s / N o n - c o u n t r y t o p - l e v e l d o m a i n s ( c o m , i n t , e t c ) h t t p : / / w w w i a n a o r g / g t l d / g t l d h t m U n i c o d e s p e c i f i c a t i o n s h t t p : / / w w w u n i c o d e o r g R F C 2 2 7 9 : E n c o d i n g U n i c o d e a s U T F - 8 h t t p : / / t o o l s i e t f o r g / h t m l / 2 2 7 9 R e q u e s t F o r C o m m e n t s d o c u m e n t s h t t p : / / w w w r f c - e d i t o r o r g I A N A p r o t o c o l a s s i g n m e n t s h t t p : / / w w w i a n a o r g / a s s i g n m e n t s / p o r t - n u m b e r s h t t p : / / w w w i a n a o r g / n u m b e r s h t m l 1 1 0 5 C o n v e n t i o n s U s e d i n T h i s B o o k T h e f o l l o w i n g t y p o g r a p h i c c o n v e n t i o n s a r e u s e d i n t h i s b o o k : I t a l i c U s e d f o r f i l e a n d d i r e c t o r y n a m e s , e m a i l a d d r e s s e s , a n d U R L s , a s w e l l a s f o r n e w t e r m s w h e r e t h e y a r e d e f i n e d C o n s t a n t w i d t h U s e d f o r c o d e l i s t i n g s a n d f o r k e y w o r d s , v a r i a b l e s , f u n c t i o n n a m e s , c o m m a n d o p t i o n s , p a r a m e t e r s , a n d b i t s o f H T M L s o u r c e w h e r e t h e y a p p e a r i n t h e t e x t C o n s t a n t w i d t h b o l d U s e d t o h i g h l i g h t k e y f r a g m e n t s o f l a r g e r c o d e e x a m p l e s , o r t o s h o w t h e o u t p u t o f a p i e c e o f c o d e C o n s t a n t w i d t h i t a l i c U s e d a s a g e n e r a l p l a c e h o l d e r t o i n d i c a t e t e r m s t h a t s h o u l d b e r e p l a c e d b y a c t u a l v a l u e s i n y o u r o w n p r o g r a m s 1 2 0 6 C o m m e n t s & Q u e s t i o n s P l e a s e a d d r e s s c o m m e n t s a n d q u e s t i o n s c o n c e r n i n g t h i s b o o k t o t h e p u b l i s h e r : O ' R e i l l y & A s s o c i a t e s , I n c 1 0 0 5 G r a v e n s t e i n H i g h w a y N o r t h S e b a s t o p o l , C A 9 5 4 7 2 ( 8 0 0 ) 9 9 8 - 9 9 3 8 ( i n t h e U n i t e d S t a t e s o r C a n a d a ) ( 7 0 7 ) 8 2 9 - 0 5 1 5 ( i n t e r n a t i o n a l / l o c a l ) ( 7 0 7 ) 8 2 9 - 0 1 0 4 ( f a x ) T h e r e i s a w e b p a g e f o r t h i s b o o k , w h i c h l i s t s e r r a t a , e x a m p l e s , o r a n y a d d i t i o n a l i n f o r m a t i o n Y o u c a n a c c e s s t h i s p a g e a t : h t t p : / / w w w o r e i l l y c o m / c a t a l o g / p e r l l w p / T o c o m m e n t o r a s k t e c h n i c a l q u e s t i o n s a b o u t t h i s b o o k , s e n d e m a i l t o : b o o k q u e s t i o n s @ o r e i l l y c o m F o r m o r e i n f o r m a t i o n a b o u t b o o k s , c o n f e r e n c e s , R e s o u r c e C e n t e r s , a n d t h e O ' R e i l l y N e t w o r k , s e e t h e O ' R e i l l y w e b s i t e a t : h t t p : / / w w w o r e i l l y c o m 1 3 0 7 A c k n o w l e d g m e n t s I t t a k e s a m e r e v i l l a g e t o r a i s e a p u n y h u m a n c h i l d , b u t i t t o o k a w h o l e g l o b e - g i r d l i n g P e r l c a b a l t o g e t t h i s b o o k d o n e ! T h e s e a r e t h e r e a d e r s w h o , a s a p e r s o n a l f a v o r t o m e , t o o k t h e t i m e t o r e a d a n d g r e a t l y i m p r o v e m y f i r s t s k e t c h y m a n u s c r i p t , e a c h i n t h e i r o w n p a r t i c u l a r , h e l p f u l , a n d c a r e f u l w a y s : G i s l e A a s , D a v i d H A d l e r , T i m A l l w i n e , E l a i n e A s h t o n , G e n e B o g g s , G a v i n E s t e y , S c o t t F r a n c i s , J o e J o h n s t o n , K e v i n H e a l y , C o n r a d H e i n e y , D a v i d H u g g i n s - D a i n e s , S a m y K a m k a r , J o e K l i n e , Y o s s e f M e n d e l s s o h n , A b h i j i t M e n o n - S e n , B r a d M u r r a y , D a v i d O n d r i k , C l i n t o n P i e r c e , R o b e r t S p i e r , A n d r e w S t a n l e y , D e n n i s T a y l o r , M a r t i n T h u r n , a n d G l e n n W o o d I ' m a l s o e s p e c i a l l y t h a n k f u l t o E l a i n e A s h t o n f o r d o i n g a l a s t - m i n u t e r e v i e w n o t j u s t o f t h i s m a n u s c r i p t ' s p r o s e , b u t o f a l l t h e c o d e b l o c k s I f n o t f o r h e r e a g l e e y e , y o u ' d b e s c r a t c h i n g y o u r h e a d o v e r v a r i a b l e s a n d s u b r o u t i n e s m a g i c a l l y r e n a m i n g t h e m s e l v e s a l l o v e r t h e p l a c e ! I a m g r a t e f u l t o C o n r a d H e i n e y f o r s u g g e s t i n g t h e C a l i f o r n i a D e p a r t m e n t o f M o t o r V e h i c l e s a s a n e x a m p l e f o r C h a p t e r 5 , " F o r m s " T h a n k s a l s o t o M a r k - J a s o n D o m i n u s f o r s u g g e s t i n g t h e A B E B o o k s w e b s i t e a s a n e x a m p l e i n t h a t s a m e c h a p t e r M a n y t h a n k s t o G i s l e A a s , M i c h a e l A C h a s e , a n d M a r t i j n K o s t e r f o r m a k i n g L W P s u c h a r e l i a b l e a n d i n d i s p e n s a b l e a d d i t i o n t o e v e r y p r o g r a m m e r ' s t o o l k i t A n d l a s t b u t n o t l e a s t , t h a n k s t o t h e p e o p l e a t O ' R e i l l y w h o i n t r e p i d l y p u s h e d f o r t h i s b o o k t o g e t d o n e w h e n I r e a l l y j u s t w a n t e d t o s t a y i n b e d a n d p l a y T e t r i s T h e c h i e f a u t h o r - w r a n g l e r i s m y e d i t o r , N a t T o r k i n g t o n , b u t I ' m m u c h o b l i g e d a l s o t o t h e m a n y o t h e r u n d e r - a p p r e c i a t e d O ' R e i l l y p e o p l e w h o c o n s p i r e d t o g e t t h i s b o o k f r o m m y h a n d s t o y o u r s : J o n O r w a n t ( o f P e r l J o u r n a l f a m e e v e n b e f o r e h e g o t t o O ' R e i l l y ) , N e i l W a l l s ( w h o s l a v e d o v e r A p p e n d i x F , " A S C I I T a b l e " s o y o u c a n s e e w h a t a & p e r p ; l o o k s l i k e ! ) , s a g e e d i t o r L i n d a M u i , B e t s y W a l i s z e w s k i i n m a r k e t i n g , a n d i n t h e p r o d u c t i o n d e p a r t m e n t , L i n l e y D o l b y , t h e b o o k ' s p r o d u c t i o n e d i t o r a n d c o p y e d i t o r a n d R o b R o m a n o , t h e b o o k ' s i l l u s t r a t o r 1 4 C h a p t e r 1 I n t r o d u c t i o n t o W e b A u t o m a t i o n C O N T E N T S : T h e W e b a s D a t a S o u r c e H i s t o r y o f L W P I n s t a l l i n g L W P W o r d s o f C a u t i o n L W P i n A c t i o n L W P ( s h o r t f o r " L i b r a r y f o r W o r l d W i d e W e b i n P e r l " ) i s a s e t o f P e r l m o d u l e s a n d o b j e c t - o r i e n t e d c l a s s e s f o r g e t t i n g d a t a f r o m t h e W e b a n d f o r e x t r a c t i n g i n f o r m a t i o n f r o m H T M L T h i s c h a p t e r p r o v i d e s e s s e n t i a l b a c k g r o u n d o n t h e L W P s u i t e I t d e s c r i b e s t h e n a t u r e a n d h i s t o r y o f L W P , w h i c h p l a t f o r m s i t r u n s o n , a n d h o w t o d o w n l o a d a n d i n s t a l l i t T h i s c h a p t e r e n d s w i t h a q u i c k w a l k t h r o u g h o f s e v e r a l L W P p r o g r a m s t h a t i l l u s t r a t e c o m m o n t a s k s , s u c h a s f e t c h i n g w e b p a g e s , e x t r a c t i n g i n f o r m a t i o n u s i n g r e g u l a r e x p r e s s i o n s , a n d s u b m i t t i n g f o r m s 1 5 1 1 T h e W e b a s D a t a S o u r c e M o s t w e b s i t e s a r e d e s i g n e d f o r p e o p l e U s e r I n t e r f a c e g u r u s c o n s u l t f o r l a r g e s u m s o f m o n e y t o b u i l d H T M L c o d e t h a t i s e a s y t o u s e a n d d i s p l a y s c o r r e c t l y o n a l l b r o w s e r s U s e r E x p e r i e n c e g u r u s w a g t h e i r f i n g e r s a n d t e l l w e b d e s i g n e r s t o s t u d y t h e i r u s e r s , s o t h e y k n o w t h e h u m a n f o i b l e s a n d d e s i r e s o f t h e a p e d e s c e n d e n t s w h o w i l l b e v i e w i n g t h e w e b s i t e F u n d a m e n t a l l y , t h o u g h , a w e b s i t e i s h o m e t o d a t a a n d s e r v i c e s A s t o c k b r o k e r h a s s t o c k p r i c e s a n d t h e v a l u e o f y o u r p o r t f o l i o ( d a t a ) a n d f o r m s t h a t l e t y o u b u y a n d s e l l s t o c k ( s e r v i c e s ) A m a z o n h a s b o o k I S B N s , t i t l e s , a u t h o r s , r e v i e w s , p r i c e s , a n d r a n k i n g s ( d a t a ) a n d f o r m s t h a t l e t y o u o r d e r t h o s e b o o k s ( s e r v i c e s ) I t ' s a s s u m e d t h a t t h e d a t a a n d s e r v i c e s w i l l b e a c c e s s e d b y p e o p l e v i e w i n g t h e r e n d e r e d H T M L B u t m a n y a p r o g r a m m e r h a s e y e d t h o s e d a t a s o u r c e s a n d s e r v i c e s o n t h e W e b a n d t h o u g h t " I ' d l i k e t o u s e t h o s e i n a p r o g r a m ! " F o r e x a m p l e , t h e y c o u l d p a g e y o u w h e n y o u r p o r t f o l i o f a l l s p a s t a c e r t a i n p o i n t o r c o u l d c a l c u l a t e t h e " b e s t " b o o k o n P e r l b a s e d o n t h e r a t i o o f i t s p r i c e t o i t s a v e r a g e r e a d e r r e v i e w L W P l e t s y o u d o t h i s k i n d o f w e b a u t o m a t i o n W i t h i t , y o u c a n f e t c h w e b p a g e s , s u b m i t f o r m s , a u t h e n t i c a t e , a n d e x t r a c t i n f o r m a t i o n f r o m H T M L O n c e y o u ' v e u s e d i t t o g r a b n e w s h e a d l i n e s o r c h e c k l i n k s , y o u ' l l n e v e r v i e w t h e W e b i n t h e s a m e w a y a g a i n A s w i t h e v e r y t h i n g i n P e r l , t h e r e ' s m o r e t h a n o n e w a y t o a u t o m a t e a c c e s s i n g t h e W e b I n t h i s b o o k , w e ' l l s h o w y o u e v e r y t h i n g f r o m t h e b a s i c w a y t o a c c e s s t h e W e b ( v i a t h e L W P : : S i m p l e m o d u l e ) , t h r o u g h f o r m s , a l l t h e w a y t o t h e g o r y d e t a i l s o f c o o k i e s , a u t h e n t i c a t i o n , a n d o t h e r t y p e s o f c o m p l e x r e q u e s t s 1 1 1 S c r e e n S c r a p i n g O n c e y o u ' v e t a c k l e d t h e f u n d a m e n t a l s o f h o w t o a s k a w e b s e r v e r f o r a p a r t i c u l a r p a g e , y o u s t i l l h a v e t o f i n d t h e i n f o r m a t i o n y o u w a n t , b u r i e d i n t h e H T M L r e s p o n s e M o s t o f t e n y o u w o n ' t n e e d m o r e t h a n r e g u l a r e x p r e s s i o n s t o a c h i e v e t h i s C h a p t e r 6 , " S i m p l e H T M L P r o c e s s i n g w i t h R e g u l a r E x p r e s s i o n s " d e s c r i b e s t h e a r t o f e x t r a c t i n g i n f o r m a t i o n f r o m H T M L u s i n g r e g u l a r e x p r e s s i o n s , a l t h o u g h y o u ' l l s e e t h e b e g i n n i n g s o f i t a s e a r l y a s C h a p t e r 2 , " W e b B a s i c s " , w h e r e w e q u e r y A l t a V i s t a f o r a w o r d , a n d u s e a r e g e x p t o m a t c h t h e n u m b e r i n t h e r e s p o n s e t h a t s a y s " W e f o u n d [ n u m b e r ] r e s u l t s " T h e m o r e d i s c e r n i n g L W P c o n n o i s s e u r , h o w e v e r , t r e a t s t h e H T M L d o c u m e n t a s a s t r e a m o f t o k e n s ( C h a p t e r 7 , " H T M L P r o c e s s i n g w i t h T o k e n s " , w i t h a n e x t e n d e d e x a m p l e i n C h a p t e r 8 , " T o k e n i z i n g W a l k t h r o u g h " ) o r a s a p a r s e t r e e ( C h a p t e r 9 , " H T M L P r o c e s s i n g w i t h T r e e s " ) F o r e x a m p l e , y o u ' l l u s e a t o k e n v i e w a n d a t r e e v i e w t o c o n s i d e r s u c h t a s k s a s h o w t o c a t c h < i m g > t a g s t h a t a r e m i s s i n g s o m e o f t h e i r a t t r i b u t e s , h o w t o g e t t h e a b s o l u t e U R L s o f a l l t h e h e a d l i n e s o n t h e B B C N e w s m a i n p a g e , a n d h o w t o e x t r a c t c o n t e n t f r o m o n e w e b p a g e a n d i n s e r t i t i n t o a d i f f e r e n t t e m p l a t e I n t h e o l d d a y s o f 8 0 x 2 4 t e r m i n a l s , " s c r e e n s c r a p i n g " r e f e r r e d t o t h e a r t o f p r o g r a m m a t i c a l l y e x t r a c t i n g i n f o r m a t i o n f r o m t h e s c r e e n s o f i n t e r a c t i v e a p p l i c a t i o n s T h a t t e r m h a s b e e n c a r r i e d o v e r t o m e a n t h e a c t o f a u t o m a t i c a l l y e x t r a c t i n g d a t a f r o m t h e o u t p u t o f a n y s y s t e m t h a t w a s b a s i c a l l y d e s i g n e d f o r i n t e r a c t i v e u s e T h a t ' s t h e t e r m u s e d f o r g e t t i n g d a t a o u t o f H T M L t h a t w a s m e a n t t o b e l o o k e d a t i n a b r o w s e r , n o t 1 6 n e c e s s a r i l y e x t r a c t e d f o r y o u r p r o g r a m s ' u s e 1 1 2 B r i t t l e n e s s I n s o m e l u c k y c a s e s , y o u r L W P - r e l a t e d t a s k c o n s i s t s o f d o w n l o a d i n g a f i l e w i t h o u t r e q u i r i n g y o u r p r o g r a m t o p a r s e i t i n a n y w a y B u t m o s t t a s k s i n v o l v e h a v i n g t o e x t r a c t a p i e c e o f d a t a f r o m s o m e p a r t o f t h e r e t u r n e d d o c u m e n t , u s i n g t h e s c r e e n - s c r a p i n g t a c t i c s a s m e n t i o n e d e a r l i e r A n u n a v o i d a b l e p r o b l e m i s t h a t t h e f o r m a t o f m o s t w e b c o n t e n t c a n c h a n g e a t a n y t i m e F o r e x a m p l e i n C h a p t e r 8 , " T o k e n i z i n g W a l k t h r o u g h " , I d i s c u s s t h e t a s k o f e x t r a c t i n g d a t a f r o m t h e p r o g r a m l i s t i n g s a t t h e w e b s i t e f o r t h e r a d i o s h o w F r e s h A i r T h e p r i n c i p l e I d e m o n s t r a t e f o r t h a t s p e c i f i c c a s e i s t r u e f o r a l l e x t r a c t i o n t a s k s : n o p a t t e r n i n t h e d a t a i s p e r m a n e n t a n d s o a n y d a t a - p a r s i n g p r o g r a m w i l l b e " b r i t t l e " F o r e x a m p l e , i f y o u w a n t t o m a t c h t e x t i n s e c t i o n h e a d i n g s , y o u c a n w r i t e y o u r p r o g r a m t o d e p e n d o n t h e m b e i n g i n s i d e < h 2 > < / h 2 > t a g s , b u t t o m o r r o w t h e s i t e ' s t e m p l a t e c o u l d b e r e d e s i g n e d , a n d h e a d i n g s c o u l d t h e n b e i n < h 3 c l a s s = ' h d l n ' > < / h 3 > t a g s , a t w h i c h p o i n t y o u r p r o g r a m w o n ' t s e e a n y t h i n g i t c o n s i d e r s a s e c t i o n h e a d i n g I n p r a c t i c e , a n y g i v e n s i t e ' s t e m p l a t e w o n ' t c h a n g e o n a d a i l y b a s i s ( n o r e v e n y e a r l y , f o r m o s t s i t e s ) , b u t a s y o u r e a d t h i s b o o k a n d s e e e x a m p l e s o f d a t a e x t r a c t i o n , b e a r i n m i n d t h a t e a c h s o l u t i o n c a n ' t b e t h e s o l u t i o n , b u t i s j u s t a s o l u t i o n , a n d a t e m p o r a r y a n d b r i t t l e o n e a t t h a t A s s o m e w h a t o f a l e s s o n i n b r i t t l e n e s s , i n t h i s b o o k I s h o w y o u d a t a f r o m v a r i o u s w e b s i t e s ( A m a z o n c o m , t h e B B C N e w s w e b s i t e , a n d m a n y o t h e r s ) a n d s h o w h o w t o w r i t e p r o g r a m s t o e x t r a c t d a t a f r o m t h e m H o w e v e r , t h a t c o d e i s f r a g i l e S o m e s i t e s g e t r e d e s i g n e d o n l y e v e r y f e w y e a r s ; A m a z o n c o m s e e m s t o c h a n g e s o m e t h i n g e v e r y f e w w e e k s S o w h i l e I ' v e m a d e e v e r y e f f o r t t o p r o v i d e a c c u r a t e c o d e f o r t h e w e b s i t e s a s t h e y e x i s t a t t h e t i m e o f t h i s w r i t i n g , I h o p e y o u w i l l c o n s i d e r t h e p r o g r a m s i n t h i s b o o k v a l u a b l e a s l e a r n i n g t o o l s e v e n a f t e r t h e s i t e s w i l l h a v e c h a n g e d b e y o n d r e c o g n i t i o n 1 1 3 W e b S e r v i c e s P r o g r a m m e r s h a v e b e g u n t o r e a l i z e t h e g r e a t v a l u e i n a u t o m a t i n g t r a n s a c t i o n s o v e r t h e W e b T h e r e i s n o w a b o o m i n g i n d u s t r y i n w e b s e r v i c e s , w h i c h i s t h e b u z z w o r d f o r d a t a o r s e r v i c e s o f f e r e d o v e r t h e W e b W h a t d i f f e r e n t i a t e s w e b s e r v i c e s f r o m w e b s i t e s i s t h a t w e b s e r v i c e s d o n ' t e m i t H T M L f o r t h e u l t i m a t e r e a d i n g p l e a s u r e o f h u m a n s , t h e y e m i t X M L f o r p r o g r a m s T h i s r e m o v e s t h e n e e d t o s c r a p e i n f o r m a t i o n o u t o f H T M L , n e a t l y s o l v i n g t h e p r o b l e m o f e v e r - c h a n g i n g w e b s i t e s m a d e b r i t t l e b y t h e f i c k l e t a s t e s o f t h e w e b - b r o w s i n g p u b l i c S o m e w e b s e r v i c e s s t a n d a r d s ( S O A P a n d X M L - R P C ) e v e n m a k e t h e r e m o t e w e b s e r v i c e a p p e a r t o b e a s e t o f f u n c t i o n s y o u c a l l f r o m w i t h i n y o u r p r o g r a m — i f y o u u s e a S O A P o r X M L - R P C t o o l k i t , y o u d o n ' t e v e n h a v e t o p a r s e X M L ! H o w e v e r , t h e r e w i l l a l w a y s b e i n f o r m a t i o n o n t h e W e b t h a t i s n ' t a c c e s s i b l e a s a w e b s e r v i c e F o r t h a t i n f o r m a t i o n , s c r e e n s c r a p i n g i s t h e o n l y c h o i c e W h e n I w r o t e t h e a b o v e , i n 2 0 0 1 o r s o , R S S h a d b e e n a r o u n d f o r y e a r s , b u t h a r d l y a n y o n e a c t u a l l y u s e d i t f o r a n y t h i n g I t w a s a s o r t o f C a t c h - 2 2 : w h y g e n e r a t e a n R S S w h e n a l m o s t n o b o d y h a d a n R S S r e a d e r , s o w h y m a k e a n R S S r e a d e r , i f t h e r e ' s n o t h i n g i n t e r e s t i n g a v a i l a b l e a s R S S ? T h e n , a b o u t 2 0 0 1 , W e b s e r v i c e s a p p e a r e d a n d l o o k e d l i k e t h e y w e r e g o i n g t o b e 1 7 o n e o f t h o s e " t h i s t i m e f o r s u r e ! " s o l u t i o n s w h e r e w e a l l g e t t o h a v e a g l o r i o u s S e m a n t i c W e b w h e r e y o u ' d r e q u e s t a n d r e c e i v e s e m a n t i c a l l y m a r k e d - u p i n f o r m a t i o n o v e r s o m e s o r t o f w e b s e r v i c e p r o t o c o l l i k e X M L - R P C W e l l , i t s o h a p p e n e d t h a t X M L - R P C w e n t o n t o b e a h a n d y w a y f o r b i g p r o g r a m s t o t a l k a b o u t t h e i r b i g d a t a ; b u t R S S l e p t a h e a d a s t h e w a y f o r n o r m a l f o l k s t o g e t w e b d a t a R S S m i g h t n o t b e a n i d e a l o f s e m a n t i c - n e s s , b u t i t ' s s t i l l m u c h l e s s e n c u m b e r e d t h a n H T M L O f c o u r s e , s o l v i n g o n e p r o b l e m c r e a t e s t w o m o r e : F i r s t , s o m e t i m e s y o u t h e n n e e d t o e x t r a c t i n f o r m a t i o n f r o m a n R S S f e e d - - a n d a t t h a t p o i n t , j u s t a b o u t e v e r y t h i n g I s a y i n t h i s b o o k a b o u t e x t r a c t i n g d a t a f r o m H T M L a p p l i e s j u s t a s w e l l t o R S S ( A l t h o u g h , y o u m a y b e t e m p t e d t o u s e X S L ; i t ' s w o r t h a t r y , b u t I f i n d t h e l a n g u a g e a n o d d m i x o f c o n c i s e a n d e x a s p e r a t i n g ) A n d s e c o n d l y , s o m e t i m e s y o u n e e d t o g e t d a t a i n t o R S S , f r o m a n H T M L s o u r c e t h a t f o r o n e r e a s o n o r a n o t h e r d o e s n ' t h a v e a C M S t h a t c a n b e g o a d e d i n t o " e a s i l y " p r o d u c i n g a n R S S f e e d A t t h a t p o i n t , y o u ' r e r i g h t b a c k i n t o t h e t o p i c o f t h i s b o o k , h a r v e s t i n g a n d s c r e e n - s c r a p i n g w e b p a g e s , w i t h j u s t a n e x t r a s t e p a t t h e e n d w h e r e y o u s a v e y o u r d a t a a s R S S T o a b u s e a n e x p r e s s i o n , t h e m o r e t h i n g s s t a y t h e s a m e , t h e m o r e t h e y s t a y t h e s a m e 1 8 1 2 H