The ((i)) files

Σε αυτή τη σελίδα δίνονται σύνδεσμοι προς συμπιεσμένα αρχεία που περιέχουν τα δημοσιεύματα του athens.indymedia.org. Οι λόγοι για τους οποίους γίνεται αυτό, εξηγούνται σε αυτή την ανάρτηση. Παρακάτω, αναφέρομαι στις τεχνικές λεπτομέρειες και στο τέλος υπάρχει ο πίνακας με τα links προς τα αρχεία.

Αν επιλέξετε μια οποιαδήποτε δημοσίευση από τη δεξιά στήλη του athens.indymedia, θα δείτε ότι η διεύθυνση όπου δείχνει ο browser είναι κάτι σαν αυτό:

http://athens.indymedia.org/front.php3?lang=el&article_id=964681

(στην τύχη διάλεξα το συγκεκριμένο δημοσίευμα, θα μπορούσε να είναι οποιοδήποτε άλλο). Βλέπουμε στην αρχή τη διεύθυνση του indy, μετά τη λεξούλα front.php3?, ύστερα lang=el, που θα πει “γλώσσα=ελληνικά” (αν ήταν στα αγγλικά, θα έγραφε lang=en) και στο τέλος, article_id=964681 που θα πει “άρθρο υπ´ αριθ. 964681”. Από όλα αυτά, για κάθε δημοσίευση, αλλάζει μόνο η γλώσσα και ο αριθμός του άρθρου. Αν μάλιστα, ενδιαφερόμαστε για άρθρα στα ελληνικά, τότε αλλάζει μόνο ο αριθμός στο τέλος της διεύθυνσης. Αξίζει να σημειώσουμε ότι τα ίδια ακριβώς ισχύουν και για τα λεγόμενα “κρυμμένα”. (update: βλ. ΥΓ2, στο τέλος αυτού του κειμένου)

Βέβαια, στην πραγματικότητα οι δημοσιεύσεις του indy, όπως και σε κάθε μεγάλο “δυναμικό” site (δηλ. site που μπορούν να αλλάζουν τα περιεχόμενά του, όπως π.χ. ένα forum) δεν υπάρχουν σε κάποιο σκληρό δίσκο ως ξεχωριστά αρχεία με ονόματα όπως τα παραπάνω, αλλά αυτό που αποθηκεύεται είναι τα συστατικά τους στοιχεία (κείμενα και στοιχεία που παρέχουν οι χρήστες) και ξεχωριστά ο,τι παραμένει σταθερό και αμετάβλητο. Στη συνέχεια, κάποια κατάλληλα προγραμματάκια (scripts) δημιουργούν επιτόπου και αποστέλλουν κάθε σελίδα, αν και όταν ζητηθεί, προς τον υπολογιστή όποιου τη ζητήσει (κάπου εδώ πρέπει να υπεισέρχεται και το front.php3 που είδαμε πιο πάνω).

Αυτές οι λεπτομέρειες όμως, δε χρειάζεται να απασχολούν εμάς, τους απλούς χρήστες και αναγνώστες του athens.indymedia. Αυτό που ενδιαφέρει εμάς είναι η σελίδα στην τελική, αναγνώσιμη μορφή της. Τα παρακάτω αρχεία  λοιπόν, περιέχουν το καθένα, πολλές χιλιάδες τέτοιες σελίδες σε μορφή αρχείου html. Κάθε τέτοιο html αρχείο έχει ένα όνομα της μορφής π.χ. 964681.html που σημαίνει ότι αντιστοιχεί σε μια διεύθυνση σαν αυτή που γράψαμε πιο πάνω, δηλαδή με τον αριθμό 964681 στο τέλος, εκεί που λέει article_id=

Κάποιες παρατηρήσεις για τα αρχεία που δίνονται από αυτή τη σελίδα:

  • Κάθε αρχείο αναφέρεται σε μια δεκάδα χιλιάδες τέτοιες ιστοσελίδες, π.χ. 10000-19999, σημαίνει ότι περιέχονται τα αρχεία με id από 10000 έως και 19999.
  • Στην πραγματικότητα, δεν περιέχονται όλες οι ιστοσελίδες μεταξύ του κατώτερου και ανώτερου id κάθε “ομάδας”. Ο λόγος είναι ότι όταν άρχισα να τις κατεβάζω, παρατήρησα ότι ένα πολύ μεγάλο ποσοστό αυτών είναι πανομοιότυπες και άδειες από ουσιαστικές πληροφορίες, όπως αυτή εδώ. Δεν είμαι βέβαιος γιατί ακριβώς συμβαίνει αυτό, αλλά έτσι κι αλλιώς δεν έχουν κάτι να μας προσφέρουν οπότε τις παρέλειψα. [update: πρόκειται για μεμονωμένες αναρτήσεις που αποτελούν μέρος μεγαλύτερων threads· αν θέλει να τις δει κανείς ως μεμονωμένα posts στο indy, πρέπει να βάλει το δικό τους id μετά από τον αριθμό της αρχικής δημοσίευσης και το σύμβολο # ανάμεσα. Εμάς δε μας πολυενδιαφέρει αυτό αφού τα threads με όλες τις αναρτήσεις τους περιέχονται στα αρχεία που δεν πετάμε.]
  • Πρέπει να πω ότι δυστυχώς δε θα βρείτε εδώ μέσα εικόνες, βίντεο και άλλα αρχεία πολυμέσων – εκτός αν αυτά δίνονταν ως σύνδεσμοι σε εξωτερικές ιστοσελίδες στις οποίες εξακολουθούν να βρίσκονται. Δεν είχα το χρόνο να βρω κάποιον εύκολο και πρακτικό τρόπο να χειριστώ και να ταξινομήσω όλο αυτό το υλικό, αλλά και να τον έβρισκα, ο χώρος που θα χρειαζόταν και σε μένα και σε εσάς, θα ήταν πολλαπλάσιος. Ίσως μια άλλη φορά…
  • Τα αρχεία ακόμη και χωρίς πολυμέσα, είναι πολύ μεγάλα και έτσι τα συμπίεσα. Δίνονται σε μορφή tar.gz Όσοι έχουν υπολογιστή με UNIX ή Linux θα ξέρουν ότι μπορούν να τα αποσυμπιέσουν από τη γραμμή εντολών με tar xzvf [όνομα_αρχείου]. Για όσους έχουν Windows, νομίζω ότι προγράμματα όπως τα winzip και winrar, μπορούν να χειριστούν τα tar.gz αρχεία. Για Mac δεν έχω ιδέα, αλλά όλο και κάτι θα υπάρχει.
  • Στον παρακάτω πίνακα, στην πρώτη στήλη δίνεται ο σύνδεσμος προς κάθε αρχείο, στη δεύτερη, το μέγεθος σε Mb, όταν είναι συμπιεσμένο και στην τρίτη το μέγεθος που θα έχει όταν αποσυμπιεστεί. Όπως βλέπετε, δεν είναι και λίγο…
  • Η αρχειοθέτηση ξεκίνησε στις 24/3/2011 και επειδή δεν έχω άπειρο ελεύθερο χρόνο, υπολογίζω να τελειώσει σε 1-2 μήνες (εννοείται, ότι θα συνεχίσω να ανεβάζω και ο,τι καινούριο δημοσιεύεται στη συνέχεια). Μετά, σκοπεύω να ανεβάσω αντίστοιχα αρχεία για τις δημοσιεύσεις σε αγγλική γλώσσα και τέλος, να τα ανεβάσω όλα και ως αρχεία απλού κειμένου, χωρίς τον κώδικα html, τα οποία θα πιάνουν λιγότερο χώρο, αλλά δε θα έχουν τη λειτουργικότητα μιας ιστοσελίδας (βλ. σύνδεσμοι).
  • Στο δικό μου υπολογιστή οι κατεβασμένες ιστοσελίδες φαίνονται μια χαρά (απλά λείπουν ορισμένα επουσιώδη στοιχεία όπως το μαύρο φόντο κλπ). Αν στο δικό σας υπολογιστή και λειτουργικό δε διαβάζονται, πείτε μου να δω τι μπορεί να γίνει.

25/3/2011

Υπερπαραπληροφορημένος

Υ. Γ. – Σημαντική παράλειψή μου που δεν έγραψα πώς κατεβάζω όλες αυτές τις ιστοσελίδες, ώστε να μπορούν να το κάνουν και άλλοι. Προφανώς δεν το κάνω με το χέρι! Έγραψα αυτό το πρόγραμμα σε C που καλεί επαναληπτικά τον lynx, έναν browser κειμένου, με την επιλογή -source για να σώσει τον html κώδικα των ιστοσελίδων. Τίποτα το σπουδαίο, εντελώς ερασιτεχνική προσπάθεια, αλλά τη δουλειά την κάνει και αυτό είναι που έχει σημασία. Ας πούμε ότι θέλω να κατεβάσω τις σελίδες από 1000 έως 2000. Θα γράψω:

./a.out 1000 2000 &

Το διαχωρισμό των “άδειων” αρχείων τον έκανα βάσει του μεγέθους τους. Τα χρήσιμα αρχεία παρατηρώ ότι έχουν μέγεθος πάνω από 24694 bytes, οπότε τα μεταφέρω ως εξής:

find . -size +24694c -exec mv -i {} ../[όνομα_καταλόγου]/ \;

και σβήνω τα υπόλοιπα. Ξέχασα να πω ότι έχω Linux και δεν είμαι σε θέση να δώσω επαρκείς οδηγίες για το πώς ακριβώς θα γίνει η δουλειά με Windows ή Mac, αλλά δεν πιστεύω ότι θα ήταν δύσκολο.

Υ. Γ.  2 – Αποδείχτηκε ότι τα περίφημα “κρυμμένα” ήθελαν λιγάκι διαφορετική μεταχείριση από τα άλλα δημοσιεύματα. Ενώ ολόκληρα threads που κρύφτηκαν μπορούν να βρεθούν στα αρχεία που ανακτώνται με την παραπάνω μέθοδο, αυτό φαίνεται ότι δεν ισχύει για μεμονωμένα posts (αυτά που αντιστοιχούν στις “κενές” σελίδες που αναφέρω στην προηγούμενη παράγραφο). Ευτυχώς υπάρχει μια άλλη μορφή με την οποία εμφανίζονται τα κρυμμένα και την οποία μπορούμε να αξιοποιήσουμε με τρόπο παρόμοιο: είναι κάποιου είδους φόρμα επεξεργασίας σαν αυτή που μπορείτε να δείτε εδώ – όχι και το καλύτερο, αλλά απ’ τ’ ολότελα… Οι διευθύνσεις αυτών των σελίδων έχουν τη μορφή

http://athens.indymedia.org/admin/edit.php?id=     +     αριθμός δημοσίευσης

οπότε είναι αρκετό να αλλάξει μια γραμμή στο πρόγραμμα ανάκτησης των ιστοσελίδων που δίνεται πιο πάνω. Η δυσκολία έγκειται στο να ξεχωρίσουμε τα κρυμμένα από τα άλλα, αφού τώρα πια, δεν υπάρχει κάποιο χαρακτηριστικό μέγεθος σε bytes (κρυμμένα και φανερά είναι εξίσου πιθανό να έχουν οποιοδήποτε μέγεθος). Ευτυχώς, κάτω αριστερά στη φόρμα επεξεργασίας υπάρχει μια επιλογή Display? με δυνατές τιμές yes και no – αυτή προφανώς υλοποιεί το κρύψιμο ή όχι της δημοσίευσης. Αρκεί να βρούμε ένα χαρακτηριστικό string στον κώδικα της ιστοσελίδας, όταν είναι επιλεγμένο το no. Ένα τέτοιο string είναι π. χ. το

VALUE=”no” SELECTED>no<

που μας επιτρέπει να γράψουμε κάποιο πρόγραμμα ή script για να ξεχωρίζουμε τα κρυμμένα από τα άλλα δημοσιεύματα.

Τώρα, δεν απομένει παρά να ανεβαίνουν τα κρυμμένα μαζί με τα άλλα δημοσιεύματα και αυτό γίνεται στο δεύτερο πίνακα αυτής της σελίδας που ακολουθεί μετά από τον αμέσως επόμενο.

Φανερά δημοσιεύματα (= όσα δεν κρύφτηκαν)

Αρχείο Συμπιεσμένο (ΜΒ) Ασυμπίεστο (ΜΒ)
1 – 9999 12.2 79.2
10000 – 19999 10.1 56.0
20000 – 29999 12.2 53.7
30000 – 39999 8.1 44.4
40000 – 49999 8.8 43.2
50000 – 59999 9.8 47.7
60000 – 69999 9.6 52.1
70000 – 79999 9.2 50.0
80000 – 89000 7.9 51.3
90000 – 99000 9.3 45.3
100000 – 109999 7.8 57.7
110000 – 119999 7.7 42.4
120000 – 129999 9.3 41.4
130000 – 139999 10.0 44.6
140000 – 149999 9.7 45.2
150000 – 159999 7.3 41.9
160000 – 169999 8.3 45.5
170000 – 179999 8.4 42.2
180000 – 189999 8.0 50.2
190000 – 199999 8.1 44.2
200000 – 209999 9.0 44.7
210000 – 219999 7.7 42.1
220000 – 229999 7.7 42.1
230000 – 239999 7.4 40.0
240000 – 249999 7.6 38.0
250000 – 259999 7.8 41.9
260000 – 269999 8.5 42.9
270000 – 279999 8.0 46.2
280000 – 289999 7.7 47.6
290000 – 299999 7.7 42.6
300000 – 309999 7.7 47.0
310000 – 319999 7.0 39.9
320000 – 329999 7.2 42.5
330000 – 339999 8.8 65.1
340000 – 349999 7.4 42.1
350000 – 359999 6.7 37.6
360000 – 499999 Δε βρέθηκαν σελίδες με περιεχόμενο σε αυτές τις ομάδες
500000 – 509999 6.5 39.8
510000 – 519999 6.5 44.5
520000 – 529999 6.0 39.7
530000 – 539999 5.9 33.5
540000 – 549999 6.5 37.8
550000 – 559999 6.7 41.2
560000 – 569999 6.5 41.1
570000 – 579999 8.2 41.9
580000 – 589999 5.9 40.2
590000 – 599999 5.9 42.7
600000 – 609999 5.8 36.8
610000 – 619999 6.6 40.6
620000 – 629999 5.7 37.5
630000 – 639999 6.2 39.4
640000 – 649999 6.1 39.5
650000 – 659999 6.4 40.7
660000 – 669999 6.8 42.8
670000 – 679999 6.3 43.7
680000 – 689999 7.8 45.7
690000 – 699999 7.6 48.5
700000 – 709999 7.7 51.4
710000 – 719999 7.0 47.6
720000 – 729999 7.3 46.9
730000 – 739999 7.3 45.9
740000 – 749999 7.2 49.8
750000 – 759999 7.3 54.6
760000 – 769999 7.3 48.0
770000 – 779999 7.7 51.5
780000 – 789999 8.2 55.3
790000 – 799999 8.5 55.4
800000 – 809999 7.8 56.6
810000 – 819999 7.0 52.3
820000 – 829999 7.4 52.5
830000 – 839999 8.5 56.6
840000 – 849999 8.1 57.0
850000 – 859999 8.3 58.3
860000 – 869999 8.4 57.7
870000 – 879999 7.4 53.1
880000 – 889999 21.3 67.4
890000 – 899999 6.6 56.3

Συνεχίζεται…

Κρυμμένα

Αρχεία Συμπιεσμένο (ΜΒ) Ασυμπίεστο (ΜΒ)
1 – 9999 0.9 17.7
10000 – 19999 0.5 15.2
20000 – 29999 2.2 31.5
30000 – 39999 0.8 32.1
40000 – 49999 0.7 23.7
50000 – 59999 0.6 18.0
60000 – 69999 0.7 19.8
70000 – 79999 0.6 13.3
80000 – 89999 0.7 22.7
90000 – 99999 1.3 27.2
100000 – 109999 1.1 44.8
110000 – 119999 0.8 22.9
120000 – 129999 0.8 21.1
130000 – 139999 1.1 27.2
140000 – 149999 0.7 22.4
150000 – 159999 1.3 53.5
160000 – 169999 0.7 20.8
170000 – 179999 1.0 28.0
180000 – 189999 1.0 33.8
190000 – 199999 0.8 25.0
200000 – 209999 1.0 28.5
210000 – 219999 1.5 39.4
220000 – 229999 1.3 27.9
230000 – 239999 1.0 30.0
240000 – 249999 1.0 26.2
250000 – 259999 1.5 38.8
260000 – 269999 1.4 40.1

Συνεχίζεται…

τελευταία ενημέρωση: 15 Απρ 2011

One Response to The ((i)) files

  1. Pingback: Προσφορά για το Σαββατοκύριακο: The ((i)) files! | overdisinformation

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s