Corpora: Fwd: Suchmaschinen-Datenbestand abzugeben/database offer
Dorothee Graf
graf at bibl.uni-essen.de
Thu Jan 10 09:12:25 UTC 2002
Dear readers of the corpora list,
please allow me to forward a mail from a librarian mailing list
(Inetbib) to you. It offers a fulltext index of about 1 mio web pages
that has been used for testing full text searches in web pages and which
is considered to good to be simply deleted. Since the offer is in
German, I include a short summary in English; anyone interested should
contact Daniel Roedding directly.
He suggests the database, which comes as either a complete computer (19"
rack) or as two hard disks with two 60 and two 45 GB each, could be used
by computer linguists and for statistical purposes or as an offline
search machine. He can provide anyone interested with details on
possibilities of use and on interfaces. There is no commercial interest,
but the hardware needs to be paid; the revenue is intended for supplying
material for a new test run.
Yours sincerely,
Dorothee Graf
---
Universitätsbibliothek Essen
Fachreferentin für Anglistik,
Germanistik und Romanistik.
Ansprechpartnerin für Miless,
die Essener Digitale Bibliothek:
http://miless.uni-essen.de
Tel: 0201-183 3721
Daniel Roedding schrieb:
>
> Hallo,
>
> vielleicht erinnert sich der ein oder andere noch an die Thematik
> "Volltextsuche im Web". Wir basteln hier neben dem Alltagsgeschäft
> weiter fleißig an diesem Thema herum, und im Moment wird auch gerade
> mal wieder ein größerer Datenbestand test-indexiert.
>
> Der Testlauf wird mit ca. 1 Mio volltextindexierter WWW-Seiten enden.
> Danach wird der Datenbestand wieder gebügelt und ein neuer Lauf
> mit anderer Parametrierung gestartet.
>
> Jetzt die dumme Frage:
>
> Hat jemand hier Interesse an so einem Volltext-Index?
>
> Mögliche Verwendungszwecke:
>
> - Spielzeug für Statistiker und Computerlinguisten (Material ohne Grenzen)
> - Offline-Suchmaschine (sehr sinnvoll :-)
>
> Der Datenbestand wird in Form von zwei 60- und zwei 45-GB-Platten
> vorliegen, auf denen sich ein lauffähiges Linux-System befindet.
> Oder alternativ als Komplettsystem (großes 19"-Rack).
>
> Hintergrund der Anfrage: wir haben jetzt hier schon gigabyteweise
> Datenmüll erzeugt und irgendwie tut es weh, immer mit "mke2fs" wieder
> drüberzubügeln (neues Filesystem anlegen - im DOS-Jargon "formatieren" -
> geht halt schneller als abräumen). Da es Leute draußen gibt, die
> solche Daten gern hätten, hier einfach mal eine "Verdachtsanfrage", die
> auch gern in andere (geschlossene) Listen weitergeleitet werden kann.
>
> Details zu Auswertemöglichkeiten und Schnittstellen kann ich gern per
> Mail geben. Für mitgelieferte Software von uns gibt's eine maschinen-
> gebundene Nutzungslizenz, ansonsten ist nur freie Software drauf (Linux).
> Über den Abgabepreis müssen wir uns abstimmen (ganzer Rechner oder
> nur Platten?). Der Abgabepreis sollte die Neuanschaffungskosten für
> den nächsten Testlauf abdecken, über eine "Traffic-Spende" würde ich
> mich auch freuen, ansonsten besteht keine Gewinnerzielungsabsicht...
> Ich möchte möchte halt nur unschuldige Daten vor dem ansonsten unwei-
> gerlich anstehenden Exitus retten und denke, daß die Daten hier in der
> Runde ggfs. besser aufgehoben sind als auf ebay... :-)
>
> Viele Grüße,
> Daniel Rödding
>
> --
> Daniel Roedding phone: +49 5252 9838 0
> daniel at roedding.de fax: +49 5252 9838 20
More information about the Corpora
mailing list