Planung #21966: Bereinigung von chinesischen Allegro und Eacat Dubletten - Services - SBB Redmine

Aktionen

Link kopieren

Planung #21966

offen

Bereinigung von chinesischen Allegro und Eacat Dubletten

Von Franziska Trempler vor 24 Tagen hinzugefügt. Vor 1 Tag aktualisiert.

Status:

Neu

Priorität:

Normal

Zugewiesen an:

Raina Schote

Beginn:

25.03.2025

Abgabedatum:

% erledigt:

Geschätzter Aufwand:

Beschreibung

In oa1.2 und oa1.4 befinden sich Dubletten, Signaturen und Titelaufnahmen weichen dabei geringfügig ab:

--> die dubletten Datensätze müssen bestimmt werden, ein Verlierer- und ein Gewinner-Datensatz festgelegt werden und anschließend eine Umlenkung eingetragen werden

Kathrin Weckerle (IIIF) 25.03.2025 15:02 • https://wiki.k10plus.de/display/K10PLUS/Dubletten+umlenken
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • https://opus.k10plus.de/frontdoor/deliver/index/docId/568/file/K10plus_maschinelle_Deduplizierung_mit_Notizen.pdf
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • Zu beachten: S. 5
Einige Inhalte müssen beim Eintragen der Umlenkung dagegen manuell übertragen werden, vor allem • Feld 30X0/31X0: Beziehungen zu Personen und Körperschaften • Feld 3210/3211: Werktitel • Feld 3260/4212: Abweichende Titel • Feld 4030: Zusätzliche Erscheinungsorte oder Verlage • Feld 418X: Verknüpfungen zu fortlaufenden Ressourcen
Kathrin Weckerle (IIIF) 25.03.2025 15:06 • Volle Liste der Felder, die übernommen werden: https://opus.k10plus.de/frontdoor/deliver/index/docId/414/file/K10plus_Nachnutzung_Anhang_2.pdf

Martina Siebert 25.03.2025 14:59 • Ich habe jetzt einen Link zum Abzug von Maike vom letzten Mai hier abgelegt: P:\Crossasia FID\CBS_Abzug. Der Abzug ist alles, was im "Fachopac" ist (normaler WinIBW-Zugang, b > 1.97).
Unsere internen Dubletten verstecken verstecken sich in oa1.2 und oa1.4, wenn es dort derselbe Titel katalogisiert wurde, ist - denke ich?? - die Aufnahme in oa1.1 besser. Raina hat da aber sicher einen besseren Einblick. Die Abzüge von damals liegen auch dort als PICA+ und PICA-XML aber alles was keine verknüpfte O-Aufnahme hat hat eine andere PPN

@Raina Schote ~~in einer Tabelle Beispiele dazu sammeln~~:
- Unterschiede in den Signaturen
- Abweichungen in den Titelaufnahmen (3000er Feldern, Sacherschließungsdaten ...?)
- aus welchem oa-Segment der Gewinner-Satz kam

WICHTIG: Felder 006Y(=2199) müssen erhalten bleiben!! 028er Felder Unterfelder $7 auch erhalten

Dateien

Alle Dateien heruterladen

dubletten_oa1-2_oa1-4.txt (108 KB) dubletten_oa1-2_oa1-4.txt		Franziska Trempler, 26.03.2025 14:34
dubletten_oa1-2_oa1-4_records_part_aa.txt (2,1 MB) dubletten_oa1-2_oa1-4_records_part_aa.txt	part_aa enthält 1100 der 3170 Signaturen	Franziska Trempler, 01.04.2025 10:52

Aktionen

Link kopieren

Von Franziska Trempler vor 24 Tagen aktualisiert

Beschreibung aktualisiert (Vergleich)

Aktionen

Link kopieren

Von Franziska Trempler vor 24 Tagen aktualisiert · Edited

@Martina Siebert erfragt bei Maike Tech einen Abzug mit Exemplarsätzen von oa1.1, oa1.2 und oa.1.4

@Franziska Trempler erstellt mit catmandu eine Lookup-Liste mit Signaturen (ggf. bereinigt) und lässt sie gegen die anderen Segmente laufen

Übergabe des Endergebnisses erst an Fr. Faude --> wenn nein dann VZG Support (Matthias in cc)

Aktionen

Link kopieren

Von Franziska Trempler vor 23 Tagen aktualisiert · Edited

Datei dubletten_oa1-2_oa1-4.txt dubletten_oa1-2_oa1-4.txt wurde hinzugefügt

Mit dem Dump "oa1_all_Endstand_1_97 vor Migration" habe ich eine Liste von 3170 Signaturen erstellt, die sowohl in oa1.2 als auch oa1.4 vorkommen:

for part in lookup_signaturen_oa1-4_part_*; do grep -w -f "$part" signaturen_oa1-2.txt >> dubletten_oa1-2_oa1-4.txt; done

die Dateien lookup_signaturen_oa1-4_part_* enthalten jeweils 10.000 Zeilen, Aufteilung war nötig, weil sonst der Server den Prozess zwangsweise beendet

split -l 10000 lookup_signaturen_oa1-4.txt lookup_signaturen_oa1-4_part_

lookup_signaturen_oa1-4.txt erstellt in 2 Schritten mit:

grep -A 6 -E '045W.*oa1.4' oa1_all.pp > signaturen_oa1-4.txt

grep -E '209A.*' signaturen_oa1-4.txt > lookup_signaturen_oa1-4.txt

und anschließende Bereinigung in Notepad++

Aktionen

Link kopieren

Von Franziska Trempler vor 22 Tagen aktualisiert · Edited

https://sru.k10plus.de/opac-de-627?operation=explain&version=1.1

catmandu convert SRU --base https://sru.k10plus.de/fachopac-asia --query "pica.sgb=873954" --recordSchema picaxml --parser picaxml to PICA --type plain > test.txt

Aktionen

Link kopieren

Von Martina Siebert vor 21 Tagen aktualisiert

Tracker wurde von Bug zu Planung geändert

Aktionen

Link kopieren

Von Franziska Trempler vor 17 Tagen aktualisiert

Datei dubletten_oa1-2_oa1-4_records_part_aa.txt dubletten_oa1-2_oa1-4_records_part_aa.txt wurde hinzugefügt

Aktionen

Link kopieren

Von Franziska Trempler vor 17 Tagen aktualisiert

#!/usr/bin/bash

INPUT_FILE="recherchestapel_dubletten_oa1-2_oa1-4_part_aa"
OUTPUT_FILE="dubletten_oa1-2_oa1-4_records_part_aa"
BASE_URL="https://sru.k10plus.de/fachopac-asia"
DELAY=3 # Sekunden Verzögerung

Falls die Output-Datei existiert, leeren

"$OUTPUT_FILE"

while IFS= read -r query; do
echo "Suche nach: $query"
catmandu convert SRU --base "$BASE_URL" --query "pica.sgb=$query" --recordSchema picaxml --parser picaxml to PICA --type plain >> "$OUTPUT_FILE"
echo "###" >> "$OUTPUT_FILE" # Zeile mit ### für bessere Lesbarkeit
sleep $DELAY
done < "$INPUT_FILE"

echo "Abfragen abgeschlossen. Ergebnisse in $OUTPUT_FILE gespeichert."

Aktionen

Link kopieren

Von Franziska Trempler vor 17 Tagen aktualisiert

Beschreibung aktualisiert (Vergleich)

Aktionen

Link kopieren

Von Franziska Trempler vor 17 Tagen aktualisiert

Beschreibung aktualisiert (Vergleich)

Aktionen

Link kopieren

#10

Von Franziska Trempler vor 16 Tagen aktualisiert

@Franziska Trempler prüfen welche Felder in unseren records vorkommen

Aktionen

Link kopieren

#11

Von Raina Schote vor 1 Tag aktualisiert

Nach 40 random geprüften Sätzen hat 1.4 eindeutig gewonnen. Im Vergleich gibt es dort fast immer Felder 1700 und 8010, auch sind die Schlagwörter oft besser. Bei 1.2 fehlt das pinyin von Reihen, aber z.T. gibt es hier Schlagwörter, wenn sie bei 1.4 fehlen. Es gab knapp 30 Gewinnersätze von 1.4 und nur 3 von 1.2, kaum Unterschiede gab es bei 6 TA. Unterschiede in den Signaturen habe ich nicht gefunden, aber es gab Signaturen, die kein Gegenstück hatten, also nur einmal vorkamen.

Aktionen

Link kopieren

Auch abrufbar als: Atom PDF

Projekt

Allgemein

Profil

Services

Planung #21966

Bereinigung von chinesischen Allegro und Eacat Dubletten

Von Franziska Trempler vor 24 Tagen aktualisiert

Von Franziska Trempler vor 24 Tagen aktualisiert · Edited

Von Franziska Trempler vor 23 Tagen aktualisiert · Edited

Von Franziska Trempler vor 22 Tagen aktualisiert · Edited

Von Martina Siebert vor 21 Tagen aktualisiert

Von Franziska Trempler vor 17 Tagen aktualisiert

Von Franziska Trempler vor 17 Tagen aktualisiert

Von Franziska Trempler vor 17 Tagen aktualisiert

Von Franziska Trempler vor 17 Tagen aktualisiert

Von Franziska Trempler vor 16 Tagen aktualisiert

Von Raina Schote vor 1 Tag aktualisiert