Planung #21966
offenBereinigung von chinesischen Allegro und Eacat Dubletten
0%
Beschreibung
In oa1.2 und oa1.4 befinden sich Dubletten, Signaturen und Titelaufnahmen weichen dabei geringfügig ab:
--> die dubletten Datensätze müssen bestimmt werden, ein Verlierer- und ein Gewinner-Datensatz festgelegt werden und anschließend eine Umlenkung eingetragen werden
Kathrin Weckerle (IIIF) 25.03.2025 15:02 • https://wiki.k10plus.de/display/K10PLUS/Dubletten+umlenken
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • https://opus.k10plus.de/frontdoor/deliver/index/docId/568/file/K10plus_maschinelle_Deduplizierung_mit_Notizen.pdf
Kathrin Weckerle (IIIF) 25.03.2025 15:04 • Zu beachten: S. 5
Einige Inhalte müssen beim Eintragen der Umlenkung dagegen manuell übertragen werden, vor allem • Feld 30X0/31X0: Beziehungen zu Personen und Körperschaften • Feld 3210/3211: Werktitel • Feld 3260/4212: Abweichende Titel • Feld 4030: Zusätzliche Erscheinungsorte oder Verlage • Feld 418X: Verknüpfungen zu fortlaufenden Ressourcen
Kathrin Weckerle (IIIF) 25.03.2025 15:06 • Volle Liste der Felder, die übernommen werden: https://opus.k10plus.de/frontdoor/deliver/index/docId/414/file/K10plus_Nachnutzung_Anhang_2.pdf
Martina Siebert 25.03.2025 14:59 • Ich habe jetzt einen Link zum Abzug von Maike vom letzten Mai hier abgelegt: P:\Crossasia FID\CBS_Abzug. Der Abzug ist alles, was im "Fachopac" ist (normaler WinIBW-Zugang, b > 1.97).
Unsere internen Dubletten verstecken verstecken sich in oa1.2 und oa1.4, wenn es dort derselbe Titel katalogisiert wurde, ist - denke ich?? - die Aufnahme in oa1.1 besser. Raina hat da aber sicher einen besseren Einblick. Die Abzüge von damals liegen auch dort als PICA+ und PICA-XML aber alles was keine verknüpfte O-Aufnahme hat hat eine andere PPN
@Raina Schote in einer Tabelle Beispiele dazu sammeln:
- Unterschiede in den Signaturen
- Abweichungen in den Titelaufnahmen (3000er Feldern, Sacherschließungsdaten ...?)
- aus welchem oa-Segment der Gewinner-Satz kam
WICHTIG: Felder 006Y(=2199) müssen erhalten bleiben!! 028er Felder Unterfelder $7 auch erhalten
Dateien
Von Franziska Trempler vor 16 Tagen aktualisiert · Edited
@Martina Siebert erfragt bei Maike Tech einen Abzug mit Exemplarsätzen von oa1.1, oa1.2 und oa.1.4
@Franziska Trempler erstellt mit catmandu eine Lookup-Liste mit Signaturen (ggf. bereinigt) und lässt sie gegen die anderen Segmente laufen
Übergabe des Endergebnisses erst an Fr. Faude --> wenn nein dann VZG Support (Matthias in cc)
Von Franziska Trempler vor 15 Tagen aktualisiert · Edited
- Datei dubletten_oa1-2_oa1-4.txt dubletten_oa1-2_oa1-4.txt wurde hinzugefügt
Mit dem Dump "oa1_all_Endstand_1_97 vor Migration" habe ich eine Liste von 3170 Signaturen erstellt, die sowohl in oa1.2 als auch oa1.4 vorkommen:
for part in lookup_signaturen_oa1-4_part_*; do grep -w -f "$part" signaturen_oa1-2.txt >> dubletten_oa1-2_oa1-4.txt; done
die Dateien lookup_signaturen_oa1-4_part_* enthalten jeweils 10.000 Zeilen, Aufteilung war nötig, weil sonst der Server den Prozess zwangsweise beendet
split -l 10000 lookup_signaturen_oa1-4.txt lookup_signaturen_oa1-4_part_
lookup_signaturen_oa1-4.txt erstellt in 2 Schritten mit:
grep -A 6 -E '045W.*oa1.4' oa1_all.pp > signaturen_oa1-4.txt
grep -E '209A.*' signaturen_oa1-4.txt > lookup_signaturen_oa1-4.txt
und anschließende Bereinigung in Notepad++
Von Franziska Trempler vor 14 Tagen aktualisiert · Edited
https://sru.k10plus.de/opac-de-627?operation=explain&version=1.1
catmandu convert SRU --base https://sru.k10plus.de/fachopac-asia --query "pica.sgb=873954" --recordSchema picaxml --parser picaxml to PICA --type plain > test.txt
Von Franziska Trempler vor 10 Tagen aktualisiert
- Datei dubletten_oa1-2_oa1-4_records_part_aa.txt dubletten_oa1-2_oa1-4_records_part_aa.txt wurde hinzugefügt
Von Franziska Trempler vor 10 Tagen aktualisiert
#!/usr/bin/bash
INPUT_FILE="recherchestapel_dubletten_oa1-2_oa1-4_part_aa"
OUTPUT_FILE="dubletten_oa1-2_oa1-4_records_part_aa"
BASE_URL="https://sru.k10plus.de/fachopac-asia"
DELAY=3 # Sekunden Verzögerung
- Falls die Output-Datei existiert, leeren
"$OUTPUT_FILE"
while IFS= read -r query; do
echo "Suche nach: $query"
catmandu convert SRU --base "$BASE_URL" --query "pica.sgb=$query" --recordSchema picaxml --parser picaxml to PICA --type plain >> "$OUTPUT_FILE"
echo "###" >> "$OUTPUT_FILE" # Zeile mit ### für bessere Lesbarkeit
sleep $DELAY
done < "$INPUT_FILE"
echo "Abfragen abgeschlossen. Ergebnisse in $OUTPUT_FILE gespeichert."
Von Franziska Trempler vor 8 Tagen aktualisiert
@Franziska Trempler prüfen welche Felder in unseren records vorkommen